Intermitência em operações no cadastro de produto do Hiper Gestão

Incident Report for Hiper Software

Postmortem

Esta publicação tem por objetivo detalhar os eventos que envolveram o incidente do dia 15/09 ocasionando intermitências em operações que dependem do cadastro de produtos do Hiper Gestão. No decorrer do relatório será apresentado a descrição do incidente, causas, linha do tempo e próximos passos. 

 

Código: 2025091501 

Data: 15/04/2022, segunda-feira 

Horário de início: 09h19 (horário de Brasília) 

Horário de resolução: 11h26 (horário de Brasília) 

Tempo total de impacto: 02 horas e 07 minutos 

Impacto: intermitência em operações que utilizam dados do cadastro de produtos do Hiper Gestão. 

 

O quê e por que o incidente aconteceu? 

Foi identificada uma falha de escalabilidade na infraestrutura do banco de dados que armazena as informações relacionadas ao cadastro de produto. A infraestrutura de banco de dados que hospeda essas informações opera em um cluster de alta disponibilidade, ao analisar o problema, identificamos que uma das instâncias de replica utilizada para operações de leitura apresentou falhas durante seu processo de upgrade. O processo de upgrade é uma operação natural deste cluster que tem como objetivo garantir a performance das requisições, independente do volume transacionado. O cluster de banco de dados é hospedado em nuvem e a falha foi originada na infraestrutura deste servidor. 

Durante o incidente, requisições enviadas para o servidor que apresentava a falha possuíam um tempo de resposta muito alto ou resultavam em erros. Devido ao fato de o serviço de armazenamento rodar em cluster, o incidente não foi identificado por todos os clientes, pois dois terços das requisições foram direcionadas para os servidores que estavam saudáveis naquele momento. 

 

Linha do tempo 

A seguir vamos apresentar uma linha do tempo de tudo o que aconteceu, desde o início do incidente, passando por todas as ações executadas para conter o impacto, até a solução definitiva do problema. 

  • 09h36: foi identificado que operações no faturamento do Hiper Gestão que utilizam o contexto de produto apresentavam lentidão 

  • 09h38: foi iniciada a tratativa do incidente para mitigar o impacto e identificar a causa raiz 

  • 09h49: foi identificado que uma das instâncias de réplica do

cluster de banco de dados que hospeda as informações do cadastro de produto estava apresentando falha 

  • 10h34: nossos times realizaram a distribuição da carga de leitura que apresentava falhas para os servidores que estavam saudáveis, com o objetivo de mitigar os impactos do incidente. Ao finalizar este processo, foi identificado que os dois servidores não seriam suficientes para acomodar toda a carga de requisições 

  • 10h45: nossos times iniciaram um segundo processo de

upgrade do cluster com o objetivo de garantir que com duas instâncias saudáveis todas as requisições fossem respondidas corretamente 

  • 11h26: a instância que apresentava falha voltou a responder corretamente e o tempo de resposta das requisições normalizou 

  • 11h30: o segundo processo de

upgrade foi concluído e nenhum impacto residual foi identificado 

 

Próximos passos 

Após a solução do incidente e coleta de todos os eventos realizados para contenção e identificação das causas, foi realizado o processo de revisão e post-mortem com o objetivo de identificar ações que possam eliminar a recorrência deste incidente originado pela mesma causa. Considerando que a causa do incidente foi uma falha interna com o provedor de serviços, junto ao terceiro, vamos avaliar oportunidades de melhoria na gestão de capacidade ou realocação do cluster para regiões que não estejam enfrentando problemas de disponibilidade.

Posted Sep 15, 2025 - 17:10 GMT-03:00

Resolved

Descrição do caso: após acompanhar a carga do ambiente evidenciamos que nenhum impacto residual foi identificado após às 11h39, horário do último comunicado.

A causa raiz do incidente está relacionada à uma falha de escalabilidade na infraestrutura do banco de dados que armazena as informações relacionadas ao cadastro de produto. Apesar da infraestrutura possuir requisitos de alta disponibilidade, um dos servidores que recebe a carga de leitura apresentou problemas durante o processo de aumento de sua capacidade computacional, culminando em intermitências no acesso às informações do cadastro de produtos para as requisições que eram enviadas até este servidor.
Posted Sep 15, 2025 - 16:12 GMT-03:00

Monitoring

Descrição do caso: após executar as ações de ajuste de capacidade na infraestrutura do banco de dados, foi possível mitigar os impactos do problema. Neste momento, os indicadores apresentam estabilidade e nossos times segue atuando para identificar a causa raiz junto ao provedor de nuvem.

Impacto: sem impacto.
Posted Sep 15, 2025 - 11:39 GMT-03:00

Update

Descrição do caso: nossos times seguem atuando para mitigar os impactos do problema, a origem do incidente está relacionada a infraestrutura em nuvem que hospeda uma das réplicas de leitura do banco de dados do novo cadastro de produto.

Impacto: intermitência em operações que utilizem as informações de produtos cadastrados no Hiper Gestão.
Posted Sep 15, 2025 - 10:58 GMT-03:00

Identified

Descrição do caso: identificamos por volta das 09h28 uma falha em uma das réplicas de banco de dados que armazenam informações relacionadas ao cadastro de produto, a falha está sendo originada na infraestrutura de nuvem que hospeda este banco de dados. Nossos times estão atuando para mitigar os impactos do problema.

Impacto: intermitência em operações que utilizem as informações de produtos cadastrados no Hiper Gestão.
Posted Sep 15, 2025 - 10:05 GMT-03:00
This incident affected: Hiper Gestão (Hiper Gestão).