A Efetividade das Monitorações dos Ambientes de TI!

Não basta investir em implantação de soluções de monitoração com observabilidade, é necessário garantir que a monitoração evolua junto com o negócio, definindo processos que dê diretrizes para a implantação de monitorações, independente das soluções utilizadas, como manter “vivas” estas monitorações e utilizando de recursos que poderiam reduzir o tempo de troubleshooting para identificação da causa raiz ou até mesmo evitar incidentes através de análise preditiva.

No entendimento da BW Soluções existem 4 “pilares” de monitoração: Telecom, Infra, Aplicações e Negócio, no qual, na maioria das empresas, as monitorações de cada “pilar” são definidas de formas independentes e sem o envolvimento de todas as equipes responsáveis pelos ambientes e aplicações e que são acionados para análise quando ocorre algum evento. O resultado disso é um grande número de ferramentas de monitorações – de mercado e desenvolvidas internamente -, pois cada equipe acaba criando ou implantando monitorações que atendam a sua necessidade, sem integração entre as ferramentas, e mesmo com um grande volume de ferramentas, quando estão realizando análise de incidente é necessário realizar diversas análises e extrações diretamente dos elementos de TI, devido as ferramentas não terem todos os dados e informações necessárias para análise.

Esse entendimento ficou evidente após a realização de uma pesquisa, cujo objetivo foi identificar a maturidade das monitorações dos ambientes de TI, sendo que, na questão “quantas soluções (Mercado e Desenvolvida internamente) são responsáveis pela monitoração do ambiente de TI (Infra, Telecom, Aplicações, Saúde do Negócio, entre outros)” das 23 respostas obtidas, 17 (73,9%) demonstraram que são utilizadas mais de 15 soluções de monitoração:

 

A análise da questão “Durante um incidente as métricas e informações necessárias para análise são extraídas das soluções de monitoração?” Para 48% (11 respostas – sendo 10 “algumas” e 1 “não”) das respostas existe a necessidade de acessar elementos de TI e extrair informações para análise, com isso, conclui-se que as monitorações não são eficientes, uma vez que existem métricas, logs e eventos desses elementos que poderiam estar sendo monitorados e não estão:

 

A análise dos thresholds definidos nas monitorações demonstram que 74% (17 respostas) são fixos, o que impossibilita a realização de análise preditiva e identificação de desvios antes que estes causem impacto ao negócio:

 

A abordagem da questão “Quando são desenvolvidas novas funcionalidades de negócio, a monitoração destas é identificada em que momento no projeto?”, observamos que 70% das respostas (16) ocorrem durante ou após a implantação, o que deixa evidente que o tempo para definir, criar e/ou customizar e implementar as monitorações para a funcionalidade que está sendo implantada não é suficiente, e para quem está envolvido em projetos de TI ou sustentação a ambiente de TI sabem que a revisão ou validação da efetividade dessas monitorações só vai ocorrer em momentos de incidentes.

 

Devido a ineficiência das monitorações, quando um incidente ocorre, estas geram vários eventos e alertas, as equipes de Gerenciamento de Incidentes e Eventos realizam o acionamento dos responsáveis pelas análises, e estes por sua vez precisam conectar, extrair e analisar logs e métricas relacionados ao incidente.

Observa-se que o tempo gasto para envolvimento de todos os profissionais e a análise dos dados disponíveis é consideravelmente longo, e com frequência a causa raiz do incidente não é identificada no tempo previsto, instaurando-se então o processo de gestão de crise.

A partir disso, os profissionais envolvidos no incidente se reúnem em salas ou conferências denominadas “War Room” para análise das informações disponíveis do evento, na tentativa de identificar as causas e solucionar o problema. Porém, na situação de crise, os especialistas realizam a análise isolada em seu ativo, justificando que a variação ocorrida no elemento de TI de sua responsabilidade foi consequência e não causa do incidente, e frequentemente o serviço é restabelecido sem que a causa efetiva seja identificada.

No próximo artigo, abordaremos a metodologia que a BW utiliza na definição das monitorações dos ambientes de TI, tratando a monitoração não apenas para sinalizar eventos e sim realizando troubleshooting constante no ambiente! 

Quer conhecer em mais detalhes como a BW realiza o trabalho de análise voltado para a necessidade e ambiente de cada cliente, envie uma mensagem que entraremos em contato!

André Lozano – Head of Operation and Business – Profissional da área de Tecnologia da Informação desde 1999, com experiência focada em ambientes críticos de TI.

 

Entre em contato

Parceiros

Criadora da plataforma Zero Trust , com a maior nuvem de segurança do planeta para tornar os negócios e a navegação nas mudanças uma experiência mais simples, com acesso rápido e seguro aos recursos da nuvem sendo o motor da transformação digital. Zscaler ajuda a TI a sair da infraestrutura de rede para a nuvem, com segurança, usando os princípios de confiança zero.

Cloud Security Platform da Datadog (Security Posture Management, Cloud Workload Security e Cloud SIEM) oferece detecção de ameaças em tempo real e auditorias de configuração contínuas em todo o seu ambiente de produção, para que você possa trazer velocidade e escala para sua organização de segurança. A Cloud Security Platform é construída sobre a plataforma de observabilidade do Datadog, que divide os silos entre as equipes de segurança e DevOps e os alinha aos objetivos organizacionais compartilhados.