Novo estudo do Uptime Institute analisa as causas e impactos da indisponibilidade dos Data Centers

Leitura de 9 minutos
17/05/23

A indisponibilidade dos Data Centers pode ser um pesadelo para qualquer organização. Em tempos como os de hoje, no qual as empresas dependem fortemente da tecnologia para funcionar, uma única interrupção pode vir a causar danos significativos à operação, além de afetar a reputação da empresa, a confiança do cliente e, consequentemente, os resultados financeiros.

A verdade é que, quer seja uma pequena ou uma grande companhia, fato é que, se não for bem e rapidamente administrado, o impacto de um downtime pode ser catastrófico.

Diante da relevância deste problema, a Uptime Institute Intelligence publica anualmente uma análise do cenário atual, baseada em pesquisas realizadas com os principais agentes do setor de Data Centers. E para ajudar a sua empresa a mitigar essa questão, neste artigo, traremos os destaques do relatório Annual outages analysis 2023: The causes and impacts of IT and data center outages.

Assim, vamos nos aprofundar nas causas e impactos da indisponibilidade dos Data Centers. Exploraremos as causas dos diferentes tipos de downtime e sua frequência, bem como os custos financeiros e operacionais associados a ele. Também discutiremos as etapas que as organizações podem adotar para evitar interrupções e minimizar seu impacto.

Portanto, seja você proprietário de um pequeno negócio ou um executivo do C-level, entender a importância da confiabilidade do Data Center é crucial. Junte-se a nós, enquanto exploramos os destaques deste estudo.

Indisponibilidade dos Data Centers: o que é e o que causa?

Entende-se por indisponibilidade ou tempo de inatividade do Data Center (downtime, no termo original em Inglês) o período em que, por alguma razão, ocorre uma falha no sistema de processamento de dados naquela estrutura, fazendo com que as informações e sistemas que rodam nela fiquem inacessíveis por determinado período.

Com os crescentes requisitos de computação e da complexidade dos sistemas, o tempo de inatividade não planejado tornou-se uma grave ameaça às organizações, em termos de violações de segurança, quebras de processos, perdas de receita e problemas de reputação.

Nesse tipo de estrutura, as interrupções podem ser causadas por uma variedade de fatores, alguns dos quais são comuns e afetam a maioria das organizações (como erro humano), enquanto outros são inabituais. Raro ou não, o impacto costuma ser o mesmo: perda de produtividade, queda nas vendas ou atendimento ruim (que afeta clientes ou funcionários).

E custa caro. Para se ter uma ideia, de acordo com um relatório do instituto Ponemon, em 2020, o custo médio de uma parada não planejada no Data Center foi de £6.850 por minuto (o equivalente a R$42.213 na conversão atual).

Embora pequenas falhas infelizmente sejam corriqueiras em qualquer tipo de estrutura desse nível de robustez, é difícil prever todos os cenários que poderiam vir a causar um impacto severo. Especialmente quando alguns fatores, como por exemplo uma enchente decorrente de uma tempestade, podem simplesmente estar fora do seu controle e resultar em um downtime.

No entanto, estar ciente de alguns dos motivos típicos da indisponibilidade dos Data Centers pode ajudar as equipes dedicadas a fazerem planos de ações preventivas para fortalecer a resiliência da estrutura.


LEIA MAIS: 75% dos eventos de downtime em Data Centers poderiam ser evitados


Cenário: o downtime está mais caro

O tempo de atividade (também chamado tecnicamente de uptime) é sempre a principal diretriz para qualquer centro de dados. À medida que o mundo avança na maturidade digital, com o uso de tecnologias cada vez mais rápidas e inteligentes, uma infraestrutura confiável é mais importante do que nunca para manter a economia conectada.

Por isso, evitar falhas na infraestrutura digital e o consequente tempo de parada deve ser uma prioridade para todos os agentes envolvidos na operação do Data Center. Verdadeiramente, a prevenção ao downtime deve ser uma prioridade para os operadores de uma infraestrutura digital de missão crítica e, nos últimos anos, esse também tem sido um problema maior para reguladores e autoridades de mercado.

Para ajudar a mitigar esse problema, a Uptime Institute, uma das principais referências mundiais no assunto, elaborou o relatório Annual outages analysis 2023: The causes and impacts of IT and data center outages, que reúne dados recentes sobre o tipo, a frequência e os impactos das interrupções de TI e da indisponibilidade dos Data Centers.

A frequência do tempo de inatividade do data center não mudou significativamente mas, por certo, as interrupções estão se tornando mais complexas, longas e caras.

Segundo a Uptime, o acompanhamento dos relativos ao tempo de atividade, ao longo de vários anos, considerando-se a frequência de interrupções ou como as organizações classificam sua gravidade, mostram claramente que o downtime está custando mais.

Na pesquisa global de 2022, um quarto dos entrevistados afirmou que o evento mais recente custou mais de US$ 1 milhão, em termos de despesas diretas e indiretas, apontando uma clara tendência de aumento de gastos. Outros 45% disseram que a queda mais recente custou entre US$100 mil e US$1 milhão. Com mais de dois terços de todas as falhas custando mais de US$100 mil, a urgência de se investir no aumento da resiliência e em treinamento está se tornando cada vez maior.

Assine a newsleter Data Center Insights

Principais descobertas da pesquisa

De acordo com a edição 2023 do estudo da Uptime Institute, as taxas de downtime na infraestrutura de TI parecem ter caído nos últimos anos, apesar de estarem se tornando mais caras para as organizações que as sofrem.

Assim, o relatório indica que a incidência dos eventos de indisponibilidade dos Data Centers foi superada pelo crescimento da própria capacidade da infraestrutura. Isso significa que, embora o número total de interrupções ainda esteja aumentando globalmente ano a ano, a taxa em que elas ocorrem está, na verdade, caindo.

Veja mais alguns destaques da apuração:

  • Dados relativos a downtime devem ser tratados com ceticismo. Todas as metodologias para rastrear a frequência, a gravidade e os custos das interrupções estão sujeitas a incertezas. Portanto, avalie os dados provenientes de mais de uma fonte para ter certeza da situação e, principalmente, das causas;
  • Há evidências de que as taxas de indisponibilidade dos Data Centers vêm caindo gradativamente nos últimos anos. Embora a maioria dos sites tenha sofrido ao menos uma interrupção nos últimos três anos, apenas uma pequena proporção foi considerada grave;
  • Quando ocorrem, as interrupções ficam mais caras – uma tendência que, provavelmente, persistirá, à medida que a dependência de serviços digitais aumentar. Com mais de dois terços de todas as interrupções custando mais de US$100 mil, a necessidade de investir no aprimoramento da resiliência está se tornando mais forte;
  • Erros humanos e falhas de gerenciamento contribuem para um número considerável de interrupções. Por isso, é preciso mais treinamento e investimentos nos processos de gestão;
  • Empresas de infraestrutura digital terceirizadas — como provedores de serviços de nuvem, colocation, telecomunicações e hospedagem desempenham um papel fundamental e crescente importância na mitigação do downtime, já que cada vez mais as empresas estão optando por serviços especializados, em detrimento da manutenção de estruturas próprias;

LEIA MAIS: Resiliência de Data Centers: como ter uma infraestrutura livre de downtime


Maiores causas da indisponibilidade dos Data Centers

As interrupções registradas ou relatadas publicamente – aquelas que recebem atenção da mídia – mostram uma diversidade de causas mas, geralmente, alguma consistência de ano para ano.

Para obter uma visão mais geral das motivações principais da indisponibilidade dos Data Centers, a pesquisa também perguntou aos entrevistados o que ocasionou qualquer tipo de interrupção no serviço de TI de ponta a ponta em sua organização, independentemente de serem as mais recentes ou as mais impactantes.

As respostas mostraram que as interrupções relacionadas à rede (mais especificamente à conectividade) são mais comuns (31%) e estão um pouco à frente das ocasionadas pela falta de energia (23%). Em seguida, destacaram-se problemas relacionados a software/ sistema de TI (18%), a serviços de terceiros, como nuvem pública e SaaS (10%), e ao sistema de resfriamento (7%).

Apenas 9% dos entrevistados afirmaram não terem enfrentado nenhuma interrupção do serviço de TI.

O ransomware, no entanto, foi confirmado como uma das maiores causas dos eventos de downtime. De acordo com a pesquisa, nos últimos dois anos, os ataques cibernéticos se tornaram uma causa regular e crescente de interrupções nos Data Centers e representaram 11% das quedas relatadas/registradas publicamente em 2022, passando de 8% em 2021.

Na prática, os ataques de ransomware geralmente levam a um desligamento prolongado de grandes partes da infraestrutura digital de uma organização. Devido à contaminação e à perda de integridade, as equipes, muitas vezes, precisam reconstruir sistemas e bases de dados, situação na qual a perda de dados é comum.

Além disso, a incorporação de sistemas operacionais padrão da indústria em equipamentos mecânicos e elétricos, assim como o maior uso de monitoramento prioritariamente remoto, estão elevando consideravelmente o risco de violações de segurança em Data Centers.

Principais causas da indisponibillidade dos Data Centers – 2023

LEIA TAMBÉM: As principais ameaças cibernéticas para 2023 e os próximos anos


Recomendações finais

Como vimos, a indisponibilidade dos Data Centers tem se tornado cada vez mais onerosa para as empresas. E suas causas são diversas. Para ajudar a mitigá-las, a Uptime Institute traz, no estudo, uma série de recomendações valiosas:

  • Alta disponibilidade e resiliência (o que significa prevenção de interrupções e recuperação eficaz) deve ser uma prioridade para todos os envolvidos na cadeia de fornecimento de infraestrutura digital;
  • Às vezes, assume-se que o progresso nessa área é tão confiável quanto a lei de Moore nas últimas três décadas. Mas este não é o caso: os dados do Uptime mostram que o progresso é gradual, duramente conquistado e – quando ocorrem falhas – cada vez mais caro.
  • Além disso, algumas tendências podem prejudicar o progresso na confiabilidade do equipamento e nos processos e gerenciamento de comprovação:
    • Primeiro, uma ampla mudança para arquiteturas distribuídas, nas quais mais funções de TI são executadas em sistemas de TI padrão, geralmente distribuídos ou replicados em vários sites, reduz o impacto de algumas falhas localizadas. Mas isso também pode causar, pelo menos durante uma transição prolongada, mais problemas de rede, software ou sistemas;
    • Em segundo lugar, muitos acreditam que a transição para energia renovável e geração e armazenamento de energia distribuída reduzirá a confiabilidade da rede. Embora as falhas de rede não sejam consideradas uma fonte primária de interrupções, elas sobrecarregarão os sistemas de energia do Data Center e processos gerenciais. Portanto, o avanço para esse modelo mais sustentável é sim recomendável;
    • Em terceiro lugar, o papel de uma equipe experiente e bem treinada, que segue processos de gerenciamento comprovados, é fundamental para alcançar a resiliência. No entanto, a escassez de habilidades em muitas regiões geográficas torna difícil encontrar pessoal experiente suficiente.

A prevenção ao downtime é um desafio contínuo, que requer monitoramento e atenção constantes, investimentos e análises. Assim, as principais considerações incluem: construir e aumentar a redundância, testar, revisar constantemente as mudanças de ameaças e tecnologias – e, talvez, acima de tudo, investir em pessoal e treinamento.


Precisa de ajuda para melhorar a estabilidade e a resiliência do seu Data Center?

Fale com a ODATA

E-BOOKS exclusivos

para você conhecer mais sobre o mundo do Colocation

E-Book: Tendências Tecnológicas 

Fazer o download

Melhore os índices de sustentabilidade da sua empresa

Fazer o download

Assine nossa newsletter

A ODATA utiliza cookies para melhorar sua experiência, de acordo com a nossa Política de Privacidade e, ao continuar navegando, você concorda com essas condições.