75% dos eventos de downtime em Data Centers poderiam ser evitados

Leitura de 11 minutos
03/10/21

Evitar o downtime em Data Centers se mantém no topo da lista de prioridades dos gestores de estruturas de missão crítica. Contudo, à medida que a tecnologia evolui e as demandas tecnológicas aumentam, também mudam os tipos, a frequência e os impactos das falhas, bem como as boas práticas recomendadas para mitigar eventos de queda na estrutura.

Nesse cenário de incertezas constantes, o Uptime Institute – uma das organizações globais mais respeitadas em termos de certificação de Data Centers – traz uma revelação dramática em seu estudo anual: 75% das quedas recentes de Data Centers poderiam ter sido evitadas.

Analogamente, o relatório intitulado Annual Outage Analysis 2021: The causes and impacts of data center outages revela que um progresso tanto em relação à redução do tempo de inatividade quanto no impacto das interrupções. Nesse sentido, com um em seis eventos de downtime em Data Centers custando mais de US$ 1 milhão, reduzir o impacto e a frequência das quedas ​​tornou-se mais importante do que nunca.

A publicação indica ainda que, embora os sistemas e processos tenham obtido avanços no tempo de atividade e na confiabilidade, o impacto de algumas grandes falhas e a concentração das cargas de trabalho em estruturas de um pequeno grupo de provedores gigantes, levou empresas a buscarem outros parceiros com melhores condições de realizar a manutenção de seus racks, além de credenciais e de evidências de boas práticas.

Além disso, as inovações e o investimento em resiliência distribuída e baseada em nuvem podem ter ajudado a reduzir o impacto das falhas no nível do serviço; todavia, introduziu alguma complexidade sujeita a erros.

Quer saber mais sobre os achados e a recomendação desse estudo? Leia o artigo:

Data Centers e sua importância para os negócios

Os tempos mudaram e a demanda por informações é maior do que nunca. Desde que a internet se tornou uma necessidade diária, grande parte da população mundial executa suas atividades diárias pelos smartphones. Seja para trabalho ou socialização, a conectividade desempenha um papel fundamental em nossas vidas.

Por esse motivo, a demanda por transmissão de dados em tempo real é um recorde histórico. E, consequentemente, essa necessidade de computadores e de outros equipamentos de rede capazes de atender tais solicitações é o catalisador para a elevação dos centros de dados ao posto de atividade essencial.

Assim, considerando-se que os Data Centers são hubs nos quais as instalações de computação e os equipamentos de rede estão centralizados, têm a tarefa de coletar, armazenar, processar e distribuir grandes quantidades de dados. Além disso, são responsáveis ​​pelas funções de backup e de redundância, bem como pela recuperação de desastres.

Esses centros hospedam sites, suportam e-mails e serviços de mensagens instantâneas. Oferecem suporte a aplicações de armazenamento em nuvem e a transações de comércio eletrônico. E até as comunidades de jogos online exigem Data Centers robustos para gerenciar suas atividades online.

Como vimos, diante da importância dos centros de dados para a sustentação da operação, entender as causas e mitigar oportunidades de downtime em Data Centers é crucial para a continuidade do negócio.


LEIA MAIS: Disaster Recovery: saiba por que o Colocation é essencial para evitar prejuízos em crises


Causas de downtime em Data Centers

O estudo reforça uma conclusão lógica: cada tipo de downtime em Data Centers tem uma causa primária e a maioria tem várias causas contributivas em segundo plano. No entanto, o conhecimento e a compreensão dos incidentes de downtime em Data Centers dependem de quem é entrevistado e até mesmo de como as falhas são definidas.

Assim, a fonte mais detalhada e confiável do Uptime Institute com relação às causas de indisponibilidade é seu banco de dados de AIRs (Relatório de Incidentes Anormais). Nesse cenário, o instituto revela que, em mais de 25 anos de coleta de dados – de 1994 até o presente -, as falhas elétricas foram responsáveis ​​por 80% de todas as perdas de carga de TI em Data Centers operados por empresas membro do instituto.

De forma mais geral, olhando-se para a TI global de classe corporativa (que abrange Data Centers privados,
colocation e nuvem pública), os dados da pesquisa ainda trazem um panorama consistente ao longo dos anos, com problemas de energia, invariavelmente, se destacando como a maior causa única de incidentes de downtime em Data Centers.

Em 2020 a pesquisa conduzida pelo instituto já apontava para três principais causas:

  • falta de energia no local: maior causa de interrupções significativas (37%)
  • problemas de software / sistemas de TI
  • problemas de rede

De qualquer forma, os analistas fazem uma ressalva de que boa parte dos entrevistados não tinham, necessariamente, a visibilidade total dos eventos de downtime em cloud ou em softwares contratados como serviço (SaaS) de terceiros.

Desse modo, nos próximos anos, o Uptime Institute espera que mais incidentes de downtime em Data Centers sejam causadas por rede e software/ TI, e menos por problemas de energia.

Receba conteúdos relevantes sobre Data Center, Modernização de Infraestruturas de TI e tendências tecnológicas da ODATA

Problemas de rede para superar quedas de energia estão entre as principais causas de downtime em Data Centers

Nessa pesquisa, o Uptime Institute apurou que 44% dos operadores de Data Centers e que 59% dos fornecedores de dados estão, agora, mais preocupados com interrupções de serviços de TI do que há 12 meses.

Com isso, tal constatação destaca a importância da resiliência digital para o sucesso de organizações e, portanto, de se fazer investimentos para melhorar essa habilidade ininterruptamente.

Cerca de três em cada quatro entrevistados experimentaram algum tipo de interrupção do serviço de TI nos últimos três anos.

UPTIME INSTITUTE

Inegavelmente, as falhas relacionadas à energia têm sido o flagelo do gerenciamento de Data Centers. Isso porque um evento a queda de energia é, geralmente, repentina, binária (liga/ desliga), ocorre em todo o site e tem um impacto imediato em muitos serviços.

Então, mesmo que o diagnóstico e até o restabelecimento da energia possam ser rápidos, os sistemas de TI podem levar muitas horas para serem reiniciados com segurança.

Por outro lado, a taxa de downtime em Data Centers relacionadas à energia está caindo constantemente, tanto como causa citada em grandes interrupções públicas quanto como causa das quedas relatadas por membros do Uptime Institute. De todo modo, elas ainda ocorrem – embora muitas já estejam sendo evitadas por um bom design, processos eficazes e uma adequada gestão de equipe.


LEIA MAIS: Como o colocation ajuda a reduzir custos e a aumentar a disponibilidade de TI


Impacto do fator humano no downtime em Data Centers

Um ponto bastante interessante entre os destacados no relatório é que o Uptime Institute é frequentemente questionado em relação à porcentagem de incidentes de downtime em Data Centers causadas por erro humano. Nesse sentido, os analistas fizeram uma ressalva de que há diversas maneiras de interpretar essa pergunta.

De um modo geral, o sistema de relatório de incidentes confidenciais do Uptime Institute (o banco de dados AIRs), que documenta milhares de incidentes, sugere uma média agregada anual de 63% de falhas devido a falha humano.

Adicionalmente, na pesquisa de 2020, 75% dos entrevistados afirmaram que seu evento de downtime mais recente poderia ter sido evitado com uma melhor gestão ou processos – outra maneira de olhar para o papel da tomada de decisões e ações humanas.

No entanto, na pesquisa de resiliência de Data Centers mais recente (2021), 42% dos entrevistados disseram ter experimentado alguma interrupção nos últimos três anos devido a erro humano. Claramente, esse tipo de falha na infraestrutura e na TI é responsável ​​por muitos eventos de downtime em Data Centers (e por incidentes nos quais as quedas foram evitadas por pouco).

Para aqueles que procuram prevenir interrupções, a pergunta-chave a se fazer é:

Sabemos que o erro humano é um fator relevante em muitos incidentes de downtime, mas quais são as causas dele?

Porquanto, deixar de seguir os procedimentos estabelecidos pela empresa ou seguir os procedimentos incorretos foram as razões mais comumente citadas na pesquisa.


Conclusão

Como vimos, os Data Centers são estruturas fundamentais para o funcionamento das empresas. Por isso, incidentes capazes de fazer com que seu funcionamento seja prejudicado podem afetar drasticamente toda a operação, causando prejuízos inestimáveis, seja ao budget ou à reputação da marca.

Os danos de uma interrupção podem variar enormemente, dependendo de quando ela ocorre, para quem e por quanto tempo. Nesse sentido, a pesquisa do Uptime Institute sugere que, em 2020, o custo dos incidentes de downtime em Data Centers aumentou, com mais da metade dos entrevistados que experimentaram algum tipo de interrupção dizendo que a falha custou mais de US$ 100 mil à organização.

De um modo geral, as quedas de energia e o erro humano estão entre as principais causas de downtime em Data Centers, conforme apuração da pesquisa. E para evitá-los, é essencial que as empresas busquem o suporte de provedores especializados e certificados, com níveis de serviço que garantam a resiliência e a disponibilidade da sua rede.

Como exemplo, a ODATA reúne as mais exigentes credenciais em infraestrutura de Data Centers e mantém importantes certificações que atestam suas competências. Entre elas, vale ressaltar:

  • Tier III Design: atribuída pelo Uptime Institute, garante que o Data Center foi concebido em conformidade com os padrões internacionais de design;
  • Tier III Facility: por meio de testes rigorosos realizados pelo Uptime Institute, garante que o Data Center foi construído e opera de acordo com padrões internacionais; 
  • LEED Gold: certifica edifícios sustentáveis com alta eficiência energética e tem apreciação pela reutilização de recursos naturais e fonte alternativa de energia. Inclusive, o DC SP01 é um dos poucos Data Centers a manter a certificação LEED Gold na América Latina;
  • PCI-DSS (Payment Card Industry – Data Security Standard): padrão de segurança de informações para organizações que lidam com cartões de crédito;
  • ISO 9001: garantia de qualidade no sistema de gestão integrado;
  • ISO 20000: garantia de qualidade no gerenciamento de serviços de TI;
  • ISO 27001: garantia de qualidade no gerenciamento da segurança da informação;
  • ISAE 3402: garante que os controles internos da ODATA estejam de acordo com os padrões internacionais. 

Eficiência energética

O desafio de conciliar redução de custos com o atendimento às regulações ambientais, que estão cada vez mais rigorosas, exige tecnologia de ponta em eficiência energética. Por isso, os Data Centers da ODATA são construídos com o que há de mais moderno em termos de equipamentos e de tecnologia para a gestão de energia.

Com isso, seus edifícios oferecem um dos menores PUE (Power Use Effectiveness, ou eficiência do uso de energia) do mercado. A empresa trabalha sob as melhores práticas operacionais, com dispositivos modernos e métodos de design avançado. Assim, consumir o mínimo possível, reduzindo não apenas os custos para o cliente, mas o impacto no planeta em especial.

A planta energética dos Data Centers ODATA compreende uma linha de transmissão dedicada em alta voltagem de 88kV/ 138kV, com dupla alimentação e subestação própria redundante de 20MVA, que permite a geração de energia de melhor qualidade e eficiência.

Todos os sites contam com geradores de última geração, UPSs estáticas redundantes e de alta capacidade, além de tanques de diesel de grande armazenamento que garantem energia ininterrupta de forma independente da rede elétrica. Desse modo, garante que os sistemas de missão crítica de seus clientes nunca parem. Por fim, ainda utiliza energia solar para a iluminação da área de escritórios.

Fale com um especialista ODATA ODATA

Saiba mais sobre o Uptime Institute

O Uptime Institute é uma organização consultiva imparcial, dedicada a melhorar o desempenho, a eficiência e a confiabilidade da infraestrutura crítica de negócios por meio de inovação, colaboração e certificações de desempenho independentes. Assim, atende a todas as partes interessadas, responsáveis ​​pela disponibilidade de serviços de TI, por meio de padrões líderes do setor, além de iniciativas de capacitação, associação, consultoria e programas de prêmios.

O instituto é reconhecido globalmente pela criação e administração dos Padrões e Certificações Tier para Projeto, Construção e Sustentabilidade Operacional de Data Centers, juntamente com suas análises de Gerenciamento e Operações, Avaliação de Resiliência de Infraestrutura Digital, metodologia FORCSS®, programas de treinamento de infraestrutura credenciados e eficiente selo de aprovação de TI.

Por meio de padrões de Tier globalmente respeitados, o Uptime Institute ajuda empresas em todo o mundo a construir e manter uma infraestrutura crítica para os negócios, visando otimizar o desempenho, a confiabilidade e a eficiência da organização. Como resultado, concede mais de 2.500 certificações de Tier em mais de 110 países.

Além disso, reúne analistas experientes no Uptime Institute Intelligence Group. Por meio dele, oferece orientação e interpretação de tendências do setor, novas abordagens e novas tecnologias, no que diz respeito ao desenvolvimento e operação de infraestruturas digitais.

E-BOOKS exclusivos

para você conhecer mais sobre o mundo do Colocation

Entenda os fundamentos básicos para escolher um modelo de data center

Fazer o download

O guia definitivo para migrar seu Data Center

Fazer o download

Assine nossa newsletter

A ODATA utiliza cookies para melhorar sua experiência, de acordo com a nossa Política de Privacidade e, ao continuar navegando, você concorda com essas condições.