top of page
DCCert Certificadora

Se o Data Center é Tier III, logo, a Disponibilidade é 99,98%. Essa afirmação é plausível?

É bem comum no mercado, que durante as negociações de SLA essa afirmação tenha sido usada, contudo, ela tem induzido o mercado a uma interpretação equivocada, ou incompleta,  com relação à performance da infraestrutura de um data center (DCI), do tipo, Se o Data Center tiver uma configuração de redundância N+1 em elétrica e refrigeração, se for capaz de fazer uma manutenção planejada sem interromper a operação e mais outros “se” característicos do Tier III, então o Data Center teria uma Disponibilidade de 99,98%”, e até extrapolando, “que o tempo máximo de interrupção seria de 1h e 36 minutos (1,6h) por ano”.



Para reproduzir esse valor, o raciocínio parte da definição:


Disponibilidade = tempo de operação com sucesso/(tempo de operação + tempo de interrupção)


considerando que o (tempo de operação + tempo de interrupção= 100% do tempo) sendo que 1 ano (24/7/365) tem 8760 horas e se o Data Center tem 1,6h de Tempo de interrupção, então, o tempo de operação com sucesso = 8760h – 1,6h = 8758,4h e substituindo na fórmula,


Disponibilidade = 8758,4 / 8760 = 0,9998, ou seja, corresponde a 99,98% do tempo total.


Como a esse valor, não está atrelada nenhuma outra informação, supõe-se que seria sob condições ideais do tempo de reparo, ou seja, sem considerar parâmetros como a taxa de falhas, envelhecimento do sistema, tempos com movimentos logísticos e outros.


O questionamento a ser feito é se a configuração N+1 para elétrica e refrigeração (em anel para água gelada) é suficiente para confirmar cientificamente a plausibilidade da afirmação. A resposta é não. É claro supor que um Data Center novo, que teve um burn-in e um comissionamento bem executados em sua instalação, nos seus 2 primeiros anos terá uma Disponibilidade perto de 100%, mesmo que a única redundância seja da alimentação primária (Tier I), isto porque sabemos que no Brasil, quedas e variações de energia (picos, vales, oscilações, ...) são muito frequentes. Mas só com o passar do tempo é que a Disponibilidade começa a variar de valor, pois passará a refletir a Gestão do Data Center, com relação à qualidade da manutenção, a eficiência e eficácia no reparo, a agilidade na aquisição/logística, a capacidade de monitoramento, tomada de decisões e comprometimento com o senso de urgência. A Gestão espelhará as vulnerabilidades humanas como: não cumprir com os procedimentos, negligência, procrastinação, não acreditar nos alarmes e avisos, descumprir ordens, esconder problemas, etc, que representam os mais 90% das causas de falhas nas infraestruturas dos Data Centers.


Como reduzir as variações da Disponibilidade?


De forma grosseira, podemos afirmar que a Disponibilidade varia em função da topologia, do ciclo de vida do DCI e da gestão do data center, pois os equipamentos ao longo do tempo, submetidos a sobrecargas, calor, vibração, umidade, atmosferas corrosivas, pressão, etc, vão ficando sujeitos a falhas por fadiga e estresse.


A gestão tem a função mais importante neste processo, pois dela depende a análise dos riscos para em seguida planejar, dimensionar, instalar e operacionalizar adequadamente os recursos; estabelecer processos, procedimentos, objetivos, metas e KPIs para monitorar, a operação, a manutenção e a competência das equipes de operação, nas situações de operação normal, manutenção e emergencial; definir e estabelecer medidas e meios para prevenir, mitigar, controlar, monitorar os efeitos das falhas e recuperar a situação normal anterior. Sem esquecer o impacto dos processos auxiliares de aquisição, logística, segurança, e outros que influenciam na operação e principalmente no Tempo de reparo.


Com certeza, uma topologia redundante aumenta consideravelmente a Disponibilidade, porém, mesmo com o uso da redundância somado a todos os outros requisitos da norma, ainda há muitos fatores que refletem na perda da Disponibilidade.


Qual indicador o Data Center deve eleger e monitorar?


Os KPIs podem abranger atributos de tolerância a falhas, confiabilidade, manutenibilidade, disponibilidade, com diferentes propósitos, mas todos visando o melhor gerenciamento da operação.


Através do uso de KPIs, a comparação de projetos, elementos funcionais e componentes da infraestrutura se tornam possíveis. Além disso, é possível otimizar infraestruturas de data center com metas abrangentes.


Para a Gestão de um data center, a norma ISO/IEC 22237-31 e a série 30134-X, recomendam métricas que utilizam indicadores-chave de desempenho (KPIs) para avaliar, ou comparar diferentes projetos, ou ainda para validação de acordos de nível de serviço SLAs.


Do ponto de vista do usuário final do Data Center a Disponibilidade Operacional (Ao) e a Disponibilidade passada (Ap) são significativas, uma vez que a (Ao) considera no tempo de reparo (MTTR) todas as situações possíveis como: competência na identificação do problema; agilidade e na troca, e qualidade do conserto; eficiência na obtenção da peça de reposição, incluindo a burocracia de aprovação e logística da aquisição e comprometimento da liderança com a urgência do reparo. A Disponibilidade passada (Ap) dá uma visão da evolução do KPI ao longo dos anos anteriores e também uma visão das tendências com relação ao envelhecimento do sistema.


Essas métricas são importantes para chegarmos aos Indicadores de Confiabilidade e Manutenibilidade que complementarão a Disponibilidade, nos fornecendo então, Indicadores que traduzirão a Resiliência do DCI.  


Para quem então, vai se basear em KPIs para analisar um SLA, as perguntas mais importantes a serem feitas quando se lê um valor de Disponibilidade são:

- O valor demonstrado é de Disponibilidade passada, Inerente ou Operacional (Real medido)?

- Qual o período de tempo considerado? Qual a evolução ao longo do ciclo-de-vida?

- O que foi considerado na medição do tempo de inatividade (downtime)?

- Qual o caminho crítico definido para chegar ao “OP-ponto de operação”?

 

Credibilidade dos KPIs anunciados ao mercado



Quando o usuário se depara com um Indicador no qual passou por uma análise independente e neutra (3ª parte) que analisou a plausibilidade das formulas de cálculo, dos pontos de medição, baseados em um caminho crítico tangível; que os dados auditados para verificar se foram coletados com regularidade e repetibilidade, verificando sua veracidade, fica muito mais simples para analisar e tomar uma decisão sobre o indicador em questão. Este é o trabalho de Validação e Verificação dos KPIs realizado pela DCCert para dar credibilidade aos Indicadores.


Leia mais artigos em no nosso site www.dccert.com.br , ou no Linkedin, ou entre em contato conosco elo email atendimento@deccert.com..br.

9 visualizações0 comentário
bottom of page