top of page
DCCert Certificadora

ISO/IEC 22237–1 - KPIs - Indicadores de Disponibilidade, Confiabilidade e Resiliência

Em continuação ao artigo anterior, segundo a ISO/IEC 22237 parte 1, a motivação principal de todas as considerações de um projeto, políticas e procedimentos de operação do data center é reduzir interrupções não planejadas nos serviços de TI do data center. Em um cenário perfeito, não ocorreriam interrupções não planejadas. Dependendo do nível de redundância da infraestrutura crítica de (equipamentos de TIC, armazenamento, rede de dados, energia, refrigeração, espaços etc.) suportando os serviços de TI no data center, a falha de um único componente ou sistema, não corresponde automaticamente a uma disrupção dos serviços de TI.




O mercado normalmente se concentra na Disponibilidade como uma métrica-chave de medição de sucesso passado, para definir objetivos futuros, ou avaliar possíveis soluções ou processos a serem implementados. Para calcular a Disponibilidade Passada Ap, a partir de dados coletados dentro de um período determinado, com o data center em operação, a fórmula (A.1) pode ser aplicada.


Disponibilidade Passada Ap


Ap =  tup/(tup+tdown)                                                                               (A.1)

 

onde

tup é o tempo de atividade medido;

tdown é o tempo de inatividade medido.

Ap é disponibilidade medida durante o período de 1 ano.


A fórmula (A.1)  só é utilizada para calcular a Disponibilidade Passada, Ap. Para calcular a disponibilidade como um valor de probabilidade, ou seja, relacionada com um expectativa de futuro sucesso de funcionamento, a disponibilidade inerente (Ai) e Disponibilidade Operacional (Ao) são comuns.


Disponibilidade Inerente


A Disponibilidade Inerente é a fornecida em condições ideais de operação e manutenção e é definida segundo a fórmula (A.2) conforme a seguir:

 

Ai =  TMTBF/(TMTBF+TMTTR)                                     (A.2)


onde

TMTBF  é o tempo médio entre falhas;

TMTTR  é o tempo médio de reparo.


A Disponibilidade Inerente Ai, é a probabilidade instantânea que um componente ou sistema estará ativo ou inativo. Considera apenas o tempo de inatividade para reparo da falha em condições ideais, sem tempos logísticos, manutenções preventivas etc.


Disponibilidade Operacional


Em comparação com a Disponibilidade Inerente, a Disponibilidade Operacional, definida na Fórmula (A.3), considera as condições reais de operação e manutenção, ou seja, a preparação para manutenção, aquisição de peças de reposição, configuração, reprogramação, teste de software, disponibilidade de pessoal para responder, inicialização/reinicialização do sistema e reestabelecimento de serviços de redes e a pilha de software para retornar todos os sistemas ao estado operacional que estavam antes do evento de inatividade.

                                           

Ao = TMTBM/(TMTBM+TMDT) (A.3)

 

onde

TMTBM é o tempo médio entre manutenções;

TMDT   é o tempo médio de inatividade.


A Disponibilidade Operacional Ao pode ser vista como disponibilidade geral do serviço do ponto de vista do usuário final.


Confiabilidade


A Confiabilidade é a capacidade  de executar conforme requerido, sem falha, por um intervalo médio de tempo, sob condições específicas.

Considera a taxa de falha de componentes ou sistemas, e o envelhecimento desses componentes ou sistemas.

Confiabilidade, R, como uma métrica de probabilidade dependente do tempo é definida pela fórmula (A.4), conforme a seguir:


R = e^-t/TMTBF                                                                                                                                            (A.4)

(leia-se "e elevado a")


onde

TMTBF   é o tempo médio entre falhas;

t          é o intervalo de tempo sobre avaliação.


Disponibilidade versus Confiabilidade


Disponibilidade e Confiabilidade são termos, às vezes incorretamente, utilizados de forma intercambiável.

A Disponibilidade considera a taxa de falha e tempo de reparo, ou inatividade de componentes ou sistemas.

A Confiabilidade também considera a taxa de falha de componentes ou sistemas, mas considera o envelhecimento dos componentes ou sistemas.

Não há uma correlação automática entre Disponibilidade e Confiabilidade: alta disponibilidade não indica inerentemente, alta confiabilidade; nem alta confiabilidade indica inerentemente alta disponibilidade. Utilizando a fórmula (A.2) de Disponibilidade, e a fórmula (A.4) de Confiabilidade com um período de análise de 1 ano, obtem-se os resultados da Tabela 1 abaixo que ilustra as métricas de Disponibilidade e Confiabilidade com diferentes valores informativos. Enquanto cada  cenário atinge 4 noves de Disponibilidade, uma diminuição do MTBF  resulta em um decréscimo exponencial da Confiabilidade.


Tabela 1– Disponibilidade vs Confiabilidade

MTBF  h

MTTR h

Disponibilidade

Confiabilidade

100.000

10

99,99%

91,6%

50.000

5

99,99%

83,9%

10.000

1

99,99%

41,6%

1.000

0,1

99,99%

0,00016%

 

Figura A Relação entre MTBF e Confiabilidade


Taxa de falha


As expressões para Disponibilidade Inerente e Confiabilidade incluem,  ambas o MTBF. O MTBF é o recíproco da taxa de falha l (lambda). A taxa de falha é estabelecida pela análise de quantas vezes os dispositivos falham durante um intervalo de tempo definido, utilizando uma quantidade grande de dispositivos como conjunto de amostras, conforme descrito na Fórmula (A.5).


l = 𝑁𝑓/𝑁𝑤 𝑥 𝑇𝑜𝑝                                                                                   (A.5)


onde

l  (lambda) é a taxa de falha;

N  é o número dispositivos com falhas;

Nw  é o numero de dispositivos;

Top  é o tempo de operação dos dispositivos em horas (h);

TMTBF é o tempo médio entre falhas.


Para ilustrar, um fornecedor opera Nw = 1000 dispositivos por Top = 1680 h (10 semanas) e registra o número de dispositivos Nf , que falham. De acordo com a fórmula (A.5,) se 3 dispositivos falham durante o teste de 10 semanas, a taxa de falha é conforme apresentada na fórmula (A.6):

 I = 3/(1000 × 1680) = 1,7857 × 10-6 = 1/TMTBF                                                      (A.6)

Como mostrado acima, a taxa de falha é o inverso do MTBF, conforme descrito na fórmula (A.7):


TMTBF = 1/ I = 1/(1,7857 × 10-6) = 560000                                            (A.7)


As unidades do MTBF são dispositivos x horas por falha. Entretanto, a indústria abandonou a parte “dispositivo” e a parte “de falha” para simplificar a expressão e normalmente expressa o MTBF com a unidade de “horas”. Apesar de o MTBF ser expresso em horas, isto não prevê o ciclo de vida ou ciclo de manutenção. O MTBF é relevante quando se comparam processos ou soluções alternativas, para auxiliar na tomada de decisão relativa a melhor opção, mas não se destina a caracterizar uma única implementação. Em vez disto, caracteriza uma grande quantidade de implementações. Outra forma de ilustrar é  se o data center tem grande quantidade de um determinado componente, ajuda a  quantificar quantas unidades convém que sejam mantidos em mãos para atender a uma substituição, mas  não vai ajudar a prever quando um deles  irá falhar.


Classes de disponibilidade


A falha de uma fonte de energia do equipamento de TIC, por mais de 20 ms resultará no desligamento do equipamento. As considerações de projeto devem prever eventos dentro de um intervalo de tempo crítico para garantir a alta disponibilidade, evitando disrupções inesperadas. Em casos extremos, uma falha inferior a um segundo da fonte de alimentação e/ou sistema de distribuição (ISO/IEC 22237-3) pode resultar em uma tempo de inatividade geral dos serviços do data center por diversas horas, ou mesmo dias.


Em comparação, o sistema de controle ambiental (ISO/IEC 22237-4) normalmente poderia tolerar falhas de um minuto, (ou vários minutos) sem qualquer efeito na disponibilidade dos equipamentos e serviços de TIC dentro do data center.

Portanto,  a utilização de um valor percentual único para infraestrutura é inviável sem ressalvas. A aplicação das métricas de Disponibilidade e Confiabilidade como KPIs avaliar a infraestrutura, requer uma qualificação viável.


A ISO/IEC 22237 faz classificações de Disponibilidade em um nível mais abstrato,  da Classe de Disponibilidade  1 à Classe de Disponibilidade  4,  representando a elevação da capacidade do data center em funcionar como pretendido sem disrupção. A Classificação de Disponibilidade considera em um nível abstrato, não somente de disponibilidade dos elementos do data center, mas também a Confiabilidade dos elementos e a Resiliência do data center. Por esta classificação qualitativa, os requisitos estruturais e as considerações de redundância podem ser levados em consideração.


A tabela abaixo mostra resumidamente os requisitos abstratos para as classificações de disponibilidade



 

Fonte: baseado em tradução livre da ISO/IEC22237-1 e definições suportadas pela ISO/IEC22237-31


12 visualizações0 comentário

Commenti


bottom of page