Disponibilidad: ¿cuántos 9 son suficientes?

availability

 

Categorías

1 Septiembre 2014

Por: Bob Landstrom

Este post trata sobre el término “disponibilidad” tal y como se aplica en el sector de los centros de datos con el fin de ofrecer alguna perspectiva sobre la noción del número de “nueves”.

Disponibilidad frente a fiabilidad.

Hablemos primero sobre el término “disponibilidad” y en qué se diferencia del término “fiabilidad” mucho más entendible.

La disponibilidad de los sistemas es una probabilidad (con un factor condicional) de que se entregue el servicio en el momento en que se haya solicitado. La disponibilidad considera que cuando el sistema falla, este debe ser reparado y restaurado para seguir ofreciendo el servicio. De esta forma, se incluye el tiempo de reparación en la propia disponibilidad como aspecto crítico. La disponibilidad se expresa a veces en términos de “nueves”, “tres 9” por ejemplo, es lo mismo que decir “disponibilidad del 99,9%”.

Esto es diferente respecto a la “fiabilidad”, que es sencillamente la probabilidad de que el sistema realizará su función durante un periodo determinado de tiempo, bajo ciertas condiciones. La fiabilidad se suele expresar en términos de MTBF (promedio de tiempo entre fallos de un sistema – Mean Time Between Failures) o tasa de fallo. Al contrario que la disponibilidad, la fiabilidad no es una probabilidad condicional y no incluye el tiempo de mantenimiento o reparación.

La disponibilidad en la vida real.

Déjenme que utilice un ejemplo del 99,9% de disponibilidad (tres 9) para ver cómo se podría entender la disponibilidad en términos más tangibles.

  • 99.9% de disponibilidad se traduce por ejemplo en:
  • 44 minutos de suministro de agua no potable al mes
  • 3 aterrizajes forzosos por semana en Heathrow
  • 3.000 cartas perdidas por el Servicio Postal cada hora
  • 2.000 errores médicos en la seguridad social cada semana
  • 9.000 cargos bancarios erróneos por hora
  • 36.000 latidos perdidos por año (9 horas)

En la figura superior se aprecian escenarios diferentes y todos inaceptables. Pero, quizás lo más sorprendente sea que todos tienen el mismo valor de disponibilidad.
Veámoslo desde un punto de vista diferente. La siguiente tabla muestra la cantidad de tiempo al año que un sistema está caído (o no disponible), utilizando el número de nueves que tiene de disponibilidad el sistema. Se aprecia que incluso 5 nueves en el sistema tiene de media más de 5 minutos de caída anual.

% Disponibilidad Cantidad de tiempo de caída anual
99% 88 horas
99,9% 8,8 horas
99,99% 53 minutos
99,999% 5,3 minutos
99,9999% 32 segundos


Es importante recalcar que la verdadera disponibilidad en el rendimiento del centro de datos no se basa únicamente en la ingeniería y las certificaciones, sino que también requiere de procesos operativos de rango superior y mucha disciplina. En el caso de los centros de datos, el personal de operaciones bien entrenado y competente, los procesos maduros para la gestión de proyectos y la estandarización de procedimientos (MOP & SOP de sus siglas en inglés), los procedimientos de seguridad rigurosos y una ingeniería superior han de combinarse para asegurar un rendimiento de la disponibilidad mayor.

En el hoy siempre mundo digital, las caídas se traducen en pérdida de beneficios. La hipotética clasificación TIER es interesante, pero un registro pormenorizado que demuestre una gran disponibilidad, junto con evidencias de madurez y rigurosidad en las operaciones del centro de datos también es importante para minimizar el riesgo para el negocio.