La estructura de internet es más frágil de lo que parece

Algunos de los grandes proveedores y aplicaciones de internet han sufrido caídas constantes, lo cual genera preguntas sobre la fragilidad de la estructura de la web tal y como la conocemos.

21 Marzo 2017

En el esfuerzo por salir del modelo centralizado de comunicaciones hacia uno distribuido, Paul Baran ideó en los años ‘60 la tecnología de “paquetes” de datos que hoy conocemos. Era una respuesta a la amenaza nuclear de entonces; posteriormente, las mejoras se centraron en la fortaleza de las redes y en la capacidad del sistema de soportar la pérdida de grandes porciones del mismo.

Ese modelo distribuido fue clave para asegurar la confiabilidad a lo largo de las décadas posteriores. Medio siglo después nos encontramos inmersos en la revolución que ha significado el acceso masivo a internet, la movilidad y los entornos en la nube. Este movimiento, ya consolidado, ha sido el origen del crecimiento de tres de los gigantes de internet: Amazon Web Services (AWS), Microsoft y Google. Los  clientes de estas compañías eligen frecuentemente alojar sus aplicaciones e infraestructura IT con solo uno de estos proveedores. Al elegir centralizar estos servicios en un único conjunto de centros de datos, aumenta potencialmente la fragilidad de la red.

 

Incidentes conocidos

AWS

El servicio S3 de AWS es básicamente un enorme disco duro. El 28 de febrero pasado, dicho servicio sufrió una caída en uno de sus centros de datos más utilizado en la costa Este. Sus clientes no podían acceder a la información allí almacenada. El incidente duró más de cinco horas y resultó muy complejo de resolver. El origen fue un error humano, que se produjo al introducir en forma errónea un comando para corregir un fallo en el sistema de facturación del S3. Este episodio afectó a un gran número de empresas, incluyendo Spotify, Dropbox o Pinterest. También se vieron afectadas empresas con servicios de Internet of Things (IoT) como Nest.

Cloudflare

Cloudflare proporciona servicios de CDN (Content Delivery Network) y seguridad. Hace pocas semanas comunicaron que habían descubierto un fallo en la seguridad por el que se podían filtrar las claves de acceso de usuarios a diferentes páginas web de sus clientes, tales como Medium, OkCupid o Uber. Miles de compañías se vieron obligadas a pedir a sus clientes que cambiaran sus claves de acceso, así como a realizar una evaluación del impacto potencial que este fallo tendría sobre su infraestructura IT.

Google

El problema técnico que sufrió Google también en febrero causó una desconexión de los dispositivos conectados a internet mediante cuentas de Google. Esto afectó a routers y otros productos WiFi de Google, a Chromecast y a Google Home, así como a las cuentas de Gmail alojadas en telefónos móviles y tablets. El problema se originó en la pérdida de autenticación de algunos dispositivos, lo que causó que se desconectaran. Google aconsejó hacer un reinicio completo para corregir el fallo, y allí se descubrió que la compañía no guarda una copia de seguridad de las configuraciones de sus clientes, que perdieron todos estos datos y debieron reinstalar todos los dispositivos.

 

it equipment

 

Los problemas de la centralización

Estos incidentes han desvelado la fragilidad de ciertas áreas de internet y la aparición de nuevos puntos de fallo en las redes debido a la centralización de los recursos IT con un único proveedor. La responsabilidad de los grandes jugadores como AWS, Google o Microsoft pasa por asegurar que sus infraestructuras son estables. Sus clientes, mientras tanto, deben asumir su compromiso y estudiar las soluciones para balancear sus cargas de trabajo entre distintos centros de datos y lograr una mejor resiliencia en caso de fallos. No resulta conveniente tener un único proveedor en la nube y guiarse solo por mejorar los precios del servicio.

 

El desafío de encontrar soluciones

En el caso de Amazon, la empresa se había comprometido a realizar una mayor fragmentación y descentralización de los recursos para evitar que los fallos se extiendan con rapidez. Han priorizado estos trabajos luego de la incidencia del mes pasado, pues estaban previstos para más adelante.

Estos incidentes, aunque poco frecuentes, ya han ocurrido con anterioridad y las compañías que los sufren aprenden lecciones para el futuro. Es el caso de Netflix, que sufrió una caída masiva en 2012. La empresa se preocupó de que esto no volviera a suceder y preparó una serie de herramientas para asegurar que su contenido se distribuyera en forma fluida aunque sufriera incidencias en su servicio cloud. Este software, llamado “Simian Army” está a disposición de quien quiera utilizarlo y/o mejorarlo; su propósito es poner a prueba la infraestructura de Netflix e identificar sus puntos débiles para corregirlos antes de que se produzca un fallo.