Lo que hizo caer a Facebook

Publicado por: Manuel Abreu Ortiz - social@manuelabreuo.com

El viejo refrán de la solución de problemas de red dice que cuando algo va mal, “es el DNS”. Esta vez el servidor de nombres de dominio (DNS) parece ser el síntoma de la causa raíz del fallo global de Facebook. La verdadera causa es que no hay rutas de Protocolo de Pasarela de Frontera (BGP) que funcionen en los sitios de Facebook.

BGP es el protocolo estandarizado de pasarela exterior que se utiliza para intercambiar información de enrutamiento y accesibilidad entre los sistemas autónomos de primer nivel de Internet (AS). La mayoría de la gente, de hecho la mayoría de los administradores de red, nunca necesitan tratar con BGP.

Mucha gente se dio cuenta de que Facebook ya no aparecía en el DNS. De hecho, había posts de broma que ofrecían venderte el dominio Facebook.com.

El vicepresidente de Cloudflare, Dane Knecht, fue el primero en informar del problema subyacente de BGP. Esto significó, como tuiteó Kevin Beaumont, ex jefe del Centro de Operaciones de Seguridad de Microsoft, que “al no tener anuncios BGP para tus servidores de nombres DNS, el DNS se desmorona = nadie puede encontrarte en Internet”. Lo mismo ocurre con WhatsApp, por cierto. Facebook básicamente se ha desplomado de su propia plataforma”.

Tan molesto como esto es para ti, puede ser aún más molesto para los empleados de Facebook. Hay informes de que los empleados de Facebook no pueden entrar en sus edificios porque sus insignias y puertas “inteligentes” también fueron desactivadas por este fallo de la red. De ser cierto, la gente de Facebook literalmente no puede entrar en el edificio para arreglar las cosas.

Mientras tanto, el usuario de Reddit u/ramenporn, que afirmaba ser un empleado de Facebook que trabajaba para resucitar la red social, informó, antes de borrar su cuenta y sus mensajes, que “el DNS de los servicios de FB se ha visto afectado y esto es probablemente un síntoma del problema real, y es que el peering BGP con los routers de peering de Facebook ha caído, muy probablemente debido a un cambio de configuración que entró en vigor poco antes de que se produjeran los cortes.

Esta interrupción masiva dejó fuera de servicio a grandes sectores de Internet
Y continuó: “Ahora hay gente que intenta acceder a los routers de interconexión para aplicar las correcciones, pero las personas con acceso físico están separadas de las personas con conocimientos sobre cómo autenticarse en los sistemas y de las personas que saben qué hacer realmente, por lo que ahora hay un reto logístico para unificar todos esos conocimientos. Parte de esto se debe también a la reducción de personal en los centros de datos debido a las medidas contra la pandemia”.

Ramenporn también afirmó que no se trataba de un ataque, sino de un cambio de configuración erróneo realizado a través de una interfaz web. Lo que realmente apesta -y el motivo por el que Facebook sigue sin funcionar horas después- es que, como tanto BGP como DNS están caídos, “la conexión con el mundo exterior no funciona, el acceso remoto a esas herramientas ya no existe, por lo que el procedimiento de emergencia consiste en obtener acceso físico a los routers de interconexión y realizar toda la configuración localmente”. Por supuesto, los técnicos in situ no saben cómo hacerlo y los administradores de red de alto nivel no están en el lugar. Esto es, en resumen, un gran lío.

Como antiguo administrador de redes que trabajó en Internet a este nivel, Ramenporn estimó que acabará siendo el fallo más largo y grave de Facebook, hasta la fecha.

Info – Ciberseguridad Latam