Para entender a segunda-feira muito louca do Facebook

A segunda-feira foi louca demais. E eu tive que me dar uma quase-folga para poder ir assimilando as coisas. Para entender a segunda-feira muito louca, o Facebook deu uma explicação técnica sobre o que aconteceu naquelas quase seis horas de apagão de suas redes sociais.

Pois bem, foi isso aqui: alterações de configuração nos roteadores de backbone. E o que é backbone?

Então, o backbone é a “espinha dorsal” da rede; a rede principal por onde passam os dados dos usuários, como se fossem grandes estradas por onde passam os dados que você recebe e troca.

Como bem explica o Facebook:

Quando você abre um de nossos aplicativos e carrega seu feed ou mensagens, a solicitação do aplicativo para dados viaja do seu dispositivo para a instalação mais próxima, que então se comunica diretamente sobre nossa rede backbone para um data center maior. É aí que as informações necessárias pelo seu aplicativo são recuperadas e processadas, e enviadas de volta pela rede para o seu telefone.

Nota do Facebook Engeineering

Esse tráfego é gerenciado por roteadores, e tem vezes que as equipes de engenharia precisam fazer alguma reparação para que tudo aconteça sem intercorrências. O problema é que houve numa configuração errada.

Backbone

Na explicação oficial, a equipe de engenharia do Facebook descreve o que é que houve naquele dia.

Nossas equipes de engenharia aprenderam que as alterações de configuração nos roteadores de backbone que coordenam o tráfego de rede entre nossos data centers causaram problemas que interromperam essa comunicação. Essa interrupção no tráfego de rede teve um efeito cascata na maneira como nossos data centers se comunicam, interrompendo nossos serviços.

Nota do Facebook Engeineering

O que aconteceu na segunda-feira é a tradução literal de “quebrar a coluna” (não sei se você sabe, mas coluna vertebral e espinha dorsal são a mesma coisa). O que faz todo o sentido a partir do momento em que as redes de todos os domínios do Facebook não estavam funcionando naquele momento. Nem as redes internas funcionavam: os funcionários da empresa não conseguiam nem bater o ponto – sim, os crachás dos funcionários para entrar na empresa não funcionavam.

Alguém mexeu errado e…

O Facebook ainda esclarece que o que houve não foi um ataque, e sim um erro da parte deles, o qual tanto a rede quanto Mark Zuckerberg pediram desculpas várias vezes. Mas tem mais! Eles deram uma explicação mais detalhada.

Durante um desses trabalhos de manutenção de rotina, um comando foi emitido com a intenção de avaliar a disponibilidade da capacidade global de backbone, que involuntariamente derrubou todas as conexões em nossa rede backbone, efetivamente desconectando os data centers do Facebook globalmente. Nossos sistemas são projetados para auditar comandos como estes para evitar erros como este, mas um bug nessa ferramenta de auditoria impediu que ele parasse corretamente o comando.

Nota do Facebook Engeineering

E sobre a questão do BGP, foi isso mesmo que houve. Como esse erro desconectou os servidores, o DNS das redes ficou mais perdido do que cego em tiroteio. Sem esse backbone, os anúncios BGP foram removidos, e o DNS ficou perdido sem saber para onde ir. Nada entrava, lógico. E deu no que deu.

Bem, agora que tudo (aparentemente) voltou ao normal, ao normal volta a nossa programação.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.

Novidade no Close Friends do Instagram Gravação de áudios com pausa no WhatsApp Comunidades no WhatsApp? IGTV agora é Instagram TV Instagram enfrenta nova instabilidade