Já pensou em ficar 24 horas por dia derrubando aleatoriamente seus servidores e/ou serviços? Parece auto sabotagem, mas não é. Isso é a Teoria do Caos sendo usada para testar a resiliência do seu ambiente de TI, ou seja, garantir que quando ocorrer uma falha, a parte do sistema afetada seja menos relevante em comparação ao sistema como um todo.
Quem faria algo assim? Ninguém menos que: Netflix! A famosa provedora de filmes e séries de televisão tem um projeto open source, nomeado Chaos Monkey, que tem como objetivo testar a tolerância a falhas do ambiente. O Chaos Monkey derruba servidores da Netflix e desativa, aleatoriamente, instâncias e serviços dentro da arquitetura. Com isso, os arquitetos podem descobrir se o sistema é robusto e resiliente para suportar falhas não planejadas para melhorar a confiabilidade dos serviços. Essa estratégia permite antecipar os GAP’s de configurações, processos etc., além de proporcionar a real e constante atestação de resiliência.

A teoria do caos serve para aprender e não somente quebrar o sistema. Ao passar por situações de falhas a equipe de TI aprende novas saídas e respostas a situações adversas e fica mais bem preparada para reagir no caso de uma falha real inesperada ocorrer.

Para aplicar essa teoria é preciso ter uma abordagem disciplinada, segura e controlada a fim de colaborar com a confiabilidade, escalabilidade e disponibilidade dos sistemas. E, na arquitetura de sistemas resilientes, os microsserviços (microservices) são peça fundamental para elevar a disponibilidade e, consequentemente, proporcionar melhor experiência aos usuários.

Vale ressaltar que mesmo aplicando essa teoria, os sistemas e equipes não estarão aptos a prevenir todos os possíveis modos de falha, mas é possível identificar muitas vulnerabilidades antes que elas sejam descobertas por mal-intencionados e prevenir futuras interrupções.

Sendo assim, mesmo que pareça auto sabotagem, a Teoria do Caos é uma estratégia para melhorar a resiliência e segurança dos ambientes que minimiza ou elimina o ônus de ataques, além de possibilitar mais integração com outros ambientes e ensinar caminhos para a equipe de TI lidar de forma imediata com falhas.

E aí, quando o “caos” chegará em seu ambiente de TI para proporcionar mais segurança?

Fernando Oliveira

Fundador e CTO na SEC4YOU.