Já pensou em ficar 24 horas derrubando aleatoriamente seus servidores e serviços? Parece auto-sabotagem, mas não é! Isso é a teoria do caos sendo usada para testar a resiliência do seu ambiente de TI, ou seja, garantir que quando ocorrer uma falha, a parte do sistema afetada seja menos relevante em comparação ao sistema como um todo.

Quem faria algo assim? Ninguém menos que a Netflix! A famosa provedora de filmes e séries de televisão tem um projeto open source, nomeado Chaos Monkey, que tem como objetivo testar a tolerância a falhas do ambiente. 

Chaos Monkey: como a Netflix promove a teoria do caos?

O Chaos Monkey derruba servidores da Netflix e desativa, aleatoriamente, instâncias e serviços dentro da arquitetura. Com isso, os arquitetos podem descobrir se o sistema é robusto e resiliente para suportar falhas não planejadas, e assim, melhorar a confiabilidade dos serviços. 

Dessa forma, a estratégia permite antecipar os gaps de configurações, processos etc, além de proporcionar a real e constante atestação de resiliência.

Como implementar a teoria do caos?

A teoria do caos serve para aprender e não somente quebrar o sistema. Ao passar por situações de falhas, a equipe de TI aprende novas saídas e respostas para as situações adversas. E assim, fica mais preparada para reagir no caso de uma falha real e inesperada ocorrer.

Portanto, para aplicar a teoria do caos é preciso ter uma abordagem disciplinada, segura e controlada, para colaborar com a confiabilidade, escalabilidade e disponibilidade dos sistemas. 

Além disso, na teoria do caos, a arquitetura de sistemas resilientes, os microsserviços (microservices), são peças fundamentais para elevar a disponibilidade e, consequentemente, proporcionar melhor experiência para quem acessa os sistemas.

Vale ressaltar que mesmo aplicando a teoria do caos, os sistemas e equipes não estarão aptos a prevenir todos os possíveis modos de falhas. Porém, é possível identificar muitas vulnerabilidades antes que elas sejam descobertas por pessoas mal-intencionadas e prevenir futuras interrupções.

Sendo assim, mesmo que pareça auto sabotagem, a teoria do caos é uma estratégia para melhorar a resiliência e segurança dos ambientes, que minimiza ou elimina o ônus de ataques. Além de possibilitar mais integração com outros ambientes e ensinar caminhos para a equipe de TI lidar de forma imediata com falhas.

E aí, quando o “caos” chegará em seu ambiente de TI para proporcionar mais segurança?