Módulo 10: Troubleshooting Real

01. Método

O método: sintoma → hipótese → evidência

Explicação

Bom troubleshooting não começa com comando. Começa com definição de sintoma: o quê falhou, desde quando, para quem e com qual impacto. A partir disso, você constrói hipóteses e procura evidência para confirmar ou descartar cada uma.

Fluxo mínimo

Defina o sintoma com precisão.
Restrinja escopo: um host, um serviço, todos os usuários?
Colete evidência antes de alterar tudo.
Faça uma mudança por vez e valide.

02. Ferramentas

Primeiros comandos que quase sempre ajudam

Caixa de ferramentas

uptime
free -h
df -h
ip a
ss -tulpn
ps aux --sort=-%mem | head
systemctl --failed
journalctl -xe --no-pager

Explicação

Esses comandos respondem rápido se o problema é carga, memória, disco, rede, processos ou serviço falho. Não resolvem sozinhos, mas orientam a próxima pergunta técnica.

03. Casos

Cenários reais

Cenário 1: Site fora do ar

systemctl status nginx
journalctl -u nginx -n 50 --no-pager
ss -tulpn | grep ':80'
curl -I http://127.0.0.1

Objetivo: diferenciar se o problema é serviço parado, porta ocupada, config inválida ou aplicação upstream quebrada.

Cenário 2: SSH não conecta

systemctl status ssh
ss -tulpn | grep ':22'
ip a
ping gateway
journalctl -u ssh -n 50 --no-pager

Objetivo: separar problema de serviço, firewall, rede ou credencial.

Cenário 3: Disco lotado

df -h
df -i
du -sh /var/*
journalctl --disk-usage

Objetivo: localizar rapidamente partição, tipo de exaustão e maior consumidor.

04. Erros

Erros comuns de quem está começando

Armadilhas

Reiniciar tudo cedo demais: às vezes isso apaga evidência. Logs e estado do processo podem se perder.

Mudar várias coisas ao mesmo tempo: quando melhora, você não sabe o que realmente resolveu. Quando piora, não sabe o que desfez.

Parar no sintoma superficial: "o site caiu" não é causa, é efeito. A causa pode ser disco, DNS, porta, serviço ou permissão.

05. Finalização

Rollback e validação final

Explicação

Resolver não basta. Você precisa provar que resolveu. Valide pelo mesmo sintoma que abriu o incidente: requisição voltou? login funciona? uso de disco caiu? Além disso, tenha sempre uma forma de voltar atrás se a mudança piorar o estado.

Fechamento correto

Confirme que o sintoma sumiu para o usuário.
Registre causa raiz e correção.
Anote como detectar isso mais cedo da próxima vez.
Se possível, automatize verificação ou monitoração.

Troubleshooting Real

O método: sintoma → hipótese → evidência

Primeiros comandos que quase sempre ajudam

Cenários reais

Erros comuns de quem está começando

Rollback e validação final

Flashcards

Quiz