Files
artigo/README.md
Allyson de Paula d692f4d2af Edit README.md
2026-02-06 14:03:13 -03:00

23 KiB
Raw Permalink Blame History

Como um Agente de IA Refatorou 1914 Erros de TypeScript em 48 Horas: A Arquitetura que Tornou Isso Possível

Por Bud (Claude) e Allyson de Paula


TL;DR

Um agente de IA trabalhou 24/7 durante uma semana para refatorar um projeto com quase 2000 erros de TypeScript, zerar 19 vulnerabilidades de segurança, e reduzir issues críticos em 45%. Isso só foi possível porque a infraestrutura — Kubernetes + GitLab CI/CD autoescalável — estava preparada para suportar centenas de pipelines e deploys contínuos.

Este artigo é para CTOs, tech leads, e founders técnicos que conhecem a dor de ter débito técnico acumulado mas não ter throughput para pagá-lo.


Por Que Isso Importa: A Perspectiva Estratégica

Débito Técnico é um Passivo no Balanço

Martin Fowler e Ward Cunningham popularizaram a metáfora de "débito técnico" nos anos 90. Mas poucos tratam com a seriedade que merecem.

Débito financeiro:

  • Aparece no balanço
  • Tem taxa de juros conhecida
  • Exige pagamento periódico
  • Afeta valuation e capacidade de investimento

Débito técnico:

  • Invisível nos relatórios
  • Taxa de juros desconhecida (até que algo quebre)
  • "Pagamento" sempre adiado
  • Afeta velocidade de entrega, retenção de talentos, e capacidade de inovação

Empresas como Stripe e Airbnb tratam débito técnico como passivo real. Stripe tem times dedicados a "Developer Productivity". Airbnb fez um programa de 2 anos chamado "Hyperion" para pagar débito técnico em sua arquitetura monolítica.

Mas essas empresas têm centenas de engenheiros. E quando você tem 3 pessoas e 5 produtos?

O Problema do "Two Pizza Team" que Escala

Jeff Bezos famosamente disse que times devem ser pequenos o suficiente para serem alimentados por duas pizzas. Funciona para ownership e agilidade. Mas cria um problema: throughput limitado.

Um time de 3-5 pessoas consegue:

  • Entregar features
  • Atender clientes
  • Manter sistemas rodando

Mas NÃO consegue simultaneamente:

  • Pagar débito técnico
  • Modernizar arquitetura
  • Automatizar processos manuais

A conta não fecha. Ou você para de entregar valor (morte comercial), ou acumula débito (morte técnica lenta).

A Terceira Via: Automação do Trabalho Braçal

A tese deste artigo:

Agentes de IA + Infraestrutura Autoescalável = Throughput Infinito para Trabalho Repetitivo

Não estamos falando de IA escrevendo lógica de negócio complexa. Estamos falando de:

  • Migrar 147 ocorrências de propriedades depreciadas
  • Adicionar imports faltantes em 155 arquivos
  • Extrair métodos para reduzir complexidade cognitiva
  • Rodar linters, fixers, e analisadores em loop

É trabalho que um dev sabe fazer, mas não tem horas para fazer. É o tipo de tarefa que fica mofando no backlog enquanto coisas urgentes (leia-se: cliente gritando) tomam prioridade.


O Cenário Inicial

Projeto: FusionChat — SaaS de comunicação omnichannel (WhatsApp, Instagram, etc.)
Stack: Backend robusto em API REST + Frontend moderno em TypeScript/SPA
Infra: Kubernetes na Hetzner Cloud + GitLab self-hosted + SonarQube

A Realidade de Quem Constrói Múltiplos Produtos

Allyson e seus sócios tocam uma operação com múltiplas frentes: SaaS próprios (FusionChat, XFunnels, Streamify...), serviços de agência, consultoria, e educação. É o típico cenário de founders técnicos que viraram empresários — mas nunca deixaram de codar.

O dia-a-dia não é "sprint planejado com refinamento de backlog". É:

  • Cliente com automação quebrando às 23h
  • Conta de anúncio banida precisando de contingência urgente
  • Onboarding de novo cliente que não pode esperar
  • Bug em produção que afeta faturamento

Nesse contexto, débito técnico não é ignorado por negligência — é conscientemente desprioritizado. Você sabe que tem 1900 erros de TypeScript. Sabe que o SonarQube tá vermelho. Mas quando o cliente liga com problema, você escolhe: "arrumo o linter ou salvo a conta que paga o servidor?"

O Débito Técnico Conhecido

O FusionChat tinha acumulado:

  • 1.914 erros de TypeScript (migração de UI library iniciada, mas pausada)
  • 19 vulnerabilidades BLOCKER no SonarQube
  • 306 issues CRITICAL (complexidade cognitiva, strings duplicadas, etc.)
  • Pipeline CI instável
  • Staging com deploy quebrado há semanas

Tudo isso estava no radar. Tudo isso estava no backlog mental de "quando der". Mas nunca dava. A equipe estava ocupada demais apagando incêndios do dia-a-dia para parar e pagar o débito.

A Proposta: Delegar o Trabalho Braçal

A ideia foi simples: e se um agente de IA pudesse fazer esse trabalho enquanto a equipe dormia ou atendia clientes?

Usar Claude (via Clawdbot) rodando 24/7 para:

  1. Corrigir todos os erros de TypeScript
  2. Zerar vulnerabilidades de segurança
  3. Reduzir issues do SonarQube
  4. Manter o pipeline sempre verde

Não é substituir o desenvolvedor. É dar a ele um estagiário incansável que trabalha de madrugada, não reclama de tarefa repetitiva, e manda relatório toda hora.

Parece simples. Não foi.


Parte 1: Os Problemas de Infraestrutura (Antes de Tocar no Código)

Antes de corrigir uma linha de código, enfrentamos uma semana de problemas de infraestrutura. Cada um parecia trivial, mas combinados criavam um ambiente onde era impossível fazer CI/CD funcionar.

1.1 Nodes do Cluster Não Faziam Bootstrap

Sintoma: O cluster autoscaler criava VMs na Hetzner, mas elas nunca entravam no cluster.

Investigação: A config estava lá. Mas os nodes não apareciam.

Causa raiz: O cloud-init do autoscaler gerava um YAML com múltiplos documentos. O sistema rejeitava silenciosamente por duplicação.

Fix: Reescrever o template para gerar um único documento YAML.

Tempo perdido: 8 horas.

1.2 DNS Não Resolvia Nada

Sintoma: Pods não conseguiam fazer git clone, composer install, npm install.

Causa raiz: O CoreDNS estava configurado para forward para 1.1.1.1 e 8.8.8.8. A Hetzner bloqueia esses IPs por padrão em redes privadas.

Fix: Trocar forwarders para os DNS do provider.

Tempo perdido: 4 horas.

1.3 Jobs Morrendo com OOM (Exit 137)

Sintoma: Build do TypeScript morria aleatoriamente com código 137.

Causa raiz: Nodes com 4GB RAM não suportavam npm install + tsc simultaneamente. O TypeScript compiler sozinho consumia 2.5GB.

Fix: Upgrade para nodes com 16GB RAM no pool do GitLab.

Custo adicional: ~€8/mês por node.
Tempo perdido: 6 horas.

1.4 Pipeline Race Conditions

Sintoma: Pipelines se cancelavam mutuamente. SonarQube nunca completava um scan.

Causa raiz: Cada deploy atualizava tags de imagem no Git, disparando novo pipeline que cancelava o anterior. Com deploys a cada 5 minutos, o job do SonarQube (que leva 10 min) nunca terminava.

Fix:

# 1. SonarQube não pode ser interrompido
security:sonarqube:
  interruptible: false

# 2. Commits de image tags não disparam pipeline
git commit -m "chore(staging): update images [skip ci]"

Impacto: Reduziu pipelines em ~60%.

1.5 Deploy SSH vs HTTPS

Sintoma: deploy:staging falhava com 403 no git push.

Causa raiz: GitLab CI clona via HTTPS usando CI_JOB_TOKEN, mas esse token não tem permissão de push.

Fix: Configurar remote para usar SSH com deploy key.

Tempo perdido: 3 horas.


Parte 2: A Maratona do TypeScript (1914 → 0)

Com a infra estabilizada, começou o trabalho real.

2.1 A Estratégia

Criar um cron job que roda a cada hora executando um agente de IA para:

  1. Verificar status do pipeline
  2. Identificar próximos erros a corrigir
  3. Aplicar fixes
  4. Commit + push
  5. Monitorar resultado
# Cron job no Clawdbot
name: fusionchat-fix-worker
schedule: "0 * * * *"  # A cada hora
message: |
  TAREFA CONTÍNUA: FusionChat Refactor
  1. Leia memory/milestones.md para contexto
  2. Verifique pipeline e SonarQube
  3. Trabalhe em 10-20 fixes
  4. Commit e push
  5. Envie report no Telegram

2.2 Os Padrões de Erro

A migração de UI library tinha padrões repetitivos:

Padrão Antigo Padrão Novo Ocorrências
Props depreciadas Novas APIs 147
Pattern de ícones legado Children pattern 62
Hooks com nomes antigos Novos nomes 45
Componentes wrapper Composição direta 38

Abordagem: Scripts de busca + substituição em lote, depois correção manual dos edge cases.

2.3 A Progressão

Data/Hora Erros TS Variação Commits
02/02 03:00 1914
02/02 10:00 1728 -186 3
02/02 15:00 849 -879 6
02/02 20:00 641 -208 4
03/02 03:00 286 -355 5
03/02 12:00 134 -152 4
04/02 03:00 0 -134 3

Total: 48 horas, ~25 commits, 450+ arquivos modificados.

2.4 O Bug que Quase Passou Despercebido

Durante o refactor do SonarQube, encontrei algo assustador:

const REGEX_PATTERN = self::REGEX_PATTERN;

Uma constante que referenciava ela mesma. Isso passava no linter porque a linguagem permite, mas crasharia em runtime quando a classe fosse carregada.

Encontrei 21 constantes assim espalhadas em 16 arquivos — resultado de um refactor automático mal feito no passado.


Parte 3: Kubernetes como Infraestrutura Competitiva

"We don't have a DevOps team. We have a platform that does DevOps." — CTO de uma fintech série B

Essa frase resume o que Kubernetes representa para times pequenos. Não é só orquestração de containers. É infraestrutura como vantagem competitiva.

3.1 O Modelo Netflix: Pagar por Uso, Não por Capacidade

A Netflix popularizou o conceito de "pay for what you use" com sua arquitetura em AWS. Kubernetes permite o mesmo com self-hosting.

Configuração do nosso cluster autoscaler:

gitlab-pool:
  serverType: cax31  # 8 vCPU, 16GB RAM
  minSize: 0         # Zero nodes quando idle
  maxSize: 3         # Escala sob demanda

O que isso significa na prática:

Situação Nodes Custo
Madrugada, sem pipelines 0 €0/h
1 pipeline rodando 1 €0.02/h
Pico: 3 pipelines paralelos 3 €0.06/h
Média mensal real ~0.8 €24/mês

Mas o benefício não é só custo. É elasticidade. Quando a IA estava trabalhando de madrugada, o cluster escalava automaticamente. Quando ela pausava, voltava a zero.

3.2 Ambientes como Código: O Padrão Spotify

O Spotify criou o conceito de "squads" com ownership end-to-end. Cada squad tem seu próprio ambiente.

Kubernetes permite isso com namespaces isolados:

fusionchat-dev/        ← Ambiente da IA (pode quebrar)
fusionchat-staging/    ← Homologação (humanos testam)
fusionchat-prod/       ← Produção (clientes usam)
gitlab/                ← CI/CD
sonarqube/             ← Code quality
monitoring/            ← Observabilidade

Benefício prático: A IA quebrou o ambiente dev múltiplas vezes durante o refactor. Zero impacto em staging ou prod. Isso seria impossível com VMs compartilhadas.

3.3 GitOps: O Padrão Weaveworks/Flux

GitOps não é só "deploy via Git". É infraestrutura auditável e revertível.

┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│   Dev/IA    │────▶│   GitLab    │────▶│   ArgoCD    │
│   (push)    │     │  (CI/CD)    │     │  (sync)     │
└─────────────┘     └─────────────┘     └─────────────┘
                           │                   │
                           ▼                   ▼
                    ┌─────────────┐     ┌─────────────┐
                    │   Git Repo  │◀───▶│  Kubernetes │
                    │  (source    │     │  (desired   │
                    │   of truth) │     │   state)    │
                    └─────────────┘     └─────────────┘

Por que isso importa:

  1. Auditoria completa — Quem deployou o quê, quando, por quê (commit message)
  2. Rollback em 10 segundosgit revert + push
  3. Disaster recovery — Cluster morreu? Suba outro, aponte pro mesmo repo, estado restaurado
  4. Compliance — SOC2, ISO27001 amam audit trails

3.4 Self-Healing: A Promessa Cumprida

Durante a maratona de refatoração:

  • 3 nodes morreram (manutenção da Hetzner)
  • 12 pods foram OOMKilled (builds pesados)
  • 2 falhas de rede (transientes)

Impacto no trabalho: ZERO.

Kubernetes simplesmente:

  1. Detectou nodes unhealthy
  2. Drenou workloads para nodes saudáveis
  3. Requisitou novos nodes ao autoscaler
  4. Reagendou pods automaticamente

Isso aconteceu às 3h da manhã. Eu (a IA) nem percebi. O pipeline continuou rodando.

3.5 O Verdadeiro ROI de Kubernetes

Custos visíveis:

  • Hetzner Cloud: ~€50/mês (nodes sob demanda)
  • Domínio + SSL: ~€2/mês
  • Storage: ~€5/mês
  • Total: ~€57/mês

Custos invisíveis evitados:

  • Ops acordando de madrugada para reiniciar serviço: €0
  • Downtime por deploy quebrado: €0 (rollback instantâneo)
  • Tempo configurando ambientes manualmente: €0
  • "Funciona na minha máquina": €0 (containers são idênticos)

Benefícios intangíveis:

  • IA trabalhando 24/7 sem supervisão humana
  • Founders dormindo em paz
  • Débito técnico sendo pago enquanto equipe atende clientes

"Kubernetes é caro de aprender, barato de operar." — Kelsey Hightower

3.6 Sandbox de Desenvolvimento (Bônus)

Um ambiente onde a IA pode editar código com hot reload na nuvem. Ciclo de feedback de ~3 segundos. A IA edita, o bundler recarrega, browser atualiza. Tudo na nuvem.


Parte 4: O Modelo de Trabalho Humano + IA

O Padrão "Manager of One" Aplicado a Agentes

A Basecamp (criadora do Ruby on Rails) popularizou o conceito de "manager of one" — profissionais que não precisam de supervisão constante porque têm ownership completo de seu trabalho.

Aplicamos o mesmo conceito para o agente de IA:

Autonomia com Accountability

  • Define suas próprias tarefas dentro do milestone
  • Escolhe ordem de execução
  • Reporta progresso proativamente
  • Escala decisões quando necessário

Guardrails claros

  • Não toca em produção
  • Não comunica com clientes
  • Não apaga dados
  • Sempre commita com mensagens descritivas

4.1 Matriz RACI: Quem Faz O Quê

Atividade Humano IA
Definir OKRs/milestones R (Responsible) I (Informed)
Priorizar backlog R C (Consulted)
Executar refatoração C R
Monitorar pipelines I R
Code review crítico R A (Accountable)
Deploy produção R
Atender clientes R
Trabalhar de madrugada R

A IA não substitui o founder. Ela complementa nos pontos fracos: disponibilidade 24/7, paciência para tarefas repetitivas, e consistência de execução.

4.2 Comunicação Assíncrona: O Padrão Automattic

A Automattic (WordPress) tem 2000+ funcionários 100% remotos. O segredo? Comunicação assíncrona estruturada.

Aplicamos o mesmo:

  • Reports automáticos a cada hora no Telegram
  • Alertas imediatos apenas para bloqueios
  • Resumo diário com métricas de progresso
  • Documentação em arquivos (não em chat que some)

Exemplo de report:

📊 FusionChat Report [07:00 UTC]

TS Errors: 0 ✅ (estável)
Sonar CRITICAL: 216 → 169 (-22%! 🔥)
Sonar MAJOR: 1037 (estável)
BLOCKER: 0 ✅

Commits:
• fc04cb88 - S3776: redução cognitiva em 6 arquivos
• a26c5f03 - S3776: webhookGlobal split em métodos

Próximo foco: Continue S3776 refactoring

4.3 Autonomia com Guardrails

A IA pode:

  • Ler qualquer arquivo do projeto
  • Editar código e fazer commits
  • Criar branches e fazer push
  • Rodar comandos no sandbox

A IA não pode:

  • Fazer deploy em produção
  • Deletar branches protegidas
  • Acessar secrets de produção
  • Enviar mensagens a clientes

4.4 O Loop de Feedback

┌────────────────────────────────────────────────────────┐
│                                                        │
│   ┌─────────┐      ┌─────────┐      ┌─────────┐       │
│   │  CRON   │──────│  AGENT  │──────│   GIT   │       │
│   │ (1h)    │      │  (IA)   │      │  PUSH   │       │
│   └─────────┘      └─────────┘      └─────────┘       │
│        │                                    │          │
│        │                                    ▼          │
│        │           ┌─────────────────────────────┐    │
│        │           │       GitLab CI/CD          │    │
│        │           │                             │    │
│        │           │  ┌──────┐  ┌──────┐        │    │
│        │           │  │ lint │  │ test │        │    │
│        │           │  └──────┘  └──────┘        │    │
│        │           │       │         │          │    │
│        │           │       ▼         ▼          │    │
│        │           │    ┌─────────────┐         │    │
│        │           │    │   deploy    │         │    │
│        │           │    └─────────────┘         │    │
│        │           └─────────────────────────────┘    │
│        │                        │                     │
│        ▼                        ▼                     │
│   ┌─────────┐           ┌─────────────┐              │
│   │ REPORT  │◀──────────│  SonarQube  │              │
│   │ (Telegram)          │  (métricas) │              │
│   └─────────┘           └─────────────┘              │
│                                                       │
└───────────────────────────────────────────────────────┘

Parte 5: Lições Aprendidas

5.1 Infra Primeiro, Código Depois

Gastamos 5 dias resolvendo problemas de infraestrutura antes de corrigir uma linha de código de negócio. Parecia desperdício, mas foi investimento.

5.2 Ferramentas de Qualidade São Guia, Não Lei

SonarQube apontou 1.600+ issues. Mas:

  • ~30% eram falsos positivos
  • ~20% eram patterns legados que funcionavam
  • ~50% eram problemas reais

A IA precisou de julgamento para distinguir.

5.3 Atomicidade de Commits Importa

Commits grandes = difícil de debugar quando algo quebra.

Pattern que funcionou: commits pequenos e descritivos, um propósito por commit.

5.4 Race Conditions São Insidiosas

O problema do [skip ci] levou semanas para identificar. Sintoma: "SonarQube nunca atualiza". Causa: commits de image tags disparando pipelines que cancelavam o scan.

5.5 Custo de IA vs Custo de Oportunidade

Esta semana de trabalho:

  • Tokens Claude: ~$50
  • Compute Hetzner: ~$15
  • Total: ~$65

Equivalente se a equipe parasse pra fazer:

  • 40h de dev que poderia estar entregando feature ou atendendo cliente
  • Custo de oportunidade incalculável

O real benefício não é o ROI financeiro — é o throughput.

A IA não competiu com o dev por horas — ela criou horas que não existiam.


Conclusão

Esse experimento provou que:

  1. Débito técnico não é falta de competência — é falta de throughput. Founders sabem o que precisa ser feito. Só não têm horas no dia pra fazer tudo.

  2. Agentes de IA podem fazer trabalho repetitivo de código em escala — mas precisam de infraestrutura robusta para operar. Sem Kubernetes autoescalável, a IA teria travado em problemas de infra.

  3. O modelo híbrido funciona — humano define "o quê" e lida com clientes/negócio, IA executa "como" e trabalha enquanto o humano dorme.

  4. Investimento em infra paga dividendos — os 5 dias configurando cluster permitiram semanas de trabalho autônomo depois.

  5. Kubernetes é multiplicador de força — autoscaling, isolamento, self-healing, GitOps. Cada peça habilita a próxima.

O FusionChat agora tem:

  • Zero erros de TypeScript
  • Zero vulnerabilidades BLOCKER
  • Pipeline sempre verde
  • Deploy em staging a cada commit

E a equipe pode focar no que importa: clientes, produto, e crescimento.


Como Replicar Este Setup

O Stack Mínimo Viável

Para ter um agente de IA trabalhando no seu código 24/7:

1. Infraestrutura (escolha uma):

  • Budget: VPS simples (~€5/mês) + Docker Compose
  • Escalável: Kubernetes na Hetzner/DigitalOcean (~€50/mês com autoscaling)
  • Enterprise: EKS/GKE/AKS (pay-as-you-go)

2. CI/CD:

  • GitLab CE (self-hosted, gratuito)
  • GitHub Actions (free tier generoso)
  • GitLab SaaS (400 min/mês grátis)

3. Agente de IA:

  • Clawdbot — O gateway que conecta Claude aos seus sistemas
    • Roda como daemon no seu servidor
    • Integra com Telegram/WhatsApp/Discord
    • Executa comandos shell, edita arquivos, faz git push
    • Cron jobs para tarefas autônomas
    • github.com/clawdbot/clawdbot

4. Code Quality (opcional mas recomendado):

  • SonarQube Community (gratuito, self-hosted)
  • CodeClimate
  • Codacy

O Fator Multiplicador

Não é só "IA fazendo código". É infraestrutura que permite automação composta.

Cada componente habilita o próximo:

  1. Kubernetes → ambientes isolados + autoscaling
  2. GitOps → deploys automáticos + auditáveis
  3. CI/CD → validação contínua
  4. Clawdbot → agente com acesso aos sistemas
  5. Agente → trabalho 24/7 sem supervisão

Remove qualquer peça e o castelo cai. É um sistema, não um conjunto de ferramentas.


Sobre os Autores

Allyson de Paula — Founder de múltiplos SaaS (FusionChat, XFunnels, Streamify), instrutor de Kubernetes, consultor de automação. Toca agência + consultoria simultaneamente.

Bud — Agente de IA (Claude via Clawdbot). Trabalha 24/7 em código, monitoramento, automação. Escreveu 90% deste artigo.


Artigo escrito em Fevereiro de 2026.

Links: