Recentemente tive a oportunidade de testar o PentAGI na API do meu side-project Nutrilow. É um aplicativo de nutrição que tem várias camadas, incluindo uma de IA para o plano pago que vai lançar nas próximas semanas. Uma coisa que eu priorizo sempre é segurança, então durante esse período eu parei várias vezes pra testar e retestar a API e garantir a segurança e privacidade de quem usa. Estou há mais de 10 anos no mercado e não posso deixar qualquer brecha sujar minha reputação, por menor que seja.

Eu já vinha fazendo vários estudos com Nmap, Burp Suite e outras ferramentas clássicas que ajudam nesses testes. São eficientes, mas exigem um monte de tarefas manuais que daria pra automatizar com agentes de IA. O problema é que, com pouco tempo livre e ainda criando features novas pro app, eu não tinha o luxo de montar algo do zero.

Foi aí que, acessando o X (vulgo Twitter), encontrei alguém mencionando essa ferramenta. De cara pensei: “bom, deve ser mais uma daquelas ferramentas milagrosas que todo mundo promete que faz isso e aquilo e tudo mais” . Mas por que não arriscar? Afinal, só quem arrisca merece viver o extraordinário, não é mesmo?

Dito isso, tirei um fim de semana inteiro pra usar e testar na API real do Nutrilow. Gasto? Uns 60 reais no Gemini dos melhores que eu fiz ultimamente. A ferramenta é foda porque pode trabalhar com N modelos: desde locais via Ollama (pra quem quer privacidade total e zero custo) até Gemini, OpenAI, Anthropic e agregadores. No meu caso, por ser mais prático e rápido, usei o Gemini.

Criei um prompt bem completo com o script de tudo que eu queria: um pentest full na API, incluindo descoberta de portas abertas, mapeamento de todas as rotas, testes de autenticação JWT (validação de assinatura, expiração, bypass de privilégios, manipulação de claims), enumeração de endpoints protegidos, injeções SQL, rate limiting e qualquer outra coisa da OWASP API Top 10.

O PentAGI não ficou só no que eu passei no prompt. Ele planejou sozinho os passos usando vários agentes autônomos: um de infraestrutura rodando scans tipo Nmap, outro de desenvolvimento explorando rotas e JWT em profundidade, e um de pesquisa puxando contexto extra. Eu fui acompanhando os logs em tempo real e, cara, me surpreendi. Ele testou itens que eu nem tinha listado explicitamente.

Na primeira execução ele travou no login (normal, a API é protegida). Em vez de parar, eu criei um novo flow no prompt: expus as regras da minha API (sem dar credenciais reais, óbvio), expliquei o padrão Bearer, como os endpoints funcionam e o que ele podia fazer. E aí ele foi além mapeou rotas que eu nem tinha mencionado, testou variações de ataques, tentou escalonamento de privilégios e tudo mais.

Resultado? Zero brechas críticas. Minha API aguentou firme (ufa!). Mas o que mais me impressionou foi o relatório final que ele entregou. Não é aquele log seco de console. É um relatório profissional, com vulnerabilidades encontradas (ou não), proofs-of-concept detalhados, guias passo a passo de como explorar cada falha e recomendações práticas de correção. Muitos devs que eu conheço não têm nem o básico de segurança uma ferramenta assim ajuda demais a tornar a internet mais segura.

O PentAGI roda tudo em ambiente sandbox via Docker (zero risco pro meu servidor), tem integração nativa com mais de 20 ferramentas profissionais (Nmap, Metasploit, sqlmap e cia), usa um knowledge graph com Neo4j pra guardar contexto e memória inteligente, e ainda gera relatórios que ficam salvos no PostgreSQL com pgvector. É exatamente o que eu precisava: automação de tarefas que antes tomavam horas ou dias.

Confesso que ainda tem muito pra explorar. Vou dedicar mais tempo pra isso, inclusive testando com modelos locais via Ollama pra ficar offline e com mais privacidade. Acredito que vou integrar no CI/CD do Nutrilow futuramente.

Se você é dev, tech lead ou está construindo algo sério (principalmente APIs com dados sensíveis de saúde, nutrição ou fintech), recomendo demais. O repo é open-source, roda com Docker Compose e tem UI web moderna: https://github.com/vxcontrol/pentagi

E você, já testou alguma ferramenta de pentest com IA? Vamos trocar ideia sobre segurança, IA e side-projects! 🚀