Para o Trabalho de Conclusão de Curso (TCC) do meu MBA em Data Science e Analytics pela USP/Esalq, desenvolvi uma solução aplicada para um dos desafios mais recorrentes em operações B2B: como qualificar e automatizar a prospecção de clientes utilizando dados públicos e fontes digitais de forma ética, escalável e orientada por dados.
O projeto propôs a construção de uma ferramenta de inteligência comercial automatizada, voltada para indústrias e distribuidores que enfrentam dificuldades em identificar potenciais compradores de seus insumos. A solução é baseada em quatro pilares interdependentes: coleta automatizada, delimitação geográfica e setorial, qualificação digital e análise exploratória com visualização interativa.
O resultado final do projeto é um painel (e uma lista) com todos os potenciais clientes de uma indústria (ou distribuidor) de chocolate para a cidade de Itapecerica da Serra, com qualificações detalhadas sobre presença digital (na plataforma do ifood), utilização de chocolate, e nível de utilização (quantidade de aplicações em produtos próprios).
A imagem a seguir mostra o georreferenciamento dos clientes mapeados, com destaque aos que foram encontrados no ifood (exibidos em laranja).

Problema de negócio
- Bases desatualizadas ou genéricas
- Dependência de indicações ou redes de relacionamento
- Falta de presença digital nos canais tradicionais de prospecção
A proposta foi construir um processo automatizado de inteligência comercial que permita mapear, qualificar e segmentar leads com alto potencial de conversão — utilizando fontes abertas, APIs e análise de presença digital em tempo real.
Delimitação estratégica
Para fins acadêmicos, o escopo foi delimitado à cidade de Itapecerica da Serra (SP), com foco em estabelecimentos que utilizam chocolate em seus cardápios. A escolha teve motivação prática e técnica: a cidade possui representatividade comercial, cobertura parcial em plataformas de delivery e volume suficiente para testar a robustez do modelo.

Metodologia técnica
1. Coleta de dados
- Extração automatizada da base nacional de CNPJ via Receita Federal
- Filtragem por situação cadastral, CNAE e CEP
- Leitura por chunks para alta performance
2. Delimitação
- Foco em CNPJs ativos e do setor alimentício
- Filtro geográfico por município
- Remoção de registros irregulares e inaptos
3. Qualificação dos leads
- Scraping com Selenium e BeautifulSoup em plataforma de delivery
- Extração de cardápios: nome do produto, preço, link e avaliação
- Análise semântica de termos ligados a chocolate
4. Análise e visualização
- Georreferenciamento via API do CepAberto
- Relacionamento entre as bases por CNPJ
- Dashboards em Power BI para navegação e tomada de decisão
Resultados
- 2.152 CNPJs filtrados (setor alimentício - Itapecerica da Serra)
- 687 com presença digital confirmada
- 26.355 produtos extraídos via scraping
- 3.967 produtos classificados como contendo chocolate
- 47% dos estabelecimentos qualificados utilizam chocolate

Painel interativo:
https://gftech.online/tcc/geolocalizacao.html
Repositório de códigos:
https://github.com/EvandroFerreiraGomes/TCC_UspEsalq
Aplicações e próximos passos
O modelo apresentado é replicável para outras regiões e segmentos. Empresas que desejam automatizar a prospecção de forma orientada por dados podem adaptar essa solução para atuar com maior assertividade, menos esforço manual e maior foco comercial.
Se sua empresa atua no setor B2B e busca transformar dados públicos em vantagem competitiva, estou à disposição para conversar sobre como aplicar essa metodologia no seu contexto.
Aprovado com 10!
Suporte a estudantes
Se você está cursando o MBA em Data Science e Analytics pela USP/Esalq e busca apoio técnico durante o desenvolvimento do seu TCC, estou à disposição para contribuir com minha experiência prática. Posso auxiliar na revisão da metodologia, estruturação do conteúdo técnico, apoio na elaboração dos scripts em Python e SQL, além de sugestões para análise exploratória, visualizações e integração com ferramentas como Power BI. Entendo na prática os desafios de alinhar rigor acadêmico à aplicação real de ciência de dados, acredito que, com orientação adequada seu projeto será uma solução relevante.