(TCC USP Esalq) Mapeamento inteligente de clientes com ciência de dados

Para o Trabalho de Conclusão de Curso (TCC) do meu MBA em Data Science e Analytics pela USP/Esalq, desenvolvi uma solução aplicada para um dos desafios mais recorrentes em operações B2B: como qualificar e automatizar a prospecção de clientes utilizando dados públicos e fontes digitais de forma ética, escalável e orientada por dados.

O projeto propôs a construção de uma ferramenta de inteligência comercial automatizada, voltada para indústrias e distribuidores que enfrentam dificuldades em identificar potenciais compradores de seus insumos. A solução é baseada em quatro pilares interdependentes: coleta automatizada, delimitação geográfica e setorial, qualificação digital e análise exploratória com visualização interativa.

O resultado final do projeto é um painel (e uma lista) com todos os potenciais clientes de uma indústria (ou distribuidor) de chocolate para a cidade de Itapecerica da Serra, com qualificações detalhadas sobre presença digital (na plataforma do ifood), utilização de chocolate, e nível de utilização (quantidade de aplicações em produtos próprios).

A imagem a seguir mostra o georreferenciamento dos clientes mapeados, com destaque aos que foram encontrados no ifood (exibidos em laranja).

Problema de negócio

  • Bases desatualizadas ou genéricas
  • Dependência de indicações ou redes de relacionamento
  • Falta de presença digital nos canais tradicionais de prospecção

A proposta foi construir um processo automatizado de inteligência comercial que permita mapear, qualificar e segmentar leads com alto potencial de conversão — utilizando fontes abertas, APIs e análise de presença digital em tempo real.

Delimitação estratégica

Para fins acadêmicos, o escopo foi delimitado à cidade de Itapecerica da Serra (SP), com foco em estabelecimentos que utilizam chocolate em seus cardápios. A escolha teve motivação prática e técnica: a cidade possui representatividade comercial, cobertura parcial em plataformas de delivery e volume suficiente para testar a robustez do modelo.

Metodologia técnica

1. Coleta de dados

  • Extração automatizada da base nacional de CNPJ via Receita Federal
  • Filtragem por situação cadastral, CNAE e CEP
  • Leitura por chunks para alta performance

2. Delimitação

  • Foco em CNPJs ativos e do setor alimentício
  • Filtro geográfico por município
  • Remoção de registros irregulares e inaptos

3. Qualificação dos leads

  • Scraping com Selenium e BeautifulSoup em plataforma de delivery
  • Extração de cardápios: nome do produto, preço, link e avaliação
  • Análise semântica de termos ligados a chocolate

4. Análise e visualização

  • Georreferenciamento via API do CepAberto
  • Relacionamento entre as bases por CNPJ
  • Dashboards em Power BI para navegação e tomada de decisão

Resultados

  • 2.152 CNPJs filtrados (setor alimentício - Itapecerica da Serra)
  • 687 com presença digital confirmada
  • 26.355 produtos extraídos via scraping
  • 3.967 produtos classificados como contendo chocolate
  • 47% dos estabelecimentos qualificados utilizam chocolate

Os leads foram classificados conforme o grau de aderência ao insumo-alvo (chocolate): leve, moderado e intensivo. Além disso, métricas como nota na plataforma, ticket médio e localização geográfica foram integradas para apoiar decisões comerciais.

Painel interativo:
https://gftech.online/tcc/geolocalizacao.html

Repositório de códigos:
https://github.com/EvandroFerreiraGomes/TCC_UspEsalq

Aplicações e próximos passos

O modelo apresentado é replicável para outras regiões e segmentos. Empresas que desejam automatizar a prospecção de forma orientada por dados podem adaptar essa solução para atuar com maior assertividade, menos esforço manual e maior foco comercial.

Se sua empresa atua no setor B2B e busca transformar dados públicos em vantagem competitiva, estou à disposição para conversar sobre como aplicar essa metodologia no seu contexto.

Aprovado com 10!

Suporte a estudantes

Se você está cursando o MBA em Data Science e Analytics pela USP/Esalq e busca apoio técnico durante o desenvolvimento do seu TCC, estou à disposição para contribuir com minha experiência prática. Posso auxiliar na revisão da metodologia, estruturação do conteúdo técnico, apoio na elaboração dos scripts em Python e SQL, além de sugestões para análise exploratória, visualizações e integração com ferramentas como Power BI. Entendo na prática os desafios de alinhar rigor acadêmico à aplicação real de ciência de dados, acredito que, com orientação adequada seu projeto será uma solução relevante.