# Projeto de Análise Comercial: HubSpot SaaS B2B

## Visão Geral

Este projeto apresenta uma **análise de dados comerciais** utilizando Python, com foco em **Sales Operations, Revenue Analytics e Customer Success Analytics**.  

O objetivo é demonstrar, na prática, como aplicar análise de dados para gerar **insights estratégicos** que apoiem decisões de marketing, vendas e atendimento ao cliente em empresas B2B de SaaS.

A análise abrange cinco datasets principais:  
- **Companies**: informações sobre empresas e segmentos  
- **Contacts**: dados de contatos e decisores  
- **Deals**: oportunidades de vendas e pipeline  
- **Products**: mix de produtos e preços  
- **Tickets**: solicitações de suporte e CS  


## Objetivos do Projeto

- Explorar os dados de forma completa, entendendo estrutura, qualidade e padrões iniciais  
- Identificar **gargalos no pipeline** e oportunidades de melhoria  
- Calcular métricas comerciais como **win rate, ticket médio, ciclo de vendas e receita por indústria**  
- Relacionar empresas, contatos, deals, produtos e tickets para análises integradas  
- Criar um **portfólio prático de Sales Analytics**, demonstrando capacidade de gerar valor com dados  


## Importância do Projeto

- Serve como **prova de conceito** de análise orientada a dados aplicada a vendas e CS  
- Permite **tomada de decisão baseada em evidências**, aumentando previsibilidade comercial  
- Demonstra habilidade em **Python, Pandas e análise de dados estruturados**  
- Fornece insights acionáveis para:  
  - Gestão de pipeline  
  - Segmentação de clientes  
  - Planejamento de receita  
  - Identificação de oportunidades de upsell e cross-sell  
  - Avaliação de performance do suporte ao cliente  


## Estrutura do Notebook

1. **Importação das bibliotecas e datasets**  
2. **Exploração inicial dos dados** (shape, tipos, valores faltantes, estatísticas)  
3. **Análise detalhada de cada dataset**  
4. **Insights estratégicos e métricas comerciais**  
5. **Preparação para análises avançadas e dashboards**

In [1]:
import pandas as pd

# caminho para os arquivos csv
path = './archive/'

# carregando os arquivos
companies = pd.read_csv(path + 'companies.csv')
contacts = pd.read_csv(path + 'contacts.csv')
deals = pd.read_csv(path + 'deals.csv')
products = pd.read_csv(path + 'products.csv')
tickets = pd.read_csv(path + 'tickets.csv')

# primeiras linhas para impressão
print("Companies")
display(companies.head())

print("Contacts")
display(contacts.head())

print("Deals")
display(deals.head())

print("Products")
display(products.head())

print("Tickets")
display(tickets.head())

Companies


Unnamed: 0,company_id,company_name,industry,annual_revenue,num_employees,country
0,1,Phillips-Garrett,Healthcare,87969676.99,1684,Jersey
1,2,Murphy-Stewart,EdTech,39883912.84,476,United States of America
2,3,"Garcia, Gonzales and Hernandez",SaaS,57848632.71,295,Namibia
3,4,"Harding, Johnson and Randall",Healthcare,91968947.72,1339,Georgia
4,5,"Small, Luna and Bonilla",Fintech,9013750.11,1901,Cuba


Contacts


Unnamed: 0,contact_id,first_name,last_name,email,phone,job_title,company_id
0,1,Janet,Fuller,tmcdowell@example.org,488.383.0598,RevOps Manager,3
1,2,Jessica,Juarez,zsexton@example.net,459.288.6848x42525,CEO,26
2,3,Stephanie,Anderson,jason85@example.net,(521)253-1858x006,VP Sales,31
3,4,Darlene,Daniels,weissashley@example.org,(520)298-1113x45028,VP Sales,47
4,5,Cheryl,Hernandez,uskinner@example.com,+1-515-214-6787x4593,CEO,13


Deals


Unnamed: 0,deal_id,deal_name,amount,stage,close_date,company_id,contact_id
0,1,Deal 1,152431.49,Negotiation,2025-07-17,47,9
1,2,Deal 2,244215.91,Closed Lost,2025-02-18,45,199
2,3,Deal 3,297657.17,Demo Scheduled,2025-06-03,35,41
3,4,Deal 4,324799.05,Prospecting,2025-08-08,11,144
4,5,Deal 5,309381.8,Negotiation,2025-01-12,1,67


Products


Unnamed: 0,product_id,product_name,price,category
0,1,Very Software,864.55,Marketing
1,2,Look Software,4452.58,Marketing
2,3,Happy Software,828.46,Analytics
3,4,Do Software,2315.0,Marketing
4,5,Hospital Software,3680.0,Security


Tickets


Unnamed: 0,ticket_id,subject,status,priority,createdate,closed_date,associated_contact_id,associated_company_id
0,1,Permissions not updating for new user,In Progress,Medium,2025-02-03,,308,49
1,2,UI misalignment on Chrome,On Hold,Low,2025-05-06,2025-08-13,464,52
2,3,Permissions not updating for new user,In Progress,High,2025-07-03,,972,77
3,4,Unable to log in with SSO,In Progress,Low,2025-02-23,,115,241
4,5,Workflow automation not triggering,Open,Low,2025-07-09,2025-05-16,790,272


In [2]:
# função para rodas todos os CSVs com mais agilidade

def explore_df(df, name):
    print(f'\n===== {name.upper()} =====\n')
    
    print("Shape (linhas, colunas):")
    print(df.shape, "\n")
    
    print("Colunas:")
    print(df.columns, "\n")
    
    print("Tipos de dados:")
    print(df.dtypes, "\n")
    
    print("Valores faltantes:")
    print(df.isnull().sum(), "\n")
    
    print("Estatísticas descritivas:")
    display(df.describe())

In [3]:
explore_df(companies, 'companies')
explore_df(contacts, 'contacts')
explore_df(deals, 'deals')
explore_df(products, 'products')
explore_df(tickets, 'tickets')


===== COMPANIES =====

Shape (linhas, colunas):
(50, 6) 

Colunas:
Index(['company_id', 'company_name', 'industry', 'annual_revenue',
       'num_employees', 'country'],
      dtype='object') 

Tipos de dados:
company_id          int64
company_name       object
industry           object
annual_revenue    float64
num_employees       int64
country            object
dtype: object 

Valores faltantes:
company_id        0
company_name      0
industry          0
annual_revenue    0
num_employees     0
country           0
dtype: int64 

Estatísticas descritivas:


Unnamed: 0,company_id,annual_revenue,num_employees
count,50.0,50.0,50.0
mean,25.5,54977340.0,998.22
std,14.57738,26746660.0,576.101475
min,1.0,1473109.0,10.0
25%,13.25,31327950.0,497.75
50%,25.5,57016170.0,1106.0
75%,37.75,75999530.0,1434.25
max,50.0,98610380.0,1904.0



===== CONTACTS =====

Shape (linhas, colunas):
(200, 7) 

Colunas:
Index(['contact_id', 'first_name', 'last_name', 'email', 'phone', 'job_title',
       'company_id'],
      dtype='object') 

Tipos de dados:
contact_id     int64
first_name    object
last_name     object
email         object
phone         object
job_title     object
company_id     int64
dtype: object 

Valores faltantes:
contact_id    0
first_name    0
last_name     0
email         0
phone         0
job_title     0
company_id    0
dtype: int64 

Estatísticas descritivas:


Unnamed: 0,contact_id,company_id
count,200.0,200.0
mean,100.5,25.78
std,57.879185,14.520877
min,1.0,1.0
25%,50.75,14.0
50%,100.5,26.0
75%,150.25,38.0
max,200.0,50.0



===== DEALS =====

Shape (linhas, colunas):
(150, 7) 

Colunas:
Index(['deal_id', 'deal_name', 'amount', 'stage', 'close_date', 'company_id',
       'contact_id'],
      dtype='object') 

Tipos de dados:
deal_id         int64
deal_name      object
amount        float64
stage          object
close_date     object
company_id      int64
contact_id      int64
dtype: object 

Valores faltantes:
deal_id       0
deal_name     0
amount        0
stage         0
close_date    0
company_id    0
contact_id    0
dtype: int64 

Estatísticas descritivas:


Unnamed: 0,deal_id,amount,company_id,contact_id
count,150.0,150.0,150.0,150.0
mean,75.5,242229.425867,25.886667,98.34
std,43.445368,134684.664093,14.074365,58.479369
min,1.0,8671.97,1.0,2.0
25%,38.25,131948.7525,14.0,53.0
50%,75.5,250354.64,26.0,95.5
75%,112.75,337929.035,37.75,148.5
max,150.0,494198.02,50.0,199.0



===== PRODUCTS =====

Shape (linhas, colunas):
(20, 4) 

Colunas:
Index(['product_id', 'product_name', 'price', 'category'], dtype='object') 

Tipos de dados:
product_id        int64
product_name     object
price           float64
category         object
dtype: object 

Valores faltantes:
product_id      0
product_name    0
price           0
category        0
dtype: int64 

Estatísticas descritivas:


Unnamed: 0,product_id,price
count,20.0,20.0
mean,10.5,2783.01
std,5.91608,1535.979996
min,1.0,178.94
25%,5.75,1639.015
50%,10.5,2645.405
75%,15.25,4459.885
max,20.0,4907.72



===== TICKETS =====

Shape (linhas, colunas):
(500, 8) 

Colunas:
Index(['ticket_id', 'subject', 'status', 'priority', 'createdate',
       'closed_date', 'associated_contact_id', 'associated_company_id'],
      dtype='object') 

Tipos de dados:
ticket_id                 int64
subject                  object
status                   object
priority                 object
createdate               object
closed_date              object
associated_contact_id     int64
associated_company_id     int64
dtype: object 

Valores faltantes:
ticket_id                  0
subject                    0
status                     0
priority                   0
createdate                 0
closed_date              252
associated_contact_id      0
associated_company_id      0
dtype: int64 

Estatísticas descritivas:


Unnamed: 0,ticket_id,associated_contact_id,associated_company_id
count,500.0,500.0,500.0
mean,250.5,474.164,143.068
std,144.481833,278.942314,86.127762
min,1.0,1.0,1.0
25%,125.75,227.0,65.5
50%,250.5,469.0,138.0
75%,375.25,707.0,218.0
max,500.0,1000.0,300.0


# Análise Exploratória de Dados (EDA)

## Visão Geral

Esta etapa apresenta uma análise exploratória completa dos cinco datasets utilizados no projeto: **Companies**, **Contacts**, **Deals**, **Products** e **Tickets**.

O objetivo é entender a estrutura dos dados, avaliar qualidade, identificar padrões iniciais e preparar o terreno para análises de **Sales Ops**, **Revenue Analytics** e **Customer Success Analytics**.

A análise inclui:

- Estrutura dos arquivos (linhas e colunas)  
- Tipos de dados  
- Valores faltantes  
- Estatísticas descritivas  
- Principais insights iniciais por tabela  

Esta etapa é fundamental para validar se os dados estão prontos para limpeza, transformação e integração entre si.

## 1. Companies

### Visão Geral
O dataset de empresas contém informações essenciais para segmentação e análises por porte, indústria e país. Ele funciona como base principal para relacionar contatos, deals e tickets.

### Principais Informações
- **Shape:** 50 linhas × 6 colunas  
- **Valores faltantes:** nenhum  
- **Tipagem:** correta (numérica + texto)  
- **Dados críticos:** faturamento anual e número de funcionários  

### Principais Insights
- Faturamento médio próximo de **R$ 55 milhões**, com alta variação (STD elevado).  
- Empresas variam entre **SMB**, **Mid-Market** e **Enterprise** — ideal para segmentações.  
- Dataset totalmente limpo, facilitando integração com outras tabelas.

## 2. Contacts

### Visão Geral
O dataset de contatos traz decisores, cargos e vínculo com empresas. É essencial para análises de influência, densidade de contatos por conta e mapeamento de buyer personas.

### Principais Informações
- **Shape:** 200 linhas × 7 colunas  
- **Valores faltantes:** nenhum  
- **Tipagem:** correta  
- **Dados críticos:** cargo, email, company_id  

### Principais Insights
- Média de **4 contatos por empresa**, consistente com times de compras B2B.  
- Permite criar hierarquias por cargo e identificar influenciadores da compra.  
- Tabela já está pronta para joins com **Companies** e **Deals**.

## 3. Deals

### Visão Geral
É o dataset mais importante para análises de Sales Ops. Contém valores das oportunidades, estágios do funil, datas e vínculos com empresas e contatos.

### Principais Informações
- **Shape:** 150 linhas × 7 colunas  
- **Valores faltantes:** nenhum  
- **Tipagem:** datas ainda como texto → **exige conversão**  
- **Dados críticos:** amount, stage, close_date  

### Principais Insights
- **Ticket médio:** ~ R$ 242 mil  
- Variância alta nos valores → ideal para segmentar receita por porte ou categoria  
- Estrutura perfeita para análises como:
  - pipeline por estágio  
  - taxa de conversão (win rate)  
  - ciclo de vendas  
  - receita por indústria  

## 4. Products

### Visão Geral
Dataset com informações de produtos, preços e categorias. Essencial para análises de mix, ticket médio e impacto por linha de produto.

### Principais Informações
- **Shape:** 20 linhas × 4 colunas  
- **Valores faltantes:** nenhum  
- **Tipagem:** correta  
- **Dados críticos:** price, category  

### Principais Insights
- Preços variam de **178 a 4907**, mostrando diversidade de portfólio.  
- Permite análises de rentabilidade por categoria.  
- Dataset limpo e leve, ideal para joins com Deals.

## 5. Tickets

### Visão Geral
Representa todas as solicitações de suporte. Base para análises de Customer Success, churn, SLA e impacto do suporte na retenção.

### Principais Informações
- **Shape:** 500 linhas × 8 colunas  
- **Valores faltantes:** nenhum  
- **Tipagem:** datas como texto → **exige conversão**  
- **Dados críticos:** status, priority, createdate, closed_date  

### Principais Insights
- Maior dataset do projeto, com alta granularidade.  
- Permite análises como:
  - volume de tickets por empresa  
  - SLA por prioridade  
  - impacto do suporte na renovação/churn  
  - saúde do cliente (health score)  

# Conclusões da EDA

- Todos os datasets estão **completos** (sem valores faltantes).  
- Chaves estrangeiras consistentes → possibilitam **joins robustos**.  
- Somente colunas de datas precisam de **conversão para datetime**.  
- A base está pronta para análises profundas em:
  - pipeline  
  - win rate  
  - ciclo de vendas  
  - ticket médio  
  - segmentação de clientes  
  - análises de Customer Success (CS Ops)

In [None]:
# o que falta - proximos passos
# converter colunas de datas para datetime

"""
deals['close_date'] = pd.to_datetime(deals['close_date'])
tickets['createdate'] = pd.to_datetime(tickets['createdate'])
tickets['closed_date'] = pd.to_datetime(tickets['closed_date'])
"""

"\ndeals['close_date'] = pd.to_datetime(deals['close_date'])\ntickets['createdate'] = pd.to_datetime(tickets['createdate'])\ntickets['closed_date'] = pd.to_datetime(tickets['closed_date'])\n"