### Importando libs

In [2]:
import pandas as pd

### Carregando dataset e renomeando colunas

In [5]:
df = pd.read_csv(r'C:\Users\maabo\OneDrive\Área de Trabalho\Chat_CRM\dados\Banco de Dados Comercial (OFICIAL) - Upload.csv')
df.head()

Unnamed: 0,Fase atual,Criado em,Nome do cliente,Empresa,Responsável,Perfil de cliente,Setor,Checklist vertical,Origem,Valor Final,Motivo da perda,Motivo da não qualificação,Tempo total na fase Base de prospects (dias),Tempo total na fase Qualificação (dias),Tempo total na fase Diagnóstico (dias),Tempo total na fase Montagem de proposta (dias),Tempo total na fase Apresentação de proposta (dias),Tempo total na fase Negociação (dias),Primeira vez que entrou na fase Ganho,Tempo total na fase Renegociação (dias)
0,Perdido,2023-01-10 16:39:31,André Borges,SolarGrid,Pedro de Lima Fernandes Costa,Empresa consolidada,Energia e Sustentabilidade,"Desenvolvimento Web, Site institucional",Marketing,,,,11607384,,,13676065.0,11066725.0,29942431.0,,191724201.0
1,Perdido,2023-01-10 16:39:39,Neura Fatima Oliveira,,Geraldo Durães de Carvalho Filho,,Saúde e Cuidados Médicos,Desenvolvimento Web,Marketing,,,,2108935,,,,,,,
2,Perdido,2023-01-10 16:43:33,Thiago Perini,,Igor Corrêa,,,,Marketing,,,,21039074,,,,,,,
3,Perdido,2023-01-10 16:46:44,Ana Júlia,Futuras Cientistas,Igor Corrêa,Empresa consolidada,Ciências e Inovação,Desenvolvimento Web,Marketing,,,,2108194,,,,,,,
4,Perdido,2023-01-10 16:47:56,Arthur,,Geraldo Durães de Carvalho Filho,Startup,,,Marketing,,Sem Orçamento,,2183924,,,,,,,


In [6]:
df = df.rename(columns={'Criado em': 'Data de cadastro', 'Responsável': 'Vendedor'})

### Explorando o dataset

- Nessa etapa vamos explorar algumas características do dataset para, posteriormente, conseguir explicar melhor para o modelo do que se trata cada coluna.

In [7]:
df.nunique()

Fase atual                                              10
Data de cadastro                                       364
Nome do cliente                                        333
Empresa                                                239
Vendedor                                                19
Perfil de cliente                                        5
Setor                                                   32
Checklist vertical                                      38
Origem                                                  13
Valor Final                                             64
Motivo da perda                                          5
Motivo da não qualificação                              22
Tempo total na fase Base de prospects (dias)           275
Tempo total na fase Qualificação (dias)                158
Tempo total na fase Diagnóstico (dias)                 186
Tempo total na fase Montagem de proposta (dias)        181
Tempo total na fase Apresentação de proposta (dias)    1

In [8]:
print(df['Origem'].unique())

['Marketing' 'Indicação de Ej' nan 'UFPE' 'Indicação MEJ' 'Parcerias'
 'Ex cliente' 'Comunidade CITi' 'Prospecção Ativa' 'CIn' 'Porto Digital'
 'Membre do CITi' 'Eventos' 'Renegociação']


### Tratando os dados

In [9]:
# Remover o símbolo de moeda e espaços extras
df['Valor Final'] = df['Valor Final'].str.replace('R$', '', regex=False).str.strip()

# Remover o separador de milhar (ponto)
df['Valor Final'] = df['Valor Final'].str.replace('.', '', regex=False)

# Substituir a vírgula pelo ponto (separador decimal)
df['Valor Final'] = df['Valor Final'].str.replace(',', '.', regex=False)

# Converter para float
df['Valor Final'] = df['Valor Final'].astype(float)

In [11]:
# Definir uma lista com os nomes das colunas
colunas = [
    'Tempo total na fase Base de prospects (dias)',
    'Tempo total na fase Qualificação (dias)',
    'Tempo total na fase Diagnóstico (dias)',
    'Tempo total na fase Montagem de proposta (dias)',
    'Tempo total na fase Apresentação de proposta (dias)',
    'Tempo total na fase Negociação (dias)',
    'Tempo total na fase Renegociação (dias)'
]

# Substituir a vírgula pelo ponto (separador decimal) em cada string nas colunas
df[colunas] = df[colunas].apply(lambda x: x.str.replace(',', '.'))

# Converter para float
df[colunas] = df[colunas].astype(float)

In [18]:
# Remover frações de segundo, se existirem
df['Data de cadastro'] = df['Data de cadastro'].str.split('.').str[0]
df['Primeira vez que entrou na fase Ganho'] = df['Primeira vez que entrou na fase Ganho'].str.split('.').str[0]

# Converter para datetime
df['Data de cadastro'] = pd.to_datetime(df['Data de cadastro'], format='%Y-%m-%d %H:%M:%S', errors='coerce')
df['Primeira vez que entrou na fase Ganho'] = pd.to_datetime(df['Primeira vez que entrou na fase Ganho'], format='%Y-%m-%d %H:%M:%S', errors='coerce')

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 364 entries, 0 to 363
Data columns (total 20 columns):
 #   Column                                               Non-Null Count  Dtype         
---  ------                                               --------------  -----         
 0   Fase atual                                           364 non-null    object        
 1   Data de cadastro                                     364 non-null    datetime64[ns]
 2   Nome do cliente                                      364 non-null    object        
 3   Empresa                                              260 non-null    object        
 4   Vendedor                                             364 non-null    object        
 5   Perfil de cliente                                    353 non-null    object        
 6   Setor                                                288 non-null    object        
 7   Checklist vertical                                   275 non-null    object        
 8   

In [21]:
# Filtrar apenas as oportunidades que foram ganhas
df_vendas = df[df['Fase atual'] == 'Ganho']

# Agrupar por 'Responsável' e somar as vendas
vendas_por_vendedor = df_vendas.groupby('Vendedor')['Valor Final'].sum().reset_index()

# Renomear as colunas para melhor compreensão
vendas_por_vendedor.columns = ['Responsável', 'Total de Vendas']

# Exibir o resultado
vendas_por_vendedor

Unnamed: 0,Responsável,Total de Vendas
0,Camila Chagas,123100.0
1,Geraldo Durães de Carvalho Filho,64100.0
2,Hillary Costa,18400.0
3,Hugo Guedes,5880.0
4,Igor Corrêa,480350.0
5,João Gabriel Carneiro de Oliveira,333000.0
6,Nayara VIthória Araújo de Sena,9000.0
7,Pedro de Lima Fernandes Costa,103800.0
8,Vinicius Zorrilla,14000.0


In [15]:
df['Valor Final'].describe()

count        81.000000
mean      32090.493827
std       35921.025455
min         750.000000
25%        9000.000000
50%       18200.000000
75%       43500.000000
max      165000.000000
Name: Valor Final, dtype: float64

In [23]:
df.to_pickle('base_CRM')

In [26]:
df.to_csv('df_CRM.csv', index=False, sep=',', decimal='.')

In [31]:
df_crm = pd.read_csv(r'C:\Users\maabo\OneDrive\Área de Trabalho\Chat_CRM\df_CRM.csv')

In [32]:
df_crm.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 364 entries, 0 to 363
Data columns (total 20 columns):
 #   Column                                               Non-Null Count  Dtype  
---  ------                                               --------------  -----  
 0   Fase atual                                           364 non-null    object 
 1   Data de cadastro                                     364 non-null    object 
 2   Nome do cliente                                      364 non-null    object 
 3   Empresa                                              260 non-null    object 
 4   Vendedor                                             364 non-null    object 
 5   Perfil de cliente                                    353 non-null    object 
 6   Setor                                                288 non-null    object 
 7   Checklist vertical                                   275 non-null    object 
 8   Origem                                               352 non-null    o