# Análise Exploratória de Dados (EDA) da TechSales Inc.

## Descrição do Cenário

A TechSales Inc., uma empresa de tecnologia, está enfrentando desafios para atingir suas metas de vendas. A empresa utiliza um sistema CRM para gerenciar suas interações com clientes, atividades de vendas e oportunidades de negócio. Apesar de ter uma equipe de vendas dedicada, a TechSales Inc. tem encontrado dificuldades para aumentar sua taxa de conversão de oportunidades em negócios fechados e maximizar o valor das vendas.

Recentemente, a empresa coletou um conjunto robusto de dados que inclui informações detalhadas sobre clientes, atividades de vendas, oportunidades de negócio, desempenho da equipe de vendas e características dos produtos oferecidos. A liderança da empresa acredita que, com uma análise detalhada desses dados, será possível identificar padrões e tendências que possam ajudar a melhorar o desempenho de vendas e orientar estratégias mais eficazes.

## Problema a Ser Resolvido

A TechSales Inc. precisa de sua ajuda para entender os fatores que influenciam o sucesso das vendas e identificar oportunidades de melhoria. A empresa quer respostas para perguntas do tipo:

1. Quais são os principais fatores que determinam se uma oportunidade será ganha ou perdida?
2. Quais produtos têm maior impacto nas vendas e como podemos otimizar nosso portfólio de produtos?
3. Como o desempenho das diferentes equipes de vendas varia e o que podemos aprender com as equipes de melhor desempenho?
4. Quais características dos clientes estão mais associadas ao fechamento de negócios e como podemos segmentar nossos esforços de vendas para melhor atender a esses clientes?

Neste notebook, vamos conduzir uma análise exploratória dos dados (EDA) para investigar essas questões e fornecer insights valiosos para a TechSales Inc.


## Conhecendo as bases

Vamos começar nossa análise exploratória de dados (EDA) examinando cada um dos conjuntos de dados. O objetivo é obter uma compreensão abrangente dos dados, incluindo informações gerais e estatísticas descritivas. Durante essa exploração, também identificaremos e trataremos potenciais problemas, como dados nulos e registros duplicados.

Vamos começar importando as bibliotecas necessárias para nossa análise exploratória de dados (EDA). Estaremos utilizando o pandas para manipulação dos dados, numpy para operações numéricas, seaborn e matplotlib.pyplot para visualização dos dados, e datetime para lidar com datas.

In [None]:
# Importando as Bibliotecas
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import datetime

Agora vamos importar as bases de dados que iremos analisar. Estaremos utilizando os seguintes arquivos CSV: accounts, products, sales_pipeline, sales_team e dicionario. Vamos carregar esses arquivos para os respectivos dataframes.

In [None]:
# Importando as bases de dados
accounts = pd.read_csv('/content/accounts.csv')
products = pd.read_csv('/content/products.csv')
sales_pipeline = pd.read_csv('/content/sales_pipeline.csv')
sales_team = pd.read_csv('/content/sales_teams.csv')
dicionario = pd.read_csv('/content/data_dictionary.csv')

Vamos dar uma olhada nas primeiras linhas da base de dados "accounts" para entender melhor sua estrutura e os tipos de informações que ela contém. Isso nos ajudará a ter uma ideia inicial do que podemos explorar.

In [None]:
# Verificando a base
accounts.head()

Unnamed: 0,account,sector,year_established,revenue,employees,office_location,subsidiary_of
0,Acme Corporation,technolgy,1996,1100.04,2822,United States,
1,Betasoloin,medical,1999,251.41,495,United States,
2,Betatech,medical,1986,647.18,1185,Kenya,
3,Bioholding,medical,2012,587.34,1356,Philipines,
4,Bioplex,medical,1991,326.82,1016,United States,


Vamos verificar quantas linhas e colunas a base de dados "accounts" possui. Isso nos dará uma ideia da quantidade de registros e variáveis que estamos lidando.

In [None]:
# Verificando tamanho (dimensões)
accounts.shape

(85, 7)

Agora seguimos o mesmo processo para as outras bases.

In [None]:
# Verificando a base
products.head()

Unnamed: 0,product,series,sales_price
0,GTX Basic,GTX,550
1,GTX Pro,GTX,4821
2,MG Special,MG,55
3,MG Advanced,MG,3393
4,GTX Plus Pro,GTX,5482


In [None]:
# Verificando tamanho
products.shape

(7, 3)

In [None]:
# Verificando a base
sales_pipeline.head()

Unnamed: 0,opportunity_id,sales_agent,product,account,deal_stage,engage_date,close_date,close_value
0,1C1I7A6R,Moses Frase,GTX Plus Basic,Cancity,Won,2016-10-20,2017-03-01,1054.0
1,Z063OYW0,Darcel Schlecht,GTXPro,Isdom,Won,2016-10-25,2017-03-11,4514.0
2,EC4QE1BX,Darcel Schlecht,MG Special,Cancity,Won,2016-10-25,2017-03-07,50.0
3,MV1LWRNH,Moses Frase,GTX Basic,Codehow,Won,2016-10-25,2017-03-09,588.0
4,PE84CX4O,Zane Levy,GTX Basic,Hatfan,Won,2016-10-25,2017-03-02,517.0


In [None]:
# Verificando o tamanho
sales_pipeline.shape

(8800, 8)

In [None]:
# Verificando a base
sales_team.head()

Unnamed: 0,sales_agent,manager,regional_office
0,Anna Snelling,Dustin Brinkmann,Central
1,Cecily Lampkin,Dustin Brinkmann,Central
2,Versie Hillebrand,Dustin Brinkmann,Central
3,Lajuana Vencill,Dustin Brinkmann,Central
4,Moses Frase,Dustin Brinkmann,Central


In [None]:
# verificando o tamanho
sales_team.shape

(35, 3)

In [None]:
# Verificando a base
dicionario.head(21)

Unnamed: 0,Table,Field,Description
0,accounts,account,Company name
1,accounts,sector,Industry
2,accounts,year_established,Year Established
3,accounts,revenue,Annual revenue (in millions of USD)
4,accounts,employees,Number of employees
5,accounts,office_location,Headquarters
6,accounts,subsidiary_of,Parent company
7,products,product,Product name
8,products,series,Product series
9,products,sales_price,Suggested retail price


In [None]:
# Verificando o tamanho
dicionario.shape

(21, 3)

## Tratando cada base de dados

Após importarmos as bases de dados, avançamos para a etapa de tratamento de cada uma delas. Aqui, buscamos obter dados limpos e preparados para a análise exploratória, visando a geração de insights valiosos. Além disso, estamos criando um dicionário de dados para cada base, o que nos ajudará a entender melhor o significado de cada variável.




### Accounts

In [None]:
# Verificando a base
accounts.head()

Unnamed: 0,account,sector,year_established,revenue,employees,office_location,subsidiary_of
0,Acme Corporation,technolgy,1996,1100.04,2822,United States,
1,Betasoloin,medical,1999,251.41,495,United States,
2,Betatech,medical,1986,647.18,1185,Kenya,
3,Bioholding,medical,2012,587.34,1356,Philipines,
4,Bioplex,medical,1991,326.82,1016,United States,


In [None]:
# Verificando informações
accounts.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85 entries, 0 to 84
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   account           85 non-null     object 
 1   sector            85 non-null     object 
 2   year_established  85 non-null     int64  
 3   revenue           85 non-null     float64
 4   employees         85 non-null     int64  
 5   office_location   85 non-null     object 
 6   subsidiary_of     15 non-null     object 
dtypes: float64(1), int64(2), object(4)
memory usage: 4.8+ KB


**Dicionário de Dados**

- account: Nome da empresa
- sector: Setor de atuação da empresa
- year_established: Ano de fundação da empresa
- revenue: Receita da empresa em milhões de dólares
- employees: Número de funcionários da empresa
- office_location: Localização do escritório principal da empresa
- subsidiary_of: Nome da empresa-mãe, se houver

In [None]:
# Verificando um resumo estatístico que nos ajuda a perceber, no primeiro momento, a distribui
accounts.describe()

Unnamed: 0,year_established,revenue,employees
count,85.0,85.0,85.0
mean,1996.105882,1994.632941,4660.823529
std,8.865427,2169.491436,5715.601198
min,1979.0,4.54,9.0
25%,1989.0,497.11,1179.0
50%,1996.0,1223.72,2769.0
75%,2002.0,2741.37,5595.0
max,2017.0,11698.03,34288.0


Os dados numéricos parecem estar dentro de métricas aceitáveis no geral. No entanto, é intrigante o número mínimo de 9 funcionários em relação à média, especialmente para uma empresa que gera mais de 4 milhões em vendas. Vamos investigar mais a fundo esses dados para essas empresas.

In [None]:
# Verificando dados duplicados
accounts[accounts.duplicated()]

Unnamed: 0,account,sector,year_established,revenue,employees,office_location,subsidiary_of


Não existem colunas duplicadas

In [None]:
# Verificando dados nulos
accounts.isnull().sum()

account              0
sector               0
year_established     0
revenue              0
employees            0
office_location      0
subsidiary_of       70
dtype: int64

Existem alguns dados nulos. Vamos tratá-los.

In [None]:
# Verificando na coluna específica
accounts[accounts['subsidiary_of'].isnull()]

Unnamed: 0,account,sector,year_established,revenue,employees,office_location,subsidiary_of
0,Acme Corporation,technolgy,1996,1100.04,2822,United States,
1,Betasoloin,medical,1999,251.41,495,United States,
2,Betatech,medical,1986,647.18,1185,Kenya,
3,Bioholding,medical,2012,587.34,1356,Philipines,
4,Bioplex,medical,1991,326.82,1016,United States,
...,...,...,...,...,...,...,...
80,Zathunicon,retail,2010,71.12,144,United States,
81,Zencorporation,technolgy,2011,40.79,142,China,
82,Zoomit,entertainment,1992,324.19,978,United States,
83,Zotware,software,1979,4478.47,13809,United States,


Para tratar os dados nulos na coluna "subsidiary_of" da base de dados "accounts", vamos substituí-los por 0, pois isso indica que são empresas novas e não possuem uma matriz anterior.

In [None]:
# Substituindo
accounts['subsidiary_of'].fillna(0, inplace=True)

# Verificando
accounts.isnull().sum()

account             0
sector              0
year_established    0
revenue             0
employees           0
office_location     0
subsidiary_of       0
dtype: int64

Vamos fazer a investigação proposta anteriormente para verificar os casos de empresas pequenas com lucros altos

In [None]:
# Investigando as empresas com poucos funcionários (menos que a média)
accounts.loc[accounts['employees'] < 4660]

Unnamed: 0,account,sector,year_established,revenue,employees,office_location,subsidiary_of
0,Acme Corporation,technolgy,1996,1100.04,2822,United States,0
1,Betasoloin,medical,1999,251.41,495,United States,0
2,Betatech,medical,1986,647.18,1185,Kenya,0
3,Bioholding,medical,2012,587.34,1356,Philipines,0
4,Bioplex,medical,1991,326.82,1016,United States,0
5,Blackzim,retail,2009,497.11,1588,United States,0
6,Bluth Company,technolgy,1993,1242.32,3027,United States,Acme Corporation
7,Bubba Gump,software,2002,987.39,2253,United States,0
8,Cancity,retail,2001,718.62,2448,United States,0
10,Codehow,software,1998,2714.9,2641,United States,Acme Corporation


Notamos que os valores mais baixos (abaixo de 100) estão associados aos setores de software e medicina, que geralmente oferecem produtos caros. Isso pode explicar o alto faturamento, apesar do número limitado de profissionais nessas áreas.

### Products

In [None]:
# Verificando a base
products.head(7)

Unnamed: 0,product,series,sales_price
0,GTX Basic,GTX,550
1,GTX Pro,GTX,4821
2,MG Special,MG,55
3,MG Advanced,MG,3393
4,GTX Plus Pro,GTX,5482
5,GTX Plus Basic,GTX,1096
6,GTK 500,GTK,26768


Percebemos que o valor da placa GTK 500 parece estar muito acima do esperado. É importante verificar essa informação para garantir que não haja erros nos dados.

**Dicionário de Dados**

- product: Descrição do produto.
- series: Série do produto.
- sales_price: Preço de venda do produto.

In [None]:
# Verificando informações
products.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   product      7 non-null      object
 1   series       7 non-null      object
 2   sales_price  7 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 296.0+ bytes


In [None]:
# Verificando um resumo estatístico
products.describe()

Unnamed: 0,sales_price
count,7.0
mean,6023.571429
std,9388.42807
min,55.0
25%,823.0
50%,3393.0
75%,5151.5
max,26768.0


In [None]:
# Verificando dados duplicados
products[products.duplicated()]

Unnamed: 0,product,series,sales_price


In [None]:
# Verificando dados nulos
products.isnull().sum()

product        0
series         0
sales_price    0
dtype: int64

Não existem dados nulos ou duplicados

In [None]:
# Pegando os dados da tabela sales_pipeline para verificar os dados de venda da placa GTK 500
indice = sales_pipeline.index[sales_pipeline['product'] == 'GTK 500'].tolist()
sales_pipeline.iloc[indice]

Unnamed: 0,opportunity_id,sales_agent,product,account,deal_stage,engage_date,close_date,close_value
59,XUSUEAV7,Elease Gluck,GTK 500,Zoomit,Won,2016-11-20,2017-03-09,25897.0
266,125VIRMX,Elease Gluck,GTK 500,Warephase,Engaging,2016-12-19,,
653,A7SA2L21,Elease Gluck,GTK 500,,Engaging,2017-01-30,,
677,60UOBOEM,Rosalina Dieter,GTK 500,Groovestreet,Won,2017-02-01,2017-06-07,30288.0
681,IXOHJYRM,Elease Gluck,GTK 500,Cheers,Lost,2017-02-02,2017-05-09,0.0
751,YFB7Y92U,Elease Gluck,GTK 500,,Engaging,2017-02-07,,
876,SCS5H8V1,Markita Hansen,GTK 500,Vehement Capital Partners,Engaging,2017-02-14,,
1156,4V0S4BA3,Markita Hansen,GTK 500,Goodsilron,Won,2017-02-27,2017-06-27,29617.0
1548,PEX6S873,Elease Gluck,GTK 500,Cheers,Lost,2017-03-15,2017-05-19,0.0
1677,OBBVVO9O,Elease Gluck,GTK 500,Singletechno,Lost,2017-03-20,2017-05-27,0.0


Podemos observar que o valor da placa GTK 500 está bastante elevado, e após verificação, confirmamos que esse preço está correto e não se trata de um erro nos dados. Essa informação pode ser relevante para análises posteriores, destacando a natureza premium desse produto em relação aos demais.

### Sales Pipeline

In [None]:
# Verificando a base
sales_pipeline.head()

Unnamed: 0,opportunity_id,sales_agent,product,account,deal_stage,engage_date,close_date,close_value
0,1C1I7A6R,Moses Frase,GTX Plus Basic,Cancity,Won,2016-10-20,2017-03-01,1054.0
1,Z063OYW0,Darcel Schlecht,GTXPro,Isdom,Won,2016-10-25,2017-03-11,4514.0
2,EC4QE1BX,Darcel Schlecht,MG Special,Cancity,Won,2016-10-25,2017-03-07,50.0
3,MV1LWRNH,Moses Frase,GTX Basic,Codehow,Won,2016-10-25,2017-03-09,588.0
4,PE84CX4O,Zane Levy,GTX Basic,Hatfan,Won,2016-10-25,2017-03-02,517.0


**Dicionário de Dados**

- opportunity_id: Identificador único para cada oportunidade de venda.
- sales_agent: Nome do agente de vendas responsável pela oportunidade.
- product: Nome do produto associado à oportunidade de venda.
- account: Nome da conta ou cliente associado à oportunidade de venda.
- deal_stage: Estágio atual do negócio (por exemplo, Engajando, Perdido, Ganho).
- engage_date: Data em que a oportunidade foi engajada.
- close_date: Data em que a oportunidade foi fechada (se aplicável).
- close_value: Valor da venda quando a oportunidade é fechada (se aplicável).

In [None]:
# Verificando a base
sales_pipeline.tail()

Unnamed: 0,opportunity_id,sales_agent,product,account,deal_stage,engage_date,close_date,close_value
8795,9MIWFW5J,Versie Hillebrand,MG Advanced,,Prospecting,,,
8796,6SLKZ8FI,Versie Hillebrand,MG Advanced,,Prospecting,,,
8797,LIB4KUZJ,Versie Hillebrand,MG Advanced,,Prospecting,,,
8798,18IUIUK0,Versie Hillebrand,MG Advanced,,Prospecting,,,
8799,8I5ONXJX,Versie Hillebrand,MG Advanced,,Prospecting,,,


Percebe-se que, apesar de o ID da oportunidade ser diferente, há a presença de dados duplicados nessa tabela, possivelmente devido ao registro de múltiplas oportunidades para o mesmo negócio. Vamos proceder com a exclusão da coluna 'opportunity_id' e remover os dados duplicados para manter nossa base limpa e sem redundâncias.

In [None]:
# Verificando informações
sales_pipeline.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8800 entries, 0 to 8799
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   opportunity_id  8800 non-null   object 
 1   sales_agent     8800 non-null   object 
 2   product         8800 non-null   object 
 3   account         7375 non-null   object 
 4   deal_stage      8800 non-null   object 
 5   engage_date     8300 non-null   object 
 6   close_date      6711 non-null   object 
 7   close_value     6711 non-null   float64
dtypes: float64(1), object(7)
memory usage: 550.1+ KB


In [None]:
# Verificando um resumo estatístico
sales_pipeline.describe()

Unnamed: 0,close_value
count,6711.0
mean,1490.915512
std,2320.670773
min,0.0
25%,0.0
50%,472.0
75%,3225.0
max,30288.0


In [None]:
# Excluindo coluna ID
sales_pipeline = sales_pipeline.drop(sales_pipeline.columns[0], axis=1)

In [None]:
# Verificando dados duplicados após a exclusão da coluna ID
sales_pipeline[sales_pipeline.duplicated()]

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value
1122,Maureen Marcano,GTX Plus Basic,,Engaging,2017-02-26,,
1437,Kary Hendrixson,GTX Basic,,Engaging,2017-03-10,,
1615,Violet Mclelland,MG Special,,Engaging,2017-03-17,,
1875,Vicki Laflamme,MG Special,,Engaging,2017-03-28,,
1876,Vicki Laflamme,MG Special,,Engaging,2017-03-28,,
...,...,...,...,...,...,...,...
8795,Versie Hillebrand,MG Advanced,,Prospecting,,,
8796,Versie Hillebrand,MG Advanced,,Prospecting,,,
8797,Versie Hillebrand,MG Advanced,,Prospecting,,,
8798,Versie Hillebrand,MG Advanced,,Prospecting,,,


In [None]:
# Excluindo dados duplicados
sales_pipeline = sales_pipeline.drop_duplicates()

In [None]:
# Verificando se ainda existem dados duplicados
sales_pipeline[sales_pipeline.duplicated()]

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value


Agora, não há mais dados duplicados

In [None]:
# Verificando dados nulos
sales_pipeline.isnull().sum()

sales_agent       0
product           0
account        1079
deal_stage        0
engage_date     213
close_date     1737
close_value    1737
dtype: int64

Percebemos a presença de dados nulos em algumas colunas da nossa base de dados. Vamos proceder com o tratamento desses dados para garantir a integridade e qualidade das informações.

In [None]:
# Account
sales_pipeline[sales_pipeline['account'].isnull()]

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value
9,James Ascencio,MG Advanced,,Engaging,2016-11-03,,
42,Kami Bicknell,GTX Basic,,Engaging,2016-11-14,,
44,Cassey Cress,GTXPro,,Engaging,2016-11-16,,
56,Kami Bicknell,GTX Plus Basic,,Engaging,2016-11-19,,
60,Hayden Neloms,MG Advanced,,Engaging,2016-11-20,,
...,...,...,...,...,...,...,...
8749,Versie Hillebrand,GTX Basic,,Prospecting,,,
8754,Versie Hillebrand,GTX Plus Basic,,Prospecting,,,
8755,Versie Hillebrand,GTX Plus Pro,,Prospecting,,,
8764,Versie Hillebrand,MG Special,,Prospecting,,,


Essa coluna está associada ao nome do cliente. Embora o nome do cliente não seja crucial para a análise, notamos um padrão em que, quando o nome do cliente não está presente, a venda normalmente não é consolidada. Portanto, ter informações concretas sobre o cliente pode significar uma maior probabilidade de venda. Vamos substituir esses dados nulos por 0 para representar a falta de informação do cliente.

In [None]:
# Substituindo
sales_pipeline['account'].fillna(0, inplace=True)

In [None]:
# Engage Date
sales_pipeline[sales_pipeline['engage_date'].isnull()]

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value
8300,Anna Snelling,GTX Basic,Green-Plus,Prospecting,,,
8301,Anna Snelling,GTX Basic,0,Prospecting,,,
8307,Anna Snelling,GTX Plus Basic,Plusstrip,Prospecting,,,
8308,Anna Snelling,GTX Plus Basic,Zumgoity,Prospecting,,,
8309,Anna Snelling,GTX Plus Basic,0,Prospecting,,,
...,...,...,...,...,...,...,...
8763,Versie Hillebrand,MG Special,Rundofase,Prospecting,,,
8764,Versie Hillebrand,MG Special,0,Prospecting,,,
8790,Versie Hillebrand,MG Advanced,Ganjaflex,Prospecting,,,
8791,Versie Hillebrand,MG Advanced,Silis,Prospecting,,,


A data de engajamento da oportunidade não existe porque o cliente ainda se encontrava numa fase de prospecção. Nesse sentido, vamos substituir esses dados nulos por 0 para indicar essa situação.

In [None]:
# Substituindo
sales_pipeline['engage_date'].fillna(0, inplace=True)

In [None]:
# Close Date
sales_pipeline[sales_pipeline['close_date'].isnull()]

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value
9,James Ascencio,MG Advanced,0,Engaging,2016-11-03,,
25,Maureen Marcano,MG Advanced,Ganjaflex,Engaging,2016-11-10,,
42,Kami Bicknell,GTX Basic,0,Engaging,2016-11-14,,
44,Cassey Cress,GTXPro,0,Engaging,2016-11-16,,
56,Kami Bicknell,GTX Plus Basic,0,Engaging,2016-11-19,,
...,...,...,...,...,...,...,...
8763,Versie Hillebrand,MG Special,Rundofase,Prospecting,0,,
8764,Versie Hillebrand,MG Special,0,Prospecting,0,,
8790,Versie Hillebrand,MG Advanced,Ganjaflex,Prospecting,0,,
8791,Versie Hillebrand,MG Advanced,Silis,Prospecting,0,,


In [None]:
# Close Value
sales_pipeline[sales_pipeline['close_value'].isnull()]

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value
9,James Ascencio,MG Advanced,0,Engaging,2016-11-03,,
25,Maureen Marcano,MG Advanced,Ganjaflex,Engaging,2016-11-10,,
42,Kami Bicknell,GTX Basic,0,Engaging,2016-11-14,,
44,Cassey Cress,GTXPro,0,Engaging,2016-11-16,,
56,Kami Bicknell,GTX Plus Basic,0,Engaging,2016-11-19,,
...,...,...,...,...,...,...,...
8763,Versie Hillebrand,MG Special,Rundofase,Prospecting,0,,
8764,Versie Hillebrand,MG Special,0,Prospecting,0,,
8790,Versie Hillebrand,MG Advanced,Ganjaflex,Prospecting,0,,
8791,Versie Hillebrand,MG Advanced,Silis,Prospecting,0,,


As colunas de fechamento de negócio e valor final estão interligadas. Como o negócio não foi ou ainda não foi fechado, não é possível ter esses valores. Vamos substituir esses dados nulos por 0 para refletir essa situação.

In [None]:
# Substituindo
sales_pipeline['close_date'].fillna(0, inplace=True)
sales_pipeline['close_value'].fillna(0, inplace=True)

In [None]:
# verificando
sales_pipeline.isnull().sum()

sales_agent    0
product        0
account        0
deal_stage     0
engage_date    0
close_date     0
close_value    0
dtype: int64

### Sales Team

In [None]:
# Verificando a base
sales_team.head()

Unnamed: 0,sales_agent,manager,regional_office
0,Anna Snelling,Dustin Brinkmann,Central
1,Cecily Lampkin,Dustin Brinkmann,Central
2,Versie Hillebrand,Dustin Brinkmann,Central
3,Lajuana Vencill,Dustin Brinkmann,Central
4,Moses Frase,Dustin Brinkmann,Central


**Dicionário de Dados**

- sales_agent: Nome do agente de vendas.
- manager: Nome do gerente do agente de vendas.
- regional_office: Localização do escritório regional ao qual o agente de vendas está associado.

In [None]:
# Verificando informações
sales_team.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   sales_agent      35 non-null     object
 1   manager          35 non-null     object
 2   regional_office  35 non-null     object
dtypes: object(3)
memory usage: 968.0+ bytes


In [None]:
# Verificando um resumo estatístico
sales_team.describe()

Unnamed: 0,sales_agent,manager,regional_office
count,35,35,35
unique,35,6,3
top,Anna Snelling,Melvin Marxen,East
freq,1,6,12


In [None]:
# Verificando dados duplicados
sales_team[sales_team.duplicated()]

Unnamed: 0,sales_agent,manager,regional_office


In [None]:
# Verificando dados nulos
sales_team.isnull().sum()

sales_agent        0
manager            0
regional_office    0
dtype: int64

Com as bases de dados limpas e corrigidas, estamos prontos para avançar para a análise exploratória. Vamos explorar essas bases para extrair insights valiosos. Se houver necessidade de ajuda com alguma análise específica ou visualização de dados, estou à disposição para auxiliar.

## Unindo as bases

Observamos que os conjuntos de dados possuem algumas colunas em comum. Portanto, vamos unificá-los em uma única tabela, consolidando nossa análise em um único repositório de dados. Isso facilitará a análise e a geração de insights mais abrangentes. Nesse sentido, vamos criar a base_final, com os dados condensados em um só lugar. A partir dessa base unificada, faremos os tratamentos finais necessários para prosseguir com a análise exploratória de dados (EDA).

Vamos tentar consolidar os dados em um único conjunto de dados usando a função merge do pandas, o que facilitará a análise ao combinar informações de diferentes conjuntos de dados com base em colunas em comum.

In [None]:
# Verificando as bases novamente
accounts.head(3)

Unnamed: 0,account,sector,year_established,revenue,employees,office_location,subsidiary_of
0,Acme Corporation,technolgy,1996,1100.04,2822,United States,0
1,Betasoloin,medical,1999,251.41,495,United States,0
2,Betatech,medical,1986,647.18,1185,Kenya,0


In [None]:
# Verificando as bases novamente
products.head(3)

Unnamed: 0,product,series,sales_price
0,GTX Basic,GTX,550
1,GTX Pro,GTX,4821
2,MG Special,MG,55


In [None]:
# Verificando as bases novamente
sales_pipeline.head(3)

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value
0,Moses Frase,GTX Plus Basic,Cancity,Won,2016-10-20,2017-03-01,1054.0
1,Darcel Schlecht,GTXPro,Isdom,Won,2016-10-25,2017-03-11,4514.0
2,Darcel Schlecht,MG Special,Cancity,Won,2016-10-25,2017-03-07,50.0


In [None]:
# Verificando as bases novamente
sales_team.head(3)

Unnamed: 0,sales_agent,manager,regional_office
0,Anna Snelling,Dustin Brinkmann,Central
1,Cecily Lampkin,Dustin Brinkmann,Central
2,Versie Hillebrand,Dustin Brinkmann,Central


Como mencionado anteriormente, é possível observar que alguns dados são semelhantes entre as tabelas, como os relacionados aos produtos, agentes de vendas e contas. Portanto, vamos criar um dataset único, unindo as informações dessas tabelas para facilitar nossa análise.

Antes de realizar a união das tabelas, é essencial verificar se não há erros de digitação ou inconsistências nos dados que possam afetar o merge. Esses erros podem incluir diferenças sutis na forma como os dados são inseridos em diferentes colunas, o que poderia resultar em falhas na combinação das tabelas. Portanto, estamos verificando cuidadosamente os dados para garantir a integridade e a precisão das informações antes de prosseguir com o merge.

In [None]:
# Conferindo
products['product'].unique()

array(['GTX Basic', 'GTX Pro', 'MG Special', 'MG Advanced',
       'GTX Plus Pro', 'GTX Plus Basic', 'GTK 500'], dtype=object)

In [None]:
# Conferindo
sales_pipeline['product'].unique()

array(['GTX Plus Basic', 'GTXPro', 'MG Special', 'GTX Basic',
       'MG Advanced', 'GTX Plus Pro', 'GTK 500'], dtype=object)


Na comparação entre as duas listas, apenas o valor 'GTXPro' na segunda lista está escrito de forma diferente em relação a 'GTX Pro' na primeira lista. Todos os outros valores são idênticos.

In [None]:
# Conferindo
sales_team['sales_agent'].unique()

array(['Anna Snelling', 'Cecily Lampkin', 'Versie Hillebrand',
       'Lajuana Vencill', 'Moses Frase', 'Jonathan Berthelot',
       'Marty Freudenburg', 'Gladys Colclough', 'Niesha Huffines',
       'Darcel Schlecht', 'Mei-Mei Johns', 'Violet Mclelland',
       'Corliss Cosme', 'Rosie Papadopoulos', 'Garret Kinder',
       'Wilburn Farren', 'Elizabeth Anderson', 'Daniell Hammack',
       'Cassey Cress', 'Donn Cantrell', 'Reed Clapper', 'Boris Faz',
       'Natalya Ivanova', 'Vicki Laflamme', 'Rosalina Dieter',
       'Hayden Neloms', 'Markita Hansen', 'Elease Gluck',
       'Carol Thompson', 'James Ascencio', 'Kary Hendrixson',
       'Kami Bicknell', 'Zane Levy', 'Maureen Marcano', 'Carl Lin'],
      dtype=object)

In [None]:
# Conferindo
sales_pipeline['sales_agent'].unique()

array(['Moses Frase', 'Darcel Schlecht', 'Zane Levy', 'Anna Snelling',
       'Vicki Laflamme', 'Markita Hansen', 'Niesha Huffines',
       'James Ascencio', 'Gladys Colclough', 'Maureen Marcano',
       'Hayden Neloms', 'Rosalina Dieter', 'Versie Hillebrand',
       'Daniell Hammack', 'Elease Gluck', 'Violet Mclelland',
       'Kami Bicknell', 'Rosie Papadopoulos', 'Kary Hendrixson',
       'Reed Clapper', 'Wilburn Farren', 'Garret Kinder',
       'Marty Freudenburg', 'Cassey Cress', 'Lajuana Vencill',
       'Boris Faz', 'Donn Cantrell', 'Corliss Cosme', 'Cecily Lampkin',
       'Jonathan Berthelot'], dtype=object)

- 'Mei-Mei Johns' está apenas na primeira lista.
- 'Elizabeth Anderson' está apenas na primeira lista.
- 'Natalya Ivanova' está apenas na primeira lista.
- 'Carol Thompson' está apenas na primeira lista.

Acredito que essas pessoas são da empresa mas não efetivaram vendas

In [None]:
# Conferindo
accounts['account'].unique()

array(['Acme Corporation', 'Betasoloin', 'Betatech', 'Bioholding',
       'Bioplex', 'Blackzim', 'Bluth Company', 'Bubba Gump', 'Cancity',
       'Cheers', 'Codehow', 'Condax', 'Conecom', 'Dalttechnology',
       'dambase', 'Domzoom', 'Doncon', 'Donquadtech', 'Dontechi',
       'Donware', 'Fasehatice', 'Faxquote', 'Finhigh', 'Finjob',
       'Funholding', 'Ganjaflex', 'Gekko & Co',
       'Genco Pura Olive Oil Company', 'Globex Corporation', 'Gogozoom',
       'Golddex', 'Goodsilron', 'Green-Plus', 'Groovestreet', 'Hatfan',
       'Hottechi', 'Initech', 'Inity', 'Isdom', 'Iselectrics', 'J-Texon',
       'Kan-code', 'Kinnamplus', 'Konex', 'Konmatfix', 'Labdrill',
       'Lexiqvolax', 'Massive Dynamic', 'Mathtouch', 'Nam-zim', 'Newex',
       'Ontomedia', 'Opentech', 'Plexzap', 'Plusstrip', 'Plussunin',
       'Rangreen', 'Rantouch', 'Ron-tech', 'Rundofase', 'Scotfind',
       'Scottech', 'Silis', 'Singletechno', 'Sonron', 'Stanredtax',
       'Statholdings', 'Streethex', 'Sumace', 'Sunn

In [None]:
# Conferindo
sales_pipeline['account'].unique()

array(['Cancity', 'Isdom', 'Codehow', 'Hatfan', 'Ron-tech', 'J-Texon',
       'Cheers', 'Zumgoity', 0, 'Bioholding',
       'Genco Pura Olive Oil Company', 'Sunnamplex', 'Sonron', 'Finjob',
       'Scotfind', 'Treequote', 'Xx-zobam', 'Rantouch', 'Fasehatice',
       'Vehement Capital Partners', 'Warephase', 'Zoomit', 'Ganjaflex',
       'Labdrill', 'Zotware', 'dambase', 'Xx-holding', 'Acme Corporation',
       'Green-Plus', 'The New York Inquirer', 'Mathtouch', 'Gogozoom',
       'Stanredtax', 'Konmatfix', 'Conecom', 'Golddex', 'Plexzap',
       'Rundofase', 'Finhigh', 'Funholding', 'Opentech', 'Silis',
       'Goodsilron', 'Rangreen', 'Kan-code', 'Nam-zim', 'Y-corporation',
       'Bioplex', 'Plusstrip', 'Toughzap', 'Dalttechnology', 'Ontomedia',
       'Kinnamplus', 'Lexiqvolax', 'Statholdings', 'Umbrella Corporation',
       'Bubba Gump', 'Faxquote', 'Dontechi', 'Konex', 'Betasoloin',
       'Domzoom', 'Donquadtech', 'Globex Corporation', 'Plussunin',
       'Condax', 'Massive Dynam

Não apresentam nomes incorretos.

Agora vamos tratar os valores diferentes na coluna 'product' e, em seguida, faremos o merge das bases novamente. Essa etapa é fundamental para garantir que os dados estejam consistentes e prontos para a análise exploratória.

In [None]:
# Ajustando na base sales_pipeline
sales_pipeline['product'] = sales_pipeline['product'].replace('GTXPro', 'GTX Pro')

# Conferindo
sales_pipeline['product'].unique()

array(['GTX Plus Basic', 'GTX Pro', 'MG Special', 'GTX Basic',
       'MG Advanced', 'GTX Plus Pro', 'GTK 500'], dtype=object)

Agora, vamos unir os dados utilizando o método left join para garantir a preservação de todas as informações. O left join é um tipo de junção que combina os registros de duas tabelas com base em uma coluna comum, mantendo todos os registros da tabela à esquerda e adicionando os registros correspondentes da tabela à direita. Quando não há correspondência, o resultado inclui todas as entradas da tabela à esquerda, preenchendo com valores nulos para as colunas da tabela à direita. Esse método é útil para garantir que nenhum dado importante da tabela principal seja excluído.

In [None]:
# Criando uma cópia do DataFrame sales_pipeline
base_final = sales_pipeline.copy()

# Realizando o merge com base_completa
base_final = pd.merge(base_final, products, on='product', how='left')

# Fazendo o join com o DataFrame sales_team
base_final = pd.merge(sales_pipeline, sales_team, on='sales_agent', how='left')

# Fazendo o join com o DataFrame accounts
base_final = pd.merge(sales_pipeline, accounts, on='account', how='left')

In [None]:
# Verificando
base_final.head()

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value,sector,year_established,revenue,employees,office_location,subsidiary_of
0,Moses Frase,GTX Plus Basic,Cancity,Won,2016-10-20,2017-03-01,1054.0,retail,2001.0,718.62,2448.0,United States,0
1,Darcel Schlecht,GTX Pro,Isdom,Won,2016-10-25,2017-03-11,4514.0,medical,2002.0,3178.24,4540.0,United States,0
2,Darcel Schlecht,MG Special,Cancity,Won,2016-10-25,2017-03-07,50.0,retail,2001.0,718.62,2448.0,United States,0
3,Moses Frase,GTX Basic,Codehow,Won,2016-10-25,2017-03-09,588.0,software,1998.0,2714.9,2641.0,United States,Acme Corporation
4,Zane Levy,GTX Basic,Hatfan,Won,2016-10-25,2017-03-02,517.0,services,1982.0,792.46,1299.0,United States,0


In [None]:
# Verificando
base_final.shape

(8448, 13)

Percebe-se a falta das colunas referentes aos produtos. vamos adicioná-la

In [None]:
# Trazendo dados anteriores sobre os produtos vendidos.
# Dicionário com os dados associados a cada produto
produtos_associados = {
    'GTX Basic': {'series': 'GTX', 'sales_price': 550},
    'GTX Pro': {'series': 'GTX', 'sales_price': 4821},
    'MG Special': {'series': 'MG', 'sales_price': 55},
    'MG Advanced': {'series': 'MG', 'sales_price': 3393},
    'GTX Plus Pro': {'series': 'GTX', 'sales_price': 5482},
    'GTX Plus Basic': {'series': 'GTX', 'sales_price': 1096},
    'GTK 500': {'series': 'GTK', 'sales_price': 26768}
}

# Mapeando os valores da coluna 'product' para os dados associados
base_final['series'] = base_final['product'].map(lambda x: produtos_associados[x]['series'] if x in produtos_associados else None)
base_final['sales_price'] = base_final['product'].map(lambda x: produtos_associados[x]['sales_price'] if x in produtos_associados else None)

In [None]:
# Verificando
base_final.head()

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value,sector,year_established,revenue,employees,office_location,subsidiary_of,series,sales_price
0,Moses Frase,GTX Plus Basic,Cancity,Won,2016-10-20,2017-03-01,1054.0,retail,2001.0,718.62,2448.0,United States,0,GTX,1096
1,Darcel Schlecht,GTX Pro,Isdom,Won,2016-10-25,2017-03-11,4514.0,medical,2002.0,3178.24,4540.0,United States,0,GTX,4821
2,Darcel Schlecht,MG Special,Cancity,Won,2016-10-25,2017-03-07,50.0,retail,2001.0,718.62,2448.0,United States,0,MG,55
3,Moses Frase,GTX Basic,Codehow,Won,2016-10-25,2017-03-09,588.0,software,1998.0,2714.9,2641.0,United States,Acme Corporation,GTX,550
4,Zane Levy,GTX Basic,Hatfan,Won,2016-10-25,2017-03-02,517.0,services,1982.0,792.46,1299.0,United States,0,GTX,550


In [None]:
# Verificando
base_final.shape

(8448, 15)

In [None]:
# Verificando
base_final[base_final.duplicated()]

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value,sector,year_established,revenue,employees,office_location,subsidiary_of,series,sales_price


In [None]:
# Verificando
base_final.isnull().sum()

sales_agent            0
product                0
account                0
deal_stage             0
engage_date            0
close_date             0
close_value            0
sector              1079
year_established    1079
revenue             1079
employees           1079
office_location     1079
subsidiary_of       1079
series                 0
sales_price            0
dtype: int64

Não existem dados duplicados. Contudo, após a junção, percebe-se a existencia de mais dados nulos, provavelmente vindos de um merge que não conseguiu fazer a associação corretamente. Vamos novamente tratar coluna por coluna.

In [None]:
# Verificando
base_final[base_final['sector'].isnull()]

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value,sector,year_established,revenue,employees,office_location,subsidiary_of,series,sales_price
9,James Ascencio,MG Advanced,0,Engaging,2016-11-03,0,0.0,,,,,,,MG,3393
42,Kami Bicknell,GTX Basic,0,Engaging,2016-11-14,0,0.0,,,,,,,GTX,550
44,Cassey Cress,GTX Pro,0,Engaging,2016-11-16,0,0.0,,,,,,,GTX,4821
56,Kami Bicknell,GTX Plus Basic,0,Engaging,2016-11-19,0,0.0,,,,,,,GTX,1096
60,Hayden Neloms,MG Advanced,0,Engaging,2016-11-20,0,0.0,,,,,,,MG,3393
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8433,Versie Hillebrand,GTX Basic,0,Prospecting,0,0,0.0,,,,,,,GTX,550
8435,Versie Hillebrand,GTX Plus Basic,0,Prospecting,0,0,0.0,,,,,,,GTX,1096
8436,Versie Hillebrand,GTX Plus Pro,0,Prospecting,0,0,0.0,,,,,,,GTX,5482
8444,Versie Hillebrand,MG Special,0,Prospecting,0,0,0.0,,,,,,,MG,55


In [None]:
# Verificando
base_final[base_final['year_established'].isnull()]

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value,sector,year_established,revenue,employees,office_location,subsidiary_of,series,sales_price
9,James Ascencio,MG Advanced,0,Engaging,2016-11-03,0,0.0,,,,,,,MG,3393
42,Kami Bicknell,GTX Basic,0,Engaging,2016-11-14,0,0.0,,,,,,,GTX,550
44,Cassey Cress,GTX Pro,0,Engaging,2016-11-16,0,0.0,,,,,,,GTX,4821
56,Kami Bicknell,GTX Plus Basic,0,Engaging,2016-11-19,0,0.0,,,,,,,GTX,1096
60,Hayden Neloms,MG Advanced,0,Engaging,2016-11-20,0,0.0,,,,,,,MG,3393
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8433,Versie Hillebrand,GTX Basic,0,Prospecting,0,0,0.0,,,,,,,GTX,550
8435,Versie Hillebrand,GTX Plus Basic,0,Prospecting,0,0,0.0,,,,,,,GTX,1096
8436,Versie Hillebrand,GTX Plus Pro,0,Prospecting,0,0,0.0,,,,,,,GTX,5482
8444,Versie Hillebrand,MG Special,0,Prospecting,0,0,0.0,,,,,,,MG,55


In [None]:
# Verificando
base_final[base_final['revenue'].isnull()]

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value,sector,year_established,revenue,employees,office_location,subsidiary_of,series,sales_price
9,James Ascencio,MG Advanced,0,Engaging,2016-11-03,0,0.0,,,,,,,MG,3393
42,Kami Bicknell,GTX Basic,0,Engaging,2016-11-14,0,0.0,,,,,,,GTX,550
44,Cassey Cress,GTX Pro,0,Engaging,2016-11-16,0,0.0,,,,,,,GTX,4821
56,Kami Bicknell,GTX Plus Basic,0,Engaging,2016-11-19,0,0.0,,,,,,,GTX,1096
60,Hayden Neloms,MG Advanced,0,Engaging,2016-11-20,0,0.0,,,,,,,MG,3393
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8433,Versie Hillebrand,GTX Basic,0,Prospecting,0,0,0.0,,,,,,,GTX,550
8435,Versie Hillebrand,GTX Plus Basic,0,Prospecting,0,0,0.0,,,,,,,GTX,1096
8436,Versie Hillebrand,GTX Plus Pro,0,Prospecting,0,0,0.0,,,,,,,GTX,5482
8444,Versie Hillebrand,MG Special,0,Prospecting,0,0,0.0,,,,,,,MG,55


In [None]:
# Verificando
base_final[base_final['employees'].isnull()]

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value,sector,year_established,revenue,employees,office_location,subsidiary_of,series,sales_price
9,James Ascencio,MG Advanced,0,Engaging,2016-11-03,0,0.0,,,,,,,MG,3393
42,Kami Bicknell,GTX Basic,0,Engaging,2016-11-14,0,0.0,,,,,,,GTX,550
44,Cassey Cress,GTX Pro,0,Engaging,2016-11-16,0,0.0,,,,,,,GTX,4821
56,Kami Bicknell,GTX Plus Basic,0,Engaging,2016-11-19,0,0.0,,,,,,,GTX,1096
60,Hayden Neloms,MG Advanced,0,Engaging,2016-11-20,0,0.0,,,,,,,MG,3393
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8433,Versie Hillebrand,GTX Basic,0,Prospecting,0,0,0.0,,,,,,,GTX,550
8435,Versie Hillebrand,GTX Plus Basic,0,Prospecting,0,0,0.0,,,,,,,GTX,1096
8436,Versie Hillebrand,GTX Plus Pro,0,Prospecting,0,0,0.0,,,,,,,GTX,5482
8444,Versie Hillebrand,MG Special,0,Prospecting,0,0,0.0,,,,,,,MG,55


In [None]:
# Verificando
base_final[base_final['office_location'].isnull()]

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value,sector,year_established,revenue,employees,office_location,subsidiary_of,series,sales_price
9,James Ascencio,MG Advanced,0,Engaging,2016-11-03,0,0.0,,,,,,,MG,3393
42,Kami Bicknell,GTX Basic,0,Engaging,2016-11-14,0,0.0,,,,,,,GTX,550
44,Cassey Cress,GTX Pro,0,Engaging,2016-11-16,0,0.0,,,,,,,GTX,4821
56,Kami Bicknell,GTX Plus Basic,0,Engaging,2016-11-19,0,0.0,,,,,,,GTX,1096
60,Hayden Neloms,MG Advanced,0,Engaging,2016-11-20,0,0.0,,,,,,,MG,3393
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8433,Versie Hillebrand,GTX Basic,0,Prospecting,0,0,0.0,,,,,,,GTX,550
8435,Versie Hillebrand,GTX Plus Basic,0,Prospecting,0,0,0.0,,,,,,,GTX,1096
8436,Versie Hillebrand,GTX Plus Pro,0,Prospecting,0,0,0.0,,,,,,,GTX,5482
8444,Versie Hillebrand,MG Special,0,Prospecting,0,0,0.0,,,,,,,MG,55


In [None]:
# Verificando
base_final[base_final['subsidiary_of'].isnull()]

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value,sector,year_established,revenue,employees,office_location,subsidiary_of,series,sales_price
9,James Ascencio,MG Advanced,0,Engaging,2016-11-03,0,0.0,,,,,,,MG,3393
42,Kami Bicknell,GTX Basic,0,Engaging,2016-11-14,0,0.0,,,,,,,GTX,550
44,Cassey Cress,GTX Pro,0,Engaging,2016-11-16,0,0.0,,,,,,,GTX,4821
56,Kami Bicknell,GTX Plus Basic,0,Engaging,2016-11-19,0,0.0,,,,,,,GTX,1096
60,Hayden Neloms,MG Advanced,0,Engaging,2016-11-20,0,0.0,,,,,,,MG,3393
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8433,Versie Hillebrand,GTX Basic,0,Prospecting,0,0,0.0,,,,,,,GTX,550
8435,Versie Hillebrand,GTX Plus Basic,0,Prospecting,0,0,0.0,,,,,,,GTX,1096
8436,Versie Hillebrand,GTX Plus Pro,0,Prospecting,0,0,0.0,,,,,,,GTX,5482
8444,Versie Hillebrand,MG Special,0,Prospecting,0,0,0.0,,,,,,,MG,55


Novamente percebe-se que os dados ausentes são referentes a negocios não efetivados e que não tiveram informações suficientes. Vamos substituir todos os dados faltantes por 0

In [None]:
# Substituindo
base_final['sector'].fillna(0, inplace=True)
base_final['year_established'].fillna(0, inplace=True)
base_final['revenue'].fillna(0, inplace=True)
base_final['employees'].fillna(0, inplace=True)
base_final['office_location'].fillna(0, inplace=True)
base_final['subsidiary_of'].fillna(0, inplace=True)

# Verificando
base_final.isnull().sum()

sales_agent         0
product             0
account             0
deal_stage          0
engage_date         0
close_date          0
close_value         0
sector              0
year_established    0
revenue             0
employees           0
office_location     0
subsidiary_of       0
series              0
sales_price         0
dtype: int64

Nota-se que nem todas as 16 colunas são relevantes para a análise. Portanto, vamos realizar uma engenharia de atributos para selecionar apenas os atributos mais importantes.

In [None]:
# Conferindo a base
base_final.head()

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value,sector,year_established,revenue,employees,office_location,subsidiary_of,series,sales_price
0,Moses Frase,GTX Plus Basic,Cancity,Won,2016-10-20,2017-03-01,1054.0,retail,2001.0,718.62,2448.0,United States,0,GTX,1096
1,Darcel Schlecht,GTX Pro,Isdom,Won,2016-10-25,2017-03-11,4514.0,medical,2002.0,3178.24,4540.0,United States,0,GTX,4821
2,Darcel Schlecht,MG Special,Cancity,Won,2016-10-25,2017-03-07,50.0,retail,2001.0,718.62,2448.0,United States,0,MG,55
3,Moses Frase,GTX Basic,Codehow,Won,2016-10-25,2017-03-09,588.0,software,1998.0,2714.9,2641.0,United States,Acme Corporation,GTX,550
4,Zane Levy,GTX Basic,Hatfan,Won,2016-10-25,2017-03-02,517.0,services,1982.0,792.46,1299.0,United States,0,GTX,550


Vamos ajustar as datas para analisar o número de dias gastos para efetivar ou não uma compra. Primeiramente, substituiremos '0' por NaN nas colunas 'engage_date' e 'close_date' para indicar a ausência de uma data válida. Em seguida, converteremos essas colunas para o formato datetime para garantir o tratamento correto das datas. Por fim, calcularemos a diferença em dias entre 'close_date' e 'engage_date' e criaremos a nova coluna 'days_to_close' para armazenar essa informação.

In [None]:
# Ajustando aas datas

# Substitua '0' por NaN
base_final['engage_date'] = base_final['engage_date'].replace('0', np.nan)
base_final['close_date'] = base_final['close_date'].replace('0', np.nan)

# Converta as colunas de data para o formato datetime
base_final['engage_date'] = pd.to_datetime(base_final['engage_date'], errors='coerce')
base_final['close_date'] = pd.to_datetime(base_final['close_date'], errors='coerce')

# Calculando a diferença em dias e criando a nova coluna
base_final['time_until_close'] = (base_final['close_date'] - base_final['engage_date']).dt.days


In [None]:
# Verificando
base_final.head()

Unnamed: 0,sales_agent,product,account,deal_stage,engage_date,close_date,close_value,sector,year_established,revenue,employees,office_location,subsidiary_of,series,sales_price,time_until_close
0,Moses Frase,GTX Plus Basic,Cancity,Won,2016-10-20,2017-03-01,1054.0,retail,2001.0,718.62,2448.0,United States,0,GTX,1096,132.0
1,Darcel Schlecht,GTX Pro,Isdom,Won,2016-10-25,2017-03-11,4514.0,medical,2002.0,3178.24,4540.0,United States,0,GTX,4821,137.0
2,Darcel Schlecht,MG Special,Cancity,Won,2016-10-25,2017-03-07,50.0,retail,2001.0,718.62,2448.0,United States,0,MG,55,133.0
3,Moses Frase,GTX Basic,Codehow,Won,2016-10-25,2017-03-09,588.0,software,1998.0,2714.9,2641.0,United States,Acme Corporation,GTX,550,135.0
4,Zane Levy,GTX Basic,Hatfan,Won,2016-10-25,2017-03-02,517.0,services,1982.0,792.46,1299.0,United States,0,GTX,550,128.0


In [None]:
# Verificando
base_final.isnull().sum()

sales_agent            0
product                0
account                0
deal_stage             0
engage_date          213
close_date          1737
close_value            0
sector                 0
year_established       0
revenue                0
employees              0
office_location        0
subsidiary_of          0
series                 0
sales_price            0
time_until_close    1737
dtype: int64

Novamente, precisamos lidar com as datas que não informadas devido ao não fechamento do negocio. Vamos preencher esses dados faltantes com 0 e então eliminar as colunas de data de engajamento e data de fechamento

In [None]:
# Substituindo
base_final['engage_date'].fillna(0, inplace=True)
base_final['close_date'].fillna(0, inplace=True)
base_final['time_until_close'].fillna(0, inplace=True)

In [None]:
# Excluindo colunas desnecessárias
base_final.drop('engage_date', axis=1, inplace=True)
base_final.drop('close_date', axis=1, inplace=True)

In [None]:
# Conferindo
base_final.head()

Unnamed: 0,sales_agent,product,account,deal_stage,close_value,sector,year_established,revenue,employees,office_location,subsidiary_of,series,sales_price,time_until_close
0,Moses Frase,GTX Plus Basic,Cancity,Won,1054.0,retail,2001.0,718.62,2448.0,United States,0,GTX,1096,132.0
1,Darcel Schlecht,GTX Pro,Isdom,Won,4514.0,medical,2002.0,3178.24,4540.0,United States,0,GTX,4821,137.0
2,Darcel Schlecht,MG Special,Cancity,Won,50.0,retail,2001.0,718.62,2448.0,United States,0,MG,55,133.0
3,Moses Frase,GTX Basic,Codehow,Won,588.0,software,1998.0,2714.9,2641.0,United States,Acme Corporation,GTX,550,135.0
4,Zane Levy,GTX Basic,Hatfan,Won,517.0,services,1982.0,792.46,1299.0,United States,0,GTX,550,128.0


Observamos a falta de dados sobre o sales team. Para corrigir isso, vamos adicionar essas informações à nossa análise.

In [None]:
# Adicionando
base_final = pd.merge(base_final, sales_team, on='sales_agent', how='left')

In [None]:
# Conferindo
base_final.head()

Unnamed: 0,sales_agent,product,account,deal_stage,close_value,sector,year_established,revenue,employees,office_location,subsidiary_of,series,sales_price,time_until_close,manager,regional_office
0,Moses Frase,GTX Plus Basic,Cancity,Won,1054.0,retail,2001.0,718.62,2448.0,United States,0,GTX,1096,132.0,Dustin Brinkmann,Central
1,Darcel Schlecht,GTX Pro,Isdom,Won,4514.0,medical,2002.0,3178.24,4540.0,United States,0,GTX,4821,137.0,Melvin Marxen,Central
2,Darcel Schlecht,MG Special,Cancity,Won,50.0,retail,2001.0,718.62,2448.0,United States,0,MG,55,133.0,Melvin Marxen,Central
3,Moses Frase,GTX Basic,Codehow,Won,588.0,software,1998.0,2714.9,2641.0,United States,Acme Corporation,GTX,550,135.0,Dustin Brinkmann,Central
4,Zane Levy,GTX Basic,Hatfan,Won,517.0,services,1982.0,792.46,1299.0,United States,0,GTX,550,128.0,Summer Sewald,West


In [None]:
# Verificando
base_final.shape

(8448, 16)

Após concluir a montagem e tratamento da base final, vamos salvá-la no formato csv para seguir para EDA que está localizada nesse [notebook](https://colab.research.google.com/drive/1yI6cAagZ73nXlJZU8yMFmRG80vdYWyof).

In [None]:
# Salvando a base
base_final.to_csv('base_final.csv', index=True)