Processamento de dados:
- criar tabela com todos os MQLs, com todas as informações disponíveis para cada um.
- criar uma coluna com quais MQLs fecharam acordo e quais foram perdidos.

Perguntas a serem respondidas:
- Qual foi a taxa de conversão total?
- Qual foi a taxa de conversão de cada origem?
- Qual foi a taxa de conversão de cada página inicial?
- Para cada SR, qual a receita média declarada dos leads?
- Para cada SR, quantos de cada business_type a pessoa converteu?
- Para cada SR, quantos de cada lead_behaviour_profile a pessoa converteu?
- Para cada SR, quantos de cada lead_type a pessoa converteu?

Extra:

Caso consiga resolver as questões acima com facilidade, aproveite a base "irmã" dessa para fazer outras explorações que você ache interessante!

https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce

Lembre de separar novamente em 2 etapas: 
1. Processamento dos dados, para criar uma tabela "analítica".
2. Análise exploratória dos dados.

In [213]:
import pandas as pd
import numpy as np

## - criar tabela com todos os MQLs, com todas as informações disponíveis para cada um.

In [214]:
df_deals = pd.read_table('olist_closed_deals_dataset.csv', sep=',', decimal='.', parse_dates=['won_date'])
df_deals.head()

Unnamed: 0,mql_id,seller_id,sdr_id,sr_id,won_date,business_segment,lead_type,lead_behaviour_profile,has_company,has_gtin,average_stock,business_type,declared_product_catalog_size,declared_monthly_revenue
0,5420aad7fec3549a85876ba1c529bd84,2c43fb513632d29b3b58df74816f1b06,a8387c01a09e99ce014107505b92388c,4ef15afb4b2723d8f3d81e51ec7afefe,2018-02-26 19:58:54,pet,online_medium,cat,,,,reseller,,0.0
1,a555fb36b9368110ede0f043dfc3b9a0,bbb7d7893a450660432ea6652310ebb7,09285259593c61296eef10c734121d5b,d3d1e91a157ea7f90548eef82f1955e3,2018-05-08 20:17:59,car_accessories,industry,eagle,,,,reseller,,0.0
2,327174d3648a2d047e8940d7d15204ca,612170e34b97004b3ba37eae81836b4c,b90f87164b5f8c2cfa5c8572834dbe3f,6565aa9ce3178a5caf6171827af3a9ba,2018-06-05 17:27:23,home_appliances,online_big,cat,,,,reseller,,0.0
3,f5fee8f7da74f4887f5bcae2bafb6dd6,21e1781e36faf92725dde4730a88ca0f,56bf83c4bb35763a51c2baab501b4c67,d3d1e91a157ea7f90548eef82f1955e3,2018-01-17 13:51:03,food_drink,online_small,,,,,reseller,,0.0
4,ffe640179b554e295c167a2f6be528e0,ed8cb7b190ceb6067227478e48cf8dde,4b339f9567d060bcea4f5136b9f5949e,d3d1e91a157ea7f90548eef82f1955e3,2018-07-03 20:17:45,home_appliances,industry,wolf,,,,manufacturer,,0.0


In [215]:
df_deals.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 842 entries, 0 to 841
Data columns (total 14 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   mql_id                         842 non-null    object        
 1   seller_id                      842 non-null    object        
 2   sdr_id                         842 non-null    object        
 3   sr_id                          842 non-null    object        
 4   won_date                       842 non-null    datetime64[ns]
 5   business_segment               841 non-null    object        
 6   lead_type                      836 non-null    object        
 7   lead_behaviour_profile         665 non-null    object        
 8   has_company                    63 non-null     object        
 9   has_gtin                       64 non-null     object        
 10  average_stock                  66 non-null     object        
 11  business_type      

## - criar uma coluna com quais MQLs fecharam acordo e quais foram perdidos.

In [216]:
df_mql = pd.read_table('olist_marketing_qualified_leads_dataset.csv', sep=',', parse_dates=['first_contact_date'])
df_mql.head()

Unnamed: 0,mql_id,first_contact_date,landing_page_id,origin
0,dac32acd4db4c29c230538b72f8dd87d,2018-02-01,88740e65d5d6b056e0cda098e1ea6313,social
1,8c18d1de7f67e60dbd64e3c07d7e9d5d,2017-10-20,007f9098284a86ee80ddeb25d53e0af8,paid_search
2,b4bc852d233dfefc5131f593b538befa,2018-03-22,a7982125ff7aa3b2054c6e44f9d28522,organic_search
3,6be030b81c75970747525b843c1ef4f8,2018-01-22,d45d558f0daeecf3cccdffe3c59684aa,email
4,5420aad7fec3549a85876ba1c529bd84,2018-02-21,b48ec5f3b04e9068441002a19df93c6c,organic_search


In [217]:
df_mql.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8000 entries, 0 to 7999
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   mql_id              8000 non-null   object        
 1   first_contact_date  8000 non-null   datetime64[ns]
 2   landing_page_id     8000 non-null   object        
 3   origin              7940 non-null   object        
dtypes: datetime64[ns](1), object(3)
memory usage: 250.1+ KB


In [218]:
df = df_mql.merge(df_deals, how='left', on='mql_id')
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8000 entries, 0 to 7999
Data columns (total 17 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   mql_id                         8000 non-null   object        
 1   first_contact_date             8000 non-null   datetime64[ns]
 2   landing_page_id                8000 non-null   object        
 3   origin                         7940 non-null   object        
 4   seller_id                      842 non-null    object        
 5   sdr_id                         842 non-null    object        
 6   sr_id                          842 non-null    object        
 7   won_date                       842 non-null    datetime64[ns]
 8   business_segment               841 non-null    object        
 9   lead_type                      836 non-null    object        
 10  lead_behaviour_profile         665 non-null    object        
 11  has_company      

## Qual foi a taxa de conversão total?

In [219]:
df['fecharam_acordo'] = np.where(np.isnat(df['won_date']), 0, 1)
conversao_total = df['fecharam_acordo'].sum() / df['fecharam_acordo'].shape[0]
conversao_total = conversao_total * 100
conversao_total = round(conversao_total, 2)
print(f'{conversao_total}%')

10.52%


## Qual foi a taxa de conversão de cada origem?

## Qual foi a taxa de conversão de cada página inicial?

## Para cada SR, qual a receita média declarada dos leads?

## Para cada SR, quantos de cada business_type a pessoa converteu?

## Para cada SR, quantos de cada lead_behaviour_profile a pessoa converteu?

## Para cada SR, quantos de cada lead_type a pessoa converteu?