<h1><span style="color:blue;font-weight:700;font-size:24px">
Olist Market Funnel Analysis
</span></h1>

___

<span style="color:gray;font-weight:350;font-size:16px">
<br>
Este projeto tem por objetivo realizar uma análise exploratória dos dados disponibilizados pela plataforma Olist que conecta negócios pequenos e de médio porte com os diversos marketplaces no Brasil.</span>
<br><br>

[Brazilian E-Commerce Public Dataset by Olist](https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce)

---

<h2><span style="color:blue;font-weight:700;font-size:24px">
Questões a serem respondidas
</span></h2>
<br><br>

<span style="color:gray;font-weight:350;font-size:18px">
<ol>
    <li>Qual foi a taxa de conversão total?</li>
    <li>Qual foi a taxa de conversão de cada origem?</li>
    <li>Qual foi a taxa de conversão de cada página inicial?</li>
    <li>Para cada SR, qual a receita média declarada dos leads?</li>
    <li>Para cada SR, quantos de cada business_type a pessoa converteu?</li>
    <li>Para cada SR, quantos de cada lead_behaviour_profile a pessoa converteu?</li>
    <li>Para cada SR, quantos de cada lead_type a pessoa converteu?</li>
</ol>
<br>
    
---

<span style="color:green; font-weight:300;font-size:24px">
<b>
Importando as bibliotecas
</b></span>


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
from pathlib import Path
print("**** Importação de bibliotecas com sucesso! ****")

<span style="color:green; font-weight:300;font-size:24px"><b>Funções básicas </b></span>

In [None]:
def caminho_dos_dados(projeto):
    '''
    Função que retorna o caminho dos dados atual acrescido do nome do projeto
    '''
    return str(Path(os.getcwd()).parent) + '/data'+ projeto

def criar_dataframe(projeto, arquivo):
    '''
    Função para criar um dataframe a partir de um arquivo csv e projeto específico
    '''
    df = pd.read_csv(caminho_dos_dados(projeto) + '/' + arquivo)
    return df

print("**** Funções criadas com sucesso! ****")

<span style="color:green; font-weight:300;font-size:24px"><b>Importando os dados</b></span><br>

---

<span style="color:blue;font-weight:300;font-size:20px"><b>Importando propostas convertidas em venda</b></span><br>

In [None]:
projeto = '/olist_mkt_funnel'
arquivo = 'olist_closed_deals_dataset.csv'
df_vendas_convertidas = criar_dataframe(projeto , arquivo)
df_vendas_convertidas.head(4)

In [None]:
info_vendas_convertidas = df_vendas_convertidas.info()
list(df_vendas_convertidas)
df_vendas_convertidas.nunique()

<span style="color:blue;font-weight:300;font-size:20px"><b>Importando as oportunidades de negócio</span></b><br>

In [None]:
arquivo = 'olist_marketing_qualified_leads_dataset.csv'
df_todas_propostas = criar_dataframe(projeto , arquivo)
df_todas_propostas.head(4)

In [None]:
info_todas_propostas = df_todas_propostas.info()
list(df_todas_propostas)


<span style="color:blue;font-weight:300;font-size:20px"><b>Criando uma base única</b></span>

In [None]:
df_base_completa = df_todas_propostas.merge(df_vendas_convertidas, on = ['mql_id'], how = 'left').copy()
df_base_completa.info()

In [None]:
# Vamos verificar se existem registros duplicados no dataframe completo.

registros_duplicados = df_base_completa.duplicated()
registros_duplicados.sum()

In [None]:
# Criando uma coluna adicional para identificar as vendas fechadas.
df_base_completa['closed_deal'] = np.where(df_base_completa['won_date'].isnull(), 0, 1)
df_base_completa.head(5)

<span style="color:blue;font-weight:300;font-size:20px"><b>Taxa de conversão total</b></span>

In [None]:
taxa_conversao_total = df_base_completa.closed_deal.sum()/df_base_completa.shape[0]*100
print(f'**** Taxa de conversão total= {taxa_conversao_total:.2f}% ****')

<span style="color:blue;font-weight:300;font-size:20px"><b>Taxa de conversão por Origem</b></span>

In [None]:
taxa_conversao_por_origem = np.round(df_base_completa.groupby(['origin'])['closed_deal'].sum()/df_base_completa.groupby(['origin'])['closed_deal'].count()*100, 2)
taxa_conversao_por_origem

<span style="color:blue;font-weight:300;font-size:20px"><b>Taxa de conversão por Página Inicial</b></span>

In [None]:
taxa_conversao_por_pagina = np.round(df_base_completa.groupby(['landing_page_id'])['closed_deal'].sum()/df_base_completa.groupby(['landing_page_id'])['closed_deal'].count()*100, 2)
taxa_conversao_por_pagina

<span style="color:blue;font-weight:300;font-size:20px"><b>Taxa de conversão por Página Inicial</b></span>