# Análise Exploratória

### Kedro

In [1]:
from typing import TYPE_CHECKING

if TYPE_CHECKING:
    from kedro.io import DataCatalog
    catalog: DataCatalog

In [2]:
%load_ext kedro.ipython

### Importações de Bibliotecas

In [3]:

# Importando as bibliotecas necessárias
import warnings

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns


In [4]:

# Configurações
warnings.filterwarnings("ignore")
plt.style.use("seaborn-v0_8")
sns.set_palette("husl")
plt.rcParams["figure.figsize"] = (12, 8)
plt.rcParams["font.size"] = 12

# Configurando para exibir todas as colunas
pd.set_option("display.max_columns", None)
pd.set_option("display.width", None)


## Exploração da base df_perfil

In [5]:
df_perfis = catalog.load("perfis")
df_perfis.head()

Unnamed: 0,faixa_etaria,sexo,categoria_de_interesse,descricao_da_categoria,perfil,impressoes,cliques,custo,vendas,faturamento,lucro,ctr,tc,cpc,cc,roi,conversao
0,30-34,F,2,Business and Industry,30-34 | F | 2,252951,45,67.2,11,935,867.8,0.000178,0.244444,1.493333,6.109091,12.91369,4.3e-05
1,30-34,F,7,Business and Industry,30-34 | F | 7,317046,58,84.86,12,1020,935.14,0.000183,0.206897,1.463103,7.071667,11.019797,3.8e-05
2,30-34,F,10,Business and Industry,30-34 | F | 10,604070,91,129.58,28,2380,2250.42,0.000151,0.307692,1.423956,4.627857,17.367032,4.6e-05
3,30-34,F,15,Business and Industry,30-34 | F | 15,1669161,262,391.600002,46,3910,3518.399998,0.000157,0.175573,1.494656,8.513044,8.984678,2.8e-05
4,30-34,F,16,Entertainment,30-34 | F | 16,2693782,355,529.709996,62,5270,4740.290004,0.000132,0.174648,1.492141,8.54371,8.94884,2.3e-05


## Análise Descritiva

In [6]:
def full_describe(df) -> None:
    print("Info")
    print(df.info())
    print("\ndescribe de categóricas")
    display(df.describe(include=["object", "category"]))
    print("\ndescribe de numéricas")
    display(df.describe(include="number"))
    print("\nHead")
    display(df.head())

# Verificando valores únicos nas colunas categóricas
def value_counts(df) -> None:

    print("=== VALORES ÚNICOS NAS COLUNAS CATEGÓRICAS ===")

    for coluna in df.select_dtypes(include=["object", "category"]).columns:
        vc = df[coluna].value_counts().reset_index()
        vc.columns = [coluna, "qtd"]
        vc["percentual"] = (vc["qtd"] / vc["qtd"].sum() * 100).round(2)
        display(vc)


In [8]:
full_describe(df_perfis)

Info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 284 entries, 0 to 283
Data columns (total 17 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   faixa_etaria            284 non-null    object 
 1   sexo                    284 non-null    object 
 2   categoria_de_interesse  284 non-null    int64  
 3   descricao_da_categoria  284 non-null    object 
 4   perfil                  284 non-null    object 
 5   impressoes              284 non-null    int64  
 6   cliques                 284 non-null    int64  
 7   custo                   284 non-null    float64
 8   vendas                  284 non-null    int64  
 9   faturamento             284 non-null    int64  
 10  lucro                   284 non-null    float64
 11  ctr                     284 non-null    float64
 12  tc                      281 non-null    float64
 13  cpc                     281 non-null    float64
 14  cc                      274 non-null 

Unnamed: 0,faixa_etaria,sexo,descricao_da_categoria,perfil
count,284,284,284,284
unique,4,2,9,284
top,30-34,F,Technology,30-34 | F | 2
freq,72,144,53,1



describe de numéricas


Unnamed: 0,categoria_de_interesse,impressoes,cliques,custo,vendas,faturamento,lucro,ctr,tc,cpc,cc,roi,conversao
count,284.0,284.0,284.0,284.0,284.0,284.0,284.0,284.0,281.0,281.0,274.0,281.0,284.0
mean,54.728873,751531.1,134.383803,206.708556,23.971831,2037.605634,1830.897078,0.000173,0.535443,1.517036,10.98516,29.544697,6.5e-05
std,39.728412,1001406.0,187.275361,286.107323,27.153261,2308.027145,2136.180396,6.5e-05,1.099989,0.155152,12.861269,65.486467,8.7e-05
min,2.0,652.0,0.0,0.0,0.0,0.0,-120.899998,0.0,0.0,0.655,0.135455,-1.0,0.0
25%,22.0,128798.2,20.0,30.215,7.75,658.75,513.810001,0.000132,0.1,1.424706,2.903248,4.589164,1.9e-05
50%,31.0,373766.0,65.0,103.120001,13.0,1105.0,990.6,0.000166,0.25,1.478545,6.133295,12.702502,4e-05
75%,103.0,866792.8,166.25,247.794998,32.25,2741.25,2517.775001,0.000213,0.510638,1.617447,14.008686,28.251506,7.2e-05
max,114.0,6110946.0,1321.0,1888.630003,176.0,14960.0,14003.090003,0.000439,11.0,1.99625,86.940002,626.516774,0.000664



Head


Unnamed: 0,faixa_etaria,sexo,categoria_de_interesse,descricao_da_categoria,perfil,impressoes,cliques,custo,vendas,faturamento,lucro,ctr,tc,cpc,cc,roi,conversao
0,30-34,F,2,Business and Industry,30-34 | F | 2,252951,45,67.2,11,935,867.8,0.000178,0.244444,1.493333,6.109091,12.91369,4.3e-05
1,30-34,F,7,Business and Industry,30-34 | F | 7,317046,58,84.86,12,1020,935.14,0.000183,0.206897,1.463103,7.071667,11.019797,3.8e-05
2,30-34,F,10,Business and Industry,30-34 | F | 10,604070,91,129.58,28,2380,2250.42,0.000151,0.307692,1.423956,4.627857,17.367032,4.6e-05
3,30-34,F,15,Business and Industry,30-34 | F | 15,1669161,262,391.600002,46,3910,3518.399998,0.000157,0.175573,1.494656,8.513044,8.984678,2.8e-05
4,30-34,F,16,Entertainment,30-34 | F | 16,2693782,355,529.709996,62,5270,4740.290004,0.000132,0.174648,1.492141,8.54371,8.94884,2.3e-05


In [9]:
value_counts(df_perfis)

=== VALORES ÚNICOS NAS COLUNAS CATEGÓRICAS ===


Unnamed: 0,faixa_etaria,qtd,percentual
0,30-34,72,25.35
1,40-44,72,25.35
2,35-39,71,25.0
3,45-49,69,24.3


Unnamed: 0,sexo,qtd,percentual
0,F,144,50.7
1,M,140,49.3


Unnamed: 0,descricao_da_categoria,qtd,percentual
0,Technology,53,18.66
1,Fitness and wellness,31,10.92
2,Entertainment,31,10.92
3,Family and relationships,31,10.92
4,Business and Industry,30,10.56
5,Food and drink,30,10.56
6,Hobbies and activities,30,10.56
7,Shopping and fashion,26,9.15
8,Sports and outdoors,22,7.75


Unnamed: 0,perfil,qtd,percentual
0,30-34 | F | 2,1,0.35
1,30-34 | F | 7,1,0.35
2,30-34 | F | 10,1,0.35
3,30-34 | F | 15,1,0.35
4,30-34 | F | 16,1,0.35
...,...,...,...
279,45-49 | M | 109,1,0.35
280,45-49 | M | 110,1,0.35
281,45-49 | M | 112,1,0.35
282,45-49 | M | 113,1,0.35


#### KPIs

In [None]:
df_perfil.head()

Exportação

In [None]:
# Identificando colunas quantitativas
colunas_quantitativas = df_campanha.select_dtypes(include=[np.number]).columns

# Criando histogramas
fig, axes = plt.subplots(2, 4, figsize=(20, 12))
axes = axes.ravel()

for i, coluna in enumerate(colunas_quantitativas):
    if i < 8:  # Limitando a 8 gráficos
        axes[i].hist(df_campanha[coluna], bins=20, alpha=0.7, edgecolor="black")
        axes[i].set_title(f"Distribuição de {coluna}")
        axes[i].set_xlabel(coluna)
        axes[i].set_ylabel("Frequência")
        axes[i].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:

print("=== MEDIDAS RESUMO DAS VARIÁVEIS QUANTITATIVAS ===")
medidas_resumo = df_campanha[colunas_quantitativas].describe()
display(medidas_resumo.round(2))

In [None]:
# Matriz de correlação
correlacao = df_campanha[colunas_quantitativas].corr()

plt.figure(figsize=(12, 10))
sns.heatmap(correlacao, annot=True, cmap="coolwarm", center=0,
            square=True, linewidths=0.5, cbar_kws={"shrink": .8})
plt.title("Matriz de Correlação entre Variáveis Quantitativas")
plt.tight_layout()
plt.show()

In [None]:

print("\n=== CORRELAÇÕES MAIS FORTES ===")
# Encontrando as correlações mais fortes (excluindo correlação com ela mesma)
correlacoes = []
for i in range(len(correlacao.columns)):
    for j in range(i+1, len(correlacao.columns)):
        correlacoes.append((
            correlacao.columns[i],
            correlacao.columns[j],
            correlacao.iloc[i, j]
        ))

correlacoes_df = pd.DataFrame(correlacoes, columns=["Variável 1", "Variável 2", "Correlação"])
correlacoes_df = correlacoes_df.sort_values("Correlação", key=abs, ascending=False)
display(correlacoes_df.head(15).round(3))


In [None]:

# Análise de ROI por segmentação
print("=== ANÁLISE DE ROI POR SEGMENTAÇÃO ===")

for coluna_qual in colunas_qualitativas:
    print(f"\nROI por {coluna_qual}:")
    roi_por_grupo = df_campanha.groupby(coluna_qual)["roi"].agg(["mean", "std", "count"]).round(2)
    roi_por_grupo.columns = ["ROI Médio (%)", "Desvio Padrão", "Quantidade"]
    print(roi_por_grupo)

    # Gráfico de boxplot
    plt.figure(figsize=(10, 6))
    df_campanha.boxplot(column="roi", by=coluna_qual, figsize=(10, 6))
    plt.title(f"Distribuição do ROI por {coluna_qual}")
    plt.suptitle("")  # Remove o título automático
    plt.show()


In [None]:
# Calculando métricas do funil de vendas
print("=== FUNIL DE VENDAS GERAL ===")

total_impressoes = df_campanha["impressoes"].sum()
total_cliques = df_campanha["cliques"].sum()
total_vendas = df_campanha["vendas"].sum()
total_custo = df_campanha["custo"].sum()

ctr_geral = (total_cliques / total_impressoes) * 100
tc_geral = (total_vendas / total_cliques) * 100
roi_geral = ((total_vendas * VALOR_VENDA - total_custo) / total_custo) * 100

print(f"Total de Impressões: {total_impressoes:,}")
print(f"Total de Cliques: {total_cliques:,}")
print(f"Total de Vendas: {total_vendas:,}")
print(f"CTR Geral: {ctr_geral:.2f}%")
print(f"Taxa de Conversão Geral: {tc_geral:.2f}%")
print(f"ROI Geral: {roi_geral:.2f}%")
print(f"Custo Total: R$ {total_custo:,.2f}")
print(f"Faturamento Total: R$ {total_vendas * VALOR_VENDA:,.2f}")
print(f"Lucro Total: R$ {total_vendas * VALOR_VENDA - total_custo:,.2f}")

In [None]:

# Visualizando o funil de vendas
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Gráfico de barras do funil
etapas = ["Impressões", "Cliques", "Vendas"]
valores = [total_impressoes, total_cliques, total_vendas]
percentuais = [100, ctr_geral, tc_geral]

ax1.bar(etapas, valores, color=["#FF6B6B", "#4ECDC4", "#45B7D1"])
ax1.set_title("Funil de Vendas - Valores Absolutos")
ax1.set_ylabel("Quantidade")
for i, v in enumerate(valores):
    ax1.text(i, v + max(valores)*0.01, f"{v:,}", ha="center", va="bottom")

# Gráfico de percentuais
ax2.bar(etapas, percentuais, color=["#FF6B6B", "#4ECDC4", "#45B7D1"])
ax2.set_title("Funil de Vendas - Percentuais")
ax2.set_ylabel("Percentual (%)")
for i, v in enumerate(percentuais):
    ax2.text(i, v + 1, f"{v:.2f}%", ha="center", va="bottom")

plt.tight_layout()
plt.show()


## Dados de Pesquisa

### Base Pesquisa

In [None]:
# Dados da pesquisa de mercado
excel_pesquisa = pd.read_excel(caminho_dados / "dados_pesquisa.xlsx", sheet_name=None)
print("Resumo das abas encontradas:")
for nome, df in excel_pesquisa.items():
    print(f"{nome} | Shape: {df.shape}")


In [None]:
df_pesquisa_metadados = excel_pesquisa["Metadados"]
df_pesquisa_metadados

In [None]:
df_pesquisa = excel_pesquisa["dados_da_campanha"]
df_pesquisa

In [None]:
df_pesquisa = df_pesquisa.set_index("id_do_respondente")
df_pesquisa

In [None]:
full_describe(df_pesquisa)

In [None]:
full_value_countes(df_pesquisa)

In [None]:
# Análise do interesse no curso
print("=== ANÁLISE DO INTERESSE NO CURSO ===")

# Verificando se existe coluna de interesse
colunas_pesquisa = df_pesquisa.columns.tolist()
print(f"Colunas disponíveis: {colunas_pesquisa}")


In [None]:
print(f"\nDistribuição de {"interesse_no_Curso"}:")
display(df_pesquisa["interesse_no_Curso"].value_counts())
print(f"Percentual de interessados: {(df_pesquisa["interesse_no_Curso"].value_counts(normalize=True) * 100).round(2)}")


In [None]:

# Análise do preço que as pessoas pagariam
print("=== ANÁLISE DO PREÇO ===")

# Procurando por colunas relacionadas ao preço
colunas_preco = [col for col in colunas_pesquisa if "preco" in col.lower() or "valor" in col.lower() or "pagaria" in col.lower()]
print(f"Colunas de preço encontradas: {colunas_preco}")

if colunas_preco:
    for col in colunas_preco:
        print(f"\nEstatísticas de {col}:")
        print(df_pesquisa[col].describe())

        # Histograma do preço
        plt.figure(figsize=(10, 6))
        plt.hist(df_pesquisa[col].dropna(), bins=20, alpha=0.7, edgecolor="black")
        plt.title(f"Distribuição de {col}")
        plt.xlabel("Preço (R$)")
        plt.ylabel("Frequência")
        plt.grid(True, alpha=0.3)
        plt.show()

# 7.1 Análise do investimento necessário para dobrar as vendas
print("=== ANÁLISE PARA DOBRAR AS VENDAS ===")

vendas_atual = total_vendas
vendas_dobrar = vendas_atual * 2
custo_atual = total_custo

# Assumindo que a taxa de conversão se mantém
cliques_necessarios = vendas_dobrar / (tc_geral / 100)
custo_necessario = cliques_necessarios * (custo_atual / total_cliques)

print(f"Vendas atuais: {vendas_atual:,}")
print(f"Vendas desejadas: {vendas_dobrar:,}")
print(f"Cliques necessários: {cliques_necessarios:,.0f}")
print(f"Custo necessário: R$ {custo_necessario:,.2f}")
print(f"Investimento adicional necessário: R$ {custo_necessario - custo_atual:,.2f}")

# 7.2 Análise da relação entre investimento e vendas
print("=== RELAÇÃO ENTRE INVESTIMENTO E VENDAS ===")

# Correlação entre custo e vendas
correlacao_custo_vendas = df_campanha["custo"].corr(df_campanha["vendas"])
print(f"Correlação entre custo e vendas: {correlacao_custo_vendas:.3f}")

# Gráfico de dispersão
plt.figure(figsize=(10, 6))
plt.scatter(df_campanha["custo"], df_campanha["vendas"], alpha=0.6)
plt.xlabel("Custo da Campanha (R$)")
plt.ylabel("Vendas Realizadas")
plt.title("Relação entre Custo da Campanha e Vendas")
plt.grid(True, alpha=0.3)

# Linha de tendência
z = np.polyfit(df_campanha["custo"], df_campanha["vendas"], 1)
p = np.poly1d(z)
plt.plot(df_campanha["custo"], p(df_campanha["custo"]), "r--", alpha=0.8)

plt.show()

# Análise de desperdício (campanhas com baixa taxa de conversão)
print("\n=== ANÁLISE DE DESPERDÍCIO ===")
campanhas_baixa_conversao = df_campanha[df_campanha["tc"] < df_campanha["tc"].median()]
print(f"Campanhas com baixa conversão (< mediana): {len(campanhas_baixa_conversao)}")
print(f"Custo total em campanhas de baixa conversão: R$ {campanhas_baixa_conversao['custo'].sum():,.2f}")
print(f"Percentual do custo total: {(campanhas_baixa_conversao['custo'].sum() / total_custo * 100):.2f}%")

# 7.3 Análise de perfis com maior ROI
print("=== PERFIS COM MAIOR ROI ===")

# Top 10 campanhas com maior ROI
top_roi = df_campanha.nlargest(10, "roi")[["idade", "sexo", "interesses", "roi", "custo", "vendas"]]
print("Top 10 campanhas com maior ROI:")
print(top_roi.round(2))

# Análise por combinação de variáveis
if "idade" in df_campanha.columns and "sexo" in df_campanha.columns:
    print("\nROI por combinação de Idade e Sexo:")
    roi_idade_sexo = df_campanha.groupby(["idade", "sexo"])["roi"].agg(["mean", "count"]).round(2)
    roi_idade_sexo.columns = ["ROI Médio (%)", "Quantidade de Campanhas"]
    print(roi_idade_sexo.sort_values("ROI Médio (%)", ascending=False))

if "interesses" in df_campanha.columns:
    print("\nROI por Interesses:")
    roi_interesses = df_campanha.groupby("interesses")["roi"].agg(["mean", "count"]).round(2)
    roi_interesses.columns = ["ROI Médio (%)", "Quantidade de Campanhas"]
    print(roi_interesses.sort_values("ROI Médio (%)", ascending=False))

# Análise para alocação da verba
print("=== RECOMENDAÇÕES PARA ALOCAÇÃO DA VERBA ===")

VERBA_TOTAL = 20000

# Identificando os melhores perfis baseado no ROI
melhores_perfis = df_campanha.groupby(["idade", "sexo", "interesses"]).agg({
    "roi": "mean",
    "custo": "mean",
    "vendas": "mean",
    "ctr": "mean",
    "tc": "mean"
}).round(2)

melhores_perfis = melhores_perfis.sort_values("roi", ascending=False)
print("Melhores perfis baseado no ROI:")
print(melhores_perfis.head(10))

# Sugestão de alocação baseada no ROI
print(f"\n=== SUGESTÃO DE ALOCAÇÃO DA VERBA DE R$ {VERBA_TOTAL:,.2f} ===")

# Alocando mais verba para perfis com maior ROI
top_perfis = melhores_perfis.head(5)
total_roi_top = top_perfis["roi"].sum()

for i, (perfil, dados) in enumerate(top_perfis.iterrows()):
    # Alocação proporcional ao ROI
    alocacao = (dados["roi"] / total_roi_top) * VERBA_TOTAL
    print(f"\nPerfil {i+1}: {perfil}")
    print(f"  ROI médio: {dados['roi']:.2f}%")
    print(f"  Alocação sugerida: R$ {alocacao:,.2f}")
    print(f"  Vendas esperadas: {alocacao / dados['custo'] * dados['vendas']:.0f}")
    print(f"  Lucro esperado: R$ {alocacao / dados['custo'] * dados['vendas'] * VALOR_VENDA - alocacao:,.2f}")

print("\n=== ANÁLISE CONCLUÍDA ===")
print("Principais descobertas e recomendações foram apresentadas acima.")
print("Considere implementar as sugestões de alocação da verba para maximizar o ROI.")
