# Data Understanding
Objetivo do Notebook: fornecer uma visão geral das bases de dados disponíveis, identificar variáveis úteis ou criar novas, entender a granularidade dos dados, possíveis junções e realizar uma limpeza inicial.  
Refinamento dos datasets de entrada em `data/01_raw` para os datasets em `data/02_primary`.

Toda a exploração dos dados — como frequências de variáveis, correlações e visualizações gráficas — será feita a partir dos datasets em `data/02_primary` no notebook `data_exploration.ipynb`.

### Kedro

In [1]:
from typing import TYPE_CHECKING

if TYPE_CHECKING:
    from kedro.io import DataCatalog
    catalog: DataCatalog

In [2]:
%load_ext kedro.ipython

### Importações de Bibliotecas

In [3]:

# Importando as bibliotecas necessárias
import warnings

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns


In [4]:

# Configurações
warnings.filterwarnings("ignore")
plt.style.use("seaborn-v0_8")
sns.set_palette("husl")
plt.rcParams["figure.figsize"] = (12, 8)
plt.rcParams["font.size"] = 12

# Configurando para exibir todas as colunas
pd.set_option("display.max_columns", None)
pd.set_option("display.width", None)


## Visão inicial das bases disponíveis

#### Metadados

In [5]:
df_campanha_metadados = catalog.load("metadados")
df_campanha_metadados

Unnamed: 0,Variável,Descrição
0,id_do_anuncio,Identificação única do anúncio mostrado na tim...
1,campanha,Campanha realizada. Uma campanha é uma combina...
2,faixa_etária,Faixa de idade do lead em que o anúncio foi mo...
3,sexo,Sexo do lead em que o anúncio foi mostrado.
4,categoria_de_interesse,Identificação da categoria de interesse do lea...
5,qte_de_impressões,Quantidade de visualizações que este anúncio o...
6,qte_de_clicks,Quantidade de cliques que este anúncio obteve.
7,valor_investido_no_anúncio,Uma das formas de custo do Facebook Ads é o cu...
8,qte_de_Vendas_após_Clique,Quantidade de vendas de cursos obtidos após o ...


In [6]:
# Aumentar o limite de largura da coluna para melhor visualização
pd.set_option("display.max_colwidth", None)
df_campanha_metadados

Unnamed: 0,Variável,Descrição
0,id_do_anuncio,Identificação única do anúncio mostrado na timeline do Facebook.
1,campanha,Campanha realizada. Uma campanha é uma combinação de públicos alvo para se mostrar os anúncios.
2,faixa_etária,Faixa de idade do lead em que o anúncio foi mostrado.
3,sexo,Sexo do lead em que o anúncio foi mostrado.
4,categoria_de_interesse,Identificação da categoria de interesse do lead em que o anúncio foi mostrado.
5,qte_de_impressões,Quantidade de visualizações que este anúncio obteve.
6,qte_de_clicks,Quantidade de cliques que este anúncio obteve.
7,valor_investido_no_anúncio,Uma das formas de custo do Facebook Ads é o custo por clique. Esta variável mede o valor que o Facebook cobrou pela quantidade de cliques recebidos.
8,qte_de_Vendas_após_Clique,Quantidade de vendas de cursos obtidos após o clique no anúncio.


In [7]:
# Voltando a visualização padrão
pd.set_option("display.max_colwidth", 50)

#### Campanha

In [8]:
df_campanha = catalog.load("campanhas")
df_campanha.head()

Unnamed: 0,id_do_anuncio,campanha,faixa_etária,sexo,categoria_de_interesse,qte_de_impressões,qte_de_clicks,valor_investido_no_anúncio,Qte_de_Vendas_após_Clique
0,708746,Campanha A,30-34,M,15,7350,1,1.43,3
1,708749,Campanha A,30-34,M,16,17861,2,1.82,2
2,708771,Campanha A,30-34,M,20,693,0,0.0,0
3,708815,Campanha A,30-34,M,28,4259,1,1.25,1
4,708818,Campanha A,30-34,M,28,4133,1,1.29,2


In [None]:
df_campanha = df_campanha.rename(columns={
    "qte_de_impressões": "impressoes",
    "qte_de_clicks": "cliques",
    "sexo": "genero",
    "valor_investido_no_anúncio": "custo",
    "Qte_de_Vendas_após_Clique": "vendas"
})

In [10]:
from unidecode import unidecode

df_campanha.columns = [unidecode(col) for col in df_campanha.columns]

In [11]:
df_campanha.head()

Unnamed: 0,id_do_anuncio,campanha,faixa_etaria,sexo,categoria_de_interesse,impressoes,cliques,custo,vendas
0,708746,Campanha A,30-34,M,15,7350,1,1.43,3
1,708749,Campanha A,30-34,M,16,17861,2,1.82,2
2,708771,Campanha A,30-34,M,20,693,0,0.0,0
3,708815,Campanha A,30-34,M,28,4259,1,1.25,1
4,708818,Campanha A,30-34,M,28,4133,1,1.29,2


#### Categorias

In [12]:
df_categorias = catalog.load("categorias")
df_categorias.head()

Unnamed: 0,categoria_de_interesse,descrição_da_categoria
0,2,Business and Industry
1,7,
2,10,
3,15,
4,16,Entertainment


In [13]:
df_categorias.columns = [unidecode(col) for col in df_categorias.columns]
df_categorias

Unnamed: 0,categoria_de_interesse,descricao_da_categoria
0,2,Business and Industry
1,7,
2,10,
3,15,
4,16,Entertainment
5,18,
6,19,
7,20,
8,21,Family and relationships
9,22,


Provável que estivessem usando celulas mescladas no excel, tendo texto apenas na primeira linha da mescla. Um ffill resolve isso.

#### Categoria Detalhada

In [14]:
df_categoria_detalhada = catalog.load("categoria_detalhada")
df_categoria_detalhada.head(20)

Unnamed: 0,categoria_detalhada
0,Business and Industry
1,
2,Advertising Agriculture Architecture Aviation ...
3,
4,Investment banking Online banking Retail banking
5,
6,Business Construction Design
7,
8,Fashion design Graphic design Interior design
9,


- *Comportamento estranho das categorias*

A base de categoria parece ser mais abrangente e a Planilha 8 mais detalhada. Porém ambas tem diversos registros nulos e em Planilha8 não há uma referência de número da categoria.

Olhando pela planilha, na aba depara_categoria parece que Business and Industry se aplicaria às próximas 3 linhas também, que poderia ser usado um ffill pra preencher, mas assim teriamos diversos números de categorias de interesse com descrição repetida.

Enquanto se olharmos a planilha 8, dá pra ver que dentro de business industry temos 17 outras quebras, ou um tree map, onde as linhas sequenciadas representam subcategorias, mas que não se encaixaria nas 3 descrições nulas da aba de categorias.

### Decisão de como cruzar as categorias com suas descrições

In [15]:
df_campanha["categoria_de_interesse"] = df_campanha["categoria_de_interesse"].astype("category")
df_campanha[["categoria_de_interesse"]].describe()

Unnamed: 0,categoria_de_interesse
count,1143
unique,40
top,16
freq,140


In [16]:
df_categoria_detalhada.describe()

Unnamed: 0,categoria_detalhada
count,148
unique,148
top,Business and Industry
freq,1


In [17]:
df_categorias["descricao_da_categoria"].describe()


count                          [1;36m9[0m
unique                         [1;36m9[0m
top       Business and Industry 
freq                           [1;36m1[0m
Name: descricao_da_categoria, dtype: object

In [18]:
df_categorias["descricao_da_categoria"].ffill().describe()


count              [1;36m40[0m
unique              [1;36m9[0m
top       Technology 
freq                [1;36m8[0m
Name: descricao_da_categoria, dtype: object

Dentre as categoiras presentes nas campanhas, são 40 valores únicos. Nas campanhas detalhadas da planilha8 existem 148 categorias e no df_cateogias são 9, porém realizando o preenchimento ffill ficariam 40 também, igual ao número presente nas campanhas, mas não seriam únicas.

Vou usar a df_categorias com ffill pra dar join com a df_campanhas

In [19]:
df_categorias["descricao_da_categoria"] = df_categorias["descricao_da_categoria"].ffill()

In [20]:
df_campanha_merged = (
    df_campanha.merge(
        df_categorias,
        how="left",
        on="categoria_de_interesse"
    )
)

## Análise Descritiva Superficial

In [34]:
# Ajustar a "categoria_de_interesse" pra categorica
df_campanha_merged["categoria_de_interesse"] = df_campanha_merged["categoria_de_interesse"].astype("category")
df_campanha_merged.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1143 entries, 0 to 1142
Data columns (total 19 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   id_do_anuncio           1143 non-null   int64   
 1   campanha                1143 non-null   object  
 2   faixa_etaria            1143 non-null   object  
 3   sexo                    1143 non-null   object  
 4   categoria_de_interesse  1143 non-null   category
 5   impressoes              1143 non-null   int64   
 6   cliques                 1143 non-null   int64   
 7   custo                   1143 non-null   float64 
 8   vendas                  1143 non-null   int64   
 9   descricao_da_categoria  1143 non-null   object  
 10  perfil                  1143 non-null   object  
 11  faturamento             1143 non-null   int64   
 12  lucro                   1143 non-null   float64 
 13  ctr                     1143 non-null   float64 
 14  tc                      

In [35]:
df_campanha_merged.head()

Unnamed: 0,id_do_anuncio,campanha,faixa_etaria,sexo,categoria_de_interesse,impressoes,cliques,custo,vendas,descricao_da_categoria,perfil,faturamento,lucro,ctr,tc,cpc,cc,roi,conv_i
0,708746,Campanha A,30-34,M,15,7350,1,1.43,3,Business and Industry,30-34 | M | 15,255,253.57,0.000136,3.0,1.43,0.476667,177.321685,0.000408
1,708749,Campanha A,30-34,M,16,17861,2,1.82,2,Entertainment,30-34 | M | 16,170,168.18,0.000112,1.0,0.91,0.91,92.406592,0.000112
2,708771,Campanha A,30-34,M,20,693,0,0.0,0,Entertainment,30-34 | M | 20,0,0.0,0.0,,,,,0.0
3,708815,Campanha A,30-34,M,28,4259,1,1.25,1,Fitness and wellness,30-34 | M | 28,85,83.75,0.000235,1.0,1.25,1.25,67.0,0.000235
4,708818,Campanha A,30-34,M,28,4133,1,1.29,2,Fitness and wellness,30-34 | M | 28,170,168.71,0.000242,2.0,1.29,0.645,130.78295,0.000484


In [36]:
def full_describe(df) -> None:
    print("Info")
    print(df.info())
    print("\ndescribe de categóricas")
    display(df.describe(include=["object", "category"]))
    print("\ndescribe de numéricas")
    display(df.describe(include="number"))
    print("\nHead")
    display(df.head())

# Verificando valores únicos nas colunas categóricas
def value_counts(df) -> None:

    print("=== VALORES ÚNICOS NAS COLUNAS CATEGÓRICAS ===")

    for coluna in df.select_dtypes(include=["object", "category"]).columns:
        vc = df[coluna].value_counts().reset_index()
        vc.columns = [coluna, "qtd"]
        vc["percentual"] = (vc["qtd"] / vc["qtd"].sum() * 100).round(2)
        display(vc)


In [37]:
full_describe(df_campanha_merged)

Info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1143 entries, 0 to 1142
Data columns (total 19 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   id_do_anuncio           1143 non-null   int64   
 1   campanha                1143 non-null   object  
 2   faixa_etaria            1143 non-null   object  
 3   sexo                    1143 non-null   object  
 4   categoria_de_interesse  1143 non-null   category
 5   impressoes              1143 non-null   int64   
 6   cliques                 1143 non-null   int64   
 7   custo                   1143 non-null   float64 
 8   vendas                  1143 non-null   int64   
 9   descricao_da_categoria  1143 non-null   object  
 10  perfil                  1143 non-null   object  
 11  faturamento             1143 non-null   int64   
 12  lucro                   1143 non-null   float64 
 13  ctr                     1143 non-null   float64 
 14  tc                 

Unnamed: 0,campanha,faixa_etaria,sexo,categoria_de_interesse,descricao_da_categoria,perfil
count,1143,1143,1143,1143,1143,1143
unique,3,4,2,40,9,284
top,Campanha C,30-34,M,16,Entertainment,30-34 | M | 16
freq,625,426,592,140,264,24



describe de numéricas


Unnamed: 0,id_do_anuncio,impressoes,cliques,custo,vendas,faturamento,lucro,ctr,tc,cpc,cc,roi,conv_i
count,1143.0,1143.0,1143.0,1143.0,1143.0,1143.0,1143.0,1143.0,936.0,936.0,936.0,936.0,1143.0
mean,987261.1,186732.1,33.390201,51.360656,5.956255,506.281715,454.921059,0.000164,0.736614,1.499347,inf,43.498702,9.5e-05
std,193992.8,312762.2,56.892438,86.908418,7.728301,656.905556,606.33877,0.000115,1.270894,0.232879,,78.371726,0.000147
min,708746.0,87.0,0.0,0.0,0.0,0.0,-332.989999,0.0,0.0,0.18,0.09,-1.0,0.0
25%,777632.5,6503.5,1.0,1.48,1.0,85.0,65.74,0.0001,0.124649,1.39,1.59,5.88163,8e-06
50%,1121185.0,51509.0,8.0,12.37,2.0,170.0,168.62,0.00016,0.333333,1.498273,4.738333,16.938799,4e-05
75%,1121804.0,221769.0,37.5,60.025,10.0,850.0,805.1,0.000234,1.0,1.644364,12.351753,52.459118,0.000114
max,1314415.0,3052003.0,421.0,639.949998,86.0,7310.0,6670.050002,0.001059,11.0,2.212,inf,943.444408,0.001389



Head


Unnamed: 0,id_do_anuncio,campanha,faixa_etaria,sexo,categoria_de_interesse,impressoes,cliques,custo,vendas,descricao_da_categoria,perfil,faturamento,lucro,ctr,tc,cpc,cc,roi,conv_i
0,708746,Campanha A,30-34,M,15,7350,1,1.43,3,Business and Industry,30-34 | M | 15,255,253.57,0.000136,3.0,1.43,0.476667,177.321685,0.000408
1,708749,Campanha A,30-34,M,16,17861,2,1.82,2,Entertainment,30-34 | M | 16,170,168.18,0.000112,1.0,0.91,0.91,92.406592,0.000112
2,708771,Campanha A,30-34,M,20,693,0,0.0,0,Entertainment,30-34 | M | 20,0,0.0,0.0,,,,,0.0
3,708815,Campanha A,30-34,M,28,4259,1,1.25,1,Fitness and wellness,30-34 | M | 28,85,83.75,0.000235,1.0,1.25,1.25,67.0,0.000235
4,708818,Campanha A,30-34,M,28,4133,1,1.29,2,Fitness and wellness,30-34 | M | 28,170,168.71,0.000242,2.0,1.29,0.645,130.78295,0.000484


In [38]:
value_counts(df_campanha_merged)

=== VALORES ÚNICOS NAS COLUNAS CATEGÓRICAS ===


Unnamed: 0,campanha,qtd,percentual
0,Campanha C,625,54.68
1,Campanha B,464,40.59
2,Campanha A,54,4.72


Unnamed: 0,faixa_etaria,qtd,percentual
0,30-34,426,37.27
1,45-49,259,22.66
2,35-39,248,21.7
3,40-44,210,18.37


Unnamed: 0,sexo,qtd,percentual
0,M,592,51.79
1,F,551,48.21


Unnamed: 0,categoria_de_interesse,qtd,percentual
0,16,140,12.25
1,10,85,7.44
2,29,77,6.74
3,27,60,5.25
4,15,51,4.46
5,28,51,4.46
6,20,49,4.29
7,64,48,4.2
8,63,46,4.02
9,18,43,3.76


Unnamed: 0,descricao_da_categoria,qtd,percentual
0,Entertainment,264,23.1
1,Business and Industry,185,16.19
2,Fitness and wellness,178,15.57
3,Food and drink,160,14.0
4,Hobbies and activities,134,11.72
5,Family and relationships,116,10.15
6,Technology,53,4.64
7,Shopping and fashion,31,2.71
8,Sports and outdoors,22,1.92


Unnamed: 0,perfil,qtd,percentual
0,30-34 | M | 16,24,2.10
1,30-34 | F | 16,23,2.01
2,45-49 | F | 16,20,1.75
3,30-34 | M | 10,17,1.49
4,35-39 | M | 16,17,1.49
...,...,...,...
279,45-49 | F | 109,1,0.09
280,45-49 | F | 110,1,0.09
281,45-49 | F | 111,1,0.09
282,45-49 | F | 113,1,0.09


Como queremos identificar os melhores perfis pra uma nova campanha, acredito que seja melhor remover a coluna de campanha e id_do_anuncio pra agrupar tudo por perfil (faixa_etária, gênero e descrição_da_categoria).

Mas antes, quero validar se o desempenho dos perfis são parecidos em diferentes campanhas.

In [None]:
df_campanha_merged["perfil"] = (
    df_campanha_merged["faixa_etaria"].astype(str) + " | " +
    df_campanha_merged["genero"].astype(str) + " | " +
    df_campanha_merged["categoria_de_interesse"].astype(str)
)

Também precisamos de métricas melhores pra fazer as comparações. Usaremos algumas métricas padrões em marketing

In [None]:
# Valor de venda do curso definido na apresentação do problema (disponível no Readme).
VALOR_VENDA = 85.00

# Calculando os KPIs
df_campanha_merged["faturamento"] = df_campanha_merged["vendas"] * VALOR_VENDA   # Receita total gerada pelas vendas
df_campanha_merged["lucro"] = df_campanha_merged["faturamento"] - df_campanha_merged["custo"]   # Lucro líquido = receita - custo do anúncio
df_campanha_merged["ctr"] = (df_campanha_merged["cliques"] / df_campanha_merged["impressoes"])   # Click Through Rate (%) = % de impressões que geraram clique
df_campanha_merged["tc"] = (df_campanha_merged["vendas"] / df_campanha_merged["cliques"]) # Taxa de conversão (%) = % de cliques que geraram venda
df_campanha_merged["cpc"] = df_campanha_merged["custo"] / df_campanha_merged["cliques"]   # Custo por clique médio
df_campanha_merged["cc"] = df_campanha_merged["custo"] / df_campanha_merged["vendas"]   # Custo por conversão (venda)
df_campanha_merged["roi"] = (df_campanha_merged["faturamento"] - df_campanha_merged["custo"]) / df_campanha_merged["custo"]   # Retorno sobre investimento (%) = lucro / custo * 100
df_campanha_merged["conv_i"] = df_campanha_merged["vendas"] / df_campanha_merged["impressoes"]  # Taxa de conversão por impressão

In [41]:
df_campanha_merged.head()

Unnamed: 0,id_do_anuncio,campanha,faixa_etaria,sexo,categoria_de_interesse,impressoes,cliques,custo,vendas,descricao_da_categoria,perfil,faturamento,lucro,ctr,tc,cpc,cc,roi,conv_i
0,708746,Campanha A,30-34,M,15,7350,1,1.43,3,Business and Industry,30-34 | M | 15,255,253.57,0.000136,3.0,1.43,0.476667,177.321685,0.000408
1,708749,Campanha A,30-34,M,16,17861,2,1.82,2,Entertainment,30-34 | M | 16,170,168.18,0.000112,1.0,0.91,0.91,92.406592,0.000112
2,708771,Campanha A,30-34,M,20,693,0,0.0,0,Entertainment,30-34 | M | 20,0,0.0,0.0,,,,,0.0
3,708815,Campanha A,30-34,M,28,4259,1,1.25,1,Fitness and wellness,30-34 | M | 28,85,83.75,0.000235,1.0,1.25,1.25,67.0,0.000235
4,708818,Campanha A,30-34,M,28,4133,1,1.29,2,Fitness and wellness,30-34 | M | 28,170,168.71,0.000242,2.0,1.29,0.645,130.78295,0.000484


In [42]:
df_campanha_merged.sort_values(by="perfil", ascending=True).head(20)

Unnamed: 0,id_do_anuncio,campanha,faixa_etaria,sexo,categoria_de_interesse,impressoes,cliques,custo,vendas,descricao_da_categoria,perfil,faturamento,lucro,ctr,tc,cpc,cc,roi,conv_i
468,951033,Campanha B,30-34,F,10,5517,1,1.23,1,Business and Industry,30-34 | F | 10,85,83.77,0.000181,1.0,1.23,1.23,68.10569,0.000181
825,1121742,Campanha C,30-34,F,10,213016,30,44.22,13,Business and Industry,30-34 | F | 10,1105,1060.78,0.000141,0.433333,1.474,3.401538,23.988693,6.1e-05
173,747791,Campanha B,30-34,F,10,31393,8,10.960001,2,Business and Industry,30-34 | F | 10,170,159.039999,0.000255,0.25,1.37,5.48,14.510948,6.4e-05
469,951035,Campanha B,30-34,F,10,1539,0,0.0,0,Business and Industry,30-34 | F | 10,0,0.0,0.0,,,,,0.0
234,776579,Campanha B,30-34,F,10,26910,5,7.23,1,Business and Industry,30-34 | F | 10,85,77.77,0.000186,0.2,1.446,7.23,10.75657,3.7e-05
77,734785,Campanha B,30-34,F,10,5576,1,1.53,2,Business and Industry,30-34 | F | 10,170,168.47,0.000179,2.0,1.53,0.765,110.111113,0.000359
172,747790,Campanha B,30-34,F,10,2077,0,0.0,0,Business and Industry,30-34 | F | 10,0,0.0,0.0,,,,,0.0
824,1121741,Campanha C,30-34,F,10,318042,46,64.41,9,Business and Industry,30-34 | F | 10,765,700.59,0.000145,0.195652,1.400217,7.156667,10.877038,2.8e-05
1091,1314357,Campanha C,30-34,F,101,524306,81,113.680003,15,Shopping and fashion,30-34 | F | 101,1275,1161.319997,0.000154,0.185185,1.403457,7.578667,10.215693,2.9e-05
1092,1314358,Campanha C,30-34,F,102,104496,9,11.43,7,Shopping and fashion,30-34 | F | 102,595,583.57,8.6e-05,0.777778,1.27,1.632857,51.055994,6.7e-05


Podemos identificar acima que existem valores diferentes pra um mesmo perfil dentro de uma mesma campanha. Isso pode acontecer por haver mais de um design usado pro mesmo perfil na mesma campanhas.
Além disso, os desempenhos de cada design tiveram diferenças relevantes. Caso tivessemos uma base que indicasse quais designes foram usados em quais id_de_anuncios, poderíamos explorar, além do perfil de usuário, qual design teve melhor desempenho.

Como não temos tais informações, agruparei o desempenho dos perfis, ignorando o id do anuncio e a campanha.

In [None]:
df_perfil = (
    df_campanha_merged.groupby(
        ["faixa_etaria",
         "genero",
         "categoria_de_interesse",
         "descricao_da_categoria",
         "perfil"],
         observed=True
    )
    .agg({
        "impressoes": "sum",
        "cliques": "sum",
        "custo": "sum",
        "vendas": "sum"}
    )
    .reset_index()
)

In [44]:
df_perfil["faturamento"] = df_perfil["vendas"] * VALOR_VENDA   # Receita total gerada pelas vendas
df_perfil["lucro"] = df_perfil["faturamento"] - df_perfil["custo"]   # Lucro líquido = receita - custo do anúncio
df_perfil["ctr"] = (df_perfil["cliques"] / df_perfil["impressoes"])   # Click Through Rate (%) = % de impressões que geraram clique
df_perfil["tc"] = (df_perfil["vendas"] / df_perfil["cliques"]) # Taxa de conversão (%) = % de cliques que geraram venda
df_perfil["cpc"] = df_perfil["custo"] / df_perfil["cliques"]   # Custo por clique médio
df_perfil["cc"] = df_perfil["custo"] / df_perfil["vendas"]   # Custo por conversão (venda)
df_perfil["roi"] = (df_perfil["faturamento"] - df_perfil["custo"]) / df_perfil["custo"]   # Retorno sobre investimento (%) = lucro / custo * 100
df_perfil["conversao"] = df_perfil["vendas"] / df_perfil["impressoes"]  # Taxa de conversão por impressão

In [45]:
full_describe(df_perfil)

Info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 284 entries, 0 to 283
Data columns (total 17 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   faixa_etaria            284 non-null    object  
 1   sexo                    284 non-null    object  
 2   categoria_de_interesse  284 non-null    category
 3   descricao_da_categoria  284 non-null    object  
 4   perfil                  284 non-null    object  
 5   impressoes              284 non-null    int64   
 6   cliques                 284 non-null    int64   
 7   custo                   284 non-null    float64 
 8   vendas                  284 non-null    int64   
 9   faturamento             284 non-null    int64   
 10  lucro                   284 non-null    float64 
 11  ctr                     284 non-null    float64 
 12  tc                      281 non-null    float64 
 13  cpc                     281 non-null    float64 
 14  cc                   

Unnamed: 0,faixa_etaria,sexo,categoria_de_interesse,descricao_da_categoria,perfil
count,284,284,284,284,284
unique,4,2,40,9,284
top,30-34,F,15,Technology,30-34 | F | 2
freq,72,144,8,53,1



describe de numéricas


Unnamed: 0,impressoes,cliques,custo,vendas,faturamento,lucro,ctr,tc,cpc,cc,roi,conversao
count,284.0,284.0,284.0,284.0,284.0,284.0,284.0,281.0,281.0,281.0,281.0,284.0
mean,751531.1,134.383803,206.708556,23.971831,2037.605634,1830.897078,0.000173,0.535443,1.517036,inf,29.544697,6.5e-05
std,1001406.0,187.275361,286.107323,27.153261,2308.027145,2136.180396,6.5e-05,1.099989,0.155152,,65.486467,8.7e-05
min,652.0,0.0,0.0,0.0,0.0,-120.899998,0.0,0.0,0.655,0.135455,-1.0,0.0
25%,128798.2,20.0,30.215,7.75,658.75,513.810001,0.000132,0.1,1.424706,2.905833,4.589164,1.9e-05
50%,373766.0,65.0,103.120001,13.0,1105.0,990.6,0.000166,0.25,1.478545,6.203247,12.702502,4e-05
75%,866792.8,166.25,247.794998,32.25,2741.25,2517.775001,0.000213,0.510638,1.617447,15.208,28.251506,7.2e-05
max,6110946.0,1321.0,1888.630003,176.0,14960.0,14003.090003,0.000439,11.0,1.99625,inf,626.516774,0.000664



Head


Unnamed: 0,faixa_etaria,sexo,categoria_de_interesse,descricao_da_categoria,perfil,impressoes,cliques,custo,vendas,faturamento,lucro,ctr,tc,cpc,cc,roi,conversao
0,30-34,F,2,Business and Industry,30-34 | F | 2,252951,45,67.2,11,935,867.8,0.000178,0.244444,1.493333,6.109091,12.91369,4.3e-05
1,30-34,F,7,Business and Industry,30-34 | F | 7,317046,58,84.86,12,1020,935.14,0.000183,0.206897,1.463103,7.071667,11.019797,3.8e-05
2,30-34,F,10,Business and Industry,30-34 | F | 10,604070,91,129.58,28,2380,2250.42,0.000151,0.307692,1.423956,4.627857,17.367032,4.6e-05
3,30-34,F,15,Business and Industry,30-34 | F | 15,1669161,262,391.600002,46,3910,3518.399998,0.000157,0.175573,1.494656,8.513044,8.984678,2.8e-05
4,30-34,F,16,Entertainment,30-34 | F | 16,2693782,355,529.709996,62,5270,4740.290004,0.000132,0.174648,1.492141,8.54371,8.94884,2.3e-05


Temos que nos atentar aos valores infinitos gerados em cc por conta da divisão por zero. Vou substituir por nulo 

In [46]:
df_perfil["cc"] = df_perfil["cc"].replace([np.inf, -np.inf], np.nan)

In [47]:
value_counts(df_perfil)

=== VALORES ÚNICOS NAS COLUNAS CATEGÓRICAS ===


Unnamed: 0,faixa_etaria,qtd,percentual
0,30-34,72,25.35
1,40-44,72,25.35
2,35-39,71,25.0
3,45-49,69,24.3


Unnamed: 0,sexo,qtd,percentual
0,F,144,50.7
1,M,140,49.3


Unnamed: 0,categoria_de_interesse,qtd,percentual
0,15,8,2.82
1,10,8,2.82
2,19,8,2.82
3,16,8,2.82
4,20,8,2.82
5,23,8,2.82
6,22,8,2.82
7,21,8,2.82
8,64,8,2.82
9,63,8,2.82


Unnamed: 0,descricao_da_categoria,qtd,percentual
0,Technology,53,18.66
1,Fitness and wellness,31,10.92
2,Entertainment,31,10.92
3,Family and relationships,31,10.92
4,Business and Industry,30,10.56
5,Food and drink,30,10.56
6,Hobbies and activities,30,10.56
7,Shopping and fashion,26,9.15
8,Sports and outdoors,22,7.75


Unnamed: 0,perfil,qtd,percentual
0,30-34 | F | 2,1,0.35
1,30-34 | F | 7,1,0.35
2,30-34 | F | 10,1,0.35
3,30-34 | F | 15,1,0.35
4,30-34 | F | 16,1,0.35
...,...,...,...
279,45-49 | M | 109,1,0.35
280,45-49 | M | 110,1,0.35
281,45-49 | M | 112,1,0.35
282,45-49 | M | 113,1,0.35


In [48]:
df_perfil.head()

Unnamed: 0,faixa_etaria,sexo,categoria_de_interesse,descricao_da_categoria,perfil,impressoes,cliques,custo,vendas,faturamento,lucro,ctr,tc,cpc,cc,roi,conversao
0,30-34,F,2,Business and Industry,30-34 | F | 2,252951,45,67.2,11,935,867.8,0.000178,0.244444,1.493333,6.109091,12.91369,4.3e-05
1,30-34,F,7,Business and Industry,30-34 | F | 7,317046,58,84.86,12,1020,935.14,0.000183,0.206897,1.463103,7.071667,11.019797,3.8e-05
2,30-34,F,10,Business and Industry,30-34 | F | 10,604070,91,129.58,28,2380,2250.42,0.000151,0.307692,1.423956,4.627857,17.367032,4.6e-05
3,30-34,F,15,Business and Industry,30-34 | F | 15,1669161,262,391.600002,46,3910,3518.399998,0.000157,0.175573,1.494656,8.513044,8.984678,2.8e-05
4,30-34,F,16,Entertainment,30-34 | F | 16,2693782,355,529.709996,62,5270,4740.290004,0.000132,0.174648,1.492141,8.54371,8.94884,2.3e-05


df_perfis será usado para análises de perfil, segmentação e definição de personas.