# Data Understanding
Objetivo do Notebook: fornecer uma visão geral das bases de dados disponíveis, identificar ou criar variáveis úteis, entender a granularidade dos dados, possíveis junções e realizar uma limpeza inicial que não dependa de aprofundamento na base.
Refinamento dos datasets de entrada em `data/01_raw` para os datasets em `data/02_primary`.

Toda a exploração dos dados como **frequências de variáveis**, **correlações** e **visualizações gráficas** será feita a partir dos datasets em `data/02_primary` no notebook `data_exploration.ipynb`.

### Kedro

In [1]:
from typing import TYPE_CHECKING

if TYPE_CHECKING:
    from kedro.io import DataCatalog
    catalog: DataCatalog

In [2]:
%load_ext kedro.ipython

### Importações de Bibliotecas

In [3]:

# Importando as bibliotecas necessárias
import warnings

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np

In [4]:

# Configurações
warnings.filterwarnings("ignore")
plt.style.use("seaborn-v0_8")
sns.set_palette("husl")
plt.rcParams["figure.figsize"] = (12, 8)
plt.rcParams["font.size"] = 12

# Configurando para exibir todas as colunas
pd.set_option("display.max_columns", None)
pd.set_option("display.width", None)


## Visão inicial das bases disponíveis

Temos 4 abas na planilha disponibilizada e faremos a compreensão de cada aba individualmente. 

Nomeei as bases de acordo com o que inicialmente aparentam conter de informações, sendo elas: Metadados, Campanha, Categorias e Categoria Detalhada.

#### Metadados

In [5]:
df_campanha_metadados = catalog.load("metadados")
df_campanha_metadados

Unnamed: 0,Variável,Descrição
0,id_do_anuncio,Identificação única do anúncio mostrado na tim...
1,campanha,Campanha realizada. Uma campanha é uma combina...
2,faixa_etária,Faixa de idade do lead em que o anúncio foi mo...
3,sexo,Sexo do lead em que o anúncio foi mostrado.
4,categoria_de_interesse,Identificação da categoria de interesse do lea...
5,qte_de_impressões,Quantidade de visualizações que este anúncio o...
6,qte_de_clicks,Quantidade de cliques que este anúncio obteve.
7,valor_investido_no_anúncio,Uma das formas de custo do Facebook Ads é o cu...
8,qte_de_Vendas_após_Clique,Quantidade de vendas de cursos obtidos após o ...


In [6]:
# Aumentar o limite de largura da coluna para melhor visualização
pd.set_option("display.max_colwidth", None)
df_campanha_metadados

Unnamed: 0,Variável,Descrição
0,id_do_anuncio,Identificação única do anúncio mostrado na timeline do Facebook.
1,campanha,Campanha realizada. Uma campanha é uma combinação de públicos alvo para se mostrar os anúncios.
2,faixa_etária,Faixa de idade do lead em que o anúncio foi mostrado.
3,sexo,Sexo do lead em que o anúncio foi mostrado.
4,categoria_de_interesse,Identificação da categoria de interesse do lead em que o anúncio foi mostrado.
5,qte_de_impressões,Quantidade de visualizações que este anúncio obteve.
6,qte_de_clicks,Quantidade de cliques que este anúncio obteve.
7,valor_investido_no_anúncio,Uma das formas de custo do Facebook Ads é o custo por clique. Esta variável mede o valor que o Facebook cobrou pela quantidade de cliques recebidos.
8,qte_de_Vendas_após_Clique,Quantidade de vendas de cursos obtidos após o clique no anúncio.


**Metadados** então tem apenas um detalhamento do significado das colunas disponíveis na aba com os dados de campanha.

Um ponto importante aqui é a coluna de valor_investido_no_anúncio que a descrição informa que o custo é por cliques e não pode visualizações.

In [7]:
# Voltando a visualização padrão
pd.set_option("display.max_colwidth", 50)

#### Campanha

In [8]:
df_campanha = catalog.load("campanhas")
df_campanha.head()

Unnamed: 0,id_do_anuncio,campanha,faixa_etária,sexo,categoria_de_interesse,qte_de_impressões,qte_de_clicks,valor_investido_no_anúncio,Qte_de_Vendas_após_Clique
0,708746,Campanha A,30-34,M,15,7350,1,1.43,3
1,708749,Campanha A,30-34,M,16,17861,2,1.82,2
2,708771,Campanha A,30-34,M,20,693,0,0.0,0
3,708815,Campanha A,30-34,M,28,4259,1,1.25,1
4,708818,Campanha A,30-34,M,28,4133,1,1.29,2


In [9]:
df_campanha = df_campanha.rename(columns={
    "qte_de_impressões": "impressoes",
    "qte_de_clicks": "cliques",
    "sexo": "genero",
    "valor_investido_no_anúncio": "custo",
    "Qte_de_Vendas_após_Clique": "vendas"
})

In [10]:
from unidecode import unidecode

df_campanha.columns = [unidecode(col) for col in df_campanha.columns]

In [11]:
df_campanha.head()

Unnamed: 0,id_do_anuncio,campanha,faixa_etaria,genero,categoria_de_interesse,impressoes,cliques,custo,vendas
0,708746,Campanha A,30-34,M,15,7350,1,1.43,3
1,708749,Campanha A,30-34,M,16,17861,2,1.82,2
2,708771,Campanha A,30-34,M,20,693,0,0.0,0
3,708815,Campanha A,30-34,M,28,4259,1,1.25,1
4,708818,Campanha A,30-34,M,28,4133,1,1.29,2


Como o foco aqui é apenas entender o que há nas bases, não vou me aprofundar muito mais. Apenas ajustamos alguns nomes de colunas e tiramos acentos pra ficarem de mais fácil acesso.

#### Categorias

In [12]:
df_categorias = catalog.load("categorias")
df_categorias.head()

Unnamed: 0,categoria_de_interesse,descrição_da_categoria
0,2,Business and Industry
1,7,
2,10,
3,15,
4,16,Entertainment


Estranho esses valores nulos..

In [13]:
df_categorias.columns = [unidecode(col) for col in df_categorias.columns]
df_categorias

Unnamed: 0,categoria_de_interesse,descricao_da_categoria
0,2,Business and Industry
1,7,
2,10,
3,15,
4,16,Entertainment
5,18,
6,19,
7,20,
8,21,Family and relationships
9,22,


Provável que estivessem usando celulas mescladas no excel, tendo texto apenas na primeira linha da mescla. Um ffill resolve isso.

#### Categoria Detalhada

In [14]:
df_categoria_detalhada = catalog.load("categoria_detalhada")
df_categoria_detalhada.head(20)

Unnamed: 0,categoria_detalhada
0,Business and Industry
1,
2,Advertising Agriculture Architecture Aviation ...
3,
4,Investment banking Online banking Retail banking
5,
6,Business Construction Design
7,
8,Fashion design Graphic design Interior design
9,


- *Comportamento estranho das categorias*

A base de **Categoria** parece ser mais abrangente e a **Planilha 8** mais detalhada, por isso nomeei como **Categoria Detalhada**. Porém ambas tem diversos registros nulos e nas categoria detalhada não há uma referência de número da categoria. (os números exibidos na esquerda da exibição anterior são apenas o index gerado automaticamente pelo pandas).

Olhando pela planilha, na aba que chamamos de **Categoria** parece que Business and Industry se aplicaria às próximas 3 linhas também, que poderia ser usado um ffill pra preencher, mas assim teriamos diversos números de categorias de interesse com descrição de categoria repetida. Enquanto se olharmos a planilha 8, dá pra ver que dentro de business industry aparentam ter 17 outras quebras, ou um tree map, onde as linhas sequenciadas representam subcategorias, mas que não se encaixaria nas 3 descrições nulas da aba de categorias.

### Como cruzar os códigos de categorias com suas descrições?

In [15]:
df_campanha["categoria_de_interesse"] = df_campanha["categoria_de_interesse"].astype("category")
df_campanha[["categoria_de_interesse"]].describe()

Unnamed: 0,categoria_de_interesse
count,1143
unique,40
top,16
freq,140


In [16]:
df_categoria_detalhada.describe()

Unnamed: 0,categoria_detalhada
count,148
unique,148
top,Business and Industry
freq,1


In [17]:
df_categorias["descricao_da_categoria"].describe()


count                          [1;36m9[0m
unique                         [1;36m9[0m
top       Business and Industry 
freq                           [1;36m1[0m
Name: descricao_da_categoria, dtype: object

In [18]:
df_categorias["descricao_da_categoria"].ffill().describe()


count              [1;36m40[0m
unique              [1;36m9[0m
top       Technology 
freq                [1;36m8[0m
Name: descricao_da_categoria, dtype: object

Dentre as categoiras presentes na base **Campanha**, são 40 valores únicos. Nas **Categorias Detalhadas** existem 148 descrições e em **Categorias** são 9.

Porém realizando o preenchimento de ffill, como eu havia mencionado anteriormente, ficamos com 40 códigos de categorias, igual ao número presente nas campanhas. Por mais que não serão descrições únicas.

- Por isso, usarei a base **Categorias** aplicando ffill para juntar a descrição das categorias à base de detalhes das campanhas.

In [19]:
df_categorias["descricao_da_categoria"] = df_categorias["descricao_da_categoria"].ffill()
df_categorias

Unnamed: 0,categoria_de_interesse,descricao_da_categoria
0,2,Business and Industry
1,7,Business and Industry
2,10,Business and Industry
3,15,Business and Industry
4,16,Entertainment
5,18,Entertainment
6,19,Entertainment
7,20,Entertainment
8,21,Family and relationships
9,22,Family and relationships


In [20]:
df_campanha_merged = (
    df_campanha.merge(
        df_categorias,
        how="left",
        on="categoria_de_interesse"
    )
)

In [21]:
df_campanha_merged.head()

Unnamed: 0,id_do_anuncio,campanha,faixa_etaria,genero,categoria_de_interesse,impressoes,cliques,custo,vendas,descricao_da_categoria
0,708746,Campanha A,30-34,M,15,7350,1,1.43,3,Business and Industry
1,708749,Campanha A,30-34,M,16,17861,2,1.82,2,Entertainment
2,708771,Campanha A,30-34,M,20,693,0,0.0,0,Entertainment
3,708815,Campanha A,30-34,M,28,4259,1,1.25,1,Fitness and wellness
4,708818,Campanha A,30-34,M,28,4133,1,1.29,2,Fitness and wellness


Com isso, todos os dados que temos disponíveis estão disponíveis na base **df_campanha_merged**, vamos fazer uma análise superficial de como esta base está.

## df_campanha_merged

### Análise Descritiva Superficial

In [22]:
df_campanha_merged.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1143 entries, 0 to 1142
Data columns (total 10 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   id_do_anuncio           1143 non-null   int64  
 1   campanha                1143 non-null   object 
 2   faixa_etaria            1143 non-null   object 
 3   genero                  1143 non-null   object 
 4   categoria_de_interesse  1143 non-null   int64  
 5   impressoes              1143 non-null   int64  
 6   cliques                 1143 non-null   int64  
 7   custo                   1143 non-null   float64
 8   vendas                  1143 non-null   int64  
 9   descricao_da_categoria  1143 non-null   object 
dtypes: float64(1), int64(5), object(4)
memory usage: 89.4+ KB


In [23]:
df_campanha_merged = df_campanha_merged.astype({
    "campanha": "category",
    "faixa_etaria": "category",
    "genero": "category",
    "categoria_de_interesse": "category",
    "descricao_da_categoria": "category"
})
df_campanha_merged.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1143 entries, 0 to 1142
Data columns (total 10 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   id_do_anuncio           1143 non-null   int64   
 1   campanha                1143 non-null   category
 2   faixa_etaria            1143 non-null   category
 3   genero                  1143 non-null   category
 4   categoria_de_interesse  1143 non-null   category
 5   impressoes              1143 non-null   int64   
 6   cliques                 1143 non-null   int64   
 7   custo                   1143 non-null   float64 
 8   vendas                  1143 non-null   int64   
 9   descricao_da_categoria  1143 non-null   category
dtypes: category(5), float64(1), int64(4)
memory usage: 52.5 KB


In [24]:
# Visualização personalizada de pacote pessoa
from utils import value_counts, full_describe

In [25]:
full_describe(df_campanha_merged)

### DESCRIÇÃO COMPLETA

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1143 entries, 0 to 1142
Data columns (total 10 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   id_do_anuncio           1143 non-null   int64   
 1   campanha                1143 non-null   category
 2   faixa_etaria            1143 non-null   category
 3   genero                  1143 non-null   category
 4   categoria_de_interesse  1143 non-null   category
 5   impressoes              1143 non-null   int64   
 6   cliques                 1143 non-null   int64   
 7   custo                   1143 non-null   float64 
 8   vendas                  1143 non-null   int64   
 9   descricao_da_categoria  1143 non-null   category
dtypes: category(5), float64(1), int64(4)
memory usage: 52.5 KB


Unnamed: 0,count,unique,top,freq
campanha,1143,3,Campanha C,625
faixa_etaria,1143,4,30-34,426
genero,1143,2,M,592
categoria_de_interesse,1143,40,16,140
descricao_da_categoria,1143,9,Entertainment,264


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,cv
id_do_anuncio,1143.0,987261.130359,193992.814738,708746.0,777632.5,1121185.0,1121804.5,1314415.0,0.196496
impressoes,1143.0,186732.132983,312762.183208,87.0,6503.5,51509.0,221769.0,3052003.0,1.674924
cliques,1143.0,33.390201,56.892438,0.0,1.0,8.0,37.5,421.0,1.703866
custo,1143.0,51.360656,86.908418,0.0,1.48,12.37,60.025,639.949998,1.69212
vendas,1143.0,5.956255,7.728301,0.0,1.0,2.0,10.0,86.0,1.29751


Unnamed: 0,id_do_anuncio,campanha,faixa_etaria,genero,categoria_de_interesse,impressoes,cliques,custo,vendas,descricao_da_categoria
0,708746,Campanha A,30-34,M,15,7350,1,1.43,3,Business and Industry
1,708749,Campanha A,30-34,M,16,17861,2,1.82,2,Entertainment
2,708771,Campanha A,30-34,M,20,693,0,0.0,0,Entertainment
3,708815,Campanha A,30-34,M,28,4259,1,1.25,1,Fitness and wellness
4,708818,Campanha A,30-34,M,28,4133,1,1.29,2,Fitness and wellness


- **Nulos**: Nada nulo.
- **Cardinalidade**: 3 campanhas, 4 faixas etárias, 40 categorias de interesse

Custo e Impressões tem um alto Coeficiente de Variação (Desvio padrão / Média), indicando alta dispersão dos valores.

Pela visualização inicial dá pra perceber que os índices 3 e 4 são o mesmo perfil e mesma campanha mas em um id de anúncio diferente. Vou considerar que estes anúncios tiveram criativos diferentes exibidos e por isso tiveram ids diferentes pro mesmo perfil na mesma campanha.
Porém nossa base não tem informações sobre o designe dos criativos pra que possamos avaliar qual seria o melhor criativo ou encorpar mais nossa análise. Provável que sigamos com a remoção dessa coluna.



In [26]:
value_counts(df_campanha_merged)

### VALORES ÚNICOS
__apenas top 10 valores__

Unnamed: 0,qtd,percentual
Campanha C,625,54.68
Campanha B,464,40.59
Campanha A,54,4.72


Unnamed: 0,qtd,percentual
30-34,426,37.27
45-49,259,22.66
35-39,248,21.7
40-44,210,18.37


Unnamed: 0,qtd,percentual
M,592,51.79
F,551,48.21


Unnamed: 0,qtd,percentual
16,140,12.25
10,85,7.44
29,77,6.74
27,60,5.25
15,51,4.46
28,51,4.46
20,49,4.29
64,48,4.2
63,46,4.02
18,43,3.76


Unnamed: 0,qtd,percentual
Entertainment,264,23.1
Business and Industry,185,16.19
Fitness and wellness,178,15.57
Food and drink,160,14.0
Hobbies and activities,134,11.72
Family and relationships,116,10.15
Technology,53,4.64
Shopping and fashion,31,2.71
Sports and outdoors,22,1.92


### Desempenho de diferentes anuncios do mesmo perfil.

Como queremos identificar os melhores perfis pra uma **nova campanha**, acredito que seja melhor remover a coluna __campanha__ e __id_do_anuncio__ pra agrupar tudo por perfil (faixa_etária, gênero e descrição_da_categoria).

Mas antes, quero validar se o desempenho dos perfis são parecidos em diferentes campanhas.

In [27]:
df_campanha_merged["perfil"] = (
    df_campanha_merged["faixa_etaria"].astype(str) + " | " +
    df_campanha_merged["genero"].astype(str) + " | " +
    df_campanha_merged["categoria_de_interesse"].astype(str)
).astype("category")

Pra avaliar os perfis, vou criar alguns KPIs comumente usados em marketing

In [28]:
# Valor de venda do curso definido na apresentação do problema (disponível no Readme).
VALOR_VENDA = 85.00

# Calculando os KPIs
df_campanha_merged["faturamento"] = df_campanha_merged["vendas"] * VALOR_VENDA   # Receita total gerada pelas vendas
df_campanha_merged["lucro"] = df_campanha_merged["faturamento"] - df_campanha_merged["custo"]   # Lucro líquido = receita - custo do anúncio
df_campanha_merged["ctr"] = (df_campanha_merged["cliques"] / df_campanha_merged["impressoes"])   # Click Through Rate (%) = % de impressões que geraram clique
df_campanha_merged["tc"] = (df_campanha_merged["vendas"] / df_campanha_merged["cliques"]) # Taxa de conversão (%) = % de cliques que geraram venda
df_campanha_merged["cpc"] = df_campanha_merged["custo"] / df_campanha_merged["cliques"]   # Custo por clique médio
df_campanha_merged["cc"] = df_campanha_merged["custo"] / df_campanha_merged["vendas"]   # Custo por conversão (venda)
df_campanha_merged["roi"] = (df_campanha_merged["faturamento"] - df_campanha_merged["custo"]) / df_campanha_merged["custo"]   # Retorno sobre investimento (%) = lucro / custo * 100
df_campanha_merged["conv_i"] = df_campanha_merged["vendas"] / df_campanha_merged["impressoes"]  # Taxa de conversão por impressão

In [29]:
df_campanha_merged.sort_values(by="perfil").head(20)

Unnamed: 0,id_do_anuncio,campanha,faixa_etaria,genero,categoria_de_interesse,impressoes,cliques,custo,vendas,descricao_da_categoria,perfil,faturamento,lucro,ctr,tc,cpc,cc,roi,conv_i
468,951033,Campanha B,30-34,F,10,5517,1,1.23,1,Business and Industry,30-34 | F | 10,85.0,83.77,0.000181,1.0,1.23,1.23,68.10569,0.000181
825,1121742,Campanha C,30-34,F,10,213016,30,44.22,13,Business and Industry,30-34 | F | 10,1105.0,1060.78,0.000141,0.433333,1.474,3.401538,23.988693,6.1e-05
173,747791,Campanha B,30-34,F,10,31393,8,10.960001,2,Business and Industry,30-34 | F | 10,170.0,159.039999,0.000255,0.25,1.37,5.48,14.510948,6.4e-05
469,951035,Campanha B,30-34,F,10,1539,0,0.0,0,Business and Industry,30-34 | F | 10,0.0,0.0,0.0,,,,,0.0
234,776579,Campanha B,30-34,F,10,26910,5,7.23,1,Business and Industry,30-34 | F | 10,85.0,77.77,0.000186,0.2,1.446,7.23,10.75657,3.7e-05
77,734785,Campanha B,30-34,F,10,5576,1,1.53,2,Business and Industry,30-34 | F | 10,170.0,168.47,0.000179,2.0,1.53,0.765,110.111113,0.000359
172,747790,Campanha B,30-34,F,10,2077,0,0.0,0,Business and Industry,30-34 | F | 10,0.0,0.0,0.0,,,,,0.0
824,1121741,Campanha C,30-34,F,10,318042,46,64.41,9,Business and Industry,30-34 | F | 10,765.0,700.59,0.000145,0.195652,1.400217,7.156667,10.877038,2.8e-05
1091,1314357,Campanha C,30-34,F,101,524306,81,113.680003,15,Shopping and fashion,30-34 | F | 101,1275.0,1161.319997,0.000154,0.185185,1.403457,7.578667,10.215693,2.9e-05
1092,1314358,Campanha C,30-34,F,102,104496,9,11.43,7,Shopping and fashion,30-34 | F | 102,595.0,583.57,8.6e-05,0.777778,1.27,1.632857,51.055994,6.7e-05


Podemos identificar acima que os desempenhos de cada design num mesmo perfil tiveram diferenças relevantes. Como não temos uma base relacionando quais designs foram usados em quais id_de_anuncios ou qualquer que seja a diferença entre os anúncios da mesma campanha e perfil, não temos como inferir muita coisa.

**Portanto, seguiremos com apenas as informações de perfil e o desempenho de cada um deles.**

In [30]:
df_perfil = (
    df_campanha_merged
        [["perfil",
          "faixa_etaria",
          "genero",
          "categoria_de_interesse",
          "descricao_da_categoria",
          "impressoes",
          "cliques",
          "custo",
          "vendas"]]
    .groupby(
        ["faixa_etaria",
         "genero",
         "categoria_de_interesse",
         "descricao_da_categoria",
         "perfil"],
         observed=True
    )
    .agg("sum")
    .reset_index()
)

KPI's recriados com novos dados agrupados por perfil.

In [31]:
df_perfil["faturamento"] = df_perfil["vendas"] * VALOR_VENDA   # Receita total gerada pelas vendas
df_perfil["lucro"] = df_perfil["faturamento"] - df_perfil["custo"]   # Lucro líquido = receita - custo do anúncio
df_perfil["ctr"] = (df_perfil["cliques"] / df_perfil["impressoes"])   # Click Through Rate (%) = % de impressões que geraram clique
df_perfil["tc"] = (df_perfil["vendas"] / df_perfil["cliques"]) # Taxa de conversão (%) = % de cliques que geraram venda
df_perfil["cpc"] = df_perfil["custo"] / df_perfil["cliques"]   # Custo por clique médio
df_perfil["cc"] = df_perfil["custo"] / df_perfil["vendas"]   # Custo por conversão (venda)
df_perfil["roi"] = (df_perfil["faturamento"] - df_perfil["custo"]) / df_perfil["custo"]   # Retorno sobre investimento (%) = lucro / custo * 100
df_perfil["conversao"] = df_perfil["vendas"] / df_perfil["impressoes"]  # Taxa de conversão por impressão

## df_perfil

### Análise Descritiva Superficial

In [32]:
full_describe(df_perfil)

### DESCRIÇÃO COMPLETA

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 284 entries, 0 to 283
Data columns (total 17 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   faixa_etaria            284 non-null    category
 1   genero                  284 non-null    category
 2   categoria_de_interesse  284 non-null    category
 3   descricao_da_categoria  284 non-null    category
 4   perfil                  284 non-null    category
 5   impressoes              284 non-null    int64   
 6   cliques                 284 non-null    int64   
 7   custo                   284 non-null    float64 
 8   vendas                  284 non-null    int64   
 9   faturamento             284 non-null    float64 
 10  lucro                   284 non-null    float64 
 11  ctr                     284 non-null    float64 
 12  tc                      281 non-null    float64 
 13  cpc                     281 non-null    float64 
 14  cc                      28

Unnamed: 0,count,unique,top,freq
faixa_etaria,284,4,30-34,72
genero,284,2,F,144
categoria_de_interesse,284,40,15,8
descricao_da_categoria,284,9,Technology,53
perfil,284,284,30-34 | F | 10,1


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,cv
impressoes,284.0,751531.084507,1001406.30145,652.0,128798.25,373766.0,866792.75,6110946.0,1.332488
cliques,284.0,134.383803,187.275361,0.0,20.0,65.0,166.25,1321.0,1.393586
custo,284.0,206.708556,286.107323,0.0,30.215,103.120001,247.794998,1888.630003,1.38411
vendas,284.0,23.971831,27.153261,0.0,7.75,13.0,32.25,176.0,1.132715
faturamento,284.0,2037.605634,2308.027145,0.0,658.75,1105.0,2741.25,14960.0,1.132715
lucro,284.0,1830.897078,2136.180396,-120.899998,513.810001,990.6,2517.775001,14003.090003,1.16674
ctr,284.0,0.000173,6.5e-05,0.0,0.000132,0.000166,0.000213,0.000439,0.372746
tc,281.0,0.535443,1.099989,0.0,0.1,0.25,0.510638,11.0,2.054355
cpc,281.0,1.517036,0.155152,0.655,1.424706,1.478545,1.617447,1.99625,0.102273
cc,281.0,inf,,0.135455,2.905833,6.203247,15.208,inf,


Unnamed: 0,faixa_etaria,genero,categoria_de_interesse,descricao_da_categoria,perfil,impressoes,cliques,custo,vendas,faturamento,lucro,ctr,tc,cpc,cc,roi,conversao
0,30-34,F,2,Business and Industry,30-34 | F | 2,252951,45,67.2,11,935.0,867.8,0.000178,0.244444,1.493333,6.109091,12.91369,4.3e-05
1,30-34,F,7,Business and Industry,30-34 | F | 7,317046,58,84.86,12,1020.0,935.14,0.000183,0.206897,1.463103,7.071667,11.019797,3.8e-05
2,30-34,F,10,Business and Industry,30-34 | F | 10,604070,91,129.58,28,2380.0,2250.42,0.000151,0.307692,1.423956,4.627857,17.367032,4.6e-05
3,30-34,F,15,Business and Industry,30-34 | F | 15,1669161,262,391.600002,46,3910.0,3518.399998,0.000157,0.175573,1.494656,8.513044,8.984678,2.8e-05
4,30-34,F,16,Entertainment,30-34 | F | 16,2693782,355,529.709996,62,5270.0,4740.290004,0.000132,0.174648,1.492141,8.54371,8.94884,2.3e-05


Agora temos 284 perfis únicos sendo eles a combinação entre faixa etária, gênero e categoria de interesse.
Desta vez estamos avaliando também os detalhes das métricas de KPI's que geramos.

Temos que nos atentar aos valores infinitos gerados em cc por conta da divisão por zero. Vamos substituir por nulo

In [35]:
df_perfil["cc"] = df_perfil["cc"].replace([np.inf, -np.inf], np.nan)

Vou rodar o full_describe de novo só pra visualizar métricas do KPI cc que antes estavam comprometidos por conta dos valores infinitos 

In [36]:
full_describe(df_perfil[["cc"]])

### DESCRIÇÃO COMPLETA

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 284 entries, 0 to 283
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   cc      274 non-null    float64
dtypes: float64(1)
memory usage: 2.3 KB


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,cv
cc,274.0,10.98516,12.861269,0.135455,2.903248,6.133295,14.008686,86.940002,1.170786


Unnamed: 0,cc
0,6.109091
1,7.071667
2,4.627857
3,8.513044
4,8.54371


In [37]:
value_counts(df_perfil.drop(columns=["perfil"]))

### VALORES ÚNICOS
__apenas top 10 valores__

Unnamed: 0,qtd,percentual
30-34,72,25.35
40-44,72,25.35
35-39,71,25.0
45-49,69,24.3


Unnamed: 0,qtd,percentual
F,144,50.7
M,140,49.3


Unnamed: 0,qtd,percentual
15,8,2.82
10,8,2.82
19,8,2.82
16,8,2.82
20,8,2.82
23,8,2.82
22,8,2.82
21,8,2.82
64,8,2.82
63,8,2.82


Unnamed: 0,qtd,percentual
Technology,53,18.66
Fitness and wellness,31,10.92
Entertainment,31,10.92
Family and relationships,31,10.92
Business and Industry,30,10.56
Food and drink,30,10.56
Hobbies and activities,30,10.56
Shopping and fashion,26,9.15
Sports and outdoors,22,7.75


Nenhuma das categorias tem desbalanços problemáticos, apenas a descrição de categoria Technology que é aplicada á mais categorias de interesse, mas sem problemas.

In [37]:
df_perfil.head()

Unnamed: 0,faixa_etaria,genero,categoria_de_interesse,descricao_da_categoria,perfil,impressoes,cliques,custo,vendas,faturamento,lucro,ctr,tc,cpc,cc,roi,conversao
0,30-34,F,2,Business and Industry,30-34 | F | 2,252951,45,67.2,11,935.0,867.8,0.000178,0.244444,1.493333,6.109091,12.91369,4.3e-05
1,30-34,F,7,Business and Industry,30-34 | F | 7,317046,58,84.86,12,1020.0,935.14,0.000183,0.206897,1.463103,7.071667,11.019797,3.8e-05
2,30-34,F,10,Business and Industry,30-34 | F | 10,604070,91,129.58,28,2380.0,2250.42,0.000151,0.307692,1.423956,4.627857,17.367032,4.6e-05
3,30-34,F,15,Business and Industry,30-34 | F | 15,1669161,262,391.600002,46,3910.0,3518.399998,0.000157,0.175573,1.494656,8.513044,8.984678,2.8e-05
4,30-34,F,16,Entertainment,30-34 | F | 16,2693782,355,529.709996,62,5270.0,4740.290004,0.000132,0.174648,1.492141,8.54371,8.94884,2.3e-05


**df_perfis** será a base que usaremos na próxima etapa de análise exploratória mais detalhada. Com isso salvaremos ela em `data/02_primary`

# Resumo final

Etapas seguidas neste documento:

- Compreensão de bases disponíveis
- Decisão de como juntá-las
- Remoção de variáveis para redefinição de granularidade, deixando a granularidade por perfil
  - um perfil foi definido como a junção de Faixa etária, Gênero e categoria de Interesse
- Criação de variáveis de KPI's comuns em marketing digital