### Importando as bibliotecas necessárias

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')



#### Carregando o arquivo CSV em um DataFrame
#### Neste passo, carregaremos o arquivo CSV com os dados dos anúncios em um DataFrame do pandas
#### Certifique-se de ter o arquivo 'miro_dados_brutos_ultimos_30_dias.csv' no mesmo diretório deste notebook

In [2]:
dados_anuncios = pd.read_csv("miro_dados_brutos_ultimos_30_dias.csv")

In [3]:
# Exibe as primeiras 5 linhas do dataset
print("Primeiras 5 linhas do dataset:")
display(dados_anuncios.head())

Primeiras 5 linhas do dataset:


Unnamed: 0,Nome do anúncio,Alcance,Impressões,Frequência,Valor usado (BRL),Cliques (todos),CPC (todos),CTR (todos),CPM (custo por 1.000 impressões),Engajamento com a Página,...,Resultados,Custo por resultado,Classificação de qualidade,Contatos por mensagem,Novos contatos de mensagem,CTR único (todos),Custo por clique único (todos),CPC (custo por clique no link),Início dos relatórios,Término dos relatórios
0,AD 01 - VIDEO - 16/09/2024,93274,159312,1.708,301.59,140,2.154214,0.087878,1.893078,5992.0,...,93274,3.233377,Acima da média,,,0.147951,2.185435,150.795,2024-10-04,2024-11-02
1,AD 01 - VIDEO - 01/10/2024,79930,142351,1.780946,266.13,115,2.314174,0.080786,1.869534,4417.0,...,79930,3.329538,Acima da média,,,0.13762,2.419364,133.065,2024-10-04,2024-11-02
2,AD 01 - STORY - 16/10/2024,59677,74129,1.24217,119.48,35,3.413714,0.047215,1.611785,5.0,...,59677,2.002111,Na média,,,0.058649,3.413714,,2024-10-04,2024-11-02
3,AD 03 - STORY - 15/10/2024,4526,4699,1.038224,8.13,3,2.71,0.063843,1.730155,,...,4526,1.796288,Acima da média,,,0.066284,2.71,,2024-10-04,2024-11-02
4,AD 02 - VIDEO - 16/09/2024,3833,4004,1.044613,7.53,3,2.51,0.074925,1.880619,287.0,...,3833,1.964519,Na média,,,0.078268,2.51,,2024-10-04,2024-11-02


### Verificação de tipos e conversão para tipos mais apropriados

In [4]:
# Exibe tipos de dados de cada coluna
print("\nResumo das colunas e tipos de dados:")
display(dados_anuncios.dtypes)


Resumo das colunas e tipos de dados:


Nome do anúncio                      object
Alcance                               int64
Impressões                            int64
Frequência                          float64
Valor usado (BRL)                   float64
Cliques (todos)                       int64
CPC (todos)                         float64
CTR (todos)                         float64
CPM (custo por 1.000 impressões)    float64
Engajamento com a Página            float64
Conversas por mensagem iniciadas    float64
Reproduções de 25% do vídeo         float64
Reproduções de 50% do vídeo         float64
Reproduções de 75% do vídeo         float64
Reproduções de 95% do vídeo         float64
Reproduções de 100% do vídeo        float64
Orçamento da campanha                 int64
Tipo de orçamento da campanha        object
Tipo de resultado                    object
Resultados                            int64
Custo por resultado                 float64
Classificação de qualidade           object
Contatos por mensagem           

In [5]:
# Conversão de tipos de dados
dados_anuncios = dados_anuncios.convert_dtypes()  # Converte colunas para tipos apropriados automaticamente
print("\nTipos de dados após conversão:")
print(dados_anuncios.dtypes)


Tipos de dados após conversão:
Nome do anúncio                     string[python]
Alcance                                      Int64
Impressões                                   Int64
Frequência                                 Float64
Valor usado (BRL)                          Float64
Cliques (todos)                              Int64
CPC (todos)                                Float64
CTR (todos)                                Float64
CPM (custo por 1.000 impressões)           Float64
Engajamento com a Página                     Int64
Conversas por mensagem iniciadas             Int64
Reproduções de 25% do vídeo                  Int64
Reproduções de 50% do vídeo                  Int64
Reproduções de 75% do vídeo                  Int64
Reproduções de 95% do vídeo                  Int64
Reproduções de 100% do vídeo                 Int64
Orçamento da campanha                        Int64
Tipo de orçamento da campanha       string[python]
Tipo de resultado                   string[python]

### Verificação de Valores Ausentes: Adiciona uma análise de valores ausentes por coluna, permitindo identificar colunas que necessitam de tratamento adicional.

In [6]:
#verificação de valores ausentes
print("\nValores ausentes por coluna:")
print(dados_anuncios.isnull().sum())


Valores ausentes por coluna:
Nome do anúncio                     0
Alcance                             0
Impressões                          0
Frequência                          0
Valor usado (BRL)                   0
Cliques (todos)                     0
CPC (todos)                         0
CTR (todos)                         0
CPM (custo por 1.000 impressões)    0
Engajamento com a Página            1
Conversas por mensagem iniciadas    5
Reproduções de 25% do vídeo         2
Reproduções de 50% do vídeo         2
Reproduções de 75% do vídeo         2
Reproduções de 95% do vídeo         2
Reproduções de 100% do vídeo        2
Orçamento da campanha               0
Tipo de orçamento da campanha       0
Tipo de resultado                   0
Resultados                          0
Custo por resultado                 0
Classificação de qualidade          0
Contatos por mensagem               5
Novos contatos de mensagem          5
CTR único (todos)                   0
Custo por clique úni

### Removendo linhas duplicadas
### Vamos remover duplicatas, pois elas podem distorcer as métricas e análises dos dados de anúncios

In [7]:
# Identifica e exibe as linhas duplicadas antes de removê-las
duplicatas = dados_anuncios[dados_anuncios.duplicated()]

# Verifica se existem duplicatas e exibe uma mensagem
if not duplicatas.empty:
    print("Linhas duplicadas encontradas e que serão removidas:")
    display(duplicatas)  # Use a função display para exibir o DataFrame no Jupyter Notebook ou em ambientes compatíveis
else:
    print("Nenhuma linha duplicada encontrada.")

# Remove as linhas duplicadas
dados_anuncios = dados_anuncios.drop_duplicates()


Nenhuma linha duplicada encontrada.


### Removendo colunas vazias
### Aqui, removeremos colunas que estejam completamente vazias, pois não contribuem para a análise

In [8]:
# Identifica colunas que estão completamente vazias (apenas NaN)
colunas_vazias = dados_anuncios.columns[dados_anuncios.isna().all()].tolist()

# Verifica se existem colunas vazias e exibe uma mensagem
if colunas_vazias:
    print("As seguintes colunas estão completamente vazias e serão removidas:")
    print(colunas_vazias)
else:
    print("Nenhuma coluna completamente vazia encontrada.")

# Remove as colunas completamente vazias
dados_anuncios = dados_anuncios.dropna(axis=1, how='all')


As seguintes colunas estão completamente vazias e serão removidas:
['Conversas por mensagem iniciadas', 'Contatos por mensagem', 'Novos contatos de mensagem']


In [9]:
# Contagem de valores ausentes por coluna
print("\nContagem de valores ausentes por coluna:")
display(dados_anuncios.isnull().sum())


Contagem de valores ausentes por coluna:


Nome do anúncio                     0
Alcance                             0
Impressões                          0
Frequência                          0
Valor usado (BRL)                   0
Cliques (todos)                     0
CPC (todos)                         0
CTR (todos)                         0
CPM (custo por 1.000 impressões)    0
Engajamento com a Página            1
Reproduções de 25% do vídeo         2
Reproduções de 50% do vídeo         2
Reproduções de 75% do vídeo         2
Reproduções de 95% do vídeo         2
Reproduções de 100% do vídeo        2
Orçamento da campanha               0
Tipo de orçamento da campanha       0
Tipo de resultado                   0
Resultados                          0
Custo por resultado                 0
Classificação de qualidade          0
CTR único (todos)                   0
Custo por clique único (todos)      0
CPC (custo por clique no link)      3
Início dos relatórios               0
Término dos relatórios              0
dtype: int64

# Ajuste de tipos das colunas

In [10]:
# Identificar as linhas onde o valor de 'Alcance' é igual a zero
linhas_excluir = dados_anuncios[dados_anuncios['Alcance'] == 0]

# Extrair os nomes dos anúncios que serão excluídos
anuncios_excluidos = linhas_excluir['Nome do anúncio'].tolist()

# Imprimir os nomes dos anúncios que serão excluídos de forma mais bonita
print("Anúncios excluídos:")
for i, anuncio in enumerate(anuncios_excluidos, start=1):
    print(f"{i}. {anuncio}")

# Excluir as linhas onde 'Alcance' é igual a zero do DataFrame original
dados_anuncios = dados_anuncios[dados_anuncios['Alcance'] != 0]

# Resetar o índice após a exclusão
dados_anuncios.reset_index(drop=True, inplace=True)


Anúncios excluídos:


In [11]:
# Colunas com valores de reproduções de vídeo que podem ser substituídos por 0, onde NaN significa 'sem reproduções'
colunas_reproducoes = [
    "Reproduções de 25% do vídeo",
    "Reproduções de 50% do vídeo",
    "Reproduções de 75% do vídeo",
    "Reproduções de 95% do vídeo",
    "Reproduções de 100% do vídeo",
]

# Substituição de valores NaN por zero
dados_anuncios[colunas_reproducoes] = dados_anuncios[colunas_reproducoes].fillna(0)

In [12]:
dados_anuncios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 26 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   Nome do anúncio                   5 non-null      string 
 1   Alcance                           5 non-null      Int64  
 2   Impressões                        5 non-null      Int64  
 3   Frequência                        5 non-null      Float64
 4   Valor usado (BRL)                 5 non-null      Float64
 5   Cliques (todos)                   5 non-null      Int64  
 6   CPC (todos)                       5 non-null      Float64
 7   CTR (todos)                       5 non-null      Float64
 8   CPM (custo por 1.000 impressões)  5 non-null      Float64
 9   Engajamento com a Página          4 non-null      Int64  
 10  Reproduções de 25% do vídeo       5 non-null      Int64  
 11  Reproduções de 50% do vídeo       5 non-null      Int64  
 12  Reproduções 

In [13]:
dados_anuncios.to_csv("miro_dados_limpos_miro_ultimos_30_dias.csv", index=False)