### Introdução sobre o Projeto

##### Etapa 1. Pré-Processamento dos Dados

In [None]:
#importando bibliotecas

import pandas as pd 
import numpy as np
import seaborn as sns 

import matplotlib.pyplot as plt

from scipy.stats import zscore

In [None]:
#evitar avisos do seaborn

import warnings
warnings.filterwarnings("ignore", category=FutureWarning)

In [None]:
#lendo o arquivo excel

df_1 = pd.read_excel('Clean_Ads_Data.xlsx')

In [None]:
#visualizando as três primeiras linhas

df_1.head(3)

In [None]:
#visualizando as três últimas linhas

df_1.tail(3)

In [None]:
#visualizando as principais info do dataframe

df_1.info()

In [None]:
#excluindo as colunas: Timestamp, InventoryType, Ad Type.

df_1.drop(["Timestamp", "InventoryType", "Ad Type"], axis=1, inplace=True)

In [None]:
# selecionando dados qualitativo

df_1_qualitative = df_1.iloc[:,2:7]

df_1_qualitative

In [None]:
# selecionando dados quantativo

df_1_quantitative = df_1.iloc[:,8:]

df_1_quantitative

In [None]:
#principais estatísticas do dataframe - qualitativo

df_1_qualitative.describe()

In [None]:
#principais estatísticas do dataframe - quantitativo

df_1_quantitative.describe()

In [None]:
#função para visualizar os valores únicos e nulos por colunas

def valores_unicos(df):
    for coluna in df.columns:
        print(f'Coluna {coluna}:')
        
        contar_valores = df[coluna].value_counts()
        porcentagem_valores = df[coluna].value_counts(normalize=True) * 100
        resultado_valores = pd.concat([contar_valores, porcentagem_valores], axis=1, 
                                     keys=['Qnt', 'Porcentagem']).round(2)
        print(resultado_valores)

        print(f'Valores nulos: {df[coluna].isnull().sum()}')
        print('\n')

#visualizando os valores 
valores_unicos(df_1)

In [None]:
#removendo a única linha que possui valor nulo no data set

df_1 = df_1.dropna(subset=['AD Size'])

In [None]:
#verificando se há linhas duplicadas 

df_1.duplicated().sum()

In [None]:
#organizando dataframe após remover linhas

df_1.reset_index(inplace=True, drop=True)

In [None]:
#criando uma coluna para mês

df_1['Month'] = df_1['Date'].dt.month


#visualizando as três primeiras linhas 

df_1.head(3)

In [None]:
#substituir espaços e pontos por _ nos nomes das colunas

df_1.columns = df_1.columns.str.replace(' ', '_').str.replace('.', '_' )

#visualizando as três primeiras linhas 

df_1.head(3)

In [None]:
# Atualizando dados qualitativo e quantitativos após alterar estrutura do dataframe.

df_1_qualitative = df_1.iloc[:,2:7]
df_1_quantitative = df_1.iloc[:,8:-1]

##### 2. Identificação e Tratamento de Outliers

In [None]:
#visualizando distribuição das variáveis quantitativas - boxplot

colunas_numericas = df_1_quantitative.columns

fig, axes = plt.subplots(nrows=5, ncols=2, figsize=(15, 20))
for n, variaveis in enumerate(colunas_numericas):
    sns.boxplot(x=df_1[variaveis], ax=axes[n//2, n%2])
    axes[n//2, n%2].set_title(variaveis)

plt.tight_layout()
plt.show()

In [None]:
#visualizando distribuição das variáveis quantitativas - Scatter plot

colunas_numericas = df_1_quantitative.columns

fig, axes = plt.subplots(nrows=5, ncols=2, figsize=(15, 20))
for n, variaveis in enumerate(colunas_numericas):
    sns.scatterplot(x= df_1["Date"], y=df_1[variaveis], ax=axes[n//2, n%2])
    axes[n//2, n%2].set_title(variaveis)

plt.tight_layout()
plt.show()

In [None]:
#visualizando distribuição das variáveis quantitativas - Histogram

colunas_numericas = df_1_quantitative.columns

fig, axes = plt.subplots(nrows=5, ncols=2, figsize=(15, 20))
for n, variaveis in enumerate(colunas_numericas):
    sns.histplot(x=df_1[variaveis], ax=axes[n//2, n%2])
    axes[n//2, n%2].set_title(variaveis)

plt.tight_layout()
plt.show()

Standardization/Z-score

In [None]:
cols = list(df_1_quantitative.columns)
cols

In [None]:
df_1_quantitative[cols] = df_1_quantitative[cols].apply(zscore)
df_1_quantitative

"""3 - means that 99.7% of the data is saved
2 - means that 95.44% of the data is saved
1 - means that 68.26% of the data is saved"""

In [None]:
outliers_threshold = 1

selected_dada = df_1_quantitative[cols].abs() <= outliers_threshold

not_selected_dada = ~(selected_dada)

In [None]:
selected_dada

In [None]:
not_selected_dada

In [None]:
mask = (selected_dada).all(axis=1)
mask

In [None]:
df_1 = df_1[mask]

In [None]:
df_1.info()

In [None]:
#visualizando distribuição das variáveis quantitativas - boxplot

colunas_numericas = df_1_quantitative.columns

fig, axes = plt.subplots(nrows=5, ncols=2, figsize=(15, 20))
for n, variaveis in enumerate(colunas_numericas):
    sns.boxplot(x=df_1[variaveis], ax=axes[n//2, n%2])
    axes[n//2, n%2].set_title(variaveis)

plt.tight_layout()
plt.show()