![title](imgs/cover.png)

#  Preparação dos dados
A primeira etapa do projeto consiste na preparação e exploração inicial dos dados, um passo essencial para garantir a qualidade e a relevância das informações que serão utilizadas nos modelos de machine learning. Nesta fase, foi realizada uma análise detalhada da estrutura dos dados, incluindo uma revisão dos tipos de dados para identificar necessidades de conversões ou ajustes. Verificou-se a presença de valores ausentes, avaliando a melhor abordagem para tratá-los, seja por imputação, exclusão ou outras técnicas, dependendo do contexto e da quantidade.

Além disso, a estrutura dos dados foi examinada para entender as relações e dependências entre as variáveis. A contagem das classes em variáveis categóricas foi realizada para identificar possíveis desequilíbrios que poderiam afetar o desempenho do modelo, levando à consideração de técnicas de balanceamento de classes se necessário. 

Dicionário do Conjunto de Dados

- Id: Identificador numérico dos testes
- Country: país de origem do teste
- Creation_platform: plataforma pela qual a loja foi criada
- Admin_visits: quantidade de visitas registradas pelo administrador
- Intercom_conversations: quantidade de conversas registradas pela loja com a equipe de suporte
- Source_pulido: origem da loja por campanha de marketing
- Creation_weekday: dia da semana em que a loja foi criada
- Creation_hour: hora do dia em que a loja foi criada
- Products_with_description: quantidade de produtos com descrição
- total_products_with_images: quantidade de produtos com imagem
- total_product_categories: quantidade de categorias de produtos criadas
- total_events_on_Android: registro da quantidade de eventos que o teste teve por um dispositivo com sistema operacional Android
- total_events_on_Web: registro da quantidade de eventos que o teste teve por um computador
- total_events_on_iOS: registro da quantidade de eventos que o teste teve por um dispositivo com sistema operacional iOS
- Target:
    - 1: O teste se converteu em pagamento após o período de teste.
    - 0: O teste não se converteu em pagamento.


In [1]:
import os
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
# Import data
df = pd.read_csv('../../data/test_data.csv', sep = ';')

In [3]:
print(f'Number of observations: {df.shape[0]}')
print(f'Number of variables: {df.shape[1]}')
print('\nColumns names')
print(df.columns)

Number of observations: 585340
Number of variables: 16

Columns names
Index(['Unnamed: 0', 'id', 'country', 'creation_platform', 'admin_visits',
       'intercom_conversations', 'source_pulido', 'creation_weekday',
       'creation_hour', 'products_with_description',
       'total_products_with_images', 'total_product_categories',
       'total_events_on_Android', 'total_events_on_Web', 'total_events_on_iOS',
       'target'],
      dtype='object')


In [4]:
# Verificar se a coluna 'Unnamed: 0' existe antes de tentar removê-la
if 'Unnamed: 0' in df.columns:
    df = df.drop('Unnamed: 0', axis=1)

In [5]:
df.head()

Unnamed: 0,id,country,creation_platform,admin_visits,intercom_conversations,source_pulido,creation_weekday,creation_hour,products_with_description,total_products_with_images,total_product_categories,total_events_on_Android,total_events_on_Web,total_events_on_iOS,target
0,589015,BR,mobile_app,1.0,0.0,Other,6,3,2.0,1,0.0,215.0,6.0,0.0,0
1,589016,BR,mobile_web,2.0,0.0,Google CPC no Brand,6,3,1.0,1,0.0,0.0,44.0,0.0,0
2,589017,BR,mobile_web,1.0,0.0,Google CPC no Brand,6,3,0.0,0,0.0,0.0,16.0,0.0,0
3,589018,BR,mobile_web,1.0,0.0,Google CPC no Brand,6,3,0.0,0,0.0,0.0,15.0,0.0,0
4,589019,BR,mobile_web,1.0,0.0,Google CPC no Brand,6,3,0.0,0,0.0,0.0,24.0,0.0,0


In [6]:
# Verificar tipos de dados
print(df.dtypes)

id                              int64
country                        object
creation_platform              object
admin_visits                  float64
intercom_conversations        float64
source_pulido                  object
creation_weekday                int64
creation_hour                   int64
products_with_description     float64
total_products_with_images      int64
total_product_categories      float64
total_events_on_Android       float64
total_events_on_Web           float64
total_events_on_iOS           float64
target                          int64
dtype: object


In [7]:
# Verificar se há valores duplicados na coluna 'Id'
duplicated_ids = df['id'].duplicated().sum()

duplicated_ids

0

In [8]:
# Verificar se a coluna 'id' existe antes de tentar removê-la
if 'id' in df.columns:
    df = df.drop('id', axis=1)

In [9]:
# Verificar valores nulos
null_values = df.isnull().sum()

# Mostra apenas colunas com valores nulos
print(null_values[null_values > 0])  

Series([], dtype: int64)


In [10]:
# Exemplo de verificação para strings vazias em colunas específicas
missing_values = (df == '').sum()
print(missing_values[missing_values > 0])

Series([], dtype: int64)


In [11]:
# Estatísticas descritivas básicas
# Separando colunas numéricas (int e float) das demais
numeric_columns = df.select_dtypes(include=['int64', 'float64']).columns
non_numeric_columns = df.select_dtypes(exclude=['int64', 'float64']).columns

# Descrição estatística das colunas numéricas
numeric_description = df[numeric_columns].describe()

# Contagem de valores para colunas não numéricas
non_numeric_value_counts = {col: df[col].value_counts() for col in non_numeric_columns}

In [12]:
numeric_description

Unnamed: 0,admin_visits,intercom_conversations,creation_weekday,creation_hour,products_with_description,total_products_with_images,total_product_categories,total_events_on_Android,total_events_on_Web,total_events_on_iOS,target
count,585340.0,585340.0,585340.0,585340.0,585340.0,585340.0,585340.0,585340.0,585340.0,585340.0,585340.0
mean,1.091154,0.005793,2.725496,13.565886,5.232655,5.198054,1.289987,7.10531,68.441636,0.895406,0.080071
std,0.543782,0.118485,1.937653,7.157861,104.301081,97.490506,9.712947,36.444225,124.612021,12.274338,0.271404
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,1.0,0.0,1.0,10.0,0.0,0.0,0.0,0.0,11.0,0.0,0.0
50%,1.0,0.0,3.0,15.0,0.0,0.0,0.0,0.0,27.0,0.0,0.0
75%,1.0,0.0,4.0,19.0,1.0,1.0,0.0,0.0,70.0,0.0,0.0
max,22.0,27.0,6.0,23.0,28530.0,28530.0,3059.0,1706.0,14596.0,2527.0,1.0


In [13]:
non_numeric_value_counts

{'country': country
 BR    394928
 AR    178717
 MX      6342
 CO      4264
 CL      1089
 Name: count, dtype: int64,
 'creation_platform': creation_platform
 desktop       285459
 mobile_web    256499
 mobile_app     39928
 tablet          3454
 Name: count, dtype: int64,
 'source_pulido': source_pulido
 Facebook CPC              112972
 Other                     102357
 Google CPC no Brand       101727
 Brand                      84950
 Google Organic             56982
 Google CPC DSA             42482
 partners                   28523
 Direct                     23785
 Store Referral             19821
 Google CPC Competitors      9680
 none                        2050
 0                             11
 Name: count, dtype: int64}

In [14]:
# Substituir valores 'none' e '0' por 'Other' na coluna 'Source_pulido'
df['source_pulido'] = df['source_pulido'].replace(['none', '0'], 'Other')

# Verificar as alterações
source_pulido_values = df['source_pulido'].value_counts()

source_pulido_values

source_pulido
Facebook CPC              112972
Other                     104418
Google CPC no Brand       101727
Brand                      84950
Google Organic             56982
Google CPC DSA             42482
partners                   28523
Direct                     23785
Store Referral             19821
Google CPC Competitors      9680
Name: count, dtype: int64

In [15]:
df.head()

Unnamed: 0,country,creation_platform,admin_visits,intercom_conversations,source_pulido,creation_weekday,creation_hour,products_with_description,total_products_with_images,total_product_categories,total_events_on_Android,total_events_on_Web,total_events_on_iOS,target
0,BR,mobile_app,1.0,0.0,Other,6,3,2.0,1,0.0,215.0,6.0,0.0,0
1,BR,mobile_web,2.0,0.0,Google CPC no Brand,6,3,1.0,1,0.0,0.0,44.0,0.0,0
2,BR,mobile_web,1.0,0.0,Google CPC no Brand,6,3,0.0,0,0.0,0.0,16.0,0.0,0
3,BR,mobile_web,1.0,0.0,Google CPC no Brand,6,3,0.0,0,0.0,0.0,15.0,0.0,0
4,BR,mobile_web,1.0,0.0,Google CPC no Brand,6,3,0.0,0,0.0,0.0,24.0,0.0,0


---
# Exportação dos dados

Após concluir as análises e ajustes necessários na preparação dos dados, a última atividade desta etapa envolve a exportação dos dados preparados para uso nas próximas fases do projeto. Esta ação é fundamental para garantir a integridade e a continuidade do fluxo de trabalho em análise de dados e machine learning.

In [16]:
# Caminho para a pasta desejada
folder_path = 'data'

# Verificar se a pasta existe, se não, criar
if not os.path.exists(folder_path):
    os.makedirs(folder_path)

# Caminho completo do arquivo a ser salvo
file_path = os.path.join(folder_path, 'cleaned_test_data.csv')

# Exportar DataFrame para CSV
df.to_csv(file_path, index=False, sep = ';')

file_path

'data\\cleaned_test_data.csv'

![title](imgs/end.png)