# Preprocessamento
---

Este notebook tem o objetivo de realizar o pré-processamento, para verificação de cada uma das _features_. Serão observados valores faltantes, tipos de dado e faixas de valores para cada uma das variáveis presentes.

No pipeline desenvolvido, este notebook é a segunda parte a ser executada, visto que a primeira foi o script de transformação do arquivo 'sales_data.tsv' para o formato parquet, localizado em `scripts/csv_to_parquet.py` na pasta raíz do projeto.

## Importação das bibliotecas necessárias

In [1]:
import pandas as pd

In [2]:
# Definição do formato em que os dados serão apresentados (duas casas após a vírgula)
pd.options.display.float_format = '{:,.2f}'.format

## Uma primeira primeira impressão dos dados

Aqui é feita a leitura do arquivo parquet para verificar, inicialmente, como os dados se parecem.

In [3]:
df = pd.read_parquet('../data/raw/sales_data.parquet')

In [4]:
df.head()

Unnamed: 0,purchase_id,product_id,affiliate_id,producer_id,buyer_id,purchase_date,product_creation_date,product_category,product_niche,purchase_value,affiliate_commission_percentual,purchase_device,purchase_origin,is_origin_page_social_network
0,0,,,,,,,,,,,,,0
1,1663958,6640.0,209372.0,116238.0,1200397.0,2016-06-26 12:00:00,2011-03-19 15:47:36,Video,Presentation skills,-0.27,50.0,Smart TV,Origin ef2b,0
2,1677087,2350.0,141418.0,2821.0,1083764.0,2016-06-26 12:00:00,2010-07-05 01:50:15,Podcast,Child psychology,-0.18,60.0,Smart TV,Origin ef2b,0
3,2017360,35669.0,618642.0,618642.0,1436106.0,2016-06-26 12:00:00,2012-06-13 02:59:37,Podcast,Presentation skills,-0.47,0.0,Smart TV,Origin ef2b,0
4,2017379,57998.0,1164511.0,70388.0,1436118.0,2016-06-26 12:00:00,2013-05-07 08:51:31,Podcast,Anxiety management,-0.4,50.0,Smart TV,Origin ef2b,0


É possível observar que o primeiro registro da tabela tem todos valores inválidos, com _0_ ou _NaN_. Por isso, o mesmo será removido.

In [5]:
df = df.drop(0, axis=0)

A princípio, os últimos registros estão em conformidade:

In [6]:
df.tail()

Unnamed: 0,purchase_id,product_id,affiliate_id,producer_id,buyer_id,purchase_date,product_creation_date,product_category,product_niche,purchase_value,affiliate_commission_percentual,purchase_device,purchase_origin,is_origin_page_social_network
1599824,14011995,238362.0,7586641.0,7586641.0,5736172.0,2016-06-30 23:59:57,2016-06-16 12:10:46,Phisical book,Personal finance,-0.35,0.0,eReaders,Origin 3022,0
1599825,14012431,61279.0,589022.0,589022.0,946067.0,2016-06-30 21:40:11,2013-06-15 16:41:06,Phisical book,Personal finance,-0.47,0.0,Smart TV,Origin ef2b,0
1599826,14343996,215242.0,1186145.0,1186145.0,6473172.0,2016-05-13 16:45:42,2016-03-26 17:59:47,Phisical book,Negotiation,-0.36,0.0,Smart TV,Origin ef2b,0
1599827,14344113,215242.0,1186145.0,1186145.0,6473172.0,2016-06-22 14:39:05,2016-03-26 17:59:47,Phisical book,Negotiation,-0.36,0.0,Smart TV,Origin ef2b,0
1599828,14357203,215242.0,1186145.0,1186145.0,6473172.0,2016-04-11 19:37:25,2016-03-26 17:59:47,Phisical book,Negotiation,-0.36,0.0,Tablet,Origin 3fcc,0


## Variáveis de identificação (ids)

In [10]:
df.dtypes

purchase_id                          int64
product_id                         float64
affiliate_id                       float64
producer_id                        float64
buyer_id                           float64
purchase_date                       object
product_creation_date               object
product_category                    object
product_niche                       object
purchase_value                     float64
affiliate_commission_percentual    float64
purchase_device                     object
purchase_origin                     object
is_origin_page_social_network       object
dtype: object