## Analisando e tratando os dados do arquivo Sales.OrderDetail.csv que estão na pasta RAW
### Ao final desse notebook os dados serão carregados na pasta REFINED em formato parquet

In [1]:
# importando as bibliotecas necessárias
import pandas as pd
import numpy as np

In [2]:
# criando a variavel com o caminho do arquivo que iremos carregar
path_special_offer = "gs://bike-factory-datalake/01.RAW/Sales.SpecialOfferProduct.csv"

In [3]:
# carregando o arquivo CSV
special_offer = pd.read_csv(path_special_offer,sep=';')

In [4]:
# criando o DF pandas
df_special_offer = pd.DataFrame(special_offer)

In [5]:
df_special_offer.dtypes

SpecialOfferID     int64
ProductID          int64
rowguid           object
ModifiedDate      object
dtype: object

In [6]:
# verificando as primeiras linhas do DF
df_special_offer.head(100)

Unnamed: 0,SpecialOfferID,ProductID,rowguid,ModifiedDate
0,1,680,BB30B868-D86C-4557-8DB2-4B2D0A83A0FB,2011-04-01 00:00:00.000
1,1,706,B3C9A4B1-2AE6-4CBA-B552-1F206C9F4C1F,2011-04-01 00:00:00.000
2,1,707,27B711FE-0B77-4EA4-AD1A-7C239956BEF4,2011-04-01 00:00:00.000
3,1,708,46CBB78B-246E-4D69-9BD6-E521277C1078,2011-04-01 00:00:00.000
4,1,709,CF102AA0-055F-4D2B-8B98-04B161758EA8,2011-04-01 00:00:00.000
...,...,...,...,...
95,1,800,0804B4A3-A704-4921-BC38-52A5ECD7F140,2011-04-01 00:00:00.000
96,1,801,CD3FB612-33DA-40BE-9367-D613F8A36EF3,2011-04-01 00:00:00.000
97,1,802,78AACB54-2B48-4059-A191-D9B804EA0466,2011-04-01 00:00:00.000
98,1,803,641EE9D1-456B-425A-BB05-7CF2F4319FE1,2011-04-01 00:00:00.000


In [7]:
# Coletando informações básicas do DF
# A saída desse comando será a quantidade de linhas e colunas (linhas, colunas)
df_special_offer.shape

(538, 4)

In [8]:
# verificando o index do arquivo
df_special_offer.index

RangeIndex(start=0, stop=538, step=1)

In [9]:
# Verificando as colunas do DF
df_special_offer.columns

Index(['SpecialOfferID', 'ProductID', 'rowguid', 'ModifiedDate'], dtype='object')

In [10]:
# Contagem de dados não nulos
df_special_offer.count()

SpecialOfferID    538
ProductID         538
rowguid           538
ModifiedDate      538
dtype: int64

In [11]:
# Identificando a quantidade de dados nulos em cada coluna
df_special_offer.isnull().sum()

SpecialOfferID    0
ProductID         0
rowguid           0
ModifiedDate      0
dtype: int64

Nesse DataFrame vemos os seguintes problemas para serem tratados:

- Coluna ModifiedDate com o tipo objeto, iremos trocar pelo tipo date


In [12]:
df_special_offer["ModifiedDate"] = pd.to_datetime(df_special_offer['ModifiedDate'])

In [13]:
df_special_offer.dtypes

SpecialOfferID             int64
ProductID                  int64
rowguid                   object
ModifiedDate      datetime64[ns]
dtype: object

Por fim, já temos todas as nossas colunas tratadas, então iremos salvar o DF na pasta REFINED do nosso Lake em um arquivo parquet que é otimizado para o modelo analítico.

In [14]:
df_special_offer.to_parquet('gs://bike-factory-datalake/02.REFINED/sales.specialofferproduct.parquet')