In [1]:
import sys
!{sys.executable} -m pip install pyarrow



Bloco 1: Importação das Bibliotecas

In [2]:
# Importando todas as ferramentas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

Bloco 2: Carregamento dos Dados

In [3]:
# Definindo o caminho e carregar o dataset original
# caminho_dados = '../data/raw/df_t.csv'
caminho_dados = '../data/raw/dados.parquet'
nrows=50000

# --- MUDANÇA PRINCIPAL AQUI ---
# Usamos o parâmetro 'nrows' para ler apenas as primeiras 100.000 linhas do arquivo.
# Isso cria nossa amostra de dados e resolve o problema de memória.
# df = pd.read_csv(caminho_dados, nrows=200000)
df = pd.read_parquet(caminho_dados)
df = df.head(nrows)

# Usado para visualizar as primeiras linhas para confirmar o carregamento
print(f"Amostra de dados com {len(df)} linhas carregada com sucesso:")
display(df.head())


Amostra de dados com 50000 linhas carregada com sucesso:


Unnamed: 0,nk_ota_localizer_id,fk_contact,date_purchase,time_purchase,place_origin_departure,place_destination_departure,place_origin_return,place_destination_return,fk_departure_ota_bus_company,fk_return_ota_bus_company,gmv_success,total_tickets_quantity_success
0,bc02d5245bec63b30ff1102fa273fc03f58bc9cc3f674e...,a7218ff4ee7d37d48d2b4391b955627cb089870b934912...,2018-12-26,15:33:35,6b86b273ff34fce19d6b804eff5a3f5747ada4eaa22f1d...,50e9a8665b62c8d68bccc77c7c92431a1aa26ccbd38ed4...,0,0,8527a891e224136950ff32ca212b45bc93f69fbb801c3b...,1,89.09,1
1,5432f12612dd5d749b3be880e779989cf63b5efa4bcc4e...,37228485e0dc83d84d1bcd1bef3dc632301bf6cb22c8b5...,2018-12-05,15:07:57,10e4e7caf8b078429bb1c80b1a10118ac6f963eff098fd...,e6d41d208672a4e50b86d959f4a6254975e6fb9b088116...,0,0,36ebe205bcdfc499a25e6923f4450fa8d48196ceb4fa0c...,1,155.97,1
2,fb3caed9b2f1b6016d45ccddb19095476e61a2c85faa8e...,3467ec081e2421e72c96e7203b929d21927fd00b6b5f28...,2018-12-21,18:41:54,7688b6ef52555962d008fff894223582c484517cea7da4...,8c1f1046219ddd216a023f792356ddf127fce372a72ec9...,0,0,ec2e990b934dde55cb87300629cedfc21b15cd28bbcf77...,1,121.99,1
3,4dc44a6dd592b702feccb493d192210c86965aee684529...,ab3251a2be0f69713b8f97b0e9d1579e31551f4fd4facf...,2018-12-06,14:01:38,4e07408562bedb8b60ce05c1decfe3ad16b72230967de0...,d6acb3c1a79e57bcc03d976cb4d98f56edccd4cf426392...,0,0,5f9c4ab08cac7457e9111a30e4664920607ea2c115a143...,1,55.22,1
4,aa34ed7fd0a6b405df2df1bf9f8d68e6df9b9a868a6181...,ceea0de820a6379f2c4215bddaec66c33994b304607e56...,2021-02-23,20:08:25,7688b6ef52555962d008fff894223582c484517cea7da4...,23765fc69c4e3c0b10f5d15471dc2245e2a19af16b513f...,0,0,48449a14a4ff7d79bb7a1b6f3d488eba397c36ef25634c...,1,45.31,1


Bloco 3: Limpeza e Transformação dos Dados

In [4]:
# Diagnóstico técnico e conversão de tipos de dados
print("Estrutura inicial do DataFrame:")
df.info()

# Concatenando as colunas de data e hora e convertendo para o tipo datetime
print("\nConvertendo colunas de data e hora...")
df['datetime_purchase'] = pd.to_datetime(df['date_purchase'] + ' ' + df['time_purchase'])

# Apagando as colunas de texto originais para manter o DataFrame limpo
df = df.drop(columns=['date_purchase', 'time_purchase'])

print("\nEstrutura do DataFrame após conversão:")
df.info()

Estrutura inicial do DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 12 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   nk_ota_localizer_id             50000 non-null  object 
 1   fk_contact                      50000 non-null  object 
 2   date_purchase                   50000 non-null  object 
 3   time_purchase                   50000 non-null  object 
 4   place_origin_departure          50000 non-null  object 
 5   place_destination_departure     50000 non-null  object 
 6   place_origin_return             50000 non-null  object 
 7   place_destination_return        50000 non-null  object 
 8   fk_departure_ota_bus_company    50000 non-null  object 
 9   fk_return_ota_bus_company       50000 non-null  object 
 10  gmv_success                     50000 non-null  float64
 11  total_tickets_quantity_success  50000 non-null  int64  
dtype

Bloco 4: Persistência (Salvar o Resultado da Limpeza)

In [5]:
# Salvando o DataFrame limpo para a próxima etapa
caminho_saida_limpo = '../data/processed/dados_limpos.parquet'
df.to_parquet(caminho_saida_limpo, index=False)

print(f"Dados limpos salvos com sucesso em: '{caminho_saida_limpo}'")

Dados limpos salvos com sucesso em: '../data/processed/dados_limpos.parquet'


Bloco 5: Extrair IDs Únicos para Criação de Aliases


In [6]:
print("Extraindo IDs únicos para a criação de aliases...")

# Extrai todos os fk_contact únicos
clientes_unicos = df['fk_contact'].unique()
df_clientes_unicos = pd.DataFrame(clientes_unicos, columns=['fk_contact'])
df_clientes_unicos.to_csv('../data/raw/clientes_unicos.csv', index=False)
print(f"{len(df_clientes_unicos)} IDs de clientes únicos salvos em 'clientes_unicos.csv'")

# Extrai todos os locais únicos (origem e destino)
locais_origem = df['place_origin_departure'].unique()
locais_destino = df['place_destination_departure'].unique()
todos_locais = np.union1d(locais_origem, locais_destino) # Pega a união para não ter duplicados

df_locais_unicos = pd.DataFrame(todos_locais, columns=['place_hash'])
df_locais_unicos.to_csv('../data/raw/locais_unicos.csv', index=False)
print(f"{len(df_locais_unicos)} hashes de locais únicos salvos em 'locais_unicos.csv'")

Extraindo IDs únicos para a criação de aliases...
25642 IDs de clientes únicos salvos em 'clientes_unicos.csv'
1720 hashes de locais únicos salvos em 'locais_unicos.csv'
