In [149]:
import pandas as pd
import os

In [150]:
df_customers = pd.read_csv('../data/unprocessed/olist_customers_dataset.csv')
df_orders = pd.read_csv('../data/unprocessed/olist_orders_dataset.csv')
df_order_items = pd.read_csv('../data/unprocessed/olist_order_items_dataset.csv')
df_products = pd.read_csv('../data/unprocessed/olist_products_dataset.csv')
df_sellers = pd.read_csv('../data/unprocessed/olist_sellers_dataset.csv')
df_geolocation = pd.read_csv('../data/unprocessed/olist_geolocation_dataset.csv')   
df_marketing = pd.read_csv('../data/unprocessed/olist_marketing_qualified_leads_dataset.csv')
df_order_payments = pd.read_csv('../data/unprocessed/olist_order_payments_dataset.csv')
df_order_reviews = pd.read_csv('../data/unprocessed/olist_order_reviews_dataset.csv')
df_category_name_translation = pd.read_csv('../data/unprocessed/product_category_name_translation.csv')
df_closed_deals = pd.read_csv('../data/unprocessed/olist_closed_deals_dataset.csv')



# 1. Análise exploratória inicial, conhecendo o escopo de cada CSV
---

### 1.1 Análise do dataset "Customers"

- **Estrutura:** A tabela tem 5 colunas e 99441 linhas
- **Qualidade:** Dataset não apresenta valores nulos.
- **Insights:** As colunas `customer_unique` e `customer_unique_id` são prováveis chaves, e serão usadas para unificação dos dados

In [151]:
print("--- Informações Estruturais (info) ---")
df_customers.info()

--- Informações Estruturais (info) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 5 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   customer_id               99441 non-null  object
 1   customer_unique_id        99441 non-null  object
 2   customer_zip_code_prefix  99441 non-null  int64 
 3   customer_city             99441 non-null  object
 4   customer_state            99441 non-null  object
dtypes: int64(1), object(4)
memory usage: 3.8+ MB


In [152]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_customers.isnull().sum())


--- Contagem de Nulos (isnull) ---
customer_id                 0
customer_unique_id          0
customer_zip_code_prefix    0
customer_city               0
customer_state              0
dtype: int64


In [153]:
print("\n--- Visualização Inicial (head) ---")
df_customers.head()


--- Visualização Inicial (head) ---


Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP


In [154]:
print("--- Informações descritivas (describe) ---")
df_customers.describe()

--- Informações descritivas (describe) ---


Unnamed: 0,customer_zip_code_prefix
count,99441.0
mean,35137.474583
std,29797.938996
min,1003.0
25%,11347.0
50%,24416.0
75%,58900.0
max,99990.0


In [155]:
print("--- Informações descritivas (tamanho) ---")
df_customers.shape

--- Informações descritivas (tamanho) ---


(99441, 5)

### 1.2 Análise do dataset "Orders"

- **Estrutura:** A tabela tem 8 colunas e 99441 linhas
- **Qualidade:** A coluna "order_approved_at" tem 160 valores nulos, a coluna "order_delivered_carrier_date" tem 1783 valores nulos e a coluna "order_delivered_customer_date" tem 2965 valores nulos.
- **Insights:** A coluna `customer_unique` é a provável chave, e será usada para unificação dos dados. Verificar também as colunas que contém data (que precisam ser convertidas) e estão nulas.

In [156]:
print("--- Informações Estruturais (info) ---")
df_orders.info()

--- Informações Estruturais (info) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   order_id                       99441 non-null  object
 1   customer_id                    99441 non-null  object
 2   order_status                   99441 non-null  object
 3   order_purchase_timestamp       99441 non-null  object
 4   order_approved_at              99281 non-null  object
 5   order_delivered_carrier_date   97658 non-null  object
 6   order_delivered_customer_date  96476 non-null  object
 7   order_estimated_delivery_date  99441 non-null  object
dtypes: object(8)
memory usage: 6.1+ MB


In [157]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_orders.isnull().sum())


--- Contagem de Nulos (isnull) ---
order_id                            0
customer_id                         0
order_status                        0
order_purchase_timestamp            0
order_approved_at                 160
order_delivered_carrier_date     1783
order_delivered_customer_date    2965
order_estimated_delivery_date       0
dtype: int64


In [158]:
print("\n--- Visualização Inicial (head) ---")
df_orders.head()


--- Visualização Inicial (head) ---


Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15 00:00:00
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26 00:00:00


In [159]:
print("--- Informações descritivas (describe) ---")
df_orders.describe()

--- Informações descritivas (describe) ---


Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
count,99441,99441,99441,99441,99281,97658,96476,99441
unique,99441,99441,8,98875,90733,81018,95664,459
top,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2018-08-02 12:05:26,2018-02-27 04:31:10,2018-05-09 15:48:00,2018-05-08 19:36:48,2017-12-20 00:00:00
freq,1,1,96478,3,9,47,3,522


In [160]:
print("--- Informações descritivas (tamanho) ---")
df_orders.shape

--- Informações descritivas (tamanho) ---


(99441, 8)

### 1.3 Análise do dataset "Order_items"

- **Estrutura:** A tabela tem 7 colunas e 112650 linhas
- **Qualidade:** Dataset não apresenta valores nulos.
- **Insights:** Temos 3 prováveis chaves, `order_id`, `product_id` e `seller_id`, que podem ser usadas para futuros relacionamentos. Coluna shipping_limit_date de data que precisa ser convertida.

In [161]:
print("--- Informações Estruturais (info) ---")
df_order_items.info() 

--- Informações Estruturais (info) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   order_id             112650 non-null  object 
 1   order_item_id        112650 non-null  int64  
 2   product_id           112650 non-null  object 
 3   seller_id            112650 non-null  object 
 4   shipping_limit_date  112650 non-null  object 
 5   price                112650 non-null  float64
 6   freight_value        112650 non-null  float64
dtypes: float64(2), int64(1), object(4)
memory usage: 6.0+ MB


In [162]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_order_items.isnull().sum()) 


--- Contagem de Nulos (isnull) ---
order_id               0
order_item_id          0
product_id             0
seller_id              0
shipping_limit_date    0
price                  0
freight_value          0
dtype: int64


In [163]:
print("\n--- Visualização Inicial (head) ---")
df_order_items.head()


--- Visualização Inicial (head) ---


Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14


In [164]:
print("--- Informações descritivas (describe) ---")
df_order_items.describe()

--- Informações descritivas (describe) ---


Unnamed: 0,order_item_id,price,freight_value
count,112650.0,112650.0,112650.0
mean,1.197834,120.653739,19.99032
std,0.705124,183.633928,15.806405
min,1.0,0.85,0.0
25%,1.0,39.9,13.08
50%,1.0,74.99,16.26
75%,1.0,134.9,21.15
max,21.0,6735.0,409.68


In [165]:
print("--- Informações descritivas (tamanho) ---")
df_order_items.shape

--- Informações descritivas (tamanho) ---


(112650, 7)

### 1.4 Análise do dataset "Products"

- **Estrutura:** A tabela tem 9 colunas e 32951 linhas
- **Qualidade:** As colunas "product_category_name", "product_name_lenght","product_description_lenght" e "product_photos_qty", são pontos de atenção, com 610 valores nulos. Ponto de observação: Há 2 valores nulos nas colunas que se referem a "descrição fisica" do produto
- **Insights:** Temos a chave principal =  `product_id`. A coluna de categoria também será extremamente importante.

In [166]:
print("--- Informações Estruturais (info) ---")
df_products.info() 

--- Informações Estruturais (info) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32951 entries, 0 to 32950
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   product_id                  32951 non-null  object 
 1   product_category_name       32341 non-null  object 
 2   product_name_lenght         32341 non-null  float64
 3   product_description_lenght  32341 non-null  float64
 4   product_photos_qty          32341 non-null  float64
 5   product_weight_g            32949 non-null  float64
 6   product_length_cm           32949 non-null  float64
 7   product_height_cm           32949 non-null  float64
 8   product_width_cm            32949 non-null  float64
dtypes: float64(7), object(2)
memory usage: 2.3+ MB


In [167]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_products.isnull().sum()) 


--- Contagem de Nulos (isnull) ---
product_id                      0
product_category_name         610
product_name_lenght           610
product_description_lenght    610
product_photos_qty            610
product_weight_g                2
product_length_cm               2
product_height_cm               2
product_width_cm                2
dtype: int64


In [168]:
print("\n--- Visualização Inicial (head) ---")
df_products.head()


--- Visualização Inicial (head) ---


Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
0,1e9e8ef04dbcff4541ed26657ea517e5,perfumaria,40.0,287.0,1.0,225.0,16.0,10.0,14.0
1,3aa071139cb16b67ca9e5dea641aaa2f,artes,44.0,276.0,1.0,1000.0,30.0,18.0,20.0
2,96bd76ec8810374ed1b65e291975717f,esporte_lazer,46.0,250.0,1.0,154.0,18.0,9.0,15.0
3,cef67bcfe19066a932b7673e239eb23d,bebes,27.0,261.0,1.0,371.0,26.0,4.0,26.0
4,9dc1a7de274444849c219cff195d0b71,utilidades_domesticas,37.0,402.0,4.0,625.0,20.0,17.0,13.0


In [169]:
print("--- Informações descritivas (describe) ---")
df_products.describe()

--- Informações descritivas (describe) ---


Unnamed: 0,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
count,32341.0,32341.0,32341.0,32949.0,32949.0,32949.0,32949.0
mean,48.476949,771.495285,2.188986,2276.472488,30.815078,16.937661,23.196728
std,10.245741,635.115225,1.736766,4282.038731,16.914458,13.637554,12.079047
min,5.0,4.0,1.0,0.0,7.0,2.0,6.0
25%,42.0,339.0,1.0,300.0,18.0,8.0,15.0
50%,51.0,595.0,1.0,700.0,25.0,13.0,20.0
75%,57.0,972.0,3.0,1900.0,38.0,21.0,30.0
max,76.0,3992.0,20.0,40425.0,105.0,105.0,118.0


In [170]:
print("--- Informações descritivas (tamanho) ---")
df_products.shape

--- Informações descritivas (tamanho) ---


(32951, 9)

### 1.5 Análise do dataset "Sellers"

- **Estrutura:** A tabela tem 4 colunas e 3095 linhas
- **Qualidade:** Não há valores nulos.
- **Insights:** Temos as chave =  `seller_id` e `seller_zip_code_prefix`. A coluna de estado e cidade também serão extremamente importantes para caracterização em mapa.

In [171]:
print("--- Informações Estruturais (info) ---")
df_sellers.info() 

--- Informações Estruturais (info) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3095 entries, 0 to 3094
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   seller_id               3095 non-null   object
 1   seller_zip_code_prefix  3095 non-null   int64 
 2   seller_city             3095 non-null   object
 3   seller_state            3095 non-null   object
dtypes: int64(1), object(3)
memory usage: 96.8+ KB


In [172]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_sellers.isnull().sum()) 


--- Contagem de Nulos (isnull) ---
seller_id                 0
seller_zip_code_prefix    0
seller_city               0
seller_state              0
dtype: int64


In [173]:
print("\n--- Visualização Inicial (head) ---")
df_sellers.head()


--- Visualização Inicial (head) ---


Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
0,3442f8959a84dea7ee197c632cb2df15,13023,campinas,SP
1,d1b65fc7debc3361ea86b5f14c68d2e2,13844,mogi guacu,SP
2,ce3ad9de960102d0677a81f5d0bb7b2d,20031,rio de janeiro,RJ
3,c0f3eea2e14555b6faeea3dd58c1b1c3,4195,sao paulo,SP
4,51a04a8a6bdcb23deccc82b0b80742cf,12914,braganca paulista,SP


In [174]:
print("--- Informações descritivas (describe) ---")
df_sellers.describe()

--- Informações descritivas (describe) ---


Unnamed: 0,seller_zip_code_prefix
count,3095.0
mean,32291.059451
std,32713.45383
min,1001.0
25%,7093.5
50%,14940.0
75%,64552.5
max,99730.0


In [175]:
print("--- Informações descritivas (tamanho) ---")
df_sellers.shape

--- Informações descritivas (tamanho) ---


(3095, 4)

### 1.6 Análise do dataset "Geolocation"

- **Estrutura:** A tabela tem 5 colunas e 1000163 linhas
- **Qualidade:** Não há valores nulos.
- **Insights:** Temos a chave principal =  `geolocation_zip_code_prefix`. A coluna de estado e cidade também serão extremamente importantes para caracterização em mapa.

In [176]:
print("--- Informações Estruturais (info) ---")
df_geolocation.info() 

--- Informações Estruturais (info) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000163 entries, 0 to 1000162
Data columns (total 5 columns):
 #   Column                       Non-Null Count    Dtype  
---  ------                       --------------    -----  
 0   geolocation_zip_code_prefix  1000163 non-null  int64  
 1   geolocation_lat              1000163 non-null  float64
 2   geolocation_lng              1000163 non-null  float64
 3   geolocation_city             1000163 non-null  object 
 4   geolocation_state            1000163 non-null  object 
dtypes: float64(2), int64(1), object(2)
memory usage: 38.2+ MB


In [177]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_geolocation.isnull().sum()) 


--- Contagem de Nulos (isnull) ---
geolocation_zip_code_prefix    0
geolocation_lat                0
geolocation_lng                0
geolocation_city               0
geolocation_state              0
dtype: int64


In [178]:
print("\n--- Visualização Inicial (head) ---")
df_geolocation.head()


--- Visualização Inicial (head) ---


Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,1037,-23.545621,-46.639292,sao paulo,SP
1,1046,-23.546081,-46.64482,sao paulo,SP
2,1046,-23.546129,-46.642951,sao paulo,SP
3,1041,-23.544392,-46.639499,sao paulo,SP
4,1035,-23.541578,-46.641607,sao paulo,SP


In [179]:
print("--- Informações descritivas (describe) ---")
df_geolocation.describe()

--- Informações descritivas (describe) ---


Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng
count,1000163.0,1000163.0,1000163.0
mean,36574.17,-21.17615,-46.39054
std,30549.34,5.715866,4.269748
min,1001.0,-36.60537,-101.4668
25%,11075.0,-23.60355,-48.57317
50%,26530.0,-22.91938,-46.63788
75%,63504.0,-19.97962,-43.76771
max,99990.0,45.06593,121.1054


In [180]:
print("--- Informações descritivas (tamanho) ---")
df_geolocation.shape

--- Informações descritivas (tamanho) ---


(1000163, 5)

### 1.7 Análise do dataset "Marketing_qualified"

- **Estrutura:** A tabela tem 4 colunas e 8000 linhas
- **Qualidade:** A coluna "origin" possui 60 valores nulos
- **Insights:** Temos as chaves =  `mql_id` e `landing_page_id`. Verificar o campo de origem, que pode ser importante para rastreamento dos dados.

In [181]:
print("--- Informações Estruturais (info) ---")
df_marketing.info() 

--- Informações Estruturais (info) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8000 entries, 0 to 7999
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   mql_id              8000 non-null   object
 1   first_contact_date  8000 non-null   object
 2   landing_page_id     8000 non-null   object
 3   origin              7940 non-null   object
dtypes: object(4)
memory usage: 250.1+ KB


In [182]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_marketing.isnull().sum()) 


--- Contagem de Nulos (isnull) ---
mql_id                 0
first_contact_date     0
landing_page_id        0
origin                60
dtype: int64


In [183]:
print("\n--- Visualização Inicial (head) ---")
df_marketing.head()


--- Visualização Inicial (head) ---


Unnamed: 0,mql_id,first_contact_date,landing_page_id,origin
0,dac32acd4db4c29c230538b72f8dd87d,2018-02-01,88740e65d5d6b056e0cda098e1ea6313,social
1,8c18d1de7f67e60dbd64e3c07d7e9d5d,2017-10-20,007f9098284a86ee80ddeb25d53e0af8,paid_search
2,b4bc852d233dfefc5131f593b538befa,2018-03-22,a7982125ff7aa3b2054c6e44f9d28522,organic_search
3,6be030b81c75970747525b843c1ef4f8,2018-01-22,d45d558f0daeecf3cccdffe3c59684aa,email
4,5420aad7fec3549a85876ba1c529bd84,2018-02-21,b48ec5f3b04e9068441002a19df93c6c,organic_search


In [184]:
print("--- Informações descritivas (describe) ---")
df_marketing.describe()

--- Informações descritivas (describe) ---


Unnamed: 0,mql_id,first_contact_date,landing_page_id,origin
count,8000,8000,8000,7940
unique,8000,336,495,10
top,dac32acd4db4c29c230538b72f8dd87d,2018-05-02,b76ef37428e6799c421989521c0e5077,organic_search
freq,1,93,912,2296


In [185]:
print("--- Informações descritivas (tamanho) ---")
df_marketing.shape

--- Informações descritivas (tamanho) ---


(8000, 4)

### 1.8 Análise do dataset "Order_payments"

- **Estrutura:** A tabela tem 5 colunas e 103886 linhas.
- **Qualidade:** Não há valores nulos.
- **Insights:** Temos a chave =  `order_id`. A coluna payment_type parece um dado importante.

In [186]:
print("--- Informações Estruturais (info) ---")
df_order_payments.info() 

--- Informações Estruturais (info) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103886 entries, 0 to 103885
Data columns (total 5 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   order_id              103886 non-null  object 
 1   payment_sequential    103886 non-null  int64  
 2   payment_type          103886 non-null  object 
 3   payment_installments  103886 non-null  int64  
 4   payment_value         103886 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 4.0+ MB


In [187]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_order_payments.isnull().sum()) 


--- Contagem de Nulos (isnull) ---
order_id                0
payment_sequential      0
payment_type            0
payment_installments    0
payment_value           0
dtype: int64


In [188]:
print("\n--- Visualização Inicial (head) ---")
df_order_payments.head()


--- Visualização Inicial (head) ---


Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
0,b81ef226f3fe1789b1e8b2acac839d17,1,credit_card,8,99.33
1,a9810da82917af2d9aefd1278f1dcfa0,1,credit_card,1,24.39
2,25e8ea4e93396b6fa0d3dd708e76c1bd,1,credit_card,1,65.71
3,ba78997921bbcdc1373bb41e913ab953,1,credit_card,8,107.78
4,42fdf880ba16b47b59251dd489d4441a,1,credit_card,2,128.45


In [189]:
print("--- Informações descritivas (describe) ---")
df_order_payments.describe()

--- Informações descritivas (describe) ---


Unnamed: 0,payment_sequential,payment_installments,payment_value
count,103886.0,103886.0,103886.0
mean,1.092679,2.853349,154.10038
std,0.706584,2.687051,217.494064
min,1.0,0.0,0.0
25%,1.0,1.0,56.79
50%,1.0,1.0,100.0
75%,1.0,4.0,171.8375
max,29.0,24.0,13664.08


In [190]:
print("--- Informações descritivas (tamanho) ---")
df_order_payments.shape

--- Informações descritivas (tamanho) ---


(103886, 5)

### 1.9 Análise do dataset "Order_reviews"

- **Estrutura:** A tabela tem 7 colunas e 99224 linhas.
- **Qualidade:** As colunas review_comment_title e review_comment_message, possuem respectivamente 87656 e 58247 valores nulos.
- **Insights:** Temos a chave =  `order_id`. Os valores nulos de titulo de comentário, mesmos nulos não parecem ter um peso tão alto a depender do score.

In [191]:
print("--- Informações Estruturais (info) ---")
df_order_reviews.info() 

--- Informações Estruturais (info) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99224 entries, 0 to 99223
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   review_id                99224 non-null  object
 1   order_id                 99224 non-null  object
 2   review_score             99224 non-null  int64 
 3   review_comment_title     11568 non-null  object
 4   review_comment_message   40977 non-null  object
 5   review_creation_date     99224 non-null  object
 6   review_answer_timestamp  99224 non-null  object
dtypes: int64(1), object(6)
memory usage: 5.3+ MB


In [192]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_order_reviews.isnull().sum()) 


--- Contagem de Nulos (isnull) ---
review_id                      0
order_id                       0
review_score                   0
review_comment_title       87656
review_comment_message     58247
review_creation_date           0
review_answer_timestamp        0
dtype: int64


In [193]:
print("\n--- Visualização Inicial (head) ---")
df_order_reviews.head()


--- Visualização Inicial (head) ---


Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18 00:00:00,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10 00:00:00,2018-03-11 03:05:13
2,228ce5500dc1d8e020d8d1322874b6f0,f9e4b658b201a9f2ecdecbb34bed034b,5,,,2018-02-17 00:00:00,2018-02-18 14:36:24
3,e64fb393e7b32834bb789ff8bb30750e,658677c97b385a9be170737859d3511b,5,,Recebi bem antes do prazo estipulado.,2017-04-21 00:00:00,2017-04-21 22:02:06
4,f7c4243c7fe1938f181bec41a392bdeb,8e6bfb81e283fa7e4f11123a3fb894f1,5,,Parabéns lojas lannister adorei comprar pela I...,2018-03-01 00:00:00,2018-03-02 10:26:53


In [194]:
print("--- Informações descritivas (describe) ---")
df_order_reviews.describe()

--- Informações descritivas (describe) ---


Unnamed: 0,review_score
count,99224.0
mean,4.086421
std,1.347579
min,1.0
25%,4.0
50%,5.0
75%,5.0
max,5.0


In [195]:
print("--- Informações descritivas (tamanho) ---")
df_order_reviews.shape

--- Informações descritivas (tamanho) ---


(99224, 7)

### 1.10 Análise do dataset "closed_deals"

- **Estrutura:** A tabela tem 14 colunas e 842 linhas.
- **Qualidade:** As colunas business_segment, lead_type, lead_behaviour_profile, has_company, has_gtin, average_stock, business_type e declared_product_catalog_size, possuem respectivamente 
  1, 6, 177, 779, 778 ,776, 10, 773, valores nulos.
- **Insights:** Temos as chaves =  `mql_id`, `seller_id`, `sdr_id` e `sr_id`, (verificar a importancia real das duas ultimas). 

In [196]:
print("--- Informações Estruturais (info) ---")
df_closed_deals.info() 

--- Informações Estruturais (info) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 842 entries, 0 to 841
Data columns (total 14 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   mql_id                         842 non-null    object 
 1   seller_id                      842 non-null    object 
 2   sdr_id                         842 non-null    object 
 3   sr_id                          842 non-null    object 
 4   won_date                       842 non-null    object 
 5   business_segment               841 non-null    object 
 6   lead_type                      836 non-null    object 
 7   lead_behaviour_profile         665 non-null    object 
 8   has_company                    63 non-null     object 
 9   has_gtin                       64 non-null     object 
 10  average_stock                  66 non-null     object 
 11  business_type                  832 non-null    object 
 12  declared_pr

In [197]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_closed_deals.isnull().sum()) 


--- Contagem de Nulos (isnull) ---
mql_id                             0
seller_id                          0
sdr_id                             0
sr_id                              0
won_date                           0
business_segment                   1
lead_type                          6
lead_behaviour_profile           177
has_company                      779
has_gtin                         778
average_stock                    776
business_type                     10
declared_product_catalog_size    773
declared_monthly_revenue           0
dtype: int64


In [198]:
print("\n--- Visualização Inicial (head) ---")
df_closed_deals.head()


--- Visualização Inicial (head) ---


Unnamed: 0,mql_id,seller_id,sdr_id,sr_id,won_date,business_segment,lead_type,lead_behaviour_profile,has_company,has_gtin,average_stock,business_type,declared_product_catalog_size,declared_monthly_revenue
0,5420aad7fec3549a85876ba1c529bd84,2c43fb513632d29b3b58df74816f1b06,a8387c01a09e99ce014107505b92388c,4ef15afb4b2723d8f3d81e51ec7afefe,2018-02-26 19:58:54,pet,online_medium,cat,,,,reseller,,0.0
1,a555fb36b9368110ede0f043dfc3b9a0,bbb7d7893a450660432ea6652310ebb7,09285259593c61296eef10c734121d5b,d3d1e91a157ea7f90548eef82f1955e3,2018-05-08 20:17:59,car_accessories,industry,eagle,,,,reseller,,0.0
2,327174d3648a2d047e8940d7d15204ca,612170e34b97004b3ba37eae81836b4c,b90f87164b5f8c2cfa5c8572834dbe3f,6565aa9ce3178a5caf6171827af3a9ba,2018-06-05 17:27:23,home_appliances,online_big,cat,,,,reseller,,0.0
3,f5fee8f7da74f4887f5bcae2bafb6dd6,21e1781e36faf92725dde4730a88ca0f,56bf83c4bb35763a51c2baab501b4c67,d3d1e91a157ea7f90548eef82f1955e3,2018-01-17 13:51:03,food_drink,online_small,,,,,reseller,,0.0
4,ffe640179b554e295c167a2f6be528e0,ed8cb7b190ceb6067227478e48cf8dde,4b339f9567d060bcea4f5136b9f5949e,d3d1e91a157ea7f90548eef82f1955e3,2018-07-03 20:17:45,home_appliances,industry,wolf,,,,manufacturer,,0.0


In [199]:
print("--- Informações descritivas (describe) ---")
df_closed_deals.describe()

--- Informações descritivas (describe) ---


Unnamed: 0,declared_product_catalog_size,declared_monthly_revenue
count,69.0,842.0
mean,233.028986,73377.68
std,352.380558,1744799.0
min,1.0,0.0
25%,30.0,0.0
50%,100.0,0.0
75%,300.0,0.0
max,2000.0,50000000.0


In [200]:
print("--- Informações descritivas (tamanho) ---")
df_closed_deals.shape

--- Informações descritivas (tamanho) ---


(842, 14)

### 1.11 Análise do dataset "Category_name"

- **Estrutura:** A tabela tem 2 colunas e 71 linhas.
- **Qualidade:** Não há valores nulos.
- **Insights:** Temos a chave =  `product_category_name`. Basicamente uma coluna de tradução do nome da categoria, de portugues para ingles.

In [201]:
print("--- Informações Estruturais (info) ---")
df_category_name_translation.info() 

--- Informações Estruturais (info) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 71 entries, 0 to 70
Data columns (total 2 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   product_category_name          71 non-null     object
 1   product_category_name_english  71 non-null     object
dtypes: object(2)
memory usage: 1.2+ KB


In [202]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_category_name_translation.isnull().sum()) 


--- Contagem de Nulos (isnull) ---
product_category_name            0
product_category_name_english    0
dtype: int64


In [203]:
print("\n--- Visualização Inicial (head) ---")
df_category_name_translation.head()


--- Visualização Inicial (head) ---


Unnamed: 0,product_category_name,product_category_name_english
0,beleza_saude,health_beauty
1,informatica_acessorios,computers_accessories
2,automotivo,auto
3,cama_mesa_banho,bed_bath_table
4,moveis_decoracao,furniture_decor


In [204]:
print("--- Informações descritivas (describe) ---")
df_category_name_translation.describe()

--- Informações descritivas (describe) ---


Unnamed: 0,product_category_name,product_category_name_english
count,71,71
unique,71,71
top,beleza_saude,health_beauty
freq,1,1


In [205]:
print("--- Informações descritivas (tamanho) ---")
df_category_name_translation.shape

--- Informações descritivas (tamanho) ---


(71, 2)

# 2. Limpeza e tratamento de dados nulos e tipo de colunas
___

## 2.1 Tratamento no dataset orders

### 2.1.1 Anomalia de valores nulos no campo "order_approved_at"

- **Insight:** Dos 160 valores nulos, 141 foram cancelados, 5 criados (mas não entregues) e 14 entregues. A anomalia está exatamente nos pedidos entregues sem data de criação.

In [206]:
# Filtrar o DataFrame para mostrar apenas as linhas onde 'order_approved_at' é nulo
df_pedidos_nao_aprovados = df_orders[df_orders['order_approved_at'].isnull()]
# Conta o número de ocorrências de cada status de pedido entre os pedidos não aprovados
contagem_status = df_pedidos_nao_aprovados['order_status'].value_counts()
print(contagem_status)

order_status
canceled     141
delivered     14
created        5
Name: count, dtype: int64


### 2.1.2 Tratamento da Anomalia de Dados 

A análise exploratória revelou 14 pedidos com status `delivered` na coluna `order_approved_at`. A investigação mostrou que estes pedidos são legítimos (possuem pagamentos, itens e avaliações), indicando uma provável falha no registo da data.
Também foram encontradas nas colunas `order_delivered_carrier_date` e `order_delivered_customer_date` um total de 9 pedidos únicoos que foram marcados como `delivered` mas que possuem datas de entrega nulas. Esta é uma inconsistência crítica.

**Decisão:** Para garantir a integridade dos nossos cálculos de tempo de entrega, dado o volume estatisticamente insignificante e para garantir a integridade dos cálculos de tempo de processamento, estas 23 linhas serão removidas do nosso conjunto de dados de análise.


In [207]:
def remover_pedidos_anomalos(df_pedidos):
    """
    Identifica e remove os pedidos marcados como 'delivered' mas sem data de aprovação.
    Recebe o DataFrame de pedidos e retorna uma nova versão limpa.

    Args:
        df_pedidos (pd.DataFrame): O DataFrame original de pedidos.

    Returns:
        pd.DataFrame: Um novo DataFrame sem as linhas anómalas.
    """
    # 1. Identificar os IDs dos pedidos anómalos
    pedidos_nao_aprovados = df_pedidos[df_pedidos['order_approved_at'].isnull()]
    ids_anomalia_1 = pedidos_nao_aprovados[pedidos_nao_aprovados['order_status'] == 'delivered']['order_id']
    df_sem_envio = df_pedidos[df_pedidos['order_delivered_carrier_date'].isnull()] # Adicionado para clareza
    ids_anomalia_2 = df_sem_envio[df_sem_envio['order_status'] == 'delivered']['order_id']
    df_sem_entrega_cliente = df_pedidos[df_pedidos['order_delivered_customer_date'].isnull()] # Adicionado para clareza
    ids_anomalia_3 = df_sem_entrega_cliente[df_sem_entrega_cliente['order_status'] == 'delivered']['order_id']
    
    # A correção está aqui: concatenamos as Séries e DEPOIS aplicamos .unique()
    lista_id_anomalia = pd.concat([ids_anomalia_1, ids_anomalia_2, ids_anomalia_3]).unique().tolist()

    # 2. Registrar a ação
    print(f"Encontradas {len(lista_id_anomalia)} linhas anómalas para remover.")
    print(f"Número de linhas antes da limpeza: {df_pedidos.shape[0]}")

    # 3. Remover as linhas e criar um novo DataFrame
    df_limpo = df_pedidos[~df_pedidos['order_id'].isin(lista_id_anomalia)].copy()

    # 4. Verificar e retornar o resultado
    print(f"Número de linhas após a limpeza: {df_limpo.shape[0]}")
    
    return df_limpo

In [208]:
# Chamar a nossa função de limpeza para tratar o DataFrame de pedidos
df_orders_tratado = remover_pedidos_anomalos(df_orders)

# A partir de agora, use a versão tratada: df_orders_tratado
df_orders_tratado.info()
print(df_orders_tratado.isnull().sum())

Encontradas 23 linhas anómalas para remover.
Número de linhas antes da limpeza: 99441
Número de linhas após a limpeza: 99418
<class 'pandas.core.frame.DataFrame'>
Index: 99418 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   order_id                       99418 non-null  object
 1   customer_id                    99418 non-null  object
 2   order_status                   99418 non-null  object
 3   order_purchase_timestamp       99418 non-null  object
 4   order_approved_at              99272 non-null  object
 5   order_delivered_carrier_date   97637 non-null  object
 6   order_delivered_customer_date  96461 non-null  object
 7   order_estimated_delivery_date  99418 non-null  object
dtypes: object(8)
memory usage: 6.8+ MB
order_id                            0
customer_id                         0
order_status                        0
order_purchase_timestamp    

## 2.2 Tratamento no dataset products


### 2.2.1 Tratando valores

- **Categoria:** Para categoria, usar "Desconhecido" é o mais ideal e quantificavel. Já quanto ao tamanho do nome do produto, da descrição e da quantidade de fotos, substituir por zero foi o mais seguro.
- **Dimensões fisicas:** Para dimensões fisicas, preferi usar a mediana, visto que o peso medio de de 2,2kg e a mediana é de 700g, é mais ideal e mais proximo da realidade utilizar o valor mediano para não gerar anomalias.

In [209]:
# Verifique os nulos antes do tratamento para confirmar
print("--- Nulos ANTES do tratamento em df_products: ---")
print(df_products.isnull().sum())

# Crie uma cópia para trabalhar de forma segura, evitando o SettingWithCopyWarning
df_products_tratado = df_products.copy()

# Para a categoria do produto, 'desconhecido' é uma boa opção.
df_products_tratado['product_category_name'] = df_products_tratado['product_category_name'].fillna('desconhecido')

# Para comprimento do nome, descrição e quantidade de fotos, 0 é um valor neutro e seguro.
colunas_para_preencher_com_zero = ['product_name_lenght', 'product_description_lenght', 'product_photos_qty']
for coluna in colunas_para_preencher_com_zero:
    df_products_tratado[coluna] = df_products_tratado[coluna].fillna(0)

# Para as dimensões físicas, a mediana é mais robusta a outliers que a média.
colunas_dimensoes = ['product_weight_g', 'product_length_cm', 'product_height_cm', 'product_width_cm']
for coluna in colunas_dimensoes:
    mediana = df_products_tratado[coluna].median()
    df_products_tratado[coluna] = df_products_tratado[coluna].fillna(mediana)

# Verifique os nulos depois do tratamento (o resultado deve ser uma lista de zeros)
print("\n--- Nulos APÓS o tratamento em df_products: ---")
print(df_products_tratado.isnull().sum())

--- Nulos ANTES do tratamento em df_products: ---
product_id                      0
product_category_name         610
product_name_lenght           610
product_description_lenght    610
product_photos_qty            610
product_weight_g                2
product_length_cm               2
product_height_cm               2
product_width_cm                2
dtype: int64

--- Nulos APÓS o tratamento em df_products: ---
product_id                    0
product_category_name         0
product_name_lenght           0
product_description_lenght    0
product_photos_qty            0
product_weight_g              0
product_length_cm             0
product_height_cm             0
product_width_cm              0
dtype: int64


## 2.3 Tratamento de Nulos em closed_deals

In [210]:
# Verifique os nulos antes do tratamento para confirmar
print("--- Nulos ANTES do tratamento em df_closed_deals: ---")
print(df_closed_deals.isnull().sum())

# Crie uma cópia para trabalhar de forma segura, evitando o SettingWithCopyWarning
df_closed_deals_tratado = df_closed_deals.copy()

# Para as colunas de texto
closed_deals_texto = ['business_segment', 'lead_type', 'lead_behaviour_profile', 'business_type']
for coluna in closed_deals_texto:
    df_closed_deals_tratado[coluna] = df_closed_deals_tratado[coluna].fillna('desconhecido')

# Para as colunas de Sim/Não (booleans)
closed_deals_bool = ['has_company', 'has_gtin']
for coluna in closed_deals_bool:
    df_closed_deals_tratado[coluna] = df_closed_deals_tratado[coluna].fillna(False)

# Para as colunas numericas
closed_deals_numericas = ['average_stock', 'declared_product_catalog_size']
for coluna in closed_deals_numericas:
    df_closed_deals_tratado[coluna] = df_closed_deals_tratado[coluna].fillna(0)

# Verifique os nulos depois do tratamento (o resultado deve ser uma lista de zeros)
print("\n--- Nulos APÓS o tratamento em df_products: ---")
print(df_closed_deals_tratado.isnull().sum())

--- Nulos ANTES do tratamento em df_closed_deals: ---
mql_id                             0
seller_id                          0
sdr_id                             0
sr_id                              0
won_date                           0
business_segment                   1
lead_type                          6
lead_behaviour_profile           177
has_company                      779
has_gtin                         778
average_stock                    776
business_type                     10
declared_product_catalog_size    773
declared_monthly_revenue           0
dtype: int64

--- Nulos APÓS o tratamento em df_products: ---
mql_id                           0
seller_id                        0
sdr_id                           0
sr_id                            0
won_date                         0
business_segment                 0
lead_type                        0
lead_behaviour_profile           0
has_company                      0
has_gtin                         0
average_stock   

  df_closed_deals_tratado[coluna] = df_closed_deals_tratado[coluna].fillna(False)


## 2.4 Tratando e convertendo colunas de string para data

### 2.4.1 Convertendo no dataset "orders"

In [211]:
coluna_data_orders = ['order_purchase_timestamp', 'order_approved_at', 'order_delivered_carrier_date', 'order_delivered_customer_date', 'order_estimated_delivery_date']
for coluna in coluna_data_orders:
    df_orders_tratado[coluna] = pd.to_datetime(df_orders_tratado[coluna], errors='coerce')

df_orders_tratado.info()
print(df_orders_tratado.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
Index: 99418 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   order_id                       99418 non-null  object        
 1   customer_id                    99418 non-null  object        
 2   order_status                   99418 non-null  object        
 3   order_purchase_timestamp       99418 non-null  datetime64[ns]
 4   order_approved_at              99272 non-null  datetime64[ns]
 5   order_delivered_carrier_date   97637 non-null  datetime64[ns]
 6   order_delivered_customer_date  96461 non-null  datetime64[ns]
 7   order_estimated_delivery_date  99418 non-null  datetime64[ns]
dtypes: datetime64[ns](5), object(3)
memory usage: 6.8+ MB
order_id                            0
customer_id                         0
order_status                        0
order_purchase_timestamp            0
order_approved_a

### 2.4.2 Convertendo no dataset "order_items"


In [212]:
df_order_items['shipping_limit_date'] = pd.to_datetime(df_order_items['shipping_limit_date'], errors='coerce')
df_order_items.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype         
---  ------               --------------   -----         
 0   order_id             112650 non-null  object        
 1   order_item_id        112650 non-null  int64         
 2   product_id           112650 non-null  object        
 3   seller_id            112650 non-null  object        
 4   shipping_limit_date  112650 non-null  datetime64[ns]
 5   price                112650 non-null  float64       
 6   freight_value        112650 non-null  float64       
dtypes: datetime64[ns](1), float64(2), int64(1), object(3)
memory usage: 6.0+ MB


### 2.4.3 Convertendo no dataset "order_reviews"


In [213]:
colunas_data_reviews = ['review_creation_date', 'review_answer_timestamp']
for coluna in colunas_data_reviews:
    df_order_reviews[coluna] = pd.to_datetime(df_order_reviews[coluna], errors='coerce')
df_order_reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99224 entries, 0 to 99223
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   review_id                99224 non-null  object        
 1   order_id                 99224 non-null  object        
 2   review_score             99224 non-null  int64         
 3   review_comment_title     11568 non-null  object        
 4   review_comment_message   40977 non-null  object        
 5   review_creation_date     99224 non-null  datetime64[ns]
 6   review_answer_timestamp  99224 non-null  datetime64[ns]
dtypes: datetime64[ns](2), int64(1), object(4)
memory usage: 5.3+ MB


### 2.4.4 Convertendo no dataset "closed_deals"


In [214]:
df_closed_deals_tratado['won_date'] = pd.to_datetime(df_closed_deals_tratado['won_date'], errors='coerce')
df_closed_deals_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 842 entries, 0 to 841
Data columns (total 14 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   mql_id                         842 non-null    object        
 1   seller_id                      842 non-null    object        
 2   sdr_id                         842 non-null    object        
 3   sr_id                          842 non-null    object        
 4   won_date                       842 non-null    datetime64[ns]
 5   business_segment               842 non-null    object        
 6   lead_type                      842 non-null    object        
 7   lead_behaviour_profile         842 non-null    object        
 8   has_company                    842 non-null    bool          
 9   has_gtin                       842 non-null    bool          
 10  average_stock                  842 non-null    object        
 11  business_type      

### 2.4.5 Convertendo no dataset "marketing"


In [215]:
df_marketing['first_contact_date'] = pd.to_datetime(df_marketing['first_contact_date'], errors='coerce')
df_marketing.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8000 entries, 0 to 7999
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   mql_id              8000 non-null   object        
 1   first_contact_date  8000 non-null   datetime64[ns]
 2   landing_page_id     8000 non-null   object        
 3   origin              7940 non-null   object        
dtypes: datetime64[ns](1), object(3)
memory usage: 250.1+ KB


# 3. Unificação dos datasets (merge)
---

## 3.1 Unificação das planilhas utilizando chaves especificas

In [216]:
# Passo 1: Comece pelo coração. Junte os pedidos com os seus itens.
print("Iniciando a unificação...")
df_master = pd.merge(df_orders_tratado, df_order_items, on='order_id', how='inner')
print(f"Shape após merge com order_items: {df_master.shape}")

# Passo 2: Adicionar os dados de pagamento
df_master = pd.merge(df_master, df_order_payments, on='order_id', how='left')
print(f"Shape após merge com order_payments: {df_master.shape}")

# Passo 3: Adicionar os dados das reviews
df_master = pd.merge(df_master, df_order_reviews, on='order_id', how='left')
print(f"Shape após merge com order_reviews: {df_master.shape}")

# Passo 4: Adicionar os dados dos produtos
df_master = pd.merge(df_master, df_products_tratado, on='product_id', how='left')
print(f"Shape após merge com products_tratado: {df_master.shape}")

# Passo 5: Adicionar os dados dos clientes
df_master = pd.merge(df_master, df_customers, on='customer_id', how='left')
print(f"Shape após merge com customers: {df_master.shape}")

# Passo 6: Adicionar os dados dos vendedores
df_master = pd.merge(df_master, df_sellers, on='seller_id', how='left')
print(f"Shape após merge com sellers: {df_master.shape}")

# Verificação final
print("\n--- Verificação final do df_master ---")
print((df_master).isnull().sum())

Iniciando a unificação...
Shape após merge com order_items: (112626, 14)
Shape após merge com order_payments: (117580, 18)
Shape após merge com order_reviews: (118286, 24)
Shape após merge com products_tratado: (118286, 32)
Shape após merge com customers: (118286, 36)
Shape após merge com sellers: (118286, 39)

--- Verificação final do df_master ---
order_id                              0
customer_id                           0
order_status                          0
order_purchase_timestamp              0
order_approved_at                     0
order_delivered_carrier_date       1252
order_delivered_customer_date      2580
order_estimated_delivery_date         0
order_item_id                         0
product_id                            0
seller_id                             0
shipping_limit_date                   0
price                                 0
freight_value                         0
payment_sequential                    3
payment_type                          3
payment_

# 4. Análise do Negócio

## 4.1 Criando agrupamento de valores

**Processo:** Visto que, alguns pagamentos foram parcelados, foi criado um uma copia da master e um DataFrame para agregar esses pagamentos em um unico lugar.

In [None]:
df_analise = df_master.copy()


print("Criando tabela de pagamentos...")
df_pagamentos_agregado = df_analise.groupby('order_id').agg(
    total_parcelas = ('payment_installments', 'sum'),
    valor_total_pagamento = ('payment_value', 'sum'),
    tipo_pagamento_principal = ('payment_type', 'first')
).reset_index()

print("Visão Agregada dos Pagamentos:")
print(df_pagamentos_agregado.info())

Criando tabela de pagamentos...
Visão Agregada dos Pagamentos:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99417 entries, 0 to 99416
Data columns (total 4 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   order_id                  99417 non-null  object 
 1   total_parcelas            99417 non-null  float64
 2   valor_total_pagamento     99417 non-null  float64
 3   tipo_pagamento_principal  99416 non-null  object 
dtypes: float64(2), object(2)
memory usage: 3.0+ MB
None


## 4.2 Engenharia de Atributos

**Processo:** Para realizar algumas analises temporais, foi necessário fazer alguns calculos para conseguir os dados referente ao tempo de entrega, a diferença entre a data real e a data estimada, e separar ano, mês e dia da semana.

In [None]:
# Tempo de entrega em dias
df_analise['tempo_entrega'] = (df_analise['order_delivered_customer_date'] - df_analise['order_purchase_timestamp']).dt.days

# Diferença entre a data estimada e a data real de entrega
df_analise['diferenca_entrega_estimada'] = (df_analise['order_estimated_delivery_date'] - df_analise['order_delivered_customer_date']).dt.days

# Extrair ano, mês, dia da semana, focada em sazonalidade
df_analise['ano_compra'] = df_analise['order_purchase_timestamp'].dt.year
df_analise['mes_compra'] = df_analise['order_purchase_timestamp'].dt.month
df_analise['dia_semana_compra'] = df_analise['order_purchase_timestamp'].dt.day_name()

# Verificar novas colunas
print("\n--- Novas colunas em df_analise ---")
df_analise[['tempo_entrega', 'diferenca_entrega_estimada', 'ano_compra', 'mes_compra', 'dia_semana_compra']].head()


--- Novas colunas em df_analise ---


Unnamed: 0,tempo_entrega,diferenca_entrega_estimada,ano_compra,mes_compra,dia_semana_compra
0,8.0,7.0,2017,10,Monday
1,8.0,7.0,2017,10,Monday
2,8.0,7.0,2017,10,Monday
3,13.0,5.0,2018,7,Tuesday
4,9.0,17.0,2018,8,Wednesday


# 5. Carga (Salvando em CSV)

**Decisão de Processo:** Para materializar o resultado do ETL e permitir que outros processos consumam os dados tratados, o dataframe final `df_analise` e o dataframe auxiliar `df_pagamentos_agregado` serão exportados para arquivos CSV. Esta é a etapa final que conclui o pipeline de preparação de dados.

In [None]:
# Definir o caminho para a pasta de dados processados
output_dir = '../data/processed'

# Criar a pasta 'processed' caso ela não exista
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
    print(f"Diretório criado em: {output_dir}")

# Definir os caminhos completos onde os arquivos serão salvos
caminho_analise = os.path.join(output_dir, 'df_analise_olist.csv')
caminho_pagamentos = os.path.join(output_dir, 'df_pagamentos_agregado_olist.csv')

# Salvar os dataframes usando .to_csv()
print(f"Salvando o dataframe principal em: {caminho_analise}")
df_analise.to_csv(caminho_analise, index=False)

print(f"Salvando o dataframe de pagamentos em: {caminho_pagamentos}")
df_pagamentos_agregado.to_csv(caminho_pagamentos, index=False)

print("\nETL Concluído. Arquivos processados foram salvos com sucesso!")

Salvando o dataframe principal em: ../data/processed\df_analise_olist.csv
Salvando o dataframe de pagamentos em: ../data/processed\df_pagamentos_agregado_olist.csv

ETL Concluído. Arquivos processados foram salvos com sucesso!
