# **JORNADA DE DADOS <Laboratória>**
# **PROJ005**

A VAREJISTA, empresa líder no setor, enfrenta o desafio de gerenciar grandes volumes de dados dispersos. Para aprimorar a tomada de decisões, está sendo implementado um sistema ETL robusto com tabelas fato e dimensões. O projeto visa extrair, transformar e carregar dados de forma eficiente, estruturando-os hierarquicamente para facilitar análises estratégicas. Além de otimizar o armazenamento, a iniciativa busca ampliar a capacidade da empresa de identificar padrões e oportunidades de mercado, respondendo com agilidade às mudanças na demanda do consumidor.
<br><br>
• [**DATASET**](https://github.com/4L4N4F/Python_ETLpipeline/blob/main/superstore.csv)
<br><br>
• **DESCRIÇÃO DAS VARIÁVEIS** <small>(Conforme fornecidas pela Laboratória na documentação do projeto.)</small>
<br><br>
| Variável       | Descrição                                                                        | Tipo      |
|----------------|----------------------------------------------------------------------------------|-----------|
| category       | Categoria do produto adquirido                                                   | STRING    |
| city           | Cidade onde o pedido foi feito                                                   | STRING    |
| country        | País onde o hipermercado está localizado                                         | STRING    |
| customer_id    | Identificador único para cada cliente                                             | STRING    |
| customer_name  | Nome do cliente                                                                  | STRING    |
| discount       | Desconto aplicado no pedido                                                      | FLOAT     |
| market         | Mercado ou região onde o hipermercado atua                                        | STRING    |
| unknown        | Coluna desconhecida ou não especificada                                           | INTEGER   |
| order_date     | Data do pedido                                                                    | TIMESTAMP |
| order_id       | Identificador único para cada pedido                                             | STRING    |
| order_priority | Nível de prioridade do pedido                                                     | STRING    |
| product_id     | Identificador exclusivo para cada produto                                        | STRING    |
| product_name   | Nome do produto                                                                  | STRING    |
| profit         | Lucro gerado pelo pedido                                                          | FLOAT     |
| quantity       | Quantidade de produtos encomendados no pedido                                    | INTEGER   |
| region         | Região onde o pedido foi feito                                                   | STRING    |
| row_id         | Identificador exclusivo para cada linha do conjunto de dados                      | INTEGER   |
| sales          | Valor total de vendas do produto no pedido                                       | INTEGER   |
| segment        | Segmento do cliente                                                              | STRING    |
| ship_date      | Data de envio do pedido                                                           | TIMESTAMP |
| ship_mode      | Modo de envio do pedido                                                          | STRING    |
| shipping_cost  | Custo de envio do pedido                                                         | FLOAT     |
| state          | Estado ou região do país                                                         | STRING    |
| sub_category   | Subcategoria do produto                                                          | STRING    |
| year           | Ano do pedido                                                                    | INTEGER   |
| market2        | Outra coluna relacionada a informações de mercado                               | STRING    |
| weeknum        | Número da semana em que o pedido foi feito                                       | INTEGER   |

In [45]:
# SETUP

import unicodedata
import pandas as pd
import numpy as np

df = pd.read_csv('https://github.com/4L4N4F/Python_ETLpipeline/raw/refs/heads/main/superstore.csv')

In [32]:
if df.isnull().values.any():
    print("Há valores nulos no DataFrame.")
else:
    print("Não há valores nulos no DataFrame.")

if df.duplicated().any():
    print("Há linhas duplicadas no DataFrame.")
else:
    print("Não há linhas duplicadas no DataFrame.")

Não há valores nulos no DataFrame.
Não há linhas duplicadas no DataFrame.


In [35]:
# definir as variáveis categóricas
cat_cols = df.select_dtypes(include='object').columns
print("variáveis:", cat_cols)

# não agir em colunas que devem ser id ou nome
df.columns = df.columns.str.lower()
cols_to_clean = [c for c in cat_cols if 'id' not in c and 'name' not in c and 'date' not in c]
print(cols_to_clean)



variáveis: Index(['category', 'city', 'country', 'customer_id', 'customer_name', 'market',
       'order_date', 'order_id', 'order_priority', 'product_id',
       'product_name', 'region', 'segment', 'ship_date', 'ship_mode', 'state',
       'sub_category', 'market2'],
      dtype='object')
['category', 'city', 'country', 'market', 'order_priority', 'region', 'segment', 'ship_mode', 'state', 'sub_category', 'market2']


In [43]:
# padronização das categóricas

df_limpo = df.copy()

def padroniza_cols_to_clean(df, cols_to_clean):
    def remove_acentos(texto):
        if isinstance(texto, str):
            texto = unicodedata.normalize('NFKD', texto)
            texto = ''.join(c for c in texto if not unicodedata.combining(c))
        return texto
    for col in cols_to_clean:
        df[col] = df[col].astype(str).str.strip().str.lower().apply(remove_acentos)

    return df

df_limpo = padroniza_cols_to_clean(df_limpo, cols_to_clean)
df_limpo[cols_to_clean].sample(50, random_state=42)



Unnamed: 0,category,city,country,market,order_priority,region,segment,ship_mode,state,sub_category,market2
49728,technology,philadelphia,united states,us,medium,east,consumer,second class,pennsylvania,accessories,north america
45547,office supplies,wollongong,australia,apac,medium,oceania,corporate,second class,new south wales,supplies,apac
15664,office supplies,galati,romania,emea,medium,emea,corporate,standard class,galati,binders,emea
40561,office supplies,lisbon,portugal,eu,medium,south,consumer,standard class,lisboa,paper,eu
49426,furniture,coral springs,united states,us,high,south,corporate,same day,florida,furnishings,north america
18956,office supplies,prague,czech republic,emea,medium,emea,consumer,standard class,prague,binders,emea
14238,office supplies,vienna,austria,emea,medium,emea,corporate,standard class,vienna,envelopes,emea
31818,office supplies,lagos,nigeria,africa,medium,africa,corporate,first class,lagos,art,africa
41388,furniture,buenos aires,argentina,latam,medium,south,consumer,standard class,buenos aires,chairs,latam
37236,office supplies,la ceiba,honduras,latam,high,central,corporate,standard class,atlantida,storage,latam


In [46]:
# verificações das variáveis numéricas

num_cols = df_limpo.select_dtypes(include=['int64', 'float64']).columns

outliers_dict = {}
nulls_dict = {}
invalid_dict = {}

for col in num_cols:
    # nulos
    nulls_dict[col] = df_limpo[col].isnull().sum()

    # inválidos
    invalid_values = df_limpo[~df_limpo[col].apply(lambda x: np.isreal(x)) & df_limpo[col].notnull()]
    invalid_dict[col] = len(invalid_values)

    # outliers
    q1 = df_limpo[col].quantile(0.25)
    q3 = df_limpo[col].quantile(0.75)
    iqr = q3 - q1
    lower, upper = q1 - 1.5*iqr, q3 + 1.5*iqr
    outliers = df_limpo[(df_limpo[col] < lower) | (df_limpo[col] > upper)]

    outliers_dict[col] = len(outliers)

variable_report = pd.DataFrame({
    'var': num_cols,
    'null': [nulls_dict[c] for c in num_cols],
    'inv': [invalid_dict[c] for c in num_cols],
    'outliers': [outliers_dict[c] for c in num_cols]
})

variable_report

Unnamed: 0,var,null,inv,outliers
0,discount,0,0,4172
1,unknown,0,0,0
2,profit,0,0,9755
3,quantity,0,0,877
4,row_id,0,0,0
5,sales,0,0,5655
6,shipping_cost,0,0,5909
7,year,0,0,0
8,weeknum,0,0,0
