# Projeto ETL ‚Äì Pipeline de Vendas

## üìÑ Descri√ß√£o
Pipeline ETL desenvolvido em Python como parte do Bootcamp Santander 2025, com foco em boas pr√°ticas de extra√ß√£o, valida√ß√£o, transforma√ß√£o e carregamento de dados a partir de um arquivo CSV fict√≠cio de vendas.

## üéØ Objetivo
Demonstrar a constru√ß√£o de um pipeline ETL simples, organizado e documentado, utilizando Python e bibliotecas amplamente adotadas no mercado.

## üóÇÔ∏è Estrutura do Projeto
O projeto possui a seguinte estrutura
```
ProjetoETL/
‚îÇ
‚îú‚îÄ‚îÄ data/
‚îÇ   ‚îú‚îÄ‚îÄ vendas_clean.csv
‚îÇ   ‚îî‚îÄ‚îÄ vendas_raw.csv
‚îÇ
‚îú‚îÄ‚îÄ notebooks/
‚îÇ   ‚îî‚îÄ‚îÄ projeto_ETL_2025.ipynb
‚îÇ
‚îú‚îÄ‚îÄ src/
‚îÇ   ‚îú‚îÄ‚îÄ extract.py
‚îÇ   ‚îú‚îÄ‚îÄ transform.py
‚îÇ   ‚îú‚îÄ‚îÄ load.py
‚îÇ   
‚îú‚îÄ‚îÄ .env
‚îú‚îÄ‚îÄ main.py                    
‚îú‚îÄ‚îÄ README.md
‚îî‚îÄ‚îÄ requirements.txt
```

## Requisitos
- Python 3.11 ou superior

- Bibliotecas Externas:
    - pandas
    - python-dotenv

## üîÑ Pipeline ETL
Explica√ß√£o resumida das etapas:
- Extract: leitura e valida√ß√£o inicial dos dados.
- Transform: tratamento, padroniza√ß√£o e valida√ß√µes.
- Load: grava√ß√£o da base final tratada.

## üß™ Tecnologias Utilizadas
- Python 3.11+
- pandas: manipula√ß√£o e transforma√ß√£o dos dados
- python-dotenv: gerenciamento de vari√°veis de ambiente
- VS Code
- Jupyter Notebook

## üöÄ Como Executar o Projeto
1. Clone este reposit√≥rio para sua m√°quina local.
2. Crie e ative um ambiente virtual Python (recomendado).
3. Instale as depend√™ncias do projeto:
```
    pip install -r requirements.txt
```
4. Configure o arquivo .env.
5. Execute o notebook Jupyter.


## üìä Dados
Dataset fict√≠cio de vendas contendo informa√ß√µes de produto, categoria, quantidade e valores, utilizado exclusivamente para fins educacionais.

## ‚úÖ Conclus√£o
Este projeto evidencia a import√¢ncia do processo ETL na prepara√ß√£o de dados confi√°veis e organizados, servindo como base para an√°lises e tomadas de decis√£o em projetos de dados.

In [1]:
# Importa√ß√£o das bibliotecas
import pandas as pd
from dotenv import load_dotenv
import os
import logging
import sys

In [2]:
# Configurando a formata√ß√£o de 2 casas decimais para float format
pd.options.display.float_format = '{:.2f}'.format

In [3]:
# Configurar o logging da aplica√ß√£o e e o formato das mensagens de log a partir de vari√°veis de ambiente.
logging.basicConfig(
    level=os.getenv("LOG_LEVEL", "INFO"),
    format="%(asctime)s | %(levelname)s | %(message)s"
)

In [4]:
# Carregar vari√°veis do arquivo .env para o ambiente Python.
load_dotenv()

True

In [5]:
# Criando a fun√ß√£o para Carregar o arquivo csv
def carrega_arquivo_csv(caminho: str) -> pd.DataFrame:
    """Carrega um arquivo CSV a partir do caminho fornecido ou de uma vari√°vel de ambiente.
    Par√¢metros: caminho (str): Caminho do arquivo ou nome da vari√°vel de ambiente contendo o caminho.
    Retorno: pd.DataFrame: DataFrame carregado ou vazio em caso de falha."""
    # Se a string passada for o nome de uma vari√°vel de ambiente, substitui pelo valor real
    base = os.getenv(caminho, caminho)
    logging.info(f"üìÑ Iniciando leitura do arquivo: {base}")
    try:
        df = pd.read_csv(base)
        logging.info("‚úÖ Arquivo CSV carregado com sucesso.")
        return df
    except FileNotFoundError:
        logging.error(f"‚ùóArquivo n√£o encontrado em: {base}")
    except Exception as e:
        logging.error(f"‚ùå Falha ao carregar o arquivo: {e}")
        return pd.DataFrame()

In [6]:
def valida_dados(df: pd.DataFrame) -> bool:
    """ Valida se o DataFrame carregado atende aos crit√©rios m√≠nimos
    para continuidade do pipeline ETL.
    Par√¢metros: df (pd.DataFrame): DataFrame extra√≠do na etapa de Extract.
    Retorno: bool: True se os dados forem v√°lidos, False caso contr√°rio.
    """
    try:
        logging.info("üîé Iniciando valida√ß√£o dos dados.")
        # 1. Verifica se o DataFrame est√° vazio
        if df.empty:
            logging.error("‚ùå DataFrame vazio. Nenhum dado foi carregado.")
            input("‚å®Ô∏è Pressione qualquer tecla para sair...")
            sys.exit("‚ùå Encerrando o programa devido a dados inv√°lidos.")

        # 2. Verifica se existem colunas
        if df.columns.size == 0:
            logging.error("‚ùóDataFrame n√£o possui colunas.")
            input("‚å®Ô∏è Pressione qualquer tecla para sair...")
            sys.exit("‚ùå Encerrando o programa devido a dados inv√°lidos.")
    
    except Exception as e:
        logging.critical(f"‚õî Erro: {e}")
        input("‚å®Ô∏è Pressione qualquer tecla para sair...")
        sys.exit("‚ùå Encerrando o programa devido a dados inv√°lidos.")
        
    logging.info("‚úÖ Valida√ß√£o conclu√≠da com sucesso.")


In [7]:
# Criando a fun√ß√£o de Status do Pipeline
def status_pipeline(df: pd.DataFrame) -> None:
    """Recebe os dados
       verifica se os dados est√£o v√°lidos, registra no log o resultado.
       Retorna a decis√£o """
    try:
        if valida_dados(df):
            logging.info("üÜó Pipeline pode continuar.")
            
        else:
            logging.critical(f"‚õî Pipeline interrompido: Dados inv√°lidos.")
            input("‚å®Ô∏è Pressione qualquer tecla para sair...")
            sys.exit("‚ùå Encerrando o programa devido a dados inv√°lidos.")
            
    except Exception as e:
        logging.critical(f"‚õî Pipeline interrompido: Erro: {e}.")
        input("‚å®Ô∏è Pressione qualquer tecla para sair...")
        sys.exit(f"‚ùå Encerrando o programa devido a erro: {e}")


## üì• ***1. Etapa EXTRACT ‚Äì Passos***
### **1.1 üìÑ - Ler o arquivo `vendas_raw.csv`.**

In [8]:
# Chamando a fun√ß√£o de leitura de arquivos
df = carrega_arquivo_csv("../data/vendas_raw.csv")

2025-12-15 22:04:57,295 | INFO | üìÑ Iniciando leitura do arquivo: ../data/vendas_raw.csv
2025-12-15 22:04:57,362 | INFO | ‚úÖ Arquivo CSV carregado com sucesso.


### **1.2 üîé - Validar se o arquivo foi carregado corretamente.**

In [9]:
# Chamando a fun√ß√£o de valida√ß√£o dos dados
valida_dados(df)

2025-12-15 22:04:57,375 | INFO | üîé Iniciando valida√ß√£o dos dados.
2025-12-15 22:04:57,378 | INFO | ‚úÖ Valida√ß√£o conclu√≠da com sucesso.


## üîß **2. Etapa TRANSFORM ‚Äì Passos**
### **2.1 - üîç Diagn√≥stico Inicial dos Dados**

Ap√≥s a extra√ß√£o e valida√ß√£o do arquivo, s√£o realizadas an√°lises iniciais
para compreender a estrutura do conjunto de dados

- As an√°lises incluem:<br><br>
    - Verificar as colunas existentes;
    - Quantidade de registros e colunas;
    - Tipos de dados e valores n√£o nulos;
    - Verificar se existem linhas duplicadas;
    - Identifica√ß√£o inicial de valores ausentes.

In [10]:
# Criando a fun√ß√£o que realiza a analise inicial
def analise_inicial(df: pd.DataFrame) -> None:
    '''A fun√ß√£o verifica o nome, a quantidade de linhas e colunas, 
       o tipo de cada coluna e se existem linhas duplicadas ou com dados nulos na base de dados.'''
    try:
        # Log de in√≠cio da an√°lise
        logging.info("... ‚ÑπÔ∏è An√°lise inicial dos dados ....\n")
        
        # Verificando o nome das colunas
        print(f"üìÑ Nomes das Colunas da base de dados:\n\n{list(df.columns)}", "\n\n---")

        # Verificando a quantidade de linhas e colunas
        linhas, colunas = df.shape
        print(f'\nüìÑ A base de dados possui {linhas} linhas e {colunas} colunas', "\n\n---")
        
        # Verificando o tipo de cada coluna
        print("\nüìÑ Analisando tipos de dados do DataFrame", "\n")
        df.info()
        print("\n---")

        # Verificando valores duplicados
        duplicadas = df.duplicated().sum()
        if duplicadas == 0:
            print("\nüÜó N√£o existem linhas duplicadas na base de dados")
            print("\n---")
        else:
            print(f"\n‚ùóQuantidade de linhas duplicadas: {duplicadas} linha(s)", "\n\n---")
            print("\n---")

        # Verificando valores nulos
        print(f"\nüìÑ Identificando valores nulos por coluna:\n\n{df.isna().sum()}", "\n\n---")
            
    except Exception as e:
        logging.error(f"‚õî Erro durante a an√°lise inicial: {e}")
    # Log de fim da an√°lise
    logging.info("... ‚úÖ An√°lise inicial dos dados finalizada com sucesso ....\n")

In [11]:
# Chamando a fun√ß√£o "analise_inicial"
analise_inicial(df)

2025-12-15 22:04:57,427 | INFO | ... ‚ÑπÔ∏è An√°lise inicial dos dados ....

2025-12-15 22:04:57,534 | INFO | ... ‚úÖ An√°lise inicial dos dados finalizada com sucesso ....



üìÑ Nomes das Colunas da base de dados:

['id_venda', 'produto', 'categoria', 'preco_unitario', 'quantidade', 'data_venda', 'cliente_id', 'cidade', 'estado'] 

---

üìÑ A base de dados possui 120 linhas e 9 colunas 

---

üìÑ Analisando tipos de dados do DataFrame 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120 entries, 0 to 119
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id_venda        120 non-null    int64  
 1   produto         120 non-null    object 
 2   categoria       120 non-null    object 
 3   preco_unitario  120 non-null    float64
 4   quantidade      120 non-null    int64  
 5   data_venda      120 non-null    object 
 6   cliente_id      120 non-null    int64  
 7   cidade          120 non-null    object 
 8   estado          120 non-null    object 
dtypes: float64(1), int64(3), object(5)
memory usage: 8.6+ KB

---

üÜó N√£o existem linhas duplicadas na base de dados

---

üìÑ

‚¨ÜÔ∏è Acima, foi poss√≠vel realizar a an√°liese inicial da base de dados ‚¨ÜÔ∏è

- Status da an√°lise:<br><br>
    - Identifica√ß√£o dos nomes das colunas;
    - Quantidade de linhas e colunas da base de dados;
    - Alterar o tipo da coluna `data_venda` do tipo `object` para o tipo `datetime` ;
    - Alterar o tipo da coluna `produto` e `categoria` do tipo `object` para o tipo `category` ;
    - N√£o existem dados ausentes, duplicados ou nulos na base de dados

### **2.2 - üõ†Ô∏è Padroniza√ß√£o de Strings**

- Constru√ß√£o dos seguintes passos:<br>
    - realizar a padroniza√ß√£o de strings nas colunas de texto (produto, categoria, cidade, estado);
    - convertendo todas as letras para letras min√∫sculas;
    - removendo espa√ßos desnecess√°rios;
    - tratando acentua√ß√£o. 

In [12]:
# Criando a fun√ß√£o para Padronizar Strings
def padronizar_strings(df: pd.DataFrame) -> None:
    """Padroniza colunas de texto (object) para evitar inconsist√™ncias.
    Aplica: remo√ß√£o de espa√ßos, convers√£o para min√∫sculas e tratamento de acentua√ß√£o.
    """
    logging.info("‚ÑπÔ∏è Iniciando padroniza√ß√£o de strings nas colunas 'produto', 'categoria', 'cidade', 'estado'.")
    
    colunas_texto = ['produto', 'categoria', 'cidade', 'estado']
    
    for col in colunas_texto:
        # Verifica se a coluna existe e se √© do tipo object (string)
        if col in df.columns and df[col].dtype == 'object':
            try:
                # 1. Remove espa√ßos em branco no in√≠cio e fim
                df[col] = df[col].str.strip()
                
                # 2. Converte para min√∫sculas
                df[col] = df[col].str.lower()
                
                # 3. Trata acentua√ß√£o (Normaliza e remove acentos)
                df[col] = df[col].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')
                
                logging.info(f"‚úÖ Coluna '{col}' padronizada com sucesso.")
            except Exception as e:
                logging.error(f"‚ùå Falha ao padronizar a coluna '{col}': {e}")
                
    logging.info("\nüÜó Padroniza√ß√£o de strings conclu√≠da.")

In [13]:
# Chamando a fun√ß√£o de padroniza√ß√£o de strings
padronizar_strings(df)

2025-12-15 22:04:57,624 | INFO | ‚ÑπÔ∏è Iniciando padroniza√ß√£o de strings nas colunas 'produto', 'categoria', 'cidade', 'estado'.
2025-12-15 22:04:57,633 | INFO | ‚úÖ Coluna 'produto' padronizada com sucesso.
2025-12-15 22:04:57,645 | INFO | ‚úÖ Coluna 'categoria' padronizada com sucesso.
2025-12-15 22:04:57,651 | INFO | ‚úÖ Coluna 'cidade' padronizada com sucesso.
2025-12-15 22:04:57,655 | INFO | ‚úÖ Coluna 'estado' padronizada com sucesso.
2025-12-15 22:04:57,658 | INFO | 
üÜó Padroniza√ß√£o de strings conclu√≠da.


### **2.3 - üõ†Ô∏è Verifica√ß√£o e Corre√ß√£o de inconsist√™ncias**

- Analisar alguns criterios para verificar a sanidade dos dados:<br><br>
    - An√°lises dos tipos de dados;
    - rela√ß√µes de planilhas de categorias

In [14]:
# Analisando os tipos dos dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120 entries, 0 to 119
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id_venda        120 non-null    int64  
 1   produto         120 non-null    object 
 2   categoria       120 non-null    object 
 3   preco_unitario  120 non-null    float64
 4   quantidade      120 non-null    int64  
 5   data_venda      120 non-null    object 
 6   cliente_id      120 non-null    int64  
 7   cidade          120 non-null    object 
 8   estado          120 non-null    object 
dtypes: float64(1), int64(3), object(5)
memory usage: 8.6+ KB


In [15]:
# Verificando as 5 primeiras linhas da base de dados
df.head()

Unnamed: 0,id_venda,produto,categoria,preco_unitario,quantidade,data_venda,cliente_id,cidade,estado
0,1,cadeira gamer,perifericos,1570.82,6,2024-10-27,1701,sao paulo,mg
1,2,headset,acessorios,4198.48,10,2024-01-28,1099,rio de janeiro,sp
2,3,cadeira gamer,mobilia,815.45,1,2024-05-04,1572,curitiba,sp
3,4,webcam,acessorios,2698.94,8,2024-06-23,1751,rio de janeiro,rj
4,5,headset,acessorios,3044.86,1,2024-08-20,1975,rio de janeiro,rj


In [16]:
# Verificando as 5 √∫ltimas linhas da base de dados
df.tail()

Unnamed: 0,id_venda,produto,categoria,preco_unitario,quantidade,data_venda,cliente_id,cidade,estado
115,116,teclado,perifericos,4311.34,9,2024-07-24,1781,rio de janeiro,mg
116,117,webcam,mobilia,448.8,3,2024-02-01,1515,sao paulo,pr
117,118,headset,mobilia,1683.75,5,2024-04-24,1482,curitiba,rj
118,119,monitor,mobilia,2703.44,5,2024-02-29,1342,salvador,rj
119,120,webcam,eletronicos,802.85,3,2024-07-07,1209,salvador,pr


In [17]:
# Verificando o resumo estat√≠stico (describe) do DataFrame
df.describe(include=['int', 'float'])

Unnamed: 0,id_venda,preco_unitario,quantidade,cliente_id
count,120.0,120.0,120.0,120.0
mean,60.5,2303.54,5.69,1530.28
std,34.79,1322.8,3.08,275.42
min,1.0,62.96,1.0,1017.0
25%,30.75,1184.56,3.0,1318.75
50%,60.5,2069.49,6.0,1526.5
75%,90.25,3568.21,9.0,1751.25
max,120.0,4499.98,10.0,1977.0


In [18]:
# Verificando o resumo estat√≠stico das colunas categ√≥ricas (describe) do DataFrame
df.describe(include='object')

Unnamed: 0,produto,categoria,data_venda,cidade,estado
count,120,120,120,120,120
unique,8,4,104,5,5
top,headset,perifericos,2024-02-17,sao paulo,rj
freq,20,32,3,28,30


- Foi poss√≠vel perceber que a base de dados possui algumas inconsist√™ncias na rela√ß√£o:
    -  das colunas `produto` x `categoria`: onde um produto √© associado a v√°rias categorias;
    - das colunas `cidade` x `estado`: onde existem diverg√™ncias entre cidade e estado
      (ex.: Rio de Janeiro/MG - S√£o Paulo/RJ)

‚¨áÔ∏è **Abaixo, √© poss√≠vel vericar a rela√ß√£o de produto por categoria** ‚¨áÔ∏è

In [19]:
# Verificando a rela√ß√£o de produto por categoria
df.pivot_table(
    df,
    index='produto',
    columns='categoria',
    aggfunc='size',
    observed=True
)

categoria,acessorios,eletronicos,mobilia,perifericos
produto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
cadeira gamer,5.0,2.0,6.0,4.0
headset,6.0,5.0,5.0,4.0
impressora,3.0,3.0,2.0,2.0
monitor,4.0,4.0,4.0,6.0
mouse,4.0,,3.0,2.0
notebook,3.0,5.0,4.0,4.0
teclado,,4.0,3.0,6.0
webcam,5.0,3.0,5.0,4.0


‚¨ÜÔ∏è Confirma√ß√£o de inconsist√™ncias na rela√ß√£o produto categoria, o que pode gerar problemas nas an√°lises da base de dados ‚¨ÜÔ∏è

- Corre√ß√£o da inconsist√™ncia na rela√ß√£o de produto por categoria<br><br>
    - Nesse exemplo foi utilizado a moda como infer√™ncia estat√≠stica para corre√ß√£o da rela√ß√£o de produtos x categoria

In [20]:
# Criando a fun√ß√£o para corrigir a rela√ß√£o de produto e categoria
def corrige_categoria(df: pd.DataFrame) -> pd.DataFrame:
     """
    Corrige a coluna 'categoria' inferindo a categoria correta (Moda) 
    para cada produto, utilizando o padr√£o groupby().transform() do Pandas.
    Args: df: DataFrame de transa√ß√µes com colunas 'produto' e 'categoria'.
        
    Returns:
        DataFrame com a coluna 'categoria' corrigida.
    """
    # 1. Cria√ß√£o de uma fun√ß√£o auxiliar para garantir que apenas o primeiro modo seja retornado
    # Isso torna o c√≥digo mais leg√≠vel e isola a l√≥gica de tratamento de empate.
     def define_moda(series):
        # Retorna o primeiro elemento da moda. Se houver empate, escolhe o primeiro.
        return series.mode().iloc[0]
    
     try:
        # 2. Aplica√ß√£o do groupby().transform()
        # O uso de uma fun√ß√£o nomeada (get_mode) √© mais claro que uma lambda complexa.
        categoria_correta = df["categoria"].groupby(df['produto'], observed=False).transform(define_moda)
        
        # 3. Sobrescreve a coluna
        df['categoria'] = categoria_correta
        logging.info("‚úÖ Inconsist√™ncias da coluna 'categoria' corrigidas com infer√™ncia (Moda).")
        #return df
     
     except Exception as e:
        logging.error(f"‚ùóErro... {e}")
        return df # Retorna o DataFrame original em caso de falha

In [21]:
# Utilizando a fun√ß√£o "corrige_categoria"
corrige_categoria(df)

2025-12-15 22:04:58,069 | INFO | ‚úÖ Inconsist√™ncias da coluna 'categoria' corrigidas com infer√™ncia (Moda).


In [22]:
# Agrupamento de produtos por categoria
df.groupby('produto', observed=False)['categoria'].unique()

produto
cadeira gamer        [mobilia]
headset           [acessorios]
impressora        [acessorios]
monitor          [perifericos]
mouse             [acessorios]
notebook         [eletronicos]
teclado          [perifericos]
webcam            [acessorios]
Name: categoria, dtype: object

‚¨ÜÔ∏è Acima foi poss√≠vel confirmar a corre√ß√£o na rela√ß√£o de produtos por categoria ‚¨ÜÔ∏è

- Na sequ√™ncia, ser√° corrigido a inconsist√™ncia na rela√ß√£o de "cidade" x "estado".

In [23]:
# Conferindo a inconsist√™ncia na rela√ß√£o de cidade x estado
df.pivot_table(
    df,
    index='cidade',
    columns='estado',
    aggfunc='size'
)

estado,ba,mg,pr,rj,sp
cidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
belo horizonte,4,2,2,6,3
curitiba,5,3,5,8,7
rio de janeiro,2,9,3,7,2
salvador,3,5,7,4,5
sao paulo,6,5,6,5,6


- A inconsist√™ncia ser√° corrigida com os seguintes passos:

    - Cria√ß√£o de um dicion√°rio com a rela√ß√£o de cidade e estado presentes na base de dados;
    - Mapeamento da coluna `cidade` com o dicion√°rio contendo os estados corretos.

In [24]:
# Cria√ß√£o do dicion√°rio com os estados corretos
estado_correto = {
    'belo horizonte': 'mg',
    'curitiba': 'pr',
    'rio de janeiro': 'rj',
    'salvador': 'ba',
    'sao paulo': 'sp'
}

In [25]:
# Realizando a corre√ß√£o dos estados na base de dados
df['estado'] = df['cidade'].map(estado_correto)

In [26]:
# Agrupamento de produtos por categoria
df.groupby('cidade', observed=False)['estado'].unique()

cidade
belo horizonte    [mg]
curitiba          [pr]
rio de janeiro    [rj]
salvador          [ba]
sao paulo         [sp]
Name: estado, dtype: object

‚¨ÜÔ∏è Acima, √© poss√≠vel perceber que a rela√ß√£o de cidade e estado foram corrigidas ‚¨ÜÔ∏è

- Padronizar textos verificando se existem espa√ßos desnecess√°rios

### **2.4 - üõ†Ô∏è Ajuste de tipos****
- Converter a coluna `data_venda` para o tipo `datetime` ;
- Converter as colunas `produto` e `categoria` para o tipo `category` 
- Ajustar quantidade para n√∫mero inteiro.

In [27]:
def converte_tipos_dados(df: pd.DataFrame, tipos_colunas: dict) -> None:
    '''Altera os tipos de dados das colunas especificadas no DataFrame.
       Args: df (pd.DataFrame): O DataFrame cujos tipos de dados ser√£o alterados.
       colunas_tipos (dict): Um dicion√°rio onde as chaves s√£o os nomes das colunas
                              e os valores s√£o os tipos para os quais essas colunas devem ser convertidas.
    '''
    # Loop que percorre as colunas e os tipos
    for coluna, tipo in tipos_colunas.items():
        try:
            if tipo == "datetime64[ns]":
                df[coluna] = pd.to_datetime(df[coluna])
                logging.info(f"‚úÖ A coluna '{coluna}' foi convertida para o tipo '{tipo}'")
            elif tipo == "category":
                logging.info(f"‚úÖ A coluna '{coluna}' foi convertida para o tipo '{tipo}'")
                df[coluna] = pd.Categorical(df[coluna])
            else:
                df[coluna] = df[coluna].astype(tipo)
                logging.info(f"‚úÖ A coluna '{coluna}' foi convertida para o tipo '{tipo}'")
            
        except Exception as e:
            logging.info(f"‚õî N√£o foi poss√≠vel alterar o tipo da coluna '{coluna}': {e}")

In [28]:
# Dicion√°rio com as colunas e os tipos desejados
tipos_colunas = {
   "produto": "category",
    "categoria": "category",
    "data_venda": 'datetime64[ns]'
}

In [29]:
# Chamando a fun√ß√£o para altera√ß√£o dos tipos dos dados
tipos_alterados = converte_tipos_dados(df, tipos_colunas)

2025-12-15 22:04:58,270 | INFO | ‚úÖ A coluna 'produto' foi convertida para o tipo 'category'
2025-12-15 22:04:58,273 | INFO | ‚úÖ A coluna 'categoria' foi convertida para o tipo 'category'
2025-12-15 22:04:58,283 | INFO | ‚úÖ A coluna 'data_venda' foi convertida para o tipo 'datetime64[ns]'


### **2.5 - üõ†Ô∏è Cria√ß√£o de novas colunas**
- Criar um nova coluna com o `valor total` de pre√ßo unit√°rio e quantidade;
- Criar a coluna `ano` √† partir da coluna `data de venda` .
- Criar a coluna `mes` √† partir da coluna `data de venda` .

In [30]:
# Criando a coluna valor total
df['valor_total'] = df['preco_unitario'] * df['quantidade']
df['valor_total'] = df['valor_total'].round(2)

In [31]:
# Criando as colunas "mes" e "ano"
df['mes'] = df['data_venda'].dt.month
df['ano'] = df['data_venda'].dt.year

In [32]:
# Conferindo as 5 primeiras linhas
df.head()

Unnamed: 0,id_venda,produto,categoria,preco_unitario,quantidade,data_venda,cliente_id,cidade,estado,valor_total,mes,ano
0,1,cadeira gamer,mobilia,1570.82,6,2024-10-27,1701,sao paulo,sp,9424.92,10,2024
1,2,headset,acessorios,4198.48,10,2024-01-28,1099,rio de janeiro,rj,41984.8,1,2024
2,3,cadeira gamer,mobilia,815.45,1,2024-05-04,1572,curitiba,pr,815.45,5,2024
3,4,webcam,acessorios,2698.94,8,2024-06-23,1751,rio de janeiro,rj,21591.52,6,2024
4,5,headset,acessorios,3044.86,1,2024-08-20,1975,rio de janeiro,rj,3044.86,8,2024


‚¨ÜÔ∏è No resultado acima, foi poss√≠vel verificar a cria√ß√£o das colunas ‚¨ÜÔ∏è

### **2.6 - üîé Valida√ß√£o final**

A verifica√ß√£o da integridade dos dados antes do carregamento (Load) √© o passo final e crucial da etapa de Transform (Transforma√ß√£o) do pipeline. O objetivo √© garantir que o DataFrame final (df) esteja em um estado limpo, completo e pronto para ser salvo

- Conferir tipos novamente.
- Verificar valores fora do esperado.
- Garantir integridade dos dados antes do carregamento.

In [33]:
def integridade_final(df: pd.DataFrame) -> bool:
    """Verifica a integridade final do DataFrame ap√≥s todas as transforma√ß√µes.
    Retorna True se os dados estiverem √≠ntegros, False caso contr√°rio."""
    
    logging.info("üîç Iniciando valida√ß√£o final de integridade dos dados.")

    # 1. Conferindo novamente se o DataFrame n√£o est√° vazio
    if df.empty:
        logging.critical("‚ùå Falha na Integridade: DataFrame final est√° vazio.")
        return False
    
    # 2. Verificar se h√° valores nulos nas colunas cr√≠ticas (ex: id_venda, quantidade, valor_total)
    colunas_criticas = ['id_venda', 'quantidade', 'valor_total']
    nulos_col_criticas = df[colunas_criticas].isnull().any().any()
    if nulos_col_criticas:
        logging.critical("‚ùå Falha na Integridade: Valores nulos encontrados em colunas cr√≠ticas.")
        logging.info(f"Dados nulos por coluna:\n{df[colunas_criticas].isnull().sum()}")
        return False
    
    # 3. Verificar se h√° valores inconsistentes (ex: quantidade ou valor_total negativos)
    if (df['quantidade'] < 0).any():
        logging.critical("‚ùå Falha na Integridade: Quantidade negativa encontrada.")

    if (df['valor_total'] < 0).any():
        logging.critical("‚ùå Falha na Integridade: Valor Total negativo encontrado.")
        return False
    
    # 4. Verificar se as colunas est√£o com os tipos corretos (ap√≥s a convers√£o)
    if not pd.api.types.is_datetime64_any_dtype(df['data_venda']):
        logging.critical("‚ùå Falha na Integridade: Coluna 'data_venda' n√£o √© do tipo datetime.")
        return False
    
    logging.info("‚úÖ Valida√ß√£o final de integridade conclu√≠da com sucesso. Dados prontos para o Carregamento (Load).")
    return True

## üì§ **3. Etapa LOAD ‚Äì Passos**
- Salvar o DataFrame transformado como `vendas_clean.csv`
- Validar se o arquivo foi gerado.
- Confirmar n√∫mero de linhas e colunas do CSV final.

### **3.1 - üìñ Salvando o DataFrame transformado**

In [34]:
# Criando a fun√ß√£o para Salvar o DataFrame em CSV (Etapa Load)
def salva_dataframe_csv(df: pd.DataFrame, env_var_path: str) -> None:
    """Salva o DataFrame em um arquivo CSV no caminho especificado pela vari√°vel de ambiente.
    Par√¢metros: df (pd.DataFrame): DataFrame a ser salvo.
    env_var_path (str): Nome da vari√°vel de ambiente contendo o caminho completo do arquivo de sa√≠da.
    """
    caminho_completo = os.getenv(env_var_path)

    if not caminho_completo:
        logging.critical(f"‚õî Vari√°vel de ambiente '{env_var_path}' n√£o encontrada. Pipeline interrompido.")
        return # Interrompe a execu√ß√£o se a vari√°vel n√£o for encontrada
    
    # Verifique se o arquivo j√° existe
    if os.path.isfile(caminho_completo):
        logging.info(f"üîç O arquivo '{caminho_completo}' j√° existe.")
        return # Interrompe a execu√ß√£o se o arquivo j√° existir

    logging.info(f"üíæ Iniciando a carga do arquivo em: {caminho_completo}")
    
    try:
        # Salvando o DataFrame
        df.to_csv(
            caminho_completo, 
            sep=',', 
            index=False
        )

        logging.info("‚úÖ DataFrame salvo com sucesso.")

    except Exception as e:
        logging.error(f"‚ùå Falha ao salvar o arquivo: {e}")


### **3.2 - üîé Validando a integridade final dos dados e a cria√ß√£o da planilha limpa (clean)**

In [35]:
# Validando a integridade final e salvando a planilha "vendas_clean.csv"
status_final = integridade_final(df)
try:
    if status_final:
        salva_dataframe_csv(df, "CLEAN_DATA_PATH")
    else:
        logging.critical("‚õî Pipeline interrompido devido a falha na integridade final dos dados.")
except Exception as e:
    logging.critical(f"Erro: {e}")

2025-12-15 22:04:58,450 | INFO | üîç Iniciando valida√ß√£o final de integridade dos dados.
2025-12-15 22:04:58,461 | INFO | ‚úÖ Valida√ß√£o final de integridade conclu√≠da com sucesso. Dados prontos para o Carregamento (Load).
2025-12-15 22:04:58,463 | INFO | üíæ Iniciando a carga do arquivo em: ../data/vendas_clean.csv
2025-12-15 22:04:58,495 | INFO | ‚úÖ DataFrame salvo com sucesso.


### **3.3 - üîé Conferindo a quantidade linhas e colunas da planilha final**

In [36]:
# Carregando a planilha final
df_clean = carrega_arquivo_csv('CLEAN_DATA_PATH')

2025-12-15 22:04:58,505 | INFO | üìÑ Iniciando leitura do arquivo: ../data/vendas_clean.csv
2025-12-15 22:04:58,512 | INFO | ‚úÖ Arquivo CSV carregado com sucesso.


In [37]:
# Validando se os dados foram carregados
valida_dados(df_clean)

2025-12-15 22:04:58,532 | INFO | üîé Iniciando valida√ß√£o dos dados.
2025-12-15 22:04:58,534 | INFO | ‚úÖ Valida√ß√£o conclu√≠da com sucesso.


In [38]:
# Realizando a an√°lise inicial
analise_inicial(df_clean)

2025-12-15 22:04:58,551 | INFO | ... ‚ÑπÔ∏è An√°lise inicial dos dados ....

2025-12-15 22:04:58,563 | INFO | ... ‚úÖ An√°lise inicial dos dados finalizada com sucesso ....



üìÑ Nomes das Colunas da base de dados:

['id_venda', 'produto', 'categoria', 'preco_unitario', 'quantidade', 'data_venda', 'cliente_id', 'cidade', 'estado', 'valor_total', 'mes', 'ano'] 

---

üìÑ A base de dados possui 120 linhas e 12 colunas 

---

üìÑ Analisando tipos de dados do DataFrame 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120 entries, 0 to 119
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id_venda        120 non-null    int64  
 1   produto         120 non-null    object 
 2   categoria       120 non-null    object 
 3   preco_unitario  120 non-null    float64
 4   quantidade      120 non-null    int64  
 5   data_venda      120 non-null    object 
 6   cliente_id      120 non-null    int64  
 7   cidade          120 non-null    object 
 8   estado          120 non-null    object 
 9   valor_total     120 non-null    float64
 10  mes             120 non-null    int64  
 11  ano  

## ‚ú≥Ô∏è **4. Conclus√£o**

Atendimento de todos os processos de ETL (Extract, Transform, Load) na base de dados.

O processo de ETL √© fundamental para garantir que os dados sejam coletados, organizados e preparados de forma confi√°vel antes de qualquer an√°lise ou tomada de decis√£o. Ao estruturar as etapas de extra√ß√£o, transforma√ß√£o e carregamento, o ETL assegura a qualidade, consist√™ncia e rastreabilidade dos dados, reduzindo erros e inconsist√™ncias. Dessa forma, ele se torna um pilar essencial para projetos de ci√™ncia de dados, analytics e intelig√™ncia de neg√≥cios, pois transforma dados brutos em informa√ß√µes √∫teis e confi√°veis.