# 1. Introdução

Este notebook visa realizar uma análise exploratória e comparativa da Tabela Única da Camada Silver `treated_dataset.csv`, a qual foi gerada a partir do processo de tranformação e limpeza aplicado spbre os dados brutos da Camada Bronze (Raw).

A tabela representa, portanto, a consolidação dos dados tratados, onde foram aplicados técnicas de remoção de duplicatas e registros inconsistentes; Padronização de formatos de data, moeda, texto; Correção de tipos de dados (string para numérico, numério para datetime, etc.); Integração de múltiplas tabelas em uma única estrutura relacional, mantendo a integridade e o relacionamento lógico entre entidades.

Assim, a análise terá foco em examinar as características da base Silver, avaliando sua estrutura relacional, estatísticas descritivas e distribuições; Comparar os resiltados com a camada Bronze, evidenciando as melhorias obtidas com as limpezas e transformações; Verificar a consistência dos dados tratados, analisando se as padronizações e correções impactaram positivamente na qualidade da informação; Avaliar a prontidão da base para uso analítico, verificando se ela está apta a alimentar dashboards, relatórios e algoritmos de aprendizado de máquina.

Finalmente, os resultados deta análise validarão o processo ETL realizado entre as camadas Bronze e Silver, permitindo quantificar os ganhos em qualidade, confiabilidade e integridade dos dados. Essa fase é crucial para assegurar que o pipeline de dados esteja em conformidade com as melhores práticas de governança, rastreabilidade e reprodutibilidade.

# 2. Configuraçoes do Notebook

Nesta etapa, sao importadas as principais bibliotecas utilizadas em analise de dados, responsaveis por fornecer ferramentas para leitura, tratamento e visualizaçao da tabela unica silver. Alem disso, serao configurados alguns parametros visuais padrao para os graficos, garantindo melhor legibilidade das figuras ao longo do notebook. Dessa forma vai ser possivel ler o dataset treated_dataset.csv da camada Silver; Verificar a estrutura e os tipos de dados; Criar graficos comparativos entre as camadas Bronze e Silver; E calcular estatisticas descritivas e avaliar a qualidade dos dados tratados.

In [None]:
# Importação de Bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Configurações Visuais
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette('deep')

# Ajustes para exibição completa de DataFrames
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("Bibliotecas importadas e configurações visuais aplicadas com sucesso.")

# 3. Leitura da Tabela Silver

Nesta fase, importamos o arquivo treated_dataset.csv, que corresponde a tabela unica da camada Silver. Este conjunto de dados e o resultado imediato do procedimento de limpeza e padronizaçao aplicado aos dados brutos da camada Bronze. O objetivo e assegurar que a estrutura da stbela seja consistente e adequada para analises exploratorias e comparaçoes futuras.

Antes de iniciar qualquer analise, e essencial verificar a integridade de leitura, ou seja, se o arquivo foi corretamente importado, quantas linhas e colunas possui e quais sao as primeiras amostras os dados.

In [None]:
# Caminho do arquivo tratado na camada Silver
silver_file_path = 'treated_dataset.csv'

# Leitura do dataset tratado
silver_df = pd.read_csv(silver_file_path)

# Exibicao da dimensao do DataFrame
print(f"Linhas: {silver_df.shape[0]}, Colunas: {silver_df.shape[1]}")

# Exibicao das primeiras 5 linhas do DataFrame
silver_df.head()

O objetivo desssa etapa e verificar se todas as colunas esperadas estao presentes; Identificar possiveis colunas derivadas das transformaçoes realizadas; Conferir a padronizaçao de nomes, tipos e formatos; Confirmar a ausencia de erros de leitura (por exemplo, encondig incorreto ou delimitadores incosistentes.)

# 4. Resumo da Execuçao do ETL (Bronza para Silver)

O notebook etl-raw-to-silver.ipynb realiza o processo de extraçao e carregamento (ETL) que converte os dados brutos da camada Bronze em uma tabela tratada e padronizada na camada Silver, chamada treated_dataset.csv.

Durante esse processo, o ETL executa as seguintes ações principais:

### 1. Estração
Carrega os arquivos originais da camada Bronze (diversas tabelas com dados crus e possivelmente inconsistentes).
### 2. Transfomração
Aplica um conjunto de limpezas e padronizações, incluindo:
- Remoção de duplicatas e registros inválidos;
- Tratamento de valores nulos e incosistências;
- Conversão de tipos de dados (datas, números, textos);
- Padronização de nomes, formatos e categorias;
- Integração de tabelas relacionais (ex.: pedidos, clientes, pagamentos).
### 3. Consolidação
Unifica os dados limpos em uma tabela única Silver, com colunas normalizadas e relações coerentes, garantindo integridade referencial.
### 4. Carregamento:
Exporta o resultado final para `silver/treated_dataset.csv`e para o banco de dados PostgreSQL, pronto para análises exploratórias, dashboards e modelagem de dados.