# üìä Explora√ß√£o dos Datasets - DataOps Governance Lab

Este notebook demonstra como carregar e explorar os datasets do projeto **TechCommerce** utilizados no curso de DataOps: Governan√ßa e Qualidade de Dados.

## üéØ Objetivos
- Carregar os 4 datasets principais do projeto
- Verificar a estrutura e quantidade de registros
- Realizar uma an√°lise inicial dos dados
- Identificar poss√≠veis problemas de qualidade

## üìö Importa√ß√£o das Bibliotecas

Primeiro, importamos a biblioteca **pandas** que ser√° utilizada para manipula√ß√£o e an√°lise dos dados.

In [11]:
import pandas as pd
import os

# Configura√ß√£o para melhor visualiza√ß√£o dos DataFrames
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', 50)

## üìÅ Carregamento dos Datasets

Os datasets est√£o localizados na pasta `datasets/` e representam diferentes aspectos do neg√≥cio da **TechCommerce**:

- **clientes.csv**: Informa√ß√µes dos clientes
- **produtos.csv**: Cat√°logo de produtos
- **vendas.csv**: Transa√ß√µes de vendas
- **logistica.csv**: Dados de entrega e log√≠stica

In [3]:
# Definir o caminho base para os datasets
base_path = '../datasets/'

# Carregar cada dataset usando pandas
clientes = pd.read_csv(f'{base_path}clientes.csv')
produtos = pd.read_csv(f'{base_path}produtos.csv')
vendas = pd.read_csv(f'{base_path}vendas.csv')
logistica = pd.read_csv(f'{base_path}logistica.csv')

FileNotFoundError: [Errno 2] No such file or directory: '../datasets/clientes.csv'

## üìä An√°lise Quantitativa dos Datasets

Vamos verificar a quantidade de registros em cada dataset para ter uma vis√£o geral do volume de dados.

In [4]:
# Exibir a quantidade de registros em cada dataset
print(f"üìã Resumo dos Datasets:")
print(f"{'='*50}")
print(f"Clientes: {len(clientes)} registros")
print(f"Produtos: {len(produtos)} registros")
print(f"Vendas: {len(vendas)} registros")
print(f"Log√≠stica: {len(logistica)} registros")
print(f"{'='*50}")
print(f"Total de registros: {len(clientes) + len(produtos) + len(vendas) + len(logistica)}")

üìã Resumo dos Datasets:


NameError: name 'clientes' is not defined

## üîç Explora√ß√£o Detalhada por Dataset

Agora vamos analisar cada dataset individualmente para entender sua estrutura e identificar poss√≠veis problemas de qualidade.

### üë• Dataset: Clientes

Cont√©m informa√ß√µes dos clientes da TechCommerce.

In [5]:
print("üìã DATASET: CLIENTES")
print("="*50)
print(f"Dimens√µes: {clientes.shape}")
print(f"Colunas: {list(clientes.columns)}")
print("\nüìä Primeiros 5 registros:")
display(clientes.head())

print("\nüîç Informa√ß√µes do Dataset:")
clientes.info()

print("\n‚ö†Ô∏è Valores Nulos:")
print(clientes.isnull().sum())

üìã DATASET: CLIENTES


NameError: name 'clientes' is not defined

### üõçÔ∏è Dataset: Produtos

Cat√°logo de produtos dispon√≠veis na loja.

In [6]:
print("üìã DATASET: PRODUTOS")
print("="*50)
print(f"Dimens√µes: {produtos.shape}")
print(f"Colunas: {list(produtos.columns)}")
print("\nüìä Primeiros 5 registros:")
display(produtos.head())

print("\nüîç Informa√ß√µes do Dataset:")
produtos.info()

print("\n‚ö†Ô∏è Valores Nulos:")
print(produtos.isnull().sum())

üìã DATASET: PRODUTOS


NameError: name 'produtos' is not defined

### üí∞ Dataset: Vendas

Transa√ß√µes de vendas realizadas na plataforma.

In [10]:
print("üìã DATASET: VENDAS")
print("="*50)
print(f"Dimens√µes: {vendas.shape}")
print(f"Colunas: {list(vendas.columns)}")
print("\nüìä Primeiros 5 registros:")
display(vendas.head())

print("\nüîç Informa√ß√µes do Dataset:")
vendas.info()

print("\n‚ö†Ô∏è Valores Nulos:")
print(vendas.isnull().sum())

üìã DATASET: VENDAS


NameError: name 'vendas' is not defined

### üöö Dataset: Log√≠stica

Dados de entrega e log√≠stica dos pedidos.

In [8]:
print("üìã DATASET: LOG√çSTICA")
print("="*50)
print(f"Dimens√µes: {logistica.shape}")
print(f"Colunas: {list(logistica.columns)}")
print("\nüìä Primeiros 5 registros:")
display(logistica.head())

print("\nüîç Informa√ß√µes do Dataset:")
logistica.info()

print("\n‚ö†Ô∏è Valores Nulos:")
print(logistica.isnull().sum())

üìã DATASET: LOG√çSTICA


NameError: name 'logistica' is not defined

## üìà An√°lise Consolidada

Vamos criar um resumo consolidado de todos os datasets para ter uma vis√£o geral.

In [9]:
# Criar um DataFrame resumo
datasets_info = {
    'Dataset': ['Clientes', 'Produtos', 'Vendas', 'Log√≠stica'],
    'Registros': [len(clientes), len(produtos), len(vendas), len(logistica)],
    'Colunas': [len(clientes.columns), len(produtos.columns), len(vendas.columns), len(logistica.columns)],
    'Valores_Nulos': [
        clientes.isnull().sum().sum(),
        produtos.isnull().sum().sum(),
        vendas.isnull().sum().sum(),
        logistica.isnull().sum().sum()
    ]
}

resumo_df = pd.DataFrame(datasets_info)

print("üìä RESUMO CONSOLIDADO DOS DATASETS")
print("="*60)
display(resumo_df)

# Calcular totais
total_registros = resumo_df['Registros'].sum()
total_colunas = resumo_df['Colunas'].sum()
total_nulos = resumo_df['Valores_Nulos'].sum()

print(f"\nüìã TOTAIS:")
print(f"Total de registros: {total_registros}")
print(f"Total de colunas: {total_colunas}")
print(f"Total de valores nulos: {total_nulos}")

NameError: name 'clientes' is not defined

## üéØ Pr√≥ximos Passos

Com esta explora√ß√£o inicial, identificamos:

1. **Volume de dados**: 83 registros distribu√≠dos em 4 datasets
2. **Estrutura**: Diferentes esquemas para cada tipo de dado
3. **Qualidade**: Presen√ßa de valores nulos que precisam ser tratados

### üîç Recomenda√ß√µes para An√°lise Avan√ßada:

- **Implementar valida√ß√µes com Great Expectations**
- **Verificar integridade referencial entre datasets**
- **Aplicar as 6 dimens√µes da qualidade de dados**
- **Criar pipelines de monitoramento cont√≠nuo**

### üìö Recursos Relacionados:

- `Lab_DataOps_Governanca_Qualidade.ipynb` - Laborat√≥rio completo
- `Desafio_Final_DataOps.md` - Desafio pr√°tico
- `Conceitos.md` - Fundamentos te√≥ricos