# üìä Explora√ß√£o dos Datasets - DataOps Governance Lab

Este notebook demonstra como carregar e explorar os datasets do projeto **TechCommerce** utilizados no curso de DataOps: Governan√ßa e Qualidade de Dados.

## üéØ Objetivos
- Carregar os 4 datasets principais do projeto
- Verificar a estrutura e quantidade de registros
- Realizar uma an√°lise inicial dos dados
- Identificar poss√≠veis problemas de qualidade

## üìö Importa√ß√£o das Bibliotecas

Primeiro, importamos a biblioteca **pandas** que ser√° utilizada para manipula√ß√£o e an√°lise dos dados.

In [2]:
import pandas as pd
import os

# Configura√ß√£o para melhor visualiza√ß√£o dos DataFrames
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', 50)

## üìÅ Carregamento dos Datasets

Os datasets est√£o localizados na pasta `datasets/` e representam diferentes aspectos do neg√≥cio da **TechCommerce**:

- **clientes.csv**: Informa√ß√µes dos clientes
- **produtos.csv**: Cat√°logo de produtos
- **vendas.csv**: Transa√ß√µes de vendas
- **logistica.csv**: Dados de entrega e log√≠stica

In [5]:
# Definir o caminho base para os datasets
base_path = 'datasets/'

# Carregar cada dataset usando pandas
clientes = pd.read_csv(f'{base_path}clientes.csv')
produtos = pd.read_csv(f'{base_path}produtos.csv')
vendas = pd.read_csv(f'{base_path}vendas.csv')
logistica = pd.read_csv(f'{base_path}logistica.csv')

## üìä An√°lise Quantitativa dos Datasets

Vamos verificar a quantidade de registros em cada dataset para ter uma vis√£o geral do volume de dados.

In [6]:
# Exibir a quantidade de registros em cada dataset
print(f"üìã Resumo dos Datasets:")
print(f"{'='*50}")
print(f"Clientes: {len(clientes)} registros")
print(f"Produtos: {len(produtos)} registros")
print(f"Vendas: {len(vendas)} registros")
print(f"Log√≠stica: {len(logistica)} registros")
print(f"{'='*50}")
print(f"Total de registros: {len(clientes) + len(produtos) + len(vendas) + len(logistica)}")

üìã Resumo dos Datasets:
Clientes: 16 registros
Produtos: 20 registros
Vendas: 25 registros
Log√≠stica: 22 registros
Total de registros: 83


## üîç Explora√ß√£o Detalhada por Dataset

Agora vamos analisar cada dataset individualmente para entender sua estrutura e identificar poss√≠veis problemas de qualidade.

### üë• Dataset: Clientes

Cont√©m informa√ß√µes dos clientes da TechCommerce.

In [7]:
print("üìã DATASET: CLIENTES")
print("="*50)
print(f"Dimens√µes: {clientes.shape}")
print(f"Colunas: {list(clientes.columns)}")
print("\nüìä Primeiros 5 registros:")
display(clientes.head())

print("\nüîç Informa√ß√µes do Dataset:")
clientes.info()

print("\n‚ö†Ô∏è Valores Nulos:")
print(clientes.isnull().sum())

üìã DATASET: CLIENTES
Dimens√µes: (16, 8)
Colunas: ['id_cliente', 'nome', 'email', 'telefone', 'data_nascimento', 'cidade', 'estado', 'data_cadastro']

üìä Primeiros 5 registros:


Unnamed: 0,id_cliente,nome,email,telefone,data_nascimento,cidade,estado,data_cadastro
0,1,Jo√£o Silva,joao@email.com,11999887766,1985-03-15,S√£o Paulo,SP,2023-01-10
1,2,Maria Santos,,11888776655,1990-07-22,Rio de Janeiro,RJ,2023-01-15
2,1,Jo√£o Silva,joao@email.com,11999887766,1985-03-15,S√£o Paulo,SP,2023-01-10
3,3,Pedro,pedro@invalid,119999,2000-12-01,Belo Horizonte,MG,2023-02-01
4,4,,ana@email.com,11777665544,1995-05-30,S√£o Paulo,SP,2023-02-10



üîç Informa√ß√µes do Dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id_cliente       16 non-null     int64 
 1   nome             14 non-null     object
 2   email            14 non-null     object
 3   telefone         16 non-null     int64 
 4   data_nascimento  16 non-null     object
 5   cidade           16 non-null     object
 6   estado           16 non-null     object
 7   data_cadastro    16 non-null     object
dtypes: int64(2), object(6)
memory usage: 1.1+ KB

‚ö†Ô∏è Valores Nulos:
id_cliente         0
nome               2
email              2
telefone           0
data_nascimento    0
cidade             0
estado             0
data_cadastro      0
dtype: int64


### üõçÔ∏è Dataset: Produtos

Cat√°logo de produtos dispon√≠veis na loja.

In [8]:
print("üìã DATASET: PRODUTOS")
print("="*50)
print(f"Dimens√µes: {produtos.shape}")
print(f"Colunas: {list(produtos.columns)}")
print("\nüìä Primeiros 5 registros:")
display(produtos.head())

print("\nüîç Informa√ß√µes do Dataset:")
produtos.info()

print("\n‚ö†Ô∏è Valores Nulos:")
print(produtos.isnull().sum())

üìã DATASET: PRODUTOS
Dimens√µes: (20, 7)
Colunas: ['id_produto', 'nome_produto', 'categoria', 'preco', 'estoque', 'data_criacao', 'ativo']

üìä Primeiros 5 registros:


Unnamed: 0,id_produto,nome_produto,categoria,preco,estoque,data_criacao,ativo
0,101,Smartphone XYZ,Eletr√¥nicos,899.99,50,2023-01-01,True
1,102,Notebook ABC,,1299.99,25,2023-01-05,True
2,103,Mouse Gamer,Inform√°tica,-29.99,100,2023-01-10,True
3,104,Teclado Mec√¢nico,Inform√°tica,199.99,0,2023-01-15,False
4,105,Smartphone XYZ,Eletr√¥nicos,899.99,50,2023-01-01,True



üîç Informa√ß√µes do Dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   id_produto    20 non-null     int64  
 1   nome_produto  19 non-null     object 
 2   categoria     19 non-null     object 
 3   preco         20 non-null     float64
 4   estoque       20 non-null     int64  
 5   data_criacao  20 non-null     object 
 6   ativo         20 non-null     bool   
dtypes: bool(1), float64(1), int64(2), object(3)
memory usage: 1.1+ KB

‚ö†Ô∏è Valores Nulos:
id_produto      0
nome_produto    1
categoria       1
preco           0
estoque         0
data_criacao    0
ativo           0
dtype: int64


### üí∞ Dataset: Vendas

Transa√ß√µes de vendas realizadas na plataforma.

In [None]:
print("üìã DATASET: VENDAS")
print("="*50)
print(f"Dimens√µes: {vendas.shape}")
print(f"Colunas: {list(vendas.columns)}")
print("\nüìä Primeiros 5 registros:")
display(vendas.head())

print("\nüîç Informa√ß√µes do Dataset:")
vendas.info()

print("\n‚ö†Ô∏è Valores Nulos:")
print(vendas.isnull().sum())

### üöö Dataset: Log√≠stica

Dados de entrega e log√≠stica dos pedidos.

In [None]:
print("üìã DATASET: LOG√çSTICA")
print("="*50)
print(f"Dimens√µes: {logistica.shape}")
print(f"Colunas: {list(logistica.columns)}")
print("\nüìä Primeiros 5 registros:")
display(logistica.head())

print("\nüîç Informa√ß√µes do Dataset:")
logistica.info()

print("\n‚ö†Ô∏è Valores Nulos:")
print(logistica.isnull().sum())

## üìà An√°lise Consolidada

Vamos criar um resumo consolidado de todos os datasets para ter uma vis√£o geral.

In [None]:
# Criar um DataFrame resumo
datasets_info = {
    'Dataset': ['Clientes', 'Produtos', 'Vendas', 'Log√≠stica'],
    'Registros': [len(clientes), len(produtos), len(vendas), len(logistica)],
    'Colunas': [len(clientes.columns), len(produtos.columns), len(vendas.columns), len(logistica.columns)],
    'Valores_Nulos': [
        clientes.isnull().sum().sum(),
        produtos.isnull().sum().sum(),
        vendas.isnull().sum().sum(),
        logistica.isnull().sum().sum()
    ]
}

resumo_df = pd.DataFrame(datasets_info)

print("üìä RESUMO CONSOLIDADO DOS DATASETS")
print("="*60)
display(resumo_df)

# Calcular totais
total_registros = resumo_df['Registros'].sum()
total_colunas = resumo_df['Colunas'].sum()
total_nulos = resumo_df['Valores_Nulos'].sum()

print(f"\nüìã TOTAIS:")
print(f"Total de registros: {total_registros}")
print(f"Total de colunas: {total_colunas}")
print(f"Total de valores nulos: {total_nulos}")

## üéØ Pr√≥ximos Passos

Com esta explora√ß√£o inicial, identificamos:

1. **Volume de dados**: 83 registros distribu√≠dos em 4 datasets
2. **Estrutura**: Diferentes esquemas para cada tipo de dado
3. **Qualidade**: Presen√ßa de valores nulos que precisam ser tratados

### üîç Recomenda√ß√µes para An√°lise Avan√ßada:

- **Implementar valida√ß√µes com Great Expectations**
- **Verificar integridade referencial entre datasets**
- **Aplicar as 6 dimens√µes da qualidade de dados**
- **Criar pipelines de monitoramento cont√≠nuo**

### üìö Recursos Relacionados:

- `Lab_DataOps_Governanca_Qualidade.ipynb` - Laborat√≥rio completo
- `Desafio_Final_DataOps.md` - Desafio pr√°tico
- `Conceitos.md` - Fundamentos te√≥ricos