# üìä EDA - Parte 1: Vis√£o Geral dos Dados

## An√°lise da Estrutura do Excel Original

**Objetivo:** Entender a estrutura e qualidade dos dados brutos antes do processamento.

---

### üìã Sum√°rio
1. Carregamento dos Dados
2. Estrutura das Abas
3. Qualidade dos Dados
4. Tipos de Formato Identificados

In [None]:
# Imports e Configura√ß√µes
import pandas as pd
import numpy as np
from pathlib import Path
import warnings

warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 50)

# Caminho do arquivo
EXCEL_PATH = r'..\01_dados_originais\dados_case_pbi.xlsx'

print("‚úÖ Configura√ß√£o carregada")
print(f"üìÇ Arquivo: {EXCEL_PATH}")

---
## 1Ô∏è‚É£ Carregamento e Vis√£o Geral

In [None]:
# Carregar Excel completo
xlsx = pd.ExcelFile(EXCEL_PATH)

print("üìã SHEETS DISPON√çVEIS:")
print("=" * 60)
for i, sheet in enumerate(xlsx.sheet_names, 1):
    df = pd.read_excel(xlsx, sheet_name=sheet, header=None)
    print(f"  {i}. {sheet:<30} ‚Üí {df.shape[0]:>4} linhas x {df.shape[1]:>2} colunas")

In [None]:
# Carregar todos os sheets raw (sem header)
raw_data = {}
for sheet in xlsx.sheet_names:
    raw_data[sheet] = pd.read_excel(xlsx, sheet_name=sheet, header=None)

print(f"‚úÖ {len(raw_data)} sheets carregados em mem√≥ria")

---
## 2Ô∏è‚É£ Estrutura de Cada Aba

In [None]:
# Analisar estrutura de cada sheet
for sheet_name, df in raw_data.items():
    print(f"\n{'='*70}")
    print(f"üìÑ {sheet_name}")
    print(f"{'='*70}")
    print(f"Shape: {df.shape}")
    print(f"\nPrimeiras 5 linhas:")
    display(df.head())
    print("\n" + "-"*70)

---
## 3Ô∏è‚É£ Qualidade dos Dados

In [None]:
# An√°lise de qualidade por sheet
print("üìä AN√ÅLISE DE QUALIDADE DOS DADOS")
print("=" * 70)

for sheet_name, df in raw_data.items():
    n_total = df.size
    n_nulos = df.isna().sum().sum()
    pct_nulos = (n_nulos / n_total) * 100
    
    print(f"\nüìÑ {sheet_name}")
    print(f"   C√©lulas totais: {n_total:,}")
    print(f"   C√©lulas nulas:  {n_nulos:,} ({pct_nulos:.1f}%)")
    print(f"   C√©lulas preenchidas: {n_total - n_nulos:,} ({100-pct_nulos:.1f}%)")

In [None]:
# Tipos de dados por sheet
print("\nüìä TIPOS DE DADOS POR SHEET")
print("=" * 70)

for sheet_name, df in raw_data.items():
    tipos = df.dtypes.value_counts()
    print(f"\nüìÑ {sheet_name}")
    for tipo, qtd in tipos.items():
        print(f"   {str(tipo):<15}: {qtd} colunas")

---
## 4Ô∏è‚É£ Classifica√ß√£o dos Formatos

### Tipos Identificados:

| Sheet | Formato | Descri√ß√£o |
|-------|---------|------------|
| Receita_Realizado | REPORT | M√∫ltiplas linhas header, unpivot necess√°rio |
| Receita_Or√ß | REPORT | Mesmo formato que Realizado |
| Despesas_Realizado | TABULAR ‚úÖ | Formato tradicional com header √∫nico |
| Despesas_Or√ß | TABULAR ‚úÖ | Mesmo formato |
| Aliquotas | DUAL TABLE | Duas tabelas lado a lado |
| Modelo DRE | REPORT | DRE pr√©-formatada por linha |

In [None]:
# Resumo da classifica√ß√£o
classificacao = {
    'Receita_Realizado': 'REPORT - Header m√∫ltiplo',
    'Receita_Or√ß': 'REPORT - Header m√∫ltiplo', 
    'Despesas_Realizado': 'TABULAR - Convencional',
    'Despesas_Or√ß': 'TABULAR - Convencional',
    'Aliquotas de Imposto': 'DUAL TABLE - Side by side',
    'Modelo DRE': 'REPORT - √çndices fixos'
}

print("üìã CLASSIFICA√á√ÉO FINAL DOS FORMATOS")
print("=" * 60)
for sheet, formato in classificacao.items():
    status = '‚úÖ' if 'TABULAR' in formato else '‚ö†Ô∏è'
    print(f"  {status} {sheet:<25} ‚Üí {formato}")

print("\nüìù Legenda:")
print("  ‚úÖ = Formato simples (leitura direta)")
print("  ‚ö†Ô∏è = Formato complexo (parsing especial necess√°rio)")

---
## üìù Conclus√µes

### Achados Principais:
1. **4 de 6 sheets** requerem parsing especial (formato REPORT)
2. **Apenas Despesas** est√£o em formato tabular convencional
3. **Al√≠quotas** cont√©m duas tabelas lado a lado
4. **Modelo DRE** tem √≠ndices fixos por linha

### Pr√≥ximos Passos:
‚Üí Ver **Parte 2** para an√°lise de Receitas e Despesas
‚Üí Ver **Parte 3** para an√°lise da DRE e KPIs