# üìä Top One Model - An√°lise do Dataset Interno

## Objetivo
Este notebook realiza a an√°lise explorat√≥ria inicial do dataset interno de cr√©dito com 700.000+ registros para entender:
- Estrutura e qualidade dos dados dispon√≠veis
- Features internas existentes 
- Distribui√ß√µes e padr√µes nos dados
- Identifica√ß√£o de vari√°veis geogr√°ficas para associa√ß√£o com dados macro regionais

## Estrutura do Projeto
```
‚îú‚îÄ‚îÄ data/
‚îÇ   ‚îú‚îÄ‚îÄ internal_data/          # Dataset interno (.xlsx)
‚îÇ   ‚îú‚îÄ‚îÄ external/              # Dados de web scraping
‚îÇ   ‚îî‚îÄ‚îÄ processed/             # Dados processados
‚îú‚îÄ‚îÄ src/
‚îÇ   ‚îú‚îÄ‚îÄ data_collection/       # M√≥dulos de web scraping
‚îÇ   ‚îú‚îÄ‚îÄ data_engineering/      # Engenharia de features
‚îÇ   ‚îú‚îÄ‚îÄ modeling/              # Modelos de ML
‚îÇ   ‚îú‚îÄ‚îÄ validation/            # Valida√ß√£o e testes
‚îÇ   ‚îî‚îÄ‚îÄ prediction/            # Sistema de predi√ß√£o
‚îî‚îÄ‚îÄ notebooks/                 # An√°lises explorat√≥rias
```

**Autores:** Pedro Schuves Marodin, Enzo Holtzmann Gaio  
**Data:** Agosto 2025

## 1. Environment Setup and Library Imports

In [None]:
# Environment Setup
import sys
import os
sys.path.append('../src')

# Data Manipulation and Analysis
import pandas as pd
import numpy as np
from scipy import stats

# Visualization Libraries
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Web Scraping Libraries (for later use)
import requests
from bs4 import BeautifulSoup
import time
from selenium import webdriver
from selenium.webdriver.common.by import By

# Machine Learning Libraries 
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix
import xgboost as xgb
import lightgbm as lgb

# Configuration and Utilities
import yaml
import warnings
warnings.filterwarnings('ignore')

# Display Settings
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 20)
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("‚úÖ Todas as bibliotecas importadas com sucesso!")
print(f"üìç Diret√≥rio atual: {os.getcwd()}")
print(f"üêç Vers√£o Python: {sys.version}")
print(f"üêº Vers√£o Pandas: {pd.__version__}")
print(f"üìä Vers√£o NumPy: {np.__version__}")

## 2. Data Loading and Initial Exploration

Vamos carregar o dataset interno e fazer uma primeira an√°lise da estrutura dos dados.

In [None]:
# Definir caminho para o dataset interno
DATASET_PATH = "../data/internal_data/dataset_interno_top_one.xlsx"

try:
    # Carregar o dataset
    print("üì• Carregando dataset interno...")
    df_internal = pd.read_excel(DATASET_PATH)
    
    print(f"‚úÖ Dataset carregado com sucesso!")
    print(f"üìä Dimens√µes: {df_internal.shape[0]:,} linhas x {df_internal.shape[1]} colunas")
    print(f"üíæ Tamanho em mem√≥ria: {df_internal.memory_usage(deep=True).sum() / (1024**2):.2f} MB")
    
except FileNotFoundError:
    print(f"‚ùå Arquivo n√£o encontrado em: {DATASET_PATH}")
    print("üìù Por favor, certifique-se de que o arquivo est√° no local correto!")
    df_internal = None
except Exception as e:
    print(f"‚ùå Erro ao carregar o dataset: {str(e)}")
    df_internal = None

In [None]:
# An√°lise inicial do dataset se carregado com sucesso
if df_internal is not None:
    print("=" * 60)
    print("üìä AN√ÅLISE INICIAL DO DATASET")
    print("=" * 60)
    
    # Informa√ß√µes b√°sicas
    print(f"üìã Colunas dispon√≠veis ({len(df_internal.columns)}):")
    for i, col in enumerate(df_internal.columns, 1):
        print(f"  {i:2d}. {col}")
    
    print(f"\nüìà Primeiras 5 linhas do dataset:")
    display(df_internal.head())
    
    print(f"\nüìä Informa√ß√µes sobre tipos de dados:")
    display(df_internal.info())
    
    print(f"\nüîç Estat√≠sticas descritivas:")
    display(df_internal.describe())
else:
    print("‚è≥ Aguardando carregamento do dataset...")

## 3. An√°lise Geogr√°fica e Identifica√ß√£o de Cidades

An√°lise espec√≠fica para identificar colunas geogr√°ficas que ser√£o usadas para associa√ß√£o com dados regionais coletados via web scraping.

In [None]:
# An√°lise geogr√°fica - identificar colunas de cidade/munic√≠pio
if df_internal is not None:
    print("üåç AN√ÅLISE GEOGR√ÅFICA")
    print("=" * 50)
    
    # Buscar colunas que podem conter informa√ß√µes geogr√°ficas
    geo_keywords = ['cidade', 'municipio', 'city', 'municipality', 'local', 'endereco', 'cep']
    possible_geo_cols = []
    
    for col in df_internal.columns:
        if any(keyword in col.lower() for keyword in geo_keywords):
            possible_geo_cols.append(col)
    
    print(f"üìç Colunas geogr√°ficas identificadas: {possible_geo_cols}")
    
    # Analisar cada coluna geogr√°fica
    for col in possible_geo_cols:
        print(f"\nüîç An√°lise da coluna: {col}")
        print(f"   - Tipo: {df_internal[col].dtype}")
        print(f"   - Valores √∫nicos: {df_internal[col].nunique()}")
        print(f"   - Valores faltantes: {df_internal[col].isnull().sum()} ({df_internal[col].isnull().mean()*100:.1f}%)")
        
        if df_internal[col].dtype == 'object':
            # Mostrar algumas cidades mais frequentes
            top_cities = df_internal[col].value_counts().head(10)
            print(f"   - Top 10 cidades:")
            for city, count in top_cities.items():
                print(f"     ‚Ä¢ {city}: {count:,} registros")
    
    # Se encontrou colunas geogr√°ficas, criar visualiza√ß√£o
    if possible_geo_cols:
        city_col = possible_geo_cols[0]  # Usar primeira coluna encontrada
        
        # Distribui√ß√£o geogr√°fica
        plt.figure(figsize=(12, 6))
        
        plt.subplot(1, 2, 1)
        top_20_cities = df_internal[city_col].value_counts().head(20)
        top_20_cities.plot(kind='bar')
        plt.title(f'Top 20 Cidades - {city_col}')
        plt.xticks(rotation=45, ha='right')
        plt.ylabel('N√∫mero de Registros')
        
        plt.subplot(1, 2, 2)
        # Distribui√ß√£o percentual
        city_distribution = df_internal[city_col].value_counts()
        others_count = city_distribution[20:].sum() if len(city_distribution) > 20 else 0
        
        plot_data = city_distribution.head(10).copy()
        if others_count > 0:
            plot_data['Outras'] = others_count
        
        plt.pie(plot_data.values, labels=plot_data.index, autopct='%1.1f%%')
        plt.title('Distribui√ß√£o Geogr√°fica (Top 10 + Outras)')
        
        plt.tight_layout()
        plt.show()
        
        print(f"\nüìä Resumo geogr√°fico:")
        print(f"   - Total de cidades √∫nicas: {df_internal[city_col].nunique()}")
        print(f"   - Cidade mais frequente: {df_internal[city_col].mode().iloc[0]} ({df_internal[city_col].value_counts().iloc[0]:,} registros)")
        print(f"   - Cobertura geogr√°fica: {(1-df_internal[city_col].isnull().mean())*100:.1f}%")
    
    else:
        print("‚ö†Ô∏è Nenhuma coluna geogr√°fica clara identificada.")
        print("üí° Sugest√£o: Verifique se existe coluna com informa√ß√µes de localiza√ß√£o.")
else:
    print("‚è≥ Dataset n√£o carregado ainda.")