"""
# üìä An√°lise Explorat√≥ria - Qualidade do Ar
## Projeto: An√°lise de Qualidade do Ar em Cidades Globais

**Autor:** [David Matias]
**Data:** 29/12/2025
**Vers√£o:** 1.0

Este notebook realiza an√°lise explorat√≥ria dos dados de qualidade do ar.
"""

In [1]:
# An√°lise Explorat√≥ria - Qualidade do Ar

import sys
sys.path.append('../src')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# Configura√ß√µes
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
pd.set_option('display.max_columns', None)

# Carregar dados
from data_collection import DataCollector
from data_cleaning import clean_air_quality_data

print("üì• Carregando dados...")
collector = DataCollector()
raw_data = collector.get_data(use_sample=True)
cleaned_data = clean_air_quality_data(raw_data, save_path=None)

print(f"‚úÖ Dados carregados: {len(cleaned_data):,} registros")
print(f"üìÖ Per√≠odo: {cleaned_data['date'].min()} a {cleaned_data['date'].max()}")
print(f"üèôÔ∏è Cidades: {cleaned_data['city'].nunique()}")
print(f"üå´Ô∏è Poluentes: {', '.join(cleaned_data['parameter'].unique())}")

# Visualiza√ß√£o b√°sica
fig = px.box(cleaned_data, x='city', y='value', color='parameter',
             title='Distribui√ß√£o de Poluentes por Cidade')
fig.show()

üì• Carregando dados...
üåç COLETA DE DADOS - QUALIDADE DO AR
üì• M√©todo 2: Criando dataset de exemplo para desenvolvimento
‚úÖ Dataset de exemplo criado: 5,400 registros      
üíæ Salvo em: ./data\raw\sample_data.csv
üßπ Iniciando limpeza de dados...
  üîÑ Convertendo tipos de dados...
  üîç Colunas dispon√≠veis: ['date', 'city', 'country', 'parameter', 'value', 'unit', 'latitude', 'longitude']
  üóëÔ∏è  Removendo duplicatas usando: ['date', 'city', 'parameter', 'value', 'latitude', 'longitude']
  üîç Tratando valores ausentes...
    Valores ausentes: 0 ‚Üí 0
  ‚è∞ Criando features temporais...
  ‚úÖ Validando dados...
    üìà Dimens√µes: (5400, 13)
    üìÖ Per√≠odo: 2020-01-01 00:00:00 a 2020-06-28 00:00:00
‚úÖ Limpeza conclu√≠da! Registros: 5,400
‚úÖ Dados carregados: 5,400 registros
üìÖ Per√≠odo: 2020-01-01 00:00:00 a 2020-06-28 00:00:00
üèôÔ∏è Cidades: 10
üå´Ô∏è Poluentes: PM2.5, NO2, O3
