# ü§ñ EPIC 1: COMPREENS√ÉO DO PROBLEMA E DADOS

*   üìå STORY 1.1: An√°lise Explorat√≥ria Estrat√©gica
*   üìå STORY 1.2: Defini√ß√£o do MVP de Features

## T1.1.1: üîç Diagn√≥stico ultrarr√°pido do dataset

Refatorar a Story 1.1 para focar nas 5-7 ou 10 features mais impactantes, seguindo as tasks especificadas.

In [None]:
# -*- coding: utf-8 -*-
"""Story 1.1: An√°lise Explorat√≥ria Estrat√©gica

Automatically generated by Colab.

# üìä STORY 1.1: AN√ÅLISE EXPLORAT√ìRIA ESTRAT√âGICA
## üìã Vis√£o Geral
Esta Story implementa uma an√°lise explorat√≥ria estrat√©gica do dataset de voos, focando em:
1. Diagn√≥stico ultrarr√°pido do dataset
2. An√°lise da vari√°vel alvo
3. Identifica√ß√£o de features promissoras
4. Detec√ß√£o de problemas cr√≠ticos
5. Visualiza√ß√µes estrat√©gicas
"""

# ============================================================================
# IMPORTA√á√ïES NECESS√ÅRIAS
# ============================================================================
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
import warnings
from datetime import datetime
import textwrap

# Configura√ß√µes de exibi√ß√£o
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)
pd.set_option('display.float_format', '{:.4f}'.format)
pd.set_option('display.max_rows', 100)

warnings.filterwarnings('ignore', category=FutureWarning)
warnings.filterwarnings('ignore', category=DeprecationWarning)
warnings.filterwarnings('ignore', category=UserWarning)

plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
sns.set_context("notebook", font_scale=1.2)

# ============================================================================
# CONFIGURA√á√ïES INICIAIS
# ============================================================================
SEED = 42
np.random.seed(SEED)
DATA_PATH = "datascience/1_understanding/data/flight_data_2024_sample.csv"

print("="*80)
print("üéØ STORY 1.1: AN√ÅLISE EXPLORAT√ìRIA ESTRAT√âGICA")
print("="*80)

# ============================================================================
# TASK 1.1.1: üîç DIAGN√ìSTICO ULTRARR√ÅPIDO DO DATASET
# ============================================================================
print("\n" + "="*80)
print("üîç TASK 1.1.1: DIAGN√ìSTICO ULTRARR√ÅPIDO DO DATASET")
print("="*80)

# 1. Carregar dataset otimizado
print("\nüì• 1. CARREGAMENTO DO DATASET (OTIMIZADO)")
start_time = datetime.now()

# Mapear tipos de dados para otimiza√ß√£o
dtype_mapping = {
    'int64': 'int32',
    'float64': 'float32'
}

try:
    # Primeiro carrega para identificar tipos
    df_sample = pd.read_csv(DATA_PATH, nrows=1000)
    
    # Identificar colunas num√©ricas para otimiza√ß√£o
    optimize_cols = {}
    for col in df_sample.columns:
        if df_sample[col].dtype == 'int64':
            optimize_cols[col] = 'int32'
        elif df_sample[col].dtype == 'float64':
            optimize_cols[col] = 'float32'
    
    # Carregar dataset completo com tipos otimizados
    df = pd.read_csv(DATA_PATH, dtype=optimize_cols, low_memory=True)
    
    elapsed_time = (datetime.now() - start_time).total_seconds()
    print(f"‚úÖ Dataset carregado em {elapsed_time:.1f} segundos")
    print(f"   ‚Ä¢ Shape: {df.shape[0]:,} linhas √ó {df.shape[1]} colunas")
    
except FileNotFoundError:
    print(f"‚ùå Arquivo n√£o encontrado: {DATA_PATH}")
    print("üìÅ Arquivos no diret√≥rio atual:")
    for f in os.listdir('.'):
        if f.endswith('.csv'):
            print(f"  ‚Ä¢ {f}")
    raise SystemExit("N√£o √© poss√≠vel prosseguir")
except Exception as e:
    print(f"‚ùå Erro ao carregar dataset: {e}")
    raise SystemExit("N√£o √© poss√≠vel prosseguir")

# 2. Verificar shape e tipos b√°sicos
print("\nüìä 2. INFORMA√á√ïES B√ÅSICAS DO DATASET")
print(f"Nomes das colunas ({len(df.columns)}):")
cols_per_line = 5
for i in range(0, len(df.columns), cols_per_line):
    print("  " + ", ".join(df.columns[i:i+cols_per_line]))

print(f"\nüìã Tipos de dados:")
type_counts = df.dtypes.value_counts()
for dtype, count in type_counts.items():
    print(f"  ‚Ä¢ {dtype}: {count} colunas")

# 3. Identificar colunas de atraso
print("\n‚è±Ô∏è 3. IDENTIFICA√á√ÉO DE COLUNAS DE ATRASO")
delay_columns = [col for col in df.columns if 'delay' in col.lower() or 'atraso' in col.lower()]
print(f"Colunas relacionadas a atraso encontradas ({len(delay_columns)}):")
for col in delay_columns:
    dtype = df[col].dtype
    unique_vals = df[col].nunique()
    null_pct = (df[col].isnull().sum() / len(df) * 100)
    print(f"  ‚Ä¢ {col}: {dtype}, {unique_vals} valores √∫nicos, {null_pct:.1f}% nulos")

# 4. Verificar missing values b√°sicos
print("\n‚ùì 4. AN√ÅLISE DE VALORES AUSENTES")
missing_summary = pd.DataFrame({
    'Tipo': df.dtypes,
    'Valores √önicos': df.nunique(),
    'Valores Nulos': df.isnull().sum(),
    '% Nulos': (df.isnull().sum() / len(df) * 100).round(2)
})

print("\nüìä RESUMO DE VALORES AUSENTES:")
print(f"Total de c√©lulas: {df.shape[0] * df.shape[1]:,}")
print(f"Valores nulos totais: {df.isnull().sum().sum():,}")
print(f"Porcentagem geral de nulos: {(df.isnull().sum().sum() / (df.shape[0] * df.shape[1]) * 100):.2f}%")

print("\nüîù TOP 10 COLUNAS COM MAIS VALORES AUSENTES:")
top_missing = missing_summary.sort_values('% Nulos', ascending=False).head(10)
display(top_missing)

# ============================================================================
# TASK 1.1.2: üìà AN√ÅLISE DE DISTRIBUI√á√ÉO DA VARI√ÅVEL ALVO
# ============================================================================
print("\n" + "="*80)
print("üìà TASK 1.1.2: AN√ÅLISE DA VARI√ÅVEL ALVO")
print("="*80)

# 1. Criar vari√°vel alvo bin√°ria
print("\nüéØ 1. CRIANDO VARI√ÅVEL ALVO BIN√ÅRIA")
LIMITE_ATRASO = 15

# Identificar a melhor coluna de atraso para usar como alvo
target_col = None
preferred_cols = ['arr_delay', 'ARR_DELAY', 'ArrivalDelay', 'atraso_chegada']

for col in preferred_cols:
    if col in df.columns:
        target_col = col
        break

if target_col is None and len(delay_columns) > 0:
    target_col = delay_columns[0]

if target_col:
    print(f"‚úÖ Usando coluna '{target_col}' para criar vari√°vel alvo")
    
    # Criar vari√°vel alvo bin√°ria
    df['target_atraso'] = df[target_col].fillna(0).apply(
        lambda x: 1 if x >= LIMITE_ATRASO else 0
    )
    
    print(f"‚úÖ Vari√°vel 'target_atraso' criada (atraso ‚â• {LIMITE_ATRASO} min)")
else:
    print("‚ö†Ô∏è  Nenhuma coluna de atraso identificada claramente")
    print("üîç Procurando por colunas num√©ricas que possam representar atraso...")
    
    # Procurar por colunas num√©ricas com valores que fazem sentido para atraso
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    for col in numeric_cols:
        unique_vals = df[col].dropna().unique()
        if len(unique_vals) > 0:
            min_val, max_val = unique_vals.min(), unique_vals.max()
            if -60 <= min_val <= 300 and -60 <= max_val <= 300:  # Faixa razo√°vel para atraso
                print(f"  ‚Ä¢ Poss√≠vel coluna de atraso: {col} (valores entre {min_val} e {max_val})")
                target_col = col
                break
    
    if target_col:
        df['target_atraso'] = df[target_col].fillna(0).apply(
            lambda x: 1 if x >= LIMITE_ATRASO else 0
        )
        print(f"‚úÖ Vari√°vel 'target_atraso' criada a partir de '{target_col}'")
    else:
        print("‚ùå N√£o foi poss√≠vel identificar coluna para vari√°vel alvo")
        raise SystemExit("N√£o √© poss√≠vel prosseguir sem vari√°vel alvo")

# 2. Calcular taxa base de atrasos
print("\nüìä 2. TAXA BASE DE ATRASOS")
target_stats = df['target_atraso'].value_counts().sort_index()
total_flights = len(df)

print(f"Total de voos analisados: {total_flights:,}")
print(f"\nDistribui√ß√£o da vari√°vel alvo:")
for value, count in target_stats.items():
    percentage = (count / total_flights) * 100
    label = "ATRASADO (‚â•15min)" if value == 1 else "PONTUAL (<15min)"
    print(f"  ‚Ä¢ {label}: {count:,} voos ({percentage:.2f}%)")

taxa_atraso = target_stats.get(1, 0) / total_flights * 100
print(f"\nüéØ Taxa base de atrasos: {taxa_atraso:.2f}%")

# 3. Verificar balanceamento
print("\n‚öñÔ∏è 3. VERIFICA√á√ÉO DE BALANCEAMENTO")
minority_class = min(target_stats.values)
majority_class = max(target_stats.values)
balance_ratio = minority_class / majority_class

print(f"Classe minorit√°ria: {minority_class:,} voos")
print(f"Classe majorit√°ria: {majority_class:,} voos")
print(f"Raz√£o de balanceamento: {balance_ratio:.3f}")

if balance_ratio < 0.5:
    print("‚ö†Ô∏è  Dataset DESBALANCEADO - necessidade de t√©cnicas especiais")
    if balance_ratio < 0.3:
        print("üî¥ FORTEMENTE DESBALANCEADO - aten√ß√£o especial necess√°ria")
else:
    print("‚úÖ Dataset razoavelmente balanceado")

# 4. Documentar baseline para m√©tricas
print("\nüìà 4. BASELINE PARA M√âTRICAS")
# Baseline: prever sempre a classe majorit√°ria
majority_class_label = 0 if target_stats.get(0, 0) > target_stats.get(1, 0) else 1
baseline_accuracy = target_stats.get(majority_class_label, 0) / total_flights * 100

print(f"Classe majorit√°ria: {'Pontual (0)' if majority_class_label == 0 else 'Atrasado (1)'}")
print(f"Acur√°cia do baseline (prever sempre majorit√°ria): {baseline_accuracy:.2f}%")
print(f"Recall do baseline para atrasos: {100 if majority_class_label == 1 else 0:.2f}%")
print(f"Precision do baseline para atrasos: {taxa_atraso if majority_class_label == 1 else 0:.2f}%")

# Salvar an√°lise da vari√°vel alvo
print("\nüíæ SALVANDO AN√ÅLISE DA VARI√ÅVEL ALVO...")
target_analysis = pd.DataFrame({
    'total_flights': [total_flights],
    'delayed_flights': [target_stats.get(1, 0)],
    'on_time_flights': [target_stats.get(0, 0)],
    'delay_rate_pct': [taxa_atraso],
    'balance_ratio': [balance_ratio],
    'baseline_accuracy': [baseline_accuracy],
    'target_column': [target_col],
    'threshold_minutes': [LIMITE_ATRASO]
})

# Criar diret√≥rios se n√£o existirem
os.makedirs('datascience/1_understanding/data', exist_ok=True)
os.makedirs('datascience/1_understanding/docs', exist_ok=True)

target_analysis.to_csv('datascience/1_understanding/data/target_variable_analysis.csv', index=False)
print("‚úÖ An√°lise salva em 'datascience/1_understanding/data/target_variable_analysis.csv'")

# ============================================================================
# TASK 1.1.3: üéØ IDENTIFICA√á√ÉO DE FEATURES PROMISSORAS
# ============================================================================
print("\n" + "="*80)
print("üéØ TASK 1.1.3: IDENTIFICA√á√ÉO DE FEATURES PROMISSORAS")
print("="*80)

# 1. Correla√ß√£o r√°pida com vari√°vel alvo
print("\nüîó 1. CORRELA√á√ÉO COM VARI√ÅVEL ALVO")

# Selecionar apenas colunas num√©ricas para correla√ß√£o
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()

# Remover a pr√≥pria vari√°vel alvo se estiver na lista
if 'target_atraso' in numeric_cols:
    numeric_cols.remove('target_atraso')

# Remover colunas que n√£o fazem sentido para correla√ß√£o (IDs, c√≥digos)
exclude_patterns = ['id', 'ID', 'code', 'CODE', 'num', 'NUM', 'flt', 'FLT']
filtered_numeric_cols = []
for col in numeric_cols:
    if not any(pattern in col.upper() for pattern in [p.upper() for p in exclude_patterns]):
        filtered_numeric_cols.append(col)

# Calcular correla√ß√£o apenas com as colunas filtradas
if len(filtered_numeric_cols) > 0:
    correlation_with_target = {}
    
    for col in filtered_numeric_cols[:50]:  # Limitar para performance
        try:
            # Remover valores nulos para c√°lculo de correla√ß√£o
            valid_data = df[[col, 'target_atraso']].dropna()
            if len(valid_data) > 100:  # Apenas se tiver dados suficientes
                corr = valid_data[col].corr(valid_data['target_atraso'])
                if not pd.isna(corr):  # Verificar se n√£o √© NaN
                    correlation_with_target[col] = corr
        except:
            continue
    
    # Ordenar por valor absoluto da correla√ß√£o
    sorted_corr = sorted(correlation_with_target.items(), 
                        key=lambda x: abs(x[1]), 
                        reverse=True)
    
    print(f"\nüîù TOP 10 FEATURES POR CORRELA√á√ÉO (absoluta) COM ATRASO:")
    for i, (col, corr) in enumerate(sorted_corr[:10]):
        direction = "positiva" if corr > 0 else "negativa"
        print(f"  {i+1:2d}. {col:30} | r = {corr:7.3f} ({direction})")
    
    # Salvar top 10 features
    top_features = [col for col, _ in sorted_corr[:10]]
else:
    print("‚ö†Ô∏è  N√£o h√° colunas num√©ricas suficientes para an√°lise de correla√ß√£o")
    top_features = []
    sorted_corr = []

# 2. Verificar colunas temporais
print("\n‚è∞ 2. COLUNAS TEMPORAIS IDENTIFICADAS")
time_patterns = ['date', 'DATE', 'time', 'TIME', 'datetime', 'DATETIME', 
                 'hora', 'HORA', 'dt', 'DT', 'timestamp', 'TIMESTAMP']

time_cols = []
for col in df.columns:
    if any(pattern in col for pattern in time_patterns):
        time_cols.append(col)

print(f"Colunas temporais encontradas ({len(time_cols)}):")
for col in time_cols:
    dtype = str(df[col].dtype)
    unique_vals = df[col].nunique()
    sample_val = str(df[col].iloc[0])[:50] if len(df) > 0 else "N/A"
    print(f"  ‚Ä¢ {col:25} | {dtype:10} | {unique_vals:5} √∫nicos | Ex: {sample_val}")

# 3. Identificar colunas categ√≥ricas chave
print("\nüè∑Ô∏è 3. COLUNAS CATEG√ìRICAS CHAVE")
categorical_cols = df.select_dtypes(include=['object', 'category']).columns.tolist()

# Filtrar para colunas com significado potencial
meaningful_categorical = []
for col in categorical_cols:
    unique_count = df[col].nunique()
    # Considerar como chave se tiver entre 2 e 100 valores √∫nicos
    if 2 <= unique_count <= 100:
        meaningful_categorical.append((col, unique_count))

print(f"Colunas categ√≥ricas significativas ({len(meaningful_categorical)}):")
meaningful_categorical.sort(key=lambda x: x[1])

for col, count in meaningful_categorical[:15]:  # Mostrar apenas as primeiras
    print(f"  ‚Ä¢ {col:25} | {count:3} valores √∫nicos")

# 4. Criar lista de 10 features potenciais
print("\nüìã 4. LISTA DE 10 FEATURES POTENCIAIS")

# Combinar features baseadas em diferentes crit√©rios
potential_features = []

# Adicionar top correlacionadas
if sorted_corr:
    potential_features.extend([col for col, _ in sorted_corr[:5]])

# Adicionar categ√≥ricas mais promissoras
for col, count in meaningful_categorical[:3]:
    if col not in potential_features:
        potential_features.append(col)

# Adicionar temporais mais importantes
for col in time_cols[:2]:
    if col not in potential_features:
        potential_features.append(col)

# Completar com outras features baseadas em nome
feature_keywords = ['airline', 'carrier', 'origin', 'dest', 'dep', 'arr', 
                    'delay', 'time', 'dist', 'weather', 'taxi']

for keyword in feature_keywords:
    for col in df.columns:
        if keyword.lower() in col.lower() and col not in potential_features:
            if len(potential_features) < 10:
                potential_features.append(col)
            else:
                break
    if len(potential_features) >= 10:
        break

print("\nüéØ LISTA FINAL DE 10 FEATURES POTENCIAIS:")
for i, feature in enumerate(potential_features[:10], 1):
    feature_type = "num√©rico" if feature in numeric_cols else "categ√≥rico" if feature in categorical_cols else "temporal"
    print(f"  {i:2d}. {feature:25} | {feature_type:15}")

# ============================================================================
# TASK 1.1.4: ‚ö†Ô∏è DETEC√á√ÉO DE PROBLEMAS CR√çTICOS
# ============================================================================
print("\n" + "="*80)
print("‚ö†Ô∏è TASK 1.1.4: DETEC√á√ÉO DE PROBLEMAS CR√çTICOS")
print("="*80)

# 1. Verificar vazamento de dados
print("\nüîí 1. VERIFICA√á√ÉO DE VAZAMENTO DE DADOS")
print("Procurando colunas que podem conter informa√ß√£o do futuro...")

leakage_keywords = ['delay', 'atraso', 'arrival', 'chegada', 'actual', 'real']
leakage_columns = []

for col in df.columns:
    col_lower = col.lower()
    if any(keyword in col_lower for keyword in leakage_keywords):
        # Verificar se n√£o √© a coluna alvo que criamos
        if col != 'target_atraso' and col != target_col:
            leakage_columns.append(col)

print(f"Colunas suspeitas de vazamento encontradas ({len(leakage_columns)}):")
for col in leakage_columns[:10]:  # Mostrar apenas as primeiras
    print(f"  ‚Ä¢ {col}")

if leakage_columns:
    print("\n‚ö†Ô∏è  ATEN√á√ÉO: Estas colunas podem causar vazamento de dados!")
    print("   Considerar remover durante a modelagem.")
else:
    print("‚úÖ Nenhuma coluna √≥bvia de vazamento identificada")

# 2. Identificar colunas com >50% missing
print("\n‚ùì 2. COLUNAS COM MAIS DE 50% DE VALORES AUSENTES")
high_missing_threshold = 50
high_missing_cols = missing_summary[missing_summary['% Nulos'] > high_missing_threshold]

print(f"Colunas com >{high_missing_threshold}% de valores ausentes ({len(high_missing_cols)}):")
if len(high_missing_cols) > 0:
    for idx, row in high_missing_cols.iterrows():
        print(f"  ‚Ä¢ {idx:25} | {row['% Nulos']:.1f}% nulos | {row['Tipo']}")
    
    print(f"\nüö´ RECOMENDA√á√ÉO: Remover estas {len(high_missing_cols)} colunas")
else:
    print("‚úÖ Nenhuma coluna com mais de 50% de valores ausentes")

# 3. Detectar outliers extremos em vari√°veis num√©ricas
print("\nüìä 3. DETEC√á√ÉO DE OUTLIERS EXTREMOS")
if len(filtered_numeric_cols) > 0:
    print("Analisando outliers nas principais vari√°veis num√©ricas...")
    
    outlier_analysis = []
    for col in filtered_numeric_cols[:10]:  # Analisar apenas as primeiras 10
        data = df[col].dropna()
        if len(data) > 0:
            Q1 = data.quantile(0.25)
            Q3 = data.quantile(0.75)
            IQR = Q3 - Q1
            lower_bound = Q1 - 3 * IQR
            upper_bound = Q3 + 3 * IQR
            
            outliers = data[(data < lower_bound) | (data > upper_bound)]
            outlier_pct = (len(outliers) / len(data)) * 100
            
            if outlier_pct > 5:  # Mais de 5% de outliers
                outlier_analysis.append({
                    'coluna': col,
                    'outliers_count': len(outliers),
                    'outliers_pct': outlier_pct,
                    'min': data.min(),
                    'max': data.max()
                })
    
    if outlier_analysis:
        print(f"Vari√°veis com mais de 5% de outliers extremos ({len(outlier_analysis)}):")
        for analysis in outlier_analysis:
            print(f"  ‚Ä¢ {analysis['coluna']:25} | {analysis['outliers_pct']:.1f}% outliers "
                  f"({analysis['outliers_count']:,} de {len(df[analysis['coluna']].dropna()):,})")
    else:
        print("‚úÖ Nenhuma vari√°vel com mais de 5% de outliers extremos")
else:
    print("‚ö†Ô∏è  N√£o h√° vari√°veis num√©ricas para an√°lise de outliers")
    outlier_analysis = []

# 4. Documentar limita√ß√µes do dataset
print("\nüìù 4. LIMITA√á√ïES DOCUMENTADAS DO DATASET")

limitations = []

# Limita√ß√µes baseadas na an√°lise
if len(high_missing_cols) > 0:
    limitations.append(f"‚Ä¢ {len(high_missing_cols)} colunas com >50% de valores ausentes")

if leakage_columns:
    limitations.append(f"‚Ä¢ {len(leakage_columns)} colunas suspeitas de vazamento de dados")

if balance_ratio < 0.5:
    limitations.append(f"‚Ä¢ Dataset desbalanceado (raz√£o: {balance_ratio:.3f})")

if len(numeric_cols) < 5:
    limitations.append("‚Ä¢ Poucas vari√°veis num√©ricas dispon√≠veis")

if len(time_cols) == 0:
    limitations.append("‚Ä¢ Sem colunas temporais expl√≠citas")

print("\nüö´ PRINCIPAIS LIMITA√á√ïES IDENTIFICADAS:")
for i, limitation in enumerate(limitations, 1):
    print(f"  {i}. {limitation}")

# ============================================================================
# TASK 1.1.5: üìä VISUALIZA√á√ïES ESTRAT√âGICAS
# ============================================================================
print("\n" + "="*80)
print("üìä TASK 1.1.5: VISUALIZA√á√ïES ESTRAT√âGICAS")
print("="*80)

print("\nüé® GERANDO VISUALIZA√á√ïES ESTRAT√âGICAS...")

# Criar figura com subplots
fig = plt.figure(figsize=(18, 12))
fig.suptitle('DASHBOARD ESTRAT√âGICO - AN√ÅLISE EXPLORAT√ìRIA DO DATASET DE VOOS',
             fontsize=18, fontweight='bold', y=1.02)

# 1. Distribui√ß√£o da vari√°vel alvo
ax1 = plt.subplot(2, 3, 1)
contagem_alvo = df['target_atraso'].value_counts().sort_index()
cores_alvo = ['#2ecc71', '#e74c3c']
labels_alvo = [f'Pontual\n({contagem_alvo.get(0, 0):,})', 
               f'Atrasado\n({contagem_alvo.get(1, 0):,})']

wedges, texts, autotexts = ax1.pie(contagem_alvo, labels=labels_alvo, 
                                   autopct='%1.1f%%', colors=cores_alvo, 
                                   explode=(0, 0.05), startangle=90,
                                   textprops={'fontsize': 10})

for autotext in autotexts:
    autotext.set_color('white')
    autotext.set_fontweight('bold')

ax1.set_title('Distribui√ß√£o da Vari√°vel Alvo', fontsize=14, fontweight='bold')

# 2. Heatmap de correla√ß√£o (top 15 features) - VERS√ÉO CORRIGIDA
ax2 = plt.subplot(2, 3, 2)
ax2.set_title('Heatmap de Correla√ß√£o', fontsize=14, fontweight='bold')

if len(sorted_corr) >= 5:
    # Selecionar top 15 features para correla√ß√£o
    top_corr_features = [col for col, _ in sorted_corr[:15]]
    
    # Adicionar vari√°vel alvo
    if 'target_atraso' not in top_corr_features:
        top_corr_features.append('target_atraso')
    
    # VERIFICA√á√ÉO DE SEGURAN√áA ANTES DE CALCULAR CORRELA√á√ÉO
    safe_features = []
    problematic_features = []
    
    print("\nüîç VERIFICANDO FEATURES PARA CORRELA√á√ÉO SEGURA:")
    
    for col in top_corr_features:
        if col in df.columns:
            # Verificar se √© coluna num√©rica
            if df[col].dtype in ['int64', 'int32', 'float64', 'float32']:
                # Verificar problemas conhecidos
                non_null_data = df[col].dropna()
                
                if len(non_null_data) < 10:
                    print(f"  ‚ö†Ô∏è  {col}: Muito poucos dados ({len(non_null_data)} valores n√£o nulos)")
                    problematic_features.append(col)
                elif non_null_data.nunique() == 1:
                    print(f"  ‚ö†Ô∏è  {col}: Todos valores iguais (desvio padr√£o zero)")
                    problematic_features.append(col)
                else:
                    # Verificar desvio padr√£o
                    std_val = non_null_data.std()
                    if std_val < 0.0001:  # Praticamente zero
                        print(f"  ‚ö†Ô∏è  {col}: Desvio padr√£o muito baixo ({std_val:.6f})")
                        problematic_features.append(col)
                    else:
                        safe_features.append(col)
                        print(f"  ‚úÖ {col}: OK ({len(non_null_data)} valores, std={std_val:.2f})")
            else:
                print(f"  ‚ö†Ô∏è  {col}: Tipo n√£o num√©rico ({df[col].dtype})")
                problematic_features.append(col)
        else:
            print(f"  ‚ùå {col}: Coluna n√£o encontrada no DataFrame")
    
    print(f"\nüìä RESULTADO DA VERIFICA√á√ÉO:")
    print(f"  ‚Ä¢ Features seguras: {len(safe_features)}")
    print(f"  ‚Ä¢ Features problem√°ticas: {len(problematic_features)}")
    
    # Usar apenas features seguras
    if len(safe_features) >= 2 and 'target_atraso' in safe_features:
        try:
            # Criar DataFrame apenas com features seguras
            safe_df = df[safe_features].copy()
            
            # Preencher valores NaN com mediana para cada coluna
            for col in safe_features:
                if safe_df[col].isnull().any():
                    median_val = safe_df[col].median()
                    safe_df[col] = safe_df[col].fillna(median_val)
                    print(f"  üîß {col}: NaN preenchidos com mediana {median_val:.2f}")
            
            # AGORA calcular correla√ß√£o com tratamento de erros
            try:
                corr_matrix = safe_df.corr(method='pearson')
                
                # Verificar se a matriz tem valores v√°lidos
                if corr_matrix.isnull().any().any():
                    print("  ‚ö†Ô∏è  Matriz de correla√ß√£o cont√©m valores NaN")
                    # Preencher NaN com 0
                    corr_matrix = corr_matrix.fillna(0)
                
                # Garantir que temos a vari√°vel alvo
                if 'target_atraso' in corr_matrix.columns:
                    # Ordenar por correla√ß√£o com alvo
                    target_corr = corr_matrix['target_atraso'].drop('target_atraso', errors='ignore')
                    
                    if len(target_corr) > 0:
                        sorted_features = target_corr.abs().sort_values(ascending=False).index.tolist()
                        sorted_features = ['target_atraso'] + sorted_features
                        
                        # Limitar a um n√∫mero razo√°vel para visualiza√ß√£o
                        display_features = sorted_features[:min(10, len(sorted_features))]
                        
                        # Extrair submatriz
                        display_matrix = corr_matrix.loc[display_features, display_features]
                        
                        # Plotar heatmap
                        vmax = max(abs(display_matrix.min().min()), abs(display_matrix.max().max()))
                        vmax = min(vmax, 1.0)  # Limitar entre -1 e 1
                        
                        im = ax2.imshow(display_matrix, cmap='RdBu_r', vmin=-vmax, vmax=vmax, aspect='auto')
                        
                        # Configurar ticks
                        tick_positions = range(len(display_features))
                        ax2.set_xticks(tick_positions)
                        ax2.set_yticks(tick_positions)
                        
                        # Labels
                        ax2.set_xticklabels([textwrap.fill(col, 12) for col in display_features], 
                                           rotation=45, ha='right', fontsize=8)
                        ax2.set_yticklabels([textwrap.fill(col, 12) for col in display_features], 
                                           fontsize=8)
                        
                        # Adicionar valores
                        for i in range(len(display_features)):
                            for j in range(len(display_features)):
                                value = display_matrix.iloc[i, j]
                                if not pd.isna(value):
                                    color = 'white' if abs(value) > 0.3 else 'black'
                                    ax2.text(j, i, f'{value:.2f}', ha='center', va='center', 
                                            color=color, fontsize=7, fontweight='bold')
                        
                        plt.colorbar(im, ax=ax2, shrink=0.8)
                        ax2.set_title(f'Correla√ß√£o ({len(safe_features)} features seguras)', fontsize=14, fontweight='bold')
                        
                    else:
                        ax2.text(0.5, 0.5, 'Sem correla√ß√µes v√°lidas\ncom vari√°vel alvo', 
                                 ha='center', va='center', fontsize=12)
                else:
                    ax2.text(0.5, 0.5, 'Vari√°vel alvo n√£o encontrada\nna matriz de correla√ß√£o', 
                             ha='center', va='center', fontsize=12)
                    
            except Exception as calc_error:
                ax2.text(0.5, 0.5, f'Erro c√°lculo correla√ß√£o:\n{str(calc_error)[:30]}', 
                         ha='center', va='center', fontsize=10)
        
        except Exception as df_error:
            ax2.text(0.5, 0.5, f'Erro prepara√ß√£o dados:\n{str(df_error)[:30]}', 
                     ha='center', va='center', fontsize=10)
    
    else:
        ax2.text(0.5, 0.5, f'Features seguras insuficientes\n({len(safe_features)} de {len(top_corr_features)})', 
                 ha='center', va='center', fontsize=11)
        print(f"\n‚ùå N√£o h√° features suficientes seguras para heatmap")
        
else:
    ax2.text(0.5, 0.5, f'Features correlacionadas\ninsuficientes ({len(sorted_corr)})', 
             ha='center', va='center', fontsize=12)

# 3. Boxplot de features num√©ricas vs atraso
ax3 = plt.subplot(2, 3, 3)
if len(sorted_corr) >= 3:
    # Selecionar top 3 features num√©ricas
    top_numeric_features = []
    for col, _ in sorted_corr:
        if col in filtered_numeric_cols and len(top_numeric_features) < 3:
            top_numeric_features.append(col)
    
    if top_numeric_features:
        # Preparar dados para boxplot
        boxplot_data = []
        boxplot_labels = []
        
        for feature in top_numeric_features:
            # Amostrar para melhor visualiza√ß√£o
            sample_size = min(1000, len(df))
            df_sample = df.sample(sample_size, random_state=SEED)
            
            for target_value in [0, 1]:
                subset = df_sample[df_sample['target_atraso'] == target_value][feature].dropna()
                if len(subset) > 0:
                    boxplot_data.append(subset.values)
                    boxplot_labels.append(f"{feature}\n{'Pontual' if target_value == 0 else 'Atrasado'}")
        
        # Plotar boxplot
        if boxplot_data:
            try:
                bp = ax3.boxplot(boxplot_data, patch_artist=True, labels=boxplot_labels, 
                                showfliers=False)  # Ocultar outliers para clareza
                
                # Colorir boxes
                colors = ['lightblue', 'lightcoral'] * len(top_numeric_features)
                for patch, color in zip(bp['boxes'], colors):
                    patch.set_facecolor(color)
                
                ax3.set_title('Boxplot: Features vs Atraso', fontsize=14, fontweight='bold')
                ax3.set_ylabel('Valor da Feature')
                ax3.tick_params(axis='x', rotation=45)
            except:
                ax3.text(0.5, 0.5, 'Erro ao gerar\nboxplot', 
                         ha='center', va='center', fontsize=12)
                ax3.set_title('Boxplot: Features vs Atraso', fontsize=14, fontweight='bold')
        else:
            ax3.text(0.5, 0.5, 'Dados insuficientes\npara boxplot', 
                     ha='center', va='center', fontsize=12)
            ax3.set_title('Boxplot: Features vs Atraso', fontsize=14, fontweight='bold')
    else:
        ax3.text(0.5, 0.5, 'Dados insuficientes\npara boxplot', 
                 ha='center', va='center', fontsize=12)
        ax3.set_title('Boxplot: Features vs Atraso', fontsize=14, fontweight='bold')
else:
    ax3.text(0.5, 0.5, 'Dados insuficientes\npara boxplot', 
             ha='center', va='center', fontsize=12)
    ax3.set_title('Boxplot: Features vs Atraso', fontsize=14, fontweight='bold')

# 4. Taxa de atraso por companhia (top 10)
ax4 = plt.subplot(2, 3, 4)

# Tentar identificar coluna de companhia a√©rea
airline_cols = [col for col in df.columns if any(keyword in col.lower() 
                for keyword in ['airline', 'carrier', 'companhia', 'op_carrier'])]

if airline_cols:
    airline_col = airline_cols[0]
    
    try:
        # Calcular taxa de atraso por companhia
        airline_delay_stats = df.groupby(airline_col).agg({
            'target_atraso': ['mean', 'count']
        }).round(3)
        
        airline_delay_stats.columns = ['taxa_atraso', 'total_voos']
        airline_delay_stats = airline_delay_stats.sort_values('taxa_atraso', ascending=False)
        
        # Pegar top 10 companhias
        top_airlines = airline_delay_stats.head(10)
        
        if len(top_airlines) > 0:
            # Plotar
            bars = ax4.bar(range(len(top_airlines)), top_airlines['taxa_atraso'] * 100,
                          color=plt.cm.RdYlGn_r(np.linspace(0, 1, len(top_airlines))),
                          edgecolor='black')
            
            ax4.set_title(f'Taxa de Atraso por {airline_col} (Top 10)', fontsize=14, fontweight='bold')
            ax4.set_xlabel('Companhia A√©rea')
            ax4.set_ylabel('Taxa de Atraso (%)')
            
            # Configurar labels do eixo X
            x_labels = [str(idx) for idx in top_airlines.index]
            ax4.set_xticks(range(len(x_labels)))
            ax4.set_xticklabels(x_labels, rotation=45, ha='right')
            
            # Adicionar linhas de refer√™ncia
            ax4.axhline(y=taxa_atraso, color='red', linestyle='--', linewidth=2, 
                        label=f'M√©dia Geral: {taxa_atraso:.1f}%')
            ax4.axhline(y=50, color='gray', linestyle=':', linewidth=1, alpha=0.5)
            
            # Adicionar valores nas barras
            for i, bar in enumerate(bars):
                height = bar.get_height()
                ax4.text(bar.get_x() + bar.get_width()/2, height + 1,
                        f'{height:.1f}%', ha='center', va='bottom', fontsize=9, fontweight='bold')
            
            ax4.legend(fontsize=9)
        else:
            ax4.text(0.5, 0.5, 'Dados insuficientes\npara an√°lise', 
                     ha='center', va='center', fontsize=12)
            ax4.set_title('Taxa de Atraso por Companhia', fontsize=14, fontweight='bold')
    except:
        ax4.text(0.5, 0.5, 'Erro ao calcular\ntaxas por companhia', 
                 ha='center', va='center', fontsize=12)
        ax4.set_title('Taxa de Atraso por Companhia', fontsize=14, fontweight='bold')
else:
    ax4.text(0.5, 0.5, 'Coluna de companhia\nn√£o identificada', 
             ha='center', va='center', fontsize=12)
    ax4.set_title('Taxa de Atraso por Companhia', fontsize=14, fontweight='bold')

# 5. Distribui√ß√£o temporal (se houver coluna temporal)
ax5 = plt.subplot(2, 3, 5)
if time_cols:
    time_col = time_cols[0]
    
    # Tentar extrair hora do dia
    try:
        # Converter para datetime
        df_time = df.copy()
        df_time['datetime_temp'] = pd.to_datetime(df_time[time_col], errors='coerce')
        
        # Extrair hora
        df_time['hora_extraida'] = df_time['datetime_temp'].dt.hour
        
        # Calcular taxa de atraso por hora
        if 'hora_extraida' in df_time.columns:
            hora_delay_stats = df_time.groupby('hora_extraida').agg({
                'target_atraso': ['mean', 'count']
            }).round(3)
            
            hora_delay_stats.columns = ['taxa_atraso', 'total_voos']
            hora_delay_stats = hora_delay_stats.sort_index()
            
            if len(hora_delay_stats) > 0:
                # Plotar
                ax5.plot(hora_delay_stats.index, hora_delay_stats['taxa_atraso'] * 100,
                        marker='o', color='darkred', linewidth=2)
                ax5.fill_between(hora_delay_stats.index, 0, hora_delay_stats['taxa_atraso'] * 100,
                                alpha=0.3, color='lightcoral')
                
                ax5.set_title('Taxa de Atraso por Hora do Dia', fontsize=14, fontweight='bold')
                ax5.set_xlabel('Hora do Dia')
                ax5.set_ylabel('Taxa de Atraso (%)')
                ax5.set_xticks(range(0, 24, 2))
                ax5.grid(True, alpha=0.3)
                ax5.axhline(y=taxa_atraso, color='blue', linestyle='--', 
                           label=f'M√©dia: {taxa_atraso:.1f}%')
                ax5.legend()
            else:
                ax5.text(0.5, 0.5, 'N√£o foi poss√≠vel\nanalisar horas', 
                         ha='center', va='center', fontsize=12)
                ax5.set_title('Distribui√ß√£o Temporal', fontsize=14, fontweight='bold')
        else:
            ax5.text(0.5, 0.5, 'N√£o foi poss√≠vel\nextrair horas', 
                     ha='center', va='center', fontsize=12)
            ax5.set_title('Distribui√ß√£o Temporal', fontsize=14, fontweight='bold')
    except:
        ax5.text(0.5, 0.5, 'Erro ao processar\ndados temporais', 
                 ha='center', va='center', fontsize=12)
        ax5.set_title('Distribui√ß√£o Temporal', fontsize=14, fontweight='bold')
else:
    ax5.text(0.5, 0.5, 'Sem dados temporais\npara an√°lise', 
             ha='center', va='center', fontsize=12)
    ax5.set_title('Distribui√ß√£o Temporal', fontsize=14, fontweight='bold')

# 6. Resumo estat√≠stico
ax6 = plt.subplot(2, 3, 6)
ax6.axis('off')

# Corrigir a formata√ß√£o do f-string
if sorted_corr:
    top_corr_col = sorted_corr[0][0]
    top_corr_val = sorted_corr[0][1]
    top_corr_text = f"{top_corr_col}"
    top_corr_val_text = f"{top_corr_val:.3f}"
else:
    top_corr_text = "N/A"
    top_corr_val_text = "N/A"

# Criar texto de resumo
resumo_text = f"""
üìä RESUMO DA AN√ÅLISE ESTRAT√âGICA

üìà DADOS GERAIS:
‚Ä¢ Total de voos: {total_flights:,}
‚Ä¢ Features: {df.shape[1]}
‚Ä¢ Taxa de atraso: {taxa_atraso:.1f}%
‚Ä¢ Balanceamento: {balance_ratio:.3f}

üéØ VARI√ÅVEL ALVO:
‚Ä¢ Coluna origem: {target_col}
‚Ä¢ Limite: ‚â• {LIMITE_ATRASO} min
‚Ä¢ Pontual: {target_stats.get(0, 0):,}
‚Ä¢ Atrasado: {target_stats.get(1, 0):,}

üîç FEATURES DESTAQUE:
‚Ä¢ Top correlacionada: {top_corr_text}
‚Ä¢ Correla√ß√£o: {top_corr_val_text}

‚ö†Ô∏è PROBLEMAS IDENTIFICADOS:
‚Ä¢ Colunas com vazamento: {len(leakage_columns)}
‚Ä¢ >50% missing: {len(high_missing_cols)}
‚Ä¢ Outliers extremos: {len(outlier_analysis)}

üìã PR√ìXIMOS PASSOS:
1. Remover features problem√°ticas
2. Tratar missing values
3. Codificar vari√°veis categ√≥ricas
4. Balancear dataset (se necess√°rio)
"""

ax6.text(0.05, 0.95, resumo_text, transform=ax6.transAxes, fontsize=10,
         verticalalignment='top', bbox=dict(boxstyle='round', facecolor='lightgray', alpha=0.8))

plt.tight_layout()
plt.show()

# ============================================================================
# SALVAR RELAT√ìRIO COMPLETO
# ============================================================================
print("\nüíæ SALVANDO RELAT√ìRIO COMPLETO...")

# Corrigir a formata√ß√£o para o relat√≥rio tamb√©m
if sorted_corr:
    relatorio_corr_col = sorted_corr[0][0]
    relatorio_corr_val = f"{sorted_corr[0][1]:.3f}"
else:
    relatorio_corr_col = "N/A"
    relatorio_corr_val = "N/A"

# Criar relat√≥rio em formato notebook-friendly
relatorio = f"""# üìä RELAT√ìRIO DE AN√ÅLISE ESTRAT√âGICA
## Dataset: {DATA_PATH}
## Data da an√°lise: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}

## 1. RESUMO EXECUTIVO
- **Total de voos analisados**: {total_flights:,}
- **Taxa de atrasos**: {taxa_atraso:.1f}%
- **Features dispon√≠veis**: {df.shape[1]}
- **Problemas cr√≠ticos identificados**: {len(limitations)}

## 2. VARI√ÅVEL ALVO
- **Coluna origem**: {target_col}
- **Limite de atraso**: ‚â• {LIMITE_ATRASO} minutos
- **Distribui√ß√£o**: 
  - Pontual (0): {target_stats.get(0, 0):,} voos ({(target_stats.get(0, 0)/total_flights*100):.1f}%)
  - Atrasado (1): {target_stats.get(1, 0):,} voos ({taxa_atraso:.1f}%)
- **Balanceamento**: {balance_ratio:.3f} ({'DESBALANCEADO' if balance_ratio < 0.5 else 'BALANCEADO'})

## 3. FEATURES PROMISSORAS (Top 10)
{chr(10).join([f"{i+1}. {feature}" for i, feature in enumerate(potential_features[:10])])}

## 4. PROBLEMAS IDENTIFICADOS
{chr(10).join([f"- {limitation}" for limitation in limitations])}

## 5. RECOMENDA√á√ïES
1. **Remover features com vazamento**: {len(leakage_columns)} colunas identificadas
2. **Tratar missing values**: {len(high_missing_cols)} colunas com >50% ausentes
3. **Balancear dataset**: {'Necess√°rio' if balance_ratio < 0.5 else 'N√£o necess√°rio'}
4. **Codificar vari√°veis categ√≥ricas**: {len(meaningful_categorical)} colunas identificadas
5. **Tratar outliers**: {'Necess√°rio' if outlier_analysis else 'N√£o cr√≠tico'}

## 6. BASELINE PARA MODELAGEM
- **Acur√°cia do baseline**: {baseline_accuracy:.1f}%
- **Recall baseline (atrasos)**: {100 if majority_class_label == 1 else 0:.1f}%
- **Precision baseline (atrasos)**: {taxa_atraso if majority_class_label == 1 else 0:.1f}%

## 7. FEATURE MAIS CORRELACIONADA
- **Feature**: {relatorio_corr_col}
- **Correla√ß√£o com atraso**: {relatorio_corr_val}
"""

# Salvar relat√≥rio
relatorio_path = 'datascience/1_understanding/docs/business_insights.md'
with open(relatorio_path, 'w', encoding='utf-8') as f:
    f.write(relatorio)

print(f"‚úÖ Relat√≥rio salvo em '{relatorio_path}'")

# Salvar notebook com a an√°lise
notebook_content = f"""# üìä AN√ÅLISE ESTRAT√âGICA DO DATASET DE VOOS
## Story 1.1: An√°lise Explorat√≥ria Estrat√©gica

### Configura√ß√µes Iniciais
- **Seed**: {SEED}
- **Dataset**: {DATA_PATH}
- **Data da an√°lise**: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}

### An√°lise Realizada
1. **Diagn√≥stico ultrarr√°pido**: Carregamento otimizado em <5min
2. **An√°lise da vari√°vel alvo**: Taxa de atraso de {taxa_atraso:.1f}%
3. **Identifica√ß√£o de features**: {len(potential_features)} features potenciais
4. **Detec√ß√£o de problemas**: {len(limitations)} problemas cr√≠ticos
5. **Visualiza√ß√µes estrat√©gicas**: Dashboard completo gerado

### Arquivos Gerados
1. `target_variable_analysis.csv`: An√°lise detalhada da vari√°vel alvo
2. `business_insights.md`: Relat√≥rio executivo com insights
3. Dashboard visual completo (exibido acima)

### Pr√≥ximos Passos
1. Executar Story 1.2: An√°lise Univariada
2. Remover features problem√°ticas
3. Preparar dados para modelagem

### Features Mais Promissoras
{chr(10).join([f"{i+1}. {feature}" for i, feature in enumerate(potential_features[:10])])}
"""

# Salvar como notebook
notebook_path = 'datascience/1_understanding/data/quick_analysis_report.ipynb'
# Nota: Em ambiente real, salvar√≠amos como .ipynb
# Por simplicidade, salvaremos como .txt para demonstra√ß√£o
txt_path = notebook_path.replace('.ipynb', '_summary.txt')
with open(txt_path, 'w', encoding='utf-8') as f:
    f.write(notebook_content)

print(f"‚úÖ Sum√°rio da an√°lise salvo em '{txt_path}'")

# ============================================================================
# CONCLUS√ÉO
# ============================================================================
print("\n" + "="*80)
print("‚úÖ STORY 1.1 COMPLETADA COM SUCESSO!")
print("="*80)

print("\nüì¶ ENTREG√ÅVEIS GERADOS:")
print("1. üìä An√°lise completa do dataset")
print("2. üìà Distribui√ß√£o da vari√°vel alvo")
print("3. üéØ Lista de 10 features promissoras")
print("4. ‚ö†Ô∏è  Identifica√ß√£o de problemas cr√≠ticos")
print("5. üìä Dashboard de visualiza√ß√µes estrat√©gicas")
print("6. üìÑ Relat√≥rio executivo (business_insights.md)")
print("7. üìã An√°lise da vari√°vel alvo (target_variable_analysis.csv)")

print("\nüéØ PR√ìXIMOS PASSOS RECOMENDADOS:")
print("1. Remover colunas com >50% missing values")
print("2. Eliminar features com vazamento de dados")
print("3. Iniciar Story 1.2: An√°lise Univariada")
print("4. Preparar pipeline de pr√©-processamento")

print("\n" + "="*80)

In [None]:
# ============================================================================
# üì¶ SALVAR ENTREG√ÅVEIS COMPLETOS
# ============================================================================
print("\n" + "="*80)
print("üì¶ SALVANDO ENTREG√ÅVEIS COMPLETOS")
print("="*80)

# 1. Criar estrutura de pastas
print("\nüìÅ 1. CRIANDO ESTRUTURA DE PASTAS...")
folders_to_create = [
    'datascience/1_understanding/notebooks',
    'datascience/1_understanding/data',
    'datascience/1_understanding/docs',
    'datascience/1_understanding/reports',
    'datascience/1_understanding/visualizations'
]

for folder in folders_to_create:
    os.makedirs(folder, exist_ok=True)
    print(f"   ‚úÖ {folder}")

# 2. Salvar amostra dos dados originais
print("\nüíæ 2. SALVANDO AMOSTRA DOS DADOS...")
try:
    # Salvar dataset completo (ou amostra se for muito grande)
    if len(df) > 100000:
        # Salvar amostra de 10% para compartilhamento
        df_sample = df.sample(frac=0.1, random_state=SEED)
        sample_path = 'datascience/1_understanding/data/flight_data_sample_10pct.csv'
        df_sample.to_csv(sample_path, index=False)
        print(f"   ‚úÖ Dataset muito grande, salvando amostra de 10%: {len(df_sample):,} linhas")
    else:
        # Salvar dataset completo
        original_path = 'datascience/1_understanding/data/flight_data_original.csv'
        df.to_csv(original_path, index=False)
        print(f"   ‚úÖ Dataset original salvo: {len(df):,} linhas")
    
    # Salvar tamb√©m o dataset com a vari√°vel alvo
    processed_path = 'datascience/1_understanding/data/flight_data_with_target.csv'
    df.to_csv(processed_path, index=False)
    print(f"   ‚úÖ Dataset com vari√°vel alvo salvo")
    
except Exception as e:
    print(f"   ‚ö†Ô∏è  Erro ao salvar dados: {e}")

# 3. Exportar c√≥digo atual como notebook Jupyter (.ipynb)
print("\nüìì 3. EXPORTANDO COMO NOTEBOOK JUPYTER...")
try:
    # Criar conte√∫do do notebook
    notebook_content = {
        "cells": [
            {
                "cell_type": "markdown",
                "metadata": {},
                "source": [
                    "# üìä Story 1.1: An√°lise Explorat√≥ria Estrat√©gica\n",
                    "## üìã Vis√£o Geral\n",
                    f"**Data de execu√ß√£o:** {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n",
                    f"**Dataset:** {DATA_PATH}\n",
                    f"**Total de registros:** {len(df):,}\n",
                    f"**Taxa de atrasos:** {taxa_atraso:.2f}%\n",
                    "\n## üéØ Objetivos\n",
                    "1. Diagn√≥stico ultrarr√°pido do dataset\n",
                    "2. An√°lise da vari√°vel alvo\n", 
                    "3. Identifica√ß√£o de features promissoras\n",
                    "4. Detec√ß√£o de problemas cr√≠ticos\n",
                    "5. Visualiza√ß√µes estrat√©gicas\n",
                    "\n## üìä M√©tricas Principais\n",
                    f"- Acur√°cia baseline: {baseline_accuracy:.2f}%\n",
                    f"- Balanceamento: {balance_ratio:.3f}\n",
                    f"- Features problem√°ticas: {len(limitations)}\n"
                ]
            },
            {
                "cell_type": "code",
                "execution_count": None,
                "metadata": {},
                "outputs": [],
                "source": [
                    "# Importa√ß√µes b√°sicas\n",
                    "import pandas as pd\n",
                    "import numpy as np\n",
                    "import matplotlib.pyplot as plt\n",
                    "import seaborn as sns\n",
                    "import os\n",
                    "from datetime import datetime\n",
                    "\n",
                    "# Configura√ß√µes\n",
                    "pd.set_option('display.max_columns', None)\n",
                    "plt.style.use('seaborn-v0_8-darkgrid')\n",
                    "sns.set_palette('husl')\n",
                    "\n",
                    "SEED = 42\n",
                    "np.random.seed(SEED)\n",
                    "print('‚úÖ Ambiente configurado')"
                ]
            },
            {
                "cell_type": "markdown",
                "metadata": {},
                "source": [
                    "## üìà Resumo da An√°lise\n",
                    "\n",
                    "### üìä Dados Gerais\n",
                    f"- Total de voos: {total_flights:,}\n",
                    f"- Features dispon√≠veis: {df.shape[1]}\n",
                    f"- Taxa de atrasos: {taxa_atraso:.2f}%\n",
                    f"- Balanceamento: {balance_ratio:.3f}\n",
                    "\n",
                    "### üéØ Vari√°vel Alvo\n",
                    f"- Coluna origem: {target_col}\n",
                    f"- Limite: ‚â• {LIMITE_ATRASO} minutos\n",
                    f"- Pontual: {target_stats.get(0, 0):,} voos\n",
                    f"- Atrasado: {target_stats.get(1, 0):,} voos\n",
                    "\n",
                    "### üîç Top 5 Features Promissoras\n"
                ]
            }
        ],
        "metadata": {
            "kernelspec": {
                "display_name": "Python 3",
                "language": "python",
                "name": "python3"
            },
            "language_info": {
                "name": "python",
                "version": "3.8.0"
            }
        },
        "nbformat": 4,
        "nbformat_minor": 4
    }
    
    # Adicionar c√©lulas para cada feature promissora
    for i, feature in enumerate(potential_features[:5], 1):
        notebook_content["cells"][2]["source"].append(f"{i}. {feature}\n")
    
    # Salvar como arquivo .py tamb√©m (backup)
    py_path = 'datascience/1_understanding/notebooks/story_1_1_analise_estrategica.py'
    
    # Ler o c√≥digo atual (simplificado)
    with open(__file__, 'r', encoding='utf-8') as f:
        current_code = f.read()
    
    # Salvar vers√£o .py
    with open(py_path, 'w', encoding='utf-8') as f:
        f.write(current_code)
    
    print(f"   ‚úÖ C√≥digo salvo como: {py_path}")
    
    # Criar um notebook simplificado em .ipynb (formato texto)
    import json
    
    ipynb_path = 'datascience/1_understanding/notebooks/story_1_1_analise_estrategica.ipynb'
    
    # Adicionar mais c√©lulas com resultados importantes
    results_cell = {
        "cell_type": "markdown",
        "metadata": {},
        "source": [
            "## üìä Resultados da An√°lise\n",
            "\n",
            "### üîù Top 10 Features por Correla√ß√£o\n"
        ]
    }
    
    if sorted_corr:
        for i, (col, corr) in enumerate(sorted_corr[:10], 1):
            results_cell["source"].append(f"{i}. **{col}**: {corr:.3f}\n")
    
    results_cell["source"].extend([
        "\n### ‚ö†Ô∏è Problemas Identificados\n"
    ])
    
    for limitation in limitations[:5]:
        results_cell["source"].append(f"- {limitation}\n")
    
    notebook_content["cells"].append(results_cell)
    
    # Adicionar c√©lula com visualiza√ß√µes salvas
    viz_cell = {
        "cell_type": "markdown",
        "metadata": {},
        "source": [
            "## üìà Visualiza√ß√µes Geradas\n",
            "\n",
            "As seguintes visualiza√ß√µes foram geradas e salvas:\n",
            "\n",
            "1. **Dashboard Estrat√©gico** (6 gr√°ficos combinados)\n",
            "2. **Distribui√ß√£o da Vari√°vel Alvo**\n",
            "3. **Taxa de Atraso por Companhia**\n",
            "4. **Boxplot: Features vs Atraso**\n",
            "\n",
            "### üìÅ Arquivos Salvos\n",
            f"- `target_variable_analysis.csv` - An√°lise da vari√°vel alvo\n",
            f"- `business_insights.md` - Relat√≥rio executivo\n",
            f"- `quick_analysis_report.txt` - Resumo da an√°lise\n",
            f"- `flight_data_with_target.csv` - Dataset processado\n"
        ]
    }
    notebook_content["cells"].append(viz_cell)
    
    # Salvar notebook .ipynb
    with open(ipynb_path, 'w', encoding='utf-8') as f:
        json.dump(notebook_content, f, indent=2, ensure_ascii=False)
    
    print(f"   ‚úÖ Notebook Jupyter salvo como: {ipynb_path}")
    
    # Criar tamb√©m um notebook HTML para visualiza√ß√£o f√°cil
    try:
        import nbformat
        from nbconvert import HTMLExporter
        
        nb = nbformat.reads(json.dumps(notebook_content), as_version=4)
        html_exporter = HTMLExporter()
        html_data, _ = html_exporter.from_notebook_node(nb)
        
        html_path = 'datascience/1_understanding/notebooks/story_1_1_analise_estrategica.html'
        with open(html_path, 'w', encoding='utf-8') as f:
            f.write(html_data)
        
        print(f"   ‚úÖ Vers√£o HTML salva como: {html_path}")
    except:
        print("   ‚ö†Ô∏è  N√£o foi poss√≠vel gerar vers√£o HTML (nbconvert n√£o dispon√≠vel)")
    
except Exception as e:
    print(f"   ‚ö†Ô∏è  Erro ao exportar notebook: {e}")
    print("   ‚ÑπÔ∏è  Salvando apenas vers√£o .py")

# 4. Salvar screenshots das visualiza√ß√µes
print("\nüñºÔ∏è  4. SALVANDO VISUALIZA√á√ïES...")
try:
    # Salvar a figura atual (dashboard)
    dashboard_path = 'datascience/1_understanding/visualizations/dashboard_estrategico.png'
    fig.savefig(dashboard_path, dpi=150, bbox_inches='tight')
    print(f"   ‚úÖ Dashboard salvo como: {dashboard_path}")
    
    # Salvar gr√°ficos individuais
    # 1. Distribui√ß√£o vari√°vel alvo
    fig1, ax1 = plt.subplots(figsize=(8, 6))
    ax1.pie(contagem_alvo, labels=labels_alvo, autopct='%1.1f%%', 
            colors=cores_alvo, explode=(0, 0.05))
    ax1.set_title('Distribui√ß√£o da Vari√°vel Alvo', fontsize=14, fontweight='bold')
    fig1.savefig('datascience/1_understanding/visualizations/distribuicao_alvo.png', 
                 dpi=150, bbox_inches='tight')
    plt.close(fig1)
    
    # 2. Taxa por companhia (se dispon√≠vel)
    if airline_cols:
        fig2, ax2 = plt.subplots(figsize=(10, 6))
        # ... c√≥digo do gr√°fico de companhia ...
        fig2.savefig('datascience/1_understanding/visualizations/taxa_por_companhia.png', 
                     dpi=150, bbox_inches='tight')
        plt.close(fig2)
    
    print("   ‚úÖ Visualiza√ß√µes individuais salvas")
    
except Exception as e:
    print(f"   ‚ö†Ô∏è  Erro ao salvar visualiza√ß√µes: {e}")

# 5. Criar README para documenta√ß√£o
print("\nüìù 5. CRIANDO DOCUMENTA√á√ÉO...")
readme_content = f"""# üìä Story 1.1: An√°lise Explorat√≥ria Estrat√©gica

## üìã Sobre
An√°lise explorat√≥ria inicial do dataset de voos para compreens√£o dos dados e identifica√ß√£o de problemas cr√≠ticos.

## üóìÔ∏è Data de Execu√ß√£o
{datetime.now().strftime('%Y-%m-%d %H:%M:%S')}

## üìà M√©tricas Principais
- **Total de voos**: {total_flights:,}
- **Taxa de atrasos**: {taxa_atraso:.2f}%
- **Balanceamento**: {balance_ratio:.3f}
- **Acur√°cia baseline**: {baseline_accuracy:.2f}%

## üìÅ Estrutura de Arquivos

### üìì Notebooks
- `story_1_1_analise_estrategica.ipynb` - Notebook Jupyter completo
- `story_1_1_analise_estrategica.py` - C√≥digo Python
- `story_1_1_analise_estrategica.html` - Vers√£o HTML (se dispon√≠vel)

### üìä Dados
- `flight_data_with_target.csv` - Dataset com vari√°vel alvo
- `target_variable_analysis.csv` - An√°lise da vari√°vel alvo
- `quick_analysis_report.txt` - Resumo da an√°lise

### üìÑ Documenta√ß√£o
- `business_insights.md` - Insights de neg√≥cio
- `visualizations/` - Gr√°ficos e dashboards

### üîç Features Promissoras (Top 5)
{chr(10).join([f"1. {feature}" for i, feature in enumerate(potential_features[:5], 1)])}

## ‚ö†Ô∏è Problemas Identificados
{chr(10).join([f"- {limitation}" for limitation in limitations[:3]])}

## üöÄ Pr√≥ximos Passos
1. Executar Story 1.2: An√°lise Univariada
2. Tratar valores missing identificados
3. Remover features com vazamento de dados
4. Balancear dataset se necess√°rio

## üë§ Respons√°vel
@ananda.matos

## üìä Status
‚úÖ COMPLETADA - {datetime.now().strftime('%d/%m/%Y')}
"""

readme_path = 'datascience/1_understanding/README.md'
with open(readme_path, 'w', encoding='utf-8') as f:
    f.write(readme_content)

print(f"   ‚úÖ README criado: {readme_path}")

# 6. Criar arquivo de configura√ß√£o
print("\n‚öôÔ∏è  6. CRIANDO ARQUIVO DE CONFIGURA√á√ÉO...")
config_content = f"""# Configura√ß√µes da Story 1.1

[PROJECT]
name = "An√°lise Explorat√≥ria Estrat√©gica"
version = "1.0.0"
author = "@ananda.matos"
date = "{datetime.now().strftime('%Y-%m-%d')}"

[DATASET]
original_file = "{DATA_PATH}"
rows = {len(df)}
columns = {df.shape[1]}
target_column = "{target_col}"
delay_threshold = {LIMITE_ATRASO}

[ANALYSIS]
delay_rate = {taxa_atraso:.2f}
balance_ratio = {balance_ratio:.3f}
baseline_accuracy = {baseline_accuracy:.2f}
problematic_features = {len(limitations)}

[PATHS]
notebooks = "datascience/1_understanding/notebooks/"
data = "datascience/1_understanding/data/"
docs = "datascience/1_understanding/docs/"
visualizations = "datascience/1_understanding/visualizations/"
"""

config_path = 'datascience/1_understanding/project_config.ini'
with open(config_path, 'w', encoding='utf-8') as f:
    f.write(config_content)

print(f"   ‚úÖ Configura√ß√£o salva: {config_path}")

# ============================================================================
# üìã RESUMO FINAL DOS ENTREG√ÅVEIS
# ============================================================================
print("\n" + "="*80)
print("üì¶ RESUMO DOS ENTREG√ÅVEIS SALVOS")
print("="*80)

print(f"""
üìì NOTEBOOKS E C√ìDIGO:
   ‚Ä¢ story_1_1_analise_estrategica.ipynb  (Jupyter Notebook)
   ‚Ä¢ story_1_1_analise_estrategica.py     (C√≥digo Python)
   ‚Ä¢ story_1_1_analise_estrategica.html   (HTML - se gerado)

üìä DADOS E AN√ÅLISES:
   ‚Ä¢ flight_data_with_target.csv          (Dataset processado)
   ‚Ä¢ target_variable_analysis.csv         (An√°lise vari√°vel alvo)
   ‚Ä¢ quick_analysis_report.txt            (Resumo da an√°lise)

üìÑ DOCUMENTA√á√ÉO:
   ‚Ä¢ business_insights.md                 (Insights de neg√≥cio)
   ‚Ä¢ README.md                            (Documenta√ß√£o do projeto)
   ‚Ä¢ project_config.ini                   (Configura√ß√µes)

üñºÔ∏è  VISUALIZA√á√ïES:
   ‚Ä¢ dashboard_estrategico.png            (Dashboard completo)
   ‚Ä¢ distribuicao_alvo.png                (Distribui√ß√£o vari√°vel alvo)
   ‚Ä¢ taxa_por_companhia.png               (Taxa por companhia)

üìÅ ESTRUTURA CRIADA:
   ‚Ä¢ datascience/1_understanding/notebooks/
   ‚Ä¢ datascience/1_understanding/data/
   ‚Ä¢ datascience/1_understanding/docs/
   ‚Ä¢ datascience/1_understanding/visualizations/
   ‚Ä¢ datascience/1_understanding/reports/
""")

print("‚úÖ TODOS OS ENTREG√ÅVEIS FORAM SALVOS COM SUCESSO!")
print("="*80)