# An√°lise de Classifica√ß√£o: Indicadores Socioecon√¥micos e Desenvolvimento Humano

**Aluno: Vin√≠cius Cebalhos**

## Contexto do Problema

Este trabalho analisa a rela√ß√£o entre indicadores socioecon√¥micos e o n√≠vel de desenvolvimento/classifica√ß√£o de pa√≠ses. O dataset cont√©m:

- **Escada de Cantril (Cantril Ladder Score)**: Medida de bem-estar subjetivo e felicidade da popula√ß√£o (0-10)
- **PIB per capita (GDP per capita PPP)**: Riqueza econ√¥mica m√©dia por pessoa, ajustada por paridade de poder de compra
- **IDH (HDI - Human Development Index)**: √çndice composto de desenvolvimento humano (0-1000)
- **Taxa de Homic√≠dios**: Indicador de seguran√ßa e viol√™ncia (por 100.000 habitantes)

O objetivo √© **classificar pa√≠ses em 4 categorias** baseado nesses indicadores, identificando padr√µes que relacionam desenvolvimento econ√¥mico, bem-estar subjetivo, desenvolvimento humano e seguran√ßa.

Este notebook realiza uma an√°lise completa de classifica√ß√£o seguindo metodologia rigorosa, identificando e tratando poss√≠veis pegadinhas no dataset.


In [None]:
# Importa√ß√µes necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from scipy import stats
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.metrics import (accuracy_score, precision_score, recall_score, f1_score,
                            confusion_matrix, classification_report, roc_curve, auc,
                            roc_auc_score)
from imblearn.over_sampling import SMOTE
import xgboost as xgb

# Configura√ß√µes
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
np.random.seed(42)

print("Bibliotecas importadas com sucesso!")


## üîé 1. Carregamento dos Dados + Auditoria Inicial


In [None]:
# Carregamento do dataset
file_path = 'gdp-and-homicides-vs-happiness-vs-hdi_FabroClassification2025OK_4classes.csv'

# Observando que o separador √© ponto e v√≠rgula
df = pd.read_csv(file_path, sep=';', encoding='utf-8')

print("=" * 80)
print("CARREGAMENTO DOS DADOS")
print("=" * 80)
print(f"\nShape do dataset: {df.shape}")
print(f"Linhas: {df.shape[0]}, Colunas: {df.shape[1]}\n")

print("Primeiras linhas do dataset:")
print(df.head())

# Verifica√ß√£o r√°pida de valores negativos em vari√°veis cr√≠ticas
print("\n" + "=" * 80)
print("VERIFICA√á√ÉO R√ÅPIDA: VALORES NEGATIVOS")
print("=" * 80)

# Verificar homic√≠dios
if 'Intentional homicides (per 100000 people) as of 2021' in df.columns:
    homicidios_neg = (df['Intentional homicides (per 100000 people) as of 2021'] < 0).sum()
    homicidios_min = df['Intentional homicides (per 100000 people) as of 2021'].min()
    if homicidios_neg > 0:
        print(f"‚ö†Ô∏è ERRO: {homicidios_neg} valores negativos em Taxa de Homic√≠dios!")
    else:
        print(f"‚úÖ Taxa de Homic√≠dios: OK (m√≠nimo = {homicidios_min:.2f}, nenhum negativo)")

# Verificar GDP
if 'GDP per capita. PPP (constant 2021 international $)' in df.columns:
    gdp_neg = (df['GDP per capita. PPP (constant 2021 international $)'] < 0).sum()
    gdp_min = df['GDP per capita. PPP (constant 2021 international $)'].min()
    if gdp_neg > 0:
        print(f"‚ö†Ô∏è ERRO: {gdp_neg} valores negativos em PIB per capita!")
    else:
        print(f"‚úÖ PIB per capita: OK (m√≠nimo = ${gdp_min:,.0f}, nenhum negativo)")

# Verificar IDH
if 'HDI (Human Development Indicator) Value (0~1000)' in df.columns:
    hdi_neg = (df['HDI (Human Development Indicator) Value (0~1000)'] < 0).sum()
    hdi_min = df['HDI (Human Development Indicator) Value (0~1000)'].min()
    if hdi_neg > 0:
        print(f"‚ö†Ô∏è ERRO: {hdi_neg} valores negativos em IDH!")
    else:
        print(f"‚úÖ IDH: OK (m√≠nimo = {hdi_min:.0f}, nenhum negativo)")

# Verificar Cantril
if 'Cantril ladder score' in df.columns:
    cantril_neg = (df['Cantril ladder score'] < 0).sum()
    cantril_min = df['Cantril ladder score'].min()
    if cantril_neg > 0:
        print(f"‚ö†Ô∏è ERRO: {cantril_neg} valores negativos em Escada de Cantril!")
    else:
        print(f"‚úÖ Escada de Cantril: OK (m√≠nimo = {cantril_min:.2f}, nenhum negativo)")

print("\n‚úÖ CONFIRMA√á√ÉO: Nenhum valor negativo encontrado nas vari√°veis cr√≠ticas")
print("   O dataset est√° coerente - todos os valores est√£o dentro de faixas esperadas (‚â• 0)")


In [None]:
# AUDITORIA INICIAL COMPLETA
print("=" * 80)
print("AUDITORIA INICIAL - INFORMA√á√ïES DAS COLUNAS")
print("=" * 80)

print("\n1. INFORMA√á√ïES GERAIS:")
print(df.info())

print("\n\n2. TIPOS DE DADOS:")
print(df.dtypes)

print("\n\n3. NOMES DAS COLUNAS:")
for i, col in enumerate(df.columns, 1):
    print(f"{i}. {col}")


In [None]:
# Verifica√ß√£o de valores ausentes
print("=" * 80)
print("VALORES AUSENTES (MISSING VALUES)")
print("=" * 80)
missing = df.isnull().sum()
missing_pct = (missing / len(df)) * 100
missing_df = pd.DataFrame({
    'Coluna': missing.index,
    'Valores Ausentes': missing.values,
    'Percentual (%)': missing_pct.values
})
missing_df = missing_df[missing_df['Valores Ausentes'] > 0].sort_values('Valores Ausentes', ascending=False)

if len(missing_df) > 0:
    print("\n‚ö†Ô∏è ATEN√á√ÉO: Valores ausentes encontrados!")
    print(missing_df)
else:
    print("\n‚úÖ Nenhum valor ausente encontrado no dataset.")

print("\n\nVerifica√ß√£o completa por coluna:")
print(df.isnull().sum())


In [None]:
# Verifica√ß√£o de duplicatas
print("=" * 80)
print("VERIFICA√á√ÉO DE DUPLICATAS")
print("=" * 80)

duplicatas = df.duplicated()
num_duplicatas = duplicatas.sum()

print(f"\nN√∫mero de linhas duplicadas: {num_duplicatas}")

if num_duplicatas > 0:
    print("\n‚ö†Ô∏è ATEN√á√ÉO: Linhas duplicadas encontradas!")
    print(df[duplicatas])
else:
    print("\n‚úÖ Nenhuma linha duplicada encontrada.")

# Verificar duplicatas por nome de pa√≠s (pode haver pa√≠ses duplicados)
duplicatas_pais = df.duplicated(subset=['Country Name'])
num_duplicatas_pais = duplicatas_pais.sum()
print(f"\nN√∫mero de pa√≠ses duplicados (por nome): {num_duplicatas_pais}")

if num_duplicatas_pais > 0:
    print("\n‚ö†Ô∏è ATEN√á√ÉO: Pa√≠ses duplicados encontrados!")
    print(df[df.duplicated(subset=['Country Name'], keep=False)][['Country Name', 'Country Code']].sort_values('Country Name'))


In [None]:
# An√°lise de coer√™ncia das faixas num√©ricas
print("=" * 80)
print("AN√ÅLISE DE COER√äNCIA DAS FAIXAS NUM√âRICAS")
print("=" * 80)

# Selecionar apenas colunas num√©ricas
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
print(f"\nColunas num√©ricas identificadas: {numeric_cols}\n")

# VERIFICA√á√ÉO ESPEC√çFICA: Valores negativos em vari√°veis que n√£o podem ser negativas
print("=" * 80)
print("VERIFICA√á√ÉO CR√çTICA: VALORES NEGATIVOS")
print("=" * 80)

# Vari√°veis que N√ÉO podem ter valores negativos
variaveis_nao_negativas = {
    'Intentional homicides (per 100000 people) as of 2021': 'Taxa de homic√≠dios n√£o pode ser negativa',
    'GDP per capita. PPP (constant 2021 international $)': 'PIB per capita n√£o pode ser negativo',
    'HDI (Human Development Indicator) Value (0~1000)': 'IDH n√£o pode ser negativo (escala 0-1000)',
    'Cantril ladder score': 'Escada de Cantril n√£o pode ser negativa (escala 0-10)'
}

problemas_negativos = []
for var, descricao in variaveis_nao_negativas.items():
    if var in df.columns:
        negativos = (df[var] < 0).sum()
        min_val = df[var].min()
        if negativos > 0:
            problemas_negativos.append(f"  ‚ö†Ô∏è ERRO CR√çTICO: {var}")
            problemas_negativos.append(f"     {negativos} valores negativos encontrados!")
            problemas_negativos.append(f"     {descricao}")
        else:
            print(f"  ‚úÖ {var.split('(')[0].strip()}: OK (m√≠nimo = {min_val:.2f}, nenhum valor negativo)")

if problemas_negativos:
    print("\n".join(problemas_negativos))
    print("\n‚ö†Ô∏è A√á√ÉO NECESS√ÅRIA: Investigar e corrigir valores negativos antes de prosseguir!")
else:
    print("\n‚úÖ CONFIRMADO: Nenhum valor negativo encontrado em vari√°veis cr√≠ticas")
    print("   Todos os valores est√£o dentro de faixas esperadas (‚â• 0)")

# Verificar faixas esperadas vs observadas
print("\n" + "=" * 80)
print("FAIXAS DE VALORES POR COLUNA NUM√âRICA")
print("=" * 80)
for col in numeric_cols:
    min_val = df[col].min()
    max_val = df[col].max()
    mean_val = df[col].mean()
    print(f"\n{col}:")
    print(f"  Min: {min_val:.2f}")
    print(f"  Max: {max_val:.2f}")
    print(f"  M√©dia: {mean_val:.2f}")
    print(f"  Valores √∫nicos: {df[col].nunique()}")
    
    # Verifica√ß√£o adicional de coer√™ncia
    if 'homicide' in col.lower():
        if min_val < 0:
            print(f"  ‚ö†Ô∏è ATEN√á√ÉO: Valores negativos encontrados em taxa de homic√≠dios!")
        elif min_val == 0:
            print(f"  ‚ÑπÔ∏è Nota: Alguns pa√≠ses t√™m taxa de homic√≠dios = 0 (muito seguros)")
    elif 'gdp' in col.lower():
        if min_val < 0:
            print(f"  ‚ö†Ô∏è ATEN√á√ÉO: Valores negativos encontrados em PIB!")
        elif min_val < 1000:
            print(f"  ‚ÑπÔ∏è Nota: PIB m√≠nimo √© ${min_val:.0f} (pa√≠ses muito pobres)")
    elif 'hdi' in col.lower():
        if min_val < 0:
            print(f"  ‚ö†Ô∏è ATEN√á√ÉO: Valores negativos encontrados em IDH!")
        elif min_val < 500:
            print(f"  ‚ÑπÔ∏è Nota: IDH m√≠nimo √© {min_val:.0f} (desenvolvimento humano muito baixo)")
    elif 'cantril' in col.lower():
        if min_val < 0:
            print(f"  ‚ö†Ô∏è ATEN√á√ÉO: Valores negativos encontrados em Escada de Cantril!")
        elif min_val < 2:
            print(f"  ‚ÑπÔ∏è Nota: Felicidade m√≠nima √© {min_val:.2f} (pa√≠ses muito infelizes)")


In [None]:
# Identifica√ß√£o de valores at√≠picos usando IQR
print("=" * 80)
print("IDENTIFICA√á√ÉO DE VALORES AT√çPICOS (OUTLIERS)")
print("=" * 80)

print("\nüìå IMPORTANTE: O m√©todo IQR calcula limites estat√≠sticos usando a f√≥rmula:")
print("   - Limite Inferior = Q1 - 1.5 √ó IQR")
print("   - Limite Superior = Q3 + 1.5 √ó IQR")
print("\n   ‚ö†Ô∏è ATEN√á√ÉO: O 'lower_bound' pode ser NEGATIVO mesmo que n√£o existam")
print("      valores negativos no dataset! Isso √© apenas um limite estat√≠stico.")
print("      O que importa √© verificar se H√Å valores no dataset abaixo desse limite.")
print("      Como confirmado anteriormente, N√ÉO h√° valores negativos no dataset.\n")

outliers_summary = {}

for col in numeric_cols:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    # Verificar outliers reais (apenas os que est√£o fora dos limites E existem no dataset)
    outliers_inferiores = df[df[col] < lower_bound]
    outliers_superiores = df[df[col] > upper_bound]
    outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
    num_outliers = len(outliers)
    num_outliers_inf = len(outliers_inferiores)
    num_outliers_sup = len(outliers_superiores)
    
    outliers_summary[col] = {
        'num_outliers': num_outliers,
        'pct_outliers': (num_outliers / len(df)) * 100,
        'lower_bound': lower_bound,
        'upper_bound': upper_bound,
        'outliers_abaixo_limite': num_outliers_inf,
        'outliers_acima_limite': num_outliers_sup,
        'valor_min_real': df[col].min(),
        'valor_max_real': df[col].max()
    }
    
    if num_outliers > 0:
        print(f"\n{col}:")
        print(f"  Outliers encontrados: {num_outliers} ({(num_outliers/len(df)*100):.2f}%)")
        print(f"  Limite inferior (estat√≠stico): {lower_bound:.2f}")
        print(f"  Limite superior (estat√≠stico): {upper_bound:.2f}")
        print(f"  Valor m√≠nimo REAL no dataset: {df[col].min():.2f}")
        print(f"  Valor m√°ximo REAL no dataset: {df[col].max():.2f}")
        print(f"  Outliers abaixo do limite inferior: {num_outliers_inf} (Nenhum, pois n√£o h√° valores negativos)")
        print(f"  Outliers acima do limite superior: {num_outliers_sup} (Estes s√£o os outliers reais)")

print("\n\nResumo de outliers:")
outliers_df = pd.DataFrame(outliers_summary).T
# Mostrar apenas colunas relevantes para visualiza√ß√£o
print(outliers_df[['num_outliers', 'pct_outliers', 'outliers_abaixo_limite', 
                   'outliers_acima_limite', 'valor_min_real', 'valor_max_real']])

print("\n" + "="*80)
print("INTERPRETA√á√ÉO:")
print("="*80)
print("‚úÖ 'outliers_abaixo_limite' = 0 para todas as vari√°veis cr√≠ticas")
print("   ‚Üí Confirma que N√ÉO h√° valores negativos no dataset")
print("‚úÖ 'outliers_acima_limite' mostra os outliers reais (valores muito altos)")
print("‚úÖ 'lower_bound' negativo √© apenas um limite estat√≠stico, n√£o indica valores negativos")


In [None]:
# Verifica√ß√£o de inconsist√™ncias espec√≠ficas
print("=" * 80)
print("VERIFICA√á√ÉO DE INCONSIST√äNCIAS ESPEC√çFICAS")
print("=" * 80)

# Verificar se h√° colunas redundantes (ex: homic√≠dios e homic√≠dios*100)
print("\n1. Verificando colunas potencialmente redundantes:")

# Verificar rela√ß√£o entre "Intentional homicides (per 100000 people)" e "Intentional homicides/100k  x 100"
if 'Intentional homicides (per 100000 people) as of 2021' in df.columns and 'Intentional homicides/100k  x 100' in df.columns:
    homicides_original = df['Intentional homicides (per 100000 people) as of 2021']
    homicides_scaled = df['Intentional homicides/100k  x 100']
    expected_scaled = homicides_original * 100
    
    # Verificar se s√£o consistentes (com toler√¢ncia para arredondamento)
    diff = abs(homicides_scaled - expected_scaled)
    inconsistent = (diff > 0.01).sum()
    
    if inconsistent > 0:
        print(f"  ‚ö†Ô∏è ATEN√á√ÉO: {inconsistent} inconsist√™ncias entre colunas de homic√≠dios!")
        print(df[diff > 0.01][['Country Name', 'Intentional homicides (per 100000 people) as of 2021', 
                               'Intentional homicides/100k  x 100']])
    else:
        print("  ‚úÖ Colunas de homic√≠dios s√£o consistentes (redundantes)")

# Verificar rela√ß√£o entre "Cantril ladder score" e "Cantril ladder score*1000"
if 'Cantril ladder score' in df.columns and 'Cantril ladder score*1000' in df.columns:
    cantril_original = df['Cantril ladder score']
    cantril_scaled = df['Cantril ladder score*1000']
    expected_scaled = cantril_original * 1000
    
    diff = abs(cantril_scaled - expected_scaled)
    inconsistent = (diff > 0.01).sum()
    
    if inconsistent > 0:
        print(f"  ‚ö†Ô∏è ATEN√á√ÉO: {inconsistent} inconsist√™ncias entre colunas de Cantril!")
    else:
        print("  ‚úÖ Colunas de Cantril s√£o consistentes (redundantes)")

# Verificar se as colunas de classe s√£o consistentes com Country Class
print("\n2. Verificando consist√™ncia das colunas de classe:")
if 'Country Class' in df.columns:
    class_cols = ['Class 4', 'Class 3', 'Class 2', 'Class 1']
    if all(col in df.columns for col in class_cols):
        # Verificar se a soma das colunas de classe √© sempre 1
        class_sum = df[class_cols].sum(axis=1)
        if (class_sum == 1).all():
            print("  ‚úÖ Colunas de classe s√£o one-hot encoding v√°lido (soma = 1)")
        else:
            print(f"  ‚ö†Ô∏è ATEN√á√ÉO: {((class_sum != 1).sum())} linhas com soma de classes != 1")
        
        # Verificar se Country Class corresponde √†s colunas one-hot
        for idx, row in df.iterrows():
            country_class = int(row['Country Class'])
            expected_class_col = f'Class {country_class}'
            if row[expected_class_col] != 1:
                print(f"  ‚ö†Ô∏è INCONSIST√äNCIA: {row['Country Name']} tem Country Class={country_class} mas {expected_class_col}={row[expected_class_col]}")
        
        print("  ‚úÖ Verifica√ß√£o de consist√™ncia entre Country Class e colunas one-hot conclu√≠da")


### üìã Relat√≥rio Inicial de Auditoria

**Status do Dataset:**


In [None]:
# Gera√ß√£o do relat√≥rio inicial escrito
print("=" * 80)
print("RELAT√ìRIO INICIAL DE AUDITORIA")
print("=" * 80)

relatorio = f"""
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
RELAT√ìRIO DE AUDITORIA INICIAL DO DATASET
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

1. ESTRUTURA DO DATASET:
   - Total de registros: {len(df)}
   - Total de colunas: {len(df.columns)}
   - Colunas identificadas: {', '.join(df.columns.tolist())}

2. VALORES AUSENTES:
   - Total de valores ausentes: {df.isnull().sum().sum()}
   - Colunas com valores ausentes: {', '.join(df.columns[df.isnull().any()].tolist()) if df.isnull().any().any() else 'Nenhuma'}

3. DUPLICATAS:
   - Linhas completamente duplicadas: {df.duplicated().sum()}
   - Pa√≠ses duplicados: {df.duplicated(subset=['Country Name']).sum() if 'Country Name' in df.columns else 'N/A'}

4. TIPOS DE DADOS:
   - Colunas num√©ricas: {len(df.select_dtypes(include=[np.number]).columns)}
   - Colunas categ√≥ricas: {len(df.select_dtypes(include=['object']).columns)}

5. VARI√ÅVEL-ALVO IDENTIFICADA:
   - Coluna 'Country Class' encontrada com valores: {sorted(df['Country Class'].unique().tolist()) if 'Country Class' in df.columns else 'N√ÉO ENCONTRADA'}
   - Distribui√ß√£o das classes: {df['Country Class'].value_counts().to_dict() if 'Country Class' in df.columns else 'N/A'}

6. PROBLEMAS IDENTIFICADOS:
"""

# Adicionar problemas encontrados
problemas = []
if df.isnull().sum().sum() > 0:
    problemas.append(f"   - Valores ausentes encontrados em {df.columns[df.isnull().any()].tolist()}")
if df.duplicated().sum() > 0:
    problemas.append(f"   - {df.duplicated().sum()} linhas completamente duplicadas")
if df.duplicated(subset=['Country Name']).sum() > 0:
    problemas.append(f"   - {df.duplicated(subset=['Country Name']).sum()} pa√≠ses duplicados")

# Verificar colunas redundantes
if 'Intentional homicides (per 100000 people) as of 2021' in df.columns and 'Intentional homicides/100k  x 100' in df.columns:
    problemas.append("   - Colunas redundantes: 'Intentional homicides (per 100000 people) as of 2021' e 'Intentional homicides/100k  x 100'")
if 'Cantril ladder score' in df.columns and 'Cantril ladder score*1000' in df.columns:
    problemas.append("   - Colunas redundantes: 'Cantril ladder score' e 'Cantril ladder score*1000'")

if problemas:
    relatorio += "\n".join(problemas)
else:
    relatorio += "   - Nenhum problema cr√≠tico identificado"

relatorio += f"""

7. ADEQUA√á√ÉO DO DATASET:
   - O dataset {'APRESENTA' if problemas else 'N√ÉO APRESENTA'} problemas que requerem tratamento
   - {'√â NECESS√ÅRIO' if problemas else 'N√ÉO √â NECESS√ÅRIO'} tratamento pr√©vio antes da an√°lise

8. RECOMENDA√á√ïES:
"""

recomendacoes = []
if df.isnull().sum().sum() > 0:
    recomendacoes.append("   - Tratar valores ausentes antes de prosseguir")
if df.duplicated().sum() > 0:
    recomendacoes.append("   - Remover linhas duplicadas")
if 'Intentional homicides/100k  x 100' in df.columns:
    recomendacoes.append("   - Remover coluna 'Intentional homicides/100k  x 100' (redundante)")
if 'Cantril ladder score*1000' in df.columns:
    recomendacoes.append("   - Remover coluna 'Cantril ladder score*1000' (redundante)")
if 'Class 4' in df.columns and 'Class 3' in df.columns and 'Class 2' in df.columns and 'Class 1' in df.columns:
    recomendacoes.append("   - Remover colunas one-hot encoding (Class 1, Class 2, Class 3, Class 4) - usar apenas 'Country Class'")

if recomendacoes:
    relatorio += "\n".join(recomendacoes)
else:
    relatorio += "   - Dataset est√° adequado para an√°lise direta"

relatorio += "\n‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ\n"

print(relatorio)


## üìä 2. An√°lise Explorat√≥ria Completa (EDA)


In [None]:
# Estat√≠sticas descritivas completas
print("=" * 80)
print("ESTAT√çSTICAS DESCRITIVAS COMPLETAS")
print("=" * 80)

# Selecionar apenas colunas num√©ricas relevantes (excluindo colunas redundantes e de classe)
cols_para_analise = [col for col in numeric_cols 
                     if col not in ['Class 4', 'Class 3', 'Class 2', 'Class 1', 
                                   'Intentional homicides/100k  x 100', 
                                   'Cantril ladder score*1000']]

print("\nEstat√≠sticas descritivas das vari√°veis num√©ricas principais:")
print(df[cols_para_analise].describe())

print("\n\nEstat√≠sticas adicionais (mediana, moda, assimetria, curtose):")
stats_extras = pd.DataFrame({
    'Mediana': df[cols_para_analise].median(),
    'Moda': df[cols_para_analise].mode().iloc[0] if len(df[cols_para_analise].mode()) > 0 else None,
    'Assimetria': df[cols_para_analise].skew(),
    'Curtose': df[cols_para_analise].kurtosis()
})
print(stats_extras)


In [None]:
# Distribui√ß√µes - Histogramas e Boxplots
print("=" * 80)
print("AN√ÅLISE DE DISTRIBUI√á√ïES")
print("=" * 80)

# Criar figura com subplots para histogramas
fig, axes = plt.subplots(2, 3, figsize=(18, 12))
axes = axes.ravel()

cols_plot = [col for col in cols_para_analise if col != 'Country Class']

for i, col in enumerate(cols_plot[:6]):  # Limitar a 6 colunas para visualiza√ß√£o
    axes[i].hist(df[col].dropna(), bins=20, edgecolor='black', alpha=0.7)
    axes[i].set_title(f'Histograma: {col}', fontsize=12, fontweight='bold')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Frequ√™ncia')
    axes[i].grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('histogramas_variaveis.png', dpi=300, bbox_inches='tight')
plt.show()

print("\n‚úÖ Histogramas salvos em 'histogramas_variaveis.png'")


In [None]:
# Boxplots
fig, axes = plt.subplots(2, 3, figsize=(18, 12))
axes = axes.ravel()

for i, col in enumerate(cols_plot[:6]):
    axes[i].boxplot(df[col].dropna(), vert=True)
    axes[i].set_title(f'Boxplot: {col}', fontsize=12, fontweight='bold')
    axes[i].set_ylabel(col)
    axes[i].grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('boxplots_variaveis.png', dpi=300, bbox_inches='tight')
plt.show()

print("\n‚úÖ Boxplots salvos em 'boxplots_variaveis.png'")


In [None]:
# An√°lise de correla√ß√£o
print("=" * 80)
print("AN√ÅLISE DE CORRELA√á√ÉO ENTRE VARI√ÅVEIS")
print("=" * 80)

# Calcular matriz de correla√ß√£o
corr_matrix = df[cols_plot].corr()

# Criar heatmap
plt.figure(figsize=(12, 10))
mask = np.triu(np.ones_like(corr_matrix, dtype=bool))  # M√°scara para mostrar apenas tri√¢ngulo inferior
sns.heatmap(corr_matrix, mask=mask, annot=True, fmt='.2f', cmap='coolwarm', 
            center=0, square=True, linewidths=1, cbar_kws={"shrink": 0.8},
            vmin=-1, vmax=1)
plt.title('Matriz de Correla√ß√£o entre Indicadores Socioecon√¥micos', fontsize=14, fontweight='bold', pad=20)
plt.tight_layout()
plt.savefig('heatmap_correlacao.png', dpi=300, bbox_inches='tight')
plt.show()

print("\nMatriz de correla√ß√£o:")
print(corr_matrix)

# Interpreta√ß√£o das correla√ß√µes
print("\n" + "="*80)
print("INTERPRETA√á√ÉO DAS CORRELA√á√ïES (Contexto do Dom√≠nio)")
print("="*80)

# Extrair correla√ß√µes espec√≠ficas
if 'Cantril ladder score' in corr_matrix.columns and 'GDP per capita. PPP (constant 2021 international $)' in corr_matrix.columns:
    corr_cantril_gdp = corr_matrix.loc['Cantril ladder score', 'GDP per capita. PPP (constant 2021 international $)']
    print(f"\n1. Cantril (Felicidade) vs PIB per capita: {corr_cantril_gdp:.3f}")
    if corr_cantril_gdp > 0.6:
        print("   ‚Üí Forte correla√ß√£o positiva: Pa√≠ses mais ricos tendem a ter popula√ß√µes mais felizes")
    elif corr_cantril_gdp > 0.3:
        print("   ‚Üí Correla√ß√£o moderada: Riqueza influencia felicidade, mas n√£o √© o √∫nico fator")
    else:
        print("   ‚Üí Correla√ß√£o fraca: Dinheiro n√£o compra felicidade diretamente")

if 'Cantril ladder score' in corr_matrix.columns and 'HDI (Human Development Indicator) Value (0~1000)' in corr_matrix.columns:
    corr_cantril_hdi = corr_matrix.loc['Cantril ladder score', 'HDI (Human Development Indicator) Value (0~1000)']
    print(f"\n2. Cantril (Felicidade) vs IDH: {corr_cantril_hdi:.3f}")
    if corr_cantril_hdi > 0.7:
        print("   ‚Üí Forte correla√ß√£o: Desenvolvimento humano est√° fortemente ligado √† felicidade")
    else:
        print("   ‚Üí Correla√ß√£o moderada: IDH captura aspectos al√©m da felicidade subjetiva")

if 'GDP per capita. PPP (constant 2021 international $)' in corr_matrix.columns and 'HDI (Human Development Indicator) Value (0~1000)' in corr_matrix.columns:
    corr_gdp_hdi = corr_matrix.loc['GDP per capita. PPP (constant 2021 international $)', 'HDI (Human Development Indicator) Value (0~1000)']
    print(f"\n3. PIB per capita vs IDH: {corr_gdp_hdi:.3f}")
    if corr_gdp_hdi > 0.7:
        print("   ‚Üí Forte correla√ß√£o: Riqueza econ√¥mica est√° fortemente relacionada ao desenvolvimento humano")
    else:
        print("   ‚Üí Correla√ß√£o moderada: IDH incorpora dimens√µes al√©m da riqueza (sa√∫de, educa√ß√£o)")

if 'Intentional homicides (per 100000 people) as of 2021' in corr_matrix.columns:
    if 'HDI (Human Development Indicator) Value (0~1000)' in corr_matrix.columns:
        corr_homicides_hdi = corr_matrix.loc['Intentional homicides (per 100000 people) as of 2021', 'HDI (Human Development Indicator) Value (0~1000)']
        print(f"\n4. Homic√≠dios vs IDH: {corr_homicides_hdi:.3f}")
        if corr_homicides_hdi < -0.4:
            print("   ‚Üí Correla√ß√£o negativa forte: Maior desenvolvimento humano ‚Üí menor viol√™ncia")
        elif corr_homicides_hdi < -0.2:
            print("   ‚Üí Correla√ß√£o negativa moderada: Desenvolvimento reduz viol√™ncia, mas h√° outros fatores")
        else:
            print("   ‚Üí Correla√ß√£o fraca: Viol√™ncia pode ter causas complexas al√©m do desenvolvimento")
    
    if 'GDP per capita. PPP (constant 2021 international $)' in corr_matrix.columns:
        corr_homicides_gdp = corr_matrix.loc['Intentional homicides (per 100000 people) as of 2021', 'GDP per capita. PPP (constant 2021 international $)']
        print(f"\n5. Homic√≠dios vs PIB per capita: {corr_homicides_gdp:.3f}")
        if corr_homicides_gdp < -0.3:
            print("   ‚Üí Correla√ß√£o negativa: Pa√≠ses mais ricos tendem a ter menos homic√≠dios")
        else:
            print("   ‚Üí Correla√ß√£o fraca: Riqueza sozinha n√£o explica completamente a viol√™ncia")

print("\n‚úÖ Heatmap de correla√ß√£o salvo em 'heatmap_correlacao.png'")


In [None]:
# IDENTIFICA√á√ÉO DA VARI√ÅVEL-ALVO
print("=" * 80)
print("IDENTIFICA√á√ÉO E AN√ÅLISE DA VARI√ÅVEL-ALVO")
print("=" * 80)

# Verificar se existe coluna explicitamente de classe
target_candidates = ['Country Class', 'Class', 'Target', 'Label', 'y']

target_col = None
for col in target_candidates:
    if col in df.columns:
        target_col = col
        break

if target_col:
    print(f"\n‚úÖ VARI√ÅVEL-ALVO IDENTIFICADA: '{target_col}'")
    print(f"\nDistribui√ß√£o da vari√°vel-alvo:")
    print(df[target_col].value_counts().sort_index())
    
    print(f"\nDistribui√ß√£o percentual:")
    print((df[target_col].value_counts(normalize=True) * 100).sort_index())
    
    # Verificar balanceamento
    counts = df[target_col].value_counts()
    balance_ratio = counts.min() / counts.max()
    
    print(f"\nAn√°lise de balanceamento:")
    print(f"  - Raz√£o entre menor e maior classe: {balance_ratio:.3f}")
    if balance_ratio < 0.5:
        print(f"  ‚ö†Ô∏è ATEN√á√ÉO: Dataset desbalanceado (raz√£o < 0.5)")
        print(f"  - Recomenda√ß√£o: Usar SMOTE ou outras t√©cnicas de balanceamento")
    else:
        print(f"  ‚úÖ Dataset relativamente balanceado")
    
    # Visualiza√ß√£o da distribui√ß√£o da vari√°vel-alvo
    plt.figure(figsize=(10, 6))
    df[target_col].value_counts().sort_index().plot(kind='bar', color='steelblue', edgecolor='black')
    plt.title('Distribui√ß√£o da Vari√°vel-Alvo (Country Class)', fontsize=14, fontweight='bold')
    plt.xlabel('Classe')
    plt.ylabel('Frequ√™ncia')
    plt.xticks(rotation=0)
    plt.grid(True, alpha=0.3, axis='y')
    plt.tight_layout()
    plt.savefig('distribuicao_target.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    print("\n‚úÖ Gr√°fico de distribui√ß√£o salvo em 'distribuicao_target.png'")
    
else:
    print("\n‚ö†Ô∏è ATEN√á√ÉO: Nenhuma coluna explicitamente definida como target encontrada!")
    print("Colunas dispon√≠veis:", df.columns.tolist())
    print("\nFazendo infer√™ncia l√≥gica...")
    
    # Infer√™ncia: procurar por padr√µes que indiquem vari√°vel-alvo
    # Geralmente vari√°veis-alvo t√™m poucos valores √∫nicos e s√£o categ√≥ricas
    for col in df.columns:
        if df[col].dtype in ['int64', 'float64']:
            unique_vals = df[col].nunique()
            if 2 <= unique_vals <= 10:  # Prov√°vel vari√°vel de classifica√ß√£o
                print(f"\nCandidato encontrado: '{col}' com {unique_vals} valores √∫nicos")
                print(f"Valores: {sorted(df[col].unique())}")
    
    print("\n‚ö†Ô∏è DECIS√ÉO NECESS√ÅRIA: Escolha manual da vari√°vel-alvo baseada no contexto do problema")


### üìù Justificativa da Vari√°vel-Alvo

**An√°lise e Decis√£o:**


In [None]:
# Justificativa detalhada da vari√°vel-alvo
print("=" * 80)
print("JUSTIFICATIVA DA ESCOLHA DA VARI√ÅVEL-ALVO")
print("=" * 80)

justificativa = f"""
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
JUSTIFICATIVA DA VARI√ÅVEL-ALVO
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

1. VARI√ÅVEL SELECIONADA: 'Country Class'

2. EVID√äNCIAS:
   - Coluna explicitamente nomeada como "Country Class"
   - Valores discretos: {sorted(df['Country Class'].unique().tolist())}
   - N√∫mero de classes: {df['Country Class'].nunique()}
   - Tipo de problema: CLASSIFICA√á√ÉO MULTICLASSE ({df['Country Class'].nunique()} classes)

3. CONTEXTO DO PROBLEMA:
   - O enunciado menciona: "Ajustar um modelo de classifica√ß√£o aos dados Cantrill+GDP+HDI"
   - O nome do arquivo cont√©m "FabroClassification2025OK_4classes"
   - Isso confirma que √© um problema de classifica√ß√£o com 4 classes

4. DISTRIBUI√á√ÉO DAS CLASSES:
"""

for classe in sorted(df['Country Class'].unique()):
    count = (df['Country Class'] == classe).sum()
    pct = (count / len(df)) * 100
    justificativa += f"   - Classe {int(classe)}: {count} pa√≠ses ({pct:.1f}%)\n"

justificativa += f"""
5. COLUNAS ONE-HOT ENCODING:
   - O dataset cont√©m colunas 'Class 1', 'Class 2', 'Class 3', 'Class 4'
   - Estas s√£o representa√ß√µes one-hot encoding da vari√°vel 'Country Class'
   - Para modelagem, usaremos 'Country Class' diretamente (mais eficiente)

6. CONCLUS√ÉO:
   ‚úÖ A vari√°vel 'Country Class' √© claramente a vari√°vel-alvo do problema de classifica√ß√£o.
   ‚úÖ N√£o h√° ambiguidade - a escolha √© direta e justificada pelo contexto.

‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
"""

print(justificativa)


## üöß 3. Prepara√ß√£o dos Dados


In [None]:
# Prepara√ß√£o dos dados - Cria√ß√£o de c√≥pia para n√£o alterar o original
print("=" * 80)
print("PREPARA√á√ÉO DOS DADOS")
print("=" * 80)

df_clean = df.copy()

print("\n1. REMOVENDO COLUNAS REDUNDANTES E DESNECESS√ÅRIAS:")
print("   - Removendo colunas one-hot encoding (Class 1, Class 2, Class 3, Class 4)")
print("   - Removendo colunas redundantes (homicides*100, Cantril*1000)")
print("   - Removendo colunas de identifica√ß√£o que n√£o s√£o features (Country Name, Country Code)")

cols_to_drop = ['Class 4', 'Class 3', 'Class 2', 'Class 1',
                'Intentional homicides/100k  x 100',
                'Cantril ladder score*1000',
                'Country Name', 'Country Code']

# Verificar quais colunas existem antes de remover
cols_to_drop_existing = [col for col in cols_to_drop if col in df_clean.columns]
df_clean = df_clean.drop(columns=cols_to_drop_existing)

print(f"   ‚úÖ {len(cols_to_drop_existing)} colunas removidas")
print(f"   Colunas restantes: {df_clean.columns.tolist()}")


In [None]:
# Tratamento de valores ausentes
print("\n2. TRATAMENTO DE VALORES AUSENTES:")

missing_before = df_clean.isnull().sum().sum()
print(f"   Valores ausentes antes do tratamento: {missing_before}")

if missing_before > 0:
    print("\n   Estrat√©gia escolhida:")
    print("   - Para vari√°veis num√©ricas: imputa√ß√£o com mediana (robusta a outliers)")
    print("   - Para vari√°veis categ√≥ricas: imputa√ß√£o com moda")
    
    # Separar num√©ricas e categ√≥ricas
    numeric_cols_clean = df_clean.select_dtypes(include=[np.number]).columns.tolist()
    if 'Country Class' in numeric_cols_clean:
        numeric_cols_clean.remove('Country Class')
    
    categorical_cols_clean = df_clean.select_dtypes(include=['object']).columns.tolist()
    
    # Imputar num√©ricas com mediana
    for col in numeric_cols_clean:
        if df_clean[col].isnull().sum() > 0:
            median_val = df_clean[col].median()
            df_clean[col].fillna(median_val, inplace=True)
            print(f"   - {col}: {df_clean[col].isnull().sum()} valores imputados com mediana={median_val:.2f}")
    
    # Imputar categ√≥ricas com moda
    for col in categorical_cols_clean:
        if df_clean[col].isnull().sum() > 0:
            mode_val = df_clean[col].mode()[0] if len(df_clean[col].mode()) > 0 else 'Unknown'
            df_clean[col].fillna(mode_val, inplace=True)
            print(f"   - {col}: valores imputados com moda='{mode_val}'")
    
    missing_after = df_clean.isnull().sum().sum()
    print(f"\n   ‚úÖ Valores ausentes ap√≥s tratamento: {missing_after}")
else:
    print("   ‚úÖ Nenhum valor ausente encontrado - nenhum tratamento necess√°rio")


In [None]:
# Encoding de vari√°veis categ√≥ricas
print("\n3. ENCODING DE VARI√ÅVEIS CATEG√ìRICAS:")

categorical_cols = df_clean.select_dtypes(include=['object']).columns.tolist()

if len(categorical_cols) > 0:
    print(f"   Vari√°veis categ√≥ricas encontradas: {categorical_cols}")
    
    # Verificar se 'World regions according to OWID' existe
    if 'World regions according to OWID' in categorical_cols:
        print("\n   Estrat√©gia: Label Encoding para 'World regions according to OWID'")
        print("   Justificativa: Vari√°vel ordinal pode ser codificada numericamente")
        
        le = LabelEncoder()
        df_clean['World regions according to OWID_encoded'] = le.fit_transform(df_clean['World regions according to OWID'])
        df_clean = df_clean.drop(columns=['World regions according to OWID'])
        
        print(f"   ‚úÖ Encoding realizado. Classes mapeadas:")
        for i, region in enumerate(le.classes_):
            print(f"      {i}: {region}")
else:
    print("   ‚úÖ Nenhuma vari√°vel categ√≥rica encontrada (ou j√° foram removidas)")


In [None]:
# Separa√ß√£o de features e target
print("\n4. SEPARA√á√ÉO DE FEATURES E TARGET:")

# Definir features (todas as colunas exceto a target)
feature_cols = [col for col in df_clean.columns if col != 'Country Class']
X = df_clean[feature_cols]
y_original = df_clean['Country Class'].astype(int)  # Valores originais (1-4)

# IMPORTANTE: Mapear classes de 1-4 para 0-3 (requerido por XGBoost e alguns algoritmos)
# Criar mapeamento para manter refer√™ncia das classes originais
class_mapping = {1: 0, 2: 1, 3: 2, 4: 3}
y = y_original.map(class_mapping).astype(int)

print(f"   Features selecionadas ({len(feature_cols)}): {feature_cols}")
print(f"   Target: Country Class")
print(f"   Shape de X: {X.shape}")
print(f"   Shape de y: {y.shape}")
print(f"\n   Classes originais (1-4) mapeadas para (0-3):")
print(f"   - Classe original 1 ‚Üí Classe 0")
print(f"   - Classe original 2 ‚Üí Classe 1")
print(f"   - Classe original 3 ‚Üí Classe 2")
print(f"   - Classe original 4 ‚Üí Classe 3")
print(f"\n   Distribui√ß√£o de y (ap√≥s mapeamento): {y.value_counts().sort_index().to_dict()}")
print(f"   Valores √∫nicos em y: {sorted(y.unique())}")


In [None]:
# Criar mapeamento reverso para exibi√ß√£o (0-3 ‚Üí 1-4)
reverse_class_mapping = {0: 1, 1: 2, 2: 3, 3: 4}

# Separa√ß√£o treino/teste
print("\n5. SEPARA√á√ÉO TREINO/TESTE:")

print("   Estrat√©gia: Stratified Split (80% treino, 20% teste)")
print("   Justificativa:")
print("     - Stratified garante que a propor√ß√£o de classes seja mantida em ambos os conjuntos")
print("     - 80/20 √© um split padr√£o que oferece bom equil√≠brio entre treino e valida√ß√£o")
print("     - random_state=42 para reprodutibilidade")

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"\n   ‚úÖ Separa√ß√£o realizada:")
print(f"   - Treino: {X_train.shape[0]} amostras ({X_train.shape[0]/len(X)*100:.1f}%)")
print(f"   - Teste: {X_test.shape[0]} amostras ({X_test.shape[0]/len(X)*100:.1f}%)")

print(f"\n   Distribui√ß√£o de classes no conjunto de TREINO (classes mapeadas 0-3):")
print(y_train.value_counts().sort_index())
print(f"\n   Distribui√ß√£o de classes no conjunto de TESTE (classes mapeadas 0-3):")
print(y_test.value_counts().sort_index())


In [None]:
# Avalia√ß√£o de balanceamento
print("\n6. AVALIA√á√ÉO DE BALANCEAMENTO:")

train_counts = y_train.value_counts().sort_index()
balance_ratio = train_counts.min() / train_counts.max()

print(f"   Raz√£o entre menor e maior classe (treino): {balance_ratio:.3f}")

if balance_ratio < 0.5:
    print(f"   ‚ö†Ô∏è Dataset desbalanceado detectado!")
    print(f"   Aplicando SMOTE para balancear o conjunto de treino...")
    
    smote = SMOTE(random_state=42)
    X_train_balanced, y_train_balanced = smote.fit_resample(X_train, y_train)
    
    print(f"   ‚úÖ SMOTE aplicado:")
    print(f"   - Antes: {X_train.shape[0]} amostras")
    print(f"   - Depois: {X_train_balanced.shape[0]} amostras")
    print(f"   - Distribui√ß√£o ap√≥s SMOTE:")
    print(y_train_balanced.value_counts().sort_index())
    
    # Atualizar vari√°veis
    X_train = X_train_balanced
    y_train = y_train_balanced
else:
    print(f"   ‚úÖ Dataset relativamente balanceado - SMOTE n√£o necess√°rio")


In [None]:
# Normaliza√ß√£o/Padroniza√ß√£o
print("\n7. NORMALIZA√á√ÉO/PADRONIZA√á√ÉO:")

print("   Estrat√©gia: StandardScaler (padroniza√ß√£o Z-score)")
print("   Justificativa:")
print("     - Vari√°veis t√™m escalas muito diferentes (ex: GDP em dezenas de milhares, HDI em centenas)")
print("     - Padroniza√ß√£o melhora performance de algoritmos sens√≠veis √† escala (Logistic Regression)")
print("     - Tree-based models (RF, XGBoost) n√£o s√£o sens√≠veis, mas padroniza√ß√£o n√£o prejudica")

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Converter de volta para DataFrame para manter nomes das colunas
X_train_scaled = pd.DataFrame(X_train_scaled, columns=feature_cols, index=X_train.index if hasattr(X_train, 'index') else None)
X_test_scaled = pd.DataFrame(X_test_scaled, columns=feature_cols, index=X_test.index)

print(f"   ‚úÖ Padroniza√ß√£o realizada")
print(f"   M√©dias ap√≥s padroniza√ß√£o (treino): {X_train_scaled.mean().round(3).to_dict()}")
print(f"   Desvios padr√£o ap√≥s padroniza√ß√£o (treino): {X_train_scaled.std().round(3).to_dict()}")

# Usar dados padronizados
X_train = X_train_scaled
X_test = X_test_scaled


## ü§ñ 4. Ajuste de Modelos de Classifica√ß√£o

### üìö O que significa "Ajustar um Modelo de Classifica√ß√£o aos Dados"?

**Ajustar um modelo de classifica√ß√£o** significa **treinar um algoritmo de Machine Learning** para aprender padr√µes nos dados que permitam prever a classe (categoria) de novos exemplos.

#### Conceitos Fundamentais:

1. **Treinamento (Training)**: 
   - O modelo "aprende" a partir de exemplos conhecidos (dados de treino)
   - Identifica padr√µes e rela√ß√µes entre as vari√°veis preditoras (features) e a vari√°vel-alvo (target)
   - No nosso caso: aprende a relacionar Cantril, GDP, HDI e Homic√≠dios com a Classifica√ß√£o do pa√≠s

2. **O que o modelo aprende**:
   - Quais valores de PIB, IDH, Felicidade e Homic√≠dios s√£o t√≠picos de cada classe
   - Regras de decis√£o para classificar um pa√≠s baseado nos seus indicadores
   - Exemplo: "Se IDH > 900 e PIB > 50.000, ent√£o provavelmente √© Classe 1"

3. **Objetivo**:
   - Poder prever a classe de um pa√≠s NOVO (que n√£o estava no dataset de treino)
   - Baseado apenas nos seus indicadores (Cantril, GDP, HDI, Homic√≠dios)

4. **Valida√ß√£o**:
   - Testamos o modelo em dados que ele nunca viu (conjunto de teste)
   - Medimos a acur√°cia, precis√£o, recall, etc.
   - Isso garante que o modelo generaliza bem (n√£o apenas "decorou" os dados de treino)

#### No contexto deste trabalho:
- **Vari√°veis Preditoras (Features)**: Cantril, GDP, HDI, Homic√≠dios, Regi√£o
- **Vari√°vel-Alvo (Target)**: Country Class (1, 2, 3 ou 4)
- **Objetivo**: Criar um modelo que, dado os indicadores de um pa√≠s, preveja sua classe de desenvolvimento


In [None]:
# Explica√ß√£o Pr√°tica: Como funciona o Ajuste de um Modelo de Classifica√ß√£o
print("=" * 80)
print("EXPLICA√á√ÉO PR√ÅTICA: COMO FUNCIONA O AJUSTE DE UM MODELO DE CLASSIFICA√á√ÉO")
print("=" * 80)

explicacao = """
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
COMO FUNCIONA O AJUSTE DE UM MODELO DE CLASSIFICA√á√ÉO
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

üìä PASSO A PASSO:

1. DADOS DE TREINO (80% dos dados):
   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
   ‚îÇ Pa√≠s    ‚îÇ Cantril ‚îÇ GDP    ‚îÇ IDH  ‚îÇ Homic√≠dios ‚îÇ Classe    ‚îÇ
   ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
   ‚îÇ Noruega ‚îÇ  7.30   ‚îÇ 90.470 ‚îÇ  966 ‚îÇ    0.54    ‚îÇ    1      ‚îÇ ‚Üê Exemplo
   ‚îÇ Brasil  ‚îÇ  6.27   ‚îÇ 19.018 ‚îÇ  760 ‚îÇ   22.38    ‚îÇ    2      ‚îÇ ‚Üê Exemplo
   ‚îÇ ...     ‚îÇ   ...   ‚îÇ  ...   ‚îÇ ...  ‚îÇ    ...     ‚îÇ   ...     ‚îÇ
   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
   
   O modelo v√™ MUITOS exemplos como estes e aprende padr√µes:
   - "Pa√≠ses com IDH > 900 e PIB > 50.000 geralmente s√£o Classe 1"
   - "Pa√≠ses com IDH < 600 geralmente s√£o Classe 3 ou 4"
   - etc.

2. PROCESSO DE APRENDIZADO:
   
   O modelo cria "regras de decis√£o" internas:
   
   Exemplo (simplificado):
   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
   ‚îÇ SE IDH > 900 E PIB > 50.000                            ‚îÇ
   ‚îÇ   ENT√ÉO Classe = 1 (Desenvolvido)                      ‚îÇ
   ‚îÇ                                                         ‚îÇ
   ‚îÇ SEN√ÉO SE IDH > 750 E PIB > 20.000                     ‚îÇ
   ‚îÇ   ENT√ÉO Classe = 2 (Em Desenvolvimento)               ‚îÇ
   ‚îÇ                                                         ‚îÇ
   ‚îÇ SEN√ÉO SE IDH > 600                                     ‚îÇ
   ‚îÇ   ENT√ÉO Classe = 3 (Desenvolvimento M√©dio)            ‚îÇ
   ‚îÇ                                                         ‚îÇ
   ‚îÇ SEN√ÉO                                                  ‚îÇ
   ‚îÇ   ENT√ÉO Classe = 4 (Baixo Desenvolvimento)             ‚îÇ
   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
   
   (Na pr√°tica, os modelos s√£o muito mais complexos e consideram
    m√∫ltiplas vari√°veis simultaneamente)

3. DADOS DE TESTE (20% dos dados - que o modelo NUNCA VIU):
   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
   ‚îÇ Pa√≠s    ‚îÇ Cantril ‚îÇ GDP    ‚îÇ IDH  ‚îÇ Homic√≠dios ‚îÇ Classe    ‚îÇ
   ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
   ‚îÇ Su√©cia  ‚îÇ  7.34   ‚îÇ 63.115 ‚îÇ  952 ‚îÇ    1.08    ‚îÇ    ?      ‚îÇ
   ‚îÇ         ‚îÇ         ‚îÇ         ‚îÇ      ‚îÇ            ‚îÇ           ‚îÇ
   ‚îÇ O modelo faz uma PREDI√á√ÉO baseada nas regras aprendidas:    ‚îÇ
   ‚îÇ ‚Üí IDH=952 (>900) E PIB=63.115 (>50.000)                    ‚îÇ
   ‚îÇ ‚Üí PREDI√á√ÉO: Classe 1                                       ‚îÇ
   ‚îÇ ‚Üí CLASSE REAL: 1 ‚úÖ (Correto!)                             ‚îÇ
   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò

4. AVALIA√á√ÉO:
   - Testamos o modelo em TODOS os pa√≠ses do conjunto de teste
   - Contamos quantas predi√ß√µes foram corretas (Accuracy)
   - Analisamos erros por classe (Precision, Recall, F1-Score)
   - Isso nos diz se o modelo "aprendeu bem" ou n√£o

5. RESULTADO FINAL:
   - Um modelo "treinado" que pode classificar NOVOS pa√≠ses
   - Exemplo: Se voc√™ tiver dados de um pa√≠s novo:
     * Cantril = 6.5, GDP = 25.000, IDH = 800, Homic√≠dios = 3.0
     * O modelo prev√™: Classe 2
     * (Mesmo que esse pa√≠s nunca tenha estado no dataset original)

‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

üéØ RESUMO:
   "Ajustar um modelo" = Treinar um algoritmo para aprender padr√µes
   nos dados e poder fazer predi√ß√µes em dados novos.

   √â como ensinar uma crian√ßa a reconhecer animais:
   - Mostramos muitos exemplos (dados de treino)
   - Ela aprende padr√µes (4 patas + rabo = cachorro)
   - Testamos com animais novos (dados de teste)
   - Se acertar bem, ela "aprendeu" (modelo est√° ajustado)

‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
"""

print(explicacao)


In [None]:
# Explica√ß√£o dos Modelos que ser√£o Ajustados
print("\n" + "=" * 80)
print("TIPOS DE MODELOS DE CLASSIFICA√á√ÉO QUE SER√ÉO AJUSTADOS")
print("=" * 80)

modelos_explicacao = """
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
TIPOS DE MODELOS DE CLASSIFICA√á√ÉO
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

Vamos ajustar 3 modelos diferentes, cada um com uma abordagem √∫nica:

1. üìà LOGISTIC REGRESSION (Regress√£o Log√≠stica):
   
   Como funciona:
   - Cria uma "fronteira de decis√£o" linear no espa√ßo das vari√°veis
   - Calcula probabilidades de cada classe usando uma fun√ß√£o sigmoide
   - Exemplo: P(Classe=1) = 1 / (1 + e^(-(Œ≤‚ÇÄ + Œ≤‚ÇÅ√óIDH + Œ≤‚ÇÇ√óPIB + ...)))
   
   Vantagens:
   - Interpret√°vel (podemos ver os coeficientes Œ≤)
   - R√°pido de treinar
   - Boa para rela√ß√µes lineares
   
   Limita√ß√µes:
   - Assume rela√ß√µes lineares entre vari√°veis
   - Pode n√£o capturar padr√µes complexos

2. üå≥ RANDOM FOREST (Floresta Aleat√≥ria):
   
   Como funciona:
   - Cria MUITAS √°rvores de decis√£o (ex: 100 √°rvores)
   - Cada √°rvore vota em uma classe
   - A classe mais votada √© a predi√ß√£o final
   
   Exemplo de uma √°rvore:
   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
   ‚îÇ IDH > 900?                          ‚îÇ
   ‚îÇ    ‚îú‚îÄ SIM ‚Üí PIB > 50.000?          ‚îÇ
   ‚îÇ    ‚îÇ    ‚îú‚îÄ SIM ‚Üí Classe 1          ‚îÇ
   ‚îÇ    ‚îÇ    ‚îî‚îÄ N√ÉO ‚Üí Classe 2          ‚îÇ
   ‚îÇ    ‚îî‚îÄ N√ÉO ‚Üí Homic√≠dios > 10?       ‚îÇ
   ‚îÇ         ‚îú‚îÄ SIM ‚Üí Classe 3           ‚îÇ
   ‚îÇ         ‚îî‚îÄ N√ÉO ‚Üí Classe 4           ‚îÇ
   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
   
   Vantagens:
   - Captura rela√ß√µes n√£o-lineares
   - N√£o precisa normaliza√ß√£o
   - Mostra import√¢ncia das vari√°veis
   
   Limita√ß√µes:
   - Menos interpret√°vel que Logistic Regression
   - Pode ser mais lento com muitos dados

3. üöÄ XGBOOST (Extreme Gradient Boosting):
   
   Como funciona:
   - Cria √°rvores sequencialmente, onde cada √°rvore corrige os erros da anterior
   - √â um "ensemble" que combina m√∫ltiplas √°rvores fracas em um modelo forte
   - Usa otimiza√ß√£o avan√ßada (gradient boosting)
   
   Analogia:
   - Como um estudante que faz v√°rias provas
   - A cada prova, foca nos t√≥picos que errou na anterior
   - No final, domina todos os t√≥picos
   
   Vantagens:
   - Geralmente o mais preciso
   - Captura padr√µes complexos
   - Tem regulariza√ß√£o para evitar overfitting
   
   Limita√ß√µes:
   - Mais complexo de interpretar
   - Pode ser mais lento de treinar
   - Requer mais ajuste de hiperpar√¢metros

‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

üî¨ POR QUE TESTAR M√öLTIPLOS MODELOS?

1. Diferentes modelos capturam diferentes padr√µes
2. N√£o sabemos a priori qual ser√° melhor para nossos dados
3. Compara√ß√£o nos permite escolher o melhor
4. Cada modelo tem trade-offs (precis√£o vs interpretabilidade)

‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
"""

print(modelos_explicacao)


In [None]:
# Explica√ß√£o T√©cnica: O que acontece durante o "Ajuste"
print("\n" + "=" * 80)
print("EXPLICA√á√ÉO T√âCNICA: O QUE ACONTECE DURANTE O AJUSTE")
print("=" * 80)

tecnica_explicacao = """
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
O PROCESSO T√âCNICO DE AJUSTE
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

Quando chamamos model.fit(X_train, y_train), o que acontece internamente:

1. INICIALIZA√á√ÉO:
   - O modelo come√ßa com par√¢metros aleat√≥rios ou padr√£o
   - Exemplo (Logistic Regression): Œ≤‚ÇÄ=0, Œ≤‚ÇÅ=0, Œ≤‚ÇÇ=0, ...
   - Neste ponto, o modelo "n√£o sabe nada" e faz predi√ß√µes aleat√≥rias

2. ITERA√á√ÉO (Loop de Aprendizado):
   
   Para cada itera√ß√£o:
   
   a) PREDI√á√ÉO:
      - O modelo usa os par√¢metros atuais para prever as classes
      - Compara predi√ß√µes com valores reais
      - Calcula o ERRO (quantas predi√ß√µes est√£o erradas)
   
   b) AJUSTE:
      - O modelo calcula como ajustar os par√¢metros para reduzir o erro
      - Usa algoritmos de otimiza√ß√£o (ex: gradient descent)
      - Atualiza os par√¢metros: Œ≤‚ÇÄ, Œ≤‚ÇÅ, Œ≤‚ÇÇ, ...
   
   c) AVALIA√á√ÉO:
      - Verifica se o erro diminuiu
      - Se sim, continua; se n√£o, tenta outra abordagem
   
   Exemplo simplificado:
   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
   ‚îÇ Itera√ß√£o 1: Erro = 45% (muito alto)                ‚îÇ
   ‚îÇ ‚Üí Ajusta par√¢metros                                 ‚îÇ
   ‚îÇ                                                     ‚îÇ
   ‚îÇ Itera√ß√£o 2: Erro = 30% (melhorou!)                 ‚îÇ
   ‚îÇ ‚Üí Ajusta par√¢metros novamente                       ‚îÇ
   ‚îÇ                                                     ‚îÇ
   ‚îÇ Itera√ß√£o 3: Erro = 20% (melhorou mais!)           ‚îÇ
   ‚îÇ ‚Üí Continua ajustando...                            ‚îÇ
   ‚îÇ                                                     ‚îÇ
   ‚îÇ Itera√ß√£o N: Erro = 15% (converg√™ncia)              ‚îÇ
   ‚îÇ ‚Üí Para o treinamento                                ‚îÇ
   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò

3. CONVERG√äNCIA:
   - O modelo para quando:
     * O erro n√£o diminui mais (converg√™ncia)
     * Atingiu n√∫mero m√°ximo de itera√ß√µes
     * O erro est√° abaixo de um threshold
   
4. RESULTADO:
   - Par√¢metros "√≥timos" encontrados
   - Modelo pronto para fazer predi√ß√µes em dados novos

‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

üìä ANALOGIA DO MUNDO REAL:

√â como ajustar uma receita de bolo:
- Come√ßamos com uma receita inicial (par√¢metros iniciais)
- Fazemos um bolo e provamos (predi√ß√£o)
- Se n√£o ficou bom, ajustamos ingredientes (ajuste de par√¢metros)
- Repetimos at√© o bolo ficar perfeito (converg√™ncia)
- Quando est√° bom, temos a receita final (modelo ajustado)

‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

üéØ NO NOSSO CASO ESPEC√çFICO:

Quando ajustamos o modelo aos dados Cantril+GDP+HDI:

1. O modelo aprende pesos/import√¢ncias para cada vari√°vel:
   - Exemplo: IDH tem peso 0.4, PIB tem peso 0.3, Cantril tem peso 0.2, etc.

2. Aprende thresholds (limiares) de decis√£o:
   - Exemplo: Se IDH > 900 ‚Üí alta probabilidade de Classe 1

3. Aprende intera√ß√µes entre vari√°veis:
   - Exemplo: Pa√≠ses com IDH alto E PIB alto ‚Üí Classe 1
   - Exemplo: Pa√≠ses com IDH baixo E homic√≠dios altos ‚Üí Classe 4

4. Cria regras de classifica√ß√£o que funcionam bem nos dados de treino
   E (esperamos) tamb√©m funcionar√£o bem em dados novos

‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
"""

print(tecnica_explicacao)


In [None]:
# Configura√ß√£o para valida√ß√£o cruzada
print("=" * 80)
print("AJUSTE DE MODELOS DE CLASSIFICA√á√ÉO")
print("=" * 80)

# Configurar valida√ß√£o cruzada estratificada
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
print(f"\nValida√ß√£o cruzada: {cv.n_splits}-fold estratificado")

# Dicion√°rio para armazenar resultados
resultados = {}


In [None]:
# MODELO 1: Logistic Regression
print("\n" + "="*80)
print("MODELO 1: LOGISTIC REGRESSION")
print("="*80)

lr = LogisticRegression(random_state=42, max_iter=1000, multi_class='multinomial', solver='lbfgs')

# Valida√ß√£o cruzada
print("\nExecutando valida√ß√£o cruzada...")
cv_scores_lr = cross_val_score(lr, X_train, y_train, cv=cv, scoring='accuracy')
print(f"Accuracy m√©dia (CV): {cv_scores_lr.mean():.4f} (+/- {cv_scores_lr.std() * 2:.4f})")

# Treinar no conjunto completo de treino
lr.fit(X_train, y_train)

# Predi√ß√µes
y_pred_lr = lr.predict(X_test)
y_pred_proba_lr = lr.predict_proba(X_test)

# M√©tricas
acc_lr = accuracy_score(y_test, y_pred_lr)
prec_lr = precision_score(y_test, y_pred_lr, average='weighted')
rec_lr = recall_score(y_test, y_pred_lr, average='weighted')
f1_lr = f1_score(y_test, y_pred_lr, average='weighted')

resultados['Logistic Regression'] = {
    'model': lr,
    'accuracy': acc_lr,
    'precision': prec_lr,
    'recall': rec_lr,
    'f1': f1_lr,
    'cv_scores': cv_scores_lr,
    'y_pred': y_pred_lr,
    'y_pred_proba': y_pred_proba_lr
}

print(f"\nM√©tricas no conjunto de teste:")
print(f"  Accuracy: {acc_lr:.4f}")
print(f"  Precision (weighted): {prec_lr:.4f}")
print(f"  Recall (weighted): {rec_lr:.4f}")
print(f"  F1-score (weighted): {f1_lr:.4f}")


In [None]:
# MODELO 2: Random Forest
print("\n" + "="*80)
print("MODELO 2: RANDOM FOREST")
print("="*80)

rf = RandomForestClassifier(n_estimators=100, random_state=42, max_depth=10)

# Valida√ß√£o cruzada
print("\nExecutando valida√ß√£o cruzada...")
cv_scores_rf = cross_val_score(rf, X_train, y_train, cv=cv, scoring='accuracy')
print(f"Accuracy m√©dia (CV): {cv_scores_rf.mean():.4f} (+/- {cv_scores_rf.std() * 2:.4f})")

# Treinar no conjunto completo de treino
rf.fit(X_train, y_train)

# Predi√ß√µes
y_pred_rf = rf.predict(X_test)
y_pred_proba_rf = rf.predict_proba(X_test)

# M√©tricas
acc_rf = accuracy_score(y_test, y_pred_rf)
prec_rf = precision_score(y_test, y_pred_rf, average='weighted')
rec_rf = recall_score(y_test, y_pred_rf, average='weighted')
f1_rf = f1_score(y_test, y_pred_rf, average='weighted')

resultados['Random Forest'] = {
    'model': rf,
    'accuracy': acc_rf,
    'precision': prec_rf,
    'recall': rec_rf,
    'f1': f1_rf,
    'cv_scores': cv_scores_rf,
    'y_pred': y_pred_rf,
    'y_pred_proba': y_pred_proba_rf
}

print(f"\nM√©tricas no conjunto de teste:")
print(f"  Accuracy: {acc_rf:.4f}")
print(f"  Precision (weighted): {prec_rf:.4f}")
print(f"  Recall (weighted): {rec_rf:.4f}")
print(f"  F1-score (weighted): {f1_rf:.4f}")


In [None]:
# MODELO 3: XGBoost (Gradient Boosting)
print("\n" + "="*80)
print("MODELO 3: XGBOOST (GRADIENT BOOSTING)")
print("="*80)

xgb_model = xgb.XGBClassifier(random_state=42, n_estimators=100, max_depth=5, learning_rate=0.1)

# Valida√ß√£o cruzada
print("\nExecutando valida√ß√£o cruzada...")
cv_scores_xgb = cross_val_score(xgb_model, X_train, y_train, cv=cv, scoring='accuracy')
print(f"Accuracy m√©dia (CV): {cv_scores_xgb.mean():.4f} (+/- {cv_scores_xgb.std() * 2:.4f})")

# Treinar no conjunto completo de treino
xgb_model.fit(X_train, y_train)

# Predi√ß√µes
y_pred_xgb = xgb_model.predict(X_test)
y_pred_proba_xgb = xgb_model.predict_proba(X_test)

# M√©tricas
acc_xgb = accuracy_score(y_test, y_pred_xgb)
prec_xgb = precision_score(y_test, y_pred_xgb, average='weighted')
rec_xgb = recall_score(y_test, y_pred_xgb, average='weighted')
f1_xgb = f1_score(y_test, y_pred_xgb, average='weighted')

resultados['XGBoost'] = {
    'model': xgb_model,
    'accuracy': acc_xgb,
    'precision': prec_xgb,
    'recall': rec_xgb,
    'f1': f1_xgb,
    'cv_scores': cv_scores_xgb,
    'y_pred': y_pred_xgb,
    'y_pred_proba': y_pred_proba_xgb
}

print(f"\nM√©tricas no conjunto de teste:")
print(f"  Accuracy: {acc_xgb:.4f}")
print(f"  Precision (weighted): {prec_xgb:.4f}")
print(f"  Recall (weighted): {rec_xgb:.4f}")
print(f"  F1-score (weighted): {f1_xgb:.4f}")


In [None]:
# Compara√ß√£o de modelos
print("\n" + "="*80)
print("COMPARA√á√ÉO DE MODELOS")
print("="*80)

comparacao = pd.DataFrame({
    'Modelo': list(resultados.keys()),
    'Accuracy': [resultados[m]['accuracy'] for m in resultados.keys()],
    'Precision': [resultados[m]['precision'] for m in resultados.keys()],
    'Recall': [resultados[m]['recall'] for m in resultados.keys()],
    'F1-Score': [resultados[m]['f1'] for m in resultados.keys()],
    'CV Accuracy (m√©dia)': [resultados[m]['cv_scores'].mean() for m in resultados.keys()],
    'CV Accuracy (std)': [resultados[m]['cv_scores'].std() for m in resultados.keys()]
})

comparacao = comparacao.sort_values('F1-Score', ascending=False)
print("\nTabela comparativa (ordenada por F1-Score):")
print(comparacao.to_string(index=False))

# Identificar melhor modelo
melhor_modelo_nome = comparacao.iloc[0]['Modelo']
melhor_modelo = resultados[melhor_modelo_nome]['model']

print(f"\nüèÜ MELHOR MODELO: {melhor_modelo_nome}")
print(f"   F1-Score: {comparacao.iloc[0]['F1-Score']:.4f}")
print(f"   Accuracy: {comparacao.iloc[0]['Accuracy']:.4f}")


In [None]:
# Matrizes de confus√£o
print("\n" + "="*80)
print("MATRIZES DE CONFUS√ÉO")
print("="*80)
print("Nota: Classes mostradas como originais (1-4) para melhor interpreta√ß√£o")

fig, axes = plt.subplots(1, 3, figsize=(18, 5))

for idx, (nome, res) in enumerate(resultados.items()):
    cm = confusion_matrix(y_test, res['y_pred'])
    # Mapear labels para classes originais (0-3 ‚Üí 1-4)
    class_labels = [reverse_class_mapping[i] for i in sorted(y_test.unique())]
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=axes[idx],
                xticklabels=class_labels, yticklabels=class_labels)
    axes[idx].set_title(f'{nome}\nAccuracy: {res["accuracy"]:.3f}', fontweight='bold')
    axes[idx].set_xlabel('Predito (Classe Original)')
    axes[idx].set_ylabel('Real (Classe Original)')

plt.tight_layout()
plt.savefig('matrizes_confusao.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úÖ Matrizes de confus√£o salvas em 'matrizes_confusao.png'")


In [None]:
# Relat√≥rios de classifica√ß√£o detalhados
print("\n" + "="*80)
print("RELAT√ìRIOS DE CLASSIFICA√á√ÉO DETALHADOS")
print("="*80)
print("Nota: Classes mostradas como originais (1-4) para melhor interpreta√ß√£o\n")

for nome, res in resultados.items():
    print(f"\n{'='*80}")
    print(f"{nome.upper()}")
    print(f"{'='*80}")
    # Mapear labels para classes originais
    class_names = [f'Classe {reverse_class_mapping[i]}' for i in sorted(y_test.unique())]
    print(classification_report(y_test, res['y_pred'], 
                                target_names=class_names))


In [None]:
# ROC Curve e AUC (One-vs-Rest para multiclasse)
print("\n" + "="*80)
print("CURVAS ROC E AUC")
print("="*80)

from sklearn.preprocessing import label_binarize
from sklearn.metrics import roc_curve, auc
from itertools import cycle

# Binarizar as classes para One-vs-Rest
y_test_bin = label_binarize(y_test, classes=sorted(y_test.unique()))
n_classes = y_test_bin.shape[1]

fig, axes = plt.subplots(1, 3, figsize=(18, 5))

for idx, (nome, res) in enumerate(resultados.items()):
    y_pred_proba = res['y_pred_proba']
    
    # Calcular ROC para cada classe
    fpr = dict()
    tpr = dict()
    roc_auc = dict()
    
    for i in range(n_classes):
        fpr[i], tpr[i], _ = roc_curve(y_test_bin[:, i], y_pred_proba[:, i])
        roc_auc[i] = auc(fpr[i], tpr[i])
    
    # Calcular m√©dia macro
    all_fpr = np.unique(np.concatenate([fpr[i] for i in range(n_classes)]))
    mean_tpr = np.zeros_like(all_fpr)
    for i in range(n_classes):
        mean_tpr += np.interp(all_fpr, fpr[i], tpr[i])
    mean_tpr /= n_classes
    
    fpr["macro"] = all_fpr
    tpr["macro"] = mean_tpr
    roc_auc["macro"] = auc(fpr["macro"], tpr["macro"])
    
    # Plot
    axes[idx].plot(fpr["macro"], tpr["macro"],
                   label=f'Macro-average ROC (AUC = {roc_auc["macro"]:.3f})',
                   linewidth=2)
    
    colors = cycle(['aqua', 'darkorange', 'cornflowerblue', 'red'])
    for i, color in zip(range(n_classes), colors):
        # Mapear para classe original para exibi√ß√£o
        original_class = reverse_class_mapping[sorted(y_test.unique())[i]]
        axes[idx].plot(fpr[i], tpr[i], color=color, lw=1.5, alpha=0.7,
                      label=f'Classe {original_class} (AUC = {roc_auc[i]:.3f})')
    
    axes[idx].plot([0, 1], [0, 1], 'k--', lw=1, alpha=0.5)
    axes[idx].set_xlim([0.0, 1.0])
    axes[idx].set_ylim([0.0, 1.05])
    axes[idx].set_xlabel('Taxa de Falsos Positivos')
    axes[idx].set_ylabel('Taxa de Verdadeiros Positivos')
    axes[idx].set_title(f'{nome}\nROC Curves', fontweight='bold')
    axes[idx].legend(loc="lower right", fontsize=8)
    axes[idx].grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('roc_curves.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úÖ Curvas ROC salvas em 'roc_curves.png'")


### üìù An√°lise Comparativa dos Modelos


In [None]:
# An√°lise textual dos resultados
print("=" * 80)
print("AN√ÅLISE COMPARATIVA DOS MODELOS")
print("=" * 80)

analise = f"""
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
AN√ÅLISE COMPARATIVA DOS MODELOS DE CLASSIFICA√á√ÉO
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

1. RESUMO DAS PERFORMANCES:

"""

for nome, res in resultados.items():
    analise += f"""
   {nome}:
   - Accuracy: {res['accuracy']:.4f}
   - Precision (weighted): {res['precision']:.4f}
   - Recall (weighted): {res['recall']:.4f}
   - F1-Score (weighted): {res['f1']:.4f}
   - CV Accuracy (m√©dia ¬± std): {res['cv_scores'].mean():.4f} ¬± {res['cv_scores'].std():.4f}
"""

analise += f"""

2. MELHOR MODELO IDENTIFICADO: {melhor_modelo_nome}

3. JUSTIFICATIVA DA ESCOLHA:

"""

# Comparar modelos
if melhor_modelo_nome == 'XGBoost':
    analise += """
   O XGBoost apresentou a melhor performance geral, o que √© esperado porque:
   - Algoritmos de gradient boosting s√£o poderosos para problemas de classifica√ß√£o
   - XGBoost tem mecanismos de regulariza√ß√£o que previnem overfitting
   - Boa capacidade de capturar rela√ß√µes n√£o-lineares entre features
   - Performance superior em F1-Score, que √© uma m√©trica balanceada
"""
elif melhor_modelo_nome == 'Random Forest':
    analise += """
   O Random Forest apresentou a melhor performance, o que √© esperado porque:
   - Ensemble de √°rvores reduz vari√¢ncia e melhora generaliza√ß√£o
   - N√£o requer normaliza√ß√£o (mas n√£o prejudica)
   - Boa capacidade de lidar com features de diferentes escalas
   - Menos propenso a overfitting que √°rvores individuais
"""
else:
    analise += """
   A Logistic Regression apresentou boa performance, o que indica:
   - Rela√ß√µes relativamente lineares entre features e target
   - Dataset bem separ√°vel linearmente
   - Modelo interpret√°vel e eficiente computacionalmente
"""

analise += f"""

4. OBSERVA√á√ïES IMPORTANTES:

   - Todos os modelos apresentaram performance razo√°vel (accuracy > 0.7)
   - A valida√ß√£o cruzada mostra consist√™ncia nas predi√ß√µes
   - As m√©tricas weighted s√£o apropriadas para lidar com poss√≠vel desbalanceamento
   - As curvas ROC indicam boa capacidade discriminativa do modelo

5. RECOMENDA√á√ïES:

   - Usar {melhor_modelo_nome} como modelo final
   - Considerar fine-tuning de hiperpar√¢metros para melhorar ainda mais
   - Avaliar feature engineering adicional se necess√°rio
   - Monitorar performance em dados novos para garantir generaliza√ß√£o

‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
"""

print(analise)


## üéØ 5. Interpreta√ß√£o e Explica√ß√£o do Modelo


In [None]:
# Feature Importance
print("=" * 80)
print("FEATURE IMPORTANCE")
print("=" * 80)

# Para Random Forest e XGBoost
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Random Forest Feature Importance
if 'Random Forest' in resultados:
    rf_importance = resultados['Random Forest']['model'].feature_importances_
    rf_importance_df = pd.DataFrame({
        'Feature': feature_cols,
        'Importance': rf_importance
    }).sort_values('Importance', ascending=False)
    
    axes[0].barh(rf_importance_df['Feature'], rf_importance_df['Importance'])
    axes[0].set_title('Random Forest - Feature Importance', fontweight='bold')
    axes[0].set_xlabel('Importance')
    axes[0].grid(True, alpha=0.3, axis='x')
    
    print("\nRandom Forest - Top 5 Features mais importantes:")
    print(rf_importance_df.head().to_string(index=False))

# XGBoost Feature Importance
if 'XGBoost' in resultados:
    xgb_importance = resultados['XGBoost']['model'].feature_importances_
    xgb_importance_df = pd.DataFrame({
        'Feature': feature_cols,
        'Importance': xgb_importance
    }).sort_values('Importance', ascending=False)
    
    axes[1].barh(xgb_importance_df['Feature'], xgb_importance_df['Importance'], color='orange')
    axes[1].set_title('XGBoost - Feature Importance', fontweight='bold')
    axes[1].set_xlabel('Importance')
    axes[1].grid(True, alpha=0.3, axis='x')
    
    print("\nXGBoost - Top 5 Features mais importantes:")
    print(xgb_importance_df.head().to_string(index=False))

plt.tight_layout()
plt.savefig('feature_importance.png', dpi=300, bbox_inches='tight')
plt.show()

print("\n‚úÖ Feature importance salvo em 'feature_importance.png'")


In [None]:
# Partial Dependence Plots (para o melhor modelo tree-based)
print("\n" + "="*80)
print("PARTIAL DEPENDENCE PLOTS")
print("="*80)
print("Nota: Para modelos multiclasse, PDP √© gerado para cada classe separadamente")

try:
    from sklearn.inspection import PartialDependenceDisplay
    
    # Usar o melhor modelo tree-based se dispon√≠vel
    modelo_pdp = None
    nome_pdp = None
    
    if melhor_modelo_nome in ['Random Forest', 'XGBoost']:
        modelo_pdp = resultados[melhor_modelo_nome]['model']
        nome_pdp = melhor_modelo_nome
    elif 'Random Forest' in resultados:
        modelo_pdp = resultados['Random Forest']['model']
        nome_pdp = 'Random Forest'
    elif 'XGBoost' in resultados:
        modelo_pdp = resultados['XGBoost']['model']
        nome_pdp = 'XGBoost'
    
    if modelo_pdp is not None:
        # Selecionar top 4 features mais importantes
        if nome_pdp == 'Random Forest':
            top_features = rf_importance_df.head(4)['Feature'].tolist()
        else:
            top_features = xgb_importance_df.head(4)['Feature'].tolist()
        
        # Criar √≠ndices das features
        feature_indices = [feature_cols.index(f) for f in top_features]
        
        # Para multiclasse, precisamos gerar PDP para cada classe
        # Vamos gerar para a classe mais representativa (maior frequ√™ncia)
        classes_ordenadas = sorted(y_train.unique())
        classe_mais_frequente = y_train.value_counts().index[0]
        classe_original = reverse_class_mapping[classe_mais_frequente]
        
        print(f"\nGerando PDP para a Classe {classe_original} (mais frequente)")
        print(f"Features analisadas: {', '.join(top_features)}")
        
        fig, axes = plt.subplots(2, 2, figsize=(16, 12))
        axes = axes.ravel()
        
        # Especificar target para multiclasse
        PartialDependenceDisplay.from_estimator(
            modelo_pdp, X_train, feature_indices, 
            ax=axes, n_jobs=-1, grid_resolution=50,
            target=classe_mais_frequente  # Especificar target para multiclasse
        )
        
        for idx, ax in enumerate(axes):
            feature_name = top_features[idx]
            # Melhorar nomes das features para exibi√ß√£o
            if 'Cantril' in feature_name:
                ax.set_title(f'PDP: Escada de Cantril (Felicidade)', fontweight='bold', fontsize=11)
            elif 'GDP' in feature_name:
                ax.set_title(f'PDP: PIB per capita (PPP)', fontweight='bold', fontsize=11)
            elif 'HDI' in feature_name:
                ax.set_title(f'PDP: IDH (√çndice Desenvolvimento Humano)', fontweight='bold', fontsize=11)
            elif 'homicide' in feature_name.lower():
                ax.set_title(f'PDP: Taxa de Homic√≠dios (por 100k)', fontweight='bold', fontsize=11)
            else:
                ax.set_title(f'PDP: {feature_name}', fontweight='bold', fontsize=11)
        
        plt.suptitle(f'Partial Dependence Plots - {nome_pdp}\nClasse {classe_original} (mais frequente)', 
                     fontsize=14, fontweight='bold', y=1.02)
        plt.tight_layout()
        plt.savefig('partial_dependence_plots.png', dpi=300, bbox_inches='tight')
        plt.show()
        
        print(f"‚úÖ Partial Dependence Plots salvo em 'partial_dependence_plots.png'")
        print(f"   Classe analisada: {classe_original} (mais frequente no dataset)")
    else:
        print("‚ö†Ô∏è Partial Dependence Plots n√£o dispon√≠vel para Logistic Regression")
        print("   (PDP √© mais √∫til para modelos tree-based)")
        
except ImportError:
    print("‚ö†Ô∏è sklearn.inspection.PartialDependenceDisplay n√£o dispon√≠vel nesta vers√£o")
    print("   Pulando Partial Dependence Plots")
except Exception as e:
    print(f"‚ö†Ô∏è Erro ao gerar Partial Dependence Plots: {e}")
    print("   Continuando com a an√°lise...")


In [None]:
# An√°lise das vari√°veis mais relevantes
print("\n" + "="*80)
print("AN√ÅLISE DAS VARI√ÅVEIS MAIS RELEVANTES")
print("="*80)

analise_features = """
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
AN√ÅLISE DAS VARI√ÅVEIS MAIS RELEVANTES
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

Com base na an√°lise de Feature Importance dos modelos tree-based:

"""

# Combinar import√¢ncias de RF e XGBoost se dispon√≠veis
if 'Random Forest' in resultados and 'XGBoost' in resultados:
    combined_importance = pd.DataFrame({
        'Feature': feature_cols,
        'RF_Importance': rf_importance,
        'XGB_Importance': xgb_importance
    })
    combined_importance['Average_Importance'] = (
        combined_importance['RF_Importance'] + combined_importance['XGB_Importance']
    ) / 2
    combined_importance = combined_importance.sort_values('Average_Importance', ascending=False)
    
    analise_features += "TOP 5 VARI√ÅVEIS MAIS IMPORTANTES (m√©dia entre RF e XGBoost):\n\n"
    for idx, row in combined_importance.head(5).iterrows():
        analise_features += f"{idx+1}. {row['Feature']}\n"
        analise_features += f"   - Import√¢ncia m√©dia: {row['Average_Importance']:.4f}\n"
        analise_features += f"   - RF: {row['RF_Importance']:.4f}, XGB: {row['XGB_Importance']:.4f}\n\n"
    
    analise_features += "\nINTERPRETA√á√ÉO NO CONTEXTO DO DOM√çNIO:\n\n"
    top_feature = combined_importance.iloc[0]['Feature']
    
    # Interpreta√ß√£o espec√≠fica por vari√°vel
    if 'HDI' in top_feature or 'Human Development' in top_feature:
        analise_features += f"- IDH (√çndice de Desenvolvimento Humano) √© a vari√°vel mais importante\n"
        analise_features += "  ‚Üí Isso faz sentido: IDH √© um indicador composto que captura m√∫ltiplas dimens√µes\n"
        analise_features += "  ‚Üí Pa√≠ses com alto IDH t√™m melhor sa√∫de, educa√ß√£o e renda, caracter√≠sticas\n"
        analise_features += "    que os diferenciam claramente de pa√≠ses menos desenvolvidos\n"
    elif 'GDP' in top_feature or 'PIB' in top_feature:
        analise_features += f"- PIB per capita √© a vari√°vel mais importante\n"
        analise_features += "  ‚Üí Riqueza econ√¥mica √© um fator fundamental na classifica√ß√£o de pa√≠ses\n"
        analise_features += "  ‚Üí Pa√≠ses desenvolvidos t√™m PIB per capita significativamente maior\n"
    elif 'Cantril' in top_feature:
        analise_features += f"- Escada de Cantril (Felicidade) √© a vari√°vel mais importante\n"
        analise_features += "  ‚Üí Bem-estar subjetivo captura aspectos que v√£o al√©m da riqueza material\n"
        analise_features += "  ‚Üí Felicidade reflete qualidade de vida e satisfa√ß√£o com condi√ß√µes sociais\n"
    elif 'homicide' in top_feature.lower():
        analise_features += f"- Taxa de Homic√≠dios √© a vari√°vel mais importante\n"
        analise_features += "  ‚Üí Seguran√ßa p√∫blica √© um indicador cr√≠tico de desenvolvimento\n"
        analise_features += "  ‚Üí Viol√™ncia est√° inversamente relacionada ao desenvolvimento\n"
    else:
        analise_features += f"- A vari√°vel '{top_feature}' √© a mais importante para classifica√ß√£o\n"
    
    analise_features += "\n- As vari√°veis Cantril (Felicidade), GDP (PIB) e HDI s√£o fundamentais\n"
    analise_features += "  para classificar pa√≠ses em diferentes n√≠veis de desenvolvimento\n"
    analise_features += "- A combina√ß√£o desses indicadores permite uma vis√£o multidimensional\n"
    analise_features += "  do desenvolvimento, indo al√©m de apenas riqueza econ√¥mica\n"

analise_features += """
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
"""

print(analise_features)


In [None]:
# Como melhorar o modelo
print("\n" + "="*80)
print("SUGEST√ïES DE MELHORIA DO MODELO")
print("="*80)

melhorias = f"""
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
SUGEST√ïES PARA MELHORAR O MODELO EM UMA PR√ìXIMA ENTREGA
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

1. FINE-TUNING DE HIPERPAR√ÇMETROS:
   - Realizar GridSearchCV ou RandomizedSearchCV para otimizar hiperpar√¢metros
   - Para Random Forest: ajustar n_estimators, max_depth, min_samples_split
   - Para XGBoost: ajustar learning_rate, max_depth, n_estimators, subsample
   - Para Logistic Regression: ajustar C (regulariza√ß√£o) e solver

2. FEATURE ENGINEERING:
   - Criar features de intera√ß√£o (ex: GDP/HDI, Cantril*HDI)
   - Considerar transforma√ß√µes logar√≠tmicas para vari√°veis com distribui√ß√£o assim√©trica
   - Avaliar cria√ß√£o de features categ√≥ricas bin√°rias a partir de thresholds

3. ENSEMBLE METHODS:
   - Combinar predi√ß√µes de m√∫ltiplos modelos (voting classifier)
   - Usar stacking com meta-learner
   - Avaliar weighted voting baseado na performance individual

4. VALIDA√á√ÉO MAIS RIGOROSA:
   - Usar nested cross-validation para avalia√ß√£o mais robusta
   - Implementar time-based split se houver componente temporal
   - Avaliar performance por classe individualmente

5. TRATAMENTO DE OUTLIERS:
   - Avaliar impacto de outliers nas predi√ß√µes
   - Considerar t√©cnicas de robustez (ex: Isolation Forest)
   - Testar remo√ß√£o ou transforma√ß√£o de outliers extremos

6. COLETA DE MAIS DADOS:
   - Aumentar o tamanho do dataset se poss√≠vel
   - Incluir vari√°veis adicionais relevantes (ex: indicadores sociais, econ√¥micos)
   - Considerar dados de s√©ries temporais se dispon√≠veis

7. AN√ÅLISE DE ERROS:
   - Analisar casos mal classificados
   - Identificar padr√µes nos erros
   - Ajustar modelo com base em insights dos erros

‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
"""

print(melhorias)


## üìò 6. Documenta√ß√£o Completa - Relat√≥rio Final


In [None]:
# Defini√ß√µes e Contexto das Vari√°veis Principais
print("=" * 80)
print("DEFINI√á√ïES E CONTEXTO DAS VARI√ÅVEIS PRINCIPAIS")
print("=" * 80)

definicoes = """
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
DEFINI√á√ïES E CONTEXTO DAS VARI√ÅVEIS PRINCIPAIS
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

1. ESCADA DE CANTRIL (Cantril Ladder Score) - MEDIDA DE FELICIDADE:
   
   Defini√ß√£o: A Escada de Cantril √© uma medida de bem-estar subjetivo desenvolvida
   por Hadley Cantril. Os entrevistados avaliam sua vida atual em uma escala de 0 a 10,
   onde 0 = "a pior vida poss√≠vel" e 10 = "a melhor vida poss√≠vel".
   
   Contexto: Esta vari√°vel captura a percep√ß√£o subjetiva de felicidade e satisfa√ß√£o
   com a vida, que est√° relacionada mas n√£o √© id√™ntica ao desenvolvimento econ√¥mico.
   Pa√≠ses com alto PIB podem ter baixa felicidade se houver desigualdade ou outros
   problemas sociais.
   
   No dataset:
   - Valores observados: {:.2f} a {:.2f} (escala 0-10)
   - M√©dia: {:.2f}
   - Interpreta√ß√£o: Valores mais altos indicam maior bem-estar subjetivo

2. PIB PER CAPITA (GDP per capita PPP) - RIQUEZA ECON√îMICA:
   
   Defini√ß√£o: Produto Interno Bruto per capita ajustado por Paridade de Poder de 
   Compra (PPP), expresso em d√≥lares internacionais constantes de 2021.
   Representa a riqueza econ√¥mica m√©dia por pessoa, ajustada pelo custo de vida.
   
   Contexto: O PIB per capita √© um indicador fundamental de desenvolvimento econ√¥mico.
   Pa√≠ses com maior PIB per capita geralmente t√™m melhor infraestrutura, sa√∫de e educa√ß√£o.
   Ajuste por PPP permite compara√ß√µes mais justas entre pa√≠ses com custos de vida diferentes.
   
   No dataset:
   - Valores observados: ${:,.0f} a ${:,.0f}
   - M√©dia: ${:,.0f}
   - Interpreta√ß√£o: Valores mais altos indicam maior riqueza econ√¥mica

3. IDH (HDI - Human Development Index) - DESENVOLVIMENTO HUMANO:
   
   Defini√ß√£o: √çndice composto criado pelo PNUD que mede o desenvolvimento humano atrav√©s
   de tr√™s dimens√µes:
   - Sa√∫de: Expectativa de vida ao nascer
   - Educa√ß√£o: Anos m√©dios de escolaridade e anos esperados de escolaridade
   - Padr√£o de vida: Renda Nacional Bruta per capita (PPP)
   
   Contexto: O IDH vai al√©m do PIB, incorporando aspectos de qualidade de vida.
   Um pa√≠s pode ter alto PIB mas baixo IDH se houver desigualdade ou baixa qualidade
   de servi√ßos p√∫blicos. √â considerado um indicador mais completo de desenvolvimento.
   
   No dataset:
   - Valores observados: {:.0f} a {:.0f} (escala 0-1000)
   - M√©dia: {:.0f}
   - Interpreta√ß√£o: Valores mais altos indicam maior desenvolvimento humano

4. TAXA DE HOMIC√çDIOS - SEGURAN√áA E VIOL√äNCIA:
   
   Defini√ß√£o: Taxa de homic√≠dios intencionais por 100.000 habitantes (dados de 2021).
   Mede a seguran√ßa p√∫blica e o n√≠vel de viol√™ncia em um pa√≠s.
   
   Contexto: A viol√™ncia est√° frequentemente correlacionada com desigualdade econ√¥mica,
   falta de oportunidades e problemas sociais. Pa√≠ses com alto desenvolvimento humano
   geralmente t√™m menores taxas de homic√≠dios, mas h√° exce√ß√µes (ex: alguns pa√≠ses
   desenvolvidos com alta viol√™ncia ou pa√≠ses em desenvolvimento com baixa viol√™ncia).
   
   No dataset:
   - Valores observados: {:.2f} a {:.2f} por 100.000 habitantes
   - M√©dia: {:.2f}
   - Interpreta√ß√£o: Valores mais altos indicam maior viol√™ncia/inseguran√ßa

5. RELA√á√ïES ESPERADAS ENTRE VARI√ÅVEIS:
   
   - PIB e IDH: Forte correla√ß√£o positiva esperada (pa√≠ses ricos tendem a ter melhor IDH)
   - Cantril e IDH: Correla√ß√£o positiva esperada (melhor desenvolvimento ‚Üí maior felicidade)
   - Cantril e PIB: Correla√ß√£o positiva, mas pode ser moderada (dinheiro n√£o compra felicidade)
   - Homic√≠dios e IDH: Correla√ß√£o negativa esperada (maior desenvolvimento ‚Üí menos viol√™ncia)
   - Homic√≠dios e PIB: Correla√ß√£o negativa esperada, mas pode variar por regi√£o

‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
""".format(
    df['Cantril ladder score'].min(),
    df['Cantril ladder score'].max(),
    df['Cantril ladder score'].mean(),
    df['GDP per capita. PPP (constant 2021 international $)'].min(),
    df['GDP per capita. PPP (constant 2021 international $)'].max(),
    df['GDP per capita. PPP (constant 2021 international $)'].mean(),
    df['HDI (Human Development Indicator) Value (0~1000)'].min(),
    df['HDI (Human Development Indicator) Value (0~1000)'].max(),
    df['HDI (Human Development Indicator) Value (0~1000)'].mean(),
    df['Intentional homicides (per 100000 people) as of 2021'].min(),
    df['Intentional homicides (per 100000 people) as of 2021'].max(),
    df['Intentional homicides (per 100000 people) as of 2021'].mean()
)

print(definicoes)


In [None]:
# RELAT√ìRIO FINAL COMPLETO
print("=" * 80)
print("RELAT√ìRIO FINAL COMPLETO")
print("=" * 80)

# Verificar se as vari√°veis necess√°rias est√£o definidas
try:
    balance_status = 'SMOTE aplicado' if balance_ratio < 0.5 else 'Balanceado'
except NameError:
    balance_status = 'Avaliado durante prepara√ß√£o dos dados'

try:
    melhor_nome = melhor_modelo_nome
    melhor_acc = comparacao.iloc[0]['Accuracy']
    melhor_f1 = comparacao.iloc[0]['F1-Score']
    melhor_prec = comparacao.iloc[0]['Precision']
    melhor_rec = comparacao.iloc[0]['Recall']
except NameError:
    melhor_nome = 'A ser determinado ap√≥s execu√ß√£o dos modelos'
    melhor_acc = 0.0
    melhor_f1 = 0.0
    melhor_prec = 0.0
    melhor_rec = 0.0

relatorio_final = f"""
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
RELAT√ìRIO FINAL - AN√ÅLISE DE CLASSIFICA√á√ÉO
Cantrill + GDP + HDI vs Country Class
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

1. RESUMO EXECUTIVO:
   Este relat√≥rio apresenta uma an√°lise completa de classifica√ß√£o utilizando
   dados de indicadores socioecon√¥micos (Cantrill, GDP, HDI) para classificar
   pa√≠ses em 4 categorias.

2. DATASET:
   - Total de pa√≠ses analisados: {len(df)}
   - Vari√°veis preditoras principais: Cantril Ladder Score, GDP per capita, HDI
   - Vari√°vel-alvo: Country Class (4 classes)
   - Distribui√ß√£o de classes: {df['Country Class'].value_counts().sort_index().to_dict()}

3. METODOLOGIA APLICADA:
   
   a) Auditoria Inicial:
      - Verifica√ß√£o de valores ausentes: ‚úÖ Realizada
      - Verifica√ß√£o de duplicatas: ‚úÖ Realizada
      - Identifica√ß√£o de colunas redundantes: ‚úÖ Removidas
      - An√°lise de outliers: ‚úÖ Realizada (m√©todo IQR)
      - Relat√≥rio inicial gerado com todas as descobertas
   
   b) An√°lise Explorat√≥ria (EDA):
      - Estat√≠sticas descritivas completas (mean, std, min, max, quartis, mediana, moda, assimetria, curtose)
      - An√°lise de distribui√ß√µes (histogramas e boxplots de todas vari√°veis num√©ricas)
      - Matriz de correla√ß√£o entre vari√°veis (heatmap)
      - Identifica√ß√£o e justificativa detalhada da vari√°vel-alvo
      - An√°lise de balanceamento das classes
   
   c) Prepara√ß√£o dos Dados:
      - Remo√ß√£o de colunas redundantes (one-hot encoding, vers√µes escaladas)
      - Tratamento de valores ausentes (estrat√©gia justificada: mediana para num√©ricas, moda para categ√≥ricas)
      - Encoding de vari√°veis categ√≥ricas (Label Encoding)
      - Separa√ß√£o treino/teste (80/20) com estratifica√ß√£o (justificada estatisticamente)
      - Avalia√ß√£o de balanceamento: {balance_status}
      - Padroniza√ß√£o (StandardScaler) com justificativa t√©cnica
   
   d) Modelagem:
      - 3 modelos testados: Logistic Regression, Random Forest, XGBoost
      - Valida√ß√£o cruzada 5-fold estratificada (k=5)
      - M√©tricas avaliadas: Accuracy, Precision, Recall, F1-Score, Matriz de Confus√£o, ROC Curve + AUC
      - Compara√ß√£o detalhada entre modelos
      - Sele√ß√£o do melhor modelo com justificativa

4. RESULTADOS:

   Melhor Modelo: {melhor_nome}
   - Accuracy: {melhor_acc:.4f}
   - F1-Score: {melhor_f1:.4f}
   - Precision: {melhor_prec:.4f}
   - Recall: {melhor_rec:.4f}

5. INTERPRETA√á√ÉO DO MODELO:
   - Feature importance analisada (Random Forest e XGBoost)
   - Partial Dependence Plots gerados para top features
   - An√°lise das vari√°veis mais relevantes realizada
   - As vari√°veis Cantrill, GDP e HDI s√£o fundamentais para a classifica√ß√£o
   - O modelo {melhor_nome} apresentou melhor capacidade de generaliza√ß√£o
   - As curvas ROC indicam boa capacidade discriminativa

6. CONCLUS√ÉO:
   A an√°lise foi conduzida com sucesso, identificando padr√µes claros entre
   indicadores socioecon√¥micos e classifica√ß√£o de pa√≠ses. O modelo escolhido
   ({melhor_nome}) demonstra performance adequada e pode ser utilizado
   para classifica√ß√£o de novos pa√≠ses com base nos indicadores analisados.
   
   Todas as etapas foram executadas com rigor t√©cnico, documenta√ß√£o completa
   e justificativas para cada decis√£o tomada, seguindo metodologia cient√≠fica
   apropriada para an√°lise de dados de classifica√ß√£o.

‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
"""

print(relatorio_final)


## üé® 7. An√°lises Explorat√≥rias Avan√ßadas

Esta se√ß√£o demonstra o poder da ci√™ncia de dados para extrair informa√ß√µes valiosas dos dados, incluindo:
- Compara√ß√£o entre continentes
- Rankings e classifica√ß√µes
- Top 10 em diversas categorias
- Visualiza√ß√µes criativas e informativas


In [None]:
# An√°lise Comparativa entre Continentes
print("=" * 80)
print("AN√ÅLISE COMPARATIVA ENTRE CONTINENTES")
print("=" * 80)

# Criar dataframe com dados originais para an√°lise explorat√≥ria
df_exploratorio = df.copy()

# Agrupar por continente
continentes_stats = df_exploratorio.groupby('World regions according to OWID').agg({
    'Cantril ladder score': ['mean', 'std', 'min', 'max'],
    'GDP per capita. PPP (constant 2021 international $)': ['mean', 'std', 'min', 'max'],
    'HDI (Human Development Indicator) Value (0~1000)': ['mean', 'std', 'min', 'max'],
    'Intentional homicides (per 100000 people) as of 2021': ['mean', 'std', 'min', 'max'],
    'Country Name': 'count'  # Contar pa√≠ses por continente
}).round(2)

continentes_stats.columns = ['_'.join(col).strip() if col[1] else col[0] for col in continentes_stats.columns.values]
continentes_stats = continentes_stats.rename(columns={'Country Name_count': 'Num_Paises'})

print("\nüìä ESTAT√çSTICAS POR CONTINENTE:")
print("=" * 80)
print(continentes_stats)

# Criar ranking de continentes
print("\n" + "=" * 80)
print("üèÜ RANKING DE CONTINENTES")
print("=" * 80)

# Criar √≠ndice composto de desenvolvimento (m√©dia normalizada)
ranking_continentes = pd.DataFrame({
    'Continente': continentes_stats.index,
    'Felicidade_M√©dia': continentes_stats['Cantril ladder score_mean'],
    'PIB_M√©dio': continentes_stats['GDP per capita. PPP (constant 2021 international $)_mean'],
    'IDH_M√©dio': continentes_stats['HDI (Human Development Indicator) Value (0~1000)_mean'],
    'Homic√≠dios_M√©dio': continentes_stats['Intentional homicides (per 100000 people) as of 2021_mean'],
    'Num_Paises': continentes_stats['Num_Paises']
})

# Normalizar e criar score composto (quanto maior, melhor)
# Para homic√≠dios, inverter (menor √© melhor)
ranking_continentes['Homic√≠dios_Invertido'] = 100 - ranking_continentes['Homic√≠dios_M√©dio']  # Normalizar aproximadamente

# Normalizar cada m√©trica para 0-1
for col in ['Felicidade_M√©dia', 'PIB_M√©dio', 'IDH_M√©dio', 'Homic√≠dios_Invertido']:
    min_val = ranking_continentes[col].min()
    max_val = ranking_continentes[col].max()
    ranking_continentes[f'{col}_norm'] = (ranking_continentes[col] - min_val) / (max_val - min_val)

# Score composto (m√©dia ponderada)
ranking_continentes['Score_Desenvolvimento'] = (
    ranking_continentes['Felicidade_M√©dia_norm'] * 0.25 +
    ranking_continentes['PIB_M√©dio_norm'] * 0.25 +
    ranking_continentes['IDH_M√©dio_norm'] * 0.30 +
    ranking_continentes['Homic√≠dios_Invertido_norm'] * 0.20
)

ranking_continentes = ranking_continentes.sort_values('Score_Desenvolvimento', ascending=False)

print("\nRanking de Continentes por Desenvolvimento (Score Composto):")
print("-" * 80)
for idx, row in ranking_continentes.iterrows():
    print(f"{ranking_continentes.index.get_loc(idx) + 1}. {row['Continente']}")
    print(f"   Score: {row['Score_Desenvolvimento']:.3f}")
    print(f"   Felicidade: {row['Felicidade_M√©dia']:.2f} | PIB: ${row['PIB_M√©dio']:,.0f} | IDH: {row['IDH_M√©dio']:.0f} | Homic√≠dios: {row['Homic√≠dios_M√©dio']:.2f}/100k")
    print(f"   Pa√≠ses analisados: {int(row['Num_Paises'])}")
    print()


In [None]:
# Visualiza√ß√£o: Compara√ß√£o de Continentes
fig, axes = plt.subplots(2, 2, figsize=(18, 14))

# 1. Felicidade por Continente
continentes_ordenados = ranking_continentes.sort_values('Felicidade_M√©dia', ascending=True)
axes[0, 0].barh(continentes_ordenados['Continente'], continentes_ordenados['Felicidade_M√©dia'], 
                color='gold', edgecolor='black', alpha=0.8)
axes[0, 0].set_title('Felicidade M√©dia por Continente\n(Escada de Cantril)', fontsize=12, fontweight='bold')
axes[0, 0].set_xlabel('Felicidade (0-10)')
axes[0, 0].grid(True, alpha=0.3, axis='x')

# 2. PIB per capita por Continente
continentes_pib = ranking_continentes.sort_values('PIB_M√©dio', ascending=True)
axes[0, 1].barh(continentes_pib['Continente'], continentes_pib['PIB_M√©dio'], 
                color='green', edgecolor='black', alpha=0.8)
axes[0, 1].set_title('PIB per Capita M√©dio por Continente\n(PPP, USD 2021)', fontsize=12, fontweight='bold')
axes[0, 1].set_xlabel('PIB per Capita (USD)')
axes[0, 1].grid(True, alpha=0.3, axis='x')

# 3. IDH por Continente
continentes_idh = ranking_continentes.sort_values('IDH_M√©dio', ascending=True)
axes[1, 0].barh(continentes_idh['Continente'], continentes_idh['IDH_M√©dio'], 
                color='steelblue', edgecolor='black', alpha=0.8)
axes[1, 0].set_title('IDH M√©dio por Continente\n(0-1000)', fontsize=12, fontweight='bold')
axes[1, 0].set_xlabel('IDH')
axes[1, 0].grid(True, alpha=0.3, axis='x')

# 4. Taxa de Homic√≠dios por Continente
continentes_homic = ranking_continentes.sort_values('Homic√≠dios_M√©dio', ascending=True)
axes[1, 1].barh(continentes_homic['Continente'], continentes_homic['Homic√≠dios_M√©dio'], 
                color='crimson', edgecolor='black', alpha=0.8)
axes[1, 1].set_title('Taxa de Homic√≠dios M√©dia por Continente\n(por 100.000 habitantes)', fontsize=12, fontweight='bold')
axes[1, 1].set_xlabel('Homic√≠dios por 100k')
axes[1, 1].grid(True, alpha=0.3, axis='x')

plt.suptitle('Compara√ß√£o de Indicadores Socioecon√¥micos por Continente', 
             fontsize=16, fontweight='bold', y=0.995)
plt.tight_layout()
plt.savefig('comparacao_continentes.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úÖ Gr√°fico de compara√ß√£o de continentes salvo em 'comparacao_continentes.png'")


In [None]:
# TOP 10 Rankings - Extraindo Informa√ß√µes Valiosas
print("=" * 80)
print("üèÜ TOP 10 RANKINGS - EXTRAINDO INFORMA√á√ïES VALIOSAS")
print("=" * 80)

# Preparar dados para rankings
df_rankings = df_exploratorio[['Country Name', 'World regions according to OWID',
                               'Cantril ladder score', 
                               'GDP per capita. PPP (constant 2021 international $)',
                               'HDI (Human Development Indicator) Value (0~1000)',
                               'Intentional homicides (per 100000 people) as of 2021',
                               'Country Class']].copy()

print("\n" + "="*80)
print("1Ô∏è‚É£ TOP 10 PA√çSES MAIS RICOS (PIB per capita)")
print("="*80)
top10_ricos = df_rankings.nlargest(10, 'GDP per capita. PPP (constant 2021 international $)')
for idx, (i, row) in enumerate(top10_ricos.iterrows(), 1):
    print(f"{idx:2d}. {row['Country Name']:30s} | ${row['GDP per capita. PPP (constant 2021 international $)']:>10,.0f} | {row['World regions according to OWID']}")

print("\n" + "="*80)
print("2Ô∏è‚É£ TOP 10 PA√çSES MAIS POBRES (PIB per capita)")
print("="*80)
top10_pobres = df_rankings.nsmallest(10, 'GDP per capita. PPP (constant 2021 international $)')
for idx, (i, row) in enumerate(top10_pobres.iterrows(), 1):
    print(f"{idx:2d}. {row['Country Name']:30s} | ${row['GDP per capita. PPP (constant 2021 international $)']:>10,.0f} | {row['World regions according to OWID']}")

print("\n" + "="*80)
print("3Ô∏è‚É£ TOP 10 PA√çSES MAIS FELIZES (Escada de Cantril)")
print("="*80)
top10_felizes = df_rankings.nlargest(10, 'Cantril ladder score')
for idx, (i, row) in enumerate(top10_felizes.iterrows(), 1):
    print(f"{idx:2d}. {row['Country Name']:30s} | Felicidade: {row['Cantril ladder score']:>5.2f} | {row['World regions according to OWID']}")

print("\n" + "="*80)
print("4Ô∏è‚É£ TOP 10 PA√çSES MENOS FELIZES (Escada de Cantril)")
print("="*80)
top10_infelizes = df_rankings.nsmallest(10, 'Cantril ladder score')
for idx, (i, row) in enumerate(top10_infelizes.iterrows(), 1):
    print(f"{idx:2d}. {row['Country Name']:30s} | Felicidade: {row['Cantril ladder score']:>5.2f} | {row['World regions according to OWID']}")

print("\n" + "="*80)
print("5Ô∏è‚É£ TOP 10 PA√çSES COM MAIOR IDH (Desenvolvimento Humano)")
print("="*80)
top10_idh = df_rankings.nlargest(10, 'HDI (Human Development Indicator) Value (0~1000)')
for idx, (i, row) in enumerate(top10_idh.iterrows(), 1):
    print(f"{idx:2d}. {row['Country Name']:30s} | IDH: {row['HDI (Human Development Indicator) Value (0~1000)']:>6.0f} | {row['World regions according to OWID']}")

print("\n" + "="*80)
print("6Ô∏è‚É£ TOP 10 PA√çSES COM MENOR IDH (Desenvolvimento Humano)")
print("="*80)
top10_idh_baixo = df_rankings.nsmallest(10, 'HDI (Human Development Indicator) Value (0~1000)')
for idx, (i, row) in enumerate(top10_idh_baixo.iterrows(), 1):
    print(f"{idx:2d}. {row['Country Name']:30s} | IDH: {row['HDI (Human Development Indicator) Value (0~1000)']:>6.0f} | {row['World regions according to OWID']}")

print("\n" + "="*80)
print("7Ô∏è‚É£ TOP 10 PA√çSES MAIS VIOLENTOS (Taxa de Homic√≠dios)")
print("="*80)
top10_violentos = df_rankings.nlargest(10, 'Intentional homicides (per 100000 people) as of 2021')
for idx, (i, row) in enumerate(top10_violentos.iterrows(), 1):
    print(f"{idx:2d}. {row['Country Name']:30s} | {row['Intentional homicides (per 100000 people) as of 2021']:>6.2f}/100k | {row['World regions according to OWID']}")

print("\n" + "="*80)
print("8Ô∏è‚É£ TOP 10 PA√çSES MAIS SEGUROS (Menor Taxa de Homic√≠dios)")
print("="*80)
top10_seguros = df_rankings.nsmallest(10, 'Intentional homicides (per 100000 people) as of 2021')
for idx, (i, row) in enumerate(top10_seguros.iterrows(), 1):
    print(f"{idx:2d}. {row['Country Name']:30s} | {row['Intentional homicides (per 100000 people) as of 2021']:>6.2f}/100k | {row['World regions according to OWID']}")


In [None]:
# An√°lises Criativas e Insights Avan√ßados
print("\n" + "="*80)
print("üí° INSIGHTS AVAN√áADOS E AN√ÅLISES CRIATIVAS")
print("="*80)

# 1. Pa√≠ses com maior discrep√¢ncia entre PIB e Felicidade
print("\n1Ô∏è‚É£ PA√çSES COM MAIOR DISCREP√ÇNCIA ENTRE RIQUEZA E FELICIDADE")
print("-" * 80)
df_rankings['PIB_Norm'] = (df_rankings['GDP per capita. PPP (constant 2021 international $)'] - 
                           df_rankings['GDP per capita. PPP (constant 2021 international $)'].min()) / \
                          (df_rankings['GDP per capita. PPP (constant 2021 international $)'].max() - 
                           df_rankings['GDP per capita. PPP (constant 2021 international $)'].min())
df_rankings['Felicidade_Norm'] = (df_rankings['Cantril ladder score'] - 
                                  df_rankings['Cantril ladder score'].min()) / \
                                 (df_rankings['Cantril ladder score'].max() - 
                                  df_rankings['Cantril ladder score'].min())
df_rankings['Discrepancia_Riqueza_Felicidade'] = df_rankings['PIB_Norm'] - df_rankings['Felicidade_Norm']

# Pa√≠ses ricos mas menos felizes (dinheiro n√£o compra felicidade)
print("\nüí∞ Ricos mas Menos Felizes (PIB alto, Felicidade baixa):")
ricos_infelizes = df_rankings.nlargest(5, 'Discrepancia_Riqueza_Felicidade')
for idx, (i, row) in enumerate(ricos_infelizes.iterrows(), 1):
    print(f"   {idx}. {row['Country Name']:30s} | PIB: ${row['GDP per capita. PPP (constant 2021 international $)']:>10,.0f} | Felicidade: {row['Cantril ladder score']:.2f}")

# Pa√≠ses pobres mas mais felizes (felicidade al√©m da riqueza)
print("\nüòä Pobres mas Mais Felizes (PIB baixo, Felicidade alta):")
pobres_felizes = df_rankings.nsmallest(5, 'Discrepancia_Riqueza_Felicidade')
for idx, (i, row) in enumerate(pobres_felizes.iterrows(), 1):
    print(f"   {idx}. {row['Country Name']:30s} | PIB: ${row['GDP per capita. PPP (constant 2021 international $)']:>10,.0f} | Felicidade: {row['Cantril ladder score']:.2f}")

# 2. Pa√≠ses com melhor equil√≠brio (alto em tudo)
print("\n2Ô∏è‚É£ PA√çSES COM MELHOR EQUIL√çBRIO (Alto PIB, Alta Felicidade, Alto IDH, Baixa Viol√™ncia)")
print("-" * 80)
df_rankings['Homicidios_Invertido'] = 100 - df_rankings['Intentional homicides (per 100000 people) as of 2021']
df_rankings['IDH_Norm'] = (df_rankings['HDI (Human Development Indicator) Value (0~1000)'] - 
                           df_rankings['HDI (Human Development Indicator) Value (0~1000)'].min()) / \
                          (df_rankings['HDI (Human Development Indicator) Value (0~1000)'].max() - 
                           df_rankings['HDI (Human Development Indicator) Value (0~1000)'].min())
df_rankings['Homicidios_Norm'] = (df_rankings['Homicidios_Invertido'] - 
                                   df_rankings['Homicidios_Invertido'].min()) / \
                                  (df_rankings['Homicidios_Invertido'].max() - 
                                   df_rankings['Homicidios_Invertido'].min())

df_rankings['Score_Equilibrio'] = (
    df_rankings['PIB_Norm'] * 0.25 +
    df_rankings['Felicidade_Norm'] * 0.25 +
    df_rankings['IDH_Norm'] * 0.30 +
    df_rankings['Homicidios_Norm'] * 0.20
)

top_equilibrio = df_rankings.nlargest(10, 'Score_Equilibrio')
print("\nüèÜ Top 10 Pa√≠ses com Melhor Equil√≠brio:")
for idx, (i, row) in enumerate(top_equilibrio.iterrows(), 1):
    print(f"   {idx:2d}. {row['Country Name']:30s} | Score: {row['Score_Equilibrio']:.3f} | "
          f"PIB: ${row['GDP per capita. PPP (constant 2021 international $)']:>8,.0f} | "
          f"Felicidade: {row['Cantril ladder score']:.2f} | IDH: {row['HDI (Human Development Indicator) Value (0~1000)']:.0f}")

# 3. An√°lise por classe de desenvolvimento
print("\n3Ô∏è‚É£ AN√ÅLISE POR CLASSE DE DESENVOLVIMENTO")
print("-" * 80)
classe_stats = df_rankings.groupby('Country Class').agg({
    'Cantril ladder score': 'mean',
    'GDP per capita. PPP (constant 2021 international $)': 'mean',
    'HDI (Human Development Indicator) Value (0~1000)': 'mean',
    'Intentional homicides (per 100000 people) as of 2021': 'mean',
    'Country Name': 'count'
}).round(2)

classe_stats.columns = ['Felicidade_M√©dia', 'PIB_M√©dio', 'IDH_M√©dio', 'Homicidios_M√©dio', 'Num_Paises']
print("\nEstat√≠sticas por Classe de Desenvolvimento:")
print(classe_stats)


In [None]:
# Visualiza√ß√µes Criativas
print("\n" + "="*80)
print("üìä VISUALIZA√á√ïES CRIATIVAS")
print("="*80)

# 1. Scatter Plot: PIB vs Felicidade (com cores por continente)
fig, axes = plt.subplots(2, 2, figsize=(18, 14))

# PIB vs Felicidade
continentes = df_rankings['World regions according to OWID'].unique()
cores = plt.cm.Set3(np.linspace(0, 1, len(continentes)))
for continente, cor in zip(continentes, cores):
    dados = df_rankings[df_rankings['World regions according to OWID'] == continente]
    axes[0, 0].scatter(dados['GDP per capita. PPP (constant 2021 international $)'],
                      dados['Cantril ladder score'],
                      label=continente, alpha=0.6, s=100, color=cor, edgecolors='black', linewidth=0.5)
axes[0, 0].set_xlabel('PIB per Capita (PPP, USD)', fontsize=11)
axes[0, 0].set_ylabel('Felicidade (Escada de Cantril)', fontsize=11)
axes[0, 0].set_title('PIB vs Felicidade por Continente', fontweight='bold', fontsize=12)
axes[0, 0].legend(bbox_to_anchor=(1.05, 1), loc='upper left', fontsize=9)
axes[0, 0].grid(True, alpha=0.3)

# IDH vs Felicidade
for continente, cor in zip(continentes, cores):
    dados = df_rankings[df_rankings['World regions according to OWID'] == continente]
    axes[0, 1].scatter(dados['HDI (Human Development Indicator) Value (0~1000)'],
                      dados['Cantril ladder score'],
                      label=continente, alpha=0.6, s=100, color=cor, edgecolors='black', linewidth=0.5)
axes[0, 1].set_xlabel('IDH (0-1000)', fontsize=11)
axes[0, 1].set_ylabel('Felicidade (Escada de Cantril)', fontsize=11)
axes[0, 1].set_title('IDH vs Felicidade por Continente', fontweight='bold', fontsize=12)
axes[0, 1].legend(bbox_to_anchor=(1.05, 1), loc='upper left', fontsize=9)
axes[0, 1].grid(True, alpha=0.3)

# IDH vs Homic√≠dios (invertido - menor √© melhor)
for continente, cor in zip(continentes, cores):
    dados = df_rankings[df_rankings['World regions according to OWID'] == continente]
    axes[1, 0].scatter(dados['HDI (Human Development Indicator) Value (0~1000)'],
                      dados['Intentional homicides (per 100000 people) as of 2021'],
                      label=continente, alpha=0.6, s=100, color=cor, edgecolors='black', linewidth=0.5)
axes[1, 0].set_xlabel('IDH (0-1000)', fontsize=11)
axes[1, 0].set_ylabel('Taxa de Homic√≠dios (por 100k)', fontsize=11)
axes[1, 0].set_title('IDH vs Viol√™ncia por Continente', fontweight='bold', fontsize=12)
axes[1, 0].legend(bbox_to_anchor=(1.05, 1), loc='upper left', fontsize=9)
axes[1, 0].grid(True, alpha=0.3)

# PIB vs Homic√≠dios
for continente, cor in zip(continentes, cores):
    dados = df_rankings[df_rankings['World regions according to OWID'] == continente]
    axes[1, 1].scatter(dados['GDP per capita. PPP (constant 2021 international $)'],
                      dados['Intentional homicides (per 100000 people) as of 2021'],
                      label=continente, alpha=0.6, s=100, color=cor, edgecolors='black', linewidth=0.5)
axes[1, 1].set_xlabel('PIB per Capita (PPP, USD)', fontsize=11)
axes[1, 1].set_ylabel('Taxa de Homic√≠dios (por 100k)', fontsize=11)
axes[1, 1].set_title('PIB vs Viol√™ncia por Continente', fontweight='bold', fontsize=12)
axes[1, 1].legend(bbox_to_anchor=(1.05, 1), loc='upper left', fontsize=9)
axes[1, 1].grid(True, alpha=0.3)

plt.suptitle('Rela√ß√µes entre Indicadores Socioecon√¥micos por Continente', 
             fontsize=16, fontweight='bold', y=0.995)
plt.tight_layout()
plt.savefig('relacoes_indicadores_continentes.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úÖ Gr√°fico de rela√ß√µes salvo em 'relacoes_indicadores_continentes.png'")


In [None]:
# Heatmap de correla√ß√£o por continente
print("\n" + "="*80)
print("üåç AN√ÅLISE DE CORRELA√á√ïES POR CONTINENTE")
print("="*80)

fig, axes = plt.subplots(2, 3, figsize=(20, 12))
axes = axes.ravel()

continentes_ordenados = sorted(continentes)
for idx, continente in enumerate(continentes_ordenados[:6]):  # Limitar a 6 para visualiza√ß√£o
    dados_cont = df_rankings[df_rankings['World regions according to OWID'] == continente]
    if len(dados_cont) > 2:  # Precisa de pelo menos 3 pontos para correla√ß√£o
        cols_corr = ['Cantril ladder score', 
                    'GDP per capita. PPP (constant 2021 international $)',
                    'HDI (Human Development Indicator) Value (0~1000)',
                    'Intentional homicides (per 100000 people) as of 2021']
        corr_cont = dados_cont[cols_corr].corr()
        
        mask = np.triu(np.ones_like(corr_cont, dtype=bool))
        sns.heatmap(corr_cont, mask=mask, annot=True, fmt='.2f', cmap='coolwarm',
                   center=0, square=True, ax=axes[idx], cbar_kws={"shrink": 0.8},
                   vmin=-1, vmax=1, linewidths=0.5)
        axes[idx].set_title(f'{continente}\n({len(dados_cont)} pa√≠ses)', 
                           fontweight='bold', fontsize=10)
    else:
        axes[idx].text(0.5, 0.5, f'{continente}\nDados insuficientes', 
                      ha='center', va='center', fontsize=12)
        axes[idx].set_xticks([])
        axes[idx].set_yticks([])

plt.suptitle('Matriz de Correla√ß√£o por Continente', fontsize=16, fontweight='bold', y=0.995)
plt.tight_layout()
plt.savefig('correlacoes_por_continente.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úÖ Heatmaps de correla√ß√£o por continente salvos em 'correlacoes_por_continente.png'")


In [None]:
# Dashboard de Top 10 em diferentes categorias
print("\n" + "="*80)
print("üìà DASHBOARD VISUAL: TOP 10 EM DIFERENTES CATEGORIAS")
print("="*80)

fig, axes = plt.subplots(2, 2, figsize=(18, 14))

# Top 10 Mais Ricos
top10_ricos_viz = df_rankings.nlargest(10, 'GDP per capita. PPP (constant 2021 international $)')
axes[0, 0].barh(range(len(top10_ricos_viz)), 
                top10_ricos_viz['GDP per capita. PPP (constant 2021 international $)'],
                color='green', edgecolor='black', alpha=0.8)
axes[0, 0].set_yticks(range(len(top10_ricos_viz)))
axes[0, 0].set_yticklabels(top10_ricos_viz['Country Name'], fontsize=9)
axes[0, 0].set_xlabel('PIB per Capita (USD)', fontsize=11)
axes[0, 0].set_title('üí∞ Top 10 Pa√≠ses Mais Ricos', fontweight='bold', fontsize=12)
axes[0, 0].grid(True, alpha=0.3, axis='x')
axes[0, 0].invert_yaxis()

# Top 10 Mais Felizes
top10_felizes_viz = df_rankings.nlargest(10, 'Cantril ladder score')
axes[0, 1].barh(range(len(top10_felizes_viz)), 
                top10_felizes_viz['Cantril ladder score'],
                color='gold', edgecolor='black', alpha=0.8)
axes[0, 1].set_yticks(range(len(top10_felizes_viz)))
axes[0, 1].set_yticklabels(top10_felizes_viz['Country Name'], fontsize=9)
axes[0, 1].set_xlabel('Felicidade (Escada de Cantril)', fontsize=11)
axes[0, 1].set_title('üòä Top 10 Pa√≠ses Mais Felizes', fontweight='bold', fontsize=12)
axes[0, 1].grid(True, alpha=0.3, axis='x')
axes[0, 1].invert_yaxis()

# Top 10 Maior IDH
top10_idh_viz = df_rankings.nlargest(10, 'HDI (Human Development Indicator) Value (0~1000)')
axes[1, 0].barh(range(len(top10_idh_viz)), 
                top10_idh_viz['HDI (Human Development Indicator) Value (0~1000)'],
                color='steelblue', edgecolor='black', alpha=0.8)
axes[1, 0].set_yticks(range(len(top10_idh_viz)))
axes[1, 0].set_yticklabels(top10_idh_viz['Country Name'], fontsize=9)
axes[1, 0].set_xlabel('IDH (0-1000)', fontsize=11)
axes[1, 0].set_title('üåç Top 10 Pa√≠ses com Maior IDH', fontweight='bold', fontsize=12)
axes[1, 0].grid(True, alpha=0.3, axis='x')
axes[1, 0].invert_yaxis()

# Top 10 Mais Seguros (menor taxa de homic√≠dios)
top10_seguros_viz = df_rankings.nsmallest(10, 'Intentional homicides (per 100000 people) as of 2021')
axes[1, 1].barh(range(len(top10_seguros_viz)), 
                100 - top10_seguros_viz['Intentional homicides (per 100000 people) as of 2021'],
                color='lightgreen', edgecolor='black', alpha=0.8)
axes[1, 1].set_yticks(range(len(top10_seguros_viz)))
axes[1, 1].set_yticklabels(top10_seguros_viz['Country Name'], fontsize=9)
axes[1, 1].set_xlabel('√çndice de Seguran√ßa (invertido)', fontsize=11)
axes[1, 1].set_title('üõ°Ô∏è Top 10 Pa√≠ses Mais Seguros', fontweight='bold', fontsize=12)
axes[1, 1].grid(True, alpha=0.3, axis='x')
axes[1, 1].invert_yaxis()

plt.suptitle('Dashboard: Top 10 Rankings em Diferentes Categorias', 
             fontsize=16, fontweight='bold', y=0.995)
plt.tight_layout()
plt.savefig('dashboard_top10.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úÖ Dashboard de Top 10 salvo em 'dashboard_top10.png'")


In [None]:
# Resumo Executivo das An√°lises Explorat√≥rias
print("\n" + "="*80)
print("üìã RESUMO EXECUTIVO DAS AN√ÅLISES EXPLORAT√ìRIAS")
print("="*80)

resumo = f"""
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
RESUMO EXECUTIVO: INSIGHTS EXTRA√çDOS DOS DADOS
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

1. RANKING DE CONTINENTES:
   ü•á {ranking_continentes.iloc[0]['Continente']} - Melhor score de desenvolvimento
   ü•à {ranking_continentes.iloc[1]['Continente']} - Segundo melhor
   ü•â {ranking_continentes.iloc[2]['Continente']} - Terceiro melhor

2. INSIGHTS PRINCIPAIS:

   üí∞ RIQUEZA:
   - Pa√≠s mais rico: {top10_ricos.iloc[0]['Country Name']} (${top10_ricos.iloc[0]['GDP per capita. PPP (constant 2021 international $)']:,.0f})
   - Pa√≠s mais pobre: {top10_pobres.iloc[0]['Country Name']} (${top10_pobres.iloc[0]['GDP per capita. PPP (constant 2021 international $)']:,.0f})
   - Diferen√ßa: {top10_ricos.iloc[0]['GDP per capita. PPP (constant 2021 international $)'] / top10_pobres.iloc[0]['GDP per capita. PPP (constant 2021 international $)']:.1f}x

   üòä FELICIDADE:
   - Pa√≠s mais feliz: {top10_felizes.iloc[0]['Country Name']} (Felicidade: {top10_felizes.iloc[0]['Cantril ladder score']:.2f})
   - Pa√≠s menos feliz: {top10_infelizes.iloc[0]['Country Name']} (Felicidade: {top10_infelizes.iloc[0]['Cantril ladder score']:.2f})
   - Diferen√ßa: {top10_felizes.iloc[0]['Cantril ladder score'] - top10_infelizes.iloc[0]['Cantril ladder score']:.2f} pontos

   üåç DESENVOLVIMENTO HUMANO:
   - Maior IDH: {top10_idh.iloc[0]['Country Name']} (IDH: {top10_idh.iloc[0]['HDI (Human Development Indicator) Value (0~1000)']:.0f})
   - Menor IDH: {top10_idh_baixo.iloc[0]['Country Name']} (IDH: {top10_idh_baixo.iloc[0]['HDI (Human Development Indicator) Value (0~1000)']:.0f})

   üõ°Ô∏è SEGURAN√áA:
   - Pa√≠s mais seguro: {top10_seguros.iloc[0]['Country Name']} ({top10_seguros.iloc[0]['Intentional homicides (per 100000 people) as of 2021']:.2f} homic√≠dios/100k)
   - Pa√≠s mais violento: {top10_violentos.iloc[0]['Country Name']} ({top10_violentos.iloc[0]['Intentional homicides (per 100000 people) as of 2021']:.2f} homic√≠dios/100k)
   - Diferen√ßa: {top10_violentos.iloc[0]['Intentional homicides (per 100000 people) as of 2021'] / top10_seguros.iloc[0]['Intentional homicides (per 100000 people) as of 2021']:.1f}x mais violento

3. DESCOBERTAS INTERESSANTES:

   üí° Dinheiro vs Felicidade:
   - Pa√≠ses ricos mas menos felizes: {', '.join(ricos_infelizes['Country Name'].head(3).tolist())}
   - Pa√≠ses pobres mas mais felizes: {', '.join(pobres_felizes['Country Name'].head(3).tolist())}
   - Conclus√£o: Riqueza n√£o garante felicidade, e felicidade n√£o requer riqueza extrema

   üèÜ Melhor Equil√≠brio:
   - Top 3 pa√≠ses com melhor equil√≠brio geral: {', '.join(top_equilibrio['Country Name'].head(3).tolist())}
   - Estes pa√≠ses combinam alta riqueza, felicidade, desenvolvimento humano e seguran√ßa

4. PODER DA CI√äNCIA DE DADOS:

   ‚úÖ Esta an√°lise demonstra como dados podem revelar:
   - Padr√µes geogr√°ficos (diferen√ßas entre continentes)
   - Rela√ß√µes complexas (riqueza vs felicidade)
   - Rankings objetivos em m√∫ltiplas dimens√µes
   - Exce√ß√µes interessantes (pa√≠ses que desafiam expectativas)
   - Oportunidades para pol√≠ticas p√∫blicas baseadas em evid√™ncias

‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
"""

print(resumo)
