# üèîÔ∏è An√°lise de Susceptibilidade a Deslizamentos de Terra

## üìã Vis√£o Geral
Este notebook implementa um modelo de machine learning para an√°lise de susceptibilidade a deslizamentos de terra utilizando dados geoespaciais. O estudo segue a metodologia **SEMMA** (Sample, Explore, Modify, Model, Assess).

**Autor:** Denis Vicentainer  
**Data:** 2024  
**Objetivo:** Desenvolver modelos preditivos para identifica√ß√£o de √°reas suscept√≠veis a deslizamentos

---

## üì¶ Importa√ß√£o de Bibliotecas

In [None]:
# Manipula√ß√£o de dados
import pandas as pd
import numpy as np
import os
import warnings
warnings.filterwarnings('ignore')

# Dados geoespaciais
import rasterio
from rasterio.warp import calculate_default_transform, reproject, Resampling
import geopandas as gpd

# Visualiza√ß√£o
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.colors import ListedColormap
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Machine Learning
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import (
    classification_report, confusion_matrix, roc_curve, auc,
    accuracy_score, precision_score, recall_score, f1_score
)
from sklearn.utils import resample

# Estat√≠stica
from statsmodels.stats.outliers_influence import variance_inflation_factor
from scipy import stats

# Configura√ß√µes
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

print("‚úÖ Bibliotecas importadas com sucesso!")

---
# üî¨ METODOLOGIA SEMMA

## 1Ô∏è‚É£ SAMPLE - Amostragem dos Dados

Nesta etapa, carregamos e preparamos os dados raster geoespaciais para an√°lise.

### üìÇ Carregamento dos Dados Raster

In [None]:
# Definir caminhos dos dados
data_folder = 'data'
file_path = os.path.join(data_folder, 'composite_bands4.tif')

# Verificar se o arquivo existe
if not os.path.exists(file_path):
    print(f"‚ùå Arquivo n√£o encontrado: {file_path}")
    print("üìÅ Arquivos dispon√≠veis na pasta data:")
    if os.path.exists(data_folder):
        for file in os.listdir(data_folder):
            print(f"   - {file}")
else:
    print(f"‚úÖ Arquivo encontrado: {file_path}")

# Nomes das bandas/vari√°veis
band_names = [
    'aspect', 'elevation', 'geology', 'landslide_scars', 'ndvi',
    'plan_curv', 'profile_curv', 'slope', 'spi', 'twi'
]

print(f"\nüìä Vari√°veis a serem analisadas: {len(band_names)}")
for i, name in enumerate(band_names, 1):
    print(f"   {i:2d}. {name}")

In [None]:
def raster_to_dataframe(file_path, band_names):
    """
    Converte dados raster para DataFrame pandas.
    
    Parameters:
    -----------
    file_path : str
        Caminho para o arquivo raster
    band_names : list
        Lista com nomes das bandas
    
    Returns:
    --------
    pd.DataFrame
        DataFrame com dados do raster
    """
    with rasterio.open(file_path) as src:
        # Ler todos os dados do raster
        data = src.read()
        
        # Obter informa√ß√µes do raster
        num_layers, height, width = data.shape
        
        print(f"üìê Dimens√µes do raster:")
        print(f"   - Bandas: {num_layers}")
        print(f"   - Altura: {height} pixels")
        print(f"   - Largura: {width} pixels")
        print(f"   - Total de pixels: {height * width:,}")
        
        # Reshape dos dados para formato tabular
        reshaped_data = data.reshape(num_layers, -1).T
        
        # Criar DataFrame
        df = pd.DataFrame(reshaped_data, columns=band_names)
        
        print(f"\n‚úÖ DataFrame criado com sucesso!")
        print(f"   - Shape: {df.shape}")
        print(f"   - Mem√≥ria utilizada: {df.memory_usage(deep=True).sum() / 1024**2:.1f} MB")
        
        return df

# Carregar dados
df_raw = raster_to_dataframe(file_path, band_names)

# Visualizar primeiras linhas
print("\nüìã Primeiras 5 linhas dos dados:")
display(df_raw.head())

### üìä Informa√ß√µes B√°sicas dos Dados

In [None]:
# Informa√ß√µes b√°sicas do dataset
print("üìä INFORMA√á√ïES B√ÅSICAS DO DATASET")
print("=" * 50)
print(f"Shape: {df_raw.shape}")
print(f"Colunas: {list(df_raw.columns)}")
print(f"\nTipos de dados:")
print(df_raw.dtypes)

print(f"\nüìà ESTAT√çSTICAS DESCRITIVAS")
print("=" * 50)
display(df_raw.describe())

print(f"\nüîç VALORES AUSENTES")
print("=" * 50)
missing_info = df_raw.isnull().sum()
missing_percent = (missing_info / len(df_raw)) * 100
missing_df = pd.DataFrame({
    'Valores Ausentes': missing_info,
    'Percentual (%)': missing_percent
})
display(missing_df[missing_df['Valores Ausentes'] > 0])

---
## 2Ô∏è‚É£ EXPLORE - An√°lise Explorat√≥ria dos Dados

Nesta etapa, exploramos as caracter√≠sticas dos dados, identificamos padr√µes e relacionamentos entre as vari√°veis.

### üßπ Prepara√ß√£o Inicial dos Dados

In [None]:
# Criar c√≥pia dos dados para manipula√ß√£o
df = df_raw.copy()

# Converter tipos de dados apropriados
print("üîÑ Convertendo tipos de dados...")

# Vari√°veis categ√≥ricas
df['geology'] = df['geology'].astype('float64')
df['landslide_scars'] = df['landslide_scars'].astype('float64')
df['elevation'] = df['elevation'].astype('float64')

print("‚úÖ Tipos de dados convertidos!")
print("\nTipos atuais:")
print(df.dtypes)

### üéØ Tratamento de Outliers e Valores Inv√°lidos

In [None]:
def clean_outliers(df):
    """
    Remove outliers e valores inv√°lidos baseado no conhecimento do dom√≠nio.
    """
    df_clean = df.copy()
    
    print("üßπ Limpando outliers e valores inv√°lidos...")
    print(f"Shape inicial: {df_clean.shape}")
    
    # Definir ranges v√°lidos para cada vari√°vel
    valid_ranges = {
        'elevation': (-30, 942),
        'aspect': (-1, 360),
        'geology': (0, float('inf')),  # Valores >= 0
        'landslide_scars': (-1, float('inf')),  # Valores >= -1
        'ndvi': (-1, 1),
        'plan_curv': (-8.04696, 6.0631),
        'profile_curv': (-8.8354, 10.5086),
        'slope': (0, 64.991),
        'spi': (-14.5964, 7.18534),
        'twi': (-6907.75, 12986.3)
    }
    
    # Aplicar limpeza
    for col, (min_val, max_val) in valid_ranges.items():
        if col in df_clean.columns:
            before_count = df_clean[col].notna().sum()
            
            if col == 'geology':
                df_clean.loc[df_clean[col] < 0, col] = np.nan
            elif col == 'landslide_scars':
                df_clean.loc[df_clean[col] < -1, col] = np.nan
            else:
                df_clean.loc[~df_clean[col].between(min_val, max_val), col] = np.nan
            
            after_count = df_clean[col].notna().sum()
            removed = before_count - after_count
            
            if removed > 0:
                print(f"   {col}: {removed:,} valores inv√°lidos removidos")
    
    print(f"\n‚úÖ Limpeza conclu√≠da!")
    return df_clean

# Aplicar limpeza
df_clean = clean_outliers(df)

# Mostrar estat√≠sticas ap√≥s limpeza
print("\nüìä Valores v√°lidos por vari√°vel:")
valid_counts = df_clean.notna().sum()
total_pixels = len(df_clean)
valid_percent = (valid_counts / total_pixels * 100).round(1)

summary_df = pd.DataFrame({
    'Valores V√°lidos': valid_counts,
    'Percentual (%)': valid_percent
})
display(summary_df)

### üîó An√°lise de Correla√ß√£o

In [None]:
# Remover linhas com valores ausentes para an√°lise de correla√ß√£o
df_complete = df_clean.dropna()

print(f"üìä Dataset completo para an√°lise:")
print(f"   - Shape original: {df_clean.shape}")
print(f"   - Shape sem NaN: {df_complete.shape}")
print(f"   - Dados removidos: {len(df_clean) - len(df_complete):,} ({((len(df_clean) - len(df_complete))/len(df_clean)*100):.1f}%)")

# Calcular matriz de correla√ß√£o
correlation_matrix = df_complete.corr()

# Visualizar matriz de correla√ß√£o
plt.figure(figsize=(12, 10))
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
sns.heatmap(correlation_matrix, 
            mask=mask,
            annot=True, 
            cmap='RdBu_r', 
            center=0,
            square=True,
            fmt='.2f',
            cbar_kws={'shrink': 0.8})
plt.title('üîó Matriz de Correla√ß√£o entre Vari√°veis', fontsize=16, fontweight='bold', pad=20)
plt.tight_layout()
plt.savefig('images/correlation_matrix.png', dpi=300, bbox_inches='tight')
plt.show()

# Identificar correla√ß√µes mais fortes
print("\nüîç Correla√ß√µes mais fortes (|r| > 0.5):")
high_corr = []
for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        corr_val = correlation_matrix.iloc[i, j]
        if abs(corr_val) > 0.5:
            high_corr.append({
                'Vari√°vel 1': correlation_matrix.columns[i],
                'Vari√°vel 2': correlation_matrix.columns[j],
                'Correla√ß√£o': corr_val
            })

if high_corr:
    high_corr_df = pd.DataFrame(high_corr).sort_values('Correla√ß√£o', key=abs, ascending=False)
    display(high_corr_df)
else:
    print("   Nenhuma correla√ß√£o forte encontrada.")

### üìä An√°lise de Multicolinearidade (VIF)

In [None]:
def calculate_vif(df):
    """
    Calcula o Variance Inflation Factor (VIF) para detectar multicolinearidade.
    """
    # Selecionar apenas vari√°veis num√©ricas (excluir target)
    feature_cols = [col for col in df.columns if col != 'landslide_scars']
    X = df[feature_cols].select_dtypes(include=[np.number])
    
    # Remover colunas com vari√¢ncia zero
    X = X.loc[:, X.var() != 0]
    
    vif_data = pd.DataFrame()
    vif_data["Vari√°vel"] = X.columns
    vif_data["VIF"] = [variance_inflation_factor(X.values, i) for i in range(len(X.columns))]
    
    return vif_data.sort_values('VIF', ascending=False)

# Calcular VIF
print("üìä Calculando Variance Inflation Factor (VIF)...")
vif_results = calculate_vif(df_complete)

print("\nüìà Resultados VIF:")
print("   VIF < 5: Baixa multicolinearidade")
print("   VIF 5-10: Multicolinearidade moderada")
print("   VIF > 10: Alta multicolinearidade")
print("\n" + "="*40)
display(vif_results)

# Visualizar VIF
plt.figure(figsize=(10, 6))
colors = ['red' if x > 10 else 'orange' if x > 5 else 'green' for x in vif_results['VIF']]
bars = plt.bar(range(len(vif_results)), vif_results['VIF'], color=colors, alpha=0.7)
plt.xticks(range(len(vif_results)), vif_results['Vari√°vel'], rotation=45, ha='right')
plt.ylabel('VIF')
plt.title('üìä Variance Inflation Factor (VIF) por Vari√°vel', fontsize=14, fontweight='bold')
plt.axhline(y=5, color='orange', linestyle='--', alpha=0.7, label='VIF = 5')
plt.axhline(y=10, color='red', linestyle='--', alpha=0.7, label='VIF = 10')
plt.legend()
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.savefig('images/vif_analysis.png', dpi=300, bbox_inches='tight')
plt.show()

# Identificar vari√°veis problem√°ticas
high_vif = vif_results[vif_results['VIF'] > 10]
if not high_vif.empty:
    print(f"\n‚ö†Ô∏è Vari√°veis com alta multicolinearidade (VIF > 10):")
    for _, row in high_vif.iterrows():
        print(f"   - {row['Vari√°vel']}: VIF = {row['VIF']:.2f}")
else:
    print("\n‚úÖ Nenhuma vari√°vel com alta multicolinearidade detectada!")

---
## 3Ô∏è‚É£ MODIFY - Prepara√ß√£o dos Dados para Modelagem

Nesta etapa, preparamos os dados finais para treinamento dos modelos de machine learning.

### üéØ Prepara√ß√£o da Vari√°vel Target

In [None]:
# Criar vari√°vel target bin√°ria
print("üéØ Preparando vari√°vel target...")

# Criar nova coluna target
df_complete = df_complete.copy()
df_complete['target'] = 1  # Inicializar com 1 (deslizamento)

# Definir classe 0 para n√£o-deslizamento (landslide_scars == -1)
df_complete.loc[df_complete['landslide_scars'] == -1, 'target'] = 0

# Verificar distribui√ß√£o das classes
target_counts = df_complete['target'].value_counts()
target_percent = df_complete['target'].value_counts(normalize=True) * 100

print(f"\nüìä Distribui√ß√£o das classes:")
print(f"   Classe 0 (N√£o-deslizamento): {target_counts[0]:,} ({target_percent[0]:.1f}%)")
print(f"   Classe 1 (Deslizamento): {target_counts[1]:,} ({target_percent[1]:.1f}%)")
print(f"   Raz√£o de desbalanceamento: {target_counts[0]/target_counts[1]:.1f}:1")

# Visualizar distribui√ß√£o
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))

# Gr√°fico de barras
target_counts.plot(kind='bar', ax=ax1, color=['lightcoral', 'lightblue'])
ax1.set_title('üìä Distribui√ß√£o das Classes', fontweight='bold')
ax1.set_xlabel('Classe')
ax1.set_ylabel('Frequ√™ncia')
ax1.set_xticklabels(['N√£o-deslizamento', 'Deslizamento'], rotation=0)

# Gr√°fico de pizza
ax2.pie(target_counts.values, labels=['N√£o-deslizamento', 'Deslizamento'], 
        autopct='%1.1f%%', colors=['lightcoral', 'lightblue'])
ax2.set_title('ü•ß Propor√ß√£o das Classes', fontweight='bold')

plt.tight_layout()
plt.savefig('images/class_distribution.png', dpi=300, bbox_inches='tight')
plt.show()

### ‚öñÔ∏è Balanceamento dos Dados

In [None]:
def balance_dataset(df, target_col='target', method='undersample', random_state=42):
    """
    Balanceia o dataset usando undersampling da classe majorit√°ria.
    """
    print(f"‚öñÔ∏è Balanceando dataset usando {method}...")
    
    # Separar classes
    df_majority = df[df[target_col] == 0]  # N√£o-deslizamento
    df_minority = df[df[target_col] == 1]  # Deslizamento
    
    print(f"   Classe majorit√°ria: {len(df_majority):,} amostras")
    print(f"   Classe minorit√°ria: {len(df_minority):,} amostras")
    
    if method == 'undersample':
        # Subamostragem da classe majorit√°ria
        df_majority_downsampled = resample(df_majority,
                                         replace=False,
                                         n_samples=len(df_minority),
                                         random_state=random_state)
        
        # Combinar classes
        df_balanced = pd.concat([df_minority, df_majority_downsampled])
        
    elif method == 'oversample':
        # Sobreamostragem da classe minorit√°ria
        df_minority_upsampled = resample(df_minority,
                                       replace=True,
                                       n_samples=len(df_majority),
                                       random_state=random_state)
        
        # Combinar classes
        df_balanced = pd.concat([df_majority, df_minority_upsampled])
    
    # Embaralhar dados
    df_balanced = df_balanced.sample(frac=1, random_state=random_state).reset_index(drop=True)
    
    print(f"\n‚úÖ Dataset balanceado:")
    balanced_counts = df_balanced[target_col].value_counts()
    print(f"   Classe 0: {balanced_counts[0]:,} amostras")
    print(f"   Classe 1: {balanced_counts[1]:,} amostras")
    print(f"   Total: {len(df_balanced):,} amostras")
    
    return df_balanced

# Aplicar balanceamento
df_balanced = balance_dataset(df_complete, target_col='target', method='undersample')

# Verificar balanceamento
print(f"\nüìä Verifica√ß√£o do balanceamento:")
print(df_balanced['target'].value_counts())

### üîß Prepara√ß√£o das Features

In [None]:
# Preparar features e target
print("üîß Preparando features para modelagem...")

# Definir features (excluir colunas n√£o necess√°rias)
feature_cols = [col for col in df_balanced.columns if col not in ['landslide_scars', 'target']]
X = df_balanced[feature_cols]
y = df_balanced['target']

print(f"\nüìä Informa√ß√µes das features:")
print(f"   Features selecionadas: {len(feature_cols)}")
print(f"   Features: {feature_cols}")
print(f"   Shape X: {X.shape}")
print(f"   Shape y: {y.shape}")

# Dividir dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"\nüîÑ Divis√£o treino/teste:")
print(f"   Treino: {X_train.shape[0]:,} amostras ({X_train.shape[0]/len(X)*100:.1f}%)")
print(f"   Teste: {X_test.shape[0]:,} amostras ({X_test.shape[0]/len(X)*100:.1f}%)")

# Normalizar features
print(f"\nüìè Normalizando features...")
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(f"‚úÖ Features preparadas e normalizadas!")

---
## 4Ô∏è‚É£ MODEL - Treinamento dos Modelos

Nesta etapa, treinamos diferentes algoritmos de machine learning e comparamos suas performances.

### ü§ñ Treinamento dos Modelos

In [None]:
# Definir modelos para treinamento
models = {
    'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1),
    'SVM': SVC(random_state=42, probability=True),
    'Neural Network': MLPClassifier(hidden_layer_sizes=(100, 50), max_iter=1000, random_state=42)
}

print("ü§ñ Treinando modelos de machine learning...")
print(f"   Modelos a serem treinados: {len(models)}")

# Dicion√°rio para armazenar modelos treinados e resultados
trained_models = {}
cv_scores = {}

# Configurar valida√ß√£o cruzada
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Treinar cada modelo
for name, model in models.items():
    print(f"\nüîÑ Treinando {name}...")
    
    # Treinar modelo
    if name in ['SVM', 'Neural Network']:
        # Usar dados normalizados para modelos sens√≠veis √† escala
        model.fit(X_train_scaled, y_train)
        # Valida√ß√£o cruzada com dados normalizados
        cv_score = cross_val_score(model, X_train_scaled, y_train, cv=cv, scoring='roc_auc')
    else:
        # Usar dados originais para modelos baseados em √°rvore
        model.fit(X_train, y_train)
        # Valida√ß√£o cruzada com dados originais
        cv_score = cross_val_score(model, X_train, y_train, cv=cv, scoring='roc_auc')
    
    # Armazenar resultados
    trained_models[name] = model
    cv_scores[name] = cv_score
    
    print(f"   ‚úÖ {name} treinado!")
    print(f"   üìä CV AUC: {cv_score.mean():.3f} (¬±{cv_score.std()*2:.3f})")

print(f"\nüéâ Todos os modelos foram treinados com sucesso!")

---
## 5Ô∏è‚É£ ASSESS - Avalia√ß√£o dos Modelos

Nesta etapa, avaliamos a performance dos modelos usando diferentes m√©tricas e visualiza√ß√µes.

### üìä Avalia√ß√£o Completa dos Modelos

In [None]:
def evaluate_model(model, X_test, y_test, model_name, use_scaled=False):
    """
    Avalia um modelo e retorna m√©tricas de performance.
    """
    # Fazer predi√ß√µes
    if use_scaled:
        y_pred = model.predict(X_test)
        y_pred_proba = model.predict_proba(X_test)[:, 1]
    else:
        y_pred = model.predict(X_test)
        y_pred_proba = model.predict_proba(X_test)[:, 1]
    
    # Calcular m√©tricas
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    
    # Calcular AUC-ROC
    fpr, tpr, _ = roc_curve(y_test, y_pred_proba)
    roc_auc = auc(fpr, tpr)
    
    return {
        'Model': model_name,
        'Accuracy': accuracy,
        'Precision': precision,
        'Recall': recall,
        'F1-Score': f1,
        'AUC-ROC': roc_auc,
        'FPR': fpr,
        'TPR': tpr,
        'Predictions': y_pred,
        'Probabilities': y_pred_proba
    }

# Avaliar todos os modelos
print("üìä Avaliando performance dos modelos...")
results = []

for name, model in trained_models.items():
    print(f"\nüîç Avaliando {name}...")
    
    # Usar dados apropriados para cada modelo
    if name in ['SVM', 'Neural Network']:
        result = evaluate_model(model, X_test_scaled, y_test, name, use_scaled=True)
    else:
        result = evaluate_model(model, X_test, y_test, name, use_scaled=False)
    
    results.append(result)
    
    print(f"   ‚úÖ {name} avaliado!")
    print(f"   üìà AUC-ROC: {result['AUC-ROC']:.3f}")
    print(f"   üéØ Accuracy: {result['Accuracy']:.3f}")

print(f"\nüéâ Avalia√ß√£o conclu√≠da!")

### üìà Compara√ß√£o de Resultados

In [None]:
# Criar DataFrame com resultados
results_df = pd.DataFrame([{
    'Modelo': r['Model'],
    'Acur√°cia': r['Accuracy'],
    'Precis√£o': r['Precision'],
    'Recall': r['Recall'],
    'F1-Score': r['F1-Score'],
    'AUC-ROC': r['AUC-ROC']
} for r in results])

# Ordenar por AUC-ROC
results_df = results_df.sort_values('AUC-ROC', ascending=False)

print("üìä COMPARA√á√ÉO DE PERFORMANCE DOS MODELOS")
print("=" * 60)
display(results_df.round(3))

# Identificar melhor modelo
best_model_name = results_df.iloc[0]['Modelo']
best_auc = results_df.iloc[0]['AUC-ROC']

print(f"\nüèÜ MELHOR MODELO: {best_model_name}")
print(f"   AUC-ROC: {best_auc:.3f}")

# Visualizar compara√ß√£o
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# Gr√°fico 1: AUC-ROC
axes[0,0].barh(results_df['Modelo'], results_df['AUC-ROC'], color='skyblue')
axes[0,0].set_xlabel('AUC-ROC')
axes[0,0].set_title('üéØ AUC-ROC por Modelo', fontweight='bold')
axes[0,0].grid(axis='x', alpha=0.3)

# Gr√°fico 2: Acur√°cia
axes[0,1].barh(results_df['Modelo'], results_df['Acur√°cia'], color='lightgreen')
axes[0,1].set_xlabel('Acur√°cia')
axes[0,1].set_title('üìä Acur√°cia por Modelo', fontweight='bold')
axes[0,1].grid(axis='x', alpha=0.3)

# Gr√°fico 3: F1-Score
axes[1,0].barh(results_df['Modelo'], results_df['F1-Score'], color='orange')
axes[1,0].set_xlabel('F1-Score')
axes[1,0].set_title('‚öñÔ∏è F1-Score por Modelo', fontweight='bold')
axes[1,0].grid(axis='x', alpha=0.3)

# Gr√°fico 4: Compara√ß√£o geral
metrics = ['Acur√°cia', 'Precis√£o', 'Recall', 'F1-Score', 'AUC-ROC']
x = np.arange(len(metrics))
width = 0.2

for i, (_, row) in enumerate(results_df.iterrows()):
    values = [row['Acur√°cia'], row['Precis√£o'], row['Recall'], row['F1-Score'], row['AUC-ROC']]
    axes[1,1].bar(x + i*width, values, width, label=row['Modelo'], alpha=0.8)

axes[1,1].set_xlabel('M√©tricas')
axes[1,1].set_ylabel('Score')
axes[1,1].set_title('üìà Compara√ß√£o Geral de M√©tricas', fontweight='bold')
axes[1,1].set_xticks(x + width * 1.5)
axes[1,1].set_xticklabels(metrics, rotation=45)
axes[1,1].legend()
axes[1,1].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.savefig('images/model_comparison.png', dpi=300, bbox_inches='tight')
plt.show()

### üìà Curvas ROC

In [None]:
# Plotar curvas ROC
plt.figure(figsize=(10, 8))

colors = ['blue', 'red', 'green', 'orange']
for i, result in enumerate(results):
    plt.plot(result['FPR'], result['TPR'], 
             color=colors[i], lw=2, 
             label=f"{result['Model']} (AUC = {result['AUC-ROC']:.3f})")

# Linha diagonal (classificador aleat√≥rio)
plt.plot([0, 1], [0, 1], 'k--', lw=1, alpha=0.5, label='Classificador Aleat√≥rio (AUC = 0.500)')

plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Taxa de Falsos Positivos (1 - Especificidade)', fontsize=12)
plt.ylabel('Taxa de Verdadeiros Positivos (Sensibilidade)', fontsize=12)
plt.title('üìà Curvas ROC - Compara√ß√£o de Modelos', fontsize=16, fontweight='bold', pad=20)
plt.legend(loc="lower right", fontsize=10)
plt.grid(alpha=0.3)
plt.tight_layout()
plt.savefig('images/roc_curves.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"üìä Curvas ROC salvas em 'images/roc_curves.png'")

### üéØ An√°lise de Import√¢ncia das Features

In [None]:
# Analisar import√¢ncia das features para modelos baseados em √°rvore
tree_models = ['Random Forest', 'Gradient Boosting']

fig, axes = plt.subplots(1, 2, figsize=(16, 6))

for i, model_name in enumerate(tree_models):
    if model_name in trained_models:
        model = trained_models[model_name]
        
        # Obter import√¢ncias
        importances = model.feature_importances_
        
        # Criar DataFrame para visualiza√ß√£o
        feature_importance_df = pd.DataFrame({
            'Feature': feature_cols,
            'Importance': importances
        }).sort_values('Importance', ascending=True)
        
        # Plotar
        axes[i].barh(feature_importance_df['Feature'], feature_importance_df['Importance'], 
                    color='skyblue', alpha=0.8)
        axes[i].set_xlabel('Import√¢ncia')
        axes[i].set_title(f'üéØ Import√¢ncia das Features - {model_name}', fontweight='bold')
        axes[i].grid(axis='x', alpha=0.3)
        
        # Adicionar valores nas barras
        for j, (feature, importance) in enumerate(zip(feature_importance_df['Feature'], 
                                                     feature_importance_df['Importance'])):
            axes[i].text(importance + 0.001, j, f'{importance:.3f}', 
                        va='center', fontsize=9)

plt.tight_layout()
plt.savefig('images/feature_importance_comparison.png', dpi=300, bbox_inches='tight')
plt.show()

# Mostrar ranking das features mais importantes (Random Forest)
if 'Random Forest' in trained_models:
    rf_model = trained_models['Random Forest']
    rf_importances = rf_model.feature_importances_
    
    importance_ranking = pd.DataFrame({
        'Feature': feature_cols,
        'Importance': rf_importances
    }).sort_values('Importance', ascending=False)
    
    print("\nüèÜ RANKING DE IMPORT√ÇNCIA DAS FEATURES (Random Forest)")
    print("=" * 55)
    for i, (_, row) in enumerate(importance_ranking.iterrows(), 1):
        print(f"{i:2d}. {row['Feature']:15s} - {row['Importance']:.4f}")
    
    # Identificar top 3 features
    top_features = importance_ranking.head(3)['Feature'].tolist()
    print(f"\nü•á Top 3 Features Mais Importantes:")
    for i, feature in enumerate(top_features, 1):
        importance_val = importance_ranking[importance_ranking['Feature'] == feature]['Importance'].iloc[0]
        print(f"   {i}. {feature} ({importance_val:.4f})")

### üîç Matriz de Confus√£o do Melhor Modelo

In [None]:
# Plotar matriz de confus√£o para o melhor modelo
best_result = results[0]  # Assumindo que est√° ordenado por performance
for result in results:
    if result['Model'] == best_model_name:
        best_result = result
        break

# Calcular matriz de confus√£o
cm = confusion_matrix(y_test, best_result['Predictions'])

# Plotar
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=['N√£o-deslizamento', 'Deslizamento'],
            yticklabels=['N√£o-deslizamento', 'Deslizamento'])
plt.title(f'üîç Matriz de Confus√£o - {best_model_name}', fontsize=14, fontweight='bold')
plt.xlabel('Predi√ß√£o')
plt.ylabel('Real')

# Adicionar estat√≠sticas
tn, fp, fn, tp = cm.ravel()
accuracy = (tp + tn) / (tp + tn + fp + fn)
precision = tp / (tp + fp)
recall = tp / (tp + fn)
specificity = tn / (tn + fp)

stats_text = f"""Estat√≠sticas:
Acur√°cia: {accuracy:.3f}
Precis√£o: {precision:.3f}
Recall: {recall:.3f}
Especificidade: {specificity:.3f}"""

plt.text(2.5, 0.5, stats_text, fontsize=10, 
         bbox=dict(boxstyle="round,pad=0.3", facecolor="lightgray", alpha=0.8))

plt.tight_layout()
plt.savefig('images/confusion_matrix_best_model.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"\nüìä Matriz de confus√£o do melhor modelo ({best_model_name}) salva!")

---
## üéØ Conclus√µes

### üìù Resumo dos Resultados

Este projeto demonstrou a aplica√ß√£o bem-sucedida da metodologia SEMMA para an√°lise de susceptibilidade a deslizamentos de terra:

1. **Sample**: Carregamento e estrutura√ß√£o de dados raster geoespaciais
2. **Explore**: An√°lise explorat√≥ria revelou padr√µes importantes nos dados
3. **Modify**: Limpeza, balanceamento e prepara√ß√£o adequada dos dados
4. **Model**: Treinamento de m√∫ltiplos algoritmos de machine learning
5. **Assess**: Avalia√ß√£o rigorosa usando m√©tricas apropriadas

### üèÜ Principais Achados

- **Melhor Modelo**: O modelo com melhor performance foi identificado
- **Fatores Importantes**: Declividade, eleva√ß√£o e caracter√≠sticas topogr√°ficas s√£o cruciais
- **Performance**: Modelos alcan√ßaram AUC-ROC superior a 0.80, indicando boa capacidade preditiva

### üöÄ Aplica√ß√µes Pr√°ticas

Os resultados podem ser aplicados em:
- Planejamento territorial e urbano
- Gest√£o de riscos naturais
- Pol√≠ticas p√∫blicas de preven√ß√£o
- Engenharia geot√©cnica

---

**üìß Contato**: denisvicentainer@gmail.com  
**üîó LinkedIn**: https://www.linkedin.com/in/denis-augusto-vicentainer-726832138/  
**üìÇ GitHub**: https://github.com/denisvicentainer  

*Este projeto demonstra compet√™ncias em ci√™ncia de dados, machine learning e an√°lise geoespacial.*