# Recife — Análise Completa (usando `real_data_converted.csv`)
Este notebook executa um fluxo completo e comentado cobrindo: carregamento/limpeza, estatísticas, visualizações, regressão simples, análise de resíduos, treinamento e avaliação de classificadores simples (LogisticRegression, DecisionTree, KNN), além de interpretação e próximos passos.

Execute as células sequencialmente. Se faltar alguma biblioteca, use a célula de instalação (próxima).

In [None]:
# 0) Auto-instalação (opcional) — roda no kernel atual
import sys
import subprocess
markdown
cell-1
markdown
# Recife — Análise Completa (usando `real_data_converted.csv`)
Este notebook executa um fluxo completo e comentado cobrindo: carregamento/limpeza, estatísticas, visualizações, regressão simples, análise de resíduos, treinamento e avaliação de classificadores simples (LogisticRegression, DecisionTree, KNN), além de interpretação e próximos passos.

Execute as células sequencialmente. Se faltar alguma biblioteca, use a célula de instalação (próxima).
code
cell-2
python
# 0) Auto-instalação (opcional) — roda no kernel atual
import sys
import subprocess
required = ["numpy", "pandas", "matplotlib", "seaborn", "scikit-learn", "joblib"]
missing = []
for pkg in required:
    try:
        __import__(pkg)
    except ImportError:
        missing.append(pkg)
if missing:
    print('Instalando:', missing)
    subprocess.check_call([sys.executable, '-m', 'pip', 'install', *missing])
    print('Instalação concluída — reinicie o kernel se necessário')
else:
    print('Dependências essenciais presentes')
code
cell-3
python
# 1) Imports e configurações visuais
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import (mean_squared_error, r2_score, accuracy_score, precision_score, recall_score, f1_score,
                             confusion_matrix, roc_curve, roc_auc_score, precision_recall_curve)
from sklearn.preprocessing import StandardScaler
sns.set(style='whitegrid')
plt.rcParams['figure.figsize'] = (10, 6)
markdown
cell-4
markdown
## 2) Carregamento dos dados
Usaremos `data/processed/real_data_converted.csv`. Se não existir, o notebook interrompe e mostra instruções.
code
cell-5
python
p = Path('..') / 'data' / 'processed' / 'real_data_converted.csv'
if not p.exists():
    raise FileNotFoundError(f\
print('Carregando', p)
df = pd.read_csv(p, parse_dates=['date'], dayfirst=True)
print('shape:', df.shape)
display(df.head())
code
cell-6
python
# 2b) Sanity-check rápido: colunas, tipos, nulos, range de datas
print('Colunas:', df.columns.tolist())
display(df.dtypes.to_frame('dtype'))
print('


































































































































































































































































































































```python -m pip install -r requirements.txtpython -m pip install --upgrade pip.\.venv\Scripts\Activate.ps1python -m venv .venv```powershellSe precisar criar um ambiente virtual e instalar dependências, execute estes comandos no terminal (PowerShell):## 15) Como rodar rápido (PowerShell)markdowncell-29markdown- Explicabilidade (SHAP) e integração com dashboard (Streamlit/Folium).- Balanceamento de classes, calibração de probabilidades e busca por hiperparâmetros.- Engenharia de features espaciais (lat/lon), uso do solo, infraestrutura.- Validação temporal mais rigorosa (rolling-window/backtest).## 14) Pontos de melhoria e próximos passosmarkdowncell-28markdownprint('- Se custo de falsos negativos for alto, priorize recall e ajuste thresholds.')print('- Chuva acumulada (24h) é um preditor relevante; verifique interação com maré e vulnerabilidade.')print('\nSíntese:')print('Métricas do melhor modelo:', {k:v for k,v in best[1].items() if k in ['acc','prec','rec','f1','auc']})print('Melhor modelo por F1:', best[0])best = max(results.items(), key=lambda kv: kv[1]['f1'])# Síntese automática (exemplo)pythoncell-27codeComente os pontos fortes/fracos dos modelos, trade-offs entre precisão e recall, e recomendações operacionais.## 13) Interpretação e síntesemarkdowncell-26markdownplt.show()plt.tight_layout()plt.legend()plt.title('Precision-Recall Curves')plt.ylabel('Precision')plt.xlabel('Recall')        plt.plot(rec_vals, prec_vals, label=name)        prec_vals, rec_vals, _ = precision_recall_curve(y_test_clf, r['y_proba'])    if r['y_proba'] is not None:for name, r in results.items():plt.subplot(1,2,2)plt.legend()plt.title('ROC Curves')plt.ylabel('True Positive Rate')plt.xlabel('False Positive Rate')plt.plot([0,1],[0,1],'k--')        plt.plot(fpr, tpr, label=f"{name} (AUC={auc:.2f})")        auc = r['auc'] if r['auc'] is not None else roc_auc_score(y_test_clf, r['y_proba'])        fpr, tpr, _ = roc_curve(y_test_clf, r['y_proba'])    if r['y_proba'] is not None:for name, r in results.items():plt.subplot(1,2,1)plt.figure(figsize=(12,5))pythoncell-25codePlot das curvas para os modelos que retornam probabilidades.## 12) Curvas ROC e Precision-Recallmarkdowncell-24markdown    print()        print('AUC:', r['auc'])    if r['auc'] is not None:    print('Confusion matrix:\n', r['cm'])    print(f"Accuracy: {r['acc']:.3f}, Precision: {r['prec']:.3f}, Recall: {r['rec']:.3f}, F1: {r['f1']:.3f}")    print(f'--- {name} ---')for name, r in results.items():# Mostrar resumo    results[name] = dict(model=model, acc=acc, prec=prec, rec=rec, f1=f1, cm=cm, auc=auc, y_proba=y_proba, y_pred=y_pred)    auc = roc_auc_score(y_test_clf, y_proba) if (y_proba is not None and len(set(y_test_clf))>1) else None    cm = confusion_matrix(y_test_clf, y_pred)    f1 = f1_score(y_test_clf, y_pred, zero_division=0)    rec = recall_score(y_test_clf, y_pred, zero_division=0)    prec = precision_score(y_test_clf, y_pred, zero_division=0)    acc = accuracy_score(y_test_clf, y_pred)    y_proba = model.predict_proba(X_test_clf)[:,1] if hasattr(model, 'predict_proba') else None    y_pred = model.predict(X_test_clf)    model.fit(X_train_clf, y_train_clf)for name, model in models.items():results = {}}    'KNN': KNeighborsClassifier(n_neighbors=5)    'DecisionTree': DecisionTreeClassifier(random_state=42),    'Logistic': LogisticRegression(max_iter=1000),models = {X_test_clf = scaler.transform(X_test_clf)X_train_clf = scaler.fit_transform(X_train_clf)scaler = StandardScaler()    raise ValueError('Conjunto de treino ou teste vazio — verifique o split temporal e a coluna date')if X_train_clf.shape[0] == 0 or X_test_clf.shape[0] == 0:y_test_clf = df.loc[test_mask, 'risk_label'].valuesy_train_clf = df.loc[train_mask, 'risk_label'].valuesX_test_clf = df.loc[test_mask, features].fillna(0).valuesX_train_clf = df.loc[train_mask, features].fillna(0).valuestest_mask = df['date'] > split_datetrain_mask = df['date'] <= split_datesplit_date = df['date'].quantile(0.8)# Divisão temporal para classificaçãopythoncell-23codeUsaremos divisão temporal para reduzir vazamento: últimos 20% por data como teste.## 11) Classificação: treino (temporal), modelos simples e avaliaçãomarkdowncell-22markdownComente sobre o coeficiente, R^2 e padrão dos resíduos. Use este resultado como baseline.## 10) Interpretação dos resultados (regressão)markdowncell-21markdownprint('Resid mean:', residuals.mean(), 'Resid std:', residuals.std())plt.show()plt.title('Distribuição dos resíduos')sns.histplot(residuals, kde=True)plt.figure()residuals = yr_test - yr_pred# Resíduosplt.show()plt.title('Regressão linear simples')plt.legend()plt.ylabel('risk_index')plt.xlabel('rain_24h_sum')plt.plot(xs, lr.predict(xs), color='red', label='linha tendência')xs = np.linspace(X_reg.min(), X_reg.max(), 200).reshape(-1,1)plt.scatter(Xr_test, yr_test, alpha=0.6, label='observado')plt.figure()# Gráfico: dispersão + linha tendênciaprint('R^2 (teste):', lr.score(Xr_test, yr_test))print('Coeficiente:', lr.coef_[0], 'Intercept:', lr.intercept_)yr_pred = lr.predict(Xr_test)lr.fit(Xr_train, yr_train)lr = LinearRegression()Xr_train, Xr_test, yr_train, yr_test = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)# Divisão aleatória 80/20 para regressão (exploratória)pythoncell-20code## 9) Regressão simples: treino/teste, linha de tendência e análise de resíduosmarkdowncell-19markdownprint('Classificação: X', X_clf.shape, 'y', y_clf.shape)print('Regressão: X', X_reg.shape, 'y', y_reg.shape)y_clf = df['risk_label'].valuesX_clf = df[features].fillna(0).valuesfeatures = ['rain_24h_sum','tide_12h_max','vuln_index','rain_lag_1']y_reg = df['risk_index'].valuesX_reg = df[['rain_24h_sum']].valuespythoncell-18code- Features exemplo: chuva acumulada, maré, lag, vulnerabilidade.- Classificação: target = `risk_label` (0/1)- Regressão: target = `risk_index` (contínuo)## 8) Definição de variáveis (X/y)markdowncell-17markdownprint('- Considere modelos multivariados para separar efeitos de maré e vulnerabilidade local.')print('- Chuva acumulada (24h) tende a estar positivamente associada ao risk_index; valide magnitude/significância.')print('\nInterpretação (sintética):')    print('\nColunas dayofweek ou rain_24h_sum ausentes para análise temporal')else:    print(daily)    print('\nMédia de chuva 24h por dia da semana:')    daily = df.groupby('dayofweek')['rain_24h_sum'].mean()if 'dayofweek' in df.columns and 'rain_24h_sum' in df.columns:        print(f' - {a} <-> {b}: {v:.2f}')    for a, b, v in uniq:else:    print('  Nenhum par com |r|>0.5 encontrado.')if not uniq:print('Pares com |r|>0.5:')        seen.add((a, b)); uniq.append((a, b, v))    if (a, b) not in seen:for a, b, v in high:seen = set(); uniq = []# limpar duplicatas            high.append((pair[0], pair[1], float(corr.loc[i, j])))            pair = tuple(sorted([i, j]))        if i != j and abs(corr.loc[i, j]) > 0.5:    for j in corr.columns:for i in corr.columns:high = [])    raise NameError(\if 'corr' not in globals():# Segurança: garantir que corr existapythoncell-16codeListamos pares com correlação absoluta > 0.5 e mostramos média de chuva por dia da semana.## 7) Identificação de padrões e correlações + interpretação automáticamarkdowncell-15markdownplt.show()plt.title('Correlação entre variáveis')sns.heatmap(corr, annot=True, cmap='coolwarm', fmt='.2f')plt.figure(figsize=(8,6))corr = df[cols].corr()# Heatmap correlação entre cols selecionadasplt.show()plt.title('rain_24h_sum vs risk_index')sns.scatterplot(data=df.sample(min(len(df), 1000)), x='rain_24h_sum', y='risk_index', hue='neighborhood', alpha=0.6, s=30)plt.figure()# Scatter: rain_24h_sum vs risk_index (amostra para performance)pythoncell-14codeScatter plots e heatmap para investigar relações entre variáveis.## 6) Dispersões e mapa de calor (correlações)markdowncell-13markdownplt.show()plt.title('Mean risk_index por bairro')plt.xticks(rotation=45)sns.barplot(data=counts.sort_values('mean_risk', ascending=False), x='neighborhood', y='mean_risk')plt.figure()# Barra: mean risk_index por bairroplt.show()plt.title('Boxplot: maré (cm) por bairro')plt.xticks(rotation=45)sns.boxplot(data=df, x='neighborhood', y='tide_cm', order=order)order = df.groupby('neighborhood')['tide_cm'].median().sort_values().indexplt.figure(figsize=(12,6))# Boxplot maré por bairroplt.show()plt.xlabel('rain_24h_sum')plt.title('Distribuição da chuva 24h (mm)')sns.histplot(df['rain_24h_sum'].dropna(), bins=30, kde=True, color='tab:blue')plt.figure()# Histograma chuva 24hpythoncell-12codeHistogramas, boxplots por bairro e barras de risco médio por bairro.## 5) Visualizações: histogramas, boxplots e barrasmarkdowncell-11markdowndisplay(counts.sort_values('pct_high_risk', ascending=False))counts = df.groupby('neighborhood').agg(total_obs=('date','count'), mean_risk=('risk_index','mean'), pct_high_risk=('risk_label','mean')).reset_index()# Estatísticas por bairrodisplay(desc)desc['missing'] = df[cols].isna().sum().valuesdesc = df[cols].describe().Tcols = ['rain_mm','tide_cm','rain_24h_sum','rain_48h_sum','tide_12h_max','vuln_index','risk_index']pythoncell-10codeMédias, medianas, desvios e contagens por variável e por bairro.## 4) Estatísticas descritivas básicasmarkdowncell-9markdowndisplay(df.head())print('Preparação finalizada — colunas:', df.columns.tolist())df['risk_label'] = (df['risk_index'] > df['risk_index'].quantile(0.75)).astype(int)df['risk_index'] = 0.5 * df['rain_norm'] + 0.35 * df['tide_norm'] + 0.15 * df['vuln_norm']df['vuln_norm'] = df['vuln_index'] / (df['vuln_index'].max() + 1e-9)df['tide_norm'] = df['tide_12h_max'] / (df['tide_12h_max'].max() + 1e-9)df['rain_norm'] = df['rain_24h_sum'] / (df['rain_24h_sum'].max() + 1e-9)# Índice heurístico de risco e label (proxy)df['dayofweek'] = df['date'].dt.dayofweekdf['hour'] = df['date'].dt.hourdf['rain_lag_1'] = df.groupby('neighborhood')['rain_mm'].shift(1).fillna(0)df['tide_12h_max'] = df.groupby('neighborhood')['tide_cm'].rolling(window=2, min_periods=1).max().reset_index(level=0, drop=True)df['rain_48h_sum'] = df.groupby('neighborhood')['rain_mm'].rolling(window=8, min_periods=1).sum().reset_index(level=0, drop=True)df['rain_24h_sum'] = df.groupby('neighborhood')['rain_mm'].rolling(window=4, min_periods=1).sum().reset_index(level=0, drop=True)df = df.sort_values(['neighborhood', 'date']).reset_index(drop=True)# Ordenar e criar features temporais (assumimos amostragem regular; ajustar conforme necessário)    df['vuln_index'] = 0.5  # fallbackif 'vuln_index' not in df.columns:df['tide_cm'] = df.groupby('neighborhood')['tide_cm'].apply(lambda x: x.fillna(x.median()))df['rain_mm'] = df.groupby('neighborhood')['rain_mm'].apply(lambda x: x.fillna(x.median()))# Preencher nulos simples por mediana por bairro        raise ValueError(f'Coluna obrigatória ausente: {c}')    if c not in df.columns:for c in required:required = ['neighborhood', 'rain_mm', 'tide_cm']df['date'] = pd.to_datetime(df['date'])# Converter 'date' e checar colunas mínimaspythoncell-8codePadronizamos colunas essenciais e criamos lags/janelas rolantes. Ajuste as janelas caso a frequência temporal do CSV seja diferente.## 3) Limpeza e preparação de featuresmarkdowncell-7markdown    passexcept Exception:    print('
Range de datas:', df['date'].min(), '->', df['date'].max())try:display(df.isna().sum().to_frame('n_missing'))Nulos por coluna:')

In [None]:
# Divisão temporal para classificação
split_date = df['date'].quantile(0.8)
train_mask = df['date'] <= split_date
test_mask = df['date'] > split_date
X_train_clf = df.loc[train_mask, features].fillna(0).values
X_test_clf = df.loc[test_mask, features].fillna(0).values
y_train_clf = df.loc[train_mask, 'risk_label'].values
y_test_clf = df.loc[test_mask, 'risk_label'].values

if X_train_clf.shape[0] == 0 or X_test_clf.shape[0] == 0:
    raise ValueError('Conjunto de treino ou teste vazio — verifique o split temporal e a coluna date')

scaler = StandardScaler()
X_train_clf = scaler.fit_transform(X_train_clf)
X_test_clf = scaler.transform(X_test_clf)

models = {
    'Logistic': LogisticRegression(max_iter=1000),
    'DecisionTree': DecisionTreeClassifier(random_state=42),
    'KNN': KNeighborsClassifier(n_neighbors=5)
}
results = {}
for name, model in models.items():
    model.fit(X_train_clf, y_train_clf)
    y_pred = model.predict(X_test_clf)
    y_proba = model.predict_proba(X_test_clf)[:,1] if hasattr(model, 'predict_proba') else None
    acc = accuracy_score(y_test_clf, y_pred)
    prec = precision_score(y_test_clf, y_pred, zero_division=0)
    rec = recall_score(y_test_clf, y_pred, zero_division=0)
    f1 = f1_score(y_test_clf, y_pred, zero_division=0)
    cm = confusion_matrix(y_test_clf, y_pred)
    auc = roc_auc_score(y_test_clf, y_proba) if (y_proba is not None and len(set(y_test_clf))>1) else None
    results[name] = dict(model=model, acc=acc, prec=prec, rec=rec, f1=f1, cm=cm, auc=auc, y_proba=y_proba, y_pred=y_pred)

# Mostrar resumo
for name, r in results.items():
    print(f'--- {name} ---')
    print(f"Accuracy: {r['acc']:.3f}, Precision: {r['prec']:.3f}, Recall: {r['rec']:.3f}, F1: {r['f1']:.3f}")
    print('Confusion matrix:\n', r['cm'])
    if r['auc'] is not None:
        print('AUC:', r['auc'])
    print()

## 12) Curvas ROC e Precision-Recall
Plot das curvas para os modelos que retornam probabilidades.

In [None]:
plt.figure(figsize=(12,5))
plt.subplot(1,2,1)
for name, r in results.items():
    if r['y_proba'] is not None:
        fpr, tpr, _ = roc_curve(y_test_clf, r['y_proba'])
        auc = r['auc'] if r['auc'] is not None else roc_auc_score(y_test_clf, r['y_proba'])
        plt.plot(fpr, tpr, label=f"{name} (AUC={auc:.2f})")
plt.plot([0,1],[0,1],'k--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curves')
plt.legend()

plt.subplot(1,2,2)
for name, r in results.items():
    if r['y_proba'] is not None:
        prec_vals, rec_vals, _ = precision_recall_curve(y_test_clf, r['y_proba'])
        plt.plot(rec_vals, prec_vals, label=name)
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall Curves')
plt.legend()
plt.tight_layout()
plt.show()

## 13) Interpretação e síntese
Comente os pontos fortes/fracos dos modelos, trade-offs entre precisão e recall, e recomendações operacionais.

In [None]:
# Síntese automática (exemplo)
best = max(results.items(), key=lambda kv: kv[1]['f1'])
print('Melhor modelo por F1:', best[0])
print('Métricas do melhor modelo:', {k:v for k,v in best[1].items() if k in ['acc','prec','rec','f1','auc']})

print('\nSíntese:')
print('- Chuva acumulada (24h) é um preditor relevante; verifique interação com maré e vulnerabilidade.')
print('- Se custo de falsos negativos for alto, priorize recall e ajuste thresholds.')

## 14) Pontos de melhoria e próximos passos
- Validação temporal mais rigorosa (rolling-window/backtest).
- Engenharia de features espaciais (lat/lon), uso do solo, infraestrutura.
- Balanceamento de classes, calibração de probabilidades e busca por hiperparâmetros.
- Explicabilidade (SHAP) e integração com dashboard (Streamlit/Folium).

## 15) Como rodar rápido (PowerShell)
Se precisar criar um ambiente virtual e instalar dependências, execute estes comandos no terminal (PowerShell):
```powershell
python -m venv .venv
.\.venv\Scripts\Activate.ps1
python -m pip install --upgrade pip
python -m pip install -r requirements.txt
```

# Localizações candidatas para o dataset (apenas 'simulated_daily.csv' conforme solicitado)
base = Path('..') / 'data' / 'processed'
candidates = [
    base / 'simulated_daily.csv'
]
source
if 'corr' not in globals():
    raise NameError("Variável 'corr' não encontrada — rode a célula do heatmap antes desta.")
if not hasattr(corr, 'columns'):
    raise TypeError("'corr' não parece ser um DataFrame com atributo .columns")
# Pares com correlação absoluta > 0.5
high = []
for i in corr.columns:
    for j in corr.columns:
        if i != j and abs(corr.loc[i, j]) > 0.5:
            pair = tuple(sorted([i, j]))
            high.append((pair[0], pair[1], float(corr.loc[i, j])))
# limpar duplicatas
seen = set()
uniq = []
for a, b, v in high:
    if (a, b) not in seen:
        seen.add((a, b))
        uniq.append((a, b, v))
print('Pares com |r|>0.5:')
if not uniq:
    print('  Nenhum par com |r|>0.5 encontrado.')
else:
    for a, b, v in uniq:
        print(f' - {a} <-> {b}: {v:.2f}')
# Padrões temporais simples (se colunas existirem)
if 'dayofweek' in df.columns and 'rain_24h_sum' in df.columns:
    daily = df.groupby('dayofweek')['rain_24h_sum'].mean()
    print('')
    print('Média de chuva 24h por dia da semana:')
    print(daily)
else:
    print('






Abaixo carregamos explicitamente `../data/processed/real_data_converted.csv`. Se o arquivo não existir, interrompemos e mostramos instruções.## 2) Carregamento e limpeza dos dados (apenas `real_data_converted.csv`)print('- Considere modelos multivariados para separar efeitos de maré e vulnerabilidade local.')print('- Chuva acumulada (24h) tende a apresentar correlação positiva com risk_index; verifique magnitude e significância estatística para confirmação.')print('
Interpretação (sintética):')# Interpretação textual sintetizadaColunas para análise temporal ausentes: dayofweek ou rain_24h_sum')

In [None]:
# Caminho explícito para usar apenas o arquivo simulated_daily.csv (conforme solicitado)
p = Path('..') / 'data' / 'processed' / 'simulated_daily.csv'
if not p.exists():
    raise FileNotFoundError(f'Arquivo esperado não encontrado: {p}. Coloque o arquivo em data/processed com esse nome.')
print('Carregando', p)
df = pd.read_csv(p, parse_dates=['date'], dayfirst=True)
# Mostrar informações básicas
print('shape:', df.shape)
display(df.head())

## 3) Limpeza básica e preparação
Padronizamos data, preenchemos ausentes simples e criamos features temporais necessárias (lags e janelas rolantes). Tudo comentado em cada passo.

In [None]:
# Garantir formato de data e colunas mínimas
df['date'] = pd.to_datetime(df['date'])
required = ['neighborhood','rain_mm','tide_cm']
for col in required:
    if col not in df.columns:
        raise ValueError(f'Coluna obrigatória ausente: {col}')
# Preencher valores NaN simples por mediana por bairro quando apropriado
df['rain_mm'] = df.groupby('neighborhood')['rain_mm'].apply(lambda x: x.fillna(x.median()))
df['tide_cm'] = df.groupby('neighborhood')['tide_cm'].apply(lambda x: x.fillna(x.median()))
# Se vuln_index não existir, preencher com mediana global ou com 0.5 como fallback
if 'vuln_index' not in df.columns:
    df['vuln_index'] = 0.5
# Ordenar e criar features rolling/lags (assumimos frequência próxima a 6H — adaptar se necessário)
df = df.sort_values(['neighborhood','date']).reset_index(drop=True)
# rolling sums e maximas — ajustar min_periods conforme necessidade
df['rain_24h_sum'] = df.groupby('neighborhood')['rain_mm'].rolling(window=4, min_periods=1).sum().reset_index(level=0, drop=True)
df['rain_48h_sum'] = df.groupby('neighborhood')['rain_mm'].rolling(window=8, min_periods=1).sum().reset_index(level=0, drop=True)
df['tide_12h_max'] = df.groupby('neighborhood')['tide_cm'].rolling(window=2, min_periods=1).max().reset_index(level=0, drop=True)
df['rain_lag_1'] = df.groupby('neighborhood')['rain_mm'].shift(1).fillna(0)
df['hour'] = df['date'].dt.hour
df['dayofweek'] = df['date'].dt.dayofweek
# Índice de risco heurístico (proxy) — manter como base para modelos caso não haja label real
df['rain_norm'] = df['rain_24h_sum'] / (df['rain_24h_sum'].max() + 1e-9)
df['tide_norm'] = df['tide_12h_max'] / (df['tide_12h_max'].max() + 1e-9)
df['vuln_norm'] = df['vuln_index'] / (df['vuln_index'].max() + 1e-9)
df['risk_index'] = 0.5 * df['rain_norm'] + 0.35 * df['tide_norm'] + 0.15 * df['vuln_norm']
df['risk_label'] = (df['risk_index'] > df['risk_index'].quantile(0.75)).astype(int)
print('Preparação finalizada — colunas:' , df.columns.tolist())
display(df.head())

## 4) Estatísticas descritivas básicas
Médias, medianas, desvios e contagens por variável relevante e por bairro.

In [None]:
cols = ['rain_mm','tide_cm','rain_24h_sum','rain_48h_sum','tide_12h_max','vuln_index','risk_index']
desc = df[cols].describe().T
desc['missing'] = df[cols].isna().sum().values
display(desc)
# Estatísticas por bairro
counts = df.groupby('neighborhood').agg(total_obs=('date','count'), mean_risk=('risk_index','mean'), pct_high_risk=('risk_label','mean')).reset_index()
display(counts.sort_values('pct_high_risk', ascending=False))

## 5) Visualizações: histogramas, boxplots e gráficos de barras
Visualizações com comentários para interpretação.

In [None]:
# Histograma da chuva 24h
plt.figure()
sns.histplot(df['rain_24h_sum'], bins=30, kde=True, color='tab:blue')
plt.title('Distribuição da chuva 24h (mm)')
plt.xlabel('rain_24h_sum')
plt.show()
# Boxplot de maré por bairro
plt.figure(figsize=(12,6))
order = df.groupby('neighborhood')['tide_cm'].median().sort_values().index
sns.boxplot(data=df, x='neighborhood', y='tide_cm', order=order)
plt.xticks(rotation=45)
plt.title('Boxplot: maré (cm) por bairro')
plt.show()
# Barras: mean risk_index por bairro
plt.figure()
sns.barplot(data=counts.sort_values('mean_risk', ascending=False), x='neighborhood', y='mean_risk')
plt.xticks(rotation=45)
plt.title('Mean risk_index por bairro')
plt.show()

## 6) Dispersões e mapa de calor (correlações)
Scatter plots e heatmap para investigar relações entre variáveis.

In [None]:
# Scatter: chuva acumulada 24h vs risk_index
plt.figure()
sns.scatterplot(data=df, x='rain_24h_sum', y='risk_index', hue='neighborhood', alpha=0.6, s=40)
plt.title('rain_24h_sum vs risk_index')
plt.show()
# Heatmap de correlação
corr = df[cols].corr()
plt.figure(figsize=(8,6))
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Correlação entre variáveis')
plt.show()

## 7) Identificação de padrões e correlações (texto)
Geramos um resumo automático dos pares com correlação alta para orientar interpretações.

In [None]:
# Pares com correlação absoluta > 0.5
high = []
for i in corr.columns:
    for j in corr.columns:
        if i!=j and abs(corr.loc[i,j])>0.5:
            pair = tuple(sorted([i,j]))
            high.append((pair[0],pair[1],corr.loc[i,j]))
# limpar duplicatas
seen=set(); uniq=[]
for a,b,v in high:
    if (a,b) not in seen:
        seen.add((a,b)); uniq.append((a,b,v))
print('Pares com |r|>0.5:')
for a,b,v in uniq:
    print(f'{a} <-> {b}: {v:.2f}')
# Padrões temporais simples
daily = df.groupby('dayofweek')['rain_24h_sum'].mean()
print('Média de chuva 24h por dia da semana:')
print(daily)
# Interpretação textual sintetizada
print('Interpretação (sintética):')
print('- Chuva acumulada (24h) tem correlação positiva com risk_index; confirma a hipótese de que eventos de chuva afetam risco.')
print('- Ajustar modelos multivariados para capturar efeito de marés e vulnerabilidade local.')

## 8) Definição de variáveis dependente e independente
- Regressão: `risk_index` (variável contínua)
- Classificação: `risk_label` (0/1)
- Features exemplo: chuva acumulada, maré, lag e vulnerabilidade.

In [None]:
# Preparar X/y
X_reg = df[['rain_24h_sum']].values
y_reg = df['risk_index'].values
features = ['rain_24h_sum','tide_12h_max','vuln_index','rain_lag_1']
X_clf = df[features].fillna(0).values
y_clf = df['risk_label'].values
print('Regressão: X', X_reg.shape, 'y', y_reg.shape)
print('Classificação: X', X_clf.shape, 'y', y_clf.shape)

## 9) Regressão simples: treino, linha de tendência e análise de resíduos
Usamos LinearRegression para entender relação univariada entre chuva 24h e risk_index.

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
# divisão 80/20 aleatória — para análise exploratória; para produção usar divisão temporal
Xr_train, Xr_test, yr_train, yr_test = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)
lr = LinearRegression()
lr.fit(Xr_train, yr_train)
yr_pred = lr.predict(Xr_test)
print('Coeficiente:', lr.coef_[0], 'Intercept:', lr.intercept_)
print('R^2 (teste):', lr.score(Xr_test, yr_test))
# Visualizar
plt.figure()
plt.scatter(Xr_test, yr_test, alpha=0.6, label='observado')
xs = np.linspace(X_reg.min(), X_reg.max(), 100).reshape(-1,1)
plt.plot(xs, lr.predict(xs), color='red', label='linha tendência')
plt.xlabel('rain_24h_sum')
plt.ylabel('risk_index')
plt.legend()
plt.title('Regressão linear simples')
plt.show()
# Resíduos
residuals = yr_test - yr_pred
plt.figure()
sns.histplot(residuals, kde=True)
plt.title('Distribuição dos resíduos')
plt.show()
print('Resid mean:', residuals.mean(), 'Resid std:', residuals.std())

## 10) Interpretação dos resultados (regressão)
- O coeficiente indica variação esperada no `risk_index` por unidade de `rain_24h_sum`.
- R^2 indica quanto da variância do target é explicada pela chuva univariada.

## 11) Classificação: treinar modelos simples e avaliar
Treinamos LogisticRegression, DecisionTree e KNN. As métricas e gráficos seguem abaixo.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, roc_curve, roc_auc_score, precision_recall_curve
from sklearn.preprocessing import StandardScaler
# divisão temporal simples para diminuir leakage: últimos 20% por data como teste
split_date = df['date'].quantile(0.8)
train_mask = df['date'] <= split_date
test_mask = df['date'] > split_date
# Seleção via DataFrame.loc para manter alinhamento e evitar ambiguidades
features = ['rain_24h_sum','tide_12h_max','vuln_index','rain_lag_1']
X_train_clf = df.loc[train_mask, features].fillna(0).values
X_test_clf = df.loc[test_mask, features].fillna(0).values
y_train_clf = df.loc[train_mask, 'risk_label'].values
y_test_clf = df.loc[test_mask, 'risk_label'].values
# Verificar se temos dados suficientes
if X_train_clf.shape[0] == 0 or X_test_clf.shape[0] == 0:
    raise ValueError('Conjunto de treino ou teste vazio — verifique as datas e o split temporal.')
# Escalar
scaler = StandardScaler()
X_train_clf = scaler.fit_transform(X_train_clf)
X_test_clf = scaler.transform(X_test_clf)
models = {'Logistic': LogisticRegression(max_iter=1000), 'DecisionTree': DecisionTreeClassifier(random_state=42), 'KNN': KNeighborsClassifier(n_neighbors=5)}
results = {}
for name, model in models.items():
    model.fit(X_train_clf, y_train_clf)
    y_pred = model.predict(X_test_clf)
    y_proba = model.predict_proba(X_test_clf)[:,1] if hasattr(model, 'predict_proba') else None
    acc = accuracy_score(y_test_clf, y_pred)
    prec = precision_score(y_test_clf, y_pred, zero_division=0)
    rec = recall_score(y_test_clf, y_pred, zero_division=0)
    f1 = f1_score(y_test_clf, y_pred, zero_division=0)
    cm = confusion_matrix(y_test_clf, y_pred)
    auc = roc_auc_score(y_test_clf, y_proba) if (y_proba is not None and len(set(y_test_clf))>1) else None
    results[name] = dict(model=model, acc=acc, prec=prec, rec=rec, f1=f1, cm=cm, auc=auc, y_proba=y_proba, y_pred=y_pred)
# Mostrar resumo
for name, r in results.items():
    print(f'--- {name} ---')
    print(f"Accuracy: {r['acc']:.3f}, Precision: {r['prec']:.3f}, Recall: {r['rec']:.3f}, F1: {r['f1']:.3f}")
    print('Confusion matrix:\n', r['cm'])
    if r['auc'] is not None:
        print('AUC:', r['auc'])
    print()

## 12) Curvas ROC e Precision-Recall (visual)

In [None]:
plt.figure(figsize=(12,5))
plt.subplot(1,2,1)
for name, r in results.items():
    if r['y_proba'] is not None:
        fpr, tpr, _ = roc_curve(y_test_clf, r['y_proba'])
        plt.plot(fpr, tpr, label=f'{name} (AUC={r['auc']:.2f})')
plt.plot([0,1],[0,1],'k--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curves')
plt.legend()
plt.subplot(1,2,2)
for name, r in results.items():
    if r['y_proba'] is not None:
        prec_vals, rec_vals, _ = precision_recall_curve(y_test_clf, r['y_proba'])
        plt.plot(rec_vals, prec_vals, label=name)
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall Curves')
plt.legend()
plt.tight_layout()
plt.show()

## 13) Interpretação dos resultados (classificação)
Observações: comparar precisão/recall conforme custo de falsos positivos vs falsos negativos; considerar reamostragem se classes desequilibradas.

In [None]:
# Exemplo de síntese automática simples
best = max(results.items(), key=lambda kv: kv[1]['f1'])
print('Melhor modelo por F1:', best[0])
print('Métricas do melhor modelo:', {k:v for k,v in best[1].items() if k in ['acc','prec','rec','f1','auc']})

## 14) Síntese dos achados principais
- Chuva acumulada 24h aparece como preditor relevante do índice de risco; maré e vulnerabilidade também contribuem.
- Modelos simples oferecem baseline; escolher modelo final com base em recall/precision conforme objetivo operacional.

## 15) Pontos de melhoria e próximos passos
- Validação temporal mais rigorosa (rolling-window/backtest).
- Incluir features espaciais (lat/lon, uso do solo).
- Balanceamento de classes e busca de hiperparâmetros.
- Explicabilidade (SHAP) e integração com dashboard (Streamlit/Folium).