# Limpieza y EDA simulado con datos de claude

In [8]:
import pandas as pd

In [9]:
df = pd.read_csv("juguete_final.csv")
df.head()

Unnamed: 0,estacion_verano,estacion_otoño,estacion_invierno,estacion_primavera,temperat_2m,runoff_sum,volumetric_soil_water_layer_1,precipitation_sum_open_meteo,precipitation_d_1,precipitation_d_2,...,suelo_lagunas,suelo_alfisoles,suelo_inceptisoles,suelo_rio,suelo_salinas,suelo_ultisoles,suelo_vertisoles,suelo_medano,suelo_esteros,inundacion
0,1,0,0,0,298.5,0.012,0.25,45.2,8.5,12.3,...,0,0,0,0,0,0,0,0,0,False
1,1,0,0,0,301.2,0.008,0.18,22.7,3.2,5.1,...,0,0,0,0,0,0,0,0,0,False
2,0,1,0,0,288.3,0.045,0.38,156.8,42.5,38.2,...,0,0,1,0,0,0,0,0,0,True
3,0,0,1,0,276.8,0.028,0.42,98.4,18.3,22.7,...,0,1,0,0,0,0,0,0,0,False
4,0,0,0,1,290.5,0.035,0.35,112.3,25.4,28.9,...,0,0,0,0,0,0,0,0,0,False


In [10]:
df['temperat_2m'] = (df['temperat_2m'] - 273.15).round(2)
df.head()

Unnamed: 0,estacion_verano,estacion_otoño,estacion_invierno,estacion_primavera,temperat_2m,runoff_sum,volumetric_soil_water_layer_1,precipitation_sum_open_meteo,precipitation_d_1,precipitation_d_2,...,suelo_lagunas,suelo_alfisoles,suelo_inceptisoles,suelo_rio,suelo_salinas,suelo_ultisoles,suelo_vertisoles,suelo_medano,suelo_esteros,inundacion
0,1,0,0,0,25.35,0.012,0.25,45.2,8.5,12.3,...,0,0,0,0,0,0,0,0,0,False
1,1,0,0,0,28.05,0.008,0.18,22.7,3.2,5.1,...,0,0,0,0,0,0,0,0,0,False
2,0,1,0,0,15.15,0.045,0.38,156.8,42.5,38.2,...,0,0,1,0,0,0,0,0,0,True
3,0,0,1,0,3.65,0.028,0.42,98.4,18.3,22.7,...,0,1,0,0,0,0,0,0,0,False
4,0,0,0,1,17.35,0.035,0.35,112.3,25.4,28.9,...,0,0,0,0,0,0,0,0,0,False


In [12]:
# Preparar entradas (X) y salida (y) para el modelo
# - Target: columna 'inundacion' (True/False → 1/0)
# - Features: todas las demás columnas (ya limpias y encodeadas)

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

print("Columnas disponibles:\n", df.columns.tolist())
print("Shape del dataframe:", df.shape)

# --- Definir target y features ---
target = 'inundacion'
features = [col for col in df.columns if col != target]

print(f"\nTarget: {target}")
print(f"Features: {len(features)} columnas")

# --- Preparar X (features) y y (target) ---
X = df[features].to_numpy(dtype=float)
y = df[target].to_numpy()

# Convertir True/False a 1/0
y = y.astype(int)

print(f"\nShapes: X={X.shape}, y={y.shape}")
print(f"Distribución del target: {np.bincount(y)} (0=False, 1=True)")

# --- Split train/test con estratificación ---
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"\nShapes después del split:")
print(f"  X_train={X_train.shape}, y_train={y_train.shape}")
print(f"  X_test={X_test.shape}, y_test={y_test.shape}")

# --- Escalado (StandardScaler) ---
# IMPORTANTE: El escalado es crucial para redes neuronales porque:
# - Acelera la convergencia del entrenamiento
# - Evita que variables con rangos grandes dominen el aprendizaje
# - Mejora la estabilidad numérica y el rendimiento de las funciones de activación
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(f"\n✓ Datos escalados y listos para el modelo!")

# --- Variables listas para usar ---
# X_train_scaled, X_test_scaled  -> datos de entrada escalados
# y_train, y_test                -> etiquetas binarias (0/1)
# scaler                         -> para transformar datos nuevos en producción

Columnas disponibles:
 ['estacion_verano', 'estacion_otoño', 'estacion_invierno', 'estacion_primavera', 'temperat_2m', 'runoff_sum', 'volumetric_soil_water_layer_1', 'precipitation_sum_open_meteo', 'precipitation_d_1', 'precipitation_d_2', 'precipitation_d_3', 'precipitation_d_4', 'precipitation_d_5', 'precipitation_d_6', 'suelo_roca', 'suelo_entisoles', 'suelo_miscelaneas', 'suelo_molisoles', 'suelo_aridisoles', 'suelo_complejo_indiferenci', 'suelo_lagunas', 'suelo_alfisoles', 'suelo_inceptisoles', 'suelo_rio', 'suelo_salinas', 'suelo_ultisoles', 'suelo_vertisoles', 'suelo_medano', 'suelo_esteros', 'inundacion']
Shape del dataframe: (15, 30)

Target: inundacion
Features: 29 columnas

Shapes: X=(15, 29), y=(15,)
Distribución del target: [9 6] (0=False, 1=True)

Shapes después del split:
  X_train=(12, 29), y_train=(12,)
  X_test=(3, 29), y_test=(3,)

✓ Datos escalados y listos para el modelo!


In [None]:
import tensorflow as tf
import tensorflow.keras as kr

from IPython.core.display import display, HTML


lr = 0.01           # learning rate
nn = [2, 16, 8, 1]  # número de neuronas por capa.

# Creamos el objeto que contendrá a nuestra red neuronal, como
# secuencia de capas.
model = kr.Sequential()

# Añadimos la capa 1
l1 = model.add(kr.layers.Dense(nn[1], activation='relu'))

# Añadimos la capa 2
l2 = model.add(kr.layers.Dense(nn[2], activation='relu'))

# Añadimos la capa 3
l3 = model.add(kr.layers.Dense(nn[3], activation='sigmoid'))

# Compilamos el modelo, definiendo la función de coste y el optimizador.
model.compile(loss='mse', optimizer=kr.optimizers.SGD(lr=0.05), metrics=['acc'])

# Y entrenamos al modelo. Los callbacks 
model.fit(X, Y, epochs=100)