# TRABAJO REDES NEURONALES Y APRENDIZAJE ESTAD√çSTICO


Autores: Miguel Bande Rodr√≠guez y Octavian Rotita Ion

# Importamos las librer√≠as necesarias

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
import geopandas as gpd
import folium
from ipywidgets import interact, IntSlider
from IPython.display import display
import seaborn as sns
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
from sklearn.neural_network import MLPRegressor
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint, uniform
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score


# Importamos la base de datos

In [None]:
# La base de datos se encuentra en formato CSV

# Cargamos la base de datos
df = pd.read_csv('./fires-all.csv')

# 1. Preprocesado de la base de datos

## 1.1 Visualizaci√≥n de la base de datos

In [None]:
# Mostramos las primeras 5 filas
print(df.head())

In [None]:
df.info()

Veamos lo que significa cada una de las variables:

| Nombre del campo   | Descripci√≥n |
|--------------------|-------------|
| id                | Identificador del incendio |
| superficie        | Superficie forestal quemada en hect√°reas |
| fecha            | Fecha de detecci√≥n del incendio (formato yyyy-mm-dd) |
| lat              | Latitud geogr√°fica del origen del incendio |
| lng              | Longitud geogr√°fica del origen del incendio |
| latlng_explicit  | Indica si se dispone de coordenadas geogr√°ficas del incendio (1) o se han usado las coordenadas del municipio de origen del incendio (0) |
| comunidad        | Identificador de la CC.AA. |
| provincia        | Identificador de la provincia |
| municipio        | Nombre del municipio |
| causa           | Identificador de la causa del incendio |
| causa_supuesta  | Es ‚Äò1‚Äô si la causa es supuesta, si no en blanco |
| causa_desc      | Identificador de la descripci√≥n de la causa del incendio |
| muertos         | N√∫mero de muertos en el incendio |
| heridos         | N√∫mero de heridos en el incendio |
| time_ctrl       | Tiempo transcurrido hasta entrar en fase de control del incendio (en minutos) |
| time_ext        | Tiempo transcurrido hasta la extinci√≥n del incendio (en minutos) |
| personal        | N√∫mero de personas que han participado en la extinci√≥n del incendio (incluye t√©cnicos, agentes forestales, brigadas, bomberos, voluntarios, guardias civiles y ej√©rcito) |
| medios          | N√∫mero de medios terrestres y a√©reos que han participado en la extinci√≥n del incendio (incluye autobombas, bulldozers, tractores, aviones y otros) |
| gastos          | Gastos de extinci√≥n asociados al incendio tal y como figuran en EGIF |
| perdidas        | P√©rdidas econ√≥micas asociadas al incendio tal y como figuran en EGIF |


Haciendo una breve exploraci√≥n de la base de datos, podemos ver que no tenemos informaci√≥n de latitud y longitud hasta el a√±o 1983. Adem√°s, a partir de 2017 hay provincias que han dejado de proporcionar informaci√≥n.

Vamos a convertir a datetime

In [None]:
# Convirtamos la casilla fecha a datetime

df['fecha'] = pd.to_datetime(df['fecha'])

In [None]:
# Hemos decidido eliminar las inconsistencias relacionadas con la fecha que hemos descrito anteriormente. Es por esto que nos quedaremos con los datos a partir del 1 de enero del 1983 hasta el 31 de diciembre de 2016

df = df[(df['fecha'] >= '1983-01-01') & (df['fecha'] <= '2016-12-31')]
df.info()


Podemos ver que seguimos teniendo valores missing en latitud y longitud, visualic√©molos y decidamos que hacer con ellos.

In [None]:
# Veamos los missings de latitud y longitud

df[df['lat'].isnull()]

Vemos que dichos valores missing en latitud y en longitud se corresponden con categor√≠as en las cuales municipio se corresponde con: otra provincia, portugal o francia. Almodovar de Monterrey es un municipio que ha pasado por diversos procesos de separaci√≥n y agregaci√≥n (en cuanto a terrenos). Como es solamente uno el que no tiene valores en latitud y longitud, elimin√©moslo.

In [None]:
df.drop(df[df['lat'].isnull()].index, inplace=True)

df.info()

Como la informaci√≥n del municipio la podemos obtener en funci√≥n de las variables latitud y longitud, vamos a eliminar dicha variable del dataset.

In [None]:
# Eliminemos la variable municipio

df.drop('municipio', axis=1, inplace=True)
df.drop('idmunicipio', axis=1, inplace=True)



In [None]:
df.info()

Estudiemos ahora las comunidades y las provincias

In [None]:
# En primer lugar veamos la codificaci√≥n de las comunidades aut√≥nomas (estas se encuentran en la base de datos del ministerio de transici√≥n ecol√≥gica (EGIF))

dict_ccaa = {
    '1': 'Euskadi',
    '2': 'Catalu√±a',
    '3': 'Galicia',
    '4': 'Andaluc√≠a',
    '5': 'Asturias',
    '6': 'Cantabria',
    '7': 'La Rioja',
    '8': 'Murcia',
    '9': 'C. Valenciana',
    '10': 'Arag√≥n',
    '11': 'Castilla la Mancha',
    '12': 'Canarias',
    '13': 'Navarra',
    '14': 'Extremadura',
    '15': 'Illes Balears',
    '16': 'Madrid',
    '17': 'Castilla y Le√≥n',
    '18': 'Ceuta',
    '19': 'Melilla',
    '99': 'Otro pa√≠s'
}

In [None]:
# Hagamos un value counts de idcomunidad para ver si los datos son consistentes con el mapa. Junt√©molos con el diccionario para saber que comunidad aut√≥noma es cada id

df['idcomunidad'] = df['idcomunidad'].astype(str)
df['comunidad'] = df['idcomunidad'].map(dict_ccaa)

df['comunidad'].value_counts()

Vemos que no aparece 'Otro pa√≠s', por lo que el filtrado anterior lo hemos hecho correctamente.

In [None]:
# Hacemos ahora un diccionario para representar las causas de los incendios

causas_incendios = {
    1: "Fuego por rayo",
    2: "Fuego por accidente o negligencia",
    3: "Fuego por accidente o negligencia",
    4: "Fuego intencionado",
    5: "Fuego por causa desconocida",
    6: "Incendio reproducido"
}

### Distribuci√≥n geogr√°fica de los incendios

In [None]:
# Extraer el a√±o de la fecha
df["a√±o"] = df["fecha"].dt.year
colores = ['yellow', 'blue', 'blue', 'red', 'purple', 'orange']

# Obtener rango de a√±os disponibles
min_a√±o, max_a√±o = df["a√±o"].min(), df["a√±o"].max()

def mostrar_mapa(a√±o):
    # Filtrar los datos por el a√±o seleccionado
    df_filtrado = df[df["a√±o"] == a√±o]

    # Crear un mapa centrado en Espa√±a
    mapa = folium.Map(location=[40.0, -3.5], zoom_start=5)

    # Agregar los puntos al mapa
    for _, row in df_filtrado.iterrows():
        folium.CircleMarker(
            location=[row["lat"], row["lng"]],
            radius=(row["superficie"]-20)/215,
            color=colores[row["causa"]-1],
            fill=True,
            fill_color= colores[row["causa"]-1],
            fill_opacity=0.5,
        ).add_to(mapa)

    return mapa

# Crear el widget de selecci√≥n de a√±o
interact(mostrar_mapa, a√±o=IntSlider(min=min_a√±o, max=max_a√±o, step=1, value=min_a√±o))


In [None]:
# Filtrar los datos por el a√±o seleccionado
df_filtrado = df[df["a√±o"] == 1983]

# Crear un mapa centrado en Espa√±a
mapa = folium.Map(location=[40.0, -3.5], zoom_start=5)

# Agregar los puntos al mapa
for _, row in df_filtrado.iterrows():
    folium.CircleMarker(
        location=[row["lat"], row["lng"]],
        radius=(row["superficie"]-20)/215,
        color=colores[row["causa"]-1],
        fill=True,
        fill_color= colores[row["causa"]-1],
        fill_opacity=0.5,
    ).add_to(mapa)

mapa.save("mapa_interactivo.html")


Visualizaci√≥n de algunos histogramas

### N√∫mero de incendios por a√±o

In [None]:
incendios_por_a√±o = df["a√±o"].value_counts().reset_index()
incendios_por_a√±o.columns = ["A√±o", "Cantidad de Incendios"]
incendios_por_a√±o = incendios_por_a√±o.sort_values("A√±o")

fig = px.bar(
    incendios_por_a√±o, 
    x="A√±o", 
    y="Cantidad de Incendios", 
    title="N√∫mero de Incendios en Espa√±a por A√±o",
    labels={"A√±o": "A√±o", "Cantidad de Incendios": "N√∫mero de Incendios"},
    text_auto=True,
)

# Mostrar el gr√°fico
fig.show()


### Distribuci√≥n de superficie quemada

In [None]:
fig = px.histogram(
    df, x="superficie", nbins=40, 
    title="Distribuci√≥n de Superficie Quemada",
    labels={"superficie": "Superficie quemada (ha)"},
)
fig.show()


### Distribuci√≥n de incendios por mes y a√±o

In [None]:
import plotly.graph_objects as go

# Agrupar por a√±o y mes
df["mes"] = df["fecha"].dt.month
heatmap_data = df.groupby(["a√±o", "mes"]).size().reset_index(name="incendios")

fig = px.density_heatmap(
    heatmap_data, x="mes", y="a√±o", z="incendios",
    title="Incendios por Mes y A√±o",
    labels={"mes": "Mes", "a√±o": "A√±o", "incendios": "Cantidad"},
    color_continuous_scale="reds"
)
fig.show()


### Relaci√≥n entre tiempo de extinci√≥n y superficie quemada

In [None]:
fig = px.scatter(
    df, y="superficie", x = "time_ext",
    title="Relaci√≥n entre Tiempo de Extinci√≥n y Superficie Quemada",
    labels={"time_ext": "Tiempo de Extinci√≥n (min)", "superficie": "Superficie Quemada (ha)"},
    log_y=True,
    log_x=True
)
fig.show()


In [None]:
fig = px.scatter(
    df, y="superficie", x = "time_ctrl",
    title="Relaci√≥n entre Tiempo de Control y Superficie Quemada",
    labels={"time_ext": "Tiempo de Control (min)", "superficie": "Superficie Quemada (ha)"},
    log_y=True,
    log_x=True
)
fig.show()


In [None]:
# Mapear las causas al nombre correspondiente
df["causa_map"] = df["causa"].map(causas_incendios)

# Contar los incendios por causa
causas_contadas = df["causa_map"].value_counts().reset_index()
causas_contadas.columns = ["Causa", "Cantidad"]

# Crear gr√°fico de pastel
fig = px.pie(
    causas_contadas, 
    names="Causa", 
    values="Cantidad",
    title="Distribuci√≥n de Causas de Incendios",
)

fig.show()


### Estad√≠sticos de las variables presentes en el dataset

In [None]:
df.describe().transpose()

In [None]:
# Vemos que hay varios casos con p√©rdidas negativas. Esto no tiene sentido alguno. Vamos a eliminar estas inconsistencias.

df = df[df['perdidas'] >= 0]

### Tiempo promedio de extinci√≥n de incendios por comunidad

In [None]:
# Asegurar que la columna "comunidad" es categ√≥rica y "time_ext" es num√©rico
df["comunidad"] = df["comunidad"].astype(str)
df["time_ext"] = pd.to_numeric(df["time_ext"], errors="coerce")

# Calcular el tiempo medio de extinci√≥n por comunidad
extincion_por_comunidad = df.groupby("comunidad")["time_ext"].mean().reset_index()

# Crear el gr√°fico de barras
fig = px.bar(
    extincion_por_comunidad,
    x="comunidad",
    y="time_ext",
    title="Tiempo Promedio de Extinci√≥n de Incendios por Comunidad",
    labels={"comunidad": "Comunidad Aut√≥noma", "time_ext": "Tiempo de Extinci√≥n (min)"},
    text_auto=True,
)

# Rotar etiquetas del eje X para mejor visibilidad
fig.update_layout(xaxis_tickangle=-45)

# Mostrar el gr√°fico
fig.show()

### Superficie media quemada por comunidad

In [None]:
# Asegurar que la columna "comunidad" es categ√≥rica y "time_ext" es num√©rico
df["comunidad"] = df["comunidad"].astype(str)

# Calcular la superficie media quemada por comunidad
extincion_por_comunidad = df.groupby("comunidad")["superficie"].mean().reset_index()

# Crear el gr√°fico de barras
fig = px.bar(
    extincion_por_comunidad,
    x="comunidad",
    y="superficie",
    title="Superficie media quemada por Comunidad",
    labels={"comunidad": "Comunidad Aut√≥noma", "time_ext": "Tiempo de Extinci√≥n (min)"},
    text_auto=True,
)

# Rotar etiquetas del eje X para mejor visibilidad
fig.update_layout(xaxis_tickangle=-45)

# Mostrar el gr√°fico
fig.show()

In [None]:
# Especificar el orden de las comunidades
orden_comunidades = [
    "C. Valenciana", "Arag√≥n", "Cantabria", "Catalu√±a", "Asturias", "La Rioja", 
    "Euskadi", "Andaluc√≠a", "Galicia", "Castilla y Le√≥n", "Castilla la Mancha", 
    "Canarias", "Illes Balears", "Extremadura", "Murcia", "Madrid", "Navarra", "Ceuta"
]

# Crear el gr√°fico de barras
plt.figure(figsize=(20, 5))
sns.barplot(
    data=extincion_por_comunidad,
    x="comunidad",
    y="superficie",
    order=orden_comunidades
)

# A√±adir t√≠tulo y etiquetas
plt.xlabel("Comunidad Aut√≥noma")
plt.ylabel("Superficie Media Quemada")

# Rotar etiquetas del eje X para mejor visibilidad
plt.xticks(rotation=-45)

# Mostrar el gr√°fico
plt.show()


### Superficie total quemada por Comunidad

In [None]:
# Asegurar que la columna "comunidad" es categ√≥rica y "time_ext" es num√©rico
df["comunidad"] = df["comunidad"].astype(str)

# Calcular la superficie total quemada por comunidad
extincion_por_comunidad = df.groupby("comunidad")["superficie"].sum().reset_index()

# Crear el gr√°fico de barras
fig = px.bar(
    extincion_por_comunidad,
    x="comunidad",
    y="superficie",
    title="Superficie total quemada por Comunidad",
    labels={"comunidad": "Comunidad Aut√≥noma", "time_ext": "Tiempo de Extinci√≥n (min)"},
    text_auto=True,
)

# Rotar etiquetas del eje X para mejor visibilidad
fig.update_layout(xaxis_tickangle=-45)

# Mostrar el gr√°fico
fig.show()

In [None]:
# Lista de variables a analizar con boxplots
variables_boxplot = ["superficie", "time_ext", "time_ctrl", "muertos", "heridos", "personal", "gastos", "perdidas"]

# Crear gr√°ficos de boxplot para cada variable
fig, axes = plt.subplots(nrows=1, ncols=8, figsize=(20, 4))
fig.suptitle("Detecci√≥n de Outliers en Variables Clave", fontsize=16)

# Dibujar cada boxplot
for ax, variable in zip(axes.flatten(), variables_boxplot):
    sns.boxplot(y=df[variable], ax=ax)

# Ajustar el layout para mejor visualizaci√≥n
plt.tight_layout(rect=[0, 0, 1, 0.96])
plt.show()


In [None]:
# Lista de columnas a transformar
cols_to_transform = ["superficie", "time_ext", "time_ctrl", "muertos", "heridos", "personal", "gastos", "perdidas"]


# Aplicar la transformaci√≥n log(1 + x)
df[cols_to_transform] = df[cols_to_transform].apply(lambda x: np.log1p(x))

In [None]:
df.info()

### Representaci√≥n box-plot para detecci√≥n de outliers

In [None]:
# Lista de variables a analizar con boxplots
variables_boxplot = ["superficie", "time_ext", "time_ctrl", "muertos", "heridos", "personal", "gastos", "perdidas"]

# Crear gr√°ficos de boxplot para cada variable
fig, axes = plt.subplots(nrows=1, ncols=8, figsize=(20, 4))
fig.suptitle("Detecci√≥n de Outliers en Variables Clave", fontsize=16)

# Dibujar cada boxplot
for ax, variable in zip(axes.flatten(), variables_boxplot):
    sns.boxplot(y=df[variable], ax=ax)

# Ajustar el layout para mejor visualizaci√≥n
plt.tight_layout(rect=[0, 0, 1, 0.96])
plt.show()


In [None]:
df.info()

In [None]:
# Veamos los diagramas de caja y bigote de superficie (logaritmo) por causa

plt.figure(figsize=(12, 6))
sns.boxplot(data=df, x="causa_map", y="superficie")
plt.tight_layout()


In [None]:
# Veamos los diagramas de caja y bigote de superficie (logaritmo) por causa

plt.figure(figsize=(21, 9))
sns.boxplot(data=df, x="comunidad", y="superficie")
plt.tight_layout()


## 1.2. Selecci√≥n de variables predictoras

### Matriz de correlaciones

In [None]:
# Seleccionar solo columnas de inter√©s para el an√°lisis de correlaci√≥n
variables_corr = ["superficie", "time_ext", "time_ctrl", "personal", "gastos", "perdidas"]
df_numeric = df[variables_corr].apply(pd.to_numeric, errors="coerce")  # Convertir a num√©rico y forzar errores a NaN

# Calcular la matriz de correlaci√≥n
correlation_matrix = df_numeric.corr()

# Crear el heatmap de correlaci√≥n
plt.figure(figsize=(10, 6))
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt=".2f", linewidths=0.5)
plt.title("Matriz de Correlaci√≥n entre Variables de Incendios")
plt.show()


Observamos que las variables m√°s correlacionadas entre s√≠ son el tiempo de control y el tiempo de extinci√≥n, pero no est√°n altamente correlacionadas, por lo que decidimos usar ambas variables para entrenamiento de modelo. Adem√°s, conocer el tiempo de extinci√≥n y el tiempo de contro simult√°neamente nos puede indicar la magnitud de superficie quemada, ya que un incendio que ha tardado m√°s tiempo en extinguirse desde el momento que se considera controlado ha podido ser m√°s devastador.

### Importancia de variables con modelos basados en √°rboles

In [None]:
# Definir variables predictoras y objetivo
X = df[["time_ext", "time_ctrl", "personal", "gastos", "perdidas"]]
y = df["superficie"]

# Entrenar modelo Random Forest
rf = RandomForestRegressor(n_estimators=100, random_state=42)
rf.fit(X, y)

# Extraer importancia de variables
importances = pd.DataFrame({"Variable": X.columns, "Importancia": rf.feature_importances_})
importances = importances.sort_values(by="Importancia", ascending=False)

In [None]:
plt.bar(importances["Variable"], importances["Importancia"], color="red", alpha = 0.5, edgecolor="black")
plt.title("Importancia de Variables en el Modelo")
plt.xlabel("Variable")
plt.ylabel("Importancia")
plt.show()


### Utilizar pruebas estad√≠sticas para seleccionar las mejores caracter√≠sticas con K Best

In [None]:
# Aplicar prueba estad√≠stica
selector = SelectKBest(score_func=f_regression, k=3)
X_new = selector.fit_transform(X, y)

# Ver qu√© variables fueron seleccionadas
selected_features = X.columns[selector.get_support()]
selected_features


# 2. Entrenamiento red neuronal

## 2.1 Divisi√≥n del conjunto en entrenamiento y test (con el fin de evaluar nuestro regresor)

In [None]:
# Para ello, vamos a usar la librer√≠a de sklearn train_test_split.

# En primer lugar nos quedamos con las variables predictoras y la variable objetivo

X = df[['time_ext', 'time_ctrl', 'personal', 'perdidas', 'idcomunidad']]
# X = df[['idcomunidad','causa','time_ext', 'time_ctrl', 'personal', 'gastos', 'perdidas']]
y = df['superficie']

# Dividimos los datos en entrenamiento y test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


## 2.2 Codificaci√≥n de las variables categ√≥ricas y normalizaci√≥n de las variables num√©ricas


In [None]:
# Variables categ√≥ricas y num√©ricas
categorical_features = ['idcomunidad']#['causa']#, 'idcomunidad']
numerical_features = ['time_ext', 'time_ctrl', 'personal', 'perdidas']

# Crear pipeline con One-Hot Encoding y Normalizaci√≥n
preprocessor = ColumnTransformer(transformers=[
    ('num', StandardScaler(), numerical_features),  # Normalizar variables num√©ricas
    ('cat', OneHotEncoder(drop='first'), categorical_features)  # One-Hot Encoding en categ√≥ricas
])

# Transformar los datos
X_train_transformed = preprocessor.fit_transform(X_train)
X_test_transformed = preprocessor.transform(X_test)

In [None]:
X_train_transformed.shape, X_test_transformed.shape

## 2.3 Uso de cross-validation para calcular los hiperpar√°metros √≥ptimos de la red neuronal

In [None]:
# Definir la red neuronal base
mlp = MLPRegressor(max_iter=500, random_state=42)

# Definir los hiperpar√°metros a optimizar
param_grid = {
    'hidden_layer_sizes': [(24,), (32,), (32, 16)],  # Diferentes arquitecturas
    'activation': ['relu', 'tanh'],  # Funciones de activaci√≥n
    'solver': ['adam'],  # Algoritmos de optimizaci√≥n
    'alpha': [0.0001, 0.001, 0.01],  # Regularizaci√≥n L2 (distribuci√≥n uniforme)
    'learning_rate': ['constant', 'adaptive'],  # Tipo de tasa de aprendizaje
}


# Ejecutar la b√∫squeda con Cross-Validation
grid_search = GridSearchCV(mlp, 
                            param_grid,
                             cv=5, # Cross-validation con 5 folds
                             scoring='neg_mean_squared_error',  # Minimizar MAE
                             n_jobs=-1, # Usar todos los n√∫cleos disponibles
                             verbose=2) # Mostrar progreso

grid_search.fit(X_train_transformed, y_train)

# Imprimir los mejores par√°metros encontrados
print("Mejores hiperpar√°metros:", grid_search.best_params_)

# Evaluar el mejor modelo
best_mlp = grid_search.best_estimator_
y_pred = best_mlp.predict(X_test_transformed)

# Evaluaci√≥n
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"üìâ MAE: {mae:.2f} hect√°reas")
print(f"üìâ MSE: {mse:.2f} hect√°reas¬≤")
print(f"üìä R¬≤ Score: {r2:.2f}")



In [None]:
# Vamos a entrenar una red neuronal sola

# Crear la red neuronal
mlp = MLPRegressor(hidden_layer_sizes=(32,16),  # 2 capas ocultas con 64 y 32 neuronas
                    activation='tanh',  # Funci√≥n de activaci√≥n ReLU
                    solver='adam',  # Optimizador Adam
                    alpha=0.0001,  # Regularizaci√≥n L2
                    learning_rate='constant',  # Ajuste din√°mico de tasa de aprendizaje
                    max_iter=500,  # N√∫mero de iteraciones de entrenamiento
                    random_state=42)

# Entrenar la red
mlp.fit(X_train_transformed, y_train)

# Predicciones en datos de prueba
y_pred = mlp.predict(X_test_transformed)

In [None]:
# üìä Evaluaci√≥n del modelo
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"üìâ MAE (Error Absoluto Medio): {mae:.2f} hect√°reas")
print(f"üìâ MSE (Error Cuadr√°tico Medio): {mse:.2f} hect√°reas¬≤")
print(f"üìä R¬≤ Score (Precisi√≥n del modelo): {r2:.2f}")


### Veamos las predicciones

In [None]:
import folium
import pandas as pd
import numpy as np
from folium.plugins import MarkerCluster
from branca.element import Template, MacroElement


color = ['yellow', 'blue', 'blue', 'red', 'purple', 'orange']
# Definir umbral de error (en hect√°reas)
umbral_error = 0  # Modificar seg√∫n necesidad

# Crear un DataFrame con los resultados
resultados = pd.DataFrame({
    'Real': y_test,
    'Predicho': y_pred
})

# Calcular el error absoluto
resultados['Error'] = np.abs(resultados['Real'] - resultados['Predicho'])

resultados['id'] = X_test.index  # Asigna el √≠ndice de X_test como identificador
df['id'] = df.index  # Si df tampoco tiene id, usa su √≠ndice

# üìå Asegurar que df tiene 'id', 'lat', y 'lng' y hacer la uni√≥n correctamente
resultados = resultados.merge(df, on='id', how='left')  # Cambia 'id' si el nombre es distinto

# Filtrar puntos con error superior al umbral
errores_significativos = resultados[resultados['Error'] > umbral_error]

# Soluci√≥n: Eliminar NaN antes de usar Folium
errores_significativos = errores_significativos.dropna(subset=['lat', 'lng'])

# Crear mapa centrado en la media de los puntos
mapa = folium.Map(location=[errores_significativos['lat'].mean(), 
                            errores_significativos['lng'].mean()], zoom_start=6)


# Agrupar los marcadores
marker_cluster = MarkerCluster().add_to(mapa)


# Agregar puntos al mapa
for _, fila in errores_significativos.iterrows():
    folium.CircleMarker(
        location=[fila['lat'], fila['lng']],
        radius=fila['superficie'],
        color=color[fila["causa"]-1],
        fill=True,
        fill_color=color[fila["causa"]-1],
        fill_opacity=0.6,
        popup=f"Real: {np.exp(fila['Real'])-1:.2f} ha \n Predicho: {np.exp(fila['Predicho'])-1:.2f} ha \n Error: {fila['Error']:.2f} ha \n Causa: {fila['causa_map']}"
    ).add_to(marker_cluster)


# Mostrar el mapa interactivo
mapa

In [None]:
mapa.save("mapa_interactivo_predicciones.html")


### Mapa interactivo de los incendios cuya predicci√≥n difiere 19 hect√°reas del valor real

In [None]:
import folium
import pandas as pd
import numpy as np
from folium.plugins import MarkerCluster
from branca.element import Template, MacroElement


color = ['yellow', 'blue', 'blue', 'red', 'purple', 'orange']
# Definir umbral de error (en hect√°reas)
umbral_error = 3  # Modificar seg√∫n necesidad

# Crear un DataFrame con los resultados
resultados = pd.DataFrame({
    'Real': y_test,
    'Predicho': y_pred
})

# Calcular el error absoluto
resultados['Error'] = np.abs(resultados['Real'] - resultados['Predicho'])

resultados['id'] = X_test.index  # Asigna el √≠ndice de X_test como identificador
df['id'] = df.index  # Si df tampoco tiene id, usa su √≠ndice

# üìå Asegurar que df tiene 'id', 'lat', y 'lng' y hacer la uni√≥n correctamente
resultados = resultados.merge(df, on='id', how='left')  # Cambia 'id' si el nombre es distinto

# Filtrar puntos con error superior al umbral
errores_significativos = resultados[resultados['Error'] > umbral_error]

# Soluci√≥n: Eliminar NaN antes de usar Folium
errores_significativos = errores_significativos.dropna(subset=['lat', 'lng'])

# Crear mapa centrado en la media de los puntos
mapa = folium.Map(location=[errores_significativos['lat'].mean(), 
                            errores_significativos['lng'].mean()], zoom_start=6)


# Agrupar los marcadores
marker_cluster = MarkerCluster().add_to(mapa)


# Agregar puntos al mapa
for _, fila in errores_significativos.iterrows():
    folium.CircleMarker(
        location=[fila['lat'], fila['lng']],
        radius=fila['superficie'],
        color=color[fila["causa"]-1],
        fill=True,
        fill_color=color[fila["causa"]-1],
        fill_opacity=0.6,
        popup=f"Real: {np.exp(fila['Real'])-1:.2f} ha \n Predicho: {np.exp(fila['Predicho'])-1:.2f} ha \n Error: {fila['Error']:.2f} ha \n Causa: {fila['causa_map']}"
    ).add_to(marker_cluster)


# Mostrar el mapa interactivo
mapa

In [None]:
mapa.save("mapa_interactivo_predicciones_3.html")