In [152]:
# Librería para comando de sistema
import os
# Librerías para manejo de datos
import pandas as pd
import numpy as np
# Librerías de aprendizaje automático.
# Para realizar la separación del conjunto de aprendizaje en entrenamiento y test.
from sklearn.model_selection import train_test_split
# Para construir un modelo con el algoritmo de regresión lineal
from sklearn.linear_model import LinearRegression
# Para determinar el rendimiento del modelo con las métricas MSE, MAE y R2
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
# Para sacar un reporte estadístico que podemos usar para determinar las importancia de las variables explicativas.
import statsmodels.api as sm 
import joblib

In [153]:
datos = pd.read_excel("datos_proyecto_modulo2.xlsx")
datos.head()

Unnamed: 0,area_quemada,clase_incendio,mes_incendio,vegetacion,Prec_pre_30,Prec_pre_15,Prec_pre_7,Prec_cont
0,3.0,B,Diciembre,Desierto polar_roca,59.8,8.4,0.0,86.8
1,60.0,C,Febrero,Bosque tropical perennifolio secundario,168.8,42.2,18.1,124.5
2,1.0,B,Junio,Bosque tropical perennifolio,10.4,7.2,0.0,0.0
3,5.2,B,Enero,Matorral abierto,26.0,0.0,0.0,0.0
4,1.0,B,Noviembre,Matorral abierto,28.4,27.5,1.2,55.4


In [154]:
datos.shape

(37759, 8)

In [155]:
data_t = datos  

In [156]:
data_t.isna().sum()

area_quemada      0
clase_incendio    0
mes_incendio      0
vegetacion        0
Prec_pre_30       0
Prec_pre_15       0
Prec_pre_7        0
Prec_cont         0
dtype: int64

In [157]:
# Verificar si hay filas duplicadas en el DataFrame
duplicados = data_t.duplicated()

# Contar el número de duplicados
num_duplicados = duplicados.sum()

# Mostrar el resultado
if num_duplicados > 0:
    print(f"Hay {num_duplicados} filas duplicadas en el DataFrame.")
else:
    print("No hay filas duplicadas en el DataFrame.")

Hay 11365 filas duplicadas en el DataFrame.


In [158]:
pd.value_counts(data_t['clase_incendio'])


  pd.value_counts(data_t['clase_incendio'])


clase_incendio
B    24554
C     7363
G     2997
F     1426
D      954
E      465
Name: count, dtype: int64

In [159]:
pd.value_counts(data_t['mes_incendio'])

  pd.value_counts(data_t['mes_incendio'])


mes_incendio
Marzo         5241
Abril         5003
Julio         4253
Agosto        4087
Junio         3485
Febrero       3130
Mayo          2943
Septiembre    2359
Enero         2156
Octubre       2141
Noviembre     1798
Diciembre     1163
Name: count, dtype: int64

In [160]:
pd.value_counts(data_t['vegetacion'])

  pd.value_counts(data_t['vegetacion'])


vegetacion
Matorral abierto                           11949
Bosque tropical perennifolio secundario     8087
Desierto polar_roca                         7510
Bosque tropical perennifolio                6531
Pradera_estepa                              2618
Bosque templado                              619
Desierto                                     445
Name: count, dtype: int64

In [161]:
# Se realiza la transformación de estas variables a dummies.
data_t = pd.get_dummies(data_t, columns=['clase_incendio', 'mes_incendio', 'vegetacion'], dtype=int)


In [162]:
data_t.head()

Unnamed: 0,area_quemada,Prec_pre_30,Prec_pre_15,Prec_pre_7,Prec_cont,clase_incendio_B,clase_incendio_C,clase_incendio_D,clase_incendio_E,clase_incendio_F,...,mes_incendio_Noviembre,mes_incendio_Octubre,mes_incendio_Septiembre,vegetacion_Bosque templado,vegetacion_Bosque tropical perennifolio,vegetacion_Bosque tropical perennifolio secundario,vegetacion_Desierto,vegetacion_Desierto polar_roca,vegetacion_Matorral abierto,vegetacion_Pradera_estepa
0,3.0,59.8,8.4,0.0,86.8,1,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
1,60.0,168.8,42.2,18.1,124.5,0,1,0,0,0,...,0,0,0,0,0,1,0,0,0,0
2,1.0,10.4,7.2,0.0,0.0,1,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
3,5.2,26.0,0.0,0.0,0.0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
4,1.0,28.4,27.5,1.2,55.4,1,0,0,0,0,...,1,0,0,0,0,0,0,0,1,0


In [163]:
# Cantidad de datos y número de variables después de esta transformación.
data_t.shape

(37759, 30)

In [164]:
# Se selecciona la variable objetivo, en este caso "area_quemada".
Y=data_t['area_quemada']
# Del conjunto de datos se elimina la variable "area_quemada".
X=data_t.drop(['area_quemada'], axis=1)

In [165]:
# Se realiza la división entrenamiento - test. Se deja 20% de los datos para el test.
X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size=0.2, random_state=0)

In [166]:
# Primero se crea el objeto para construir el modelo
modelo_regresion = LinearRegression()
# Podemos verificar que lo hemos construido.
modelo_regresion

In [167]:
# Ajustar el modelo con los datos de entrenamiento
modelo_regresion.fit(X_train,Y_train)

In [None]:
# Se obtienen las predicciones del modelo sobre el conjunto de entrenamiento.
y_pred = modelo_regresion.predict(X_train)
# Se obtienen las métricas a partir de la predicción y la base de evaluación (valores reales).
print("MSE: %.2f" % mean_squared_error(Y_train, y_pred, squared=False))
print("MAE: %.2f" % mean_absolute_error(Y_train, y_pred))
print('R²: %.2f' % r2_score(Y_train, y_pred))

MSE: 13740.86
MAE: 2537.84
R²: 0.23




In [None]:
# Se obtienen las predicciones del modelo sobre el conjunto test.
y_pred = modelo_regresion.predict(X_test)
# Se obtienen las métricas a partir de la predicción y la base de evaluación (valores reales).
print("MSE: %.2f" % mean_squared_error(Y_test, y_pred, squared=False))
print("MAE: %.2f" % mean_absolute_error(Y_test, y_pred))
print('R²: %.2f' % r2_score(Y_test, y_pred))

MSE: 12948.16
MAE: 2458.87
R²: 0.25




In [None]:
# Ajustar el modelo con los datos de entrenamiento
modelo_regresion.fit(X,Y)

In [None]:
# Podemos visualizar los parámetros del modelos (coeficientes de regresión)
modelo_regresion.coef_

array([-1.91460301e-01, -3.45006652e-01,  2.11875183e-01, -4.77595349e-01,
       -5.16296428e+03, -5.16429149e+03, -5.14701073e+03, -4.73444830e+03,
       -1.85933928e+03,  2.20680541e+04,  5.63981702e+00, -3.56951848e+02,
       -1.17883321e+02, -1.56493809e+02, -8.89957581e+01, -3.84501090e+01,
        1.58487968e+03, -1.26901405e+02,  2.47397232e+02, -3.09595834e+02,
       -9.89911832e+01, -5.43653464e+02,  3.43173816e+02,  1.08159499e+03,
        4.90033613e+01, -1.44199656e+03, -7.89293012e+01,  9.66381422e+01,
       -4.94844406e+01])

In [None]:
# Ajustar el modelo para ver el reporte
model = sm.OLS(Y, X).fit() ## sm.OLS(output, input)
# Mostrar las estadísticas del modelo
model.summary()

0,1,2,3
Dep. Variable:,area_quemada,R-squared:,0.233
Model:,OLS,Adj. R-squared:,0.233
Method:,Least Squares,F-statistic:,441.3
Date:,"Sun, 02 Mar 2025",Prob (F-statistic):,0.0
Time:,21:06:55,Log-Likelihood:,-412920.0
No. Observations:,37759,AIC:,825900.0
Df Residuals:,37732,BIC:,826100.0
Df Model:,26,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Prec_pre_30,-0.1915,0.776,-0.247,0.805,-1.712,1.329
Prec_pre_15,-0.3450,2.093,-0.165,0.869,-4.447,3.757
Prec_pre_7,0.2119,3.171,0.067,0.947,-6.003,6.427
Prec_cont,-0.4776,1.047,-0.456,0.648,-2.530,1.575
clase_incendio_B,-3037.3113,131.815,-23.042,0.000,-3295.672,-2778.950
clase_incendio_C,-3038.6385,180.145,-16.868,0.000,-3391.727,-2685.550
clase_incendio_D,-3021.3577,408.816,-7.391,0.000,-3822.649,-2220.067
clase_incendio_E,-2608.7953,575.823,-4.531,0.000,-3737.425,-1480.166
clase_incendio_F,266.3137,341.681,0.779,0.436,-403.390,936.017

0,1,2,3
Omnibus:,78918.214,Durbin-Watson:,1.768
Prob(Omnibus):,0.0,Jarque-Bera (JB):,340982685.302
Skew:,18.078,Prob(JB):,0.0
Kurtosis:,467.139,Cond. No.,1.1e+16


In [179]:
#"Se selecciona la variable objetivo, en este caso "area_quemada".
y=data_t['area_quemada']
# Del conjunto de datos se elimina la variable "area_quemada".
x=data_t.drop(['area_quemada',"Prec_pre_30","Prec_pre_15","Prec_pre_7","Prec_cont", "vegetacion_Desierto", "clase_incendio_F"], axis=1)

In [181]:
# Se realiza la división entrenamiento - test. Se deja 20% de los datos para el test.
X_train, X_test, Y_train, Y_test = train_test_split( x, y, test_size=0.2, random_state=0)

In [182]:
# Primero se crea el objeto para construir el modelo
modelo_regresion = LinearRegression()
# Podemos verificar que lo hemos construido.
modelo_regresion

In [183]:
# Ajustar el modelo con los datos de entrenamiento
modelo_regresion.fit(X_train,Y_train)

In [184]:
# Se obtienen las predicciones del modelo sobre el conjunto de entrenamiento.
y_pred = modelo_regresion.predict(X_train)
# Se obtienen las métricas a partir de la predicción y la base de evaluación (valores reales).
print("MSE: %.2f" % mean_squared_error(Y_train, y_pred, squared=False))
print("MAE: %.2f" % mean_absolute_error(Y_train, y_pred))
print('R²: %.2f' % r2_score(Y_train, y_pred))

MSE: 13740.95
MAE: 2537.78
R²: 0.23




In [185]:
# Se obtienen las predicciones del modelo sobre el conjunto test.
y_pred = modelo_regresion.predict(X_test)
# Se obtienen las métricas a partir de la predicción y la base de evaluación (valores reales).
print("MSE: %.2f" % mean_squared_error(Y_test, y_pred, squared=False))
print("MAE: %.2f" % mean_absolute_error(Y_test, y_pred))
print('R²: %.2f' % r2_score(Y_test, y_pred))

MSE: 12948.35
MAE: 2458.07
R²: 0.25




In [186]:
# Ajustar el modelo con los datos de entrenamiento
modelo_regresion.fit(x,y)

In [187]:
# Ajustar el modelo para ver el reporte
model = sm.OLS(y, x).fit() ## sm.OLS(output, input)
# Mostrar las estadísticas del modelo
model.summary()

0,1,2,3
Dep. Variable:,area_quemada,R-squared:,0.233
Model:,OLS,Adj. R-squared:,0.233
Method:,Least Squares,F-statistic:,521.6
Date:,"Sun, 02 Mar 2025",Prob (F-statistic):,0.0
Time:,21:11:47,Log-Likelihood:,-412920.0
No. Observations:,37759,AIC:,825900.0
Df Residuals:,37736,BIC:,826100.0
Df Model:,22,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
clase_incendio_B,-3313.0443,378.793,-8.746,0.000,-4055.488,-2570.600
clase_incendio_C,-3314.6964,402.683,-8.232,0.000,-4103.967,-2525.426
clase_incendio_D,-3292.7648,572.144,-5.755,0.000,-4414.182,-2171.347
clase_incendio_E,-2876.8387,727.417,-3.955,0.000,-4302.596,-1451.081
clase_incendio_G,2.393e+04,437.790,54.655,0.000,2.31e+04,2.48e+04
mes_incendio_Abril,1705.5468,760.603,2.242,0.025,214.745,3196.348
mes_incendio_Agosto,1355.1379,749.969,1.807,0.071,-114.821,2825.097
mes_incendio_Diciembre,1595.9247,840.204,1.899,0.058,-50.897,3242.747
mes_incendio_Enero,1569.0497,795.791,1.972,0.049,9.279,3128.821

0,1,2,3
Omnibus:,78918.227,Durbin-Watson:,1.768
Prob(Omnibus):,0.0,Jarque-Bera (JB):,340974536.391
Skew:,18.078,Prob(JB):,0.0
Kurtosis:,467.133,Cond. No.,40.0
