In [103]:
# Librería para comando de sistema
import os
# Librerías para manejo de datos
import pandas as pd
# Librería para parámetros polinomiales
from sklearn.preprocessing import PolynomialFeatures
#Librería para ajustar modelos lineales
from sklearn.linear_model import LinearRegression
# Para determinar el rendimiento del modelo con las métricas MSE, MAE y R2
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
# Para realizar la separación del conjunto de aprendizaje en entrenamiento y test.
from sklearn.model_selection import train_test_split

In [104]:
#Carga de datos 

data = pd.read_excel("datos_proyecto_modulo2.xlsx")


In [105]:
data.shape

(37759, 8)

In [106]:
# Mostrar los datos
data.head()

Unnamed: 0,area_quemada,clase_incendio,mes_incendio,vegetacion,Prec_pre_30,Prec_pre_15,Prec_pre_7,Prec_cont
0,3.0,B,Diciembre,Desierto polar_roca,59.8,8.4,0.0,86.8
1,60.0,C,Febrero,Bosque tropical perennifolio secundario,168.8,42.2,18.1,124.5
2,1.0,B,Junio,Bosque tropical perennifolio,10.4,7.2,0.0,0.0
3,5.2,B,Enero,Matorral abierto,26.0,0.0,0.0,0.0
4,1.0,B,Noviembre,Matorral abierto,28.4,27.5,1.2,55.4


In [107]:
# Es recomendable que todos los pasos preparación se realicen sobre otro archivo.
data_t = data 

In [108]:
# Eliminación data vacía
data_t=data_t.dropna()
# Eliminación de registros duplicados.
data_t=data_t.drop_duplicates()

In [109]:
# Transformación de los datos

data_t = pd.get_dummies(data_t, columns=['clase_incendio', 'mes_incendio', 'vegetacion'], dtype=int)


In [110]:
data_t.head()

Unnamed: 0,area_quemada,Prec_pre_30,Prec_pre_15,Prec_pre_7,Prec_cont,clase_incendio_B,clase_incendio_C,clase_incendio_D,clase_incendio_E,clase_incendio_F,...,mes_incendio_Noviembre,mes_incendio_Octubre,mes_incendio_Septiembre,vegetacion_Bosque templado,vegetacion_Bosque tropical perennifolio,vegetacion_Bosque tropical perennifolio secundario,vegetacion_Desierto,vegetacion_Desierto polar_roca,vegetacion_Matorral abierto,vegetacion_Pradera_estepa
0,3.0,59.8,8.4,0.0,86.8,1,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
1,60.0,168.8,42.2,18.1,124.5,0,1,0,0,0,...,0,0,0,0,0,1,0,0,0,0
2,1.0,10.4,7.2,0.0,0.0,1,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
3,5.2,26.0,0.0,0.0,0.0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
4,1.0,28.4,27.5,1.2,55.4,1,0,0,0,0,...,1,0,0,0,0,0,0,0,1,0


In [111]:
# Se selecciona la variable objetivo, en este caso "precio".
Y=data_t['area_quemada']
# Del conjunto de datos se elimina la variable "precio".
X=data_t.drop(['area_quemada'], axis=1)

In [112]:
# Utilizaremos una tranformación de grado 2.
poly = PolynomialFeatures(degree=2)
poly_X = poly.fit_transform(X)

In [113]:
# Esta transformación crea nuevas variables y las añade al conjunto de datos. Veamos cuántas se generan:
poly_X.shape

(26394, 465)

In [114]:
# Se realiza la división entrenamiento - test. Se deja 20% de los datos para el test.
poly_X_train, poly_X_test, poly_Y_train, poly_Y_test = train_test_split(poly_X, Y, test_size = 0.2, random_state = 0)

In [115]:
# Creación del objeto de la clase LinearRegression y ajuste del modelo a los datos.
modelo_regresion_poly = LinearRegression()
# Podemos verificar que lo hemos construido.
modelo_regresion_poly

In [116]:
# Ajustar el modelo con los datos de entrenamiento con las nuevas variables polinomiales
modelo_regresion_poly.fit(poly_X_train, poly_Y_train)

In [117]:
# Se obtienen las predicciones del modelo sobre el conjunto test.
y_pred = modelo_regresion_poly.predict(poly_X_test)

In [118]:
# Se obtienen las métricas a partir de la predicción y la base de evaluación (valores reales).
print('Métricas para polinomio de grado 2')
print('------ Modelo de regresión lineal polinomial múltiple----')
print("MSE: %.2f" % mean_squared_error(poly_Y_test, y_pred, squared=True))
print("RMSE: %.2f" % mean_squared_error(poly_Y_test, y_pred, squared=False))
print("MAE: %.2f" % mean_absolute_error(poly_Y_test, y_pred))
print('R²: %.2f' % r2_score(poly_Y_test, y_pred))

Métricas para polinomio de grado 2
------ Modelo de regresión lineal polinomial múltiple----
MSE: 295287971.77
RMSE: 17183.95
MAE: 3502.96
R²: 0.23




In [119]:
# Utilizaremos una tranformación de grado 3.
poly = PolynomialFeatures(degree=3)
poly_X3 = poly.fit_transform(X)

In [120]:
# Esta transformación crea nuevas variables y las añade al conjunto de datos. Veamos cuántas se generan:
poly_X3.shape

(26394, 4960)

In [121]:
# Se realiza la división entrenamiento - test. Se deja 20% de los datos para el test.
poly_X3_train, poly_X3_test, poly_Y3_train, poly_Y3_test = train_test_split(poly_X3, Y, test_size = 0.2, random_state = 0)

In [122]:
# Creación del objeto de la clase LinearRegression y ajuste del modelo a los datos.
modelo_regresion_poly3 = LinearRegression()
# Podemos verificar que lo hemos construido.
modelo_regresion_poly3

In [123]:
# Ajustar el modelo con los datos de entrenamiento con las nuevas variables polinomiales
modelo_regresion_poly3.fit(poly_X3_train, poly_Y3_train)

In [124]:
# Se obtienen las predicciones del modelo sobre el conjunto test.
y3_pred = modelo_regresion_poly3.predict(poly_X3_test)

In [125]:
# Se obtienen las métricas a partir de la predicción y la base de evaluación (valores reales).
print('Métricas para polinomio de grado 3')
print('------ Modelo de regresión lineal polinomial múltiple----')
print("MSE: %.2f" % mean_squared_error(poly_Y3_test, y3_pred, squared=True))
print("RMSE: %.2f" % mean_squared_error(poly_Y3_test, y3_pred, squared=False))
print("MAE: %.2f" % mean_absolute_error(poly_Y3_test, y3_pred))
print('R²: %.2f' % r2_score(poly_Y3_test, y3_pred))

Métricas para polinomio de grado 3
------ Modelo de regresión lineal polinomial múltiple----
MSE: 575722331.28
RMSE: 23994.21
MAE: 3876.57
R²: -0.49




In [126]:
####