# _Template_ de proyecto



## Regresión Lineal Múltiple


### Objetivos:**

###### Construir y evaluar un modelo de regresión lineal multiple para realizar predicciones de la variable Total Pernoctación, ya que es la más apropiado para reflejar los movimientos turísticos. Se pretende utilizar las variables independientes que influyen en la cantidad de pernoctaciones de acuerdo al mes de evaluación, destino,llegadas de personas al lugar, entre otras que se especificaran.
###### Organizar el código del proyecto en modulos (i.e. archivos `.py`).
###### Estructurar el proyecto en secciones.**


---

### Glosario
##### 1. Mes: Mes de funcionamiento del establecimiento
##### 2.  Año: Año de funcionamiento del establecimiento
##### 3. Días funcionamiento: Número de días del mes que el establecimiento permaneció abierto
##### 4. Clase	Establecimiento: clasificado como Hotel (hotel y apart-hotel), y Otros (hostales, hosterías, residenciales, cabañas y similares)
##### 5. Región: Nombre de la región
##### 6. Destino Turístico: Espacio físico en el cual un turista está al menos una noche. El destino incluye productos turísticos como servicios de apoyo, atracciones y recursos turísticos.
##### 7. Total Llegadas residentes en Chile	Número total de pasajeros con residencia en Chile que llegan a establecimientos de alojamiento turístico
##### 8. Total Pernoctaciones residentes en Chile: Número total de noches que los pasajeros con residencia en Chile alojan en el establecimiento de alojamiento turístico
##### 9. Total Llegadas residentes en el Extranjero: Número total de pasajeros con residencia extranjeros que llegan a establecimientos de alojamiento turístico
##### 10. Total Pernoctaciones residentes en el Extranjero: Número total de noches que los pasajeros con residencia en el Extranjero alojan en el establecimiento de alojamiento turístico
##### 11. Total Llegadas: Número total de pasajeros con residencia en Chile y en el Extranjero que llegan a establecimientos de alojamiento turístico
##### 12. Total Pernoctaciones: Número total de noches que los pasajeros con residencia en Chile y en el Extranjero alojan en el establecimiento de alojamiento turístico
##### 13. Factor de Expansión: Factor de Expansión asociado al Establecimiento


In [1]:
# Funciones y rutinas para descargar, procesar los datos, y cargarlos
import proj_code.dataset as l              # Funciones y rutinas para descargar, procesar los datos, y cargarlos
import proj_code.model as m                # Clase con el modelo a implementar
import proj_code.metric as me              # Metrics utilizadas para el análisis
import matplotlib.pyplot as plt            # Librería para crear visualizaciones
from sklearn.model_selection import train_test_split# Para separar datos en entrenamiento y evaluación



## 1. Cargar datos

Sección en que se utilizaran las funciones del módulo `dataset.py` para facilitar la gestión y manejo de nuestros datos.

**Asignamos el valor que nos entrega la función en doc() en df**

In [2]:
df=l.doc()

**Revisamos las variables de nuestro conjunto de datos**

In [3]:
df.head(2)

Unnamed: 0,Mes,Año,Dias_func,Clase,Región,Dest_turistico,Total_lleg_chilenos,Total_perc_chilenos,Total_lleg_ext,Total_perc_ext,Total_lleg,Total_perc,Factor_exp
0,1,2017,31,Hotel,14,31,2114,3460,7503,10494,9617,13954,1.0
1,1,2017,31,Hotel,14,31,549,765,3315,7370,3864,8135,1.0


**Asignamos las variables independientes que permitiran predecir nuestra variable objetivo y la guardamos en "x", luego asignamos en "y "la variable independiente**

In [4]:
X = df[['Mes', 'Total_lleg_chilenos', 'Total_lleg_ext', 'Total_lleg', 'Región', 'Dest_turistico']]
y = df['Total_perc']

**Inspeccionamos las dimensiones de nuestros datasets X e y**

In [5]:
X.shape, y.shape

((29734, 6), (29734,))

**Revisamos las observaciones para verificar formato de y**

In [6]:
y.head(3)

0    13954
1     8135
2    10029
Name: Total_perc, dtype: int64

**Revisamos las observaciones para verificar formato de X**

In [7]:
X.head(3)

Unnamed: 0,Mes,Total_lleg_chilenos,Total_lleg_ext,Total_lleg,Región,Dest_turistico
0,1,2114,7503,9617,14,31
1,1,549,3315,3864,14,31
2,1,681,2861,3542,14,31


**Ahora vamos a dejar un 20% del _dataset_ destinado a evaluar que tan bien ajusta nuestro modelo.**

**Fraccionaremos el conjunto de datos de manera aleatoria, para garantizar la reproducibilidad de los resultados utilizaremos el argumento `random_state` dandole una semilla que permite replicar los resultados, valor utilizado ramdon = 500**

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=500)

**Visualizamos la cantidad de datos asignados a entrenamiento y pruebas para X**

In [9]:
X_train.shape, X_test.shape

((23787, 6), (5947, 6))

**Visualizamos la cantidad de datos asignados a entrenamiento y pruebas para y**

In [10]:
y_train.shape, y_test.shape

((23787,), (5947,))

# 2. Modelos

Sección en que se utilizaremos los modelos especificados en el módulo `model.py`.


## Entrenaremos tres modelos:

#### * Regresión Lineal Múltiple
#### * KNN (Vecino más cercano)
#### * Random Forest




**Definimos los distintos modelos a utilizar y le pasamos nuestros datos de entrenamiento**

In [11]:
modelo_reg_lineal= m.reg_lineal(X_train, y_train.values.ravel())
modelo_reg_knn = m.reg_KNN(X_train, y_train.values.ravel())
modelo_reg_forest = m.reg_Forest(X_train, y_train.values.ravel())

**Nuestros modelos ya fueron ajustados y podemos utilizarlos para obtener las predicciones sobre el conjunto que separamos para medir el desempeño. La idea de probar el modelo en datos que no utilizó es medir la generalización en datos nunca antes vistos.**

In [12]:
reg_lineal_preds = modelo_reg_lineal.predict(X_test)
reg_knn_preds = modelo_reg_knn.predict(X_test)
reg_forest_preds = modelo_reg_forest.predict(X_test)

## 3. Métricas

**Sección en que se utilizaran las métricas especificadas en el módulo `metric.py`.**

**Calcularemos el error absoluto medio MAE el cual calcula el promedio de las diferencias absolutas entre los valores objetivos y las predicciones
No es sensible a valores atipicos**

In [13]:
print(f'MAE según modelo Regresión Lineal: {me.metrica_mean(y_test, reg_lineal_preds)}')
print(f'MAE según modelo KNN: {me.metrica_mean(y_test, reg_knn_preds)}')
print(f'MAE según modelo Random Forest: {me.metrica_mean(y_test, reg_forest_preds)}')

MAE según modelo Regresión Lineal: 187.37920153577943
MAE según modelo KNN: 170.1006894232386
MAE según modelo Random Forest: 140.71817899131398


**Error cuadratico medio MSE:  Calcula la diferencia cuadrada entre las predicciones y el objetivo, luego promedia esos valores.
Mientras mayor sea el valor peor es el modelo, seria 0 para un modelo perfecto**

In [14]:
print(f'MSE según modelo Regresión Lineal: {me.metrica_mean_squared_error(y_test, reg_lineal_preds)}')
print(f'MSE según modelo KNN: {me.metrica_mean_squared_error(y_test, reg_knn_preds)}')
print(f'MSE según modelo Random Forest: {me.metrica_mean_squared_error(y_test, reg_forest_preds)}')

MSE según modelo Regresión Lineal: 210583.12536231778
MSE según modelo KNN: 175851.03217084246
MSE según modelo Random Forest: 114346.59764182022


**Error cuadratico medio RMSE: es la raiz cuadrada de MSE, para que la escala de errores sea igual a la escala de objetivos**

In [15]:
print(f'RMSE según modelo Regresión Lineal: {me.metrica_sqrt(y_test, reg_lineal_preds)}')
print(f'RMSE según modelo KNN: {me.metrica_sqrt(y_test, reg_knn_preds)}')
print(f'RMSE según modelo Random Forest: {me.metrica_sqrt(y_test, reg_forest_preds)}')

RMSE según modelo Regresión Lineal: 458.893370362133
RMSE según modelo KNN: 419.3459576183398
RMSE según modelo Random Forest: 338.1517375998831


**Calcularemos el coeficiente de determinación, el cual representa la proporción de varianza (de y) que ha sido explicada por las variables independientes en el modelo, mientras más cercano a 1 mejor será el modelo**

In [16]:
print(f'R2 según modelo Regresión Lineal: {me.metrica_r2(y_test, reg_lineal_preds)}')
print(f'según modelo KNN: {me.metrica_r2(y_test, reg_knn_preds)}')
print(f'R2 según modelo Random Forest: {me.metrica_r2(y_test, reg_forest_preds)}')

R2 según modelo Regresión Lineal: 0.8576754465366765
según modelo KNN: 0.8811494530403705
R2 según modelo Random Forest: 0.9227177941184904


**D2 Calcula la fracción de desviación explicada, la mejor puntuación es 1**

In [17]:
print(f'd2 según modelo Regresión Lineal: {me.metrica_d2(y_test, reg_lineal_preds)}')
print(f'd2 según modelo KNN: {me.metrica_d2(y_test, reg_knn_preds)}')
print(f'd2 según modelo Random Forest: {me.metrica_d2(y_test, reg_forest_preds)}')

d2 según modelo Regresión Lineal: 0.8576754465366765
d2 según modelo KNN: 0.8811494530403705
d2 según modelo Random Forest: 0.9227177941184904


**Calcularemos el error absoluto mediano, el cual es robusto a los valores atípicos. La perdida se calcula con la mediana de todas las diferencias absolutas entre el objetivo y la predicción.**

In [18]:
print(f'error absoluto mediano según modelo Regresión Lineal: {me.metrica_error_mediano(y_test, reg_lineal_preds)}')
print(f'error absoluto mediano según modelo KNN: {me.metrica_error_mediano(y_test, reg_knn_preds)}')
print(f'error absoluto mediano según modelo Random Forest: {me.metrica_error_mediano(y_test, reg_forest_preds)}')

error absoluto mediano según modelo Regresión Lineal: 79.32088129966542
error absoluto mediano según modelo KNN: 47.400000000000006
error absoluto mediano según modelo Random Forest: 46.55000000000001


**Evalua el rendimiento predictivo de los modelos por cuantiles, indicando el valor de pérdida**

In [19]:
print(f'valor de pérdida por cuartiles según modelo Regresión Lineal: {me.metrica_cuartiles(y_test, reg_lineal_preds)}')
print(f'valor de pérdida por cuartiles según modelo KNN: {me.metrica_cuartiles(y_test, reg_knn_preds)}')
print(f'valor de pérdida por cuartiles según modelo Random Forest: {me.metrica_cuartiles(y_test, reg_forest_preds)}')

valor de pérdida por cuartiles según modelo Regresión Lineal: 93.68960076788971
valor de pérdida por cuartiles según modelo KNN: 85.0503447116193
valor de pérdida por cuartiles según modelo Random Forest: 70.35908949565699


### Conclusiones

**De acuerdo a las diferentes métricas se considera que el mejor modelo predictivo es el de Randon Forest ya que presenta el mejor R2 cuadrado con un valor de 0.9227177941184904, por otro lado en las restantes métricas de evaluación de error presentó los números más bajos.**