In [119]:
import pandas as pd # usado para trabajar dataframes
import numpy as np # usado para trabajar arrays

import matplotlib.pyplot as plt # usado para graficos
import seaborn as sns # idem graficos (menos posibilidades de configuración pero gráficas más presentables)

from sklearn.model_selection import train_test_split # permite dividir el dataset
from sklearn.metrics import mean_squared_error, r2_score # permite obtener métricas
from sklearn.preprocessing import OneHotEncoder # para trabajar con variables categóricas
# esta es una implementación de Scikit-Learn, mientras que una implementación similar de pandas es pd.get_dummies

from scipy.stats import probplot # calcula cuantiles para una gráfica de probabilidad

# Regresiones- Airbnb Dataset

### Leer los datos


Cada registro describe un alojamiento publicado en AIRBNB en Washington:

- price: precio por noche
- latitude: latitud donde esta ubicada el alojamiento
- longitude: longitud donde esta ubicada el alojamiento
- property_type: tipo de propiedad ['House', 'Apartment', 'other', 'Bungalow', 'Cabin']
- room_type: tipo de habitacion ['Entire home/apt', 'Private room', 'Shared room']
- accommodates: cantidad de personas que admite
- bathrooms: cantidad de baños
- bedrooms: cantidad de habitaciones
- beds: cantidad de camas
- minimum_nights: minimo de noches
- number_of_reviews: cantidad de reseñas
- review_scores_rating: puntuacion general
- review_scores_cleanliness: puntuacion por limpieza
- review_scores_checkin: puntuacion de checkin
- review_scores_communication: puntuacion de comunicacion
- review_scores_location: puntuacion de la ubicacion
- cancellation_policy: politica de cancelacion

### Lectura de archivo

### Analisis Exploratorio

#### Target 

Análisis de target de los datos que deseamos predecir

#### Datos Faltantes

Análisis de valores nulos en los atributos del dataset

Imputar la media en los valores nulos

Validar nuevamente que ya no existan valores nulos

#### Variables Categoricas

Transformar mis variables categoricas en numericas

- Property type

¿Es necesario agregar valores en otra columna?

Transformar a columnas con 0 - 1

- Cancellation policy

Transformar a columnas con 0 - 1

- Room type

- Resultado final

Eliminar columnas innecesarias

Validar que todos nuestras columnas sean de tipos numéricos

#### Outliers

Identificar outliers en los datos

Utilizaremos una técnica denominada IQR Score para remover outliers (valores extremos).
Dicha regla establece que los valores fuera del rango (Q1 - 1.5 IQR) y (Q3 + 1.5 IQR) se puede considerar un outlier y puede ser removido

- Q1= es el valor en el cual o por debajo del cual queda aproximadamente un cuarto (25%) de todos los valores de la sucesión (ordenada)
- Q3 = es el valor por debajo del cual quedan las tres cuartas partes (75%) de los datos.
- IQR= rango intercuartil Q3- Q1 

Crear dataset 2 con outliers removidos

#### Correlacion

Analizar variables de interes y graficar pairplot

### Seleccionar atributos para el modelo

Seleccionar los atributos para entrenar el modelo 

### Split Dataset 

Separar los datos en conjunto de entrenamiento y de testing

### Modelo de Regresion linear multiple

El modelo que utilizaremos será de regresión lineal múltiple, tendrá la forma:

$$\widehat{y} = w_0 + w_1  X $$



#### Valor de los coeficientes

In [None]:
print('Coeficientes de la función lineal: ', np.round_(regressor.coef_, decimals = 3))
print('Ordenada en el origen (W0): ', regressor.intercept_)

#### Métricas

Performance del modelo en el set de entrenamiento

In [None]:
print('Error Cuadrático Medio (Mean Squared Error): %.3f' % mean_squared_error(y_train, y_pred))
print('Raíz del Error Cuadrático Medio (Root Mean Squared Error): %.3f' % np.sqrt(mean_squared_error(y_train, y_pred)))
print('Coeficiente de Determinación (Coefficient of Determination): %.3f' % r2_score(y_train, y_pred))

Performance del modelo en el set de test

In [None]:
  print('Error Cuadrático Medio (Mean Squared Error): %.3f' % mean_squared_error(y_test, y_pred_test))
  print('Raíz del Error Cuadrático Medio (Root Mean Squared Error): %.3f' % np.sqrt(mean_squared_error(y_test, y_pred_test)))
  print('Coeficiente de Determinación (Coefficient of Determination): %.3f' % r2_score(y_test, y_pred_test))

#### Grafico de residuos

In [None]:
#calcular los residuos
residues = y_test - y_pred_test

#Graficar los residuos. En el eje 'x' tenemos el precio predicho y en el eje 'y' los residuos
plt.plot(y_pred_test, residues, '.', label = 'Datos de Testing')
#Graficar una linea horizontal en el valor cero del eje y. 
plt.hlines(y=0, xmin=min(y_pred_test), xmax=max(y_pred_test), color = 'red')

#Agregar titulos a los ejes y leyenda 
plt.xlabel('y predicho')
plt.ylabel('Residuo')
plt.legend(loc='best')

### Modelo polinomial

El primer paso es preprocesar las entradas, generando un nuevo set de datos transformados en el cual se agregan las columnas con los atributos elevados al grado del polinomio elegido.

In [None]:
# Importar libreria que me transforma las entradas

In [None]:
# Crear el objeto encargado de transformarme las entradas y elegir el grado del polinomio

In [None]:
# Transformar

In [None]:
# Visualizar las entradas transformadas

In [136]:
# Crear regresor 2

In [None]:
# Entrenar el modelo con los datos transformados de X_train

In [140]:
# Predecir con los datos de entrenamiento

In [141]:
# Predecir con los datos de test. Tener en cuenta que primero debo transformar las entradas

#### Coeficientes

In [None]:
print('Coeficientes de la función lineal: ', np.round_(regressor2.coef_, decimals = 3))
print('Ordenada en el origen (W0): ', regressor2.intercept_)

#### Métricas

Performance del modelo en el set de entrenamiento

In [None]:
print('Error Cuadrático Medio (Mean Squared Error): %.3f' % mean_squared_error(y_train, y_pred_r2))
print('Raíz del Error Cuadrático Medio (Root Mean Squared Error): %.3f' % np.sqrt(mean_squared_error(y_train, y_pred_r2)))
print('Coeficiente de Determinación (Coefficient of Determination): %.3f' % r2_score(y_train, y_pred_r2))

Performance del modelo en el set de test

In [None]:
print('Error Cuadrático Medio (Mean Squared Error): %.3f' % mean_squared_error(y_test, y_pred_test_r2))
print('Raíz del Error Cuadrático Medio (Root Mean Squared Error): %.3f' % np.sqrt(mean_squared_error(y_test, y_pred_test_r2)))
print('Coeficiente de Determinación (Coefficient of Determination): %.3f' % r2_score(y_test, y_pred_test_r2))

#### Gráfico de residuos

In [None]:
#calcular los residuos
residues = y_test - y_pred_test_r2

#Graficar los residuos. En el eje 'x' tenemos el precio predicho y en el eje 'y' los residuos
plt.plot(y_pred_test_r2, residues, '.', label = 'Datos de Testing')
#Graficar una linea horizontal en el valor cero del eje y. 
plt.hlines(y=0, xmin=min(y_pred_test_r2), xmax=max(y_pred_test_r2), color = 'red')

#Agregar titulos a los ejes y leyenda 
plt.xlabel('y predicho')
plt.ylabel('Residuo')
plt.legend(loc='best')