# Evaluacion del rendimiento del módelo

Vamos a utilizar la _**validacion de entrenamiento/prueba**_ <br><br>

La cual consiste en dividir el conjunto de datos en dos: _conjuntos de entrenamiento_ y _conjunto de prueba_.<br>
Siguiendo los siguintes pasos: <br>
- Generar el _Conjunto de entrenamiento_ (75% de el conjunto original).    
- Generar el _Conjunto de prueba_ (25% de el conjunto original).
- Utilizar el _conjunto de entrenamiento_ para predecir los valores del precio del _conjunto de prueba_.
- Comparar los valores predichos con los precios del _conjunto de prueba_.


In [14]:
import pandas as pd
import numpy as np

dc_listings = pd.read_csv('dc_airbnb.csv')

stripped_commas = dc_listings['price'].str.replace(',', '')
stripped_dollars = stripped_commas.str.replace('$', '')
dc_listings['price'] = stripped_dollars.astype('float')

train_df = dc_listings.iloc[0:2792].copy()
test_df = dc_listings.iloc[2792:].copy()


In [19]:
def predict_price(new_listings):
    temp_df = train_df.copy()
    temp_df['distance'] = temp_df['accommodates'].apply( lambda x_acc: np.abs(x_acc - new_listings) )
    temp_df = temp_df.sort_values('distance')
    nearest_neighbor_prices = temp_df.iloc[0:5]['price']
    predicted_price = nearest_neighbor_prices.mean()
    return (predicted_price)

In [20]:
test_df['predicted_price'] = test_df['accommodates'].apply( predict_price )
test_df.head()

Unnamed: 0,host_response_rate,host_acceptance_rate,host_listings_count,accommodates,room_type,bedrooms,bathrooms,beds,price,cleaning_fee,security_deposit,minimum_nights,maximum_nights,number_of_reviews,latitude,longitude,city,zipcode,state,predicted_price
2792,20%,75%,1,2,Entire home/apt,0.0,1.0,1.0,120.0,,,1,1125,8,38.922187,-77.032475,Washington,20009,DC,104.0
2793,100%,25%,2,3,Entire home/apt,2.0,2.0,1.0,140.0,$75.00,$150.00,2,1125,7,38.931681,-77.044739,Washington,20010,DC,201.2
2794,,,1,4,Entire home/apt,2.0,1.0,1.0,299.0,,,2,1125,5,38.933765,-77.031488,Washington,20010,DC,145.8
2795,100%,100%,1,3,Entire home/apt,1.0,1.0,1.0,85.0,$30.00,$250.00,1,92,2,38.925692,-77.032616,Washington,20009,DC,201.2
2796,100%,100%,1,6,Entire home/apt,2.0,2.0,3.0,175.0,$65.00,$850.00,1,1125,62,38.927572,-77.033604,Washington,20009,DC,187.2


## Metricas de error

Ahora necesitamos cuantificar la calidad de las predicciones. <br>
Esta _metrica de error_ cuantificará la inexacitud del modelo. <br> <br>

Para este caso indicara la diferencia entre los valores predichos y los valores reales del precio.

#### MAE (Mean Absolute Error)

Una metrica de error que nos ayudaria a ver un poco que tan bueno es nuestro modelo seria la del _error medio absoluto_.<br>
La cual se define como: $$ MAE = \displaystyle\frac{1}{n}\sum\limits_{i=1}^n|(actual_1 - predict_1)| + ... + |(actual_n - predict_n)|$$

In [22]:
test_df['error'] = np.abs( test_df['price'] - test_df['predicted_price'] )
mae = test_df['error'].mean()
print(f"El valor del MAE es: {mae}")

El valor del MAE es: 58.60794844253491


#### MSE (Mean Square Error)

El error medio al cuadrado (MSE) aclara la diferencia entre los valores predichos y los reales. <br>
Por ejemplo: una prediccion que se desvia en 100 dolares que tendra un error de 10,000 es 100 veces mayor que una prediccion <br>
que se desvia solo 10 dolares que tendra un error de 100.

El MSE esta definido por la siguiente ecuacion: $$ MSE = \frac{1}{n}\sum\limits_{k=1}^n(actual_1 - predicted_1)^2 + ... + (actual_n - predicted_n)^2 $$

Dode $n$ representa el numero de filas del conjunto de prueba.

In [None]:
test_df['squared_error'] = ( test_df['price'] - test_df['predicted_price'] )**(2)
mse = test_df['squared_error'].mean()
print(f"El valor del MSE es: {}")