In [1]:
import pandas as pd

# Tema: Predicción de los precios de alquiler de Airbnb

Hay 2 conjuntos de datos de Airbnb:
- una lista grande de alojamientos que contiene 102.800 filas (después de unir los CSVs de todas las ciudades) y 21 columnas. Este es el dataset principal.
- una lista pequeña de alojamientos que contiene 900 filas y 74 columnas. Este dataset es parte del dataset principal.

Haré predicción con ambos datos y luego los compararé.

Target: precio del alquiler de Airbnb por noche (EUR/noche)

Preguntas de investigación: 
- Punto de vista técnica: 
	- ¿Cuál es el mejor modelo?
	- ¿El dataset pequeño produce mejores métricas que el dataset grande?
	- ¿Añadir datos externos (de Idealista e INE) mejora las métricas?
- Punto de vista de negocio:
	- ¿Cuánto es el precio de alquiler (EUR/noche)?
	- ¿Cuáles son los factores que influyen en el precio de alquiler de Airbnb?


## Machine Learning - Modelo Base

### Modelos:
- RandomForest
- AdaBoost
- GradientBoost
- XGBoost
- CatBoost
- KNN
- Voting
- Deep Learning Sequential (sólo se aplica en el escenario con el mejor resultado para ver si hay alguna mejora)
- Utilicé los hiperparámetros por defecto en todos los modelos, menos el DL Sequential

## Dataset grande

Consiste en 5 notebooks:
- big_data_1:
	- limpieza de datos: juntar tablas, tratamiento de valores nulos, observación de outliers
	- EDA: distribución de variables, correlación entre los features y entre los features y el target, observación sobre la relación entre los features y el target
	- dataset de entrada: 102881 filas × 26 columnas que es un merge de los datos de Airbnb, INE e Idealista. 
	- dataset de salida: 
		1) 102881 filas x 17 columnas. En este dataset, le he quitado algunas columnas que no tienen valores predictivos desde el punto de vista de business (por ej: "id", "name", "description", etc). Sin embargo, no le he quitado ningún outlier. Ruta: "output_data_1/big_data_cols.csv"
		2) 99884 filas x 17 columnas. En este dataset, le he quitado algunas columnas que no tienen valores predictivos desde el punto de vista de business (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price". Por lo tanto, este dataset tiene una franja de precios entre 20 EUR/noche y 2000 EUR/noche. Ruta: "output_data_1/big_data_no_outliers_cols.csv"
		3) 91661 filas x 17 columnas. En este dataset, le he quitado algunas columnas que no tienen valores predictivos desde el punto de vista de business (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price" utilizando el método IQR agrupado por comunidad autónoma. Ruta: "output_data_1/big_data_no_outliers_cols_2.csv"
		4) 90577 filas x 17 columnas. Este dataset es parecido al de número 3. La única diferencia es los precios de IQR NO SE AGRUPAN por comunidad autónoma. Ruta: "output_data_1/big_data_no_outliers_cols_3.csv".


- big_data_2:
	- transformación de las columnas categóricas a través de Ordinal Encoder y OneHot Encoder
	- prueba de varios modelos de Machine Learning con columnas númericas y categóricas elegidas desde el punto de vista del negocio. Hago comparación de métricas entre modelos con lo cual el mejor modelo de esta prueba será el baseline para la optimización.

	Este notebook contiene 2 datasets:

	a. Dataset 1:
	- este dataset contiene datos externos (de Idealista e INE).
	- en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc). Sin embargo, no le he quitado ningún outlier. 
	- dataset de entrada: 102881 filas x 17 columnas que viene del notebook 1, output 1.
	- dataset de salida: 102881 filas x 24 columnas. Ruta: "output_data_2/big_data_cols.csv".

In [59]:
res_big_2 = pd.read_csv("../data/output_data_2/metrics_big_data.csv")
res_big_2

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2
0,RandomForest,987700.5,993.831209,176.46462,1.466632,-0.199606
1,AdaBoost,843238.4,918.280109,184.241021,1.756166,-0.02415
2,GradientBoost,815092.0,902.82444,171.413362,1.597488,0.010035
3,XGBoost,1077814.0,1038.178164,197.766953,1.954449,-0.309052
4,CatBoost,866673.2,930.952871,172.94304,1.643185,-0.052613
5,KNN,1570066.0,1253.022678,186.794722,1.663164,-0.906914
6,Voting,853411.9,923.802956,168.724511,1.549526,-0.036506


	b. Dataset 2:
	- este dataset sólo contiene datos de Airbnb.
	- en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc). Sin embargo, no le he quitado ningún outlier. 
	- dataset de entrada: 102881 filas x 24 columnas que viene del output del dataset 1 del mismo notebook.
	- dataset de salida: 102881 filas x 19 columnas. Ruta: "output_data_2/without_external_data/big_data_cols_wo_ext.csv".

In [60]:
res_big_2_wo_ext = pd.read_csv("../data/output_data_2/without_external_data/metrics_big_data_wo_ext.csv")
res_big_2_wo_ext

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2
0,RandomForest,1028677.0,1014.237378,177.992942,1.478355,-0.249374
1,AdaBoost,843238.4,918.280109,184.241021,1.756166,-0.02415
2,GradientBoost,826287.6,909.003641,171.803243,1.606514,-0.003563
3,XGBoost,1175312.0,1084.118224,204.712626,2.084435,-0.427468
4,CatBoost,876752.3,936.350519,172.724485,1.625242,-0.064854
5,KNN,1398558.0,1182.606577,178.299383,1.386684,-0.69861
6,Voting,853269.8,923.726027,168.152329,1.518153,-0.036334


- big_data_3:
	- transformación de las columnas categóricas a través de Ordinal Encoder y OneHot Encoder
	- prueba de varios modelos de Machine Learning con columnas númericas y categóricas elegidas desde el punto de vista del negocio. Hago comparación de métricas entre modelos con lo cual el mejor modelo de esta prueba será el baseline para la optimización.

	Este notebook contiene 2 datasets:

	a. Dataset 1:
	- este dataset contiene datos externos (de Idealista e INE).
	- en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price". Por lo tanto, este dataset tiene una franja de precios entre 20 EUR/noche y 2000 EUR/noche.
	- dataset de entrada: 99884 filas x 17 columnas que viene del notebook 1, output 1.
	- dataset de salida: 99884 filas x 24 columnas. Ruta: "output_data_3/big_data_no_outliers_cols.csv"

In [61]:
res_big_3 = pd.read_csv("../data/output_data_3/metrics_big_data_no_outliers.csv")
res_big_3

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2
0,RandomForest,25296.76743,159.049575,83.674322,0.664835,0.491604
1,AdaBoost,47673.507067,218.342637,149.238768,1.626694,0.041893
2,GradientBoost,31452.317123,177.348011,95.515046,0.780405,0.367894
3,XGBoost,24643.186161,156.981483,83.247801,0.661889,0.504739
4,CatBoost,24716.708436,157.215484,83.646322,0.664832,0.503262
5,KNN,30788.475787,175.466452,91.046503,0.706182,0.381236
6,Voting,25729.274166,160.403473,91.648122,0.806174,0.482912


	b. Dataset 2:
	- este dataset sólo contiene datos de Airbnb.
	- en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price". Por lo tanto, este dataset tiene una franja de precios entre 20 EUR/noche y 2000 EUR/noche.
	- dataset de entrada: 99884 filas x 24 columnas que viene del output del dataset 1 del mismo notebook.
	- dataset de salida: 99884 filas x 19 columnas. Ruta: "output_data_3/without_external_data/big_data_no_outliers_cols_wo_ext.csv".

In [62]:
res_big_3_wo_ext = pd.read_csv("../data/output_data_3/without_external_data/metrics_big_data_no_outliers_wo_ext.csv")
res_big_3_wo_ext

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2
0,RandomForest,25505.411241,159.704137,84.047279,0.665064,0.487411
1,AdaBoost,51236.124784,226.353981,159.616018,1.838993,-0.029706
2,GradientBoost,31665.620563,177.948365,95.677615,0.784934,0.363608
3,XGBoost,24380.369566,156.142145,83.040438,0.658714,0.510021
4,CatBoost,24890.921318,157.768569,83.97903,0.668135,0.499761
5,KNN,30673.056261,175.13725,90.87802,0.702016,0.383555
6,Voting,25892.626996,160.911861,93.026295,0.837995,0.479629


- big_data_4:
	- transformación de las columnas categóricas a través de Ordinal Encoder y OneHot Encoder
	- prueba de varios modelos de Machine Learning con columnas númericas y categóricas elegidas desde el punto de vista del negocio. Hago comparación de métricas entre modelos con lo cual el mejor modelo de esta prueba será el baseline para la optimización.

	Este notebook contiene 2 datasets:

    a. Dataset 1:
	- este dataset contiene datos externos (de Idealista e INE).
	- en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price" utilizando el método de IQR (rango interquartil) agrupados por comunidad autónoma. 
	- dataset de entrada: 91661 filas x 17 columnas que viene del notebook 1, output 1.
	- dataset de salida: 91661 filas x 24 columnas. Ruta: "output_data_4/big_data_no_outliers_cols_2.csv".

In [63]:
res_big_4 = pd.read_csv("../data/output_data_4/metrics_big_data_no_outliers_2.csv")
res_big_4

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2
0,RandomForest,4245.662623,65.158749,44.306637,0.435961,0.41679
1,AdaBoost,5957.455731,77.184556,59.697463,0.723016,0.181648
2,GradientBoost,4491.635988,67.019669,47.368766,0.477371,0.383002
3,XGBoost,4140.676374,64.348088,44.598507,0.438973,0.431212
4,CatBoost,4083.7042,63.903867,44.473818,0.438733,0.439038
5,KNN,4798.280517,69.269622,47.232772,0.457847,0.340879
6,Voting,4133.407408,64.291581,45.832589,0.4757,0.43221


    b. Dataset 2:
    - este dataset sólo contiene datos de Airbnb.
	- en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price" utilizando el método de IQR (rango interquartil) agrupados por comunidad autónoma. 
    - dataset de entrada: 91661 filas x 24 columnas que viene del output del dataset 1 del mismo notebook.
    - dataset de salida: 91661 filas x 19 columnas. Ruta: "output_data_4/without_external_data/big_data_no_outliers_cols_2_wo_ext.csv".

In [64]:
res_big_4_wo_ext = pd.read_csv("./data/output_data_4/without_external_data/metrics_big_data_no_outliers_cols_2_wo_ext.csv")
res_big_4_wo_ext

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2
0,RandomForest,4244.502518,65.149847,44.292087,0.435265,0.416949
1,AdaBoost,5589.794485,74.764928,57.415344,0.676061,0.232152
2,GradientBoost,4507.883555,67.140774,47.4555,0.479427,0.38077
3,XGBoost,4105.19039,64.07176,44.460861,0.437581,0.436086
4,CatBoost,4096.07492,64.000585,44.496892,0.438674,0.437338
5,KNN,4791.98544,69.224168,47.203218,0.457411,0.341744
6,Voting,4121.763205,64.20096,45.539976,0.468484,0.43381


- big_data_5:
	- transformación de las columnas categóricas a través de Ordinal Encoder y OneHot Encoder
	- prueba de varios modelos de Machine Learning con columnas númericas y categóricas elegidas desde el punto de vista del negocio. Hago comparación de métricas entre modelos con lo cual el mejor modelo de esta prueba será el baseline para la optimización.

	Este notebook contiene 2 datasets:

    a. Dataset 1:
    - este dataset contiene datos externos (de Idealista e INE).
    - en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price" utilizando el método de IQR (rango interquartil) SIN HACER la agrupación por comunidad autónoma. 
	- dataset de entrada: 90577 filas x 17 columnas que viene del notebook 1, output 1.
	- dataset de salida: 90577 filas x 23 columnas. Ruta: "output_data_4/big_data_no_outliers_cols_3.csv".

In [65]:
res_big_5 = pd.read_csv("../data/output_data_5/metrics_big_data_no_outliers_cols_3.csv")
res_big_5

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2
0,RandomForest,3101.82247,55.694007,40.526673,0.424958,0.377639
1,AdaBoost,4046.089147,63.608876,52.42831,0.67686,0.188178
2,GradientBoost,3331.193155,57.716489,43.1443,0.465402,0.331618
3,XGBoost,3051.568157,55.241001,40.799264,0.428739,0.387723
4,CatBoost,3045.450034,55.185596,40.748345,0.428533,0.38895
5,KNN,3585.870923,59.882142,43.543354,0.450011,0.280518
6,Voting,3055.743169,55.278777,41.780645,0.461062,0.386885


    b. Dataset 2:
    - este dataset sólo contiene datos de Airbnb.
    - en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price" utilizando el método de IQR (rango interquartil) SIN HACER la agrupación por comunidad autónoma. 
    - dataset de entrada: 90577 filas x 23 columnas que viene del output del dataset 1 del mismo notebook.
    - dataset de salida: 90577 x 19 columnas. Ruta: "output_data_5/without_external_data/big_data_no_outliers_cols_3_wo_ext.csv".

In [66]:
res_big_5_wo_ext = pd.read_csv("../data/output_data_5/without_external_data/metrics_big_data_no_outliers_cols_3_wo_ext.csv")
res_big_5_wo_ext

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2
0,RandomForest,3111.631272,55.781998,40.557732,0.425054,0.375671
1,AdaBoost,4128.987418,64.257197,53.43904,0.695783,0.171545
2,GradientBoost,3344.993474,57.835919,43.288812,0.46761,0.328849
3,XGBoost,3038.867012,55.12592,40.607854,0.426325,0.390271
4,CatBoost,3036.368899,55.103257,40.711864,0.428597,0.390772
5,KNN,3584.66234,59.87205,43.524862,0.449616,0.280761
6,Voting,3058.994847,55.308181,41.87108,0.463432,0.386232


### Busca el mejor modelo en el Dataset 1 (contiene datos externos)

In [67]:
res_big_2["Notebook"] = "res_big_2"
res_big_3["Notebook"] = "res_big_3"
res_big_4["Notebook"] = "res_big_4"
res_big_5["Notebook"] = "res_big_5"

In [68]:
res_big_all = pd.concat([res_big_2, res_big_3, res_big_4, res_big_5], axis=0)
res_big_all

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2,Notebook
0,RandomForest,987700.5,993.831209,176.46462,1.466632,-0.199606,res_big_2
1,AdaBoost,843238.4,918.280109,184.241021,1.756166,-0.02415,res_big_2
2,GradientBoost,815092.0,902.82444,171.413362,1.597488,0.010035,res_big_2
3,XGBoost,1077814.0,1038.178164,197.766953,1.954449,-0.309052,res_big_2
4,CatBoost,866673.2,930.952871,172.94304,1.643185,-0.052613,res_big_2
5,KNN,1570066.0,1253.022678,186.794722,1.663164,-0.906914,res_big_2
6,Voting,853411.9,923.802956,168.724511,1.549526,-0.036506,res_big_2
0,RandomForest,25296.77,159.049575,83.674322,0.664835,0.491604,res_big_3
1,AdaBoost,47673.51,218.342637,149.238768,1.626694,0.041893,res_big_3
2,GradientBoost,31452.32,177.348011,95.515046,0.780405,0.367894,res_big_3


In [69]:
res_big_all[res_big_all["RMSE"] == res_big_all["RMSE"].min()]

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2,Notebook
4,CatBoost,3045.450034,55.185596,40.748345,0.428533,0.38895,res_big_5


In [70]:
res_big_all[res_big_all["MAE"] == res_big_all["MAE"].min()]

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2,Notebook
0,RandomForest,3101.82247,55.694007,40.526673,0.424958,0.377639,res_big_5


In [71]:
big_5 = pd.read_csv("../data/output_data_5/big_data_no_outliers_cols_3.csv")
big_5 = big_5.drop("Unnamed: 0", axis=1)
big_5["price"].describe()

count    90577.000000
mean       115.982490
std         70.897462
min         20.000000
25%         64.000000
50%         99.000000
75%        150.000000
max        348.000000
Name: price, dtype: float64

In [72]:
res_big_all[res_big_all["R2"] == res_big_all["R2"].max()]

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2,Notebook
3,XGBoost,24643.186161,156.981483,83.247801,0.661889,0.504739,res_big_3


In [73]:
big_3 = pd.read_csv("../data/output_data_3/big_data_no_outliers_cols.csv")
big_3 = big_3.drop("Unnamed: 0", axis=1)
big_3["price"].describe()

count    99884.000000
mean       171.400695
std        221.565882
min         20.000000
25%         68.000000
50%        106.000000
75%        180.000000
max       2000.000000
Name: price, dtype: float64

Comentario:

- El dataset que tiene el menor MAE es el dataset "big_data_5".
	- Model: CatBoost, RMSE: 55.19, MAE: 40.75, MAPE: 0.43, R2: 0.39
	- Model: RandomForest, RMSE: 55.69, MAE: 40.53, MAPE: 0.43, R2: 0.38
	- Las características del "big_data_5":
	    - contiene datos externos (de Idealista e INE).
    	- en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price" utilizando el método de IQR (rango interquartil) SIN HACER la agrupación por comunidad autónoma. 
		- dataset de entrada para ML (después de limpieza): 90577 filas x 23 columnas
<br><br>
- Por otro lado, el dataset que tiene el mayor R2 es "big_data_3".
	- Model: XGBoost, RMSE: 156.98, MAE: 83.25, MAPE: 0.66, R2: 0.50
	- Las características del "big_data_3":
		- contiene datos externos (de Idealista e INE).
		- en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price". Por lo tanto, este dataset tiene una franja de precios entre 20 EUR/noche y 2000 EUR/noche.
		- dataset de entrada para ML (después de limpieza): 99884 filas x 24 columnas

### Busca el mejor modelo en el Dataset 2 (sólo contiene datos de Airbnb)

In [96]:
res_big_2_wo_ext["Notebook"] = "res_big_2_wo_ext"
res_big_3_wo_ext["Notebook"] = "res_big_3_wo_ext"
res_big_4_wo_ext["Notebook"] = "res_big_4_wo_ext"
res_big_5_wo_ext["Notebook"] = "res_big_5_wo_ext"

In [97]:
res_big_all_wo_ext = pd.concat([res_big_2_wo_ext, res_big_3_wo_ext, res_big_4_wo_ext, res_big_5_wo_ext], axis=0)
res_big_all_wo_ext

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2,Notebook
0,RandomForest,1028677.0,1014.237378,177.992942,1.478355,-0.249374,res_big_2_wo_ext
1,AdaBoost,843238.4,918.280109,184.241021,1.756166,-0.02415,res_big_2_wo_ext
2,GradientBoost,826287.6,909.003641,171.803243,1.606514,-0.003563,res_big_2_wo_ext
3,XGBoost,1175312.0,1084.118224,204.712626,2.084435,-0.427468,res_big_2_wo_ext
4,CatBoost,876752.3,936.350519,172.724485,1.625242,-0.064854,res_big_2_wo_ext
5,KNN,1398558.0,1182.606577,178.299383,1.386684,-0.69861,res_big_2_wo_ext
6,Voting,853269.8,923.726027,168.152329,1.518153,-0.036334,res_big_2_wo_ext
0,RandomForest,25505.41,159.704137,84.047279,0.665064,0.487411,res_big_3_wo_ext
1,AdaBoost,51236.12,226.353981,159.616018,1.838993,-0.029706,res_big_3_wo_ext
2,GradientBoost,31665.62,177.948365,95.677615,0.784934,0.363608,res_big_3_wo_ext


In [98]:
res_big_all_wo_ext[res_big_all_wo_ext["RMSE"] == res_big_all_wo_ext["RMSE"].min()]

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2,Notebook
4,CatBoost,3036.368899,55.103257,40.711864,0.428597,0.390772,res_big_5_wo_ext


In [99]:
res_big_all_wo_ext[res_big_all_wo_ext["MAE"] == res_big_all_wo_ext["MAE"].min()]

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2,Notebook
0,RandomForest,3111.631272,55.781998,40.557732,0.425054,0.375671,res_big_5_wo_ext


In [105]:
big_5_wo_ext = pd.read_csv("../data/output_data_5/without_external_data/big_data_no_outliers_cols_3_wo_ext.csv")
big_5_wo_ext = big_5_wo_ext.drop("Unnamed: 0", axis=1)
big_5_wo_ext["price"].describe()

count    90577.000000
mean       115.982490
std         70.897462
min         20.000000
25%         64.000000
50%         99.000000
75%        150.000000
max        348.000000
Name: price, dtype: float64

In [101]:
res_big_all_wo_ext[res_big_all_wo_ext["R2"] == res_big_all_wo_ext["R2"].max()]

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2,Notebook
3,XGBoost,24380.369566,156.142145,83.040438,0.658714,0.510021,res_big_3_wo_ext


In [106]:
big_3_wo_ext = pd.read_csv("../data/output_data_3/without_external_data/big_data_no_outliers_cols_wo_ext.csv")
big_3_wo_ext = big_3_wo_ext.drop("Unnamed: 0", axis=1)
big_3_wo_ext["price"].describe()

count    99884.000000
mean       171.400695
std        221.565882
min         20.000000
25%         68.000000
50%        106.000000
75%        180.000000
max       2000.000000
Name: price, dtype: float64

Comentario:

- El dataset que tiene el menor MAE es el dataset "big_data_5" (sin datos externos).
	- Model: RandomForest, RMSE: 55.78, MAE: 40.56, MAPE: 0.43, R2: 0.38
	- Model: CatBoost, RMSE: 55.10, MAE: 40.71, MAPE: 0.43, R2: 0.39
	- Las características del "big_data_5":
	    - sólo contiene datos de Airbnb.
    	- en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price" utilizando el método de IQR (rango interquartil) SIN HACER la agrupación por comunidad autónoma. 
		- dataset de entrada para ML (después de limpieza): 90577 filas x 19 columnas
<br><br>
- Por otro lado, el dataset que tiene el mayor R2 es "big_data_3" (sin datos externos).
	- Model: XGBoost, RMSE: 156.14, MAE: 83.04, MAPE: 0.66, R2: 0.51
	- Las características del "big_data_3":
		- sólo contiene datos de Airbnb.
		- en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price". Por lo tanto, este dataset tiene una franja de precios entre 20 EUR/noche y 2000 EUR/noche.
		- dataset de entrada para ML (después de limpieza): 99884 filas x 19 columnas

Decisión:
- El ganador es el modelo RandomForest del dataset "big_data_5" (con datos externos) porque:
	1) Desde el punto de vista de business, tiene el menor MAE (MAE: 40.53 sobre el precio promedio: 116 EUR/noche), aunque su RMSE está un poco más alto que él de Catboost, pero la diferencia es solamente 0.5 que no es nada.
	2) Si nos enfocamos solamente en los modelos entrenados con el dataset "big_data_5", el R2 de RandomForest es uno de los buenos R2s.
- Aunque el ganador es RandomForest, pero también se puede utilizar el CatBoost porque sus métricas son más o menos similares a las del RandomForest.

## Dataset pequeño

Consiste en 4 notebooks:
- small_data_1:
	- limpieza de datos: juntar tablas, tratamiento de valores nulos, observación de outliers
	- EDA: distribución de variables, correlación entre los features y entre los features y el target, observación sobre la relación entre los features y el target
	- dataset de entrada: 900 filas × 82 columnas que es un merge de los datos de Airbnb, INE e Idealista. 
	- dataset de salida: 
		1) 900 filas x 56 columnas. En este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc). Sin embargo, no le he quitado ningún outlier. Ruta: "output_data_1/small_data_cols.csv"
		2) 893 filas x 56 columnas. En este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price". Por lo tanto, este dataset tiene una franja de precios entre 20 EUR/noche y 2000 EUR/noche. Ruta: "output_data_1/small_data_no_outliers_cols.csv"
		3) 838 filas x 56 columnas. En este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price" utilizando el método de IQR agrupado por comunidad autónoma. Ruta: "output_data_1/small_data_no_outliers_cols_2.csv"
		4) 804 filas x 56 columnas. Este dataset es parecido al de número 3. La única diferencia es los precios de IQR NO SE AGRUPAN por comunidad autónoma. Ruta: "output_data_1/small_data_no_outliers_cols_3.csv".


- small_data_2:
	- transformación de las columnas categóricas a través de Ordinal Encoder y OneHot Encoder
	- prueba de varios modelos de Machine Learning con columnas númericas y categóricas elegidas desde el punto de vista del negocio. Hago comparación de métricas entre modelos con lo cual el mejor modelo de esta prueba será el baseline para la optimización.

	Este notebook contiene 2 datasets:

    a. Dataset 1:
    - este dataset contiene datos externos (de Idealista e INE).
    - en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc). Sin embargo, no le he quitado ningún outlier. 
    - dataset de entrada: 900 filas x 56 columnas que viene del notebook 1, output 1.
    - dataset de salida: 900 filas x 61 columnas. Ruta: "output_data_2/small_data_cols.csv".

In [81]:
res_small_2 = pd.read_csv("../data/output_data_2/metrics_small_data.csv")
res_small_2

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2
0,RandomForest,92329.344869,303.857442,63.351889,0.465954,0.052919
1,AdaBoost,93663.978644,306.045713,101.164215,1.234655,0.039229
2,GradientBoost,92878.180009,304.759216,62.419955,0.453254,0.047289
3,XGBoost,93739.584956,306.16921,60.702228,0.45017,0.038453
4,CatBoost,92149.497296,303.561357,55.860001,0.371357,0.054764
5,KNN,92011.070222,303.333266,63.037778,0.459854,0.056184
6,Voting,91171.772513,301.946639,61.903069,0.523524,0.064793


    b. Dataset 2:
    - este dataset sólo contiene datos de Airbnb.
    - en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc). Sin embargo, no le he quitado ningún outlier. 
    - dataset de entrada: 900 filas x 61 columnas que viene del output del dataset 1 del mismo notebook.
    - dataset de salida: 900 filas x 56 columnas. Ruta: "output_data_2/without_external_data/small_data_cols_wo_ext.csv".

In [82]:
res_small_2_wo_ext = pd.read_csv("../data/output_data_2/without_external_data/metrics_small_data_wo_ext.csv")
res_small_2_wo_ext

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2
0,RandomForest,92189.398268,303.627071,63.136333,0.465809,0.054355
1,AdaBoost,92703.467443,304.472441,99.396177,1.252989,0.049082
2,GradientBoost,92709.936563,304.483064,61.33491,0.392636,0.049015
3,XGBoost,94300.774476,307.084312,63.540841,0.487354,0.032697
4,CatBoost,91534.205814,302.546204,56.404385,0.401348,0.061075
5,KNN,91779.379556,302.951117,62.131111,0.45096,0.05856
6,Voting,90982.082717,301.632364,62.294278,0.529143,0.066739


- small_data_3:
	- transformación de las columnas categóricas a través de Ordinal Encoder y OneHot Encoder
	- prueba de varios modelos de Machine Learning con columnas númericas y categóricas elegidas desde el punto de vista del negocio. Hago comparación de métricas entre modelos con lo cual el mejor modelo de esta prueba será el baseline para la optimización.

	Este notebook contiene 2 datasets:

	a. Dataset 1:
	- este dataset contiene datos externos (de Idealista e INE).
	- en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price". Por lo tanto, este dataset tiene una franja de precios entre 20 EUR/noche y 2000 EUR/noche.
	- dataset de entrada: 893 filas x 56 columnas que viene del notebook 1, output 1.
	- dataset de salida: 893 filas x 61 columnas. Ruta: "output_data_3/small_data_no_outliers_cols.csv"

In [83]:
res_small_3 = pd.read_csv("../data/output_data_3/metrics_small_data_no_outliers.csv")
res_small_3

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2
0,RandomForest,13708.995584,117.08542,51.538436,0.473408,0.544794
1,AdaBoost,16110.591593,126.927505,77.215796,0.948366,0.465049
2,GradientBoost,9726.16898,98.621341,46.081978,0.395502,0.677044
3,XGBoost,9145.848021,95.633927,47.963009,0.398055,0.696313
4,CatBoost,10343.792996,101.704439,42.465985,0.367383,0.656535
5,KNN,14897.055866,122.053496,51.788827,0.447269,0.505345
6,Voting,11021.689207,104.984233,47.98299,0.460572,0.634026


    b. Dataset 2:
    - este dataset sólo contiene datos de Airbnb.
    - en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price". Por lo tanto, este dataset tiene una franja de precios entre 20 EUR/noche y 2000 EUR/noche.
    - dataset de entrada: 893 filas x 61 columnas que viene del output del dataset 1 del mismo notebook.
    - dataset de salida: 893 filas x 56 columnas. Ruta: "output_data_3/without_external_data/small_data_no_outliers_cols_wo_ext.csv".

In [84]:
res_small_3_wo_ext = pd.read_csv("../data/output_data_3/without_external_data/metrics_small_data_no_outliers_wo_ext.csv")
res_small_3_wo_ext

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2
0,RandomForest,13866.929708,117.757928,52.137709,0.477016,0.53955
1,AdaBoost,17283.234928,131.465718,90.157561,1.183057,0.426112
2,GradientBoost,9822.018675,99.106098,46.397227,0.414272,0.673861
3,XGBoost,11247.702719,106.055187,51.352063,0.482825,0.626521
4,CatBoost,10866.428926,104.242165,43.700497,0.379088,0.639181
5,KNN,15208.481341,123.322672,51.394413,0.451934,0.495004
6,Voting,11411.840226,106.826215,50.098915,0.507836,0.621071


- small_data_4:
	- transformación de las columnas categóricas a través de Ordinal Encoder y OneHot Encoder
	- prueba de varios modelos de Machine Learning con columnas númericas y categóricas elegidas desde el punto de vista del negocio. Hago comparación de métricas entre modelos con lo cual el mejor modelo de esta prueba será el baseline para la optimización.
	Este notebook contiene 2 datasets:

    a. Dataset 1:
    - este dataset contiene datos externos (de Idealista e INE).
    - en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price" utilizando el método de IQR (rango interquartil) agrupados por comunidad autónoma. 
    - dataset de entrada: 838 filas x 56 columnas que viene del notebook 1, output 1.
    - dataset de salida: 838 filas x 61 columnas. Ruta: "output_data_4/small_data_no_outliers_cols_2.csv".

In [85]:
res_small_4 = pd.read_csv("../data/output_data_4/metrics_small_data_no_outliers_2.csv")
res_small_4

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2
0,RandomForest,2004.049536,44.766612,31.319464,0.361178,0.615722
1,AdaBoost,2624.094922,51.22592,39.619269,0.559708,0.496828
2,GradientBoost,2103.338,45.862163,31.962456,0.360144,0.596683
3,XGBoost,2468.399565,49.682991,32.843146,0.350874,0.526683
4,CatBoost,1781.444492,42.207162,29.034751,0.317865,0.658407
5,KNN,2857.155714,53.452369,37.95,0.441859,0.452138
6,Voting,1993.455838,44.648134,31.522623,0.371311,0.617753


    b. Dataset 2:
    - este dataset sólo contiene datos de Airbnb.
    - en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price" utilizando el método de IQR (rango interquartil) agrupados por comunidad autónoma. 
    - dataset de entrada: 838 filas x 61 columnas que viene del output del dataset 1 del mismo notebook.
    - dataset de salida: 838 filas x 56 columnas. Ruta: "output_data_4/without_external_data/small_data_no_outliers_cols_2_wo_ext.csv".

In [86]:
res_small_4_wo_ext = pd.read_csv("../data/output_data_4/without_external_data/metrics_small_data_no_outliers_cols_2_wo_ext.csv")
res_small_4_wo_ext

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2
0,RandomForest,1984.27941,44.545251,31.222381,0.356783,0.619513
1,AdaBoost,2655.521488,51.531752,41.397652,0.596614,0.490802
2,GradientBoost,1939.750172,44.042595,31.15922,0.351525,0.628051
3,XGBoost,2704.26859,52.002583,33.091383,0.353216,0.481454
4,CatBoost,1753.434954,41.874037,29.038823,0.317629,0.663778
5,KNN,2972.519762,54.52082,38.39881,0.440962,0.430017
6,Voting,1978.765567,44.483318,31.646209,0.376677,0.62057


- small_data_5:
	- transformación de las columnas categóricas a través de Ordinal Encoder y OneHot Encoder
	- prueba de varios modelos de Machine Learning con columnas númericas y categóricas elegidas desde el punto de vista del negocio. Hago comparación de métricas entre modelos con lo cual el mejor modelo de esta prueba será el baseline para la optimización.
	Este notebook contiene 2 datasets:

    a. Dataset 1:
    - este dataset contiene datos externos (de Idealista e INE).
    - en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price" utilizando el método de IQR (rango interquartil) SIN HACER la agrupación por comunidad autónoma. 
    - dataset de entrada: 804 filas x 56 columnas que viene del notebook 1, output 1.
    - dataset de salida: 804 filas x 61 columnas. Ruta: "output_data_5/small_data_no_outliers_cols_3.csv".

In [87]:
res_small_5 = pd.read_csv("../data/output_data_5/metrics_small_data_no_outliers_cols_3.csv")
res_small_5

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2
0,RandomForest,1237.557138,35.17893,25.709565,0.290405,0.48204
1,AdaBoost,1613.130801,40.1638,31.697959,0.409234,0.324849
2,GradientBoost,1333.105844,36.511722,26.984593,0.296825,0.442049
3,XGBoost,1724.453358,41.526538,28.961904,0.306256,0.278257
4,CatBoost,1214.780067,34.853695,25.723551,0.278982,0.491573
5,KNN,1723.36795,41.513467,30.544099,0.353459,0.278711
6,Voting,1288.077844,35.889801,26.027149,0.297016,0.460895


    b. Dataset 2:
    - este dataset sólo contiene datos de Airbnb.
    - en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price" utilizando el método de IQR (rango interquartil) SIN HACER la agrupación por comunidad autónoma. 
    - dataset de entrada: 804 filas x 61 columnas que viene del output del dataset 1 del mismo notebook.
    - dataset de salida: 804 x 56 columnas. Ruta: "output_data_5/without_external_data/small_data_no_outliers_cols_3_wo_ext.csv".

In [88]:
res_small_5_wo_ext = pd.read_csv("../data/output_data_5/without_external_data/metrics_small_data_no_outliers_cols_3_wo_ext.csv")
res_small_5_wo_ext

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2
0,RandomForest,1247.731778,35.323247,25.718199,0.289452,0.477781
1,AdaBoost,1578.187361,39.726406,30.911513,0.397485,0.339474
2,GradientBoost,1391.29115,37.300015,27.527377,0.308738,0.417697
3,XGBoost,1477.423207,38.437263,27.381093,0.295444,0.381647
4,CatBoost,1287.907864,35.887433,26.509868,0.292364,0.460966
5,KNN,1710.241242,41.355063,30.33913,0.347081,0.284205
6,Voting,1280.013832,35.777281,26.072761,0.297075,0.46427


### Busca el mejor modelo en el Dataset 1 (contiene datos externos)

In [89]:
res_small_2["Notebook"] = "res_small_2"
res_small_3["Notebook"] = "res_small_3"
res_small_4["Notebook"] = "res_small_4"
res_small_5["Notebook"] = "res_small_5"

In [90]:
res_small_all = pd.concat([res_small_2, res_small_3, res_small_4, res_small_5], axis=0)
res_small_all

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2,Notebook
0,RandomForest,92329.344869,303.857442,63.351889,0.465954,0.052919,res_small_2
1,AdaBoost,93663.978644,306.045713,101.164215,1.234655,0.039229,res_small_2
2,GradientBoost,92878.180009,304.759216,62.419955,0.453254,0.047289,res_small_2
3,XGBoost,93739.584956,306.16921,60.702228,0.45017,0.038453,res_small_2
4,CatBoost,92149.497296,303.561357,55.860001,0.371357,0.054764,res_small_2
5,KNN,92011.070222,303.333266,63.037778,0.459854,0.056184,res_small_2
6,Voting,91171.772513,301.946639,61.903069,0.523524,0.064793,res_small_2
0,RandomForest,13708.995584,117.08542,51.538436,0.473408,0.544794,res_small_3
1,AdaBoost,16110.591593,126.927505,77.215796,0.948366,0.465049,res_small_3
2,GradientBoost,9726.16898,98.621341,46.081978,0.395502,0.677044,res_small_3


In [91]:
res_small_all[res_small_all["RMSE"] == res_small_all["RMSE"].min()]

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2,Notebook
4,CatBoost,1214.780067,34.853695,25.723551,0.278982,0.491573,res_small_5


In [92]:
res_small_all[res_small_all["MAE"] == res_small_all["MAE"].min()]

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2,Notebook
0,RandomForest,1237.557138,35.17893,25.709565,0.290405,0.48204,res_small_5


In [93]:
small_5 = pd.read_csv("../data/output_data_5/small_data_no_outliers_cols_3.csv")
small_5 = small_5.drop("Unnamed: 0", axis=1)
small_5["price"].describe()

count    804.000000
mean      99.054726
std       51.345381
min       20.000000
25%       62.750000
50%       90.000000
75%      125.000000
max      260.000000
Name: price, dtype: float64

In [94]:
res_small_all[res_small_all["R2"] == res_small_all["R2"].max()]

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2,Notebook
3,XGBoost,9145.848021,95.633927,47.963009,0.398055,0.696313,res_small_3


In [95]:
small_3 = pd.read_csv("../data/output_data_3/small_data_no_outliers_cols.csv")
small_3 = small_3.drop("Unnamed: 0", axis=1)
small_3["price"].describe()

count     893.000000
mean      133.852184
std       139.106657
min        20.000000
25%        66.000000
50%        96.000000
75%       144.000000
max      1571.000000
Name: price, dtype: float64

Comentario:

- El dataset que tiene el menor MAE es el dataset "small_data_5".
    - Model: RandomForest, RMSE: 35.18, MAE: 25.71, MAPE: 0.29, R2: 0.48
    - Model: CatBoost, RMSE: 34.85, MAE: 25.72, MAPE: 0.28, R2: 0.49
    - Las características del "small_data_5":
        - contiene datos externos (de Idealista e INE).
        - en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price" utilizando el método de IQR (rango interquartil) SIN HACER la agrupación por comunidad autónoma. 
        - dataset de entrada para ML (después de limpieza): 804 filas x 61 columnas
<br><br>
- Por otro lado, el dataset que tiene el mayor R2 es "small_data_3".
    - Model: XGBoost, RMSE: 95.63, MAE: 47.96, MAPE, 0.39, R2: 0.69
    - Las características del "small_data_3":
        - contiene datos externos (de Idealista e INE).
        - en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price". Por lo tanto, este dataset tiene una franja de precios entre 20 EUR/noche y 2000 EUR/noche.
        - dataset de entrada para ML (después de limpieza): 893 filas x 61 columnas

Decisión:
- El ganador es el modelo RandomForest del dataset "small_data_5" porque:
    1) Desde el punto de vista de business, tiene el menor MAE (MAE: 25.71 sobre el precio promedio: 99 EUR/noche) y el menor MSE.
    2) Si nos enfocamos solamente en los modelos entrenados con el dataset "small_data_5", el R2 de RandomForest es uno de los buenos R2s.
- Aunque el ganador es RandomForest, pero también se puede utilizar el CatBoost porque sus métricas son más o menos similares a las del RandomForest.

### Busca el mejor modelo en el Dataset 2 (sólo contiene datos de Airbnb)

In [107]:
res_small_2_wo_ext["Notebook"] = "res_small_2_wo_ext"
res_small_3_wo_ext["Notebook"] = "res_small_3_wo_ext"
res_small_4_wo_ext["Notebook"] = "res_small_4_wo_ext"
res_small_5_wo_ext["Notebook"] = "res_small_5_wo_ext"

In [108]:
res_small_all_wo_ext = pd.concat([res_small_2_wo_ext, res_small_3_wo_ext, res_small_4_wo_ext, res_small_5_wo_ext], axis=0)
res_small_all_wo_ext

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2,Notebook
0,RandomForest,92189.398268,303.627071,63.136333,0.465809,0.054355,res_small_2_wo_ext
1,AdaBoost,92703.467443,304.472441,99.396177,1.252989,0.049082,res_small_2_wo_ext
2,GradientBoost,92709.936563,304.483064,61.33491,0.392636,0.049015,res_small_2_wo_ext
3,XGBoost,94300.774476,307.084312,63.540841,0.487354,0.032697,res_small_2_wo_ext
4,CatBoost,91534.205814,302.546204,56.404385,0.401348,0.061075,res_small_2_wo_ext
5,KNN,91779.379556,302.951117,62.131111,0.45096,0.05856,res_small_2_wo_ext
6,Voting,90982.082717,301.632364,62.294278,0.529143,0.066739,res_small_2_wo_ext
0,RandomForest,13866.929708,117.757928,52.137709,0.477016,0.53955,res_small_3_wo_ext
1,AdaBoost,17283.234928,131.465718,90.157561,1.183057,0.426112,res_small_3_wo_ext
2,GradientBoost,9822.018675,99.106098,46.397227,0.414272,0.673861,res_small_3_wo_ext


In [109]:
res_small_all_wo_ext[res_small_all_wo_ext["RMSE"] == res_small_all_wo_ext["RMSE"].min()]

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2,Notebook
0,RandomForest,1247.731778,35.323247,25.718199,0.289452,0.477781,res_small_5_wo_ext


In [110]:
res_small_all_wo_ext[res_small_all_wo_ext["MAE"] == res_small_all_wo_ext["MAE"].min()]

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2,Notebook
0,RandomForest,1247.731778,35.323247,25.718199,0.289452,0.477781,res_small_5_wo_ext


In [111]:
small_5_wo_ext = pd.read_csv("../data/output_data_5/without_external_data/small_data_no_outliers_cols_3_wo_ext.csv")
small_5_wo_ext = small_5_wo_ext.drop("Unnamed: 0", axis=1)
small_5_wo_ext["price"].describe()

count    804.000000
mean      99.054726
std       51.345381
min       20.000000
25%       62.750000
50%       90.000000
75%      125.000000
max      260.000000
Name: price, dtype: float64

In [112]:
res_small_all_wo_ext[res_small_all_wo_ext["R2"] == res_small_all_wo_ext["R2"].max()]

Unnamed: 0,Model,MSE,RMSE,MAE,MAPE,R2,Notebook
2,GradientBoost,9822.018675,99.106098,46.397227,0.414272,0.673861,res_small_3_wo_ext


In [113]:
small_3_wo_ext = pd.read_csv("../data/output_data_3/without_external_data/small_data_no_outliers_cols_wo_ext.csv")
small_3_wo_ext = small_3_wo_ext.drop("Unnamed: 0", axis=1)
small_3_wo_ext["price"].describe()

count     893.000000
mean      133.852184
std       139.106657
min        20.000000
25%        66.000000
50%        96.000000
75%       144.000000
max      1571.000000
Name: price, dtype: float64

Comentario:

- El dataset que tiene el menor MAE es el dataset "small_data_5" (sin datos externos).
    - Model: RandomForest, RMSE: 35.32, MAE: 25.72, MAPE: 0.29, R2: 0.48
    - Las características del "small_data_5":
        - sólo contiene datos de Airbnb.
        - en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price" utilizando el método de IQR (rango interquartil) SIN HACER la agrupación por comunidad autónoma. 
        - dataset de entrada para ML (después de limpieza): 804 filas x 56 columnas
<br><br>
- Por otro lado, el dataset que tiene el mayor R2 es "small_data_3" (sin datos externos).
    - Model: GradientBoost, RMSE: 99.11, MAE: 46.39, MAPE: 0.41, R2: 0.67
    - Las características del "small_data_3":
        - sólo contiene datos de Airbnb.
        - en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price". Por lo tanto, este dataset tiene una franja de precios entre 20 EUR/noche y 2000 EUR/noche.
        - dataset de entrada para ML (después de limpieza): 893 filas x 56 columnas

Decisión:
- El ganador es el modelo RandomForest del dataset "small_data_5" (con datos externos) porque:
    1) Desde el punto de vista de business, tiene el menor MAE (MAE: 25.71 sobre el precio promedio: 99 EUR/noche).
    2) Si nos enfocamos solamente en los modelos entrenados con el dataset "big_data_5", el R2 de RandomForest es el mejor.

### Resumen:
- Las métricas del dataset pequeño con menos columnas son mejores que las métricas del dataset grande con pocas columnas.
- Las métricas del dataset 1 (que contiene datos externos) son mejores que las del dataset 2 (sólo contiene datos de Airbnb). Sin embargo, no se aprecia mucho la diferencia.
- Los datasets con el mejor R2 no siempre tienen el mejor MAE y RMSE, y vice versa. Por lo tanto, hay que valorarlo y decidir cuál es la mejor métrica para toma de decisión porque todo depende del objetivo de cada estudio. En este proyecto, priorizaría el MAE porque este estudio está dirigido más para los inversores.
- El mejor modelo de este estudio es <b>RandomForest</b> con el dataset <b>"small_data_5", RMSE: 35.18, MAE: 25.71 (sobre el precio medio de 99 EUR/noche), MAPE: 0.29 y R2: 0.48</b>. Las características de este dataset:
	- contiene datos externos (de Idealista e INE).
	- en este dataset, le he quitado algunas columnas que no tienen valores predictivos (por ej: "id", "name", "description", etc) y le he quitado también algunos outliers en base a la columna "price" utilizando el método de IQR (rango interquartil) SIN HACER la agrupación por comunidad autónoma. 
	- dataset de entrada para ML (después de limpieza): 804 filas x 61 columnas
- El modelo alternativo es CatBoost cuya métricas son parecidas a las del RandomForest.
- En base a este resultado, haré la optimización del modelo.