Enunciado: 
El  objetivo de la pr√°ctica es simple: abordar un problema de Machine Learning realista 
siguiendo la metodolog√≠a y buenas pr√°cticas explicadas durante las clases te√≥ricas. Por 
tanto, en estas instrucciones no se especifican los pasos exactos que el alumno tiene que 
llevar a cabo para realizar esta tarea con √©xito; es parte del trabajo aplicar las t√©cnicas de 
procesamiento/transformaci√≥n de variables que mejor se adec√∫en al problema, identificar 
los  modelos  que  proporcionen  prestaciones  √≥ptimas,  las  variables  potencialmente  m√°s 
relevantes  y  la  m√©trica  adecuada  para  contrastar  los  distintos  modelos.  A√∫n  as√≠,  se 
proporciona una peque√±a gu√≠a de los pasos necesarios. Las posibilidades son amplias, as√≠ 
que  es  recomendable  abordar  una  aproximaci√≥n  incremental:  comenzar  por soluciones 
sencillas para progresivamente aumentar la complejidad de las t√©cnicas utilizadas. 
 
A diferencia de los datasets utilizados en las clases, este est√° compuesto por datos reales, 
es decir, precisa de un an√°lisis y limpieza mayores. Por el mismo motivo no se pretende 
obtener unos resultados espectaculares, es suficiente con que sean decentes; se valorar√° 
mucho  m√°s  que  el  proceso  seguido  tenga  sentido  y  no  contenga  errores  graves  de 
concepto

Introducci√≥n:
Para la pr√°ctica, vamos a abordar un problema de Machine Learning en el cual, usando de base un dataset con datos de airbnb, vamos a estudiar los datos antes de seleccionar las caracter√≠sticas, prepararlos, usar profilers para observarlos mejor, y finalmente, crear nuestros modelos 

In [None]:
%pip install ydata-profiling
%pip install ipywidgets
%jupyter nbextension enable --py widgetsnbextension
%pip install setuptools
%pip install ydata-profiling

In [None]:
#Nuestro primer paso ser√° cargar las librer√≠as que vamos a utilizar



import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
plt.style.use("seaborn-v0_8")
%matplotlib inline


import warnings
warnings.filterwarnings('ignore')

Vamos a estudiar el dataset. 

In [None]:
house_data = pd.read_csv("airbnb-listings-extract.csv", sep=None, engine="python", on_bad_lines="warn")



In [None]:
house_data.head()




In [None]:
house_data.tail() #Mostramos la √∫ltima fila del dataset para comparar con las primeras 


A partir de estos datos, creamos un diccionario de columnas explicando qu√© hay en cada una de ellas. 
 Diccionario de columnas ‚Äî Airbnb Listings 
Columna	Descripci√≥n  
ID	Identificador √∫nico del alojamiento (listing).
Listing Url	Enlace directo al anuncio en Airbnb.
Scrape ID	Identificador de la extracci√≥n de datos (cuando se recopil√≥ la informaci√≥n).
Last Scraped	Fecha de la √∫ltima extracci√≥n de informaci√≥n.
Name	T√≠tulo del anuncio.
Summary	Resumen breve del alojamiento. 
Space	Descripci√≥n del espacio f√≠sico del alojamiento. 
Description	Descripci√≥n completa del anuncio. 
Experiences Offered	Indica si el anfitri√≥n ofrece experiencias (tours, actividades, etc.). 
Neighborhood Overview	Descripci√≥n del vecindario o zona donde se ubica el alojamiento. 
Notes	Notas adicionales del anfitri√≥n. 
Transit	Informaci√≥n sobre transporte p√∫blico cercano o accesos.  
Access	Qu√© partes del alojamiento pueden usar los hu√©spedes. 
Interaction	Nivel de interacci√≥n del anfitri√≥n con los hu√©spedes.  
House Rules	Normas de la casa.  
Thumbnail Url, Medium Url, Picture Url, XL Picture Url	Enlaces a im√°genes del alojamiento en distintos tama√±os. 
Host ID	Identificador √∫nico del anfitri√≥n. 
Host URL	Enlace al perfil del anfitri√≥n. 
Host Name	Nombre del anfitri√≥n. 
Host Since	Fecha en que el anfitri√≥n se uni√≥ a Airbnb.  
Host Location	Ubicaci√≥n declarada del anfitri√≥n.  
Host About	Descripci√≥n personal del anfitri√≥n. 
Host Response Time	Tiempo medio de respuesta del anfitri√≥n (por ejemplo: ‚Äúwithin an hour‚Äù). 
Host Response Rate	Porcentaje de respuestas del anfitri√≥n. 
Host Acceptance Rate	Porcentaje de reservas aceptadas por el anfitri√≥n. 
Host Thumbnail Url, Host Picture Url	Enlaces a la foto de perfil del anfitri√≥n. 
Host Neighbourhood	Barrio o zona donde reside el anfitri√≥n.  
Host Listings Count	N√∫mero de alojamientos que tiene publicados este anfitri√≥n.  
Host Total Listings Count	Total de propiedades activas del anfitri√≥n. 
Host Verifications	M√©todos de verificaci√≥n (correo, tel√©fono, etc.).
Street	Direcci√≥n completa del alojamiento.  
Neighbourhood, Neighbourhood Cleansed, Neighbourhood Group Cleansed	Nombre del barrio y su versi√≥n ‚Äúlimpia‚Äù o categorizada.
City,   
Market,   
Smart Location,  	
Informaci√≥n geogr√°fica.  
Country Code,  
Pa√≠s del alojamiento.
Latitude, Longitude	Coordenadas geogr√°ficas.
Property Type	Tipo de propiedad (apartamento, casa, loft, etc.).  
Room Type	Tipo de habitaci√≥n (entera, privada, compartida).   
Accommodates	N√∫mero m√°ximo de hu√©spedes. 
Bathrooms, Bedrooms, Beds	N√∫mero de ba√±os, dormitorios y camas.  
Bed Type	Tipo de cama principal. Codificamos
Amenities	Lista de servicios incluidos (Wi-Fi, TV, cocina, etc.). 
Square Feet	Tama√±o del alojamiento en pies cuadrados (si est√° disponible). Sacamos media redondeando 
Price, Weekly Price, Monthly Price	Precio por noche, semana o mes. Nos cargamos todo menos Price 
Security Deposit, Cleaning Fee	Dep√≥sito de seguridad y tarifa de limpieza. 
Guests Included	N√∫mero de hu√©spedes incluidos en el precio base.
Extra People	Precio extra por hu√©sped adicional. 
Minimum Nights, Maximum Nights	Estancia m√≠nima y m√°xima permitida.
Calendar Updated	√öltima actualizaci√≥n del calendario.  
Has Availability	Indica si el alojamiento est√° disponible.  
Availability 30/60/90/365	D√≠as disponibles en los pr√≥ximos 30, 60, 90 o 365 d√≠as. 
Calendar last Scraped	Fecha de la √∫ltima actualizaci√≥n del calendario. 
Number of Reviews	Total de rese√±as.  
First Review, Last Review	Fechas de la primera y √∫ltima rese√±a.  
Review Scores Rating	Puntuaci√≥n media global del alojamiento.
Review Scores Accuracy, Cleanliness, Checkin, Communication, Location, Value	Subpuntuaciones espec√≠ficas de los hu√©spedes. 
License	N√∫mero de licencia tur√≠stica (si aplica).  
Jurisdiction Names	Jurisdicci√≥n administrativa del alojamiento.  
Cancellation Policy	Pol√≠tica de cancelaci√≥n (flexible, moderada, estricta, etc.).  
Calculated host listings count	N√∫mero de alojamientos activos del anfitri√≥n calculado autom√°ticamente.   
Reviews per Month	Promedio de rese√±as mensuales.  
Geolocation	Coordenadas combinadas (latitud, longitud). 
Features	Etiquetas o caracter√≠sticas del anuncio (por ejemplo, ‚ÄúHost Is Superhost‚Äù).  

(Extra√≠do por ChatGPT) 

Tambi√©n debemos usar la funci√≥n describe para ver c√≥mo son los valores de este dataset

In [None]:
describe = house_data.describe(include='all').T
print (describe)


In [None]:
house_data.info()
house_data.isna().sum().sort_values(ascending=False)
#Vemos que hay muchas columnas con muchos valores nulos, por si hace falta limpiarlos o eliminarlos

In [None]:
# 1. Calcular Q1, Q3 e IQR
Q1 = house_data['Price'].quantile(0.25)
Q3 = house_data['Price'].quantile(0.75)
IQR = Q3 - Q1

# 2. definimos las barreras donde marcar los quartiles
lower_fence = Q1 - 1.5 * IQR
upper_fence = Q3 + 1.5 * IQR

# 3. Creamos una m√°scara para identificar outliers 
outliers = house_data[
    (house_data['Price'] < lower_fence) | (house_data['Price'] > upper_fence)
]
# Contar solo los valores no nulos (v√°lidos) en la columna 'Price'
total_valores_validos = house_data['Price'].notna().sum()

# Calcular el porcentaje de outliers
porcentaje_outliers = (len(outliers) / total_valores_validos) * 100
print(f"Porcentaje de outliers en la columna 'Price': {porcentaje_outliers:.2f}%")
print("Dado que es un porcentaje muy alto, y perder√≠amos demasiada informaci√≥n, no eliminaremos los outliers.")

Dado que hay muchos outliers, y estos representan pisos reales, no deber√≠amos eliminarlos del conjunto de datos por el cual nuestro modelo aprende. 

In [None]:
#Para hacer un an√°lisis exploratorio de datos (EDA), vamos a utilizar la librer√≠a ydata-profiling
from ydata_profiling import ProfileReport

# Crear el perfil
profile = ProfileReport(house_data, title="Profiling Report")

# Mostrarlo dentro del notebook
profile.to_notebook_iframe()

# (opcional) Guardarlo como HTML
profile.to_file("profiling_report.html")

Aunque este primer Profiler s√≥lo nos ha permitido ver los datos para todo el dataset, y para el ejercicio s√≥lo necesitamos los datos de Madrid, ya nos permite hacer un an√°lisis algo m√°s claro, y nos permite observar cu√°les son las columnas que no van a tener ninguna correlaci√≥n. En este caso, hemos eliminado las siguientes columnas: 
'ID', 'Latitude', 'Longitude', 'Geolocation'
dado que al tener un 100% de valores distintos entre s√≠, no nos van a permitir observar ning√∫n tipo de correlaci√≥n. 
Tambi√©n, vamos a eliminar todos los valores URL, ya que son texto largo y no aportan 
'Listing Url', 'Scrape ID', 'Thumbnail Url', 'Medium Url', 'Picture Url', 'XL Picture Url', 'Host URL', 'Host Thumbnail Url', 'Host Picture Url'

Otros valores que no aportan: 'Name', 'Summary', 'Description', 'Space', 'Notes', 'Neighborhood Overview', 'Transit', 'Access', 'Interaction', 'House Rules', 'License', 'Jurisdiction Names', 'Features'

Adem√°s, podemos observar que tiene una gran correlaci√≥n con 5 variables: 'Accommodates', 'Beds', 'Cleaning Fee', 'Monthly Price' y 'Weekly price', que de momento mantendremos. Hay que recordar que esta correlaci√≥n s√≥lo funciona en 1 a 1, es decir, no toma en cuenta otras variables. 



| **Atributo**                   | **Descripci√≥n**                                                               |
| :----------------------------- | :---------------------------------------------------------------------------- |
| *Neighbourhood Group Cleansed* | Agrupaci√≥n superior del barrio (por ejemplo, distrito o zona administrativa). |
| *City*                         | Ciudad donde se encuentra el alojamiento.                                     |
| *Market*                       | Mercado o √°rea geogr√°fica general (por ejemplo, ‚ÄúMadrid Area‚Äù).               |
| *Property Type*                | Tipo de propiedad (apartamento, casa, loft, etc.).                            |
| *Room Type*                    | Tipo de habitaci√≥n (entera, privada, compartida).                             |
| *Accommodates*                 | N√∫mero m√°ximo de hu√©spedes.                                                   |
| *Bathrooms*                    | N√∫mero de ba√±os o aseos.                                                      |
| *Bedrooms*                     | N√∫mero de dormitorios.                                                        |
| *Beds*                         | N√∫mero total de camas.                                                        |
| *Bed Type*                     | Tipo de cama principal.                                                       |
| *Amenities*                    | Lista de servicios disponibles (Wi-Fi, cocina, TV, etc.).                     |
| *Square Feet*                  | Superficie del alojamiento (en pies cuadrados).                               |
| *Price*                        | Precio por noche.                                                             |
| *Guests Included*              | N√∫mero de hu√©spedes incluidos en el precio base.                              |
| *Extra People*                 | Precio adicional por hu√©sped extra.                                           |
| *Minimum Nights*               | Estancia m√≠nima permitida.                                                    |
| *Maximum Nights*               | Estancia m√°xima permitida.                                                    |
| *Availability 30*              | D√≠as disponibles en los pr√≥ximos 30 d√≠as.                                     |
| *Availability 60*              | D√≠as disponibles en los pr√≥ximos 60 d√≠as.                                     |
| *Availability 90*              | D√≠as disponibles en los pr√≥ximos 90 d√≠as.                                     |
| *Availability 365*             | D√≠as disponibles en los pr√≥ximos 365 d√≠as.                                    |
| *Number of Reviews*            | N√∫mero total de rese√±as recibidas.                                            |
| *Review Scores Rating*         | Puntuaci√≥n media global del alojamiento.                                      |
| *Review Scores Accuracy*       | Puntuaci√≥n sobre la precisi√≥n del anuncio.                                    |
| *Review Scores Cleanliness*    | Puntuaci√≥n sobre limpieza.                                                    |
| *Review Scores Checkin*        | Puntuaci√≥n sobre la facilidad de entrada.                                     |
| *Review Scores Communication*  | Puntuaci√≥n sobre comunicaci√≥n con el anfitri√≥n.                               |
| *Review Scores Location*       | Puntuaci√≥n sobre la ubicaci√≥n.                                                |
| *Review Scores Value*          | Puntuaci√≥n sobre la relaci√≥n calidad-precio.                                  |



Tras eliminar las columnas que no nos han valido para nuestro estudio, y quedarnos s√≥lo con aquellas que afectan a Madrid, codificamos aquellas variables categ√≥ricas. 

In [None]:
#Como parte de las buenas pr√°cticas  en ME, vamos a hacer todos los cambios en la misma celda
#para mejorar la legibilidad
#Eliminamos las columnas que no aportan informaci√≥n relevante para el an√°lisis
cols_to_drop = [
    'ID', 'Listing Url', 'Scrape ID', 'Last Scraped', 'Name', 'Summary', 'Space', 'Description',
    'Experiences Offered', 'Neighborhood Overview', 'Notes', 'Transit', 'Access', 'Interaction',
    'House Rules', 'Thumbnail Url', 'Medium Url', 'Picture Url', 'XL Picture Url', 'Host ID',
    'Host URL', 'Host Name', 'Host Since', 'Host Location', 'Host About', 'Host Response Time',
    'Host Response Rate', 'Host Acceptance Rate', 'Host Thumbnail Url', 'Host Picture Url',
    'Host Neighbourhood', 'Host Listings Count', 'Street', 'Smart Location', 'Country Code',
    'Calendar Updated', 'Has Availability', 'Calendar last Scraped', 'First Review', 'Last Review',
    'License', 'Jurisdiction Names', 'Calculated host listings count', 'Reviews per Month', 'Features',
    'Geolocation', 'Latitude', 'Longitude', 'Country', 'Host Verifications', 'Amenities', 'Weekly Price',
    'Monthly Price', 'Extra People', 'Neighbourhood', 'zipcode'
]

house_data_clean = house_data.drop(columns=[col for col in cols_to_drop if col in house_data.columns]) 
house_data_clean.info()

#Adem√°s, para mejorar la legibilidad, cambiamos la columna 'Square feet' a 'Square Meters'
house_data_clean['Square Meters'] = house_data_clean['Square Feet'] * 0.092903
# Eliminamos la columna original
house_data_clean = house_data_clean.drop('Square Feet', axis=1)
#comprobamos resultado
house_data_clean[['Square Meters']].head()

# Dado que parte de la informaci√≥n no es relevante, vamos a quedarnos con los datos pertenecientes a Madrid
madrid_data = house_data_clean[house_data_clean['City'] == 'Madrid']
num_madrid = madrid_data.shape[0]
print("N√∫mero de anuncios en Madrid:", num_madrid)
porcentaje = num_madrid/14780 * 100
print(f"Porcentaje de anuncios en Madrid: {porcentaje:.2f}%")
eliminados = house_data.shape[0] - num_madrid
print("N√∫mero de anuncios eliminados:", eliminados, "de un total de", num_madrid + eliminados)
#Al haber creado nuestro dataset de Madrid, eliminamos las columnas 'City' y 'State' que ya no nos hacen falta
madrid_data = madrid_data.drop('City', axis=1)
madrid_data = madrid_data.drop('State', axis=1)

#Pasamos a codificaci√≥n de variables categ√≥ricas:
# importar LabelEncoder
from sklearn.preprocessing import LabelEncoder
# Crear una copia del DataFrame
df_encoded = house_data_clean.copy()

# Crear el codificador
le = LabelEncoder()

# Creamos un codificador por cada variable categ√≥rica
le_neigh = LabelEncoder()
le_group = LabelEncoder()
le_market = LabelEncoder()
le_property = LabelEncoder()
le_room = LabelEncoder()
le_bed = LabelEncoder()
le_cancel = LabelEncoder()

# Aplicamos la codificaci√≥n a cada columna
madrid_data['Neighbourhood Cleansed'] = le_neigh.fit_transform(madrid_data['Neighbourhood Cleansed'])
madrid_data['Neighbourhood Group Cleansed'] = le_group.fit_transform(madrid_data['Neighbourhood Group Cleansed'])
madrid_data['Market'] = le_market.fit_transform(madrid_data['Market'])
madrid_data['Property Type'] = le_property.fit_transform(madrid_data['Property Type'])
madrid_data['Room Type'] = le_room.fit_transform(madrid_data['Room Type'])
madrid_data['Bed Type'] = le_bed.fit_transform(madrid_data['Bed Type'])
madrid_data['Cancellation Policy'] = le_cancel.fit_transform(madrid_data['Cancellation Policy'])

print("Codificaci√≥n completada correctamente.")
#Comprobamos que nuestras transformaciones se han realizado correctamente
madrid_data.head().T

from sklearn.impute import SimpleImputer

#Hacemos el procesamiento de los datos para dejarlos listos para el modelado
df = madrid_data.copy()
#No inputamos en la columna price, ya que hay muchos valores nulos, al igual que en square meters
#Tampoco inputamos en bedrooms, dado que entendemos que hay alojamientos que pueden no tener dormitorio 
#y disponer de un sal√≥n con sof√°-cama, por ejemplo.
#Por √∫ltimo, la columna accommodates tiene 0 nulos y 0 valores '0', por lo que no hace falta imputar nada.
numeric_cols = [ 'Bathrooms', 'Beds', 'Price']

for col in numeric_cols:
    df[col] = house_data_clean[col].fillna(house_data_clean[col].mean())#A√±adimos la media ya que algunos de sus valores son muy altos

#Dado que no se aceptan valores nulos, en esta variable inputamos con la moda
imp_num = SimpleImputer(strategy='most_frequent')  # la moda
df['Property Type'] = imp_num.fit_transform(df[['Property Type']])

cols_to_impute1 = ['Host Total Listings Count' ]
imp_zero = SimpleImputer(strategy='constant', fill_value=0)  # A√±adimos 0 donde haya valores nulos
df[cols_to_impute1] = imp_zero.fit_transform(df[cols_to_impute1])

cols_to_impute0 = ['Security Deposit', 'Cleaning Fee', 'Review Scores Rating', 'Bedrooms', 'Beds', 'Security Deposit'
,]
imp_zero = SimpleImputer(strategy='constant', fill_value=0)  # A√±adimos 0 donde haya valores nulos
df[cols_to_impute0] = imp_zero.fit_transform(df[cols_to_impute0])

#tambi√©n, cambiamos datos de tipo string a numeric 
df['Zipcode'] = df['Zipcode'].str.strip()  # elimina espacios o saltos de l√≠nea
df['Zipcode'] = pd.to_numeric(df['Zipcode'], errors='coerce')  # convierte a num√©rico, NaN donde falla

#al ser la variable objetivo, ponemos price como la primera columna
cols = df.columns.tolist()
cols.insert(0, cols.pop(cols.index('Price')))
df = df[cols]
df.head().T


In [None]:
#Despu√©s de hacer este segundo acercamiento a los datos, volvemos a hacerles un profile para verlos  
# con claridad, determinar si hemos mejorado algo y ver si hay alguna correlaci√≥n entre las variables.
#(Entiendo que no es necesario, pero me ayuda a verlo m√°s claro))
from ydata_profiling import ProfileReport

# Crear el perfil
profile = ProfileReport (madrid_data, title="Profiling Report")

# Mostrarlo dentro del notebook
profile.to_notebook_iframe()

# (opcional) Guardarlo como HTML
profile.to_file("profiling_report_madrid.html")

In [None]:
# Vamos a visualizar la matriz de correlaci√≥n para ver las relaciones entre las variables num√©ricas
import seaborn as sns
numeric_df = df.select_dtypes(include=['number'])
corr = numeric_df.corr()
numeric_df.corr()

# Crear la matriz de correlaci√≥n
corr = numeric_df.corr()

# Genera una m√°scara para el tri√°ngulo superior
mask = np.zeros_like(corr, dtype=bool)
mask[np.triu_indices_from(mask)] = True

# Configura el tama√±o del gr√°fico
f, ax = plt.subplots(figsize=(12, 10))

# Dibujar heatmap
sns.heatmap(corr, mask=mask,vmin = 0.0, vmax=1.0, center=0.5,
            linewidths=.1, cmap="YlGnBu", cbar_kws={"shrink": .8})

plt.show()

Podemos observar que la variable objetivo, Price, tiene una gran correlaci√≥n ahora con accommodates, bedrooms, beds y cleaning fee, mientras que tiene un poquito menos en bathrooms

Vamos a utilizar primero un m√©todo embedded para seleccionar las variables que m√°s afectar√≠an a nuestro modelo. Este m√©todo utiliza Lasso como base para obtener los coeficientes de cada variable 


In [None]:
from sklearn.linear_model import Lasso
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV



df = numeric_df.dropna()
data = df.values
# convertimos el DataFrame al formato necesario para scikit-learn

 
y = df.iloc[:, 0]      # Primera columna (variable objetivo)
X = df.iloc[:, 1:]     # Todas las dem√°s columnas (features)

feature_names = numeric_df.columns[1:]
from sklearn import preprocessing
from sklearn.model_selection import train_test_split

# Dividimos los datos en entrenamiento y test (80 training, 20 test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.25, random_state = 2)

print('Datos entrenamiento: ', X_train.shape)
print('Datos test: ', X_test.shape)

# Escalamos (con los datos de train)
scaler = preprocessing.StandardScaler().fit(X_train)
XtrainScaled = scaler.transform(X_train)
XtestScaled = scaler.transform(X_test)

from sklearn.metrics import mean_squared_error

alpha_optimo = grid.best_params_['alpha']
lasso = Lasso(alpha = alpha_optimo).fit(XtrainScaled,y_train)

ytrainLasso = lasso.predict(XtrainScaled)
ytestLasso  = lasso.predict(XtestScaled)
mseTrainModelLasso = mean_squared_error(y_train,ytrainLasso)
mseTestModelLasso = mean_squared_error(y_test,ytestLasso)

print('MSE Modelo Lasso (train): %0.3g' % mseTrainModelLasso)
print('MSE Modelo Lasso (test) : %0.3g' % mseTestModelLasso)

print('RMSE Modelo Lasso (train): %0.3g' % np.sqrt(mseTrainModelLasso))
print('RMSE Modelo Lasso (test) : %0.3g' % np.sqrt(mseTestModelLasso))

w = lasso.coef_
for f,wi in zip(feature_names,w):
    print(f,wi)
#Visualizamos la importancia de las variables seg√∫n el modelo Lasso
import matplotlib.pyplot as plt
import pandas as pd

coef_df = pd.DataFrame({'Feature': X.columns, 'Coefficient': lasso.coef_})
coef_df = coef_df[coef_df['Coefficient'] != 0].sort_values(by='Coefficient', ascending=False)

plt.figure(figsize=(10,6))
plt.barh(coef_df['Feature'], coef_df['Coefficient'])
plt.xlabel('Peso del coeficiente')
plt.ylabel('Variable')
plt.title('Importancia de las variables seg√∫n Lasso')
plt.gca().invert_yaxis()
plt.show()

In [None]:
# Para conseguir un mejor control del c√≥digo, vamos a hacerlo todo en una misma celda
# Importar librer√≠as
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error

# =============================================
# 1 Cargar y preparar los datos
# =============================================

# Variables seleccionadas
selected_features = ['Bedrooms', 'Guests Included', 'Square Meters', 'Review Scores Rating', 'Bathrooms',
                               'Review Scores Cleanliness', 'Availability 60', 'Host Total Listings Count', 
                               'Property Type', 'Room Type', 'Review Scores Communication', 'Zipcode', 'Number of Reviews', 
                               'Neighbourhood Group Cleansed' ]


# Eliminamos filas con NaN en esas columnas y en la variable objetivo
df_clean = numeric_df.dropna(subset=selected_features + ['Price'])

# Definimos X e y con nombres de columna
X = df_clean[selected_features].values
y = df_clean['Price'].values

# Divisi√≥n entrenamiento/test. aunque en clase hemos visto que es mejor estratificar la divisi√≥n, 
# es posible debido a que la variable objetivo es continua
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=2, shuffle=True, 
)

print("Datos entrenamiento:", X_train.shape)
print("Datos test:", X_test.shape)
# =============================================
# 3Ô∏è Escalado de datos
# =============================================

# Escalado
scaler = StandardScaler().fit(X_train)
XtrainScaled = scaler.transform(X_train)
XtestScaled = scaler.transform(X_test)

# =============================================
# 4Ô∏è B√∫squeda del mejor alpha con GridSearchCV
# =============================================

alpha_vector = np.logspace(-1,10,20, 50) # vector de valores de alpha a probar
param_grid = {'alpha': alpha_vector } 
grid = GridSearchCV(Lasso(max_iter=10000), scoring= 'neg_mean_squared_error', param_grid=param_grid, cv = 3, verbose=2) 
grid.fit(XtrainScaled, y_train) 


print("\nüîç Mejor alpha encontrado:", grid.best_params_['alpha'])
print("üìâ Mejor score (MSE medio):", -grid.best_score_)

# Visualizar la curva de MSE en funci√≥n de alpha
#-1 porque es negado
scores = -1*np.array(grid.cv_results_['mean_test_score'])
plt.semilogx(alpha_vector,scores,'-o')
plt.xlabel('alpha',fontsize=16)
plt.ylabel('5-Fold MSE')
plt.show()


# =============================================
# 5Ô∏è Entrenamiento final con alpha √≥ptimo
# =============================================


alpha_optimo = grid.best_params_['alpha']
lasso = Lasso(alpha = alpha_optimo).fit(XtrainScaled,y_train)

ytrainLasso = lasso.predict(XtrainScaled)
ytestLasso  = lasso.predict(XtestScaled)
mseTrainModelLasso = mean_squared_error(y_train,ytrainLasso)
mseTestModelLasso = mean_squared_error(y_test,ytestLasso)

print('MSE Modelo Lasso (train): %0.3g' % mseTrainModelLasso)
print('MSE Modelo Lasso (test) : %0.3g' % mseTestModelLasso)

print('RMSE Modelo Lasso (train): %0.3g' % np.sqrt(mseTrainModelLasso))
print('RMSE Modelo Lasso (test) : %0.3g' % np.sqrt(mseTestModelLasso))

w = lasso.coef_
for f,wi in zip(selected_features,w):
    print(f,wi)


# =============================================
#  Visualizar importancia de variables
# =============================================
print('MSE Modelo Lasso (train): {:.2f}'.format(mseTrainModelLasso))
print('MSE Modelo Lasso (test) : {:.2f}'.format(mseTestModelLasso))
print('RMSE Modelo Lasso (train): %0.3g' % np.sqrt(mseTrainModelLasso))
print('RMSE Modelo Lasso (test) : %0.3g' % np.sqrt(mseTestModelLasso))

# --- 2. Preparaci√≥n de la Importancia de Variables para Lasso (Corregida) ---

# Importancia: Para Lasso, la importancia es el valor absoluto del coeficiente.
importances = np.abs(lasso.coef_)

# Normalizaci√≥n: Se divide por el valor m√°ximo (opcional, pero ayuda a la visualizaci√≥n).
# Solo se normaliza si el m√°ximo no es cero, para evitar la divisi√≥n por cero.
if np.max(importances) > 0:
    importances = importances / np.max(importances)
else:
    # Si todas son cero (modelo sin funcionalidad), usa el array sin normalizar.
    pass 

# Ordenaci√≥n: Obtener los √≠ndices de mayor a menor importancia.
indices = np.argsort(importances)[::-1]

# CONVERSI√ìN CRUCIAL: Convertir la lista 'selected_features' a un array de NumPy
# para que acepte la indexaci√≥n m√∫ltiple.
selected_features_array = np.array(selected_features)

# --- 3. Generaci√≥n de la Gr√°fica ---
plt.figure(figsize=(10,10))
plt.title("Importancia de Caracter√≠sticas (Lasso Coeficientes Absolutos)")

# Graficar las barras (la longitud de X_train.shape[1] puede ser incorrecta aqu√≠; 
# usamos el n√∫mero de coeficientes para consistencia con 'selected_features')
num_features = len(importances)
plt.barh(range(num_features), importances[indices])

# CORRECCI√ìN: Usar el array de NumPy (selected_features_array) para los nombres
plt.yticks(range(num_features), selected_features_array[indices])

plt.xlabel("Valor Absoluto Normalizado del Coeficiente")
plt.show()


**Evaluaci√≥n del modelo**

Con el modelo Lasso, hemos conseguido un modelo en el cual nuestro error RMSE es de 38.9 euros en Train, y 44 en Test, es decir, las predicciones no se alejan mucho una de la otra, y

**Modelo Ridge**

dado que hemos conseguido realizar un buen modelo con Lasso, vamos a tratar de usar los mismos datos para hacer un modelo usando Ridge
Ridge busca usar todas las variables que haya disponibles, siempre que los coeficientes resultantes no sean demasiado grandes, penalizando aquellos que sean demasiado grandes. 

In [None]:
# =============================================
#  Importamos la librer√≠a Ridge
# =============================================
from sklearn.linear_model import Ridge
# =============================================
#  Definimos X e y con nombres de columna
# =============================================
X = df_clean[selected_features].values
y = df_clean['Price'].values
# =============================================
# Divisi√≥n entrenamiento/test. aunque en clase hemos visto que es mejor estratificar la divisi√≥n, 
# es imposible  debido a que la variable objetivo es continua
# =============================================
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=2, shuffle=True)

# =============================================
# Entrenamos el modelo y sacamos sus coeficientes
# =============================================
alpha = alpha_optimo
ridge = Ridge(alpha=alpha_optimo).fit(X_train,y_train)
w = ridge.coef_
norm_w2 = np.dot(w,w.T)

# predicci√≥n
y_hat = ridge.predict(X_test)

# =============================================
# Evaluaci√≥n del modelo
# =============================================
# 1. Crear el DataFrame de Coeficientes de Ridge
# Usamos los coeficientes del modelo 'ridge' y los nombres de 'selected_features'.
coef_ridge_df = pd.DataFrame({
    'Feature': selected_features,
    'Coeficiente': ridge.coef_
})

# 2. Ordenar por el valor absoluto del coeficiente (para que las barras m√°s importantes queden arriba)
coef_ridge_df['Abs_Coef'] = np.abs(coef_ridge_df['Coeficiente'])
coef_ridge_df = coef_ridge_df.sort_values(by='Abs_Coef', ascending=False)

# 3. Generar el Gr√°fico de Barras Horizontal
plt.figure(figsize=(12, len(coef_ridge_df) * 0.4)) # Ajustar el tama√±o para que sea legible
plt.barh(coef_ridge_df['Feature'], coef_ridge_df['Coeficiente'], color='skyblue')
plt.xlabel('Valor del Coeficiente Ridge')
plt.title('Influencia de Variables en el Modelo Ridge')

# A√±ade una l√≠nea vertical en cero para distinguir f√°cilmente los impactos positivos y negativos
plt.axvline(0, color='gray', linestyle='--') 
plt.gca().invert_yaxis() # Pone la caracter√≠stica m√°s importante (la de mayor magnitud) arriba
plt.tight_layout()
plt.show()

# --- C√°lculo del MSE para su evaluaci√≥n---
# --- 1. Predicciones ---
y_train_hat = ridge.predict(X_train)
y_test_hat = ridge.predict(X_test)
mseTrainModelRidge = mean_squared_error(y_train, y_train_hat)
mseTestModelRidge = mean_squared_error(y_test, y_test_hat)

# --- 3. Impresi√≥n de Resultados ---
print("--- Evaluaci√≥n del Modelo Ridge ---")
print('MSE Modelo Ridge (train): {:.2f}'.format(mseTrainModelRidge))
print('MSE Modelo Ridge (test) : {:.2f}'.format(mseTestModelRidge))

print('RMSE Modelo Ridge (train): {:.3f}'.format(np.sqrt(mseTrainModelRidge)))
print('RMSE Modelo Ridge (test) : {:.3f}'.format(np.sqrt(mseTestModelRidge)))

**Conclusiones Ridge**
Observamos que el modelo Ridge tiene un error similar al de Lasso utilizando las mismas variables, en el cual el error medio es de unos 38 euros en Train y 43 euros en test, muy similar a lo que hemos obtenido en Lasso (Lo cual tiene sentido, ya que hemos utilizado las mismas variables para este modelo )

**Modelo Random Forest**
Vamos a utilizar tambi√©n  el m√©todo Random forest, dado que este puede, por medio de √°rboles creados aleatoriamente, capturar interacciones complejas y suele ser m√°s preciso.
Este modelo  se basa en los √°rboles de decisi√≥n, y consiste en lo siguiente: 
Random forest crea m√∫ltiples √°rboles de decisi√≥n independientes, que entrena con el m√©todo bagging. Finalmente combina los resultados de todos los √°rboles, tomando el promedio de las salidas de todos los √°rboles.


In [None]:

# Ahora vamos a probar con RandomForestRegressor
#Primero importamos la librer√≠a
from sklearn.ensemble import RandomForestRegressor
#Dado que antes usamos 
maxDepth = range(1,30)
feature_names = df.drop('Price', axis=1).columns.to_list()
tuned_parameters = {'max_depth': maxDepth}
# Definimos X e y para Random Forest (todas las columnas excepto 'Price' como X, y 'Price' como y)
X = df.drop('Price', axis=1).values
y = df['Price'].values
# Divisi√≥n entrenamiento/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=2, shuffle=True)
print("Datos entrenamiento:", X_train.shape)
print("Datos test:", X_test.shape)
# B√∫squeda de hiperpar√°metros con GridSearchCV
grid = GridSearchCV(RandomForestRegressor(random_state=0, n_estimators=500, max_features='sqrt',min_samples_leaf=10), param_grid=tuned_parameters,cv=5, verbose=2)
grid.fit(X_train, y_train)
#Aplicamos cv 5 porque hemos probado con cv 10 y los resultados ten√≠an un overfitting muy grande
print("best mean cross-validation score: {:.3f}".format(grid.best_score_))
print("best parameters: {}".format(grid.best_params_))

scores = np.array(grid.cv_results_['mean_test_score'])
plt.plot(maxDepth,scores,'-o')
plt.xlabel('max_depth')
plt.ylabel('5-fold ACC')

plt.show()
maxDepthOptimo = grid.best_params_['max_depth']
randomForest = RandomForestRegressor(max_depth=maxDepthOptimo,n_estimators=500,max_features='sqrt',min_samples_leaf=10).fit(X_train,y_train)
print("Train: ",randomForest.score(X_train,y_train))
print("Test: ",randomForest.score(X_test,y_test))
importances = randomForest.feature_importances_
importances = importances / np.max(importances)
indices = np.argsort(importances)[::-1]

# Convertir la lista a array de NumPy
feature_names_array = np.array(feature_names) 

plt.figure(figsize=(10,10))
plt.title("Importancia de Caracter√≠sticas (Random Forest)")
plt.barh(range(X_train.shape[1]), importances[indices])

# Usar el array de NumPy (feature_names_array)
plt.yticks(range(X_train.shape[1]), feature_names_array[indices])

plt.xlabel("Importancia Normalizada")
plt.show()
from sklearn.metrics import mean_squared_error
import numpy as np


# Predicciones en el conjunto de entrenamiento
y_train_hat = randomForest.predict(X_train) 
# Predicciones en el conjunto de prueba
y_test_hat = randomForest.predict(X_test)

# --- 2. C√°lculo de MSE ---
mseTrainModelRF = mean_squared_error(y_train, y_train_hat)
mseTestModelRF = mean_squared_error(y_test, y_test_hat)

# --- 3. Impresi√≥n de Resultados ---
print("--- Evaluaci√≥n de Errores (Random Forest) ---")
print('MSE (Train): {:.3f}'.format(mseTrainModelRF))
print('MSE (Test) : {:.3f}'.format(mseTestModelRF))
print('-----------------------------------------')
print('RMSE (Train): {:.3f}'.format(np.sqrt(mseTrainModelRF)))
print('RMSE (Test) : {:.3f}'.format(np.sqrt(mseTestModelRF)))

Como vemos, este modelo tiene un mejor desempe√±o que los anteriores, con un MSE y RMSE m√°s bajos en ambos conjuntos, lo que indica una mejor capacidad predictiva y menor error en las predicciones.

Como siempre, nuestro indicador ha sido el RMSE, ya que nos permite explicar y materializar nuestras explicaciones, que en este caso nos da una diferencia de 37.07 euros en Train, y 44.146 euros en test

**Conclusi√≥n**  
Para terminar nuestra pr√°ctica, hemos creado 3 modelos de machine learning utilizando los m√©todos Lasso, Ridge y Random Forest a partir de un dataset de Airbnb. Tras observar los datos existentes, su tipo, y otras caracter√≠sticas del dataset, hemos limpiado los datos para dejarlos operables para trabajar (es decir, hemos codificado las variables categ√≥ricas como variables discretas, hemos convertido a INT aquellos datos que eran STRING, y hemos inputado aquellos resultados que ha sido necesario, ya fuera con valores como la moda o la media)

Adem√°s, para observar mejor los datos, hemos utilizado dos profilers, uno previo al procesado de datos, y uno posterior, para tener una idea clara de c√≥mo son nuestros datos despu√©s de procesarlos
Tras eso, hemos creado los modelos usando Lasso, Ridge y Random Forest, 3 m√©todos que han dado resultados muy similares, dado que las caracter√≠sticas utilizadas para entrenar los modelos eran las mismas (si bien en Lasso y Ridge hemos quitado aquellas que el modelo embedded con Lasso ha considerado que tienen un coeficiente de 0). 

En conjunto, los tres modelos mostraron un rendimiento equilibrado y coherente, lo cual nos confirma la eficacia del trabajo 