# Ejercicio 2 Mastermind - Airbnb Dataset

## Apartado 1. Descargar dataset y transformarlo a un DataFrame.

In [19]:
# Obtener contenido del archivo CSV
import pandas as pd

url = "https://raw.githubusercontent.com/JoseJesusLaCasaNieto/Mastermind/main/Machine_Learning_I_Regression/Projects/Airbnb_Dataset.csv"
print(f"Descargando archivo CSV desde: {url}")
data = pd.read_csv(url)
print("Descarga completada")

# Información sobre el dataset
title = "Información sobre el dataset datos_airbnb"
print("\n\n" + title + "\n" + "=" * len(title))
print(f"\nTipo de variable obtenida:\n{type(data)}")
print(f"\nDimensiones del dataset: {data.shape}")
print("\nPrimeros datos del dataset:")
display(data.head())
print("\nÚltimos datos del dataset:")
display(data.tail())

Descargando archivo CSV desde: https://raw.githubusercontent.com/JoseJesusLaCasaNieto/Mastermind/main/Machine_Learning_I_Regression/Projects/Airbnb_Dataset.csv
Descarga completada


Información sobre el dataset datos_airbnb

Tipo de variable obtenida:
<class 'pandas.core.frame.DataFrame'>

Dimensiones del dataset: (48895, 16)

Primeros datos del dataset:


Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,2539,Clean & quiet apt home by the park,2787,John,Brooklyn,Kensington,40.64749,-73.97237,Private room,149,1,9,2018-10-19,0.21,6,365
1,2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.75362,-73.98377,Entire home/apt,225,1,45,2019-05-21,0.38,2,355
2,3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,Manhattan,Harlem,40.80902,-73.9419,Private room,150,3,0,,,1,365
3,3831,Cozy Entire Floor of Brownstone,4869,LisaRoxanne,Brooklyn,Clinton Hill,40.68514,-73.95976,Entire home/apt,89,1,270,2019-07-05,4.64,1,194
4,5022,Entire Apt: Spacious Studio/Loft by central park,7192,Laura,Manhattan,East Harlem,40.79851,-73.94399,Entire home/apt,80,10,9,2018-11-19,0.1,1,0



Últimos datos del dataset:


Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
48890,36484665,Charming one bedroom - newly renovated rowhouse,8232441,Sabrina,Brooklyn,Bedford-Stuyvesant,40.67853,-73.94995,Private room,70,2,0,,,2,9
48891,36485057,Affordable room in Bushwick/East Williamsburg,6570630,Marisol,Brooklyn,Bushwick,40.70184,-73.93317,Private room,40,4,0,,,2,36
48892,36485431,Sunny Studio at Historical Neighborhood,23492952,Ilgar & Aysel,Manhattan,Harlem,40.81475,-73.94867,Entire home/apt,115,10,0,,,1,27
48893,36485609,43rd St. Time Square-cozy single bed,30985759,Taz,Manhattan,Hell's Kitchen,40.75751,-73.99112,Shared room,55,1,0,,,6,2
48894,36487245,Trendy duplex in the very heart of Hell's Kitchen,68119814,Christophe,Manhattan,Hell's Kitchen,40.76404,-73.98933,Private room,90,7,0,,,1,23


## Apartado 2. Responder a las preguntas

### a) ¿Dirías que el Dataset está limpio? ¿Se puede usar para entrenar un modelo?

El dataset no está limpio ni listo para entrenar un modelo de Machine Learning.

### b) En caso de que no, ¿qué técnicas de `Data Cleaning` necesita?

Algunas de las tareas que se pueden utilizar son:

* **Manejo de valores faltantes:** En las columnas `last_review` y `reviews_per_month` tenemos valores faltantes del tipo `NaN`. Tal y como hemos visto en clase, esos datos pueden cambiarse por la media o mediana del resto de datos de sus respectivas columnas. De esta manera, se podría evitar el sesgo de la información de los datos disponibles.
* **Revisión de Outliers y Distribución:** Analizar y corregir outliers si es necesario en las columnas numéricas.
* **Comprobación de duplicados:** Asegurarse de que no hayan datos duplicados en el dataset, ya que en la clase se menciona que pueden afectar en mayor medida al modelo con respecto a los datos que no están duplicados.

### c) ¿Borrarías alguna columna?

Creo que las columnas como `id`, `host_id`, `host_name` y quizás `last_review` no son necesarias para el entrenamiento del modelo.

### d) ¿Cuál es nuestro target variable?

Según las columnas que tenemos, nuestra target variable debería ser la columna `price`.

### e) ¿Qué columnas necesitan `Encoding`? ¿Y `Scaling`? Aplicar las técnicas donde sea necesario.

* **Encoding**

El `encoding` es necesario para las columnas categóricas, ya que los modelos de machine learning generalmente no pueden trabajar directamente con texto.

Se aplica `LabelEncoding` a la columna `neighbourhood`, `neighbourhood_group` y `room_type` para convertirla en valores numéricos basados en la categoría.

* **Scaling**

El `scaling` es necesario para las columnas numéricas, especialmente si estás utilizando algoritmos que son sensibles a la escala de los datos.

Se aplica `StandardScaler` a las columnas numéricas, escalando los valores para que tengan media 0 y desviación estándar 1.

## 2. Mostrar los cambios que se han realizado en el Dataset.

In [20]:
from sklearn.preprocessing import LabelEncoder, StandardScaler

# Inicializar LabelEncoder
label_encoder = LabelEncoder()

# Aplicar LabelEncoding a las columnas correspondientes
data['neighbourhood'] = label_encoder.fit_transform(data['neighbourhood'])
data['neighbourhood_group'] = label_encoder.fit_transform(data['neighbourhood_group'])
data['room_type'] = label_encoder.fit_transform(data['room_type'])

# Lista de columnas numéricas para aplicar scaling
numerical_cols = ['latitude', 'longitude', 'minimum_nights', 'number_of_reviews',
                  'reviews_per_month', 'calculated_host_listings_count',
                  'availability_365']

# Aplicar scaling a las columnas numéricas
scaler = StandardScaler()
data[numerical_cols] = scaler.fit_transform(data[numerical_cols])

# Verificar los primeros datos después de la transformación
print("Datos del dataset después de aplicar las transformaciones:")
display(data.head())

Datos del dataset después de aplicar las transformaciones:


Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,2539,Clean & quiet apt home by the park,2787,John,1,108,-1.493849,-0.437652,1,149,-0.293996,-0.320414,2018-10-19,-0.692221,-0.034716,1.91625
1,2595,Skylit Midtown Castle,2845,Jennifer,2,127,0.452436,-0.684639,0,225,-0.293996,0.487665,2019-05-21,-0.591055,-0.156104,1.840275
2,3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,2,94,1.468399,0.222497,1,150,-0.196484,-0.522433,,,-0.186451,1.91625
3,3831,Cozy Entire Floor of Brownstone,4869,LisaRoxanne,1,41,-0.803398,-0.16445,0,89,-0.293996,5.538156,2019-07-05,1.944025,-0.186451,0.617065
4,5022,Entire Apt: Spacious Studio/Loft by central park,7192,Laura,2,61,1.27566,0.177216,0,80,0.144807,-0.320414,2018-11-19,-0.75768,-0.186451,-0.856865


In [21]:
# Eliminar las columnas no deseadas
columns_to_drop = ['id', 'host_id', 'host_name', 'last_review']
data = data.drop(columns=columns_to_drop)

# Verificar los primeros datos después de la transformación
print("Datos del dataset después de eliminar las columnas no deseadas:")
display(data.head())

Datos del dataset después de eliminar las columnas no deseadas:


Unnamed: 0,name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,reviews_per_month,calculated_host_listings_count,availability_365
0,Clean & quiet apt home by the park,1,108,-1.493849,-0.437652,1,149,-0.293996,-0.320414,-0.692221,-0.034716,1.91625
1,Skylit Midtown Castle,2,127,0.452436,-0.684639,0,225,-0.293996,0.487665,-0.591055,-0.156104,1.840275
2,THE VILLAGE OF HARLEM....NEW YORK !,2,94,1.468399,0.222497,1,150,-0.196484,-0.522433,,-0.186451,1.91625
3,Cozy Entire Floor of Brownstone,1,41,-0.803398,-0.16445,0,89,-0.293996,5.538156,1.944025,-0.186451,0.617065
4,Entire Apt: Spacious Studio/Loft by central park,2,61,1.27566,0.177216,0,80,0.144807,-0.320414,-0.75768,-0.186451,-0.856865


In [22]:
# Verificar el dataset después de los cambios
title = "Información sobre el dataset datos_airbnb"
print(title + "\n" + "=" * len(title))
print(f"\nDimensiones del dataset: {data.shape}")
print("\nPrimeros datos del dataset:")
display(data.head())
print("\nÚltimos datos del dataset:")
display(data.tail())

Información sobre el dataset datos_airbnb

Dimensiones del dataset: (48895, 12)

Primeros datos del dataset:


Unnamed: 0,name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,reviews_per_month,calculated_host_listings_count,availability_365
0,Clean & quiet apt home by the park,1,108,-1.493849,-0.437652,1,149,-0.293996,-0.320414,-0.692221,-0.034716,1.91625
1,Skylit Midtown Castle,2,127,0.452436,-0.684639,0,225,-0.293996,0.487665,-0.591055,-0.156104,1.840275
2,THE VILLAGE OF HARLEM....NEW YORK !,2,94,1.468399,0.222497,1,150,-0.196484,-0.522433,,-0.186451,1.91625
3,Cozy Entire Floor of Brownstone,1,41,-0.803398,-0.16445,0,89,-0.293996,5.538156,1.944025,-0.186451,0.617065
4,Entire Apt: Spacious Studio/Loft by central park,2,61,1.27566,0.177216,0,80,0.144807,-0.320414,-0.75768,-0.186451,-0.856865



Últimos datos del dataset:


Unnamed: 0,name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,reviews_per_month,calculated_host_listings_count,availability_365
48890,Charming one bedroom - newly renovated rowhouse,1,13,-0.924616,0.048089,1,70,-0.24524,-0.522433,,-0.156104,-0.788486
48891,Affordable room in Bushwick/East Williamsburg,1,28,-0.497141,0.411637,1,40,-0.147729,-0.522433,,-0.156104,-0.583352
48892,Sunny Studio at Historical Neighborhood,2,94,1.57348,0.075821,0,115,0.144807,-0.522433,,-0.186451,-0.65173
48893,43rd St. Time Square-cozy single bed,2,95,0.523774,-0.843881,2,55,-0.293996,-0.522433,,-0.034716,-0.841669
48894,Trendy duplex in the very heart of Hell's Kitchen,2,95,0.643525,-0.8051,1,90,-0.001461,-0.522433,,-0.186451,-0.68212
