# Airbnb en Nueva York

Una empresa ha recolectado la información del alquiler de viviendas en Nueva York a través de la aplicación Airbnb durante el año 2019. Este conjunto de datos se utilizó para entrenar modelos de Machine Learning durante ese año, en una competición en abierto.

Ahora lo utilizaremos para llevar a cabo un estudio acerca de las variables que componen el dataset a fin de comprenderlo y obtener conclusiones sobre él.

##### Pasos que tenemos que seguir para llevar a cabo el estudio en profundidad:

- planteamiento del problema y recopilación de datos

- Exploración y limpieza de datos

- Análisis de variables univariadas

- Análisis de variables multivariadas

- ingeniería de funciones

- selección de funciones

Después de la implementación y adopción de estos pasos, estaremos listos para entrenar el modelo.

### Paso 1: Carga del conjunto de datos
Puedes descargar el conjunto de datos directamente desde Kaggle.com o en el siguiente enlace: https://raw.githubusercontent.com/4GeeksAcademy/data-preprocessing-project-tutorial/main/AB_NYC_2019.csv. Almacena los datos en crudo en la carpeta ./data/raw.


Opcional, para descargar el archivo.csv desde la terminal: wget https://raw.githubusercontent.com/4GeeksAcademy/data-preprocessing-project-tutorial/main/AB_NYC_2019.csv.

Opcional, para mover a la carpeta src desde la terminal: mv AB_NYC_2019.csv ./data/raw/


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

Abnb_df = pd.read_csv("/workspaces/machine-learning-python-template-pilarzarco/data/AB_NYC_2019.csv")

# Dividir el conjunto de datos en entrenamiento y prueba
train_data, test_data = train_test_split(Abnb_df, test_size=0.2, random_state=42)

# Guardar los conjuntos de entrenamiento y prueba como archivos CSV
train_data.to_csv("Abnb_train.csv", index=False)
test_data.to_csv("Abnb_test.csv", index=False)

Abnb_df.head()

### Paso 2: Realiza un EDA completo
Este paso es vital para asegurar que nos quedamos con las variables estrictamente necesarias y eliminamos las que no son relevantes o no aportan información. Utiliza el Notebook de ejemplo que trabajamos y adáptalo a este caso de uso.

Asegúrate de dividir convenientemente el conjunto de datos en train y test como hemos visto en la lección.

In [None]:
# Dimensiones del Data Frame
Abnb_df.shape

In [None]:
# Información sobre el tipo de datos de las columnas, la cantidad de valores no nulos y el uso de memoria
Abnb_df.info()

In [None]:
# Eliminar columnas que no deseamos
Abnb_df = Abnb_df.drop(["host_name", "name", "last_review", "neighbourhood", "host_id"], axis=1, inplace=False)
Abnb_df.head()

#### - Análisis de variables univariante

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Crear un histograma múltiple sobre variables categóricas
fig, axis = plt.subplots(1, 2, figsize=(10, 7))

sns.histplot(ax=axis[0], data=Abnb_df, x="neighbourhood_group").set(ylabel=None)
sns.histplot(ax=axis[1], data=Abnb_df, x="room_type").set(ylabel=None)

plt.tight_layout()
plt.show()

In [None]:
# Crear una figura múltiple con histogramas y diagramas de caja sobre variables numéricas
fig, axis = plt.subplots(4, 4, figsize = (14, 10), gridspec_kw={'height_ratios': [6, 1, 6, 1]})

sns.histplot(ax=axis[0, 0], data=Abnb_df, x="price").set(ylabel=None)
sns.boxplot(ax=axis[1, 0], data=Abnb_df, x="price")

sns.histplot(ax=axis[0, 1], data=Abnb_df, x="availability_365").set(ylabel=None)
sns.boxplot(ax=axis[1, 1], data=Abnb_df, x="availability_365")

sns.histplot(ax=axis[0, 2], data=Abnb_df, x="minimum_nights")
sns.boxplot(ax=axis[1, 2], data=Abnb_df, x="minimum_nights")

sns.histplot(ax=axis[0, 3], data=Abnb_df, x="calculated_host_listings_count")
sns.boxplot(ax=axis[1, 3], data=Abnb_df, x="calculated_host_listings_count")

sns.histplot(ax=axis[2, 0], data=Abnb_df, x="latitude")
sns.boxplot(ax=axis[3, 0], data=Abnb_df, x="latitude")

sns.histplot(ax=axis[2, 1], data=Abnb_df, x="longitude")
sns.boxplot(ax=axis[3, 1], data=Abnb_df, x="longitude")

sns.histplot(ax=axis[2, 2], data=Abnb_df, x="number_of_reviews").set(ylabel=None)
sns.boxplot(ax=axis[3, 2], data=Abnb_df, x="number_of_reviews")

sns.boxplot(ax=axis[2, 3], data=Abnb_df, x="reviews_per_month").set(ylabel=None)
sns.boxplot(ax=axis[3, 3], data=Abnb_df, x="reviews_per_month")

plt.tight_layout()
plt.show()

In [None]:
# Cambiamos los valores de las columnas con formato string por valores numéricos
Abnb_df['room_type_n'] = pd.factorize(Abnb_df['room_type'])[0]
Abnb_df['neighbourhood_group_n'] = pd.factorize(Abnb_df['neighbourhood_group'])[0]

In [None]:
# Análisis de correlación
fig, axis = plt.subplots(figsize = (10, 7))
sns.heatmap(Abnb_df[["id", "neighbourhood_group_n", "latitude", "longitude", "room_type_n", "price", "minimum_nights", "number_of_reviews", "reviews_per_month", "calculated_host_listings_count", "availability_365"]].corr(), annot = True, fmt = ".2f")

#### - Análisis de variables multivariante

In [None]:
# Comenzamos con el análisis numérico-numérico

fig, axis = plt.subplots(4, 4, figsize=(40,30))

# Crear un diagrama de dispersión múltiple

# Barrio y precio
sns.regplot(ax = axis[0, 0], data = Abnb_df, x = "price", y = "neighbourhood_group_n").set(ylabel=None)
sns.heatmap(Abnb_df[["neighbourhood_group_n", "price"]].corr(), annot = True, fmt = ".2f", ax = axis[1, 0], cbar = False)

# Barrio y tipo de habitación
sns.regplot(ax = axis[0, 1], data = Abnb_df, x = "room_type_n", y = "neighbourhood_group_n").set(ylabel=None)
sns.heatmap(Abnb_df[["neighbourhood_group_n", "room_type_n"]].corr(), annot = True, fmt = ".2f", ax = axis[1, 1], cbar = False)

# Tipo de habitación y precio
sns.regplot(ax = axis[0, 2], data = Abnb_df, x = "price", y = "room_type_n").set(ylabel=None)
sns.heatmap(Abnb_df[["room_type_n", "price"]].corr(), annot = True, fmt = ".2f", ax = axis[1, 2], cbar = False)

# Barrio y latitud
sns.regplot(ax = axis[0, 3], data = Abnb_df, x = "latitude", y = "neighbourhood_group_n").set(ylabel=None)
sns.heatmap(Abnb_df[["neighbourhood_group_n", "latitude"]].corr(), annot = True, fmt = ".2f", ax = axis[1, 3], cbar = False)

# Barrio y longitud
sns.regplot(ax = axis[2, 0], data = Abnb_df, x = "longitude", y = "neighbourhood_group_n").set(ylabel=None)
sns.heatmap(Abnb_df[["neighbourhood_group_n", "longitude"]].corr(), annot = True, fmt = ".2f", ax = axis[3, 0], cbar = False)

# Barrio por opiniones por mes
sns.regplot(ax = axis[2, 1], data = Abnb_df, x = "reviews_per_month", y = "neighbourhood_group_n").set(ylabel=None)
sns.heatmap(Abnb_df[["neighbourhood_group_n", "reviews_per_month"]].corr(), annot = True, fmt = ".2f", ax = axis[3, 1], cbar = False)

# Número de opiniones por opiniones por mes
sns.regplot(ax = axis[2, 2], data = Abnb_df, x = "reviews_per_month", y = "number_of_reviews").set(ylabel=None)
sns.heatmap(Abnb_df[["number_of_reviews", "reviews_per_month"]].corr(), annot = True, fmt = ".2f", ax = axis[3, 2], cbar = False)

# Mínimo de noches por disponibilidad
sns.regplot(ax = axis[2, 3], data = Abnb_df, x = "minimum_nights", y = "availability_365").set(ylabel=None)
sns.heatmap(Abnb_df[["availability_365", "minimum_nights"]].corr(), annot = True, fmt = ".2f", ax = axis[3, 3], cbar = False)


plt.tight_layout()
plt.show()

In [None]:
# matriz de gráficos de dispersión
sns.pairplot(Abnb_df)
plt.show()

#### - Análisis de valores atípicos

In [None]:
# El análisis descriptivo 
Abnb_df.describe()

In [None]:
# Eliminar valores con valor cero en alguna columna en este caso "price"
Abnb_df = Abnb_df[Abnb_df['price'] != 0]
Abnb_df.describe()

In [None]:
# Diagramas de cajas de las variables
fig, axis = plt.subplots(4, 3, figsize = (15, 10))

sns.boxplot(ax = axis[0, 0], data = Abnb_df, y = "latitude")
sns.boxplot(ax = axis[0, 1], data = Abnb_df, y = "longitude")
sns.boxplot(ax = axis[0, 2], data = Abnb_df, y = "price")
sns.boxplot(ax = axis[1, 0], data = Abnb_df, y = "minimum_nights")
sns.boxplot(ax = axis[1, 1], data = Abnb_df, y = "number_of_reviews")
sns.boxplot(ax = axis[1, 2], data = Abnb_df, y = "reviews_per_month")
sns.boxplot(ax = axis[2, 0], data = Abnb_df, y = "calculated_host_listings_count")
sns.boxplot(ax = axis[2, 1], data = Abnb_df, y = "neighbourhood_group_n")
sns.boxplot(ax = axis[2, 2], data = Abnb_df, y = "room_type_n")
sns.boxplot(ax = axis[3, 0], data = Abnb_df, y = "availability_365")

plt.tight_layout()
fig.delaxes(axis[3, 1])
fig.delaxes(axis[3, 2])
plt.show()

In [None]:
fare_stats = Abnb_df[["price", "minimum_nights"]].describe()
fare_stats

#### - Calcular los límites superior e inferior para identificar outliers

In [None]:
# Calcular las estadísticas descriptivas para las columnas "price" y "minimum_nights"
fare_stats = Abnb_df[["price", "minimum_nights"]].describe()

# Imprimir las estadísticas descriptivas
print(fare_stats)

# Calcular el rango intercuartílico (IQR)
fare_iqr_price = fare_stats.loc["75%", "price"] - fare_stats.loc["25%", "price"]
fare_iqr_nights = fare_stats.loc["75%", "minimum_nights"] - fare_stats.loc["25%", "minimum_nights"]

# Calcular los límites superior e inferior para identificar outliers
upper_limit_price = fare_stats.loc["75%", "price"] + 1.5 * fare_iqr_price
lower_limit_price = fare_stats.loc["25%", "price"] - 1.5 * fare_iqr_price

upper_limit_nights = fare_stats.loc["75%", "minimum_nights"] + 1.5 * fare_iqr_nights
lower_limit_nights = fare_stats.loc["25%", "minimum_nights"] - 1.5 * fare_iqr_nights

print(f"Los límites superior e inferior para encontrar valores atípicos en 'price son  {round(upper_limit_price, 2)} and {round(lower_limit_price, 2)}, con un rango intercuartílico de {round(fare_iqr_price, 2)}")
print(f"Los límites superior e inferior para encontrar valores atípicos en 'minimum_nights son {round(upper_limit_nights, 2)} and {round(lower_limit_nights, 2)}, con un rango intercuartílico de {round(fare_iqr_nights, 2)}")


#### - Análisis de valores faltantes

In [None]:
#  Obtener valores faltantes
Abnb_df_ = Abnb_df.isnull().sum().sort_values(ascending=False)
Abnb_df_

In [None]:
# Porcentaje de valores faltantes en cada columna
Abnb_df.isnull().sum().sort_values(ascending=False) / len(Abnb_df_)

In [None]:
# Imputación numérica sobre "reviews_per_month"
Abnb_df["reviews_per_month"].fillna(Abnb_df["reviews_per_month"].median(), inplace = True)
# Abnb_df["reviews_per_month"].fillna(Abnb_df["reviews_per_month"].mode()[0], inplace = True)
# Abnb_df["reviews_per_month"].fillna(Abnb_df["reviews_per_month"].mean(), inplace = True)

Abnb_df.isnull().sum()

In [None]:
# Inferencia de nuevas características
Abnb_df["FamMembers"] = Abnb_df["SibSp"] + Abnb_df["Parch"]
Abnb_df.head()

In [None]:
# Escalado de características
from sklearn.preprocessing import StandardScaler

num_variables = ["Pclass", "Age", "Fare", "Sex_n", "Embarked_n", "FamMembers"]

scaler = StandardScaler()
norm_features = scaler.fit_transform(Abnb_df[num_variables])
total_data_norm = pd.DataFrame(norm_features, index = Abnb_df.index, columns = num_variables)
total_data_norm["Survived"] = Abnb_df["Survived"]
total_data_norm.head()

In [None]:
# Escala mín.-máx
from sklearn.preprocessing import MinMaxScaler

num_variables = ["Pclass", "Age", "Fare", "Sex_n", "Embarked_n", "FamMembers"]

scaler = MinMaxScaler()
scal_features = scaler.fit_transform(Abnb_df[num_variables])
total_data_scal = pd.DataFrame(scal_features, index = Abnb_df.index, columns = num_variables)
total_data_scal["Survived"] = Abnb_df["Survived"]
total_data_scal.head()

#### Selección de funciones

In [None]:
from sklearn.feature_selection import chi2, SelectKBest
from sklearn.model_selection import train_test_split

# We divide the dataset into training and test samples.
X = total_data_scal.drop("Survived", axis = 1)
y = total_data_scal["Survived"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

# With a value of k = 5 we implicitly mean that we want to remove 2 features from the dataset
selection_model = SelectKBest(chi2, k = 5)
selection_model.fit(X_train, y_train)
ix = selection_model.get_support()
X_train_sel = pd.DataFrame(selection_model.transform(X_train), columns = X_train.columns.values[ix])
X_test_sel = pd.DataFrame(selection_model.transform(X_test), columns = X_test.columns.values[ix])

X_train_sel.head()

In [None]:
X_test_sel.head()

In [None]:
X_train_sel["Survived"] = list(y_train)
X_test_sel["Survived"] = list(y_test)

In [None]:
X_train_sel.to_csv("/workspaces/machine-learning-content/assets/clean_titanic_train.csv", index=False)
X_test_sel.to_csv("/workspaces/machine-learning-content/assets/clean_titanic_test.csv", index=False)

### Paso 3: Guarda el conjunto de datos procesado
Después del EDA puedes guardar los datos en la carpeta ./data/processed. Asegúrate de agregar la carpeta de los datos en el .gitignore. Los datos al igual que los modelos no se deben subir a git.

In [None]:
# Asumiendo que Abnb_df es tu DataFrame procesado
# Este código guardará tu DataFrame procesado como un archivo CSV en la ruta especificada.
ruta_guardado = "./data/processed/Abnb_dataset_procesado.csv"
Abnb_df.to_csv(ruta_guardado, index=False)

# Asegúrate de que tu archivo .gitignore incluya la línea correspondiente a la carpeta ./data/processed.
# Si aún no tienes un archivo .gitignore, créalo en la raíz de tu proyecto y agrega la siguiente línea:, en el bash: /data/processed/

