id: Identificador único del listado.
NAME: Nombre del listado.
host id: Identificador único del anfitrión.
host_identity_verified: Si la identidad del anfitrión ha sido verificada.
host name: Nombre del anfitrión.
neighbourhood group: Grupo de barrios donde se ubica el listado.
neighbourhood: Barrio específico donde se ubica el listado.
lat: Latitud de la ubicación del listado.
long: Longitud de la ubicación del listado.
country: País del listado.
instant_bookable: Si el listado puede ser reservado instantáneamente.
cancellation_policy: Política de cancelación.
room type: Tipo de habitación ofrecida.
Construction year: Año de construcción del inmueble.
price: Precio por noche.
service fee: Tarifa de servicio.
minimum nights: Mínimo de noches para reservar.
number of reviews: Número de reseñas recibidas.
last review: Fecha de la última reseña.
reviews per month: Promedio de reseñas por mes.
review rate number: Calificación de reseñas.
calculated host listings count: Número total de listados del anfitrión.
availability 365: Disponibilidad del listado durante el año.
house_rules: Reglas de la casa.
license: Licencia del listado, si aplica.

In [1]:
import pandas as pd
import logging

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

class IngestorDeDatos:
    def __init__(self, ruta_archivo):
        self.ruta_archivo = ruta_archivo
        logging.info("Ingestor de datos creado.")

    def cargar_datos(self):
        try:
            datos = pd.read_csv(self.ruta_archivo)
            logging.info("Datos cargados exitosamente desde {}".format(self.ruta_archivo))
            return datos
        except Exception as e:
            logging.error("Error al cargar los datos desde {}: {}".format(self.ruta_archivo, e))
            return None

In [2]:
# Uso del ingestor de datos

ingestor = IngestorDeDatos("/Users/adrianinfantes/Desktop/AIR/CollegeStudies/MachineLearningPath/Portfolio/AirbnbProjects/NyAirbnb/data/Airbnb_Open_Data.csv")
datos = ingestor.cargar_datos()
datos.head()

2024-01-27 00:16:05,647 - INFO - Ingestor de datos creado.
  datos = pd.read_csv(self.ruta_archivo)
2024-01-27 00:16:06,098 - INFO - Datos cargados exitosamente desde /Users/adrianinfantes/Desktop/AIR/CollegeStudies/MachineLearningPath/Portfolio/AirbnbProjects/NyAirbnb/data/Airbnb_Open_Data.csv


Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,...,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
0,1001254,Clean & quiet apt home by the park,80014485718,unconfirmed,Madaline,Brooklyn,Kensington,40.64749,-73.97237,United States,...,$193,10.0,9.0,10/19/2021,0.21,4.0,6.0,286.0,Clean up and treat the home the way you'd like...,
1,1002102,Skylit Midtown Castle,52335172823,verified,Jenna,Manhattan,Midtown,40.75362,-73.98377,United States,...,$28,30.0,45.0,5/21/2022,0.38,4.0,2.0,228.0,Pet friendly but please confirm with me if the...,
2,1002403,THE VILLAGE OF HARLEM....NEW YORK !,78829239556,,Elise,Manhattan,Harlem,40.80902,-73.9419,United States,...,$124,3.0,0.0,,,5.0,1.0,352.0,"I encourage you to use my kitchen, cooking and...",
3,1002755,,85098326012,unconfirmed,Garry,Brooklyn,Clinton Hill,40.68514,-73.95976,United States,...,$74,30.0,270.0,7/5/2019,4.64,4.0,1.0,322.0,,
4,1003689,Entire Apt: Spacious Studio/Loft by central park,92037596077,verified,Lyndon,Manhattan,East Harlem,40.79851,-73.94399,United States,...,$41,10.0,9.0,11/19/2018,0.1,3.0,1.0,289.0,"Please no smoking in the house, porch or on th...",


In [3]:
class ExploradorDeDatos:
    def __init__(self, datos):
        self.datos = datos
        logging.info("Explorador de datos creado.")

    def mostrar_info(self):
        try:
            logging.info("Mostrando información general del DataFrame.")
            print(self.datos.info())
        except Exception as e:
            logging.error(f"Error al mostrar información del DataFrame: {e}")

    def resumen_estadistico(self):
        try:
            logging.info("Mostrando resumen estadístico del DataFrame.")
            print(self.datos.describe())
        except Exception as e:
            logging.error(f"Error al mostrar resumen estadístico: {e}")

    def conteo_nulos(self):
        try:
            nulos = self.datos.isnull().sum()
            logging.info("Mostrando conteo de valores nulos por columna.")
            print(nulos)
        except Exception as e:
            logging.error(f"Error al mostrar conteo de nulos: {e}")

In [4]:
# Uso del explorador de datos

explorador = ExploradorDeDatos(datos)
explorador.mostrar_info()

2024-01-27 00:16:07,951 - INFO - Explorador de datos creado.
2024-01-27 00:16:07,952 - INFO - Mostrando información general del DataFrame.


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102599 entries, 0 to 102598
Data columns (total 26 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   id                              102599 non-null  int64  
 1   NAME                            102349 non-null  object 
 2   host id                         102599 non-null  int64  
 3   host_identity_verified          102310 non-null  object 
 4   host name                       102193 non-null  object 
 5   neighbourhood group             102570 non-null  object 
 6   neighbourhood                   102583 non-null  object 
 7   lat                             102591 non-null  float64
 8   long                            102591 non-null  float64
 9   country                         102067 non-null  object 
 10  country code                    102468 non-null  object 
 11  instant_bookable                102494 non-null  object 
 12  cancellation_pol

In [5]:
explorador.resumen_estadistico()

2024-01-27 00:16:08,699 - INFO - Mostrando resumen estadístico del DataFrame.


                 id       host id            lat           long  \
count  1.025990e+05  1.025990e+05  102591.000000  102591.000000   
mean   2.914623e+07  4.925411e+10      40.728094     -73.949644   
std    1.625751e+07  2.853900e+10       0.055857       0.049521   
min    1.001254e+06  1.236005e+08      40.499790     -74.249840   
25%    1.508581e+07  2.458333e+10      40.688740     -73.982580   
50%    2.913660e+07  4.911774e+10      40.722290     -73.954440   
75%    4.320120e+07  7.399650e+10      40.762760     -73.932350   
max    5.736742e+07  9.876313e+10      40.916970     -73.705220   

       Construction year  minimum nights  number of reviews  \
count      102385.000000   102190.000000      102416.000000   
mean         2012.487464        8.135845          27.483743   
std             5.765556       30.553781          49.508954   
min          2003.000000    -1223.000000           0.000000   
25%          2007.000000        2.000000           1.000000   
50%          2012.

In [6]:
explorador.conteo_nulos()

2024-01-27 00:16:09,342 - INFO - Mostrando conteo de valores nulos por columna.


id                                     0
NAME                                 250
host id                                0
host_identity_verified               289
host name                            406
neighbourhood group                   29
neighbourhood                         16
lat                                    8
long                                   8
country                              532
country code                         131
instant_bookable                     105
cancellation_policy                   76
room type                              0
Construction year                    214
price                                247
service fee                          273
minimum nights                       409
number of reviews                    183
last review                        15893
reviews per month                  15879
review rate number                   326
calculated host listings count       319
availability 365                     448
house_rules     

In [7]:
class LimpiadorDeDatos:
    def __init__(self, datos):
        self.datos = datos
        logging.info("Limpiador de datos creado.")

    def manejar_nulos(self):
        try:
            for columna in self.datos.columns:
                if self.datos[columna].dtype == 'object':
                    # Modificación aquí: Asignar el resultado de fillna directamente
                    self.datos[columna] = self.datos[columna].fillna(self.datos[columna].mode()[0])
                else:
                    # Igualmente aquí
                    self.datos[columna] = self.datos[columna].fillna(self.datos[columna].median())
            logging.info("Valores nulos manejados.")
        except Exception as e:
            logging.error(f"Error al manejar valores nulos: {e}")

    def corregir_datos_atipicos(self):
        try:
            for columna in ['minimum nights', 'availability 365']:
                q1 = self.datos[columna].quantile(0.25)
                q3 = self.datos[columna].quantile(0.75)
                iqr = q3 - q1
                limite_inferior = q1 - 1.5 * iqr
                limite_superior = q3 + 1.5 * iqr
                self.datos = self.datos[(self.datos[columna] >= limite_inferior) & (self.datos[columna] <= limite_superior)]
            logging.info("Datos atípicos corregidos.")
        except Exception as e:
            logging.error(f"Error al corregir datos atípicos: {e}")

    def limpiar_datos(self):
        try:
            self.manejar_nulos()
            self.corregir_datos_atipicos()
            logging.info("Datos limpiados exitosamente.")
            return self.datos
        except Exception as e:
            logging.error(f"Error durante la limpieza de datos: {e}")
            return None

In [8]:
# Uso del limpiador de datos

limpiador = LimpiadorDeDatos(datos)
datos_limpios = limpiador.limpiar_datos()
datos_limpios.head()

2024-01-27 00:16:10,487 - INFO - Limpiador de datos creado.
  self.datos[columna] = self.datos[columna].fillna(self.datos[columna].mode()[0])
2024-01-27 00:16:10,630 - INFO - Valores nulos manejados.
2024-01-27 00:16:10,664 - INFO - Datos atípicos corregidos.
2024-01-27 00:16:10,665 - INFO - Datos limpiados exitosamente.


Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,...,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
2,1002403,THE VILLAGE OF HARLEM....NEW YORK !,78829239556,unconfirmed,Elise,Manhattan,Harlem,40.80902,-73.9419,United States,...,$124,3.0,0.0,6/23/2019,0.74,5.0,1.0,352.0,"I encourage you to use my kitchen, cooking and...",41662/AL
5,1004098,Large Cozy 1 BR Apartment In Midtown East,45498551794,verified,Michelle,Manhattan,Murray Hill,40.74767,-73.975,United States,...,$115,3.0,74.0,6/22/2019,0.59,3.0,1.0,374.0,"No smoking, please, and no drugs.",41662/AL
8,1005754,Large Furnished Room Near B'way,79384379533,verified,Evelyn,Manhattan,Hell's Kitchen,40.76489,-73.98493,United States,...,$204,2.0,430.0,6/24/2019,3.47,3.0,1.0,180.0,- Please clean up after yourself when using th...,41662/AL
9,1006307,Cozy Clean Guest Room - Family Apt,75527839483,unconfirmed,Carl,Manhattan,Upper West Side,40.80178,-73.96723,United States,...,$58,2.0,118.0,7/21/2017,0.99,5.0,1.0,375.0,NO SMOKING OR PETS ANYWHERE ON THE PROPERTY 1....,41662/AL
10,1006859,Cute & Cozy Lower East Side 1 bdrm,1280143094,verified,Miranda,Manhattan,Chinatown,40.71344,-73.99037,United States,...,$64,1.0,160.0,6/9/2019,1.33,3.0,4.0,1.0,#NAME?,41662/AL


In [9]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder
import logging

class IngenieroDeCaracteristicas:
    def __init__(self, datos):
        """
        Inicializa el ingeniero de características con un DataFrame de Pandas.
        :param datos: DataFrame de Pandas con los datos.
        """
        self.datos = datos
        logging.info("Ingeniero de características creado.")

    def aplicar_one_hot_encoding(self):
        """
        Aplica One-Hot Encoding a las columnas categóricas especificadas.
        """
        try:
            # Reiniciar índice del DataFrame
            self.datos.reset_index(drop=True, inplace=True)

            one_hot_columns = ['host_identity_verified', 'neighbourhood group', 'cancellation_policy', 'room type']

            # Rellenar valores nulos en columnas categóricas
            for col in one_hot_columns:
                self.datos[col] = self.datos[col].fillna('Desconocido')

            encoder = OneHotEncoder(drop='first')
            one_hot_encoded = encoder.fit_transform(self.datos[one_hot_columns]).toarray()
            columnas_encoded = encoder.get_feature_names_out(one_hot_columns)
            df_encoded = pd.DataFrame(one_hot_encoded, columns=columnas_encoded)
            self.datos = self.datos.join(df_encoded).drop(one_hot_columns, axis=1)
            logging.info("One-hot encoding aplicado.")
        except Exception as e:
            logging.error(f"Error al aplicar one-hot encoding: {e}")

    def convertir_fechas(self):
        """
        Convierte columnas de fecha a formato numérico (año, mes, día).
        """
        try:
            formato_fecha = '%m/%d/%Y'  # Modifica según el formato correcto
            for col in self.datos.select_dtypes(include=['object']):
                if 'review' in col:  # Ajusta según el nombre de tu columna
                    self.datos[col] = pd.to_datetime(self.datos[col], format=formato_fecha, errors='coerce')

                if np.issubdtype(self.datos[col].dtype, np.datetime64):
                    self.datos[col + '_year'] = self.datos[col].dt.year
                    self.datos[col + '_month'] = self.datos[col].dt.month
                    self.datos[col + '_day'] = self.datos[col].dt.day
                    self.datos.drop(col, axis=1, inplace=True)
            logging.info("Columnas de fecha transformadas a características numéricas.")
        except Exception as e:
            logging.error(f"Error al convertir columnas de fecha: {e}")

    def convertir_numeros(self):
        """
        Convierte columnas de precio y tarifa de servicio a tipo numérico.
        """
        try:
            self.datos['price'] = self.datos['price'].astype(str)
            self.datos['service fee'] = self.datos['service fee'].astype(str)

            self.datos['price'] = self.datos['price'].str.replace('[\$,]', '', regex=True).astype(float)
            self.datos['service fee'] = self.datos['service fee'].str.replace('[\$,]', '', regex=True).astype(float)
            logging.info("Columnas convertidas a tipo numérico.")
        except Exception as e:
            logging.error(f"Error al convertir columnas a tipo numérico: {e}")

    def transformar_caracteristicas(self):
        """
        Ejecuta todas las transformaciones de características definidas.
        """
        try:
            self.aplicar_one_hot_encoding()
            self.convertir_fechas()
            self.convertir_numeros()
            logging.info("Transformación de características completada.")
            return self.datos
        except Exception as e:
            logging.error(f"Error durante la transformación de características: {e}")
            return None

In [10]:
# Uso del ingeniero de características

ingeniero = IngenieroDeCaracteristicas(datos_limpios)
datos_transformados = ingeniero.transformar_caracteristicas()
datos_transformados.head()

2024-01-27 00:16:11,976 - INFO - Ingeniero de características creado.
2024-01-27 00:16:12,094 - INFO - One-hot encoding aplicado.
2024-01-27 00:16:12,129 - INFO - Columnas de fecha transformadas a características numéricas.
2024-01-27 00:16:12,185 - INFO - Columnas convertidas a tipo numérico.
2024-01-27 00:16:12,185 - INFO - Transformación de características completada.


Unnamed: 0,id,NAME,host id,host name,neighbourhood,lat,long,country,country code,instant_bookable,...,neighbourhood group_brookln,neighbourhood group_manhatan,cancellation_policy_moderate,cancellation_policy_strict,room type_Hotel room,room type_Private room,room type_Shared room,last review_year,last review_month,last review_day
0,1002403,THE VILLAGE OF HARLEM....NEW YORK !,78829239556,Elise,Harlem,40.80902,-73.9419,United States,US,True,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,2019,6,23
1,1004098,Large Cozy 1 BR Apartment In Midtown East,45498551794,Michelle,Murray Hill,40.74767,-73.975,United States,US,True,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2019,6,22
2,1005754,Large Furnished Room Near B'way,79384379533,Evelyn,Hell's Kitchen,40.76489,-73.98493,United States,US,True,...,0.0,0.0,0.0,1.0,0.0,1.0,0.0,2019,6,24
3,1006307,Cozy Clean Guest Room - Family Apt,75527839483,Carl,Upper West Side,40.80178,-73.96723,United States,US,False,...,0.0,0.0,0.0,1.0,0.0,1.0,0.0,2017,7,21
4,1006859,Cute & Cozy Lower East Side 1 bdrm,1280143094,Miranda,Chinatown,40.71344,-73.99037,United States,US,False,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2019,6,9


In [11]:
from sklearn.model_selection import train_test_split
import logging

class DivisorDeDatos:
    def __init__(self, datos):
        self.datos = datos
        logging.info("Divisor de datos creado.")

    def preparar_datos(self):
        try:
            # Excluir columnas no necesarias
            columnas_a_eliminar = ['id', 'NAME', 'host id', 'host name', 'neighbourhood', 
                                    'country code', 'country', 'house_rules', 'license']
            datos_preparados = self.datos.drop(columns=columnas_a_eliminar)
            logging.info("Columnas no necesarias eliminadas.")
            return datos_preparados
        except Exception as e:
            logging.error(f"Error al preparar los datos: {e}")
            return None

    def dividir_datos(self, test_size=0.2, val_size=0.2, random_state=42):
        try:
            datos_preparados = self.preparar_datos()
            X = datos_preparados.drop('price', axis=1)
            y = datos_preparados['price']

            # Primero dividimos en entrenamiento y prueba
            X_train, X_test, y_train, y_test = train_test_split(
                X, y, test_size=test_size, random_state=random_state)

            # Ajuste del tamaño de validación
            val_size_adjusted = val_size / (1 - test_size)

            # Dividir el conjunto de entrenamiento en entrenamiento y validación
            X_train, X_val, y_train, y_val = train_test_split(
                X_train, y_train, test_size=val_size_adjusted, random_state=random_state)

            logging.info("Datos divididos en entrenamiento, validación y prueba.")
            return X_train, X_val, X_test, y_train, y_val, y_test
        except Exception as e:
            logging.error(f"Error al dividir los datos: {e}")
            return None, None, None, None, None, None

In [12]:
# Uso del divisor de datos

divisor = DivisorDeDatos(datos_transformados)
X_train, X_val, X_test, y_train, y_val, y_test = divisor.dividir_datos()

2024-01-27 00:16:13,684 - INFO - Divisor de datos creado.
2024-01-27 00:16:13,689 - INFO - Columnas no necesarias eliminadas.
2024-01-27 00:16:13,719 - INFO - Datos divididos en entrenamiento, validación y prueba.


In [19]:
import mlflow
import mlflow.sklearn
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np
import logging
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor

class ModeloDePrediccion:
    def __init__(self, X_train, y_train, X_val, y_val):
        self.X_train = X_train
        self.y_train = y_train
        self.X_val = X_val
        self.y_val = y_val
        logging.info("Modelo de predicción inicializado.")
        mlflow.set_experiment('Predicción de Precios de Airbnb')

    def entrenar_modelo(self, modelo, parametros, modelo_nombre='Modelo'):
        with mlflow.start_run():
            try:
                grid_search = GridSearchCV(modelo, parametros, cv=5, scoring='neg_mean_squared_error', return_train_score=True)
                grid_search.fit(self.X_train, self.y_train)
                mejor_modelo = grid_search.best_estimator_
                logging.info("Mejor modelo encontrado: {}".format(mejor_modelo))

                # Log de parámetros y métricas
                mlflow.log_params(grid_search.best_params_)
                rmse, mae, r2 = self.evaluar_modelo(mejor_modelo)
                mlflow.log_metric("rmse", rmse)
                mlflow.log_metric("mae", mae)
                mlflow.log_metric("r2", r2)

                # Guardar el modelo
                mlflow.sklearn.log_model(mejor_modelo, modelo_nombre)

                return mejor_modelo
            except Exception as e:
                logging.error(f"Error durante el entrenamiento del modelo: {e}")
                return None

    def evaluar_modelo(self, modelo):
        try:
            predicciones = modelo.predict(self.X_val)
            rmse = np.sqrt(mean_squared_error(self.y_val, predicciones))
            mae = mean_absolute_error(self.y_val, predicciones)
            r2 = r2_score(self.y_val, predicciones)
            logging.info(f"Evaluación del modelo - RMSE: {rmse}, MAE: {mae}, R²: {r2}")
            return rmse, mae, r2
        except Exception as e:
            logging.error(f"Error durante la evaluación del modelo: {e}")
            return None, None, None

In [20]:
# Uso del modelo de predicción

modelo = ModeloDePrediccion(X_train, y_train, X_val, y_val)

2024-01-27 00:17:06,141 - INFO - Modelo de predicción inicializado.


In [21]:
# Parámetros para la regresión lineal (puedes ajustar estos según tus necesidades)
parametros_rl = {'fit_intercept': [True, False]}

# Entrenar y encontrar el mejor modelo de regresión lineal
mejor_rl = modelo.entrenar_modelo(LinearRegression(), parametros_rl)

# Evaluar el mejor modelo de regresión lineal
rmse_rf, mae_rf, r2_rf = modelo.evaluar_modelo(mejor_rl)

2024-01-27 00:17:10,490 - INFO - Mejor modelo encontrado: LinearRegression(fit_intercept=False)
2024-01-27 00:17:10,509 - INFO - Evaluación del modelo - RMSE: 32.5188089413782, MAE: 3.406440138361575, R²: 0.9903475100373513
2024-01-27 00:17:12,892 - INFO - Evaluación del modelo - RMSE: 32.5188089413782, MAE: 3.406440138361575, R²: 0.9903475100373513


In [ ]:
# Parámetros para el random forest (puedes ajustar estos según tus necesidades)
parametros_rf = {'n_estimators': [100, 200, 300],
                 'max_depth': [10, 20, 30],
                 'min_samples_split': [2, 5, 10],
                 'min_samples_leaf': [1, 2, 4]}
# Entrenar y encontrar el mejor modelo de random forest
mejor_rf = modelo.entrenar_modelo(RandomForestRegressor(), parametros_rf)

# Evaluar el mejor modelo de random forest
rmse_rf, mae_rf, r2_rf = modelo.evaluar_modelo(mejor_rf)

In [22]:
# Guardar el mejor modelo

import pickle

with open('mejor_modelo.pkl', 'wb') as archivo:
    pickle.dump(mejor_rl, archivo)

In [23]:
# Haga sus predicciones

import pickle

mejor_rl = "/Users/adrianinfantes/Desktop/AIR/CollegeStudies/MachineLearningPath/Portfolio/AirbnbProjects/NyAirbnb/model/mejor_modelo.pkl"

with open(mejor_rl, 'rb') as archivo:
    mejor_modelo = pickle.load(archivo)

def predecir_precio(datos):
    try:
        predicciones = mejor_modelo.predict(datos)
        return predicciones
    except Exception as e:
        logging.error(f"Error al predecir el precio: {e}")
        return None

In [24]:
# Uso de la función de predicción

datos_prueba = X_test.iloc[0:5]
predicciones = predecir_precio(datos_prueba)
print(predicciones)

[ 606.7240515   541.00282054  202.93558137  865.06787435 1192.42282101]
