# Datasets: alquileres de inmuebles en ciuades europeas - Airbnb.

Durante el TP, se trabajará con un dataset conformado por múltiples archivos CSV, donde todos tienen las mismas columnas, y cada fila corresponde a una propiedad en alquiler publicada en AirBnb.

# Columnas

A continuación se describen las columnas de cada archivo CSV:

* realSum: El precio total del alojamiento para dos personas y dos noches en EUR.
* room_type: El tipo de alojamiento.
* room_shared: Variable ficticia que indica si las habitaciones son compartidas.
* room_private: Variable ficticia para habitaciones privadas.
* person_capacity: El número máximo de huéspedes.
* host_is_superhost: Variable ficticia que indica si el anfitrión es un “superanfitrión”.
* multi: Variable ficticia que indica si la publicación pertenece a anfitriones con 2-4 ofertas.
* biz: Variable ficticia que indica si la publicación pertenece a anfitriones con más de 4 ofertas.
* cleanliness_rating: Calificación de limpieza. Oscila entre 2 (como peor calificación) y 10 (como mejor calificación)
* guest_satisfaction_overall: Calificación general del alojamiento. Oscila entre 0 (para el menor valor) y 100 (para el mayor valor).
* bedrooms: Número de habitaciones (0 para estudios).
* dist: Distancia hasta el centro de la ciudad, en km.
* metro_dist: Distancia desde la estación de metro más cercana, en km.
* attr_index: Índice de atracción de la ubicación del alojamiento listado.
* attr_index_norm: Índice de atracción normalizado (0-100).
* rest_index: Índice de restaurantes de la ubicación del alojamiento .
* attr_index_norm: Índice de restaurantes normalizado (0-100).
* lng: Coordenadas de longitud de la ubicación del alojamiento.
* lat: Coordenadas de latitud de la ubicación del alojamiento.

# Unión de archivos CSV

A continuación se muestra cómo se han agregado dos columnas en cada archivo:
* weekday: corresponde a un booleano que indica si el alquiler es en día de semana
* city: indica la ciudad europea donde se encuentra el inmueble

Estas dos columnas, se agregan a cada archivo para luego identificarlos al momento de realizar la unión.

In [17]:
import os
import pandas as pd

folder_path = os.getcwd()
folder_path
dataframes = []

for file_name in os.listdir(folder_path):
    if file_name.endswith('.csv'):
        file_path = os.path.join(folder_path, file_name)

        # Obtén el nombre de la ciudad del archivo
        city = file_name.split('_')[0]

        # Determina si es un archivo de días de semana o fin de semana
        is_weekday = file_name.endswith('_weekdays.csv')

        # Leer el archivo CSV en un DataFrame
        df = pd.read_csv(file_path, engine='python', delimiter=',')
        
        # Agregar las columnas 'weekday' y 'city'
        df['weekday'] = is_weekday
        df['city'] = city

        df.head(10)
        # Agregar el DataFrame a la lista
        dataframes.append(df)


combined_df = pd.concat(dataframes, ignore_index=True)
combined_df.head(15)



Unnamed: 0,ID,realSum,room_type,room_shared,room_private,person_capacity,host_is_superhost,multi,biz,cleanliness_rating,...,324.66166467989626,94.0,3.2406127822783066,0.6104497999388476,92.47346734746488,6.622339573043595,129.86287970210918,3.1387356979559917,16.33006,48.20921
0,0.0,194.033698,Private room,False,True,2.0,False,1.0,0.0,10.0,...,,,,,,,,,,
1,1.0,344.245776,Private room,False,True,4.0,False,0.0,0.0,8.0,...,,,,,,,,,,
2,2.0,264.101422,Private room,False,True,2.0,False,0.0,1.0,9.0,...,,,,,,,,,,
3,3.0,433.529398,Private room,False,True,4.0,False,0.0,1.0,9.0,...,,,,,,,,,,
4,4.0,485.552926,Private room,False,True,2.0,True,0.0,0.0,10.0,...,,,,,,,,,,
5,5.0,552.808567,Private room,False,True,3.0,False,0.0,0.0,8.0,...,,,,,,,,,,
6,6.0,215.124317,Private room,False,True,2.0,False,0.0,0.0,10.0,...,,,,,,,,,,
7,7.0,2771.307384,Entire home/apt,False,False,4.0,True,0.0,0.0,10.0,...,,,,,,,,,,
8,8.0,1001.80442,Entire home/apt,False,False,4.0,False,0.0,0.0,9.0,...,,,,,,,,,,
9,9.0,276.521454,Private room,False,True,2.0,False,1.0,0.0,10.0,...,,,,,,,,,,
