# Datasets: alquileres de inmuebles en ciuades europeas - Airbnb.

Durante el TP, se trabajará con un dataset conformado por múltiples archivos CSV, donde todos tienen las mismas columnas, y cada fila corresponde a una propiedad en alquiler publicada en AirBnb.

# Columnas

A continuación se describen las columnas de cada archivo CSV:

* realSum: El precio total del alojamiento para dos personas y dos noches en EUR.
* room_type: El tipo de alojamiento.
* room_shared: Variable ficticia que indica si las habitaciones son compartidas.
* room_private: Variable ficticia para habitaciones privadas.
* person_capacity: El número máximo de huéspedes.
* host_is_superhost: Variable ficticia que indica si el anfitrión es un “superanfitrión”.
* multi: Variable ficticia que indica si la publicación pertenece a anfitriones con 2-4 ofertas.
* biz: Variable ficticia que indica si la publicación pertenece a anfitriones con más de 4 ofertas.
* cleanliness_rating: Calificación de limpieza. Oscila entre 2 (como peor calificación) y 10 (como mejor calificación)
* guest_satisfaction_overall: Calificación general del alojamiento. Oscila entre 0 (para el menor valor) y 100 (para el mayor valor).
* bedrooms: Número de habitaciones (0 para estudios).
* dist: Distancia hasta el centro de la ciudad, en km.
* metro_dist: Distancia desde la estación de metro más cercana, en km.
* attr_index: Índice de atracción de la ubicación del alojamiento listado.
* attr_index_norm: Índice de atracción normalizado (0-100).
* rest_index: Índice de restaurantes de la ubicación del alojamiento .
* attr_index_norm: Índice de restaurantes normalizado (0-100).
* lng: Coordenadas de longitud de la ubicación del alojamiento.
* lat: Coordenadas de latitud de la ubicación del alojamiento.

# Unión de archivos CSV

A continuación se muestra cómo se han agregado dos columnas en cada archivo:
* weekday: corresponde a un booleano que indica si el alquiler es en día de semana
* city: indica la ciudad europea donde se encuentra el inmueble

Estas dos columnas, se agregan a cada archivo para luego identificarlos al momento de realizar la unión.

In [59]:
import os
import pandas as pd

folder_path = os.getcwd()
folder_path

dataframes=[]

#Creamos dataframe que contendrá a todos los archivos
columnas = ['realSum', 'room_type', 'room_shared', 'room_private', 'person_capacity',
            'host_is_superhost', 'multi', 'biz', 'cleanliness_rating', 'guest_satisfaction_overall',
            'bedrooms', 'dist', 'metro_dist', 'attr_index', 'attr_index_norm', 'rest_index',
            'rest_index_norm', 'lng', 'lat', 'weekday', 'city']
df_combinado = pd.DataFrame(columns=columnas)

for file_name in os.listdir(folder_path):
    if file_name.endswith('.csv'):
        file_path = os.path.join(folder_path, file_name)

        # Obtén el nombre de la ciudad del archivo
        city = file_name.split('_')[0]

        # Determina si es un archivo de días de semana o fin de semana
        is_weekday = file_name.endswith('_weekdays.csv')

        # Leer el archivo CSV en un DataFrame
        df = pd.read_csv(file_path, engine='python', delimiter=',')
        
        # Agregar las columnas 'weekday' y 'city'
        df['weekday'] = is_weekday
        df['city'] = city

        #Unimos los dataframes
        df_combinado = pd.concat([df_combinado, df])
        
df_combinado = df_combinado.reset_index(drop=True) #Revisar

realSum                        279.879591
room_shared                      0.007078
room_private                     0.361518
person_capacity                  3.161661
host_is_superhost                0.255903
multi                            0.291353
biz                              0.350204
cleanliness_rating               9.390624
guest_satisfaction_overall      92.628232
bedrooms                         1.158760
dist                             3.191285
metro_dist                       0.681540
attr_index                     294.204105
attr_index_norm                 13.423792
rest_index                     626.856696
rest_index_norm                 22.786177
lng                              7.426068
lat                             45.671128
weekday                          0.493163
Unnamed: 0                    1620.502388
dtype: float64
