## **Fase 2 - Limpieza de Datos**
*En esta fase crucial del proceso ETL, la limpieza de datos se convierte en la base para un análisis confiable y preciso. La limpieza implica la eliminación de valores nulos, la corrección de incoherencias y el tratamiento de datos que podrían distorsionar los resultados. Este proceso garantiza que el conjunto de datos esté libre de ruido y preparado para extraer información valiosa. Al limpiar los datos, aseguramos que las conclusiones posteriores reflejen fielmente la realidad representada en los datos, estableciendo una base sólida sobre la cual se construirá nuestro análisis*.

In [1]:
# General
import numpy as np
import pandas as pd
from datetime import datetime

In [6]:
df = pd.read_csv('data/df_completo.csv')

### **Análisis inicial del dataset para entender la estructura, los tipos de datos, los valores ausentes y las estadísticas generales**

In [3]:
df.head()

Unnamed: 0,urls,timestamp,record_id,Titles,Host_name,Property_types,Prices_per_night,Check_ins,Check_outs,Location,Ratings,Num_reviews,Cleaning_fee,Com_fee,Otros,Baños,Maximum_guests,Viajeros,Dormitorios,Camas
0,https://www.airbnb.es/rooms/125284963667401123...,2024-11-07 10:12:02,1252849636674011237,Reserva una (o más) camas en este dormitorio c...,Anfitrión: Generator,"Habitación en Barcelona, España",19 €,Horario de llegada: de 14:00 a 0:00,Salida antes de las 10:00,,475,4.0,0,0,1 litera,Baño compartido,,,,
1,https://www.airbnb.es/rooms/128244586043482024...,2024-11-07 10:12:02,1282445860434820248,Te damos la bienvenida a este elegante apartam...,Anfitrión: HostPro,"Alojamiento entero: apartamento en Barcelona, ...",110 €,Llegada a partir de las 15:00,Salida antes de las 11:00,"Barcelona, Catalunya, España",Nuevo,,60 €,0,,1 baño,,4 viajeros,2 dormitorios,3 camas
2,https://www.airbnb.es/rooms/128028819924646861...,2024-11-07 10:12:02,1280288199246468615,Excelente y acogedor apartamento a solo '2 cam...,Quédate con Lautaro Gaspar,"Habitación en Barcelona, España",32 €,Llegada a partir de las 16:00,Salida antes de las 11:00,"Barcelona, Catalunya, España",Nuevo,,0,0,,Baño compartido,,,,1 cama individual
3,https://www.airbnb.es/rooms/850684095339937556...,2024-11-07 10:12:02,850684095339937556,Desconecta de la rutina en este alojamiento a...,Anfitrión: Marta+Paul,"Alojamiento entero: apartamento en Barcelona, ...",80 €,Llegada a partir de las 15:00,Salida antes de las 11:00,,50,5.0,90 €,0,,1 baño,,2 viajeros,1 dormitorio,1 cama
4,https://www.airbnb.es/rooms/127904085557632410...,2024-11-07 10:12:02,1279040855576324107,Este anfitrión tiene 979 evaluaciones de otros...,Anfitrión: David,"Habitación en Barcelona, España",46 €,Horario de llegada: de 17:00 a 2:00,Salida antes de las 11:00,"Barcelona, Catalunya, España",Nuevo,,15 €,42 €,,Baño compartido,1.0,,,1 cama


In [7]:
df.shape

(2700, 20)

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2700 entries, 0 to 2699
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   urls              2700 non-null   object 
 1   timestamp         2700 non-null   object 
 2   record_id         2700 non-null   int64  
 3   Titles            2685 non-null   object 
 4   Host_name         2685 non-null   object 
 5   Property_types    2685 non-null   object 
 6   Prices_per_night  2573 non-null   object 
 7   Check_ins         2685 non-null   object 
 8   Check_outs        2685 non-null   object 
 9   Location          1626 non-null   object 
 10  Ratings           2643 non-null   object 
 11  Num_reviews       1500 non-null   float64
 12  Cleaning_fee      2700 non-null   object 
 13  Com_fee           2700 non-null   object 
 14  Otros             146 non-null    object 
 15  Baños             2618 non-null   object 
 16  Maximum_guests    2667 non-null   float64


In [9]:
df.describe()

Unnamed: 0,record_id,Num_reviews,Maximum_guests
count,2700.0,1500.0,2667.0
mean,8.081992e+17,119.248,2.693663
std,5.15128e+17,230.681026,1.615371
min,80004.0,2.0,1.0
25%,51386020.0,15.0,2.0
50%,1.064768e+18,52.0,2.0
75%,1.23831e+18,136.0,4.0
max,1.283387e+18,2781.0,13.0


In [10]:
df.isna().sum()

urls                   0
timestamp              0
record_id              0
Titles                15
Host_name             15
Property_types        15
Prices_per_night     127
Check_ins             15
Check_outs            15
Location            1074
Ratings               57
Num_reviews         1200
Cleaning_fee           0
Com_fee                0
Otros               2554
Baños                 82
Maximum_guests        33
Viajeros            1280
Dormitorios         1247
Camas                116
dtype: int64

### **Ponemos todas las columnas en minúsculas**

In [14]:
df.columns = df.columns.str.lower()
df.head()

Unnamed: 0,urls,timestamp,record_id,titles,host_name,property_types,prices_per_night,check_ins,check_outs,location,ratings,num_reviews,cleaning_fee,com_fee,otros,baños,maximum_guests,viajeros,dormitorios,camas
0,https://www.airbnb.es/rooms/125284963667401123...,2024-11-07 10:12:02,1252849636674011237,Reserva una (o más) camas en este dormitorio c...,Anfitrión: Generator,"Habitación en Barcelona, España",19 €,Horario de llegada: de 14:00 a 0:00,Salida antes de las 10:00,,475,4.0,0,0,1 litera,Baño compartido,,,,
1,https://www.airbnb.es/rooms/128244586043482024...,2024-11-07 10:12:02,1282445860434820248,Te damos la bienvenida a este elegante apartam...,Anfitrión: HostPro,"Alojamiento entero: apartamento en Barcelona, ...",110 €,Llegada a partir de las 15:00,Salida antes de las 11:00,"Barcelona, Catalunya, España",Nuevo,,60 €,0,,1 baño,,4 viajeros,2 dormitorios,3 camas
2,https://www.airbnb.es/rooms/128028819924646861...,2024-11-07 10:12:02,1280288199246468615,Excelente y acogedor apartamento a solo '2 cam...,Quédate con Lautaro Gaspar,"Habitación en Barcelona, España",32 €,Llegada a partir de las 16:00,Salida antes de las 11:00,"Barcelona, Catalunya, España",Nuevo,,0,0,,Baño compartido,,,,1 cama individual
3,https://www.airbnb.es/rooms/850684095339937556...,2024-11-07 10:12:02,850684095339937556,Desconecta de la rutina en este alojamiento a...,Anfitrión: Marta+Paul,"Alojamiento entero: apartamento en Barcelona, ...",80 €,Llegada a partir de las 15:00,Salida antes de las 11:00,,50,5.0,90 €,0,,1 baño,,2 viajeros,1 dormitorio,1 cama
4,https://www.airbnb.es/rooms/127904085557632410...,2024-11-07 10:12:02,1279040855576324107,Este anfitrión tiene 979 evaluaciones de otros...,Anfitrión: David,"Habitación en Barcelona, España",46 €,Horario de llegada: de 17:00 a 2:00,Salida antes de las 11:00,"Barcelona, Catalunya, España",Nuevo,,15 €,42 €,,Baño compartido,1.0,,,1 cama


#### **Eliminación de columnas redundantes o duplicadas que no aportan valor al proceso de análisis**

In [15]:
df = df.drop(['viajeros', 'otros', 'com_fee'], axis=1)

#### **Limpieza y Formateo de Columnas del DataFrame**

#### Titles

In [16]:
df['titles'] = df['titles'].str.capitalize()
# 2. Eliminar puntuación innecesaria
df['titles'] = df['titles'].str.replace('¡', '', regex=False)
# 3. Corregir espacios y saltos de línea
df['titles'] = df['titles'].str.replace(r'\s+', ' ', regex=True)
df['titles'] = df['titles'].str.strip()


#### Host

In [18]:
# Extraer solo el nombre del anfitrión, removendo "Anfitrión: " y cualquier outro prefixo
df['host_name'] = df['host_name'].str.replace('Anfitrión: ', '', regex=False).str.replace('Quédate con ', '', regex=False)

#### Property types

In [19]:
# Clasificamos los tipos de propiedad en tres categorías para extraer solo la información que queremos con una función
def category_types(value):
    if isinstance(value, float) and pd.isna(value):
        return "otro"
    elif "Alojamiento entero" in value:
        return "Alojamiento entero"
    elif "Habitación" in value:
        return "Habitación"
    else:
        return "otro"
df["property_types"] = df["property_types"].apply(category_types)    

#### Prices

In [20]:
# Remover el símbolo € y convertir a valores numéricos
df['prices_per_night'] = pd.to_numeric(df['prices_per_night'].str.replace('€', '').str.strip(), errors='coerce')
df = df.dropna(subset=['prices_per_night']) # Mantener solo registros válidos para análisis

In [21]:
# Verificación después del dropna
df.shape

(2573, 17)

#### Check in/Check out

In [22]:
def process_check_times(df):

    def extract_check_in_hour(check_in):

        if isinstance(check_in, str):
            check_in = check_in.strip().lower()

            if 'llegada' in check_in:
                # Elimina la parte "llegada" y obtiene la primera hora válida
                check_in = check_in.replace('llegada:', '')
                check_in = check_in.replace('de', '')
                parts = check_in.split()
                for part in parts:
                    if ":" in part:  # Verifica si el elemento tiene formato de hora "HH:MM"
                        return part.strip()

        return np.nan

    def extract_check_out_hour(check_out):

        if isinstance(check_out, str) and "antes de las" in check_out:
            try:  # Extrae solo la hora
                hour_str = check_out.split("antes de las")[1].split(":")[0].strip() + ":00"  # Devuelve la hora en formato "HH:00"
                return hour_str
            except:
                return np.nan
        return np.nan

    # Función para calcular las horas restantes hasta el check-in
    def calculate_hours_to_check_in(check_in_hour):
        try:
            # Extraímos la hora directamente de la cadena
            hour = int(check_in_hour.split(":")[0])  # Obtiene la hora (antes de los minutos)

            # Verifica si la hora es válida
            if 0 <= hour < 24:
                return 24 - hour  # Calcula las horas restantes hasta el check-in
        except Exception:
            return np.nan

        return np.nan

    # Aplica las funciones a las columnas correspondientes
    df['check_in_hour'] = df['check_ins'].apply(extract_check_in_hour)
    df['check_out_hour'] = df['check_outs'].apply(extract_check_out_hour)
    df['total_hours_checkin'] = df['check_in_hour'].apply(calculate_hours_to_check_in)

    df = df.drop(columns=['check_ins', 'check_outs'])

    return df


In [23]:
df = process_check_times(df)

#### Cleaning Fees

In [24]:
df['cleaning_fee'] = pd.to_numeric(df['cleaning_fee'].str.replace('€', '').str.strip(), errors='coerce')

#### Ratings

In [25]:
# Sustituir valores "Nuevo" y "Sin evaluaciones" por 0
df['ratings'] = df['ratings'].replace({'Nuevo': '0', 'Sin evaluaciones': '0'})

# Eliminar comas y convertir a numérico
df['ratings'] = pd.to_numeric(df['ratings'].str.replace(',', '.'), errors='coerce').fillna(0)

#### Number of reviews

In [26]:
# Convertir a numérico y reemplazar valores nulos con 0
df['num_reviews'] = pd.to_numeric(df['num_reviews'], errors='coerce').fillna(0)

#### Dormitorios

In [27]:
# Extraer solo el número de dormitorios eliminando letras
df['dormitorios'] = df['dormitorios'].str.extract('(\d+)')[0]

df['dormitorios'] = pd.to_numeric(df['dormitorios'], errors='coerce')

  df['dormitorios'] = df['dormitorios'].str.extract('(\d+)')[0]


#### Camas

In [28]:
# Extraer solo el número de camas eliminando letras
df['camas'] = df['camas'].str.extract('(\d+)')[0]

df['camas'] = pd.to_numeric(df['camas'], errors='coerce')

  df['camas'] = df['camas'].str.extract('(\d+)')[0]


#### Baños

In [29]:
# Reemplazar "Baño compartido" por 0.5 y "Baño privado" por 1
df['baños'] = df['baños'].replace({'Baño compartido': 0.5, 'Baño privado': 1})

# Extraer números eliminando letras
df['baños'] = df['baños'].str.extract('(\d+[.,]?\d*)')[0]# El resultado es una Serie con el número y usamos '[0]' para seleccionar esa columna

df['baños'] = pd.to_numeric(df['baños'].str.replace(',', '.'), errors='coerce')

  df['baños'] = df['baños'].str.extract('(\d+[.,]?\d*)')[0]# El resultado es una Serie con el número y usamos '[0]' para seleccionar esa columna


In [32]:
df.to_csv('df_final_cleaned.csv', index=False)

# Limpieza de servicios

### Vision general

In [33]:
df_servicios = pd.read_csv('data/df_servicios_V3.csv')

In [34]:
df_servicios.head()

Unnamed: 0,Category,Service,url
0,Baño,Secador de pelo,https://www.airbnb.es/rooms/126311759129279497...
1,Baño,Productos de limpieza,https://www.airbnb.es/rooms/126311759129279497...
2,Baño,Champú,https://www.airbnb.es/rooms/126311759129279497...
3,Baño,Gel de ducha,https://www.airbnb.es/rooms/126311759129279497...
4,Baño,Agua caliente,https://www.airbnb.es/rooms/126311759129279497...


In [35]:
df_servicios.shape

(90749, 3)

In [36]:
df_servicios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90749 entries, 0 to 90748
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Category  90749 non-null  object
 1   Service   90749 non-null  object
 2   url       90749 non-null  object
dtypes: object(3)
memory usage: 2.1+ MB


In [37]:
df_servicios.describe()

Unnamed: 0,Category,Service,url
count,90749,90749,90749
unique,15,1279,2669
top,Cocina y comedor,Wifi,https://www.airbnb.es/rooms/829229988526268828...
freq,21221,2416,80


In [38]:
df_servicios.columns

Index(['Category', 'Service', 'url'], dtype='object')

In [39]:
df_servicios.isna().sum()

Category    0
Service     0
url         0
dtype: int64

### Cambiamos todas las columnas a minuscula ###

In [40]:
df_servicios.columns = df_servicios.columns.str.lower()
df_servicios

Unnamed: 0,category,service,url
0,Baño,Secador de pelo,https://www.airbnb.es/rooms/126311759129279497...
1,Baño,Productos de limpieza,https://www.airbnb.es/rooms/126311759129279497...
2,Baño,Champú,https://www.airbnb.es/rooms/126311759129279497...
3,Baño,Gel de ducha,https://www.airbnb.es/rooms/126311759129279497...
4,Baño,Agua caliente,https://www.airbnb.es/rooms/126311759129279497...
...,...,...,...
90744,Servicios,Llegada autónoma,https://www.airbnb.es/rooms/14352069?adults=1&...
90745,Servicios,Caja de seguridad para llaves,https://www.airbnb.es/rooms/14352069?adults=1&...
90746,No incluidos,No disponible: Detector de monóxido de carbono...,https://www.airbnb.es/rooms/14352069?adults=1&...
90747,No incluidos,No disponible: ChampúChampú,https://www.airbnb.es/rooms/14352069?adults=1&...


### Eliminar posibles filas duplicadas ###

In [41]:
# Identificar filas duplicadas
duplicated_rows = df_servicios[df_servicios.duplicated(keep=False)]
duplicated_rows

Unnamed: 0,category,service,url
3,Baño,Gel de ducha,https://www.airbnb.es/rooms/126311759129279497...
5,Baño,Gel de ducha,https://www.airbnb.es/rooms/126311759129279497...
43,Baño,Gel de ducha,https://www.airbnb.es/rooms/127904085557632410...
45,Baño,Gel de ducha,https://www.airbnb.es/rooms/127904085557632410...
77,Baño,Gel de ducha,https://www.airbnb.es/rooms/913187918206344111...
...,...,...,...
90334,Baño,Gel de ducha,https://www.airbnb.es/rooms/1790446?adults=1&c...
90378,Baño,Gel de ducha,https://www.airbnb.es/rooms/923118867334043435...
90381,Baño,Gel de ducha,https://www.airbnb.es/rooms/923118867334043435...
90655,Baño,Gel de ducha,https://www.airbnb.es/rooms/52528580?adults=1&...


In [42]:
# Test para ver los datos duplicados de algunas filas
df_servicios['url'][15934]

'https://www.airbnb.es/rooms/1219487292461143358?adults=1&category_tag=Tag%3A8678&children=0&enable_m3_private_room=true&infants=0&pets=0&photo_id=1990210809&search_mode=regular_search&check_in=2024-11-17&check_out=2024-11-22&source_impression_id=p3_1731019452_P3UbTZj75L6PH9FG&previous_page_section_name=1000&federated_search_id=36eb50cd-e222-4e00-b93f-e4e4f82fb568'

In [43]:
# Limpiar duplicados (creamos una variable para no perder el original)
df_servicios_cleaned = df_servicios.drop_duplicates()
df_servicios_cleaned

Unnamed: 0,category,service,url
0,Baño,Secador de pelo,https://www.airbnb.es/rooms/126311759129279497...
1,Baño,Productos de limpieza,https://www.airbnb.es/rooms/126311759129279497...
2,Baño,Champú,https://www.airbnb.es/rooms/126311759129279497...
3,Baño,Gel de ducha,https://www.airbnb.es/rooms/126311759129279497...
4,Baño,Agua caliente,https://www.airbnb.es/rooms/126311759129279497...
...,...,...,...
90744,Servicios,Llegada autónoma,https://www.airbnb.es/rooms/14352069?adults=1&...
90745,Servicios,Caja de seguridad para llaves,https://www.airbnb.es/rooms/14352069?adults=1&...
90746,No incluidos,No disponible: Detector de monóxido de carbono...,https://www.airbnb.es/rooms/14352069?adults=1&...
90747,No incluidos,No disponible: ChampúChampú,https://www.airbnb.es/rooms/14352069?adults=1&...


In [44]:
df_servicios_cleaned.shape

(90041, 3)

### Limpiar formato de texto ###

In [45]:
# Ponemos los datos de forma que no haya espacios y en minuscula para facilitar manipulacion
# Sale un warning de copia, para evitarlo se usa .loc --> df_servicios_cleaned.loc[:,'Category'] = df_servicios_cleaned['Category'].str.strip().str.lower()

df_servicios_cleaned['category'] = df_servicios_cleaned['category'].str.strip().str.lower()
df_servicios_cleaned['service'] = df_servicios_cleaned['service'].str.strip().str.lower()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_servicios_cleaned['category'] = df_servicios_cleaned['category'].str.strip().str.lower()
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_servicios_cleaned['service'] = df_servicios_cleaned['service'].str.strip().str.lower()


In [46]:
df_servicios_cleaned.head()

Unnamed: 0,category,service,url
0,baño,secador de pelo,https://www.airbnb.es/rooms/126311759129279497...
1,baño,productos de limpieza,https://www.airbnb.es/rooms/126311759129279497...
2,baño,champú,https://www.airbnb.es/rooms/126311759129279497...
3,baño,gel de ducha,https://www.airbnb.es/rooms/126311759129279497...
4,baño,agua caliente,https://www.airbnb.es/rooms/126311759129279497...


### Ver distribucion de servicios y mayor depuracion

In [47]:
df_servicios_cleaned['category'].value_counts()

category
cocina y comedor                   21221
dormitorio y lavandería            14916
no incluidos                       10765
baño                                9436
servicios                           5104
calefacción y refrigeración         4526
privacidad y seguridad              4333
internet y oficina                  4084
aparcamiento e instalaciones        3309
entretenimiento                     2808
seguridad en el hogar               2689
para familias                       2533
exterior                            2362
características de la ubicación     1360
vistas panorámicas                   595
Name: count, dtype: int64

In [48]:
df_servicios_cleaned['category'].nunique()

15

In [49]:
df_servicios_cleaned['service'].value_counts()

service
wifi                                                                                                                                                                                           2416
agua caliente                                                                                                                                                                                  2238
cocinacocina disponible para el uso de los huéspedes                                                                                                                                           2214
secador de pelo                                                                                                                                                                                2058
perchas                                                                                                                                                                                        1923
            

In [50]:
df_servicios_cleaned['service'].nunique()

1256

In [51]:
# Crear un diccionario para almacenar los resultados de value_counts para cada categoría
category_service_counts = {}

# Iterar sobre cada categoría única
for category in df_servicios_cleaned['category'].unique():
    
    # Filtrar el DataFrame para la categoría actual y contar los servicios
    service_counts = df_servicios_cleaned[df_servicios_cleaned['category'] == category]['service'].value_counts()
    
    # Almacenar el resultado en el diccionario
    category_service_counts[category] = service_counts

# Ver resultados para una categoría, por ejemplo, "baño"
print(category_service_counts)


{'baño': service
agua caliente                                             2238
secador de pelo                                           2058
gel de ducha                                              1437
champú                                                    1290
productos de limpieza                                     1123
                                                          ... 
acondicionador de l’oréal                                    1
acondicionador de tresemmé con aceite coco & aloe vera       1
gel de ducha de micelar                                      1
champú de genérico                                           1
gel de ducha de gel auchan generic                           1
Name: count, Length: 131, dtype: int64, 'dormitorio y lavandería': service
perchas                                                                           1923
plancha                                                                           1812
servicios básicostoallas, sábanas, jabón 

In [52]:
cleaning_rules = {
    "baño": {
        "gel de ducha": "gel de ducha",
        "acondicionador": "acondicionador",
        "champú": "champú"
    },
    
    "dormitorio y lavandería": {
        "servicios básicostoallas" : "servicios básicos" ,
        "espacio para guardar la ropa" : "espacio para guardar la ropa",
        "ropa de cama" : "ropa de cama",
        "lavadora" : "lavadora",
        "secadora" : "secadora"
        
    },
    
    "entretenimiento" : {
        "televisión" : "tv",
        "equipo para hacer ejercicio" : "equipo para hacer ejercicio",
        "sistema de sonido" : "sistema de sonido",
        "habitación temática" : "habitación temática",
        "videoconsola" : "videoconsola"
    },

    "calefacción y refrigeración" : {
        "aire acondicionado" : "aire acondicionado",
        "calefacción" : "calefacción",
        "chimenea" : "chimenea",
        "ventilador" : "ventilador"
    },

    "privacidad y seguridad" : {
        #"no disponible" : "dropear" ****,
        "cámaras de seguridad" : "cámaras de seguridad",
        
    },

    "internet y oficina" : {
        "wifi" : "wifi",
        "zona para trabajar" : "zona para trabajar"
    },

    "cocina y comedor" : {
        "frigorífico" : "frigorífico",
        "platos y cubiertos" : "platos y cubiertos",
        "utensilios básicos" : "utensilios básicos",
        "cocina" : "cocina",
        "horno" : "horno",
        "cafetera" : "cafetera",
        "fogón" : "cocina",
        "utensilios de barbacoa" : "utensilios de barbacoa",
        "kitchenetteun" : "microondas"
        
    },

    "características de la ubicación" : {
        #"acceso a la playa" : "acceso a la playa" ****,
        "acceso compartido a la playa" : "acceso a la playa",
        "acceso al lago" : "no disponible",
        "pista de esquí" : "no disponible",
        "entrada independiente" : "entrada independiente",
        "acceso a la playa" : "acceso a la playa",
        "costajusto" : "al lado de una massa de agua",
        "complejo" : "no disponible",
        "resort" : "no disponible"
        
    },

    "aparcamiento e instalaciones" : {
        "ascensor" : "ascensor",
        "aparcamiento" : "aparcamiento",
        "gimnasio" : "gimnasio",
        "piscina" : "piscina",
        "jacuzzi" : "jacuzzi",
        "cargador para coches eléctricos" : "cargador para vehículos eléctricos",
        "cargador para vehículos eléctricos" : "cargador para vehículos eléctricos",
        "alojamiento de una alturaalojamiento sin escaleras" : "no disponible",
        "salón privado" : "no disponible"
    },

    "servicios" : {
        "servicio de limpieza" : "servicio de limpieza",
        "se permite dejar el equipaje" : "se permite dejar el equipaje",
        "desayuno" : "desayuno incluido",
        "personal en el edificio" : "personal en el edificio",
        "limpieza disponible durante la estancia" : "servicio de limpieza",
        "admite mascotas" : "admite mascotas",
        "cerradura con tecladoaccede" : "no disponible",
        "cerradura inteligente" : "no disponible"
    },

    # No incluidos --> hacer drop


    "para familias" : {
        "cuna" : "cuna",
        "trona" : "trona",
        "parque/cunas de viaje" : "parque/cunas de viaje",
        "bañera para bebés" : "bañera para bebés",
        "libros y juguetes" : "libros y juguetes", 
        "mesa para cambiar pañales" : "mesa para cambiar pañales",
        "sala de juegos infantil" : "libros y juguetes",
        "recomendaciones de canguros" : "no disponible",
        "parque infantil al aire libre" : "no disponible",
        "bicicletas para niños" : "no disponible",
        "monitor de bebés" : "no disponible"
    },

    "seguridad en el hogar" : {
        "humo" : "detector de humo",
        "cámaras de seguridad" : "cámaras de seguridad",
        "monitores de decibelios" : "monitores de decibelios",
        "detector de monóxido" : "detector de humo"
            
    },

    "exterior" : {
        "patio o balcón" : "patio o balcón",
        "patio trasero" : "patio",
        "barbacoa" : "barbacoa",
        "patio privado o balcón" : "patio o balcón",
        "Cocina exterior privada" : "no disponible",
        "kayak" : "no disponible",
        "cocina exterior" : "no disponible",
        "brasero exterior" : "no disponible",
        "atracadero" : "no disponible",
        "bicicletas" : "no disponible",
        "hamaca" : "no disponible",
        "tumbonas" : "no disponible",
        "elementos básicos para la playatoallas" : "no disponible"
    },

    "vistas panorámicas" : {
       "vistas a la playa" : "vistas al mar",
        "vistas al puerto" : "vistas al mar"
    }

}

def clean_service_by_category(value, category):
    if isinstance(value,str): # Aplicamos solo si es str

        if category in cleaning_rules: # Miramos si la categoria esta en el diccionario 
            for key, replacement in cleaning_rules[category].items(): # Terminos dentro de la categoria
                if key in value:
                    return replacement
        return value # Si no se encuentra nada, retorna el valor
    return np.nan # Si el value no es str, devolverá nan
           


In [53]:
# Miramos todas las categorias
category_service_counts.keys()

dict_keys(['baño', 'dormitorio y lavandería', 'entretenimiento', 'calefacción y refrigeración', 'seguridad en el hogar', 'internet y oficina', 'cocina y comedor', 'características de la ubicación', 'exterior', 'aparcamiento e instalaciones', 'servicios', 'no incluidos', 'privacidad y seguridad', 'para familias', 'vistas panorámicas'])

In [54]:
# Usar apply para aplicar funcion al df
# lambda toma como argumento una fila(row) donde pasara los valores de 'Service' y 'Category' y axis = 1 hace referencia a las filas.
df_servicios_cleaned['services'] = df_servicios_cleaned.apply(lambda row: clean_service_by_category(row['service'], row['category']), axis = 1) 

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_servicios_cleaned['services'] = df_servicios_cleaned.apply(lambda row: clean_service_by_category(row['service'], row['category']), axis = 1)


In [55]:
clean_category_service_counts = {}

for category in df_servicios_cleaned['category'].unique():
    
    # Filtrar el DataFrame para la categoría actual y contar los servicios
    clean_service_count = df_servicios_cleaned[df_servicios_cleaned['category'] == category]['services'].value_counts()

    # Agregar al diccionario el count
    clean_category_service_counts[category] = clean_service_count


In [56]:
clean_category_service_counts.keys()

dict_keys(['baño', 'dormitorio y lavandería', 'entretenimiento', 'calefacción y refrigeración', 'seguridad en el hogar', 'internet y oficina', 'cocina y comedor', 'características de la ubicación', 'exterior', 'aparcamiento e instalaciones', 'servicios', 'no incluidos', 'privacidad y seguridad', 'para familias', 'vistas panorámicas'])

### Eliminar filas que contengan no disponible

In [57]:
# Eliminar filas donde 'Clean Service' contiene 'no disponible'
df_servicios_cleaned = df_servicios_cleaned[~df_servicios_cleaned['services'].str.contains("no disponible", case=False, na=False)]

df_servicios_cleaned

Unnamed: 0,category,service,url,services
0,baño,secador de pelo,https://www.airbnb.es/rooms/126311759129279497...,secador de pelo
1,baño,productos de limpieza,https://www.airbnb.es/rooms/126311759129279497...,productos de limpieza
2,baño,champú,https://www.airbnb.es/rooms/126311759129279497...,champú
3,baño,gel de ducha,https://www.airbnb.es/rooms/126311759129279497...,gel de ducha
4,baño,agua caliente,https://www.airbnb.es/rooms/126311759129279497...,agua caliente
...,...,...,...,...
90741,aparcamiento e instalaciones,ascensorel alojamiento o edificio dispone de u...,https://www.airbnb.es/rooms/14352069?adults=1&...,ascensor
90742,aparcamiento e instalaciones,aparcamiento de pago fuera de las instalaciones,https://www.airbnb.es/rooms/14352069?adults=1&...,aparcamiento
90743,servicios,disponible para estancias largaspermite estanc...,https://www.airbnb.es/rooms/14352069?adults=1&...,disponible para estancias largaspermite estanc...
90744,servicios,llegada autónoma,https://www.airbnb.es/rooms/14352069?adults=1&...,llegada autónoma


In [58]:
df_servicios_cleaned = df_servicios_cleaned[df_servicios_cleaned['category'] != 'vistas panorámicas']

In [59]:
df_servicios_cleaned = df_servicios_cleaned.reset_index(drop = True)
df_servicios_cleaned

Unnamed: 0,category,service,url,services
0,baño,secador de pelo,https://www.airbnb.es/rooms/126311759129279497...,secador de pelo
1,baño,productos de limpieza,https://www.airbnb.es/rooms/126311759129279497...,productos de limpieza
2,baño,champú,https://www.airbnb.es/rooms/126311759129279497...,champú
3,baño,gel de ducha,https://www.airbnb.es/rooms/126311759129279497...,gel de ducha
4,baño,agua caliente,https://www.airbnb.es/rooms/126311759129279497...,agua caliente
...,...,...,...,...
75051,aparcamiento e instalaciones,ascensorel alojamiento o edificio dispone de u...,https://www.airbnb.es/rooms/14352069?adults=1&...,ascensor
75052,aparcamiento e instalaciones,aparcamiento de pago fuera de las instalaciones,https://www.airbnb.es/rooms/14352069?adults=1&...,aparcamiento
75053,servicios,disponible para estancias largaspermite estanc...,https://www.airbnb.es/rooms/14352069?adults=1&...,disponible para estancias largaspermite estanc...
75054,servicios,llegada autónoma,https://www.airbnb.es/rooms/14352069?adults=1&...,llegada autónoma
