## **Fase 2 - Transform**

*En esta fase del proceso ETL, nos centramos en transformar los datos extra√≠dos para adecuarlos para el an√°lisis posterior. La transformaci√≥n incluye la limpieza de datos, conversi√≥n de tipos de datos y creaci√≥n de nuevas columnas relevantes. Estas acciones permiten mejorar la calidad y la utilidad de los datos, facilitando un an√°lisis m√°s preciso y efectivo. La transformaci√≥n asegura que los datos est√©n en un formato coherente y listo para ser utilizado y analizado con gr√°ficos de visualizaci√≥n para entender c√≥mo se correlacionan las columnas y poder identificar patrones en los datos.*.

In [1]:
# ‚Å†General
import numpy as np
import pandas as pd
from datetime import datetime

# Data Visualization
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import folium

In [2]:
df = pd.read_csv('df_sample_V2.csv')

In [3]:
df.head()

Unnamed: 0,urls,timestamp,record_id,Titles,Host_name,Property_types,Prices_per_night,Check_ins,Check_outs,Cleaning_fees,Location,Ratings,Num_reviews,Viajeros,Dormitorios,Camas,Ba√±os,Maximum_guests,Otros
0,https://www.airbnb.es/rooms/961287943216806993...,2024-10-29 21:15:36,961287943216806993,Descubre nuestra habitaci√≥n doble en el coraz√≥...,Anfitri√≥n: Green House,"Habitaci√≥n en hotel en Barcelona, Espa√±a",74¬†‚Ç¨,Llegada a partir de las 15:00,Salida antes de las 11:00,,,448,201.0,2 viajeros,1 dormitorio,2 camas,"1,5 ba√±os",2,
1,https://www.airbnb.es/rooms/126009435831365996...,2024-10-29 21:15:36,1260094358313659968,"Me encanta viajar, compartir y conocer lugares...",Anfitri√≥n: Diana Maria,"Alojamiento entero: loft en Barcelona, Espa√±a",73¬†‚Ç¨,Horario de llegada: de 15:00 a 22:00,Salida antes de las 11:00,28¬†‚Ç¨,"Barcelona, Catalunya, Espa√±a",Nuevo,,3 viajeros,1 dormitorio,2 camas,1 ba√±o,3,
2,https://www.airbnb.es/rooms/121029592864834425...,2024-10-29 21:15:36,1210295928648344258,Cancelaci√≥n gratuita antes del 3 nov. Si cance...,Anfitri√≥n: Vero,"Habitaci√≥n en Barcelona, Espa√±a",36¬†‚Ç¨,Horario de llegada: de 15:00 a 20:00,Salida antes de las 12:00,31¬†‚Ç¨,"Barcelona, Catalunya, Espa√±a",Nuevo,,,,1 cama,Ba√±o compartido,1,
3,https://www.airbnb.es/rooms/119269213083576009...,2024-10-29 21:15:36,1192692130835760091,Disfruta de la privacidad de este alojamiento...,Anfitri√≥n: Ele,"Habitaci√≥n privada en: loft en Barcelona, Espa√±a",58¬†‚Ç¨,Horario de llegada: de 14:00 a 21:00,Salida antes de las 12:00,20¬†‚Ç¨,"Barcelona, Catalunya, Espa√±a",50,4.0,1 viajero,1 dormitorio,2 camas,1 ba√±o privado,1,
4,https://www.airbnb.es/rooms/120282846099520215...,2024-10-29 21:15:36,1202828460995202150,"Situado en pleno Barrio G√≥tico, en el coraz√≥n ...",Anfitri√≥n: Cristian,"Alojamiento entero: apartamento en Barcelona, ...",80¬†‚Ç¨,Llegada a partir de las 15:00,Salida antes de las 11:00,45¬†‚Ç¨,"Barcelona, Catalunya, Espa√±a",475,4.0,4 viajeros,2 dormitorios,2 camas,1 ba√±o,4,


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 19 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   urls              50 non-null     object 
 1   timestamp         50 non-null     object 
 2   record_id         50 non-null     int64  
 3   Titles            50 non-null     object 
 4   Host_name         50 non-null     object 
 5   Property_types    50 non-null     object 
 6   Prices_per_night  46 non-null     object 
 7   Check_ins         50 non-null     object 
 8   Check_outs        50 non-null     object 
 9   Cleaning_fees     40 non-null     object 
 10  Location          37 non-null     object 
 11  Ratings           50 non-null     object 
 12  Num_reviews       23 non-null     float64
 13  Viajeros          29 non-null     object 
 14  Dormitorios       30 non-null     object 
 15  Camas             49 non-null     object 
 16  Ba√±os             49 non-null     object 
 17

In [5]:
df.describe()

Unnamed: 0,record_id,Num_reviews,Maximum_guests
count,50.0,23.0,50.0
mean,8.913549e+17,265.956522,2.52
std,4.993904e+17,603.807576,1.515094
min,979073.0,3.0,1.0
25%,6.880769e+17,4.0,1.25
50%,1.165094e+18,27.0,2.0
75%,1.230737e+18,201.0,3.75
max,1.268819e+18,2752.0,8.0


In [6]:
df.columns

Index(['urls', 'timestamp', 'record_id', 'Titles', 'Host_name',
       'Property_types', 'Prices_per_night', 'Check_ins', 'Check_outs',
       'Cleaning_fees', 'Location', 'Ratings', 'Num_reviews', 'Viajeros',
       'Dormitorios', 'Camas', 'Ba√±os', 'Maximum_guests', 'Otros'],
      dtype='object')

In [7]:
df.isna().sum()

urls                 0
timestamp            0
record_id            0
Titles               0
Host_name            0
Property_types       0
Prices_per_night     4
Check_ins            0
Check_outs           0
Cleaning_fees       10
Location            13
Ratings              0
Num_reviews         27
Viajeros            21
Dormitorios         20
Camas                1
Ba√±os                1
Maximum_guests       0
Otros               49
dtype: int64

In [8]:
### Drop de columnas repetidas
df = df.drop('Viajeros', axis = 1 )
df = df.drop('Otros', axis = 1 )

### Host_name

In [30]:
df['Host_name'].unique()

array(['Anfitri√≥n: Green House', 'Anfitri√≥n: Diana Maria',
       'Anfitri√≥n: Vero', 'Anfitri√≥n: Ele', 'Anfitri√≥n: Cristian',
       'Qu√©date con Marina', 'Qu√©date con Guido', 'Anfitri√≥n: Carmen',
       'Anfitri√≥n: Kristina', 'Anfitri√≥n: Unite Hostel',
       'Anfitri√≥n: Raffaele', 'Anfitri√≥n: Ashley', 'Anfitri√≥n: Valerie',
       'Anfitri√≥n: David Nicolas', 'Anfitri√≥n: Kiko',
       'Anfitri√≥n: Lorenzo And  Cristina',
       'Qu√©date con Jesus Maximiliano', 'Qu√©date con Magdalena',
       'Anfitri√≥n: Gia', 'Qu√©date con Jose David', 'Anfitri√≥n: Georgina',
       'Anfitri√≥n: Roberto', 'Anfitri√≥n: Som Nit Triomf',
       'Anfitri√≥n: Angeles', 'Qu√©date con Kristina',
       'Anfitri√≥n: Fontanella', 'Anfitri√≥n: Fernando', 'Anfitri√≥n: Vivi',
       'Anfitri√≥n: Natalia', 'Anfitri√≥n: Joseph', 'Qu√©date con Andrea',
       'Qu√©date con Bienvenida', 'Qu√©date con Emmanuela Agbebi',
       'Qu√©date con Fabio', 'Qu√©date con Juan Carlos',
       'Qu√©date con Alej

In [31]:
# Extraer solo el nombre del anfitri√≥n, removendo "Anfitri√≥n: " y cualquier outro prefixo
df['Host_name'] = df['Host_name'].str.replace('Anfitri√≥n: ', '', regex=False).str.replace('Qu√©date con ', '', regex=False)

### Property_Types

In [9]:
# Definir una funcion para formatear y limpiar la columna Propoerty_Types
def category_types(value):
    if "Alojamiento entero" in value:
        return "Alojamiento entero"
    elif "Habitaci√≥n" in value:
        return "Habitaci√≥n"
    else:
        return "otro"

In [10]:
df["Property_types"] = df["Property_types"].apply(category_types)


In [11]:
df.head()

Unnamed: 0,urls,timestamp,record_id,Titles,Host_name,Property_types,Prices_per_night,Check_ins,Check_outs,Cleaning_fees,Location,Ratings,Num_reviews,Dormitorios,Camas,Ba√±os,Maximum_guests
0,https://www.airbnb.es/rooms/961287943216806993...,2024-10-29 21:15:36,961287943216806993,Descubre nuestra habitaci√≥n doble en el coraz√≥...,Anfitri√≥n: Green House,Habitaci√≥n,74¬†‚Ç¨,Llegada a partir de las 15:00,Salida antes de las 11:00,,,448,201.0,1 dormitorio,2 camas,"1,5 ba√±os",2
1,https://www.airbnb.es/rooms/126009435831365996...,2024-10-29 21:15:36,1260094358313659968,"Me encanta viajar, compartir y conocer lugares...",Anfitri√≥n: Diana Maria,Alojamiento entero,73¬†‚Ç¨,Horario de llegada: de 15:00 a 22:00,Salida antes de las 11:00,28¬†‚Ç¨,"Barcelona, Catalunya, Espa√±a",Nuevo,,1 dormitorio,2 camas,1 ba√±o,3
2,https://www.airbnb.es/rooms/121029592864834425...,2024-10-29 21:15:36,1210295928648344258,Cancelaci√≥n gratuita antes del 3 nov. Si cance...,Anfitri√≥n: Vero,Habitaci√≥n,36¬†‚Ç¨,Horario de llegada: de 15:00 a 20:00,Salida antes de las 12:00,31¬†‚Ç¨,"Barcelona, Catalunya, Espa√±a",Nuevo,,,1 cama,Ba√±o compartido,1
3,https://www.airbnb.es/rooms/119269213083576009...,2024-10-29 21:15:36,1192692130835760091,Disfruta de la privacidad de este alojamiento...,Anfitri√≥n: Ele,Habitaci√≥n,58¬†‚Ç¨,Horario de llegada: de 14:00 a 21:00,Salida antes de las 12:00,20¬†‚Ç¨,"Barcelona, Catalunya, Espa√±a",50,4.0,1 dormitorio,2 camas,1 ba√±o privado,1
4,https://www.airbnb.es/rooms/120282846099520215...,2024-10-29 21:15:36,1202828460995202150,"Situado en pleno Barrio G√≥tico, en el coraz√≥n ...",Anfitri√≥n: Cristian,Alojamiento entero,80¬†‚Ç¨,Llegada a partir de las 15:00,Salida antes de las 11:00,45¬†‚Ç¨,"Barcelona, Catalunya, Espa√±a",475,4.0,2 dormitorios,2 camas,1 ba√±o,4


### Prices

In [12]:
# Remover el s√≠mbolo del euro y convertir a valores num√©ricos, sustituyendo valores no v√°lidos por 0
df['Prices_per_night'] = pd.to_numeric(df['Prices_per_night'].str.replace('‚Ç¨', '').str.strip(), errors='coerce')
df['Prices_per_night'] = df['Prices_per_night'].fillna(0).astype(int)


### Cleaning Fee

In [13]:
df['Cleaning_fees'] = pd.to_numeric(df['Cleaning_fees'].str.replace('‚Ç¨', '').str.strip(), errors='coerce').fillna(0)
df['Cleaning_fees'] = df['Cleaning_fees'].astype(int)

In [14]:
df.head()

Unnamed: 0,urls,timestamp,record_id,Titles,Host_name,Property_types,Prices_per_night,Check_ins,Check_outs,Cleaning_fees,Location,Ratings,Num_reviews,Dormitorios,Camas,Ba√±os,Maximum_guests
0,https://www.airbnb.es/rooms/961287943216806993...,2024-10-29 21:15:36,961287943216806993,Descubre nuestra habitaci√≥n doble en el coraz√≥...,Anfitri√≥n: Green House,Habitaci√≥n,74,Llegada a partir de las 15:00,Salida antes de las 11:00,0,,448,201.0,1 dormitorio,2 camas,"1,5 ba√±os",2
1,https://www.airbnb.es/rooms/126009435831365996...,2024-10-29 21:15:36,1260094358313659968,"Me encanta viajar, compartir y conocer lugares...",Anfitri√≥n: Diana Maria,Alojamiento entero,73,Horario de llegada: de 15:00 a 22:00,Salida antes de las 11:00,28,"Barcelona, Catalunya, Espa√±a",Nuevo,,1 dormitorio,2 camas,1 ba√±o,3
2,https://www.airbnb.es/rooms/121029592864834425...,2024-10-29 21:15:36,1210295928648344258,Cancelaci√≥n gratuita antes del 3 nov. Si cance...,Anfitri√≥n: Vero,Habitaci√≥n,36,Horario de llegada: de 15:00 a 20:00,Salida antes de las 12:00,31,"Barcelona, Catalunya, Espa√±a",Nuevo,,,1 cama,Ba√±o compartido,1
3,https://www.airbnb.es/rooms/119269213083576009...,2024-10-29 21:15:36,1192692130835760091,Disfruta de la privacidad de este alojamiento...,Anfitri√≥n: Ele,Habitaci√≥n,58,Horario de llegada: de 14:00 a 21:00,Salida antes de las 12:00,20,"Barcelona, Catalunya, Espa√±a",50,4.0,1 dormitorio,2 camas,1 ba√±o privado,1
4,https://www.airbnb.es/rooms/120282846099520215...,2024-10-29 21:15:36,1202828460995202150,"Situado en pleno Barrio G√≥tico, en el coraz√≥n ...",Anfitri√≥n: Cristian,Alojamiento entero,80,Llegada a partir de las 15:00,Salida antes de las 11:00,45,"Barcelona, Catalunya, Espa√±a",475,4.0,2 dormitorios,2 camas,1 ba√±o,4


In [15]:
df['Titles'].unique() # Se tiene que modificar - hay localizaciones con otros caminos - cambiar codigo en el ETL 1 - Fase 1

array(['Descubre nuestra habitaci√≥n doble en el coraz√≥n del emblem√°tico barrio del Eixample de Barcelona. Dise√±ada para mayor comodidad y conveniencia, esta espaciosa habitaci√≥n cuenta con dos camas separadas, lo que garantiza la privacidad de cada hu√©sped. Los servicios modernos incluyen TV inteligente, mininevera y caja fuerte para proteger tus objetos de valor. Del√©itate con el lujo de un ba√±o privado equipado con accesorios de primera calidad. Nuestra ubicaci√≥n privilegiada est√° a solo 15 minutos a pie de la majestuosa Sagrada Familia y a solo 5 minutos a pie de la Estaci√≥n del Norte.El espacioLa habitaci√≥n tiene 3 camas individuales, ba√±o privado, TV inteligente, mininevera y una caja fuerte. Se proporcionan las toallas y los aseos, as√≠ como las s√°banas. La habitaci√≥n tiene una ventana interior, que no se puede abrir.Servicios y zonas comunesLa recepci√≥n del hotel est√° abierta de 07:00 a 23:00. Los hu√©spedes podr√°n disfrutar en nuestro vest√≠bulo. Para acceder 

### Ratings

In [16]:
# Sustituir valores "Nuevo" y "Sin evaluaciones" por 0
df['Ratings'] = df['Ratings'].replace({'Nuevo': '0', 'Sin evaluaciones': '0'})

# Eliminar comas y convertir a num√©rico
df['Ratings'] = pd.to_numeric(df['Ratings'].str.replace(',', '.'), errors='coerce').fillna(0)
df['Ratings']


0     4.48
1     0.00
2     0.00
3     5.00
4     4.75
5     5.00
6     4.75
7     0.00
8     0.00
9     4.47
10    5.00
11    0.00
12    4.74
13    5.00
14    0.00
15    0.00
16    0.00
17    4.91
18    4.93
19    5.00
20    4.67
21    4.75
22    0.00
23    4.51
24    4.60
25    4.49
26    4.91
27    0.00
28    0.00
29    4.69
30    4.48
31    4.66
32    4.91
33    5.00
34    4.54
35    4.83
36    4.94
37    4.94
38    0.00
39    4.89
40    0.00
41    4.76
42    0.00
43    0.00
44    0.00
45    0.00
46    5.00
47    4.91
48    4.74
49    3.79
Name: Ratings, dtype: float64

### Number of Reviews

In [17]:
# Convertir a num√©rico y reemplazar errores con 0
df['Num_reviews'] = pd.to_numeric(df['Num_reviews'], errors='coerce').fillna(0)

# Convertir a entero
df['Num_reviews'] = df['Num_reviews'].astype(int)

### Dormitorios

In [18]:
df['Dormitorios'].unique()

array(['1 dormitorio', nan, '2 dormitorios', '4 dormitorios',
       '3 dormitorios'], dtype=object)

In [21]:
# Extraer solo el n√∫mero de dormitorios
df['Dormitorios'] = df['Dormitorios'].str.extract('(\d+)')[0]

# Convertir a num√©rico y reemplazar NaN por 0
df['Dormitorios'] = pd.to_numeric(df['Dormitorios'], errors='coerce').fillna(0).astype(int)


  df['Dormitorios'] = df['Dormitorios'].str.extract('(\d+)')[0]


### Camas

In [19]:
df['Camas'].unique()

array(['2 camas', '1 cama', '1 cama individual', '3 camas', '4 camas',
       '1 cama de matrimonio', nan, '2 camas individuales'], dtype=object)

In [23]:
# Extraer solo el n√∫mero de camas
df['Camas'] = df['Camas'].str.extract('(\d+)')[0]

# Convertir a num√©rico y reemplazar NaN por 0
df['Camas'] = pd.to_numeric(df['Camas'], errors='coerce').fillna(0).astype(int)



  df['Camas'] = df['Camas'].str.extract('(\d+)')[0]


### Ba√±os

In [25]:
df['Ba√±os'].unique()

array(['1,5 ba√±os', '1 ba√±o', 'Ba√±o compartido', '1 ba√±o privado',
       '2 ba√±os', 'Ba√±o privado en el alojamiento', nan], dtype=object)

In [26]:
# Reemplazar "Ba√±o compartido" por 0.5 y "Ba√±o privado" por 1
df['Ba√±os'] = df['Ba√±os'].replace({'Ba√±o compartido': 0.5, 'Ba√±o privado': 1})

# Extraer n√∫meros y reemplazar NaN por 0
df['Ba√±os'] = df['Ba√±os'].str.extract('(\d+[.,]?\d*)')[0]

# Convertir a num√©rico y reemplazar NaN por 0
df['Ba√±os'] = pd.to_numeric(df['Ba√±os'].str.replace(',', '.'), errors='coerce').fillna(0)

  df['Ba√±os'] = df['Ba√±os'].str.extract('(\d+[.,]?\d*)')[0]


In [33]:
df.head()

Unnamed: 0,urls,timestamp,record_id,Titles,Host_name,Property_types,Prices_per_night,Check_ins,Check_outs,Cleaning_fees,Location,Ratings,Num_reviews,Dormitorios,Camas,Ba√±os,Maximum_guests
0,https://www.airbnb.es/rooms/961287943216806993...,2024-10-29 21:15:36,961287943216806993,Descubre nuestra habitaci√≥n doble en el coraz√≥...,Green House,Habitaci√≥n,74,Llegada a partir de las 15:00,Salida antes de las 11:00,0,,4.48,201,1,2,1.5,2
1,https://www.airbnb.es/rooms/126009435831365996...,2024-10-29 21:15:36,1260094358313659968,"Me encanta viajar, compartir y conocer lugares...",Diana Maria,Alojamiento entero,73,Horario de llegada: de 15:00 a 22:00,Salida antes de las 11:00,28,"Barcelona, Catalunya, Espa√±a",0.0,0,1,2,1.0,3
2,https://www.airbnb.es/rooms/121029592864834425...,2024-10-29 21:15:36,1210295928648344258,Cancelaci√≥n gratuita antes del 3 nov. Si cance...,Vero,Habitaci√≥n,36,Horario de llegada: de 15:00 a 20:00,Salida antes de las 12:00,31,"Barcelona, Catalunya, Espa√±a",0.0,0,0,1,0.0,1
3,https://www.airbnb.es/rooms/119269213083576009...,2024-10-29 21:15:36,1192692130835760091,Disfruta de la privacidad de este alojamiento...,Ele,Habitaci√≥n,58,Horario de llegada: de 14:00 a 21:00,Salida antes de las 12:00,20,"Barcelona, Catalunya, Espa√±a",5.0,4,1,2,1.0,1
4,https://www.airbnb.es/rooms/120282846099520215...,2024-10-29 21:15:36,1202828460995202150,"Situado en pleno Barrio G√≥tico, en el coraz√≥n ...",Cristian,Alojamiento entero,80,Llegada a partir de las 15:00,Salida antes de las 11:00,45,"Barcelona, Catalunya, Espa√±a",4.75,4,2,2,1.0,4


In [34]:
# Filtrar columnas que no son necesarias para el EDA
df_filtered = df.drop(columns=['urls', 'timestamp', 'record_id'])

In [35]:
df_filtered.to_csv('df_clean.csv', index=False)

In [36]:
df_clean = pd.read_csv('df_clean.csv')

In [37]:
df_clean.head()

Unnamed: 0,Titles,Host_name,Property_types,Prices_per_night,Check_ins,Check_outs,Cleaning_fees,Location,Ratings,Num_reviews,Dormitorios,Camas,Ba√±os,Maximum_guests
0,Descubre nuestra habitaci√≥n doble en el coraz√≥...,Green House,Habitaci√≥n,74,Llegada a partir de las 15:00,Salida antes de las 11:00,0,,4.48,201,1,2,1.5,2
1,"Me encanta viajar, compartir y conocer lugares...",Diana Maria,Alojamiento entero,73,Horario de llegada: de 15:00 a 22:00,Salida antes de las 11:00,28,"Barcelona, Catalunya, Espa√±a",0.0,0,1,2,1.0,3
2,Cancelaci√≥n gratuita antes del 3 nov. Si cance...,Vero,Habitaci√≥n,36,Horario de llegada: de 15:00 a 20:00,Salida antes de las 12:00,31,"Barcelona, Catalunya, Espa√±a",0.0,0,0,1,0.0,1
3,Disfruta de la privacidad de este alojamiento...,Ele,Habitaci√≥n,58,Horario de llegada: de 14:00 a 21:00,Salida antes de las 12:00,20,"Barcelona, Catalunya, Espa√±a",5.0,4,1,2,1.0,1
4,"Situado en pleno Barrio G√≥tico, en el coraz√≥n ...",Cristian,Alojamiento entero,80,Llegada a partir de las 15:00,Salida antes de las 11:00,45,"Barcelona, Catalunya, Espa√±a",4.75,4,2,2,1.0,4
