In [1]:
import pandas as pd
import numpy as np

# Cargar el DataFrame desde el CSV
df = pd.read_csv('airbnb_gijonoviedo.csv')


In [4]:
# Rellenar ID vacío
df['ID'].fillna('sin_id', inplace=True)

# 1. Crear las columnas `Tipo de habitación` y `Título`
df['Tipo de habitación'] = df['Tipo de habitación'].str.split().str[0]
df['Título'] = df['Tipo de habitación'].str.split(':| en ', n=1).str[0]
df['Título'] = df['Título'].str.strip()


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['ID'].fillna('sin_id', inplace=True)


In [5]:
# 2. Transformar "No disponible" en nulos y eliminar el símbolo `€` en las columnas de precios
precios = ['Precio por noche Octubre', 'Precio por noche Agosto']
for columna in precios:
    if columna in df.columns:
        # Reemplazar "No disponible" y otras cadenas no numéricas por np.nan
        df[columna] = df[columna].replace(["No disponible", "No disponible en Octubre", "No disponible en Agosto"], np.nan)
        # Eliminar el símbolo € y otros caracteres no numéricos
        df[columna] = df[columna].replace(r'[^0-9]', '', regex=True).astype(float)

# 3. Transformar "sin valoraciones" y otros valores no numéricos en nulos en la columna de valoración
valores_no_numericos = ["Sin valoraciones", "Nuevo", "Sin evaluaciones"]
df['Valoración'] = df['Valoración'].replace(valores_no_numericos, np.nan)

# Asegurarse de que la columna es de tipo string antes de reemplazar comas
df['Valoración'] = df['Valoración'].astype(str)
df['Valoración'] = df['Valoración'].str.replace(',', '.').astype(float)



In [6]:
# 4. Dejar solo el número o los nulos en las columnas especificadas

#Definimos la funcion
def solo_numero(x):
    try:
        return int(x.split()[0])
    except (ValueError, AttributeError):
        return np.nan


df["Camas"]= df["Camas"].apply(solo_numero).astype('Int64')
df["Viajeros máximos"]= df["Viajeros máximos"].apply(solo_numero).astype('Int64')
df["Dormitorios"]= df["Dormitorios"].apply(solo_numero).astype('Int64')
df["Numero valoraciones"]= df["Numero valoraciones"].apply(solo_numero).astype('Int64')

def solo_numero_baño(x):
    try:
        return int(x.split()[0])
    except (ValueError, AttributeError):
        return 1
df["Baños"]= df["Baños"].apply(solo_numero_baño).astype('Int64')


In [7]:
df['Tipología'] = df['Tipo de habitación'].str.split().str[:1]
df["Tipología"]= df["Tipología"].astype(str).apply(lambda x: x.replace("['","").replace("']","").strip())

df['Precio Medio'] = df[['Precio por noche Agosto', 'Precio por noche Octubre']].mean(axis=1)
df['ID']= df['ID'].astype(str).str.zfill(18)

df = df.drop(df.filter(regex='Unnamed'), axis=1)

In [2]:
# Cargar el DataFrame desde el CSV
df = pd.read_csv('AsturiasDF_limpio_con_coordenadas.csv')

In [4]:
#Movemos las columnas para mejor visualización

df = df[['ID', 'Tipo de habitación', 'Título', 'Tipología', 'Ciudad', 'Localización', 'Precio por noche Agosto', 'Precio por noche Octubre', 'Precio Medio', 'Valoración', 'Numero valoraciones', 'Dormitorios', 'Baños', 'Camas', 'Viajeros máximos']]

In [6]:
# Guardar el DataFrame limpio en un nuevo CSV

df.to_csv('AsturiasDF_limpio_con_coordenadas.csv', index=False)

In [5]:
df.head(20)

Unnamed: 0,ID,Tipo de habitación,Título,Tipología,Ciudad,Localización,Precio por noche Agosto,Precio por noche Octubre,Precio Medio,Valoración,Numero valoraciones,Dormitorios,Baños,Camas,Viajeros máximos
0,970291990719745713,Alojamiento,Alojamiento,Alojamiento,Asturias,,,113.0,113.0,,,3.0,2,4.0,8.0
1,942548062721774719,Alojamiento,Alojamiento,Alojamiento,Asturias,,,82.0,82.0,,,2.0,5,2.0,4.0
2,870314109572136088,Alojamiento,Alojamiento,Alojamiento,Asturias,"43.5402,-5.6488",,,,,1.0,2.0,1,4.0,4.0
3,2612535,Alojamiento,Alojamiento,Alojamiento,Asturias,"43.54218,-5.66823",,75.0,75.0,4.27,81.0,3.0,1,3.0,4.0
4,1068269463661698747,Alojamiento,Alojamiento,Alojamiento,Asturias,"43.568892,-5.72747",,75.0,75.0,,2.0,1.0,1,,4.0
5,638312618652319673,Alojamiento,Alojamiento,Alojamiento,Asturias,"43.481,-5.4375",,90.0,90.0,,,2.0,2,3.0,4.0
6,1093357909504048158,Alojamiento,Alojamiento,Alojamiento,Asturias,"43.3684,-5.8461",108.0,71.0,89.5,,1.0,1.0,1,1.0,4.0
7,31712154,Alojamiento,Alojamiento,Alojamiento,Asturias,"43.53281,-5.6672",175.0,,175.0,4.64,76.0,2.0,1,1.0,4.0
8,42293440,Alojamiento,Alojamiento,Alojamiento,Asturias,"43.25713,-5.86473",,110.0,110.0,,,2.0,5,3.0,4.0
9,990475883858846733,Habitación,Habitación,Habitación,Asturias,"43.530766,-5.659302",,43.0,43.0,4.6,10.0,1.0,1,2.0,


In [123]:
# Guardar el DataFrame limpio en un nuevo CSV
df.to_csv('AsturiasDF_limpio.csv', index=False)