# Data processing

In [1]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

from pathlib import Path

In [2]:
# Load the data

DATA_DIR = Path("..") / "data"
FIG_DIR = Path("..") / "figures"

airbnb_data = pd.read_csv(DATA_DIR / "airbnb_data_raw.csv")

In [3]:
airbnb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 756 entries, 0 to 755
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             756 non-null    object 
 1   Type             756 non-null    object 
 2   Price per night  753 non-null    float64
 3   Host             756 non-null    object 
 4   Rating           690 non-null    object 
 5   Reviews          609 non-null    float64
 6   City             756 non-null    object 
dtypes: float64(2), object(5)
memory usage: 41.5+ KB


In [4]:
airbnb_data.head()

Unnamed: 0,Name,Type,Price per night,Host,Rating,Reviews,City
0,Alpenblick,"Alojamiento entero: piso en Diemtigen, Suiza",113.0,Anfitrión: Marianne,497.0,67.0,Bern
1,Sala de estar en Berna,"Habitación en Bern, Suiza",36.0,Quédate con Arwen,50.0,6.0,Bern
2,Escapada al campo,"Habitación en Utzenstorf, Suiza",31.0,Quédate con Franziska,,,Bern
3,Habitación individual privada en Berna,"Habitación en Bern, Suiza",45.0,Anfitrión: Weng Ian,,,Bern
4,Casa céntrica en Zollikofen,"Alojamiento entero: vivienda en Zollikofen, Suiza",200.0,Anfitrión: Michael & Selina,50.0,7.0,Bern


In [5]:
# Define a function to format the category column


def category(value):
    if "Alojamiento entero" in value:
        return "Alojamiento entero"
    elif "Habitación" in value:
        return "Habitación"
    else:
        return "otro"

In [6]:
# Creamos la columna Country en funcion a "Type"
airbnb_data["Country"] = airbnb_data["Type"].str.split(",").str[-1].str.strip()

# agregar columna "categoria" en funcion a Type
airbnb_data["Type"] = airbnb_data["Type"].apply(category)
airbnb_data.rename(columns={"Type": "Category"}, inplace=True)

In [7]:
airbnb_data.head(10)

Unnamed: 0,Name,Category,Price per night,Host,Rating,Reviews,City,Country
0,Alpenblick,Alojamiento entero,113.0,Anfitrión: Marianne,497.0,67.0,Bern,Suiza
1,Sala de estar en Berna,Habitación,36.0,Quédate con Arwen,50.0,6.0,Bern,Suiza
2,Escapada al campo,Habitación,31.0,Quédate con Franziska,,,Bern,Suiza
3,Habitación individual privada en Berna,Habitación,45.0,Anfitrión: Weng Ian,,,Bern,Suiza
4,Casa céntrica en Zollikofen,Alojamiento entero,200.0,Anfitrión: Michael & Selina,50.0,7.0,Bern,Suiza
5,Artista en The Green Park,Alojamiento entero,102.0,Anfitrión: Cristhian,468.0,95.0,Bern,Suiza
6,Apartamento especial en una ubicación exclusiva,Alojamiento entero,98.0,Anfitrión: Ursula,498.0,446.0,Bern,Suiza
7,Acogedor apartamento con patio privado en el c...,Alojamiento entero,82.0,Anfitrión: Lena,490.0,147.0,Bern,Suiza
8,Como si estuvieras en casa,Habitación,42.0,Quédate con Aline Karina,,,Bern,Suiza
9,Apartamento espacioso y silencioso en el centr...,Alojamiento entero,108.0,Anfitrión: Jessica,,,Bern,Suiza


In [8]:
# Limpiamos los nombres de "Host"
airbnb_data["Host"] = (
    airbnb_data["Host"].str.replace("Anfitrión:", "").str.replace("Quédate con ", "")
)

# reemplazamos las comas por puntos en Rating
airbnb_data["Rating"] = airbnb_data["Rating"].str.replace(",", ".").astype(float)

# asignamos 0 a los casos que no tienen ni Rating ni Reviews.
airbnb_data["Rating"] = airbnb_data["Rating"].fillna(0).astype(float)
airbnb_data["Reviews"] = airbnb_data["Reviews"].fillna(0)


# .capitalize() para la columna City
airbnb_data["City"] = airbnb_data["City"].str.capitalize()

In [9]:
airbnb_data.columns = airbnb_data.columns.str.lower().str.replace(" ", "_")
airbnb_data.dropna(inplace=True)

In [10]:
airbnb_data.head(10)

Unnamed: 0,name,category,price_per_night,host,rating,reviews,city,country
0,Alpenblick,Alojamiento entero,113.0,Marianne,4.97,67.0,Bern,Suiza
1,Sala de estar en Berna,Habitación,36.0,Arwen,5.0,6.0,Bern,Suiza
2,Escapada al campo,Habitación,31.0,Franziska,0.0,0.0,Bern,Suiza
3,Habitación individual privada en Berna,Habitación,45.0,Weng Ian,0.0,0.0,Bern,Suiza
4,Casa céntrica en Zollikofen,Alojamiento entero,200.0,Michael & Selina,5.0,7.0,Bern,Suiza
5,Artista en The Green Park,Alojamiento entero,102.0,Cristhian,4.68,95.0,Bern,Suiza
6,Apartamento especial en una ubicación exclusiva,Alojamiento entero,98.0,Ursula,4.98,446.0,Bern,Suiza
7,Acogedor apartamento con patio privado en el c...,Alojamiento entero,82.0,Lena,4.9,147.0,Bern,Suiza
8,Como si estuvieras en casa,Habitación,42.0,Aline Karina,0.0,0.0,Bern,Suiza
9,Apartamento espacioso y silencioso en el centr...,Alojamiento entero,108.0,Jessica,0.0,0.0,Bern,Suiza


In [11]:
# Guardamos en un nuevo csv
airbnb_data.to_csv(DATA_DIR / "airbnb_processed.csv", sep=";", index=False)