# PROYECTO DE LIMPIEZA DE DATOS PARA EL DATASET DE AIRBNB

## 1 Importación de librerías

In [1]:
import pandas as pd
import numpy as np
import re

## 2 Importación y visualización del dataset

#### 2.1) Importar dataset

In [2]:
# Aquí presento una forma no convencional de importar archivos CSV:

#airbnb = pd.read_csv(filepath_or_buffer= "/ArchivosLeider/ECONOMÍA/ANÁLISIS DE DATOS+/PYTHON/proyectos/archive arbnb/calendar_airnb.csv")
#airbnb

In [35]:
# Forma más óptima de llamar a los datos.

airbnb = pd.read_csv(r'calendar_airnb.csv', sep=',')
airbnb

Unnamed: 0,listing_id,date,available,price,adjusted_price,minimum_nights,maximum_nights
0,2992450,2024-09-05,f,$70.00,,28,1125
1,2992450,2024-09-06,f,$70.00,,28,1125
2,2992450,2024-09-07,f,$70.00,,28,1125
3,2992450,2024-09-08,f,$70.00,,28,1125
4,2992450,2024-09-09,f,$70.00,,28,1125
...,...,...,...,...,...,...,...
155485,1237963668912797614,2025-08-31,t,$120.00,,2,365
155486,1237963668912797614,2025-09-01,t,$120.00,,2,365
155487,1237963668912797614,2025-09-02,t,$120.00,,2,365
155488,1237963668912797614,2025-09-03,t,$120.00,,2,365


#### 2.2) Visualización de datos específicos

In [None]:
# Ver los datos de la columna 'price'.

airbnb["price"]

'2024-09-07'

In [8]:
# Ver los datos por fila y nombre de columna con 'loc'.

airbnb.loc[2,"price"]

'$70.00'

In [9]:
# Ver los datos por número de fila y columna con 'iloc'ArithmeticError

airbnb.iloc[2,5]

28

In [11]:
# Ver el rango de datos de una columna con 'iloc'.capitalize

airbnb["price"].iloc[2:5]

2    $70.00
3    $70.00
4    $70.00
Name: price, dtype: object

## 3 Organizar dataset mediante algunas modificaciones

#### 3.1) Renombrar índices de columnas y filas

In [None]:
# Si queremos renombrar los encabezados de las columnas de forma manual, se puede realizar de la siguiente manera:
# rencol_airbnb = airbnb.rename(columns={"listing_id":"Id"})      #Podríamos seguir agregando los nuevos nombres para nuestros títulos de columnas.

In [36]:
# Si solamente queremos cambiar a mayúscula la primera letra de cada palabra de los títlos de columnas:
airbnb.columns = airbnb.columns.str.capitalize()
airbnb

Unnamed: 0,Listing_id,Date,Available,Price,Adjusted_price,Minimum_nights,Maximum_nights
0,2992450,2024-09-05,f,$70.00,,28,1125
1,2992450,2024-09-06,f,$70.00,,28,1125
2,2992450,2024-09-07,f,$70.00,,28,1125
3,2992450,2024-09-08,f,$70.00,,28,1125
4,2992450,2024-09-09,f,$70.00,,28,1125
...,...,...,...,...,...,...,...
155485,1237963668912797614,2025-08-31,t,$120.00,,2,365
155486,1237963668912797614,2025-09-01,t,$120.00,,2,365
155487,1237963668912797614,2025-09-02,t,$120.00,,2,365
155488,1237963668912797614,2025-09-03,t,$120.00,,2,365


#### 3.2 Vemos la información resumida del dataset.

In [5]:
airbnb.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 155490 entries, 0 to 155489
Data columns (total 7 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   Listing_id      155490 non-null  int64  
 1   Date            155490 non-null  object 
 2   Available       155490 non-null  object 
 3   Price           155490 non-null  object 
 4   Adjusted_price  0 non-null       float64
 5   Minimum_nights  155490 non-null  int64  
 6   Maximum_nights  155490 non-null  int64  
dtypes: float64(1), int64(3), object(3)
memory usage: 8.3+ MB


- De esta información, dado el tipo de dato, podemos resaltar dos columnas:
- La columna 'Price' debería ser de tipo float, pero la encontramos como tipo 'object' porque contiene símbolo de $ y puntos.
- La columna 'Adjusted_price' no tiene datos. Por lo tanto se debe eliminar.

##### 3.3) Limpiamos los datos de las columnas señaladas anteriormente.

In [37]:
# Eliminaremos strings de la columna 'Price' y convertirla a tipo 'float'.
# También reemplazaremos los números que contienen un punto por una coma, para convertirlos a decimales.

airbnb["Price"] = (airbnb["Price"].str.replace("[$,]", "", regex=True).astype(float))
airbnb

# str.replace= reemplazará los valores de tipo string que señalemos.
# astype= convertimos el resultado en tipo float para valores numéricos.

Unnamed: 0,Listing_id,Date,Available,Price,Adjusted_price,Minimum_nights,Maximum_nights
0,2992450,2024-09-05,f,70.0,,28,1125
1,2992450,2024-09-06,f,70.0,,28,1125
2,2992450,2024-09-07,f,70.0,,28,1125
3,2992450,2024-09-08,f,70.0,,28,1125
4,2992450,2024-09-09,f,70.0,,28,1125
...,...,...,...,...,...,...,...
155485,1237963668912797614,2025-08-31,t,120.0,,2,365
155486,1237963668912797614,2025-09-01,t,120.0,,2,365
155487,1237963668912797614,2025-09-02,t,120.0,,2,365
155488,1237963668912797614,2025-09-03,t,120.0,,2,365


In [38]:
# Quitamos los decimales a la columna 'Price'

airbnb["Price"].round(0)


0          70.0
1          70.0
2          70.0
3          70.0
4          70.0
          ...  
155485    120.0
155486    120.0
155487    120.0
155488    120.0
155489    120.0
Name: Price, Length: 155490, dtype: float64

In [39]:
# Con 'isnull' podemos buscar si existen datos nulos en el dataset.
# Con 'dropna' eliminamos los datos nulos o vacíos, pero debemos ajustarlo para que elimine solo la columna con datos nulos.

airbnb['Adjusted_price'].isnull()
airbnb.dropna(axis=1, inplace=True)
airbnb

Unnamed: 0,Listing_id,Date,Available,Price,Minimum_nights,Maximum_nights
0,2992450,2024-09-05,f,70.0,28,1125
1,2992450,2024-09-06,f,70.0,28,1125
2,2992450,2024-09-07,f,70.0,28,1125
3,2992450,2024-09-08,f,70.0,28,1125
4,2992450,2024-09-09,f,70.0,28,1125
...,...,...,...,...,...,...
155485,1237963668912797614,2025-08-31,t,120.0,2,365
155486,1237963668912797614,2025-09-01,t,120.0,2,365
155487,1237963668912797614,2025-09-02,t,120.0,2,365
155488,1237963668912797614,2025-09-03,t,120.0,2,365


In [None]:
# Verificar que el tipo de dato sea el correcto

airbnb.dtypes

Listing_id          int64
Date               object
Available          object
Price             float64
Minimum_nights      int64
Maximum_nights      int64
dtype: object

#### 3.4) Eliminar datos duplicados

In [40]:
airbnb.duplicated().sum()
airbnb.drop_duplicates()
airbnb

Unnamed: 0,Listing_id,Date,Available,Price,Minimum_nights,Maximum_nights
0,2992450,2024-09-05,f,70.0,28,1125
1,2992450,2024-09-06,f,70.0,28,1125
2,2992450,2024-09-07,f,70.0,28,1125
3,2992450,2024-09-08,f,70.0,28,1125
4,2992450,2024-09-09,f,70.0,28,1125
...,...,...,...,...,...,...
155485,1237963668912797614,2025-08-31,t,120.0,2,365
155486,1237963668912797614,2025-09-01,t,120.0,2,365
155487,1237963668912797614,2025-09-02,t,120.0,2,365
155488,1237963668912797614,2025-09-03,t,120.0,2,365


## 4 Exportar dataset limpio

In [41]:
airbnb.to_csv("airbnb_clean.csv", index=False)