# **Actividad Fundamental N.º 4 - Gestión y Normalización de Datos con Python**

## **Instalación de las librerias y la base de datos**

In [None]:
#   Se instalan las librerias "pandas" y "scikit-learn"
%pip install -q pandas scikit-learn openpyxl

In [None]:
#   Se importan las librerias y permitir que el código lea el archivo .csv
import pandas as pd
import numpy as np

from sklearn.preprocessing import LabelEncoder, OneHotEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split

datos = pd.read_csv("airbnb.csv")

### Revisión de la base de datos

**Esta sección se utilizará regularmente, por lo que solo explicaremos la primera:**

Esto sirve para analizar bien cómo está organizada la tabla, ver si se aplicaron bien los cambios y el tipo de datos que maneja cada columna

*Se pone como sección para poder cerrarla sin problema y que no moleste tanto la tablota*

In [None]:
datos.head()

In [None]:
datos.info()

## **Corrección del formato de las columnas para que sean compatibles**

In [None]:
#   Toda la tabla utiliza "," en lugar de "."
#   Además de que muchas columnas que deberían ser numéricas están como objetos (strings)

#   La columna "price" Se tiene que cambiar primero a string para poder eliminar los caracteres "$" y "," y finalmente a float

datos['price'] = datos['price'].astype(str)
datos['price'] = datos['price'].str.replace('$', '')
datos['price'] = datos['price'].str.replace(',', '')
datos['price'] = datos['price'].astype(float)

#   Las columnas "consumer", "bathrooms", "host response rate" y "host acceptance rate" solo necesitan cambiar "," por "." y luego a float

datos['consumer'] = datos['consumer'].str.replace(',', '.')
datos['consumer'] = datos['consumer'].astype(float)

datos['bathrooms'] = datos['bathrooms'].str.replace(',', '.')
datos['bathrooms'] = datos['bathrooms'].astype(float)

datos['host response rate'] = datos['host response rate'].str.replace(',', '.')
datos['host response rate'] = datos['host response rate'].astype(float)

datos['host acceptance rate'] = datos['host acceptance rate'].str.replace(',', '.')
datos['host acceptance rate'] = datos['host acceptance rate'].astype(float)

In [None]:
#   Al ver la información de la base de datos, notamos que hay columnas que tienen valores nulos, con la siguiente función quitamos esas filas
#   Guardamos el resultado en una nueva variable: ndf(New data frame)

ndf = datos.dropna()

#   Finalmente, eliminamos las columnas que no aportan información relevante para el análisis o que no se pueden normalizar
ndf = ndf.drop(columns=['id', 'name', 'host_id', 'host_name'])

print(f"Número de filas originales: {len(datos)}")
print(f"Número de filas DESPUÉS de eliminar nulos: {len(ndf)}")

### Revisión de la nueva base de datos

In [None]:
ndf.head()

In [None]:
ndf.info()

## **Creación de Dummies para columnas categóricas**

In [None]:
#   Se utilizó la técnica de One-Hot Encoding para las columnas categóricas "city" y "area" y que se puedan normalizar sin problema
#   Esto crea nuevas columnas binarias (0 y 1) para cada categoría en las columnas originales donde si es 1 significa que pertenece a esa categoría y 0 que no
dumisc = pd.get_dummies(ndf['city']).astype(int)
dumisa = pd.get_dummies(ndf['area']).astype(int)

In [None]:
#   Al utilizar One-Hot Encoding, se crean muchas columnas nuevas, por lo que es necesario agregarlas al data set original y eliminar las columnas originales
#   Se agregan los Dummies en el data set
newndf = ndf.join([dumisc, dumisa])

#   Se eliminan las columnas originales de "city" y "area" porque ya no nos sirven
newndf = newndf.drop(columns=['city','area'])

### Revisión de la nueva base de datos

In [None]:
newndf.head()

In [None]:
newndf.info()

## **Normalización de la Base de Datos**

In [None]:
scaler = MinMaxScaler()
df_normalizado = pd.DataFrame(scaler.fit_transform(newndf), columns=newndf.columns)

### Revisión de la Base de Datos Normalizada

In [None]:
df_normalizado.head()

In [None]:
df_normalizado.info()