# Fase 1. Transformación y limpieza de los datos (CSV)

#### 1. Importamos pandas con el alias que decidamos y cargamos nuestro archivo csv

In [None]:
import pandas as pd
df = pd.read_csv('../data/bank_additional.csv')

#### 2. Obtenemos información sobre el tipo de dato de cada columna y su previsualización

In [None]:
# El .head nos permite obtener una visualización previa de las 5 primeras filas
df.head()

In [None]:
# El .info nos aporta información sobre el tipo de dato de cada columna
df.info()

In [None]:
# Comprobamos el tipo de dato de cada columna
df.dtypes

#### 3. Analizamos si existen o no valores duplicados

In [None]:
# Comprobamos si existen valores duplicados
if df.duplicated().values.any():
    print("Existen valores duplicados por eliminar")
else:
    print("No existen valores duplicados")

# Comprobamos y verificamos que no existen valores duplicados
print(df.duplicated().sum())

#### 4. Analizamos y eliminamos los valores nulos existentes

In [None]:
# Calculamos cuantos valores nulos existen
print("Los valores nulos existentes por columna son:")
print(df.isnull().sum())

In [None]:
# Reemplazamos los valores nulos por 0
df.fillna(0, inplace=True)
print("✅ Todos los valores nulos han sido reemplazados por 0.")

In [None]:
# Comprobamos si existen valores nulos
if df.isnull().values.any():
    print("❌ Todavía hay valores nulos en los datos.")
else:
    print("✅ Todos los valores nulos han sido reemplazados por 0.")

# Comprobamos y verificamos que no existen valores nulos
print(df.isnull().sum())

#### 5. Revisamos y cambiamos el tipo de dato de cada columna que sea necesario

In [None]:
# Convertimos 'age' a int
df['age'] = df['age'].astype(int)

# Convertimos 'default', 'housing', y 'loan' a bool
df['default'] = df['default'].astype(bool)
df['housing'] = df['housing'].astype(bool)
df['loan'] = df['loan'].astype(bool)

# Convertimos 'cons.price.idx', 'cons.conf.idx', 'euribor3m', 'nr.employed' a float64. Coerce se encarga de añadir valores NaN.
df['cons.price.idx'] = pd.to_numeric(df['cons.price.idx'], errors='coerce')
df['cons.conf.idx'] = pd.to_numeric(df['cons.conf.idx'], errors='coerce')
df['euribor3m'] = pd.to_numeric(df['euribor3m'], errors='coerce')
df['nr.employed'] = pd.to_numeric(df['nr.employed'], errors='coerce')

# Convertimos 'y' a bool o categoría si es binaria
df['y'] = df['y'].map({'yes': True, 'no': False})

# Convertirmos 'date' a datetime64, especificamos el formato de fecha para que no genere conflicto.
df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%d', errors='coerce')

# Convertimos 'id_' a categoría
df['id_'] = df['id_'].astype('category')

# Verificamos los tipos de datos después de los cambios
print(df.dtypes)

#### 6. Realizamos la estandarización de valores categóricos

In [None]:
# Aplicamos las modificaciones solo a las columnas 'object' puesto que son las únicas que contienen texto. No tendría sentido hacerlo para columnas de tipo int, float etc
for columna in df.select_dtypes(include=['object']).columns:

# Eliminamos espacios al principio y al final, y convertimos a minúsculas para evitar conflictos
    df[columna] = df[columna].str.strip().str.lower()

# Verificamos que se aplicaron los cambios
print(df.head())