
# Limpieza y transformación de datos (Notebook resuelto)
Dataset: `dataset_sucio.csv` (nulos, duplicados, outliers, fechas en texto y variables categóricas).  
Objetivo: preparar los datos para modelado sin entrar aún en EDA completo.


## 1. Carga del dataset y exploración inicial

In [None]:
import pandas as pd
import numpy as np

In [None]:
pd.set_option("display.max_columns", None)

df = pd.read_csv("dataset_sucio.csv")
df.head()

In [None]:
df.tail()

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.describe(include='all').T

In [None]:
df.departamento.unique()

In [None]:
df.departamento.value_counts()

## 2. Detección y eliminación de duplicados

In [None]:
df.duplicated().sum(

In [None]:
duplicados_absolutos = df.duplicated().sum() #numero de duplicados que tengo
duplicados_absolutos

In [None]:
df.duplicated(subset=["id"]).sum() #cuantos tienen mismo id

In [None]:
df.duplicated(subset=["apellido"]).sum() #cuantos tienen mismo apellido

In [None]:
# FILAS DUPLICADAS
df[df.duplicated(keep='last')]

In [None]:
lucia= df[(df.nombre=='Lucía')]
lucia[lucia.apellido=='Martín']

In [None]:
df[df.id==190]

In [None]:
df[df.duplicated()] # veo filas duplicadas 

In [None]:
df_limpio = df[~df.duplicated()]
len(df_limpio)

In [None]:
# BORRADO DE FILAS DUPLICADAS 
df.drop_duplicates() # Los duplicados de filas enteras

In [None]:
# Eliminamos duplicados completos primero
df = df.drop_duplicates().copy()
# También nos aseguramos que cada 'id' sea único
df = df.drop_duplicates(subset=["id"]).copy()
df.shape

## 3. Detección y tratamiento de nulos

##### Podeis usar tanto .isnull() como .isna()

In [None]:
df.isna()

In [None]:
df.isnull().sum()

In [None]:
df_sin_nulos = df[~df.fecha_contrato.isna()]
df_sin_nulos.shape

In [None]:
df_sin_nulos.info()

In [None]:

# Ejemplo: imputar nulos en 'ciudad' con 'Desconocido'
df["ciudad"] = df["ciudad"].fillna("Desconocido")

# Ejemplo: eliminar filas con fecha_contrato nula
df = df.dropna(subset=["fecha_contrato"])
df.isnull().sum()


In [None]:
# IMPUTAR CONTINUA 
# - media, mediana --> crea sesgos
# - valor anterior o posterior, media del valor anterior y posterior --> acciones y series temporales

## 4. Detección y manejo de outliers

In [None]:
# Salario: revisar valores extremos
df["salario"].describe()

In [None]:
# Podemos recortar valores de salario demasiado altos
#q_low, q_high = df["salario"].quantile([0.2, 0.8])
#df["salario"] = df["salario"].clip(lower=q_low, upper=q_high)
#df["salario"].describe()


In [None]:
df.head()

In [None]:
# CAMBIANDO VALORES!!!!!!! Manipulando los datos!!!!

##### MEJOR OPCION - quitar las filas con valores outliers IQR

In [None]:
df.describe()

In [None]:
# Calcular Q1 (25%) y Q3 (75%)
Q1 = df['salario'].quantile(0.25)
print('Q1 = ', Q1)
Q3 = df['salario'].quantile(0.75)
print('Q3 = ', Q3)

# Calcular IQR
IQR = Q3 - Q1
print('IQR = ', IQR)

# Definir límites inferior y superior
limite_inferior = Q1 - 0.5 * IQR
limite_superior = Q3 + 2.5 * IQR
print(limite_inferior)
print(limite_superior)

In [None]:
1.5*IQR

In [None]:
df['salario'].min()

In [None]:
df[df['salario'] > 62500]

In [None]:
# Filtrar los datos dentro de los límites
df_sin_outliers = df[(df['salario'] >= limite_inferior) & (df['salario'] <= limite_superior)]
len(df_sin_outliers)

## 5. Transformaciones de columnas

In [None]:
df.info()

In [None]:

# Convertir columna fecha_contrato a datetime (invalid -> NaT)
df["fecha_contrato"] = pd.to_datetime(df["fecha_contrato"], errors="coerce")
df[["fecha_contrato"]].head()


In [None]:
# Cambiar tipo de 'departamento' a categoría
df["departamento"] = df["departamento"].astype("category")
df.dtypes


In [None]:

# Ejemplo extra 1: normalizar nombres a minúsculas
df["nombre"] = df["nombre"].str.lower()

df["apellido"] = df["apellido"].str.lower()

df[["nombre","apellido"]].head()

In [None]:
# QUITAR TODOS LAS TILDES DE NOMBRE Y APELLIDO

df['nombre'] = df['nombre'].apply(lambda x: x.replace('í','i').replace('ó','o').replace('é','e'))
df['apellido'] = df['apellido'].apply(lambda x: x.replace('í','i').replace('ó','o').replace('é','e'))

df[['nombre','apellido']].head()

In [None]:
# Ejemplo extra 2: crear columna año de la fecha
df["anio_contrato"] = df["fecha_contrato"].dt.year
df[["fecha_contrato","anio_contrato"]].head()

In [None]:
# ESTO DARA ERROR PORQUE HAY NULOS!!! Primero quitad o imputad los nulos
df["anio_contrato"] = df["anio_contrato"].astype(int)

## 6. Binning de variables

In [None]:
df.edad.describe()

In [None]:

# Con pd.cut: agrupar edades
df["grupo_edad"] = pd.cut(df["edad"], bins=[17,29,49,69], labels=["joven","adulto","mayor"])
df[["edad","grupo_edad"]].head()


In [None]:
df.grupo_edad.value_counts()

In [None]:
# Con apply + lambda
df["rango_salario"] = df["salario"].apply(lambda x: "alto" if x>30000 else ("medio" if x>25000 else 'bajo'))
df[["salario","rango_salario"]].head()

## 7. Encoding de variables categóricas

In [None]:
df.departamento.unique()

In [None]:
### ESTO NO ES MUY BUENA PRACTICA SI NO ES ORDINAL
# Label encoding sencillo
df["departamento_code"] = df["departamento"].cat.codes
df[["departamento","departamento_code"]].head()


### ONE-HOT ENCODING

In [None]:
onehot_df = pd.get_dummies(df['departamento'])*1
onehot_df

In [None]:
# One-hot encoding
df_encoded = pd.get_dummies(df, columns=["ciudad"]) # NO HACER SI HAY MUCHAS CATEGORIAS!
df_encoded.head()


In [None]:
df_encoded.drop(columns=['id','nombre','apellido'],inplace=True)

In [None]:
df_encoded.head()

## 8. Feature Engineering = Creatividad

In [None]:
# Crear margen = ventas - costes
df["margen"] = df["ventas"] - df["costes"]
df.head()

In [None]:
# Crear beneficio relativo
df["beneficio_pct"] = (df["margen"] / df["ventas"]).round(2)

In [None]:
df.head()

In [None]:
# Crear columna nombre_completo
df["nombre_completo"] = df["nombre"] + " " + df["apellido"]
df.head()

In [None]:
# Crear variable booleana
df["es_joven"] = df["edad"] < 30
df["es_joven"] = df["es_joven"]*1  # Lo que es False se pone 0 y lo que es True se pone 1
df.head()

In [None]:
# Extraer mes del contrato
df["fecha_contrato"] = df["fecha_contrato"]
df["mes_contrato"] = df["fecha_contrato"].dt.month
df.head()
