In [1]:
import pandas as pd
import numpy as np

data = {
    'Edad': [25, 30, np.nan, 40, 25],
    'Salario': [2000, np.nan, 2100, 5000, 2000],
    'Ciudad': ['Madrid', 'Barcelona', 'Madrid', np.nan, 'Madrid']
}

df = pd.DataFrame(data)

In [2]:
# Rellenamos los nulos de 'Edad' con su media
df['Edad_Imputada'] = df['Edad'].fillna(df['Edad'].mean())

In [3]:
# Rellenamos los nulos de 'Salario' con su mediana
df['Salario_Imputado'] = df['Salario'].fillna(df['Salario'].median())

In [4]:
# Elimina cualquier fila que contenga un NaN
df_filas_limpias = df.dropna(axis=0)

In [5]:
# Elimina cualquier columna que contenga un NaN
df_columnas_limpias = df.dropna(axis=1)

In [None]:
# Detectar filas duplicadas (devuelve True/False)
print(df.duplicated().sum())

# Eliminar duplicados manteniendo la primera aparición
df = df.drop_duplicates()

# Eliminar duplicados basados en una columna específica (ej. un ID único)
df = df.drop_duplicates(subset=['ID_Cliente'])

In [None]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Estandarización (Media 0, Desviación 1)
scaler = StandardScaler()
df['Salario_Std'] = scaler.fit_transform(df[['Salario']])

# Normalización (Rango entre 0 y 1)
min_max = MinMaxScaler()
df['Edad_Norm'] = min_max.fit_transform(df[['Edad']])

In [None]:
df.info()          # Muestra tipos de datos y recuento de no-nulos
df.describe()      # Estadísticas descriptivas (media, min, max, cuartiles)
df.isnull().sum()  # Cuenta cuántos nulos hay exactamente por columna

In [None]:
# Convertir una columna a entero (int)
df['Edad'] = df['Edad'].astype(int)

# Convertir a decimal (float)
df['Precio'] = df['Precio'].astype(float)

# Convertir a booleano (True/False)
df['Activo'] = df['Activo'].astype(bool)

# Convertir a categoría (ahorra memoria y ayuda en modelos)
df['Genero'] = df['Genero'].astype('category')

In [None]:
# errors='coerce' convierte lo que no sea un número en NaN (evita que el código de error)
df['Salario'] = pd.to_numeric(df['Salario'], errors='coerce')

In [None]:
# Convierte texto "2023-10-01" en un objeto datetime real
df['Fecha_Venta'] = pd.to_datetime(df['Fecha_Venta'])

# Una vez convertido, puedes extraer información útil:
df['Mes'] = df['Fecha_Venta'].dt.month
df['Año'] = df['Fecha_Venta'].dt.year

In [None]:
# Útil para quitar espacios o caracteres extraños
df = df.rename(columns={'Nombre Sucio ': 'nombre_limpio', 'Edad (años)': 'edad'})

In [None]:
# Selecciona solo columnas de tipo float e int
df_numerico = df.select_dtypes(include=['number'])

# Selecciona solo columnas de texto
df_texto = df.select_dtypes(include=['object'])