In [1]:
# Crear dataset con problemas comunes
import pandas as pd
import numpy as np

# Crear datos con problemas típicos
datos = {
    'id': [1, 2, 3, 4, 5, 1, 6],  # Duplicado en id 1
    'nombre': ['Ana García', 'Carlos López', 'María Rodríguez', 'Juan Pérez', 'Ana García', 'ana garcia', 'Luis Martín'],
    'edad': ['25', '30', '28', '35', '25', '25', '40'],  # String en lugar de int
    'email': ['ana@email.com', 'carlos@email.com', 'maria@email.com', 'juan@email.com', 'ana@email.com', 'ana@email.com', 'luis@email.com'],
    'salario': [45000, 55000, 48000, 60000, 45000, 45000, 52000],
    'departamento': ['Ventas', 'IT', 'Marketing', 'IT', 'ventas', 'VENTAS', 'Recursos Humanos']  # Inconsistente capitalización
}

df = pd.DataFrame(datos)
print("Datos originales con problemas:")
print(df)

Datos originales con problemas:
   id           nombre edad             email  salario      departamento
0   1       Ana García   25     ana@email.com    45000            Ventas
1   2     Carlos López   30  carlos@email.com    55000                IT
2   3  María Rodríguez   28   maria@email.com    48000         Marketing
3   4       Juan Pérez   35    juan@email.com    60000                IT
4   5       Ana García   25     ana@email.com    45000            ventas
5   1       ana garcia   25     ana@email.com    45000            VENTAS
6   6      Luis Martín   40    luis@email.com    52000  Recursos Humanos


In [2]:
# Inspeccionar y diagnosticar problemas:
print(f"\nTipos de datos: {df.dtypes}")
print(f"\nDuplicados por id: {df['id'].duplicated().sum()}")
print(f"Duplicados completos: {df.duplicated().sum()}")
print(f"\nValores únicos en departamento: {df['departamento'].unique()}")


Tipos de datos: id               int64
nombre          object
edad            object
email           object
salario          int64
departamento    object
dtype: object

Duplicados por id: 1
Duplicados completos: 0

Valores únicos en departamento: ['Ventas' 'IT' 'Marketing' 'ventas' 'VENTAS' 'Recursos Humanos']


In [4]:
# Limpiar duplicados:
# Eliminar duplicados basados en id y email
df_limpio = df.drop_duplicates(subset=['id', 'email'], keep='first')
print(f"\nDespués de eliminar duplicados: {len(df_limpio)} filas")


Después de eliminar duplicados: 6 filas


In [5]:
# Eliminar duplicados basados en id 
df_limpio = df.drop_duplicates(subset=['id'], keep='first')
print(f"\nDespués de eliminar duplicados: {len(df_limpio)} filas")


Después de eliminar duplicados: 6 filas


In [6]:
print(df)

   id           nombre edad             email  salario      departamento
0   1       Ana García   25     ana@email.com    45000            Ventas
1   2     Carlos López   30  carlos@email.com    55000                IT
2   3  María Rodríguez   28   maria@email.com    48000         Marketing
3   4       Juan Pérez   35    juan@email.com    60000                IT
4   5       Ana García   25     ana@email.com    45000            ventas
5   1       ana garcia   25     ana@email.com    45000            VENTAS
6   6      Luis Martín   40    luis@email.com    52000  Recursos Humanos


In [7]:
print(df_limpio)

   id           nombre edad             email  salario      departamento
0   1       Ana García   25     ana@email.com    45000            Ventas
1   2     Carlos López   30  carlos@email.com    55000                IT
2   3  María Rodríguez   28   maria@email.com    48000         Marketing
3   4       Juan Pérez   35    juan@email.com    60000                IT
4   5       Ana García   25     ana@email.com    45000            ventas
6   6      Luis Martín   40    luis@email.com    52000  Recursos Humanos


In [8]:
# Eliminar duplicados basados en nobre 
df_limpio = df_limpio.drop_duplicates(subset=['nombre'], keep='first')
print(f"\nDespués de eliminar duplicados: {len(df_limpio)} filas")
print(df_limpio)


Después de eliminar duplicados: 5 filas
   id           nombre edad             email  salario      departamento
0   1       Ana García   25     ana@email.com    45000            Ventas
1   2     Carlos López   30  carlos@email.com    55000                IT
2   3  María Rodríguez   28   maria@email.com    48000         Marketing
3   4       Juan Pérez   35    juan@email.com    60000                IT
6   6      Luis Martín   40    luis@email.com    52000  Recursos Humanos


In [9]:
# Convertir edad a numérico
df_limpio['edad'] = pd.to_numeric(df_limpio['edad'], errors='coerce')

# Normalizar departamento
df_limpio['departamento'] = df_limpio['departamento'].str.title()

# Normalizar nombres
df_limpio['nombre'] = df_limpio['nombre'].str.title()
print(df_limpio)


   id           nombre  edad             email  salario      departamento
0   1       Ana García    25     ana@email.com    45000            Ventas
1   2     Carlos López    30  carlos@email.com    55000                It
2   3  María Rodríguez    28   maria@email.com    48000         Marketing
3   4       Juan Pérez    35    juan@email.com    60000                It
6   6      Luis Martín    40    luis@email.com    52000  Recursos Humanos


In [10]:
print(f"\nTipos corregidos: {df_limpio.dtypes}")


Tipos corregidos: id               int64
nombre          object
edad             int64
email           object
salario          int64
departamento    object
dtype: object


In [12]:
 # **Crear columnas calculadas**:
 # Calcular salario mensual y anual
df_limpio['salario_mensual'] = (df_limpio['salario'] / 12).round(1)
# Categorizar las edades
df_limpio['categoria_edad'] = pd.cut(df_limpio['edad'], 
                                    bins=[0, 25, 35, 100], 
                                    labels=['Joven', 'Adulto', 'Senior'])
print(df_limpio[['nombre', 'edad', 'categoria_edad', 'salario', 'salario_mensual']])

            nombre  edad categoria_edad  salario  salario_mensual
0       Ana García    25          Joven    45000           3750.0
1     Carlos López    30         Adulto    55000           4583.3
2  María Rodríguez    28         Adulto    48000           4000.0
3       Juan Pérez    35         Adulto    60000           5000.0
6      Luis Martín    40         Senior    52000           4333.3
