In [1]:
import pandas as pd
import numpy as np

In [2]:
# Crear datos con problemas típicos
datos = {
    'id': [1, 2, 3, 4, 5, 1, 6],  # Duplicado en id 1
    'nombre': ['Ana García', 'Carlos López', 'María Rodríguez', 'Juan Pérez',
               'Ana García', 'ana garcia', 'Luis Martín'],
    'edad': ['25', '30', '28', '35', '25', '25', '40'],  # String en lugar de int
    'email': ['ana@email.com', 'carlos@email.com', 'maria@email.com',
              'juan@email.com', 'ana@email.com', 'ana@email.com', 'luis@email.com'],
    'salario': [45000, 55000, 48000, 60000, 45000, 45000, 52000],
    'departamento': ['Ventas', 'IT', 'Marketing', 'IT',
                     'ventas', 'VENTAS', 'Recursos Humanos']
}

df = pd.DataFrame(datos)

print("Datos originales con problemas:")
df

Datos originales con problemas:


Unnamed: 0,id,nombre,edad,email,salario,departamento
0,1,Ana García,25,ana@email.com,45000,Ventas
1,2,Carlos López,30,carlos@email.com,55000,IT
2,3,María Rodríguez,28,maria@email.com,48000,Marketing
3,4,Juan Pérez,35,juan@email.com,60000,IT
4,5,Ana García,25,ana@email.com,45000,ventas
5,1,ana garcia,25,ana@email.com,45000,VENTAS
6,6,Luis Martín,40,luis@email.com,52000,Recursos Humanos


In [3]:
print("Tipos de datos:")
print(df.dtypes)

print("\nDuplicados por id:")
print(df['id'].duplicated().sum())

print("\nDuplicados completos:")
print(df.duplicated().sum())

print("\nValores únicos en departamento:")
print(df['departamento'].unique())

Tipos de datos:
id               int64
nombre          object
edad            object
email           object
salario          int64
departamento    object
dtype: object

Duplicados por id:
1

Duplicados completos:
0

Valores únicos en departamento:
['Ventas' 'IT' 'Marketing' 'ventas' 'VENTAS' 'Recursos Humanos']


In [4]:
# Eliminar duplicados basados en id y email
df_limpio = df.drop_duplicates(subset=['id', 'email'], keep='first')

print("Filas antes:", len(df))
print("Filas después:", len(df_limpio))
df_limpio

Filas antes: 7
Filas después: 6


Unnamed: 0,id,nombre,edad,email,salario,departamento
0,1,Ana García,25,ana@email.com,45000,Ventas
1,2,Carlos López,30,carlos@email.com,55000,IT
2,3,María Rodríguez,28,maria@email.com,48000,Marketing
3,4,Juan Pérez,35,juan@email.com,60000,IT
4,5,Ana García,25,ana@email.com,45000,ventas
6,6,Luis Martín,40,luis@email.com,52000,Recursos Humanos


In [5]:
# Convertir edad a numérico
df_limpio['edad'] = pd.to_numeric(df_limpio['edad'], errors='coerce')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpio['edad'] = pd.to_numeric(df_limpio['edad'], errors='coerce')


In [6]:
df_limpio = df.drop_duplicates(subset=['id', 'email'], keep='first').copy()

In [7]:
df_limpio.loc[:, 'edad'] = pd.to_numeric(df_limpio['edad'], errors='coerce')
df_limpio.loc[:, 'departamento'] = df_limpio['departamento'].str.title()
df_limpio.loc[:, 'nombre'] = df_limpio['nombre'].str.title()

In [8]:
print(df_limpio)
print("\nTipos corregidos:")
print(df_limpio.dtypes)

   id           nombre edad             email  salario      departamento
0   1       Ana García   25     ana@email.com    45000            Ventas
1   2     Carlos López   30  carlos@email.com    55000                It
2   3  María Rodríguez   28   maria@email.com    48000         Marketing
3   4       Juan Pérez   35    juan@email.com    60000                It
4   5       Ana García   25     ana@email.com    45000            Ventas
6   6      Luis Martín   40    luis@email.com    52000  Recursos Humanos

Tipos corregidos:
id               int64
nombre          object
edad            object
email           object
salario          int64
departamento    object
dtype: object


In [9]:
df_limpio.loc[:, 'edad'] = pd.to_numeric(df_limpio['edad'], errors='coerce')

In [10]:
df_limpio.dtypes

id               int64
nombre          object
edad            object
email           object
salario          int64
departamento    object
dtype: object

In [11]:
df_limpio = df.drop_duplicates(
    subset=['id', 'email'],
    keep='first'
).copy()

In [12]:
df_limpio['edad'] = pd.to_numeric(df_limpio['edad'], errors='coerce')

In [13]:
df_limpio.dtypes

id               int64
nombre          object
edad             int64
email           object
salario          int64
departamento    object
dtype: object

In [15]:
# Normalizar departamento
df_limpio['departamento'] = df_limpio['departamento'].str.title()
# Normalizar nombres
df_limpio['nombre'] = df_limpio['nombre'].str.title()

In [16]:
df_limpio['salario_mensual'] = df_limpio['salario'] / 12

df_limpio['categoria_edad'] = pd.cut(
    df_limpio['edad'],
    bins=[0, 25, 35, 100],
    labels=['Joven', 'Adulto', 'Senior']
)

In [17]:
df_limpio.loc[:, 'edad'] = pd.to_numeric(df_limpio['edad'], errors='coerce')

In [18]:
# Calcular salario mensual
df_limpio.loc[:, 'salario_mensual'] = df_limpio['salario'] / 12

# Categorizar edad
df_limpio.loc[:, 'categoria_edad'] = pd.cut(
    df_limpio['edad'],
    bins=[0, 25, 35, 100],
    labels=['Joven', 'Adulto', 'Senior']
)

In [19]:
df_limpio.dtypes

id                    int64
nombre               object
edad                  int64
email                object
salario               int64
departamento         object
salario_mensual     float64
categoria_edad     category
dtype: object

In [20]:
df_limpio

Unnamed: 0,id,nombre,edad,email,salario,departamento,salario_mensual,categoria_edad
0,1,Ana García,25,ana@email.com,45000,Ventas,3750.0,Joven
1,2,Carlos López,30,carlos@email.com,55000,It,4583.333333,Adulto
2,3,María Rodríguez,28,maria@email.com,48000,Marketing,4000.0,Adulto
3,4,Juan Pérez,35,juan@email.com,60000,It,5000.0,Adulto
4,5,Ana García,25,ana@email.com,45000,Ventas,3750.0,Joven
6,6,Luis Martín,40,luis@email.com,52000,Recursos Humanos,4333.333333,Senior


In [21]:
print("DATASET ORIGINAL")
display(df)

print("DATASET LIMPIO Y TRANSFORMADO")
display(df_limpio)

DATASET ORIGINAL


Unnamed: 0,id,nombre,edad,email,salario,departamento
0,1,Ana García,25,ana@email.com,45000,Ventas
1,2,Carlos López,30,carlos@email.com,55000,IT
2,3,María Rodríguez,28,maria@email.com,48000,Marketing
3,4,Juan Pérez,35,juan@email.com,60000,IT
4,5,Ana García,25,ana@email.com,45000,ventas
5,1,ana garcia,25,ana@email.com,45000,VENTAS
6,6,Luis Martín,40,luis@email.com,52000,Recursos Humanos


DATASET LIMPIO Y TRANSFORMADO


Unnamed: 0,id,nombre,edad,email,salario,departamento,salario_mensual,categoria_edad
0,1,Ana García,25,ana@email.com,45000,Ventas,3750.0,Joven
1,2,Carlos López,30,carlos@email.com,55000,It,4583.333333,Adulto
2,3,María Rodríguez,28,maria@email.com,48000,Marketing,4000.0,Adulto
3,4,Juan Pérez,35,juan@email.com,60000,It,5000.0,Adulto
4,5,Ana García,25,ana@email.com,45000,Ventas,3750.0,Joven
6,6,Luis Martín,40,luis@email.com,52000,Recursos Humanos,4333.333333,Senior


In [22]:
df.head()
df_limpio.head()

Unnamed: 0,id,nombre,edad,email,salario,departamento,salario_mensual,categoria_edad
0,1,Ana García,25,ana@email.com,45000,Ventas,3750.0,Joven
1,2,Carlos López,30,carlos@email.com,55000,It,4583.333333,Adulto
2,3,María Rodríguez,28,maria@email.com,48000,Marketing,4000.0,Adulto
3,4,Juan Pérez,35,juan@email.com,60000,It,5000.0,Adulto
4,5,Ana García,25,ana@email.com,45000,Ventas,3750.0,Joven


In [23]:
df

Unnamed: 0,id,nombre,edad,email,salario,departamento
0,1,Ana García,25,ana@email.com,45000,Ventas
1,2,Carlos López,30,carlos@email.com,55000,IT
2,3,María Rodríguez,28,maria@email.com,48000,Marketing
3,4,Juan Pérez,35,juan@email.com,60000,IT
4,5,Ana García,25,ana@email.com,45000,ventas
5,1,ana garcia,25,ana@email.com,45000,VENTAS
6,6,Luis Martín,40,luis@email.com,52000,Recursos Humanos


In [24]:
df_limpio

Unnamed: 0,id,nombre,edad,email,salario,departamento,salario_mensual,categoria_edad
0,1,Ana García,25,ana@email.com,45000,Ventas,3750.0,Joven
1,2,Carlos López,30,carlos@email.com,55000,It,4583.333333,Adulto
2,3,María Rodríguez,28,maria@email.com,48000,Marketing,4000.0,Adulto
3,4,Juan Pérez,35,juan@email.com,60000,It,5000.0,Adulto
4,5,Ana García,25,ana@email.com,45000,Ventas,3750.0,Joven
6,6,Luis Martín,40,luis@email.com,52000,Recursos Humanos,4333.333333,Senior


In [25]:
with pd.ExcelWriter('comparacion_limpieza_dia3.xlsx', engine='openpyxl') as writer:
    df.to_excel(writer, sheet_name='Datos_Originales', index=False)
    df_limpio.to_excel(writer, sheet_name='Datos_Limpios', index=False)

print("Archivo Excel creado correctamente")

Archivo Excel creado correctamente
