# Ejercicio

## Importar Librería

In [1]:
import pandas as pd
import numpy as np

## 1 Crear dataset

In [2]:
# Crear datos con problemas típicos
datos = {
    'id': [1, 2, 3, 4, 5, 1, 6],  # Duplicado en id 1
    'nombre': ['Ana García', 'Carlos López', 'María Rodríguez', 'Juan Pérez', 'Ana García', 'ana garcia', 'Luis Martín'],
    'edad': ['25', '30', '28', '35', '25', '25', '40'],  # String en lugar de int
    'email': ['ana@email.com', 'carlos@email.com', 'maria@email.com', 'juan@email.com', 'ana@email.com', 'ana@email.com', 'luis@email.com'],
    'salario': [45000, 55000, 48000, 60000, 45000, 45000, 52000],
    'departamento': ['Ventas', 'IT', 'Marketing', 'IT', 'ventas', 'VENTAS', 'Recursos Humanos']  # Inconsistente capitalización
}

df = pd.DataFrame(datos)
print("Datos originales con problemas:")
print(df)

Datos originales con problemas:
   id           nombre edad             email  salario      departamento
0   1       Ana García   25     ana@email.com    45000            Ventas
1   2     Carlos López   30  carlos@email.com    55000                IT
2   3  María Rodríguez   28   maria@email.com    48000         Marketing
3   4       Juan Pérez   35    juan@email.com    60000                IT
4   5       Ana García   25     ana@email.com    45000            ventas
5   1       ana garcia   25     ana@email.com    45000            VENTAS
6   6      Luis Martín   40    luis@email.com    52000  Recursos Humanos


## 2 Inspeccionar y diagnosticar problemas:

In [3]:
print(f"\nTipos de datos: {df.dtypes}")
print(f"\nDuplicados por id: {df['id'].duplicated().sum()}")
print(f"Duplicados completos: {df.duplicated().sum()}")
print(f"\nValores únicos en departamento: {df['departamento'].unique()}")


Tipos de datos: id               int64
nombre          object
edad            object
email           object
salario          int64
departamento    object
dtype: object

Duplicados por id: 1
Duplicados completos: 0

Valores únicos en departamento: ['Ventas' 'IT' 'Marketing' 'ventas' 'VENTAS' 'Recursos Humanos']


## 3 Limpiar duplicados:

In [4]:
# Eliminar duplicados basados en id y email
df_limpio = df.drop_duplicates(subset=['id', 'email'], keep='first')
print(f"\nDespués de eliminar duplicados: {len(df_limpio)} filas")


Después de eliminar duplicados: 6 filas


## 4 Corregir tipos de datos y formatos:

In [5]:
# Convertir edad a número
df_limpio['edad'] = pd.to_numeric(df_limpio['edad'], errors='coerce')

# Normalizar departamento
df_limpio['departamento'] = df_limpio['departamento'].str.title()

# Normalizar nombres
df_limpio['nombre'] = df_limpio['nombre'].str.title()

print(" Después de correcciones:")
print(df_limpio)

print("\nTipos de datos corregidos:")
print(df_limpio.dtypes)

 Después de correcciones:
   id           nombre  edad             email  salario      departamento
0   1       Ana García    25     ana@email.com    45000            Ventas
1   2     Carlos López    30  carlos@email.com    55000                It
2   3  María Rodríguez    28   maria@email.com    48000         Marketing
3   4       Juan Pérez    35    juan@email.com    60000                It
4   5       Ana García    25     ana@email.com    45000            Ventas
6   6      Luis Martín    40    luis@email.com    52000  Recursos Humanos

Tipos de datos corregidos:
id               int64
nombre          object
edad             int64
email           object
salario          int64
departamento    object
dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpio['edad'] = pd.to_numeric(df_limpio['edad'], errors='coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpio['departamento'] = df_limpio['departamento'].str.title()
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpio['nombre'] = df_limpio['nombre'].str.title()


## 5 Crear columnas calculadas

In [6]:
# Calcular salario mensual y anual
df_limpio['salario_mensual'] = df_limpio['salario'] / 12
df_limpio['categoria_edad'] = pd.cut(df_limpio['edad'], 
                                    bins=[0, 25, 35, 100], 
                                    labels=['Joven', 'Adulto', 'Senior'])

print("Con columnas calculadas:")
print(df_limpio[['nombre', 'edad', 'categoria_edad', 'salario', 'salario_mensual']])

Con columnas calculadas:
            nombre  edad categoria_edad  salario  salario_mensual
0       Ana García    25          Joven    45000      3750.000000
1     Carlos López    30         Adulto    55000      4583.333333
2  María Rodríguez    28         Adulto    48000      4000.000000
3       Juan Pérez    35         Adulto    60000      5000.000000
4       Ana García    25          Joven    45000      3750.000000
6      Luis Martín    40         Senior    52000      4333.333333


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpio['salario_mensual'] = df_limpio['salario'] / 12
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpio['categoria_edad'] = pd.cut(df_limpio['edad'],


## 6 Eliminación de duplicado con distinto id

In [14]:
# Eliminar duplicados basados en nombre, edad y salario
df_limpio_1=df_limpio.drop_duplicates(subset=['nombre', 'edad', 'salario'], keep='first')  
print("Después de eliminar duplicados basados en nombre, edad y salario:")
print(df_limpio_1)

Después de eliminar duplicados basados en nombre, edad y salario:
   id           nombre  edad             email  salario      departamento  \
0   1       Ana García    25     ana@email.com    45000            Ventas   
1   2     Carlos López    30  carlos@email.com    55000                It   
2   3  María Rodríguez    28   maria@email.com    48000         Marketing   
3   4       Juan Pérez    35    juan@email.com    60000                It   
6   6      Luis Martín    40    luis@email.com    52000  Recursos Humanos   

   salario_mensual categoria_edad  
0      3750.000000          Joven  
1      4583.333333         Adulto  
2      4000.000000         Adulto  
3      5000.000000         Adulto  
6      4333.333333         Senior  


## 7 Verificación

In [17]:
print(" VERIFICACIÓN FINAL")

print("\n1. Sin duplicados por id/email:")
print(df_limpio_1.duplicated(subset=['id', 'email']).sum(), "duplicados")

print("\n2. Tipos corregidos:")
print(df_limpio_1.dtypes)

print("\n3. Departamentos normalizados:")
print(df_limpio_1['departamento'].unique())

print("\n4. Nombres normalizados (title case):")
print(df_limpio_1['nombre'].unique())

print("\n5. Edades válidas y sin errores:")
print(df_limpio_1['edad'])


 VERIFICACIÓN FINAL

1. Sin duplicados por id/email:
0 duplicados

2. Tipos corregidos:
id                    int64
nombre               object
edad                  int64
email                object
salario               int64
departamento         object
salario_mensual     float64
categoria_edad     category
dtype: object

3. Departamentos normalizados:
['Ventas' 'It' 'Marketing' 'Recursos Humanos']

4. Nombres normalizados (title case):
['Ana García' 'Carlos López' 'María Rodríguez' 'Juan Pérez' 'Luis Martín']

5. Edades válidas y sin errores:
0    25
1    30
2    28
3    35
6    40
Name: edad, dtype: int64
