Ejercicio de Manejo y Limpieza de Datos
Objetivo:

Limpiar un conjunto de datos simulado (un DataFrame de pandas) que contiene errores comunes como valores faltantes, datos duplicados, tipos de datos incorrectos, y formateo inconsistente.

Paso 1: Crear el conjunto de datos simulado

Primero, vamos a crear un DataFrame con valores faltantes, duplicados, y algunos errores de formato. Para ello utilizamos pandas y numpy.

1.pandas
Descripción : Es una librería de Python utilizada para el manejo y análisis de datos estructurados. Proporciona estructuras de datos como DataFrames y Series que son muy útiles para trabajar con tablas y datos ordenados.
Funciones clave :
DataFrame: Estructura de datos bidimensional similar a una hoja de cálculo.
Series: Estructura unidimensional para almacenar datos, similar a una columna.
Manipulación de datos: Filtrar, ordenar, fusionar y transformar datos.
Lectura y escritura de archivos: Soporta CSV, Excel, SQL, JSON, entre otros.

2.numpy
Descripción : Es una librería para cálculo numérico. Es eficiente para operaciones matemáticas y manipulación de matrices multidimensionales.
Funciones clave :
Arrays : Estructura básica que soporta cálculos vectorizados.
Funciones matemáticas avanzadas: Álgebra lineal, transformadas de Fourier, generación de números aleatorios.
Rápidamente en operaciones sobre grandes volúmenes de datos.

In [1]:
import pandas as pd
import numpy as np

In [2]:


# Crear un DataFrame simulado
data = {
    'Nombre': ['Ana', 'Carlos', 'Pedro', 'Maria', 'Jose', 'Carlos', 'Ana', np.nan],
    'Edad': [23, 30, 25, np.nan, 22, 30, 23, 28],
    'Ciudad': ['Madrid', 'Barcelona', np.nan, 'Madrid', 'Sevilla', 'Barcelona', 'Madrid', 'Sevilla'],
    'Salario': ['3000', '4000', '3500', '3000', np.nan, '4000', '3500', '3000'],
    'Fecha_nacimiento': ['1997-05-21', '1993-08-14', '1998-11-10', '1995-12-01', '2000-01-15', '1993-08-14', '1997-05-21', '2000-01-15']
}

# Crear DataFrame
df = pd.DataFrame(data)
print(df)


   Nombre  Edad     Ciudad Salario Fecha_nacimiento
0     Ana  23.0     Madrid    3000       1997-05-21
1  Carlos  30.0  Barcelona    4000       1993-08-14
2   Pedro  25.0        NaN    3500       1998-11-10
3   Maria   NaN     Madrid    3000       1995-12-01
4    Jose  22.0    Sevilla     NaN       2000-01-15
5  Carlos  30.0  Barcelona    4000       1993-08-14
6     Ana  23.0     Madrid    3500       1997-05-21
7     NaN  28.0    Sevilla    3000       2000-01-15


Paso 2: Identificar valores faltantes (NaN)

Uno de los primeros pasos al limpiar datos es detectar valores faltantes (NaN). Utiliza los métodos isna() o isnull() para identificarlos.

In [3]:
# Detectar valores faltantes
print(df.isna().sum())


Nombre              1
Edad                1
Ciudad              1
Salario             1
Fecha_nacimiento    0
dtype: int64


Esto te mostrará el número de valores faltantes en cada columna.

Paso 3: Corregir tipos de datos

En nuestro DataFrame, la columna Salario es un string, pero debería ser un valor numérico. Vamos a convertirla en tipo float.

In [4]:
# Convertir la columna 'Salario' a numérica
df['Salario'] = pd.to_numeric(df['Salario'], errors='coerce')
# Verificar los tipos de datos
print(df.dtypes)

Nombre               object
Edad                float64
Ciudad               object
Salario             float64
Fecha_nacimiento     object
dtype: object


Paso 4: Imputar o eliminar valores faltantes

Puedes decidir cómo manejar los valores faltantes: eliminarlos, o imputarlos (rellenarlos) con un valor como la media, la mediana, o un valor constante.

In [5]:
# Imputar valores faltantes de 'Nombre' con 'Desconocido'
df['Nombre'] = df['Nombre'].fillna('Desconocido')

# Imputar valores faltantes de 'Edad' con la media de la columna
df['Edad'] = df['Edad'].fillna(df['Edad'].mean())

# Imputar valores faltantes de 'Ciudad' con 'Desconocida'
df['Ciudad'] = df['Ciudad'].fillna('Desconocida')

# Imputar valores faltantes de 'Salario' con la mediana de la columna
df['Salario'] = df['Salario'].fillna(df['Salario'].median())

print(df)


        Nombre       Edad       Ciudad  Salario Fecha_nacimiento
0          Ana  23.000000       Madrid   3000.0       1997-05-21
1       Carlos  30.000000    Barcelona   4000.0       1993-08-14
2        Pedro  25.000000  Desconocida   3500.0       1998-11-10
3        Maria  25.857143       Madrid   3000.0       1995-12-01
4         Jose  22.000000      Sevilla   3500.0       2000-01-15
5       Carlos  30.000000    Barcelona   4000.0       1993-08-14
6          Ana  23.000000       Madrid   3500.0       1997-05-21
7  Desconocido  28.000000      Sevilla   3000.0       2000-01-15


Paso 5: Eliminar duplicados

Es importante verificar si hay filas duplicadas. Puedes usar drop_duplicates() para eliminar filas idéntic

In [6]:
# Eliminar filas duplicadas
#Por ejemplo, elimine duplicados basados ​​solo en la columnaNombre:
#df.drop_duplicates(inplace=True)
df = df.drop_duplicates(subset=['Nombre'])

# Verificar el DataFrame después de eliminar duplicados
print(df)


        Nombre       Edad       Ciudad  Salario Fecha_nacimiento
0          Ana  23.000000       Madrid   3000.0       1997-05-21
1       Carlos  30.000000    Barcelona   4000.0       1993-08-14
2        Pedro  25.000000  Desconocida   3500.0       1998-11-10
3        Maria  25.857143       Madrid   3000.0       1995-12-01
4         Jose  22.000000      Sevilla   3500.0       2000-01-15
7  Desconocido  28.000000      Sevilla   3000.0       2000-01-15


Paso 6: Corregir errores de formato

Al revisar las fechas en la columna Fecha_nacimiento, es posible que haya errores en el formato. Vamos a asegurarnos de que todas las fechas tengan el formato adecuado.

In [7]:
# Convertir la columna 'Fecha_nacimiento' al tipo datetime
df['Fecha_nacimiento'] = pd.to_datetime(df['Fecha_nacimiento'], errors='coerce')

# Verificar si hay algún error en la conversión de fechas (NaT - Not a Time)
print(df['Fecha_nacimiento'])


0   1997-05-21
1   1993-08-14
2   1998-11-10
3   1995-12-01
4   2000-01-15
7   2000-01-15
Name: Fecha_nacimiento, dtype: datetime64[ns]


Paso 7: Filtrar datos (opcional)

Supongamos que solo te interesan las personas mayores de 25 años. Puedes filtrar los datos según una condición.

In [8]:
# Filtrar personas mayores de 25 años
df_filtrado = df[df['Edad'] > 25]

print(df_filtrado)


        Nombre       Edad     Ciudad  Salario Fecha_nacimiento
1       Carlos  30.000000  Barcelona   4000.0       1993-08-14
3        Maria  25.857143     Madrid   3000.0       1995-12-01
7  Desconocido  28.000000    Sevilla   3000.0       2000-01-15


Paso 8: Revisión final

Por último, revisa el DataFrame final para asegurarte de que los datos estén limpios.

In [9]:
# Ver el DataFrame limpio
print(df)


        Nombre       Edad       Ciudad  Salario Fecha_nacimiento
0          Ana  23.000000       Madrid   3000.0       1997-05-21
1       Carlos  30.000000    Barcelona   4000.0       1993-08-14
2        Pedro  25.000000  Desconocida   3500.0       1998-11-10
3        Maria  25.857143       Madrid   3000.0       1995-12-01
4         Jose  22.000000      Sevilla   3500.0       2000-01-15
7  Desconocido  28.000000      Sevilla   3000.0       2000-01-15
