In [1]:
# Importación de las bibliotecas necesarias para el procesamiento de datos
import pandas as pd  # Pandas para manipulación y análisis de datos
import numpy as np   # NumPy para cálculos numéricos avanzados

In [3]:
# Definición de la ruta al archivo CSV que contiene los datos a limpiar
csv_path = 'datos_sucios.csv'

# Carga del archivo CSV en un DataFrame de pandas para su manipulación
# Esta es la primera operación de datos y nos permite trabajar con la información en memoria
df = pd.read_csv(csv_path)

# Visualización de las primeras filas del DataFrame para inspeccionar la estructura inicial de los datos
# Esto nos permite verificar que los datos se cargaron correctamente y entender su formato
print("🔹 Datos Cargados desde CSV:\n", df.head())

🔹 Datos Cargados desde CSV:
    ID Nombre  Edad      Ciudad        Salario
0   1    Ana  23.0      La Paz           5000
1   2   Luis  25.0  Cochabamba           5500
2   3  Pedro   NaN  Santa Cruz           6000
3   4  Maria  28.0      Tarija  No Disponible
4   5    NaN  30.0      La Paz           6500


In [4]:
# Verificación de valores nulos en cada columna para identificar campos con datos faltantes
# Este análisis es crucial para determinar qué estrategias de limpieza aplicar
print("\n🔹 Valores Nulos por Columna:\n", df.isnull().sum())


🔹 Valores Nulos por Columna:
 ID         0
Nombre     1
Edad       1
Ciudad     1
Salario    0
dtype: int64


In [5]:
# --- SECCIÓN 1: TRATAMIENTO DE VALORES NULOS ---

# Reemplazamos los valores nulos en la columna 'Nombre' con el texto 'Desconocido'
# Justificación: Para los nombres, usar un valor textual descriptivo es mejor que dejar el campo vacío
df['Nombre'] = df['Nombre'].fillna('Desconocido')

In [6]:
# Reemplazamos los valores nulos en la columna 'Edad' con la media de las edades existentes
# Justificación: La media es una medida estadística adecuada para valores numéricos como la edad
df['Edad'] = df['Edad'].fillna(df['Edad'].mean())

In [7]:
# Reemplazamos los valores nulos en la columna 'Ciudad' con el texto 'Sin Ciudad'
# Justificación: Mantiene la integridad del conjunto de datos sin perder registros
df['Ciudad'] = df['Ciudad'].fillna('Sin Ciudad')

In [8]:
# --- SECCIÓN 2: ELIMINACIÓN DE DUPLICADOS ---

# Eliminamos filas duplicadas para evitar redundancia en los datos
# Justificación: Los duplicados pueden sesgar análisis estadísticos y ocupan espacio innecesario
df = df.drop_duplicates()

In [9]:
# Mostramos la cantidad de filas después de eliminar duplicados para verificar el impacto
print("\n🔹 Duplicados eliminados. Total de filas:", len(df))


🔹 Duplicados eliminados. Total de filas: 10


In [10]:
# --- SECCIÓN 3: CORRECCIÓN DE TIPOS DE DATOS ---

# Convertimos la columna 'Salario' a tipo numérico utilizando coerción para manejar errores
# La opción 'coerce' convierte valores no numéricos (como 'No Disponible') a NaN
# Justificación: Asegura que podamos realizar operaciones matemáticas con la columna
df['Salario'] = pd.to_numeric(df['Salario'], errors='coerce')

In [11]:
# Rellenamos los valores NaN (generados en el paso anterior) con la mediana de los salarios
# Justificación: La mediana es más robusta que la media ante valores extremos (outliers)
df['Salario'] = df['Salario'].fillna(df['Salario'].median())

In [12]:
# --- SECCIÓN 4: CORRECCIÓN DE DATOS INCONSISTENTES ---

# Estandarizamos los nombres aplicando el formato title() (primera letra en mayúscula)
# Justificación: Mejora la consistencia y presentación de los datos de texto
df['Nombre'] = df['Nombre'].str.title()

In [13]:
# --- SECCIÓN 5: TRATAMIENTO DE OUTLIERS ---

# Filtramos el DataFrame para conservar solo las filas con edad mayor o igual a 0
# Justificación: Las edades negativas son lógicamente imposibles y deben eliminarse
df = df[df['Edad'] >= 0]

In [14]:
# --- SECCIÓN 6: ESTANDARIZACIÓN Y NORMALIZACIÓN ---

# Normalizamos la columna 'Salario' a un rango entre 0 y 1 usando min-max scaling
# Justificación: Facilita la comparación de salarios y su uso en algoritmos de análisis
df['Salario_Normalizado'] = (df['Salario'] - df['Salario'].min()) / (df['Salario'].max() - df['Salario'].min())

In [15]:
# --- SECCIÓN 7: RENOMBRAR COLUMNAS ---

# Renombramos columnas para mejorar la claridad y consistencia en la nomenclatura
# Justificación: Nombres más descriptivos facilitan la interpretación de los datos
df = df.rename(columns={'Nombre': 'Nombre_Completo', 'Ciudad': 'Ciudad_Residencia'})

In [16]:
# --- SECCIÓN 8: FILTRAR DATOS IRRELEVANTES ---

# Verificamos si existe la columna 'ID' y la eliminamos si está presente
# Justificación: Si la columna ID no aporta valor analítico, es mejor eliminarla para simplificar el dataset
if 'ID' in df.columns:
    df = df.drop(columns=['ID'])

In [17]:
# --- SECCIÓN 9: RESULTADO FINAL ---

# Mostramos el DataFrame limpio para verificar todos los cambios realizados
print("\n✅ DataFrame Limpio:\n", df)


✅ DataFrame Limpio:
   Nombre_Completo       Edad Ciudad_Residencia  Salario  Salario_Normalizado
0             Ana  23.000000            La Paz   5000.0             0.000000
1            Luis  25.000000        Cochabamba   5500.0             0.166667
2           Pedro  23.888889        Santa Cruz   6000.0             0.333333
3           Maria  28.000000            Tarija   6500.0             0.500000
4     Desconocido  30.000000            La Paz   6500.0             0.500000
5          Carlos  30.000000        Cochabamba   6500.0             0.500000
6          Andres  21.000000        Santa Cruz   7000.0             0.666667
7           Maria  28.000000        Sin Ciudad   7200.0             0.733333
9          Andrés  35.000000            La Paz   8000.0             1.000000


In [18]:
# --- SECCIÓN 10: GUARDAR RESULTADOS ---

# Guardamos el DataFrame limpio en un nuevo archivo CSV sin incluir el índice
# Justificación: Preservar los datos limpios para futuros análisis sin necesidad de repetir el proceso
df.to_csv('datos_limpios.csv', index=False)

# Confirmación al usuario de que el proceso se ha completado exitosamente
print("\n✅ Datos limpios guardados en 'datos_limpios.csv'")


✅ Datos limpios guardados en 'datos_limpios.csv'
