In [1]:
# Importaci√≥n de las bibliotecas necesarias para el procesamiento de datos
import pandas as pd  # Pandas para manipulaci√≥n y an√°lisis de datos
import numpy as np   # NumPy para c√°lculos num√©ricos avanzados

In [3]:
# Definici√≥n de la ruta al archivo CSV que contiene los datos a limpiar
csv_path = 'datos_sucios.csv'

# Carga del archivo CSV en un DataFrame de pandas para su manipulaci√≥n
# Esta es la primera operaci√≥n de datos y nos permite trabajar con la informaci√≥n en memoria
df = pd.read_csv(csv_path)

# Visualizaci√≥n de las primeras filas del DataFrame para inspeccionar la estructura inicial de los datos
# Esto nos permite verificar que los datos se cargaron correctamente y entender su formato
print("üîπ Datos Cargados desde CSV:\n", df.head())

üîπ Datos Cargados desde CSV:
    ID Nombre  Edad      Ciudad        Salario
0   1    Ana  23.0      La Paz           5000
1   2   Luis  25.0  Cochabamba           5500
2   3  Pedro   NaN  Santa Cruz           6000
3   4  Maria  28.0      Tarija  No Disponible
4   5    NaN  30.0      La Paz           6500


In [4]:
# Verificaci√≥n de valores nulos en cada columna para identificar campos con datos faltantes
# Este an√°lisis es crucial para determinar qu√© estrategias de limpieza aplicar
print("\nüîπ Valores Nulos por Columna:\n", df.isnull().sum())


üîπ Valores Nulos por Columna:
 ID         0
Nombre     1
Edad       1
Ciudad     1
Salario    0
dtype: int64


In [5]:
# --- SECCI√ìN 1: TRATAMIENTO DE VALORES NULOS ---

# Reemplazamos los valores nulos en la columna 'Nombre' con el texto 'Desconocido'
# Justificaci√≥n: Para los nombres, usar un valor textual descriptivo es mejor que dejar el campo vac√≠o
df['Nombre'] = df['Nombre'].fillna('Desconocido')

In [6]:
# Reemplazamos los valores nulos en la columna 'Edad' con la media de las edades existentes
# Justificaci√≥n: La media es una medida estad√≠stica adecuada para valores num√©ricos como la edad
df['Edad'] = df['Edad'].fillna(df['Edad'].mean())

In [7]:
# Reemplazamos los valores nulos en la columna 'Ciudad' con el texto 'Sin Ciudad'
# Justificaci√≥n: Mantiene la integridad del conjunto de datos sin perder registros
df['Ciudad'] = df['Ciudad'].fillna('Sin Ciudad')

In [8]:
# --- SECCI√ìN 2: ELIMINACI√ìN DE DUPLICADOS ---

# Eliminamos filas duplicadas para evitar redundancia en los datos
# Justificaci√≥n: Los duplicados pueden sesgar an√°lisis estad√≠sticos y ocupan espacio innecesario
df = df.drop_duplicates()

In [9]:
# Mostramos la cantidad de filas despu√©s de eliminar duplicados para verificar el impacto
print("\nüîπ Duplicados eliminados. Total de filas:", len(df))


üîπ Duplicados eliminados. Total de filas: 10


In [10]:
# --- SECCI√ìN 3: CORRECCI√ìN DE TIPOS DE DATOS ---

# Convertimos la columna 'Salario' a tipo num√©rico utilizando coerci√≥n para manejar errores
# La opci√≥n 'coerce' convierte valores no num√©ricos (como 'No Disponible') a NaN
# Justificaci√≥n: Asegura que podamos realizar operaciones matem√°ticas con la columna
df['Salario'] = pd.to_numeric(df['Salario'], errors='coerce')

In [11]:
# Rellenamos los valores NaN (generados en el paso anterior) con la mediana de los salarios
# Justificaci√≥n: La mediana es m√°s robusta que la media ante valores extremos (outliers)
df['Salario'] = df['Salario'].fillna(df['Salario'].median())

In [12]:
# --- SECCI√ìN 4: CORRECCI√ìN DE DATOS INCONSISTENTES ---

# Estandarizamos los nombres aplicando el formato title() (primera letra en may√∫scula)
# Justificaci√≥n: Mejora la consistencia y presentaci√≥n de los datos de texto
df['Nombre'] = df['Nombre'].str.title()

In [13]:
# --- SECCI√ìN 5: TRATAMIENTO DE OUTLIERS ---

# Filtramos el DataFrame para conservar solo las filas con edad mayor o igual a 0
# Justificaci√≥n: Las edades negativas son l√≥gicamente imposibles y deben eliminarse
df = df[df['Edad'] >= 0]

In [14]:
# --- SECCI√ìN 6: ESTANDARIZACI√ìN Y NORMALIZACI√ìN ---

# Normalizamos la columna 'Salario' a un rango entre 0 y 1 usando min-max scaling
# Justificaci√≥n: Facilita la comparaci√≥n de salarios y su uso en algoritmos de an√°lisis
df['Salario_Normalizado'] = (df['Salario'] - df['Salario'].min()) / (df['Salario'].max() - df['Salario'].min())

In [15]:
# --- SECCI√ìN 7: RENOMBRAR COLUMNAS ---

# Renombramos columnas para mejorar la claridad y consistencia en la nomenclatura
# Justificaci√≥n: Nombres m√°s descriptivos facilitan la interpretaci√≥n de los datos
df = df.rename(columns={'Nombre': 'Nombre_Completo', 'Ciudad': 'Ciudad_Residencia'})

In [16]:
# --- SECCI√ìN 8: FILTRAR DATOS IRRELEVANTES ---

# Verificamos si existe la columna 'ID' y la eliminamos si est√° presente
# Justificaci√≥n: Si la columna ID no aporta valor anal√≠tico, es mejor eliminarla para simplificar el dataset
if 'ID' in df.columns:
    df = df.drop(columns=['ID'])

In [17]:
# --- SECCI√ìN 9: RESULTADO FINAL ---

# Mostramos el DataFrame limpio para verificar todos los cambios realizados
print("\n‚úÖ DataFrame Limpio:\n", df)


‚úÖ DataFrame Limpio:
   Nombre_Completo       Edad Ciudad_Residencia  Salario  Salario_Normalizado
0             Ana  23.000000            La Paz   5000.0             0.000000
1            Luis  25.000000        Cochabamba   5500.0             0.166667
2           Pedro  23.888889        Santa Cruz   6000.0             0.333333
3           Maria  28.000000            Tarija   6500.0             0.500000
4     Desconocido  30.000000            La Paz   6500.0             0.500000
5          Carlos  30.000000        Cochabamba   6500.0             0.500000
6          Andres  21.000000        Santa Cruz   7000.0             0.666667
7           Maria  28.000000        Sin Ciudad   7200.0             0.733333
9          Andr√©s  35.000000            La Paz   8000.0             1.000000


In [18]:
# --- SECCI√ìN 10: GUARDAR RESULTADOS ---

# Guardamos el DataFrame limpio en un nuevo archivo CSV sin incluir el √≠ndice
# Justificaci√≥n: Preservar los datos limpios para futuros an√°lisis sin necesidad de repetir el proceso
df.to_csv('datos_limpios.csv', index=False)

# Confirmaci√≥n al usuario de que el proceso se ha completado exitosamente
print("\n‚úÖ Datos limpios guardados en 'datos_limpios.csv'")


‚úÖ Datos limpios guardados en 'datos_limpios.csv'
