In [2]:
import pandas as pd

# --------------------------------------------
# 3. Leer el archivo CSV sin encabezado y asignar nombres de columnas
# --------------------------------------------
# Suponiendo que el archivo se llama 'datos.csv' y está en el mismo directorio
# Usamos header=None para indicar que no hay encabezados en el archivo original
# Asignamos nombres personalizados con el parámetro names
df = pd.read_csv('datos.csv',
                 header=None,
                 names=['nombre', 'edad', 'ciudad'],
                 na_values=['?', 'NA', ''])  # Definimos valores que deben considerarse como nulos

print("\nDatos cargados (primeras filas):")
print(df.head())

# --------------------------------------------
# 4. Limpieza de datos
# --------------------------------------------
# a) Reemplazar valores nulos (los definidos en na_values)
# Para columnas numéricas (edad) usamos la mediana
# Para columnas categóricas (nombre, ciudad) usamos la moda
df['edad'] = df['edad'].fillna(df['edad'].median())
df['nombre'] = df['nombre'].fillna(df['nombre'].mode()[0])
df['ciudad'] = df['ciudad'].fillna(df['ciudad'].mode()[0])

# b) Eliminar filas duplicadas
df = df.drop_duplicates()

print("\nDatos después de la limpieza:")
print(df.head())

# --------------------------------------------
# 5. Exportar el DataFrame limpio
# --------------------------------------------
# Usamos sep=';' como delimitador y encoding='utf-8'
# index=False para no incluir el índice automático
df.to_csv('datos_limpios.csv',
          sep=';',
          encoding='utf-8',
          index=False)

print("\nProceso completado!")
print(f"Archivo guardado como: 'datos_limpios.csv'")
print(f"Registros originales: {len(pd.read_csv('datos.csv', header=None))}")
print(f"Registros limpios: {len(df)}")


Datos cargados (primeras filas):
  nombre  edad     ciudad
0   Juan  25.0     Madrid
1  Maria   NaN  Barcelona
2  Pedro  30.0        NaN
3   Luis  25.0     Madrid
4    NaN  28.0   Valencia

Datos después de la limpieza:
  nombre  edad     ciudad
0   Juan  25.0     Madrid
1  Maria  29.0  Barcelona
2  Pedro  30.0     Madrid
3   Luis  25.0     Madrid
4    Ana  28.0   Valencia

Proceso completado!
Archivo guardado como: 'datos_limpios.csv'
Registros originales: 10
Registros limpios: 10
