#### Ejemplo: Procesamiento end to end

Sea el siguiente archivo: "datos.txt":

Nombre: Juan Pérez
Edad: 30
Cargo: Analista
Departamento: Ventas
Salario: 50000

Nombre: María López
Edad: 25
Cargo: Desarrollador
Departamento: TI
Salario: 60000

Nombre: Pedro Gómez
Edad: 
Cargo: Gerente
Departamento: RRHH
Salario: 80000

Nombre: Ana Martínez
Edad: 40
Cargo: 
Departamento: TI
Salario: 70000

Deseamos cargar esta información y convertirla a un DataFrame limpio, para eso debemos implementar el siguiente código:

In [None]:
import pandas as pd

# Lista para almacenar los registros
registros = []

# Abrir el archivo y leerlo línea por línea
with open('datos.txt', 'r') as file:
    registro = {}  # Diccionario para almacenar los datos de cada empleado

    for line in file:
        # Estandarizar la línea (eliminar espacios en blanco y caracteres no deseados)
        line = line.strip()

        if line:
            # Dividir la línea en clave y valor
            clave, valor = line.split(':')

            # Eliminar espacios en blanco adicionales alrededor del valor
            clave = clave.strip()
            valor = valor.strip()

            # Agregar el par clave-valor al diccionario del registro actual
            registro[clave] = valor
        else:
            # Si se encuentra una línea en blanco, se completa un registro y se agrega a la lista
            registros.append(registro)
            registro = {}  # Restablecer el diccionario para el siguiente registro

    # Agregar el último registro a la lista
    registros.append(registro)

# Crear un DataFrame de pandas a partir de la lista de registros
df = pd.DataFrame(registros)

# Realizar técnicas de limpieza de datos
df['Edad'] = pd.to_numeric(df['Edad'], errors='coerce')  # Convertir la columna "Edad" a tipo numérico
df['Salario'] = pd.to_numeric(df['Salario'], errors='coerce')  # Convertir la columna "Salario" a tipo numérico

# Tratamiento de valores faltantes
df['Edad'].fillna(df['Edad'].mean(), inplace=True)  # Rellenar valores faltantes de "Edad" con la media
df['Cargo'].fillna('No especificado', inplace=True)  # Rellenar valores faltantes de "Cargo" con "No especificado"

# Generar variables dummy a partir de la columna "Departamento"
df = pd.get_dummies(df, columns=['Departamento'], prefix='Departamento')

# Resultado
print(df)

Después de crear el DataFrame a partir de la lista de registros, se aplican técnicas de limpieza de datos adicionales. Utilizamos pd.to_numeric() para convertir las columnas "Edad" y "Salario" en tipo numérico, y especificamos el argumento errors='coerce' para tratar los valores no numéricos como NaN.

Luego, se realiza el tratamiento de valores faltantes. Utilizamos fillna() para reemplazar los valores faltantes de la columna "Edad" con la media de los valores existentes y los valores faltantes de la columna "Cargo" con "No especificado".

Finalmente, se generan variables dummy a partir de la columna "Departamento" utilizando pd.get_dummies(). Esto crea columnas adicionales en el DataFrame para cada categoría única en la columna "Departamento".

Resultado del DataFrame:

        Nombre  Edad            Cargo  Salario  Departamento_RRHH  Departamento_TI  Departamento_Ventas
0   Juan Pérez  30.0         Analista  50000.0                  0                0                    1
1  María López  25.0     Desarrollador  60000.0                  0                1                    0
2  Pedro Gómez  31.6667          Gerente  80000.0                  1                0                    0
3  Ana Martínez  40.0  No especificado  70000.0                  0                1                    0
