In [1]:
# --------------------------------------------
# 1. Leer el archivo CSV generado
# --------------------------------------------

# Leer el archivo CSV
import pandas as pd
df = pd.read_csv('C:/Users/layla/Escritorio/Fundamentos de ETL con Python/Codigos y Notebooks/11. Limpieza de Datos/datos_ejemplo.csv')

# Mostrar el DataFrame original
print("DataFrame Original (Leído desde el CSV):")
print(df)

DataFrame Original (Leído desde el CSV):
   ID  Nombre             Edad Genero  Salario Departamento
0   1     Ana               25      F  50000.0       Ventas
1   2    Luis               30      M      NaN    Marketing
2   3  Carlos  Treinta y cinco      M  60000.0       Ventas
3   4   Sofia               40      F  55000.0         RRHH
4   5     NaN               45      M  70000.0           TI


In [2]:
# --------------------------------------------
# 2. Manejo de valores nulos
# --------------------------------------------
print("\nValores nulos por columna:")
print(df.isnull().sum())  # Verificar valores nulos

# Eliminar las filas que contienen valores nulos
df_sin_nulos = df.dropna()

# Rellenar los valores nulos con un valor específico (por ejemplo, 0 o 'Desconocido')
df_rellenado = df.fillna({'Salario': 0, 'Nombre': 'Desconocido'})

print("\nDataFrame después de eliminar nulos:")
print(df_sin_nulos)

print("\nDataFrame después de rellenar nulos:")
print(df_rellenado)


Valores nulos por columna:
ID              0
Nombre          1
Edad            0
Genero          0
Salario         1
Departamento    0
dtype: int64

DataFrame después de eliminar nulos:
   ID  Nombre             Edad Genero  Salario Departamento
0   1     Ana               25      F  50000.0       Ventas
2   3  Carlos  Treinta y cinco      M  60000.0       Ventas
3   4   Sofia               40      F  55000.0         RRHH

DataFrame después de rellenar nulos:
   ID       Nombre             Edad Genero  Salario Departamento
0   1          Ana               25      F  50000.0       Ventas
1   2         Luis               30      M      0.0    Marketing
2   3       Carlos  Treinta y cinco      M  60000.0       Ventas
3   4        Sofia               40      F  55000.0         RRHH
4   5  Desconocido               45      M  70000.0           TI


In [3]:
# --------------------------------------------
# 3. Detección y corrección de errores en los tipos de datos
# --------------------------------------------
# Intentar convertir la columna 'Edad' a numérica
df['Edad'] = pd.to_numeric(df['Edad'], errors='coerce')

# Ver los tipos de datos de las columnas
print("\nTipos de datos antes de la corrección:")
print(df.dtypes)

# Corregir valores no numéricos en 'Edad' (por ejemplo, convertir a NaN)
df['Edad'] = df['Edad'].fillna(df['Edad'].mean())  # Rellenar los NaN con el promedio de la columna

# Ver los tipos de datos después de la corrección
print("\nTipos de datos después de la corrección:")
print(df.dtypes)

# Ver el DataFrame corregido
print("\nDataFrame corregido:")
print(df)


Tipos de datos antes de la corrección:
ID                int64
Nombre           object
Edad            float64
Genero           object
Salario         float64
Departamento     object
dtype: object

Tipos de datos después de la corrección:
ID                int64
Nombre           object
Edad            float64
Genero           object
Salario         float64
Departamento     object
dtype: object

DataFrame corregido:
   ID  Nombre  Edad Genero  Salario Departamento
0   1     Ana  25.0      F  50000.0       Ventas
1   2    Luis  30.0      M      NaN    Marketing
2   3  Carlos  35.0      M  60000.0       Ventas
3   4   Sofia  40.0      F  55000.0         RRHH
4   5     NaN  45.0      M  70000.0           TI


In [4]:
# --------------------------------------------
# 4. Conversión de variables categóricas en números
# --------------------------------------------
# Conversión de variables categóricas en números
df['Genero'] = df['Genero'].map({'F': 0, 'M': 1})  # 'F' -> 0, 'M' -> 1

# Usar la técnica de 'get_dummies' para convertir 'Departamento' en variables dummy
df = pd.get_dummies(df, columns=['Departamento'], drop_first=True)

# Ver el DataFrame final
print("\nDataFrame con variables categóricas convertidas:")
print(df)


DataFrame con variables categóricas convertidas:
   ID  Nombre  Edad  Genero  Salario  Departamento_RRHH  Departamento_TI  \
0   1     Ana  25.0       0  50000.0              False            False   
1   2    Luis  30.0       1      NaN              False            False   
2   3  Carlos  35.0       1  60000.0              False            False   
3   4   Sofia  40.0       0  55000.0               True            False   
4   5     NaN  45.0       1  70000.0              False             True   

   Departamento_Ventas  
0                 True  
1                False  
2                 True  
3                False  
4                False  
