#Preparación de Datos

La preparación de datos consiste en un conjunto de acciones orientadas a garantizar que los datos estén en condiciones óptimas para su análisis, modelado o interpretación. Las acciones en esta etapa son:
- Carga de datos
- Perfilado de datos
- Preprocesamiento o limpieza de datos
- Transformación de datos
- Visualización exploratoria

En este cuaderno se presentan ejemplos en cada una de las acciones.

Por:

Ferney Orlando Amaya Fernández



#1.Ejemplo de Preparación de Datos

Inicialmente se importan las librerías a emplear.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
pd.set_option('future.no_silent_downcasting', True)

##1.1. Carga de Datos

En la práctica, los datos suelen cargarse desde archivos o bases de datos.

Se presenta un ejemplo:

In [None]:
#Ruta del archivo
ruta_archivo = 'https://github.com/FerneyOAmaya/Competencias-Digitales/blob/master/DB_AnalisisDatos.xlsx?raw=true'

#Cargar el archivo en formato Excel
df = pd.read_excel(ruta_archivo)
df

Se empleará el siguiente DataFrame:

In [None]:
data = {
    'Nombre': ['Ana', 'Luis', 'Luis', 'Marta', 'Juan', np.nan, np.nan],
    'Apellido': ['Gómez', 'Pérez', 'Pérez', 'López', 'Martínez', 'Ruiz', 'Ruiz'],
    'Edad': [25, 30, 30, 22, np.nan, 40, 40],
    'Ciudad': ['Bogotá', 'Medellín', 'Medellín', 'Cali', 'Bogotá', 'Bogotá', 'Bogotá'],
    'Ingreso': ['1000', '2000', '2000', '1500', 'NaN', '2500', '2500'],
    'Género': ['F', 'M', 'M', 'Femenino', 'Masculino', 'M', 'M']
}
df = pd.DataFrame(data)
df.head(3)

##1.2. Perfilado de datos

Se realiza un análisis exploratorio inicial para comprender la estructura, el contenido y la calidad del conjunto de datos:

In [None]:
# Estructura general
df.info()

In [None]:
df.describe(include='all')

In [None]:
# Conteo de valores nulos
print('CONTEO DE VALORES NULOS')
print('-------------------------')
print(df.isnull().sum())

# Identificación de duplicados
print('\nIDENTIFICACIÓN DE DUPLICADOS')
print('-------------------------')
print("Duplicados:", df.duplicated().sum())

# Valores únicos en la columna 'Género'
print('\nVALORES ÚNICOS COLUMNA GÉNERO')
print('-------------------------')
print(df['Género'].value_counts())

Es importante observar que la variable ingreso está representada como cadena de caracteres, por lo que será necesario convertirla en una variable numérica.

##1.3.Preprocesamiento o limpieza de datos

###1.3.1. Eliminar duplicados

Se eliminarán los duplicados de la siguiente forma:


In [None]:
df = df.drop_duplicates()
df

###1.3.2. Tratamiento de valores nulos

Se realizarán varias acciones:
- Se eliminarán los registros que tengan valores nulos en el nombre.
- Para la edad, se reemplazarán los valores nulos con el promedio de la columna.
- La variable ingresos se pasará a numérica.
- Para los ingresos, se reemplazarán los valores nulos con el promedio de la columna.

Inicialmente se eliminan los registros que tengan valores nulos en el nombre.

In [None]:
df = df.dropna(subset=['Nombre'])
df


Se reemplazarán los valores nulos con el promedio de la columna para la edad:

In [None]:
promedio_edad = df['Edad'].mean()
df.loc[:, 'Edad'] = df['Edad'].fillna(promedio_edad)
df

Se pasan los ingresos a numéricos:

In [None]:
df.loc[:, 'Ingreso'] = pd.to_numeric(df['Ingreso'], errors='coerce')

Se reemplazarán los valores nulos con el promedio de la columna para los Ingresos:

In [None]:
promedio_ingreso = df['Ingreso'].mean()
df.loc[:, 'Ingreso'] = df['Ingreso'].fillna(promedio_ingreso)
df

##1.4. Transformación de datos

Para este conjunto de datos en particular realizaremos 4 acciones:
- Estandarizar valores de la columna “Género”
- Crear una nueva columna “Ingreso_mensual”
- Codificar variable categórica “Ciudad”



###1.4.1 Estandarizar valores de la columna “Género”

Se convierten los caracteres a mayúsculas para estandarizar:

In [None]:
df.loc[:,'Género'] = df['Género'].str.upper()
df

Se realiza un mapeo de equivalencias:

In [None]:
df.loc[:, 'Género'] = df['Género'].replace({
    'FEMENINO': 'F',
    'MASCULINO': 'M',
    'F': 'F',
    'M': 'M'
})
df

###1.4.2 Crear una nueva columna “Ingreso_mensual”

In [None]:
df.loc[:, 'Ingreso_mensual'] = df['Ingreso'] / 12

###1.4.3 Codificar variable categórica “Ciudad”

In [None]:
df['Ciudad_cod'] = df['Ciudad'].astype('category').cat.codes
df

##1.5. Visualización exploratoria

- Histograma de edades

In [None]:
df['Edad'].hist(bins=8, color='skyblue', edgecolor='black')
plt.title("Distribución de Edad")
plt.xlabel("Edad")
plt.ylabel("Frecuencia")
plt.show()

- Boxplot de ingresos por género

In [None]:
df[['Género', 'Ingreso']].plot(kind='box')
plt.title("Ingreso por Género")
plt.show()

- Relación Edad Ingreso






In [None]:
df.plot(kind='scatter', x='Edad', y='Ingreso', c='Ciudad_cod', colormap='viridis')
plt.title("Relación Edad - Ingreso")
plt.grid(True)
plt.show()

#2.Manejo de valores atípicos

Se presenta un ejemplo para observar el manejo de valores atípicos.

Inicialmente se cargan las librerías a emplear:

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
pd.set_option('future.no_silent_downcasting', True)

Partimos del siguiente DataFrame creado manualmente para observar mejor el proceso. Se asume que los valores atípicos se presentan en los Ingresos y son 10000 y 12000.

In [None]:
data = {
    'ID': range(1, 11),
    'Nombre': ['Ana', 'Luis', 'Marta', 'Juan', 'Sofía', 'Pedro', 'Laura', 'Carlos', 'Elena', 'Tomás'],
    'Edad': [25, 30, 28, 32, 45, 29, 31, 27, 26, 33],
    'Ingreso': [1000, 1100, 1200, 1150, 1080, 6000, 1050, 1020, 7000, 980]  # Outliers: 10000 y 12000
}
df = pd.DataFrame(data)
df.head(3)

##2.1. Identificar valores atípicos

###2.1.1. Visualmente con un boxplot

In [None]:
df['Ingreso'].plot(kind='box')
plt.title('Boxplot de Ingreso')
plt.ylabel('Ingreso')
plt.grid(True)
plt.show()

###2.1.2 Estadísticamente con IQR

In [None]:
# Calcular IQR
Q1 = df['Ingreso'].quantile(0.25)
Q3 = df['Ingreso'].quantile(0.75)
IQR = Q3 - Q1

# Límites para outliers
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Detectar outliers
outliers = df[(df['Ingreso'] < limite_inferior) | (df['Ingreso'] > limite_superior)]
print("Valores atípicos detectados:")
print(outliers)

##2.2 Alternativa: Eliminar valores atípicos

Una alternativa es eliminar los valores atípicos.

In [None]:
df_sin_outliers = df[(df['Ingreso'] >= limite_inferior) & (df['Ingreso'] <= limite_superior)]
df_sin_outliers

##2.3. Alternativa: Transformar valores atípicos

Otra alternativa es transformar los valores atípicos. En este caso, los limitaremos a los percentiles:

In [None]:
p10 = df['Ingreso'].quantile(0.1)
p90 = df['Ingreso'].quantile(0.90)
df.loc[:, 'Transformado'] = df['Ingreso'].clip(lower=p10, upper=p90)
df

##2.4 Escalado logarítmico

Otra alternativa es el escalado logarítmico, que reduce la escala de los valores atípicos. Se suma 1 para evitar log(0):

In [None]:
df.loc[:, 'Escalado'] = np.log(df['Ingreso'] + 1)
df

##2.5. Visualización comparativa de los diferentes métodos

In [None]:
plt.figure(figsize=(10, 6))
plt.boxplot([df['Ingreso'], df_sin_outliers['Ingreso'], df['Transformado'], df['Escalado']],
            tick_labels=['Original', 'Sin Outliers', 'Transformado', 'Escalado'])
plt.title('Comparación de Métodos para el Manejo de Valores Atípicos')
plt.ylabel('Ingreso')
plt.show()


#3.Ejercicios de Preparación de Datos

##3.1. Ejercicio 1

In [None]:
datos = {
    'ciudad': ['Bogotá', 'Medellín', 'Cali', 'Barranquilla', 'Bogotá',
               'Cali', 'Bucaramanga', 'Cartagena', 'Manizales', 'Bogotá'],
    'nombre': ['Ana', 'Luis', np.nan, 'Marta', 'Lucía', 'Carlos',
               'Pedro', 'Elena', 'David', 'Ana'],
    'edad': [25, 30, 22, np.nan, 28, 22, 35, 27, np.nan, 25],
    'género': ['Femenino', 'M', 'Masculino', 'F', 'Femenino',
               'Masculino', 'Masculino', 'Femenino', 'Masculino', 'Femenino'],
    'ingreso': [2200, 3500, 1800, 2100, 2600, 1800, 4000, 2900, 3100, 2200]
}
df = pd.DataFrame(datos)

##3.2. Ejercicio 2

In [None]:
datos = {
    'departamento': ['Ventas', 'Finanzas', 'TI', 'Recursos Humanos', 'TI',
                     'Ventas', 'Marketing', 'Finanzas', 'Marketing', 'TI'],
    'nombre': ['Carlos', 'Ana', 'Luis', 'Marta', 'Luis',
               'Carlos', 'Lucía', 'Ana', 'Lucía', 'Pedro'],
    'género': ['Masculino', 'Femenino', 'Masculino', 'Femenino', 'Masculino',
               'Masculino', 'Femenino', 'Femenino', 'Femenino', 'Masculino'],
    'edad': [35, 29, 41, 38, 41, 35, 27, np.nan, 27, np.nan],
    'antigüedad': [5, 2, 10, 4, 10, 5, 3, 1, 3, 7],
    'salario': [35000, 28000, 50000, 30000, 50000,
                35000, 26000, 28000, np.nan, 45000]
}
df = pd.DataFrame(datos)

##3.3. Ejercicio 3

In [None]:
ruta_archivo = 'https://github.com/FerneyOAmaya/Competencias-Digitales/blob/master/DB_AnalisisDatos.xlsx?raw=true'

#Cargar el archivo en formato Excel
df = pd.read_excel(ruta_archivo)
df