# Técnicas de ingeniería de funciones para datos estructurados: tutorial de aprendizaje automático

La ingeniería de características es un paso esencial en el proceso de preprocesamiento de datos, especialmente cuando se trata de datos tabulares.

Implica crear nuevas funciones (columnas), transformar las existentes y seleccionar los atributos más relevantes para mejorar el rendimiento y la precisión de los modelos de aprendizaje automático.

La ingeniería de características ayuda al modelo a comprender los patrones, relaciones y matices subyacentes de los datos. Desempeña un papel crucial en el éxito de un proyecto de aprendizaje automático, ya que puede convertir un buen modelo en uno excelente optimizando las funciones de entrada. La ingeniería de funciones eficaz también conduce a tiempos de capacitación más rápidos y resultados más interpretables.

Antes de profundizar en el ámbito de la ingeniería de funciones, es necesario reconocer el papel fundamental de la limpieza de datos para garantizar el éxito de la ingeniería de funciones. Abordar los valores faltantes, manejar los valores atípicos y resolver las inconsistencias no solo mejora la integridad de los datos, sino que también establece una base sólida para la posterior extracción y transformación de características.

En este tutorial, exploraremos el concepto de ingeniería de características para datos estructurados. Cubriremos algunas técnicas como escalado de funciones, creación de funciones, selección de funciones y agrupación. Usaremos un conjunto de datos hipotético para demostrar estas diversas técnicas de ingeniería de características.

Comencemos creando algunos datos ficticios.

Cómo crear datos ficticios
Usaremos Python y la pandasbiblioteca para crear un conjunto de datos ficticio para nuestros ejemplos de ingeniería de funciones. Así es como puedes generar datos ficticios:

In [74]:
import pandas as pd
# Create a sample dataframe
data = {
'Age': [25, 30, 35, 40, 45],
'Income': [50000, 60000, 75000, 90000, 80000],
'Education': ['High School', 'Bachelor', 'Master', 'Ph.D.', 'Bachelor'],
'City': ['New York', 'San Francisco', 'Chicago', 'Los Angeles', 'Miami'],
'Gender': ['Male', 'Female', 'Male', 'Female', 'Male'],
'Productivity': [5, 4, 3, 2, 4]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Age,Income,Education,City,Gender,Productivity
0,25,50000,High School,New York,Male,5
1,30,60000,Bachelor,San Francisco,Female,4
2,35,75000,Master,Chicago,Male,3
3,40,90000,Ph.D.,Los Angeles,Female,2
4,45,80000,Bachelor,Miami,Male,4


Como se vio arriba, el conjunto de datos ficticio creado consta de seis características: "Edad", "Ingresos", "Educación", "Ciudad", "Género" y "Productividad".

Ahora, exploremos diferentes técnicas de ingeniería de características.

Codificación en caliente
La codificación one-hot es un método utilizado para convertir variables categóricas en una matriz binaria. Nuestro conjunto de datos tiene algunas columnas llenas de palabras como género, educación y ciudades.

Pero a las máquinas les gustan los números, no las palabras. Entonces usaremos una técnica llamada codificación one-hot. Es como darle a cada categoría su propio interruptor: ya sea encendido (1) o apagado (0). Crea una columna binaria para cada categoría dentro de una característica categórica.

Esta técnica es esencial porque muchos algoritmos de aprendizaje automático no pueden funcionar directamente con datos categóricos.

Ejemplo de codificación one-hot
Apliquemos codificación one-hot a las columnas 'Educación', 'Ciudad' y 'Género' de nuestro conjunto de datos. Usaremos la get_dummiesfunción de pandaspara este propósito:

In [75]:
## Perform one-hot encoding
df_encoded = pd.get_dummies(df, columns=['Education', 'City', 'Gender'])

Después de la codificación one-hot, nuestro conjunto de datos ahora tendrá columnas binarias para cada categoría dentro de "Educación", "Ciudad" y "Género". Esta transformación permite que los modelos de aprendizaje automático comprendan y utilicen estas variables categóricas de forma eficaz.

In [76]:
df_encoded

Unnamed: 0,Age,Income,Productivity,Education_Bachelor,Education_High School,Education_Master,Education_Ph.D.,City_Chicago,City_Los Angeles,City_Miami,City_New York,City_San Francisco,Gender_Female,Gender_Male
0,25,50000,5,False,True,False,False,False,False,False,True,False,False,True
1,30,60000,4,True,False,False,False,False,False,False,False,True,True,False
2,35,75000,3,False,False,True,False,True,False,False,False,False,False,True
3,40,90000,2,False,False,False,True,False,True,False,False,False,True,False
4,45,80000,4,True,False,False,False,False,False,True,False,False,False,True


Como puede ver en la imagen de arriba, las columnas categóricas ahora se están transformando en una matriz binaria.

Escalado de funciones
El escalado de características es crucial cuando se trabaja con características numéricas que tienen diferentes escalas. El escalado garantiza que todas las características contribuyan por igual al modelo, evitando que una característica domine a las demás.

En nuestros datos, "Edad" e "Ingresos" pueden tener escalas diferentes. La "edad" podría ir de 0 a 100, mientras que los "ingresos" podrían ir de 20.000 a 200.000. El escalado de funciones hace que funcionen bien juntas al ponerlas en la misma escala.

Ejemplo de escalado de características
En nuestro conjunto de datos, 'Edad' e 'Ingresos' tienen escalas diferentes. Para escalar estas funciones, usaremos el StandardScalerdel sklearn.preprocessingmódulo:

In [77]:
from sklearn.preprocessing import StandardScaler
# Initialize the StandardScaler
scaler = StandardScaler()
# Fit and transform the selected columns
df_encoded['Income per Age'] = df_encoded['Income'] / df_encoded['Age'] # Ponerlo aquí para que no se vea afectado por el escalado
df_encoded[['Age', 'Income']] = scaler.fit_transform(df_encoded[['Age', 'Income']])
df_encoded

Unnamed: 0,Age,Income,Productivity,Education_Bachelor,Education_High School,Education_Master,Education_Ph.D.,City_Chicago,City_Los Angeles,City_Miami,City_New York,City_San Francisco,Gender_Female,Gender_Male,Income per Age
0,-1.414214,-1.470294,5,False,True,False,False,False,False,False,True,False,False,True,2000.0
1,-0.707107,-0.770154,4,True,False,False,False,False,False,False,False,True,True,False,2000.0
2,0.0,0.280056,3,False,False,True,False,True,False,False,False,False,False,True,2142.857143
3,0.707107,1.330266,2,False,False,False,True,False,True,False,False,False,True,False,2250.0
4,1.414214,0.630126,4,True,False,False,False,False,False,True,False,False,False,True,1777.777778


En el código anterior, ahora podemos ver que la 'Edad' y los 'Ingresos' se han escalado para tener una media de 0 y una desviación estándar de 1. Esto los hace compatibles para el modelado y ayuda a los algoritmos que se basan en distancias o gradientes. Desempeñar mejor.

Creación de funciones
La creación de funciones es una de las técnicas más fundamentales en la ingeniería de funciones. Implica generar nuevas características (columnas) a partir de las existentes para proporcionar información adicional al modelo. Puede ayudar a descubrir relaciones y patrones complejos dentro de los datos.

Digamos que mezclamos 'Edad' e 'Ingresos' para crear una nueva función llamada 'Ingresos por edad'. Esta nueva característica podría ayudar a nuestro modelo a comprender cómo se relacionan el dinero y la edad.

Ejemplo de creación de funciones
En nuestro conjunto de datos, podemos crear una nueva característica, 'Ingresos por edad', para capturar la relación entre ingresos y edad. Esta puede ser una característica útil para determinadas tareas de predicción:

In [78]:
# Create a new feature 'Income per Age'
# df_encoded['Income per Age'] = df_encoded['Income'] / df_encoded['Age']
df_encoded

Unnamed: 0,Age,Income,Productivity,Education_Bachelor,Education_High School,Education_Master,Education_Ph.D.,City_Chicago,City_Los Angeles,City_Miami,City_New York,City_San Francisco,Gender_Female,Gender_Male,Income per Age
0,-1.414214,-1.470294,5,False,True,False,False,False,False,False,True,False,False,True,2000.0
1,-0.707107,-0.770154,4,True,False,False,False,False,False,False,False,True,True,False,2000.0
2,0.0,0.280056,3,False,False,True,False,True,False,False,False,False,False,True,2142.857143
3,0.707107,1.330266,2,False,False,False,True,False,True,False,False,False,True,False,2250.0
4,1.414214,0.630126,4,True,False,False,False,False,False,True,False,False,False,True,1777.777778


La función 'Ingresos por edad' proporciona una medida del ingreso en relación con la edad, lo que podría resultar valioso en varios escenarios de modelado. Con esto se ha creado una columna adicional.

Selección de características
La selección de características es el proceso de elegir las características más relevantes para una tarea de modelado determinada. Reducir la cantidad de funciones puede mejorar el rendimiento del modelo, reducir el sobreajuste y acelerar el entrenamiento. Facilita el trabajo de su modelo porque no tiene que lidiar con cosas innecesarias.

Ejemplo de selección de funciones
Supongamos que queremos seleccionar las características más relevantes para predecir la "Productividad". Podemos utilizar técnicas de selección de características como la Eliminación recursiva de características (RFE) con un modelo de regresión lineal:

In [79]:
from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression

# Separate the target variable and the features
X = df_encoded.drop('Productivity', axis=1)
y = df_encoded['Productivity']

# Initialize the linear regression model
model = LinearRegression()

# Perform RFE with cross-validation
rfe = RFE(model, n_features_to_select=3)  # Select the top 3 features
fit = rfe.fit(X, y)  # Corrected: use X instead of x

# Print the selected features
selected_features = X.columns[fit.support_]
print('Selected Features:', selected_features)

Selected Features: Index(['Income', 'City_Chicago', 'City_Miami'], dtype='object')


A partir de nuestros datos, utilizamos RFE para seleccionar las 3 características principales que son más relevantes para predecir la "Productividad". Esto reduce la dimensionalidad de los datos y puede mejorar el rendimiento del modelo.

Este resultado recibido indica que, de acuerdo con el proceso de Eliminación de características recursivas (RFE), las columnas: 'Ingresos', 'Ciudad_Miami' y 'Género_Masculino' se consideran las más importantes o informativas para predecir la variable objetivo 'Productividad' utilizando un método lineal. Modelo de regresión.

Analicemos la interpretación:

Ingresos: la función "Ingresos" probablemente se identifique como un predictor importante. Sugiere que, según el proceso RFE, los cambios en los ingresos tienen un impacto significativo en la predicción de la "productividad" basada en el modelo de regresión lineal dado.
City_Miami: La presencia de 'City_Miami' como característica importante sugiere que, en el contexto de nuestros datos, si un individuo es de Miami o no contribuye significativamente a predecir la 'Productividad'.
Gender_Male: De manera similar, la característica 'Gender_Male' se considera importante. Esto implica que, según el modelo, el género de un individuo, específicamente el sexo masculino, es informativo para predecir la "productividad".
Es importante señalar que la interpretación de "importancia" aquí es específica del modelo de regresión lineal utilizado en combinación con la técnica de selección de características RFE. RFE clasifica las características según su contribución al rendimiento del modelo en la predicción de la variable objetivo.

Binning y cubos
Binning o cubeta implica agrupar datos numéricos continuos en intervalos discretos. Puede ayudar a capturar relaciones no lineales y hacer que el modelado sea más sólido.  

Consideremos un ejemplo práctico. Según nuestros datos ficticios, en lugar de tratar la columna "Edad" como una variable continua, decide agruparla en categorías como "Joven", "Mid-carrera" y "Senior" para comprender mejor cómo se relaciona la edad con la productividad.

Después de su análisis, es posible que descubra que los empleados en la categoría "Mid-carrera" tienden a tener los niveles de productividad más altos. Esto no significa que la edad cause directamente la productividad, pero sugiere una relación potencial que podría verse influenciada por factores como la experiencia, el desarrollo de habilidades y la familiaridad con el trabajo.

Al agrupar la edad en categorías, ha hecho que la relación edad-productividad sea más interpretable, lo que puede proporcionarle a su modelo información más detallada.

Ejemplo de agrupación
Digamos que queremos crear contenedores para la función 'Edad'. Podemos usar la cutfunción from pandaspara definir los límites del contenedor:

In [80]:
# Create bins and labels for the single column
bins = [-float('inf'), -0.5, 0.5, float('inf')]  # Adjust the bin edges as needed
labels = ['Young', 'Mid_Career', 'Senior']

# Bin the Age column
df_encoded['Binned_Column'] = pd.cut(df_encoded['Age'], bins=bins, labels=labels, right=False)

# Print the updated DataFrame
df_encoded

Unnamed: 0,Age,Income,Productivity,Education_Bachelor,Education_High School,Education_Master,Education_Ph.D.,City_Chicago,City_Los Angeles,City_Miami,City_New York,City_San Francisco,Gender_Female,Gender_Male,Income per Age,Binned_Column
0,-1.414214,-1.470294,5,False,True,False,False,False,False,False,True,False,False,True,2000.0,Young
1,-0.707107,-0.770154,4,True,False,False,False,False,False,False,False,True,True,False,2000.0,Young
2,0.0,0.280056,3,False,False,True,False,True,False,False,False,False,False,True,2142.857143,Mid_Career
3,0.707107,1.330266,2,False,False,False,True,False,True,False,False,False,True,False,2250.0,Senior
4,1.414214,0.630126,4,True,False,False,False,False,False,True,False,False,False,True,1777.777778,Senior


Combinar 'Edad' en intervalos discretos permite que el modelo considere los grupos de edad como una característica categórica, capturando relaciones no lineales.

Como puede ver arriba, la columna "Edad" se ha transformado en una columna agrupada, lo que mejora aún más la información proporcionada al modelo.

Conclusión
Las técnicas de ingeniería de características permiten a los científicos de datos y a los profesionales del aprendizaje automático crear características más informativas y relevantes para el modelado.

En este tutorial, exploramos varias técnicas de ingeniería de funciones, incluida la codificación one-hot, el escalado de funciones, la creación de funciones, la selección de funciones y la agrupación.

Experimente con estas técnicas para mejorar sus capacidades de análisis y modelado de datos. Recuerde que la elección de las técnicas de ingeniería de características debe estar determinada por los requisitos específicos de su proyecto y la naturaleza de sus datos.

# Modelos

Creación de los modelos de red neuronal con y sin ingeniería de características

In [86]:
# Tenemos el dataframe df_encoded con las características ya transformadas
df_encoded

Unnamed: 0,Age,Income,Productivity,Education_Bachelor,Education_High School,Education_Master,Education_Ph.D.,City_Chicago,City_Los Angeles,City_Miami,City_New York,City_San Francisco,Gender_Female,Gender_Male,Income per Age,Binned_Column
0,-1.414214,-1.470294,5,False,True,False,False,False,False,False,True,False,False,True,2000.0,Young
1,-0.707107,-0.770154,4,True,False,False,False,False,False,False,False,True,True,False,2000.0,Young
2,0.0,0.280056,3,False,False,True,False,True,False,False,False,False,False,True,2142.857143,Mid_Career
3,0.707107,1.330266,2,False,False,False,True,False,True,False,False,False,True,False,2250.0,Senior
4,1.414214,0.630126,4,True,False,False,False,False,False,True,False,False,False,True,1777.777778,Senior


In [87]:
# Tenemos el dataframe df con las características originales
df

Unnamed: 0,Age,Income,Education,City,Gender,Productivity
0,25,50000,High School,New York,Male,5
1,30,60000,Bachelor,San Francisco,Female,4
2,35,75000,Master,Chicago,Male,3
3,40,90000,Ph.D.,Los Angeles,Female,2
4,45,80000,Bachelor,Miami,Male,4
