# Técnicas Avanzadas de Ingeniería de Características
En este capítulo, exploraremos técnicas avanzadas de ingeniería de características que permiten extraer aún más información útil de los datos y mejorar el rendimiento de los modelos de machine learning. Estas técnicas incluyen el uso de operadores sobrecargados, el manejo avanzado de cadenas, la manipulación de datos de fecha y hora, y la creación de funciones personalizadas para la transformación de características.


## Uso de Operadores Sobrecargados en la Ingeniería de Características

Los operadores sobrecargados, como los aritméticos y lógicos, se pueden utilizar para crear nuevas características a partir de las existentes. Estos operadores permiten combinar variables de manera que se capturen relaciones más complejas en los datos. Por ejemplo:

- Suma y Resta: Pueden utilizarse para calcular diferencias o sumas entre características, lo que puede ser útil para capturar cambios relativos entre variables.
- Multiplicación y División: Son útiles para calcular ratios o productos de variables, lo que puede revelar interacciones entre características.
- Operadores Lógicos: Como AND, OR, y NOT, pueden combinar características binarias para capturar combinaciones de condiciones.

### Ejemplo de Implementación con Operadores Sobrecargados

In [1]:
# Importar librerías necesarias
import numpy as np
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Ventas': [100, 150, 200, 250, 300],
    'Costos': [50, 70, 90, 120, 140],
    'Descuentos': [5, 10, 15, 20, 25]
}

df = pd.DataFrame(data)
# Crear nuevas características usando operadores sobrecargados
df['Margen'] = df['Ventas'] - df['Costos']
df['Ratio_Descuento'] = df['Descuentos'] / df['Ventas']
df['Margen_Ajustado'] = df['Margen'] * (1 - df['Ratio_Descuento'])

print(df)

   Ventas  Costos  Descuentos  Margen  Ratio_Descuento  Margen_Ajustado
0     100      50           5      50         0.050000        47.500000
1     150      70          10      80         0.066667        74.666667
2     200      90          15     110         0.075000       101.750000
3     250     120          20     130         0.080000       119.600000
4     300     140          25     160         0.083333       146.666667


## Manejo Avanzado de Cadenas

El manejo de cadenas es esencial cuando se trabaja con datos textuales. La ingeniería de características en cadenas puede implicar la extracción de información útil de texto libre, como la longitud de las cadenas, la frecuencia de palabras, o la detección de patrones específicos mediante expresiones regulares.

- Extracción de Subcadenas: Es útil para obtener partes específicas de un texto, como dominios de correo electrónico o códigos postales.
- Conteo de Palabras o Caracteres: Ayuda a medir la complejidad de un texto o identificar la cantidad de términos relevantes en una cadena.
- Expresiones Regulares: Permiten identificar patrones complejos dentro de las cadenas, como fechas, números de teléfono, o menciones en redes sociales.

### Ejemplo de Implementación con Manejo de Cadenas

In [4]:
import re

# Crear un DataFrame de ejemplo
data = {'Texto': ['Hola mundo', 'Machine Learning', 'Python es genial', 'Data Science']}
df = pd.DataFrame(data)

# Calcular la longitud de cada cadena
df['Longitud'] = df['Texto'].apply(len)

# Contar la cantidad de palabras en cada cadena
df['Num_Palabras'] = df['Texto'].apply(lambda x: len(x.split()))

# Detectar la presencia de una palabra específica usando expresiones regulares
df['Contiene_Python'] = df['Texto'].apply(lambda x: bool(re.search(r'Python', x)))

print(df)

              Texto  Longitud  Num_Palabras  Contiene_Python
0        Hola mundo        10             2            False
1  Machine Learning        16             2            False
2  Python es genial        16             3             True
3      Data Science        12             2            False


## Manipulación de Datos de Fecha y Hora

Trabajar con datos de fecha y hora es común en muchas aplicaciones de machine learning. La ingeniería de características de estos datos permite extraer información temporal relevante, como el día de la semana, la hora del día, o si una fecha cae en un fin de semana o día festivo.

- Extracción de Componentes de Fecha: Día, mes, año, hora, minuto, segundo.
- Cálculo de Diferencias Temporales: Diferencias en días, semanas, o meses entre dos fechas.
- Detección de Estacionalidad: Identificar patrones estacionales mediante la agregación de datos por periodo (día, mes, año).

### Ejemplo de Implementación con Fechas y Horas

In [5]:
import pandas as pd

# Crear un DataFrame de ejemplo con fechas
data = {'Fechas': pd.to_datetime(['2023-01-01', '2023-06-15', '2024-12-31'])}
df = pd.DataFrame(data)

# Extraer el día, mes y año
df['Día'] = df['Fechas'].dt.day
df['Mes'] = df['Fechas'].dt.month
df['Año'] = df['Fechas'].dt.year

# Calcular si la fecha es un fin de semana
df['Es_Fin_de_Semana'] = df['Fechas'].dt.dayofweek >= 5

print(df)

      Fechas  Día  Mes   Año  Es_Fin_de_Semana
0 2023-01-01    1    1  2023              True
1 2023-06-15   15    6  2023             False
2 2024-12-31   31   12  2024             False


## Creación de Funciones Personalizadas

Las funciones personalizadas son una herramienta poderosa para aplicar transformaciones específicas a las características de un conjunto de datos. Estas funciones pueden ser diseñadas para capturar conocimiento del dominio del problema y aplicar transformaciones que no son posibles con funciones predefinidas.

- Función para Escalar y Normalizar Datos: Permite ajustar los valores de una característica dentro de un rango específico, considerando condiciones personalizadas.
- Función para Crear Bandas o Categorías: Transforma datos continuos en categorías discretas basadas en umbrales definidos por el usuario.

### Ejemplo de Implementación con Funciones Personalizadas

In [8]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {'Valores': [10, 20, 30, 40, 50]}  # Aquí estamos creando una lista de números
df = pd.DataFrame(data)  # Estamos poniendo esos números en una tabla (DataFrame)

# Definir una función personalizada para escalar datos
def escalar_datos(x, min_val, max_val):
    # Esta fórmula toma el número x y lo convierte en un valor entre 0 y 1
    return (x - min_val) / (max_val - min_val)

# Aplicar la función personalizada de escalado
df['Valores_Escalados'] = df['Valores'].apply(escalar_datos, args=(df['Valores'].min(), df['Valores'].max()))
# Aquí estamos escalando (cambiando el tamaño) de los números de la columna 'Valores' para que estén entre 0 y 1.
# Lo guardamos en una nueva columna llamada 'Valores_Escalados'.

# Función para crear bandas o categorías
def crear_bandas(x, umbrales, etiquetas):
    # Esta función decide a qué grupo pertenece un número (por ejemplo: 'Baja', 'Media', 'Alta')
    for i in range(len(umbrales) - 1):  # Recorrer cada umbral (cada "límite")
        if umbrales[i] <= x < umbrales[i + 1]:  # Si el número está entre dos umbrales
            return etiquetas[i]  # Le damos la etiqueta (como 'Baja', 'Media', etc.)
    return etiquetas[-1]  # Si el número es más grande que todos los umbrales, le damos la última etiqueta

# Definir los umbrales y las etiquetas para las categorías
umbrales = [0, 0.2, 0.4, 0.6, 0.8, 1]  # Estos son los límites que dividen los valores en grupos (por ejemplo, 0 a 0.2, 0.2 a 0.4, etc.)
etiquetas = ['Baja', 'Media Baja', 'Media', 'Alta', 'Muy Alta']  # Estas son las etiquetas que asignamos a los grupos

# Aplicar la función de bandas a los valores escalados
df['Categoria'] = df['Valores_Escalados'].apply(crear_bandas, args=(umbrales, etiquetas))
# Ahora, usamos la función que creamos para poner cada número en un grupo (banda) de acuerdo a su valor escalado

# Imprimir el DataFrame resultante
print(df)
# Finalmente, mostramos la tabla con los valores escalados y sus categorías


   Valores  Valores_Escalados   Categoria
0       10               0.00        Baja
1       20               0.25  Media Baja
2       30               0.50       Media
3       40               0.75        Alta
4       50               1.00    Muy Alta


### Explicación paso a paso:
*Crear el DataFrame:*

Primero, creamos una tabla con unos números: 10, 20, 30, 40, 50.
Escalar los números:

La función escalar_datos toma cada número y lo convierte en un valor entre 0 y 1. Es como hacer que todos los números estén dentro de un rango pequeño para poder compararlos mejor.
Crear categorías:

Luego, tomamos los números escalados y los ponemos en grupos o categorías.
Si un número está entre 0 y 0.2, lo llamamos 'Baja'. Si está entre 0.2 y 0.4, lo llamamos 'Media Baja', y así sucesivamente.
Esto lo hacemos con la función crear_bandas.
Mostrar los resultados:

Finalmente, imprimimos la tabla con los valores escalados y su categoría. Así podemos ver en qué grupo está cada número.