## Técnicas comunes de ingeniería de features:

* Creación de variables: Generación de nuevas variables a partir de las existentes.
* Codificación: Transformación de variables categóricas en representaciones numéricas.
* Normalización y estandarización: Escalado de características numéricas.
* Tratamiento de fechas: Extracción de información útil de fechas.

In [2]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder, StandardScaler, MinMaxScaler
import logging

# Configuración de logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    filename='feature_engineering.log',
    filemode='w'
)
logger = logging.getLogger("FeatureEngineeringLogger")
console_handler = logging.StreamHandler()
console_handler.setLevel(logging.INFO)
console_format = logging.Formatter('%(levelname)s - %(message)s')
console_handler.setFormatter(console_format)
logger.addHandler(console_handler)

# Datos simulados
data = {
    'Edad': [25, 30, 45, 35, 50],
    'Ingreso_Mensual': [5000, 7000, 10000, 12000, 15000],
    'Genero': ['M', 'F', 'F', 'M', 'M'],
    'Fecha_Registro': ['2022-01-01', '2021-12-15', '2021-10-20', '2022-02-10', '2022-03-05']
}
df = pd.DataFrame(data)

# Imprimir y registrar el DataFrame inicial
logger.info("DataFrame inicial:")
print("DataFrame inicial:")
print(df)

# Conversión de la columna de fechas a formato datetime
df['Fecha_Registro'] = pd.to_datetime(df['Fecha_Registro'])
logger.info("Convertido 'Fecha_Registro' a formato datetime.")

# 1. Creación de nuevas variables: Días desde el registro
df['Dias_Desde_Registro'] = (pd.Timestamp.now() - df['Fecha_Registro']).dt.days
logger.info("Creada la columna 'Dias_Desde_Registro':\n%s", df[['Fecha_Registro', 'Dias_Desde_Registro']])

# 2. Codificación de variables categóricas: One-Hot Encoding para la columna de género
encoder = OneHotEncoder(sparse_output=False)
genero_encoded = encoder.fit_transform(df[['Genero']])
df_encoded = pd.DataFrame(genero_encoded, columns=encoder.get_feature_names_out(['Genero']))
df = pd.concat([df, df_encoded], axis=1).drop(columns=['Genero'])
logger.info("Codificación One-Hot realizada para la columna 'Genero':\n%s", df[df_encoded.columns])

# 3. Normalización y Estandarización
scaler_minmax = MinMaxScaler()
scaler_standard = StandardScaler()

df['Ingreso_Normalizado'] = scaler_minmax.fit_transform(df[['Ingreso_Mensual']])
df['Edad_Estandarizada'] = scaler_standard.fit_transform(df[['Edad']])
logger.info("Normalización y estandarización realizadas:\n%s", df[['Ingreso_Mensual', 'Ingreso_Normalizado', 'Edad', 'Edad_Estandarizada']])

# 4. Extracción de características de fecha
df['Mes_Registro'] = df['Fecha_Registro'].dt.month
df['Anio_Registro'] = df['Fecha_Registro'].dt.year
logger.info("Características de fecha extraídas: 'Mes_Registro' y 'Anio_Registro'.\n%s", df[['Fecha_Registro', 'Mes_Registro', 'Anio_Registro']])

# DataFrame final
logger.info("DataFrame final después de todas las transformaciones:")
print("\nDataFrame final después de todas las transformaciones:")
print(df)


INFO - DataFrame inicial:
INFO - DataFrame inicial:
INFO - Convertido 'Fecha_Registro' a formato datetime.
INFO - Convertido 'Fecha_Registro' a formato datetime.
INFO - Creada la columna 'Dias_Desde_Registro':
  Fecha_Registro  Dias_Desde_Registro
0     2022-01-01                 1035
1     2021-12-15                 1052
2     2021-10-20                 1108
3     2022-02-10                  995
4     2022-03-05                  972
INFO - Creada la columna 'Dias_Desde_Registro':
  Fecha_Registro  Dias_Desde_Registro
0     2022-01-01                 1035
1     2021-12-15                 1052
2     2021-10-20                 1108
3     2022-02-10                  995
4     2022-03-05                  972
INFO - Codificación One-Hot realizada para la columna 'Genero':
   Genero_F  Genero_M
0       0.0       1.0
1       1.0       0.0
2       1.0       0.0
3       0.0       1.0
4       0.0       1.0
INFO - Codificación One-Hot realizada para la columna 'Genero':
   Genero_F  Genero_M
0   

DataFrame inicial:
   Edad  Ingreso_Mensual Genero Fecha_Registro
0    25             5000      M     2022-01-01
1    30             7000      F     2021-12-15
2    45            10000      F     2021-10-20
3    35            12000      M     2022-02-10
4    50            15000      M     2022-03-05

DataFrame final después de todas las transformaciones:
   Edad  Ingreso_Mensual Fecha_Registro  Dias_Desde_Registro  Genero_F  \
0    25             5000     2022-01-01                 1035       0.0   
1    30             7000     2021-12-15                 1052       1.0   
2    45            10000     2021-10-20                 1108       1.0   
3    35            12000     2022-02-10                  995       0.0   
4    50            15000     2022-03-05                  972       0.0   

   Genero_M  Ingreso_Normalizado  Edad_Estandarizada  Mes_Registro  \
0       1.0                  0.0           -1.293993             1   
1       0.0                  0.2           -0.754829      