Este archivo de Python, feature_engineering.py, se encarga de realizar la ingeniería de características en un conjunto de datos de aerolíneas. La ingeniería de características es el proceso de crear nuevas características a partir de las existentes para mejorar el rendimiento de los modelos de aprendizaje automático.

#### Importaciones


In [None]:
import pandas as pd
import numpy as np
import os


#### Funciones de Ingeniería de Características



1. **`create_total_rating(df)`**:

    - Esta función crea una nueva característica llamada `total_rating`, que es la suma de todas las calificaciones de servicio.
    
    - Primero, define una lista de columnas de calificaciones.
    
    - Luego, verifica cuáles de estas columnas existen en el DataFrame y suma sus valores.
    
    - Si ninguna de las columnas existe, asigna un valor predeterminado de 0.

In [None]:
def create_total_rating(df):
        rating_columns = ['Inflight wifi service', 'Departure/Arrival time convenient',
                          'Ease of Online booking', 'Gate location', 'Food and drink',
                          'Online boarding', 'Seat comfort', 'Inflight entertainment',
                          'On-board service', 'Leg room service', 'Baggage handling',
                          'Checkin service', 'Inflight service', 'Cleanliness']
        
        existing_columns = [col for col in rating_columns if col in df.columns]
        
        if existing_columns:
            df['total_rating'] = df[existing_columns].sum(axis=1)
        else:
            df['total_rating'] = 0
        return df


2. **`create_total_delay(df)`**:

    - Esta función crea una nueva característica llamada `total_delay`, que es la suma del retraso de salida y llegada.
    
    - Verifica si las columnas `Departure Delay in Minutes` y `Arrival Delay in Minutes` existen en el DataFrame y las suma.
    
    - Si alguna de las columnas no existe, asigna un valor predeterminado de 0.

In [None]:
def create_total_delay(df):
        if 'Departure Delay in Minutes' in df.columns and 'Arrival Delay in Minutes' in df.columns:
            df['total_delay'] = df['Departure Delay in Minutes'] + df['Arrival Delay in Minutes']
        else:
            df['total_delay'] = 0
        return df


3. **`bin_age(df)`**:

    - Esta función crea una nueva característica llamada `age_group`, que categoriza las edades en grupos.
    
    - Utiliza `pd.cut` para dividir la columna `Age` en intervalos y asignar etiquetas a cada intervalo.
    
    - Si la columna `Age` no existe, asigna un valor predeterminado de `'Unknown'`.

In [None]:
def bin_age(df):
        if 'Age' in df.columns:
            df['age_group'] = pd.cut(df['Age'], bins=[0, 18, 35, 55, 100], labels=['0-18', '19-35', '36-55', '55+'])
        else:
            df['age_group'] = 'Unknown'
        return df


4. **`engineer_features(df)`**:

    - Esta función aplica todas las transformaciones de ingeniería de características definidas anteriormente.
    
    - Llama a las funciones `create_total_rating`, `create_total_delay` y `bin_age` en el DataFrame y devuelve el DataFrame modificado.

In [None]:
def engineer_features(df):
        df = create_total_rating(df)
        df = create_total_delay(df)
        df = bin_age(df)
        return df


#### Bloque Principal

El bloque principal del script se ejecuta si el archivo se ejecuta directamente. Realiza las siguientes tareas:


1. **Definir rutas de archivos**:

    - Define las rutas de los archivos de entrada y salida.

In [None]:
project_dir = os.path.abspath(os.path.join(os.getcwd(), '..'))
input_file = os.path.join(project_dir, 'data', 'processed', 'cleaned_airlines_data.csv')
output_file = os.path.join(project_dir, 'data', 'processed', 'featured_airlines_data.csv')


2. **Verificar si el archivo de entrada existe**:

    - Si el archivo de entrada no existe, imprime un mensaje de error y termina la ejecución.

In [None]:
if not os.path.exists(input_file):
    print(f"Error: El archivo de entrada {input_file} no existe.")
    print("Asegúrate de que el archivo CSV con los datos preprocesados esté en la carpeta 'data/processed/'.")
    exit(1)


3. **Cargar datos**:

    - Carga los datos preprocesados desde el archivo CSV.

In [None]:
print(f"Cargando datos preprocesados desde {input_file}")
df = pd.read_csv(input_file)


4. **Aplicar ingeniería de características**:

    - Aplica las transformaciones de ingeniería de características al DataFrame.

In [None]:
print("Aplicando ingeniería de características...")
df_featured = engineer_features(df)


5. **Crear directorio de salida si no existe**:

    - Crea el directorio de salida si no existe.

In [None]:
os.makedirs(os.path.dirname(output_file), exist_ok=True)


6. **Guardar el nuevo DataFrame**:

    - Guarda el DataFrame con las nuevas características en un archivo CSV.

In [None]:
df_featured.to_csv(output_file, index=False)
print(f"Datos con nuevas características guardados en {output_file}")


### Resumen

Este script realiza la ingeniería de características en un conjunto de datos de aerolíneas, creando nuevas características como `total_rating`, `total_delay` y `age_group`. Luego, guarda el DataFrame modificado en un archivo CSV para su uso posterior en el modelado de datos.