# Feature Engineering

Este notebook generará los features necesarios para encargarnos de procesar la mejor cantidad de información de la mejor forma posible

1. Cargar los datos

In [191]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import tensorflow as tf

## Feature: Service_Type

In [192]:
df = pd.read_excel('../data/ConsumptionPrediction_Dataset_v1.xlsx', sheet_name='Sheet1')

# Se excluyen todos los servicios que no sean 'Pick & Pack'
df = df[df['Service_Type'] == 'Pick & Pack']
df.drop(columns=['Service_Type'], inplace=True)
df.head()

Unnamed: 0,Flight_ID,Origin,Date,Flight_Type,Passenger_Count,Product_ID,Product_Name,Standard_Specification_Qty,Quantity_Returned,Quantity_Consumed,Unit_Cost,Crew_Feedback
4,LX110,DOH,2025-09-26,medium-haul,272,BRD001,Bread Roll Pack,177,58,119,0.35,
5,LX110,DOH,2025-09-26,medium-haul,272,CHO050,Chocolate Bar 50g,147,48,99,0.8,
6,LX110,DOH,2025-09-26,medium-haul,272,CRK075,Butter Cookies 75g,131,36,95,0.75,drawer incomplete
7,LX110,DOH,2025-09-26,medium-haul,272,DRK023,Sparkling Water 330ml,205,37,168,0.45,
8,LX110,DOH,2025-09-26,medium-haul,272,DRK024,Still Water 500ml,197,95,102,0.5,


## Feature: Flight type

In [193]:
def flight_type_to_numeric(flight_type):
    if flight_type == 'short-haul':
        return 1
    elif flight_type == 'medium-haul':
        return 2
    elif flight_type == 'long-haul':
        return 3
    else:
        return 0  # Valor por defecto para tipos desconocidos
    
df['haul'] = df['Flight_Type'].apply(flight_type_to_numeric)
df.drop(columns=['Flight_Type'], inplace=True)
df.head()

Unnamed: 0,Flight_ID,Origin,Date,Passenger_Count,Product_ID,Product_Name,Standard_Specification_Qty,Quantity_Returned,Quantity_Consumed,Unit_Cost,Crew_Feedback,haul
4,LX110,DOH,2025-09-26,272,BRD001,Bread Roll Pack,177,58,119,0.35,,2
5,LX110,DOH,2025-09-26,272,CHO050,Chocolate Bar 50g,147,48,99,0.8,,2
6,LX110,DOH,2025-09-26,272,CRK075,Butter Cookies 75g,131,36,95,0.75,drawer incomplete,2
7,LX110,DOH,2025-09-26,272,DRK023,Sparkling Water 330ml,205,37,168,0.45,,2
8,LX110,DOH,2025-09-26,272,DRK024,Still Water 500ml,197,95,102,0.5,,2


## Feature: Origin

In [194]:
# One hot encoding de la columna 'Origin'
df = pd.get_dummies(df, columns=['Origin'], prefix='Origin') # One hot encoding para 'Origin'
df.head()

Unnamed: 0,Flight_ID,Date,Passenger_Count,Product_ID,Product_Name,Standard_Specification_Qty,Quantity_Returned,Quantity_Consumed,Unit_Cost,Crew_Feedback,haul,Origin_DOH,Origin_JFK,Origin_LHR,Origin_MEX,Origin_NRT,Origin_ZRH
4,LX110,2025-09-26,272,BRD001,Bread Roll Pack,177,58,119,0.35,,2,True,False,False,False,False,False
5,LX110,2025-09-26,272,CHO050,Chocolate Bar 50g,147,48,99,0.8,,2,True,False,False,False,False,False
6,LX110,2025-09-26,272,CRK075,Butter Cookies 75g,131,36,95,0.75,drawer incomplete,2,True,False,False,False,False,False
7,LX110,2025-09-26,272,DRK023,Sparkling Water 330ml,205,37,168,0.45,,2,True,False,False,False,False,False
8,LX110,2025-09-26,272,DRK024,Still Water 500ml,197,95,102,0.5,,2,True,False,False,False,False,False


## Feature: Product ID

In [195]:
# One hot encoding de la columna 'Product_ID'
df = pd.get_dummies(df, columns=['Product_ID'], prefix='Product') # One hot encoding para 'Product_ID'
df.head()

Unnamed: 0,Flight_ID,Date,Passenger_Count,Product_Name,Standard_Specification_Qty,Quantity_Returned,Quantity_Consumed,Unit_Cost,Crew_Feedback,haul,...,Product_BRD001,Product_CHO050,Product_COF200,Product_CRK075,Product_DRK023,Product_DRK024,Product_HTB110,Product_JCE200,Product_NUT030,Product_SNK001
4,LX110,2025-09-26,272,Bread Roll Pack,177,58,119,0.35,,2,...,True,False,False,False,False,False,False,False,False,False
5,LX110,2025-09-26,272,Chocolate Bar 50g,147,48,99,0.8,,2,...,False,True,False,False,False,False,False,False,False,False
6,LX110,2025-09-26,272,Butter Cookies 75g,131,36,95,0.75,drawer incomplete,2,...,False,False,False,True,False,False,False,False,False,False
7,LX110,2025-09-26,272,Sparkling Water 330ml,205,37,168,0.45,,2,...,False,False,False,False,True,False,False,False,False,False
8,LX110,2025-09-26,272,Still Water 500ml,197,95,102,0.5,,2,...,False,False,False,False,False,True,False,False,False,False


## Feature: Returned percentage

In [196]:
import numpy as np

# --- 1. Creación de la nueva feature (vectorizada) ---
# Dividimos las dos columnas directamente.
# Esto es muchísimo más rápido que usar .apply()
df['Percentage_Returned'] = df['Quantity_Returned'] / df['Standard_Specification_Qty']

# --- 2. Manejo de Errores (División por Cero) ---
# Si 'Standard_Specification_Qty' fue 0, la división da 'inf' (infinito).
# Reemplazamos 'inf' por 0.0 (asumiendo que si no se especificó nada, 0% retornó).
# También reemplazamos 'NaN' (nulos) por 0.0, por si acaso.
df['Percentage_Returned'] = df['Percentage_Returned'].replace([np.inf, -np.inf], 0).fillna(0)

# --- 3. Eliminación de Columnas ---
# Ahora eliminamos las columnas originales, incluyendo la 'Quantity_Returned' que ya no es nuestro objetivo.
# Tu decisión de dropear 'Quantity_Consumed' y 'Standard_Specification_Qty' es CORRECTA.
# De hecho, 'Quantity_Consumed' era una FUGA DE DATOS (data leak) en tu modelo anterior,
# ya que (Returned = Standard - Consumed). ¡Así que al hacer esto, también arreglaste ese problema!
df.drop(columns=['Quantity_Returned', 'Standard_Specification_Qty', 'Quantity_Consumed'], inplace=True)


## Unir el dataset "Consumption and Estimation"

In [197]:
# 1. Carga el nuevo dataset de tendencias
df_trends = pd.read_excel('../../data/tendencias_vuelos.xlsx', sheet_name='Plant 1')
df_trends.head()

# 2. Asegura que AMBAS columnas de fecha estén en formato datetime
#    Esto es crucial para que el 'merge' funcione.
df['Date'] = pd.to_datetime(df['Date']) 
df_trends['Day'] = pd.to_datetime(df_trends['day'], format='%Y%m%d')

# 3. Une los dos DataFrames
# Hacemos un 'left' merge para mantener todas las filas de tu df original (el de productos)
# y añadirle la información de tendencias que coincida por fecha.
df_merged = pd.merge(
    df, 
    df_trends,  
    left_on='Date',  # Columna de fecha de tu df original
    right_on='Day', # Columna de fecha del nuevo df
    how='left'       # Mantenemos todo lo de la izquierda (df)
)

# 4. Maneja posibles NaNs (si hubo días en df que no estaban en df_trends)
# Por ahora, una forma simple es rellenar con 0, pero podrías usar un promedio.
df_merged['flights'] = df_merged['flights'].fillna(0)
df_merged['passengers'] = df_merged['passengers'].fillna(0)

# Ahora, 'df_merged' es tu nuevo DataFrame de entrenamiento

In [198]:
# Asumimos que el df_merged ya existe
import numpy as np

# 1. Crea 'Pasajeros Promedio por Vuelo ese Día'
#    Esto nos dice qué tan "llenos" iban los vuelos en general.
df_merged['Avg_Pass_Per_Flight_Day'] = df_merged['passengers'] / df_merged['flights']

# 2. Compara el vuelo actual con el promedio del día
#    ¿Este vuelo ('Passenger_Count') iba más lleno o más vacío que el promedio del día?
df_merged['Load_vs_Daily_Avg'] = df_merged['Passenger_Count'] / df_merged['Avg_Pass_Per_Flight_Day']

# 3. Maneja divisiones por cero (si 'Flights' o 'Avg_Pass_Per_Flight_Day' fue 0)
df_merged.replace([np.inf, -np.inf], 0, inplace=True)
df_merged.fillna(0, inplace=True)

  df_merged.fillna(0, inplace=True)
  df_merged.fillna(0, inplace=True)


In [199]:
# Convertimos la columna 'Date' a tipo datetime
df_merged['Date'] = pd.to_datetime(df['Date'])
# Extraemos features numéricas de la fecha
df_merged['Month'] = df['Date'].dt.month
df_merged['DayOfWeek'] = df['Date'].dt.dayofweek

## Eliminación de datos inecesarios

In [200]:
COLUMNS_TO_DROP = [
    'Flight_ID', 
    'Date', 
    'Product_Name', 
    'Crew_Feedback',
    'Day' # <-- Nueva para dropear
    # --- EXPERIMENTA ---
    # Prueba dropeando estas para forzar al modelo a usar tus ratios
    #'Flights', 
    #'Passangers',
    #'Passenger_Count' # (Quizás 'Load_vs_Daily_Avg' es mejor)
]

df.head()

df_final = df_merged.drop(columns=COLUMNS_TO_DROP)
df_final.head()

Unnamed: 0,Passenger_Count,Unit_Cost,haul,Origin_DOH,Origin_JFK,Origin_LHR,Origin_MEX,Origin_NRT,Origin_ZRH,Product_BRD001,...,Product_SNK001,Percentage_Returned,day,flights,passengers,max capacity,Avg_Pass_Per_Flight_Day,Load_vs_Daily_Avg,Month,DayOfWeek
0,272,0.35,2,True,False,False,False,False,False,True,...,False,0.327684,0.0,0.0,0.0,0.0,0.0,0.0,,
1,272,0.8,2,True,False,False,False,False,False,False,...,False,0.326531,0.0,0.0,0.0,0.0,0.0,0.0,,
2,272,0.75,2,True,False,False,False,False,False,False,...,False,0.274809,0.0,0.0,0.0,0.0,0.0,0.0,,
3,272,0.45,2,True,False,False,False,False,False,False,...,False,0.180488,0.0,0.0,0.0,0.0,0.0,0.0,,
4,272,0.5,2,True,False,False,False,False,False,False,...,False,0.482234,0.0,0.0,0.0,0.0,0.0,0.0,9.0,4.0


# Guardar los features en como un nuevo dataset csv

In [201]:
df_final.to_csv('../data/consumption_features.csv', index=False)