# Feature Engineering

Este notebook generará los features necesarios para encargarnos de procesar la mejor cantidad de información de la mejor forma posible

1. Cargar los datos

In [57]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import tensorflow as tf

## Feature: Service_Type

In [58]:
df = pd.read_excel('../data/ConsumptionPrediction_Dataset_v1.xlsx', sheet_name='Sheet1')

# Se excluyen todos los servicios que no sean 'Pick & Pack'
df = df[df['Service_Type'] == 'Pick & Pack']
df.drop(columns=['Service_Type'], inplace=True)
df.head()

Unnamed: 0,Flight_ID,Origin,Date,Flight_Type,Passenger_Count,Product_ID,Product_Name,Standard_Specification_Qty,Quantity_Returned,Quantity_Consumed,Unit_Cost,Crew_Feedback
4,LX110,DOH,2025-09-26,medium-haul,272,BRD001,Bread Roll Pack,177,58,119,0.35,
5,LX110,DOH,2025-09-26,medium-haul,272,CHO050,Chocolate Bar 50g,147,48,99,0.8,
6,LX110,DOH,2025-09-26,medium-haul,272,CRK075,Butter Cookies 75g,131,36,95,0.75,drawer incomplete
7,LX110,DOH,2025-09-26,medium-haul,272,DRK023,Sparkling Water 330ml,205,37,168,0.45,
8,LX110,DOH,2025-09-26,medium-haul,272,DRK024,Still Water 500ml,197,95,102,0.5,


## Feature: Flight type

In [59]:
def flight_type_to_numeric(flight_type):
    if flight_type == 'short-haul':
        return 1
    elif flight_type == 'medium-haul':
        return 2
    elif flight_type == 'long-haul':
        return 3
    else:
        return 0  # Valor por defecto para tipos desconocidos
    
df['haul'] = df['Flight_Type'].apply(flight_type_to_numeric)
df.drop(columns=['Flight_Type'], inplace=True)
df.head()

Unnamed: 0,Flight_ID,Origin,Date,Passenger_Count,Product_ID,Product_Name,Standard_Specification_Qty,Quantity_Returned,Quantity_Consumed,Unit_Cost,Crew_Feedback,haul
4,LX110,DOH,2025-09-26,272,BRD001,Bread Roll Pack,177,58,119,0.35,,2
5,LX110,DOH,2025-09-26,272,CHO050,Chocolate Bar 50g,147,48,99,0.8,,2
6,LX110,DOH,2025-09-26,272,CRK075,Butter Cookies 75g,131,36,95,0.75,drawer incomplete,2
7,LX110,DOH,2025-09-26,272,DRK023,Sparkling Water 330ml,205,37,168,0.45,,2
8,LX110,DOH,2025-09-26,272,DRK024,Still Water 500ml,197,95,102,0.5,,2


## Feature: Origin

In [60]:
# One hot encoding de la columna 'Origin'
df = pd.get_dummies(df, columns=['Origin'], prefix='Origin') # One hot encoding para 'Origin'
df.head()

Unnamed: 0,Flight_ID,Date,Passenger_Count,Product_ID,Product_Name,Standard_Specification_Qty,Quantity_Returned,Quantity_Consumed,Unit_Cost,Crew_Feedback,haul,Origin_DOH,Origin_JFK,Origin_LHR,Origin_MEX,Origin_NRT,Origin_ZRH
4,LX110,2025-09-26,272,BRD001,Bread Roll Pack,177,58,119,0.35,,2,True,False,False,False,False,False
5,LX110,2025-09-26,272,CHO050,Chocolate Bar 50g,147,48,99,0.8,,2,True,False,False,False,False,False
6,LX110,2025-09-26,272,CRK075,Butter Cookies 75g,131,36,95,0.75,drawer incomplete,2,True,False,False,False,False,False
7,LX110,2025-09-26,272,DRK023,Sparkling Water 330ml,205,37,168,0.45,,2,True,False,False,False,False,False
8,LX110,2025-09-26,272,DRK024,Still Water 500ml,197,95,102,0.5,,2,True,False,False,False,False,False


## Feature: Product ID

In [61]:
# One hot encoding de la columna 'Product_ID'
df = pd.get_dummies(df, columns=['Product_ID'], prefix='Product') # One hot encoding para 'Product_ID'
df.head()

Unnamed: 0,Flight_ID,Date,Passenger_Count,Product_Name,Standard_Specification_Qty,Quantity_Returned,Quantity_Consumed,Unit_Cost,Crew_Feedback,haul,...,Product_BRD001,Product_CHO050,Product_COF200,Product_CRK075,Product_DRK023,Product_DRK024,Product_HTB110,Product_JCE200,Product_NUT030,Product_SNK001
4,LX110,2025-09-26,272,Bread Roll Pack,177,58,119,0.35,,2,...,True,False,False,False,False,False,False,False,False,False
5,LX110,2025-09-26,272,Chocolate Bar 50g,147,48,99,0.8,,2,...,False,True,False,False,False,False,False,False,False,False
6,LX110,2025-09-26,272,Butter Cookies 75g,131,36,95,0.75,drawer incomplete,2,...,False,False,False,True,False,False,False,False,False,False
7,LX110,2025-09-26,272,Sparkling Water 330ml,205,37,168,0.45,,2,...,False,False,False,False,True,False,False,False,False,False
8,LX110,2025-09-26,272,Still Water 500ml,197,95,102,0.5,,2,...,False,False,False,False,False,True,False,False,False,False


## Feature: Returned percentage

In [62]:
import numpy as np

# --- 1. Creación de la nueva feature (vectorizada) ---
# Dividimos las dos columnas directamente.
# Esto es muchísimo más rápido que usar .apply()
df['Percentage_Returned'] = df['Quantity_Returned'] / df['Standard_Specification_Qty']

# --- 2. Manejo de Errores (División por Cero) ---
# Si 'Standard_Specification_Qty' fue 0, la división da 'inf' (infinito).
# Reemplazamos 'inf' por 0.0 (asumiendo que si no se especificó nada, 0% retornó).
# También reemplazamos 'NaN' (nulos) por 0.0, por si acaso.
df['Percentage_Returned'] = df['Percentage_Returned'].replace([np.inf, -np.inf], 0).fillna(0)

# --- 3. Eliminación de Columnas ---
# Ahora eliminamos las columnas originales, incluyendo la 'Quantity_Returned' que ya no es nuestro objetivo.
# Tu decisión de dropear 'Quantity_Consumed' y 'Standard_Specification_Qty' es CORRECTA.
# De hecho, 'Quantity_Consumed' era una FUGA DE DATOS (data leak) en tu modelo anterior,
# ya que (Returned = Standard - Consumed). ¡Así que al hacer esto, también arreglaste ese problema!
df.drop(columns=['Quantity_Returned', 'Standard_Specification_Qty', 'Quantity_Consumed'], inplace=True)

# ----- IMPORTANTE -----
# En tu siguiente celda, cuando definas X e Y, asegúrate de usar la nueva columna:
#
# TARGET_COLUMN = 'Percentage_Returned'
# Y = df[TARGET_COLUMN]
# X = df.drop(TARGET_COLUMN, axis=1)
# ... (El resto de tu script de preparación de datos) ...

# Guardar los features en como un nuevo dataset csv

In [63]:
df.to_csv('../data/consumption_features.csv', index=False)