<a href="https://colab.research.google.com/github/Raquel228/pp-ia/blob/main/Algoritmos_de_preprocesamiento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#OneHotEncoder
El OneHotEncoder es para transformar variables categóricas en variables binarias. Esto es crucial para que los modelos de machine learning puedan interpretar correctamente estas características. Este enfoque es especialmente útil en nuestro dataset, donde tenemos variables categóricas con múltiples clases, como sales_channel, trip_type, route y booking_origin. Transformar estas variables en una serie de variables binarias ayuda a que el modelo pueda entender y procesar estas categorías de manera efectiva, mejorando así la precisión y el rendimiento del modelo.


In [1]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# Leer datos del archivo CSV
data = pd.read_csv("data.csv", encoding="latin1")

# Seleccionar columnas categóricas para aplicar OneHotEncoder
categorical_columns = ['sales_channel', 'trip_type', 'route', 'booking_origin']
onehotencoder = OneHotEncoder(sparse_output=False)

# Aplicar OneHotEncoder
encoded_data = onehotencoder.fit_transform(data[categorical_columns])

# Convertir a DataFrame y concatenar con el resto de los datos
encoded_df = pd.DataFrame(encoded_data, columns=onehotencoder.get_feature_names_out(categorical_columns))
data_onehotencoded = pd.concat([data.drop(columns=categorical_columns), encoded_df], axis=1)
print(data_onehotencoded.head())


   num_passengers  purchase_lead  length_of_stay  flight_hour flight_day  \
0               2            262              19            7        Sat   
1               1            112              20            3        Sat   
2               2            243              22           17        Wed   
3               1             96              31            4        Sat   
4               2             68              22           15        Wed   

   wants_extra_baggage  wants_preferred_seat  wants_in_flight_meals  \
0                    1                     0                      0   
1                    0                     0                      0   
2                    1                     1                      0   
3                    0                     0                      1   
4                    1                     0                      1   

   flight_duration  booking_complete  ...  booking_origin_Timor-Leste  \
0             5.52                 0  ...  

#StandardScaler
El StandardScaler se utiliza para estandarizar las características numéricas del dataset, de modo que tengan una media de 0 y una varianza de 1. Este paso es esencial cuando las características tienen diferentes unidades y escalas, como purchase_lead, length_of_stay, flight_hour y flight_duration. Estandarizar estos datos ayuda a mejorar el rendimiento de algoritmos de machine learning que dependen de la distancia, como SVM y KNN, ya que estas técnicas asumen que todas las características están en la misma escala. Además, esto puede ayudar a acelerar el proceso de entrenamiento y a evitar que ciertas características dominen a otras debido a sus escalas.


In [3]:
from sklearn.preprocessing import StandardScaler

# Seleccionar columnas numéricas para aplicar StandardScaler
numerical_columns = ['purchase_lead', 'length_of_stay', 'flight_hour', 'flight_duration']
scaler = StandardScaler()

# Aplicar StandardScaler
scaled_data = scaler.fit_transform(data[numerical_columns])

# Convertir a DataFrame y concatenar con el resto de los datos
scaled_df = pd.DataFrame(scaled_data, columns=numerical_columns)
data_standard_scaled = pd.concat([data.drop(columns=numerical_columns), scaled_df], axis=1)
print(data_standard_scaled.head())


   num_passengers sales_channel  trip_type flight_day   route booking_origin  \
0               2      Internet  RoundTrip        Sat  AKLDEL    New Zealand   
1               1      Internet  RoundTrip        Sat  AKLDEL    New Zealand   
2               2      Internet  RoundTrip        Wed  AKLDEL          India   
3               1      Internet  RoundTrip        Sat  AKLDEL    New Zealand   
4               2      Internet  RoundTrip        Wed  AKLDEL          India   

   wants_extra_baggage  wants_preferred_seat  wants_in_flight_meals  \
0                    1                     0                      0   
1                    0                     0                      0   
2                    1                     1                      0   
3                    0                     0                      1   
4                    1                     0                      1   

   booking_complete  purchase_lead  length_of_stay  flight_hour  \
0                 0      

#LabelEncoder
Se usó el LabelEncoder para transformar variables categóricas binarias en enteros. Esto es útil para variables categóricas que solo tienen dos clases y no queremos aumentar la dimensionalidad del dataset con el OneHotEncoder. En nuestro dataset, esto se aplica a columnas como wants_extra_baggage, wants_preferred_seat y wants_in_flight_meals. Al convertir estas variables en enteros, facilitamos la interpretación por parte de los modelos de machine learning sin añadir complejidad innecesaria.


In [4]:
from sklearn.preprocessing import LabelEncoder

# Seleccionar columnas binarias para aplicar LabelEncoder
binary_columns = ['wants_extra_baggage', 'wants_preferred_seat', 'wants_in_flight_meals']
labelencoder = LabelEncoder()

# Aplicar LabelEncoder
for col in binary_columns:
    data[col] = labelencoder.fit_transform(data[col])

print(data.head())


   num_passengers sales_channel  trip_type  purchase_lead  length_of_stay  \
0               2      Internet  RoundTrip            262              19   
1               1      Internet  RoundTrip            112              20   
2               2      Internet  RoundTrip            243              22   
3               1      Internet  RoundTrip             96              31   
4               2      Internet  RoundTrip             68              22   

   flight_hour flight_day   route booking_origin  wants_extra_baggage  \
0            7        Sat  AKLDEL    New Zealand                    1   
1            3        Sat  AKLDEL    New Zealand                    0   
2           17        Wed  AKLDEL          India                    1   
3            4        Sat  AKLDEL    New Zealand                    0   
4           15        Wed  AKLDEL          India                    1   

   wants_preferred_seat  wants_in_flight_meals  flight_duration  \
0                     0        

#MinMaxScaler
El MinMaxScaler se utiliza para escalar las características numéricas a un rango específico, generalmente entre 0 y 1. Esta técnica de normalización es especialmente útil para nuestro dataset ya que garantiza que todas las características numéricas se encuentren dentro de un rango común. Esto es beneficioso para algoritmos como las redes neuronales, que son sensibles a las escalas de las características. Al normalizar los datos, podemos mejorar la convergencia durante el entrenamiento y obtener un rendimiento más consistente del modelo.


In [5]:
from sklearn.preprocessing import MinMaxScaler

# Seleccionar columnas numéricas para aplicar MinMaxScaler
numerical_columns = ['purchase_lead', 'length_of_stay', 'flight_hour', 'flight_duration']
minmax_scaler = MinMaxScaler()

# Aplicar MinMaxScaler
minmax_scaled_data = minmax_scaler.fit_transform(data[numerical_columns])

# Convertir a DataFrame y concatenar con el resto de los datos
minmax_scaled_df = pd.DataFrame(minmax_scaled_data, columns=numerical_columns)
data_minmax_scaled = pd.concat([data.drop(columns=numerical_columns), minmax_scaled_df], axis=1)
print(data_minmax_scaled.head())


   num_passengers sales_channel  trip_type flight_day   route booking_origin  \
0               2      Internet  RoundTrip        Sat  AKLDEL    New Zealand   
1               1      Internet  RoundTrip        Sat  AKLDEL    New Zealand   
2               2      Internet  RoundTrip        Wed  AKLDEL          India   
3               1      Internet  RoundTrip        Sat  AKLDEL    New Zealand   
4               2      Internet  RoundTrip        Wed  AKLDEL          India   

   wants_extra_baggage  wants_preferred_seat  wants_in_flight_meals  \
0                    1                     0                      0   
1                    0                     0                      0   
2                    1                     1                      0   
3                    0                     0                      1   
4                    1                     0                      1   

   booking_complete  purchase_lead  length_of_stay  flight_hour  \
0                 0      

#SimpleImputer
El SimpleImputer se emplea para manejar los valores faltantes en el dataset. Este paso es crucial porque los modelos de machine learning no pueden manejar valores faltantes de manera efectiva y la presencia de datos incompletos puede llevar a errores o a una reducción en la precisión del modelo. Utilizar el SimpleImputer permite rellenar los valores faltantes utilizando la media, mediana o una constante, asegurando que el dataset esté completo y listo para el análisis. Esto garantiza que todos los datos estén disponibles para el entrenamiento del modelo, mejorando así su robustez y exactitud.

In [7]:
from sklearn.impute import SimpleImputer

# Identificar columnas con valores faltantes (si las hubiera)
columns_with_nan = ['purchase_lead', 'length_of_stay', 'flight_hour', 'flight_duration']

# Crear un imputador simple que reemplaza los valores faltantes con la mediana
imputer = SimpleImputer(strategy='median')

# Aplicar SimpleImputer
imputed_data = imputer.fit_transform(data[columns_with_nan])

# Convertir a DataFrame y concatenar con el resto de los datos
imputed_df = pd.DataFrame(imputed_data, columns=columns_with_nan)
data_imputed = pd.concat([data.drop(columns=columns_with_nan), imputed_df], axis=1)
print(data_imputed.head())

   num_passengers sales_channel  trip_type flight_day   route booking_origin  \
0               2      Internet  RoundTrip        Sat  AKLDEL    New Zealand   
1               1      Internet  RoundTrip        Sat  AKLDEL    New Zealand   
2               2      Internet  RoundTrip        Wed  AKLDEL          India   
3               1      Internet  RoundTrip        Sat  AKLDEL    New Zealand   
4               2      Internet  RoundTrip        Wed  AKLDEL          India   

   wants_extra_baggage  wants_preferred_seat  wants_in_flight_meals  \
0                    1                     0                      0   
1                    0                     0                      0   
2                    1                     1                      0   
3                    0                     0                      1   
4                    1                     0                      1   

   booking_complete  purchase_lead  length_of_stay  flight_hour  \
0                 0      