# LAB | Feature Engineering

**Load the data**

In this challenge, we will be working with the same Spaceship Titanic data, like the previous Lab. The data can be found here:

https://raw.githubusercontent.com/data-bootcamp-v4/data/main/spaceship_titanic.csv

Metadata

https://github.com/data-bootcamp-v4/data/blob/main/spaceship_titanic.md

In [19]:
#Libraries
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import StandardScaler


In [20]:
spaceship = pd.read_csv("https://raw.githubusercontent.com/data-bootcamp-v4/data/main/spaceship_titanic.csv")
spaceship.head()

Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Cabin,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name,Transported
0,0001_01,Europa,False,B/0/P,TRAPPIST-1e,39.0,False,0.0,0.0,0.0,0.0,0.0,Maham Ofracculy,False
1,0002_01,Earth,False,F/0/S,TRAPPIST-1e,24.0,False,109.0,9.0,25.0,549.0,44.0,Juanna Vines,True
2,0003_01,Europa,False,A/0/S,TRAPPIST-1e,58.0,True,43.0,3576.0,0.0,6715.0,49.0,Altark Susent,False
3,0003_02,Europa,False,A/0/S,TRAPPIST-1e,33.0,False,0.0,1283.0,371.0,3329.0,193.0,Solam Susent,False
4,0004_01,Earth,False,F/1/S,TRAPPIST-1e,16.0,False,303.0,70.0,151.0,565.0,2.0,Willy Santantines,True


**Check the shape of your data**

In [21]:
spaceship.shape

(8693, 14)

In [22]:
spaceship.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8693 entries, 0 to 8692
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   PassengerId   8693 non-null   object 
 1   HomePlanet    8492 non-null   object 
 2   CryoSleep     8476 non-null   object 
 3   Cabin         8494 non-null   object 
 4   Destination   8511 non-null   object 
 5   Age           8514 non-null   float64
 6   VIP           8490 non-null   object 
 7   RoomService   8512 non-null   float64
 8   FoodCourt     8510 non-null   float64
 9   ShoppingMall  8485 non-null   float64
 10  Spa           8510 non-null   float64
 11  VRDeck        8505 non-null   float64
 12  Name          8493 non-null   object 
 13  Transported   8693 non-null   bool   
dtypes: bool(1), float64(6), object(7)
memory usage: 891.5+ KB


**Check for data types**

In [23]:
spaceship.dtypes

PassengerId      object
HomePlanet       object
CryoSleep        object
Cabin            object
Destination      object
Age             float64
VIP              object
RoomService     float64
FoodCourt       float64
ShoppingMall    float64
Spa             float64
VRDeck          float64
Name             object
Transported        bool
dtype: object

**Check for missing values**

In [24]:
spaceship.isnull().sum()

PassengerId       0
HomePlanet      201
CryoSleep       217
Cabin           199
Destination     182
Age             179
VIP             203
RoomService     181
FoodCourt       183
ShoppingMall    208
Spa             183
VRDeck          188
Name            200
Transported       0
dtype: int64

In [25]:
spaceship.isnull().mean() * 100

PassengerId     0.000000
HomePlanet      2.312205
CryoSleep       2.496261
Cabin           2.289198
Destination     2.093639
Age             2.059128
VIP             2.335212
RoomService     2.082135
FoodCourt       2.105142
ShoppingMall    2.392730
Spa             2.105142
VRDeck          2.162660
Name            2.300702
Transported     0.000000
dtype: float64

There are multiple strategies to handle missing data

- Removing all rows or all columns containing missing data.
- Filling all missing values with a value (mean in continouos or mode in categorical for example).
- Filling all missing values with an algorithm.

For this exercise, because we have such low amount of null values, we will drop rows containing any missing value. 

In [26]:
spaceship = spaceship.dropna()
spaceship_cleaned = spaceship.dropna()

- **Cabin** is too granular - transform it in order to obtain {'A', 'B', 'C', 'D', 'E', 'F', 'G', 'T'}

In [27]:
import pandas as pd

# Suponiendo que 'spaceship' es tu DataFrame
# Puedes crear una función para transformar la columna 'Cabin'

# Función para obtener la letra principal de la cabina
def transform_cabin(cabin):
    if pd.isna(cabin):
        return 'T'  # Asignamos 'T' para valores nulos
    return cabin[0]  # Extraemos la primera letra de la cabina

# Aplicamos la función a la columna 'Cabin'
spaceship['Cabin_transformed'] = spaceship['Cabin'].apply(transform_cabin)

# Mostrar los primeros registros para verificar
print(spaceship[['Cabin', 'Cabin_transformed']].head())


   Cabin Cabin_transformed
0  B/0/P                 B
1  F/0/S                 F
2  A/0/S                 A
3  A/0/S                 A
4  F/1/S                 F


- Drop PassengerId and Name

In [28]:
# Eliminar las columnas 'PassengerId' y 'Name'
spaceship = spaceship.drop(columns=['PassengerId', 'Name'])

- For non-numerical columns, do dummies.

In [29]:
# Crear dummies para las columnas no numéricas
spaceship = pd.get_dummies(spaceship, drop_first=True)


In [30]:
# Verificar el resultado
print(spaceship.head())

    Age  RoomService  FoodCourt  ShoppingMall     Spa  VRDeck  Transported  \
0  39.0          0.0        0.0           0.0     0.0     0.0        False   
1  24.0        109.0        9.0          25.0   549.0    44.0         True   
2  58.0         43.0     3576.0           0.0  6715.0    49.0        False   
3  33.0          0.0     1283.0         371.0  3329.0   193.0        False   
4  16.0        303.0       70.0         151.0   565.0     2.0         True   

   HomePlanet_Europa  HomePlanet_Mars  CryoSleep_True  ...  \
0               True            False           False  ...   
1              False            False           False  ...   
2               True            False           False  ...   
3               True            False           False  ...   
4              False            False           False  ...   

   Destination_PSO J318.5-22  Destination_TRAPPIST-1e  VIP_True  \
0                      False                     True     False   
1                      F

**Perform Train Test Split**

In [31]:
from sklearn.model_selection import train_test_split

# Variables predictoras (X) y la variable objetivo (y)
# Transported es la columna objetivo
X = spaceship.drop(columns=['Transported'])  # Variables predictoras
y = spaceship['Transported']  # Variable objetivo

# Realizar el split de los datos 80-20 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Verificar las formas de los conjuntos de datos resultantes
print("X_train shape:", X_train.shape)
print("X_test shape:", X_test.shape)
print("y_train shape:", y_train.shape)
print("y_test shape:", y_test.shape)


X_train shape: (5284, 5323)
X_test shape: (1322, 5323)
y_train shape: (5284,)
y_test shape: (1322,)


**Model Selection**

In this exercise we will be using **KNN** as our predictive model.

In [32]:
scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
knn = KNeighborsClassifier(n_neighbors=5)

knn.fit(X_train_scaled, y_train)

# Predicciones en el conjunto de prueba
y_pred = knn.predict(X_test_scaled)

#  precisión
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.4f}")

# Reporte 
print("\nClassification Report:")
print(classification_report(y_test, y_pred))

Accuracy: 0.6369

Classification Report:
              precision    recall  f1-score   support

       False       0.70      0.46      0.56       653
        True       0.61      0.81      0.69       669

    accuracy                           0.64      1322
   macro avg       0.65      0.63      0.62      1322
weighted avg       0.65      0.64      0.63      1322



- Evaluate your model's performance. Comment it

In [33]:
"""El modelo KNN tiene una precisión del 63.69%, lo que significa que acierta aproximadamente en el 64% de las predicciones. En términos de las clases:

Para la clase "True" (transportado), el modelo tiene un buen recall (81%), pero una precisión de 61%.
Para la clase "False" (no transportado), la precisión es 70%, pero el recall es bajo (46%), lo que indica que el modelo no detecta bien todos los casos negativos.
En general, el modelo tiene un bueno recall para la clase positiva (True), pero un rendimiento subóptimo en la clase negativa (False), lo que puede mejorar con ajustes en el modelo, como probar otros valores de k, balancear las clases o usar otro algoritmo más avanzado.
"""

'El modelo KNN tiene una precisión del 63.69%, lo que significa que acierta aproximadamente en el 64% de las predicciones. En términos de las clases:\n\nPara la clase "True" (transportado), el modelo tiene un buen recall (81%), pero una precisión de 61%.\nPara la clase "False" (no transportado), la precisión es 70%, pero el recall es bajo (46%), lo que indica que el modelo no detecta bien todos los casos negativos.\nEn general, el modelo tiene un bueno recall para la clase positiva (True), pero un rendimiento subóptimo en la clase negativa (False), lo que puede mejorar con ajustes en el modelo, como probar otros valores de k, balancear las clases o usar otro algoritmo más avanzado.\n'