# LAB | Feature Engineering

**Load the data**

In this challenge, we will be working with the same Spaceship Titanic data, like the previous Lab. The data can be found here:

https://raw.githubusercontent.com/data-bootcamp-v4/data/main/spaceship_titanic.csv

Metadata

https://github.com/data-bootcamp-v4/data/blob/main/spaceship_titanic.md

In [102]:
#Libraries
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [103]:
spaceship = pd.read_csv("https://raw.githubusercontent.com/data-bootcamp-v4/data/main/spaceship_titanic.csv")
spaceship.head()

Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Cabin,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name,Transported
0,0001_01,Europa,False,B/0/P,TRAPPIST-1e,39.0,False,0.0,0.0,0.0,0.0,0.0,Maham Ofracculy,False
1,0002_01,Earth,False,F/0/S,TRAPPIST-1e,24.0,False,109.0,9.0,25.0,549.0,44.0,Juanna Vines,True
2,0003_01,Europa,False,A/0/S,TRAPPIST-1e,58.0,True,43.0,3576.0,0.0,6715.0,49.0,Altark Susent,False
3,0003_02,Europa,False,A/0/S,TRAPPIST-1e,33.0,False,0.0,1283.0,371.0,3329.0,193.0,Solam Susent,False
4,0004_01,Earth,False,F/1/S,TRAPPIST-1e,16.0,False,303.0,70.0,151.0,565.0,2.0,Willy Santantines,True


# Revisar la forma del dataset (número de filas y columnas)
print("Shape of dataset:", spaceship.shape)

In [104]:
# Revisar la forma del dataset (número de filas y columnas)
print("Shape of dataset:", spaceship.shape)

Shape of dataset: (8693, 14)


**Check for data types**

In [105]:
# Tipos de datos de cada columna
print(spaceship.dtypes)




PassengerId      object
HomePlanet       object
CryoSleep        object
Cabin            object
Destination      object
Age             float64
VIP              object
RoomService     float64
FoodCourt       float64
ShoppingMall    float64
Spa             float64
VRDeck          float64
Name             object
Transported        bool
dtype: object


**Check for missing values**

In [106]:
# Verificar valores nulos
print(spaceship.isnull().sum())

PassengerId       0
HomePlanet      201
CryoSleep       217
Cabin           199
Destination     182
Age             179
VIP             203
RoomService     181
FoodCourt       183
ShoppingMall    208
Spa             183
VRDeck          188
Name            200
Transported       0
dtype: int64


There are multiple strategies to handle missing data

- Removing all rows or all columns containing missing data.
- Filling all missing values with a value (mean in continouos or mode in categorical for example).
- Filling all missing values with an algorithm.

For this exercise, because we have such low amount of null values, we will drop rows containing any missing value. 

In [107]:
# Eliminar filas con valores faltantes
spaceship_cleaned = spaceship.dropna()

# Verificar que no haya más valores nulos
print(spaceship_cleaned.isnull().sum())

# Mostrar el nuevo tamaño del dataset
print("Shape of cleaned dataset:", spaceship_cleaned.shape)


PassengerId     0
HomePlanet      0
CryoSleep       0
Cabin           0
Destination     0
Age             0
VIP             0
RoomService     0
FoodCourt       0
ShoppingMall    0
Spa             0
VRDeck          0
Name            0
Transported     0
dtype: int64
Shape of cleaned dataset: (6606, 14)


- **Cabin** is too granular - transform it in order to obtain {'A', 'B', 'C', 'D', 'E', 'F', 'G', 'T'}

In [108]:
# Extraer la letra del deck de la columna 'Cabin'
spaceship_cleaned['Deck'] = spaceship_cleaned['Cabin'].str[0]

# Verificar los valores únicos en la nueva columna 'Deck'
print(spaceship_cleaned['Deck'].unique())

# Revisar los valores únicos en la columna 'Deck'
print("Valores únicos en 'Deck':", spaceship_cleaned['Deck'].unique())

# Eliminar la columna original 'Cabin' si ya no es necesaria
spaceship_cleaned = spaceship_cleaned.drop(columns=['Cabin'])

# Revisar el DataFrame después de la limpieza
spaceship_cleaned.head()


['B' 'F' 'A' 'G' 'E' 'C' 'D' 'T']
Valores únicos en 'Deck': ['B' 'F' 'A' 'G' 'E' 'C' 'D' 'T']


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  spaceship_cleaned['Deck'] = spaceship_cleaned['Cabin'].str[0]


Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name,Transported,Deck
0,0001_01,Europa,False,TRAPPIST-1e,39.0,False,0.0,0.0,0.0,0.0,0.0,Maham Ofracculy,False,B
1,0002_01,Earth,False,TRAPPIST-1e,24.0,False,109.0,9.0,25.0,549.0,44.0,Juanna Vines,True,F
2,0003_01,Europa,False,TRAPPIST-1e,58.0,True,43.0,3576.0,0.0,6715.0,49.0,Altark Susent,False,A
3,0003_02,Europa,False,TRAPPIST-1e,33.0,False,0.0,1283.0,371.0,3329.0,193.0,Solam Susent,False,A
4,0004_01,Earth,False,TRAPPIST-1e,16.0,False,303.0,70.0,151.0,565.0,2.0,Willy Santantines,True,F


- Drop PassengerId and Name

In [109]:
# Eliminar las columnas 'PassengerId' y 'Name'
spaceship_cleaned = spaceship_cleaned.drop(columns=['PassengerId', 'Name'])

# Verificar el DataFrame después de eliminar las columnas
print(spaceship_cleaned.head())


  HomePlanet CryoSleep  Destination   Age    VIP  RoomService  FoodCourt  \
0     Europa     False  TRAPPIST-1e  39.0  False          0.0        0.0   
1      Earth     False  TRAPPIST-1e  24.0  False        109.0        9.0   
2     Europa     False  TRAPPIST-1e  58.0   True         43.0     3576.0   
3     Europa     False  TRAPPIST-1e  33.0  False          0.0     1283.0   
4      Earth     False  TRAPPIST-1e  16.0  False        303.0       70.0   

   ShoppingMall     Spa  VRDeck  Transported Deck  
0           0.0     0.0     0.0        False    B  
1          25.0   549.0    44.0         True    F  
2           0.0  6715.0    49.0        False    A  
3         371.0  3329.0   193.0        False    A  
4         151.0   565.0     2.0         True    F  


- For non-numerical columns, do dummies.

In [110]:
# Crear dummies para columnas no numéricas
spaceship_encoded = pd.get_dummies(spaceship_cleaned, drop_first=True)

# Verificar el DataFrame después de aplicar get_dummies
spaceship_encoded.head()


Unnamed: 0,Age,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Transported,HomePlanet_Europa,HomePlanet_Mars,CryoSleep_True,Destination_PSO J318.5-22,Destination_TRAPPIST-1e,VIP_True,Deck_B,Deck_C,Deck_D,Deck_E,Deck_F,Deck_G,Deck_T
0,39.0,0.0,0.0,0.0,0.0,0.0,False,True,False,False,False,True,False,True,False,False,False,False,False,False
1,24.0,109.0,9.0,25.0,549.0,44.0,True,False,False,False,False,True,False,False,False,False,False,True,False,False
2,58.0,43.0,3576.0,0.0,6715.0,49.0,False,True,False,False,False,True,True,False,False,False,False,False,False,False
3,33.0,0.0,1283.0,371.0,3329.0,193.0,False,True,False,False,False,True,False,False,False,False,False,False,False,False
4,16.0,303.0,70.0,151.0,565.0,2.0,True,False,False,False,False,True,False,False,False,False,False,True,False,False


**Perform Train Test Split**

In [111]:
from sklearn.model_selection import train_test_split

# Separar las características (X) y la variable objetivo (y)
X = spaceship_encoded.drop(columns=['Transported'])
y = spaceship_encoded['Transported']

# Dividir el dataset en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Verificar los tamaños de los conjuntos
print("Tamaño de X_train:", X_train.shape)
print("Tamaño de X_test:", X_test.shape)
print("Tamaño de y_train:", y_train.shape)
print("Tamaño de y_test:", y_test.shape)


Tamaño de X_train: (5284, 19)
Tamaño de X_test: (1322, 19)
Tamaño de y_train: (5284,)
Tamaño de y_test: (1322,)


**Model Selection**

In this exercise we will be using **KNN** as our predictive model.

In [112]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Crear el modelo KNN con k=5 (puedes ajustar k)
knn_model = KNeighborsClassifier(n_neighbors=5)

# Entrenar el modelo con los datos de entrenamiento
knn_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = knn_model.predict(X_test)

# Evaluar el rendimiento del modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo KNN: {accuracy:.4f}")

# Mostrar la matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
print("Matriz de confusión:")
print(conf_matrix)

# Mostrar el reporte de clasificación
print("Reporte de clasificación:")
print(classification_report(y_test, y_pred))


Precisión del modelo KNN: 0.7874
Matriz de confusión:
[[518 135]
 [146 523]]
Reporte de clasificación:
              precision    recall  f1-score   support

       False       0.78      0.79      0.79       653
        True       0.79      0.78      0.79       669

    accuracy                           0.79      1322
   macro avg       0.79      0.79      0.79      1322
weighted avg       0.79      0.79      0.79      1322



- Evaluate your model's performance. Comment it

In [113]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Crear el modelo KNN con k=5
knn_model = KNeighborsClassifier(n_neighbors=5)

# Entrenar el modelo
knn_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = knn_model.predict(X_test)

# Evaluar el rendimiento del modelo
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

# Mostrar los resultados
print(f"Precisión del modelo KNN: {accuracy:.4f}")
print("\nMatriz de confusión:")
print(conf_matrix)
print("\nReporte de clasificación:")
print(class_report)


Precisión del modelo KNN: 0.7874

Matriz de confusión:
[[518 135]
 [146 523]]

Reporte de clasificación:
              precision    recall  f1-score   support

       False       0.78      0.79      0.79       653
        True       0.79      0.78      0.79       669

    accuracy                           0.79      1322
   macro avg       0.79      0.79      0.79      1322
weighted avg       0.79      0.79      0.79      1322



## Comentarios Finales

El modelo KNN ha mostrado un rendimiento sólido con una precisión del 78.74%. La matriz de confusión y el reporte de clasificación reflejan que el modelo tiene un buen equilibrio entre precisión y recall para ambas clases. Aunque hay un número significativo de falsos positivos y negativos, el rendimiento general es aceptable.

### Recomendaciones para Mejorar el Modelo:
- **Ajustar el valor de k**: Experimentar con diferentes valores de k podría mejorar la precisión.
- **Normalización o Estandarización**: Asegurarse de que los datos estén escalados adecuadamente puede tener un impacto positivo en el rendimiento de KNN.
- **Explorar Otros Modelos**: Considerar probar modelos más complejos, como Random Forest o Gradient Boosting, que pueden manejar mejor la complejidad de los datos.
- **Validación Cruzada**: Implementar validación cruzada para asegurarse de que el modelo generaliza bien a datos no vistos.

¿Te gustaría realizar algún ajuste o análisis adicional en el modelo?
