# Spaceship Titanic

- Utilizaando os [dados disponíveis no Kaggle](https://www.kaggle.com/competitions/spaceship-titanic)
    - Dataset de **competição**
    - O resultado é avaliado através da **acurácia**

### Entendendo a base

- **Utilizando o ydata-profiling (antigo Pandas Profiling) para entender essa base**
    - https://github.com/ydataai/ydata-profiling

In [1]:
# Importando o pandas
import pandas as pd

In [2]:
# Visualizando a base de treino
treino = pd.read_csv('train.csv')
treino.head(3)

Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Cabin,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name,Transported
0,0001_01,Europa,False,B/0/P,TRAPPIST-1e,39.0,False,0.0,0.0,0.0,0.0,0.0,Maham Ofracculy,False
1,0002_01,Earth,False,F/0/S,TRAPPIST-1e,24.0,False,109.0,9.0,25.0,549.0,44.0,Juanna Vines,True
2,0003_01,Europa,False,A/0/S,TRAPPIST-1e,58.0,True,43.0,3576.0,0.0,6715.0,49.0,Altark Susent,False


In [3]:
# Importando o ProfileReport do ydata-profiling
from ydata_profiling import ProfileReport

In [5]:
# Gerando a visualização
profile = ProfileReport(treino, title='SpaceshipTitanic_treino')

In [6]:
# Criando o relatório
profile.to_file('SpaceshipTitanic_treino.html')

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

- **Analisando a base**

In [4]:
# Verificando as informações da base
treino.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8693 entries, 0 to 8692
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   PassengerId   8693 non-null   object 
 1   HomePlanet    8492 non-null   object 
 2   CryoSleep     8476 non-null   object 
 3   Cabin         8494 non-null   object 
 4   Destination   8511 non-null   object 
 5   Age           8514 non-null   float64
 6   VIP           8490 non-null   object 
 7   RoomService   8512 non-null   float64
 8   FoodCourt     8510 non-null   float64
 9   ShoppingMall  8485 non-null   float64
 10  Spa           8510 non-null   float64
 11  VRDeck        8505 non-null   float64
 12  Name          8493 non-null   object 
 13  Transported   8693 non-null   bool   
dtypes: bool(1), float64(6), object(7)
memory usage: 891.5+ KB


In [5]:
# Verificando o tipo dos dados
treino.dtypes.value_counts()

object     7
float64    6
bool       1
Name: count, dtype: int64

In [6]:
# E os valores nulos
treino.isnull().sum().sort_values(ascending=False)

CryoSleep       217
ShoppingMall    208
VIP             203
HomePlanet      201
Name            200
Cabin           199
VRDeck          188
FoodCourt       183
Spa             183
Destination     182
RoomService     181
Age             179
PassengerId       0
Transported       0
dtype: int64

- **Visualizando a base de teste**

In [7]:
# Visualizando a base de teste
teste = pd.read_csv('test.csv')
teste.head(3)

Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Cabin,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name
0,0013_01,Earth,True,G/3/S,TRAPPIST-1e,27.0,False,0.0,0.0,0.0,0.0,0.0,Nelly Carsoning
1,0018_01,Earth,False,F/4/S,TRAPPIST-1e,19.0,False,0.0,9.0,0.0,2823.0,0.0,Lerome Peckers
2,0019_01,Europa,True,C/0/S,55 Cancri e,31.0,False,0.0,0.0,0.0,0.0,0.0,Sabih Unhearfus


In [8]:
# Verificando as informações da base
teste.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4277 entries, 0 to 4276
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   PassengerId   4277 non-null   object 
 1   HomePlanet    4190 non-null   object 
 2   CryoSleep     4184 non-null   object 
 3   Cabin         4177 non-null   object 
 4   Destination   4185 non-null   object 
 5   Age           4186 non-null   float64
 6   VIP           4184 non-null   object 
 7   RoomService   4195 non-null   float64
 8   FoodCourt     4171 non-null   float64
 9   ShoppingMall  4179 non-null   float64
 10  Spa           4176 non-null   float64
 11  VRDeck        4197 non-null   float64
 12  Name          4183 non-null   object 
dtypes: float64(6), object(7)
memory usage: 434.5+ KB


In [9]:
# Analisando os valores nulos
teste.isnull().sum().sort_values(ascending=False)

FoodCourt       106
Spa             101
Cabin           100
ShoppingMall     98
Name             94
CryoSleep        93
VIP              93
Destination      92
Age              91
HomePlanet       87
RoomService      82
VRDeck           80
PassengerId       0
dtype: int64

### Realizando os tratamentos iniciais dos dados

- **Tratando valores vazios**

In [10]:
# Verificando novamente valores vazios para a base de treino
treino.isnull().sum().sort_values(ascending=False)

CryoSleep       217
ShoppingMall    208
VIP             203
HomePlanet      201
Name            200
Cabin           199
VRDeck          188
FoodCourt       183
Spa             183
Destination     182
RoomService     181
Age             179
PassengerId       0
Transported       0
dtype: int64

In [11]:
# Retornando o shape da base
treino.shape

(8693, 14)

In [12]:
# Verificando a cardinalidade dos dados
treino.nunique().sort_values(ascending=False)

PassengerId     8693
Name            8473
Cabin           6560
FoodCourt       1507
Spa             1327
VRDeck          1306
RoomService     1273
ShoppingMall    1115
Age               80
HomePlanet         3
Destination        3
CryoSleep          2
VIP                2
Transported        2
dtype: int64

In [13]:
# Visualizando novamente a base
treino.head()

Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Cabin,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name,Transported
0,0001_01,Europa,False,B/0/P,TRAPPIST-1e,39.0,False,0.0,0.0,0.0,0.0,0.0,Maham Ofracculy,False
1,0002_01,Earth,False,F/0/S,TRAPPIST-1e,24.0,False,109.0,9.0,25.0,549.0,44.0,Juanna Vines,True
2,0003_01,Europa,False,A/0/S,TRAPPIST-1e,58.0,True,43.0,3576.0,0.0,6715.0,49.0,Altark Susent,False
3,0003_02,Europa,False,A/0/S,TRAPPIST-1e,33.0,False,0.0,1283.0,371.0,3329.0,193.0,Solam Susent,False
4,0004_01,Earth,False,F/1/S,TRAPPIST-1e,16.0,False,303.0,70.0,151.0,565.0,2.0,Willy Santantines,True


- Colunas com **alta cardinalidade** (Name, Cabin, ...) não vão ajudar o modelo pois podem torná-lo **menos generalizável**. Nesse caso, vamos **eliminar essas colunas**

In [14]:
# Eliminando para a base de treino
treino = treino.drop(['Name', 'Cabin'], axis=1)

In [15]:
# Também eliminando para a base de teste
teste = teste.drop(['Name', 'Cabin'], axis=1)

- **Tratando valores Vazios**

- **Age**
    - Como essa coluna possui a idade dos passageiros, podemos utilizar a **média das idades** para substituir os valores vazios

In [16]:
# Verificando a média das idades para a base de treino
int(treino.Age.mean())

28

In [17]:
# Podemos agora selecionar as colunas com idade vazia e substituir por essa média
treino.loc[treino.Age.isnull(), 'Age'] = int(treino.Age.mean())

In [18]:
# E fazendo o mesmo para a base de teste
teste.loc[teste.Age.isnull(), 'Age'] = int(teste.Age.mean())

- **CryoSleep**
    - Podemos verificar todos os valores nessa coluna e substituir os valores vazios pela **moda**

In [19]:
# Verificando os valores na coluna Embarked
treino.CryoSleep.value_counts()

CryoSleep
False    5439
True     3037
Name: count, dtype: int64

In [20]:
# Verificando a relação com as colunas RoomService, FoodCourt, ShoppingMall, Spa e VRDeck
filtro_val = treino.CryoSleep == True
treino.loc[filtro_val, ['RoomService', 'FoodCourt', 'ShoppingMall', 'Spa', 'VRDeck']].value_counts()

RoomService  FoodCourt  ShoppingMall  Spa  VRDeck
0.0          0.0        0.0           0.0  0.0       2690
Name: count, dtype: int64

- Sempre que **CryoSleep é igual True** os valores são **igual a 0**, vamos utilizar essa informação para preencher os valores vazios
    - Os restantes serão substituidos pela moda

In [21]:
# Filtro para identificar valores vazios
filtro_cs1 = treino[['RoomService', 'FoodCourt', 'ShoppingMall', 'Spa', 'VRDeck']].sum(axis=1) == 0
filtro_cs2 = treino.CryoSleep.isnull()
filtro_cs3 = filtro_cs1 & filtro_cs2 == True
filtro_cs3

0       False
1       False
2       False
3       False
4       False
        ...  
8688    False
8689    False
8690    False
8691    False
8692    False
Length: 8693, dtype: bool

In [22]:
# Substituindo os valores vazios True
treino.loc[filtro_cs3, 'CryoSleep'] = True

In [23]:
# Verificando a moda
treino.CryoSleep.mode()

0    False
Name: CryoSleep, dtype: object

In [24]:
# Substituindo os valores vazios pela moda
treino.loc[treino.CryoSleep.isnull(), 'CryoSleep'] = treino.CryoSleep.mode()[0]

In [33]:
# Substituindo os valores vazios em teste
filtro_TTcs1 = teste[['RoomService', 'FoodCourt', 'ShoppingMall', 'Spa', 'VRDeck']].sum(axis=1) == 0
filtro_TTcs2 = teste.CryoSleep.isnull()
filtro_TTcs3 = filtro_TTcs1 & filtro_TTcs2 == True
teste.loc[filtro_TTcs3, 'CryoSleep'] = True

In [34]:
# Substituindo os valores vazios em teste
teste.loc[teste.CryoSleep.isnull(), 'CryoSleep'] = teste.CryoSleep.mode()[0]

- **RoomService, FoodCourt, ShoppingMall, Spa, VRDeck**
    - Valor cobrado em cada uma das muitas comodidades de luxo da nave espacial Titanic, podemos utilizar a **media**
    - Utilizaremos a mesma análise anterior, onde CryoSleep for True o valor será 0, nos outros utilizaremos a media

In [31]:
# Filtro para identificar valores vazios
filtro_true = treino.CryoSleep == True
filtro_rs = filtro_true & treino.RoomService.isnull()
filtro_fc = filtro_true & treino.FoodCourt.isnull()
filtro_sm = filtro_true & treino.ShoppingMall.isnull()
filtro_spa = filtro_true & treino.Spa.isnull()
filtro_vr = filtro_true & treino.VRDeck.isnull()

In [32]:
# Substituindo os valores vazios por 0
treino.loc[filtro_rs, 'RoomService'] = 0
treino.loc[filtro_fc, 'FoodCourt'] = 0
treino.loc[filtro_sm, 'ShoppingMall'] = 0
treino.loc[filtro_spa, 'Spa'] = 0
treino.loc[filtro_vr, 'VRDeck'] = 0

In [44]:
# Substituindo os valores vazios pela media
treino.loc[treino.RoomService.isnull(), 'RoomService'] = treino.RoomService.mean()
treino.loc[treino.FoodCourt.isnull(), 'FoodCourt'] = treino.FoodCourt.mean()
treino.loc[treino.ShoppingMall.isnull(), 'ShoppingMall'] = treino.ShoppingMall.mean()
treino.loc[treino.Spa.isnull(), 'Spa'] = treino.Spa.mean()
treino.loc[treino.VRDeck.isnull(), 'VRDeck'] = treino.VRDeck.mean()

In [45]:
# Substituindo os valores em teste
filtro_TTtrue = teste.CryoSleep == True
filtro_TTrs = filtro_TTtrue & teste.RoomService.isnull()
filtro_TTfc = filtro_TTtrue & teste.FoodCourt.isnull()
filtro_TTsm = filtro_TTtrue & teste.ShoppingMall.isnull()
filtro_TTspa = filtro_TTtrue & teste.Spa.isnull()
filtro_TTvr = filtro_TTtrue & teste.VRDeck.isnull()

teste.loc[filtro_TTrs, 'RoomService'] = 0
teste.loc[filtro_TTfc, 'FoodCourt'] = 0
teste.loc[filtro_TTsm, 'ShoppingMall'] = 0
teste.loc[filtro_TTspa, 'Spa'] = 0
teste.loc[filtro_TTvr, 'VRDeck'] = 0

In [46]:
# Substituindo os valores pela media em teste
teste.loc[teste.RoomService.isnull(), 'RoomService'] = teste.RoomService.mean()
teste.loc[teste.FoodCourt.isnull(), 'FoodCourt'] = teste.FoodCourt.mean()
teste.loc[teste.ShoppingMall.isnull(), 'ShoppingMall'] = teste.ShoppingMall.mean()
teste.loc[teste.Spa.isnull(), 'Spa'] = teste.Spa.mean()
teste.loc[teste.VRDeck.isnull(), 'VRDeck'] = teste.VRDeck.mean()

- **VIP, Destination, HomePlanet**
    - VIP -> Se o passageiro pagou por serviço VIP especial durante a viagem
    - Destination -> O planeta para o qual o passageiro desembarcará
    - HomePlanet -> O planeta de onde o passageiro partiu, normalmente o planeta de residência permanente
    - Podemos utilizar a **moda** para essas variaveis

In [53]:
# Substituindo os valores em treino
treino.loc[treino.VIP.isnull(), 'VIP'] = treino.VIP.mode()[0]
treino.loc[treino.Destination.isnull(), 'Destination'] = treino.Destination.mode()[0]
treino.loc[treino.HomePlanet.isnull(), 'HomePlanet'] = treino.HomePlanet.mode()[0]

In [54]:
# Substituindo os valores em teste
teste.loc[teste.VIP.isnull(), 'VIP'] = teste.VIP.mode()[0]
teste.loc[teste.Destination.isnull(), 'Destination'] = teste.Destination.mode()[0]
teste.loc[teste.HomePlanet.isnull(), 'HomePlanet'] = teste.HomePlanet.mode()[0]

- **Verificando novamente os valores vazios**

In [58]:
# Para a base de treino
treino.isnull().sum().sort_values(ascending=False)

PassengerId     0
HomePlanet      0
CryoSleep       0
Destination     0
Age             0
VIP             0
RoomService     0
FoodCourt       0
ShoppingMall    0
Spa             0
VRDeck          0
Transported     0
dtype: int64

In [59]:
# Para a base de teste
teste.isnull().sum().sort_values(ascending=False)

PassengerId     0
HomePlanet      0
CryoSleep       0
Destination     0
Age             0
VIP             0
RoomService     0
FoodCourt       0
ShoppingMall    0
Spa             0
VRDeck          0
dtype: int64

### Considerando apenas as colunas que não são de texto

In [65]:
# Verificando as colunas de texto na base de treino
col_treino_nr = treino.columns[treino.dtypes != 'object']
col_treino_nr

Index(['Age', 'RoomService', 'FoodCourt', 'ShoppingMall', 'Spa', 'VRDeck',
       'Transported'],
      dtype='object')

In [62]:
# Selecionando apenas os valores numéricos da base de treino
treino_nr = treino.loc[:,col_treino_nr]

In [67]:
# E para a base de teste
col_teste_nr = teste.columns[teste.dtypes != 'object']
col_teste_nr

Index(['Age', 'RoomService', 'FoodCourt', 'ShoppingMall', 'Spa', 'VRDeck'], dtype='object')

In [64]:
# e os valores numéricos da base de teste
teste_nr = teste.loc[:,col_teste_nr]

### Modelo para classificar os dados
- Testar entre:
    - **Árvore de classificação**
        - https://scikit-learn.org/stable/modules/tree.html#classification
    - **Classificação dos vizinhos mais próximos**
        - https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier
    - **Regressão Logística**
        - https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression

- Separando a base de treino em **treino e validação**
    - Vamos fazer isso utilizando o **train_test_split**
        - https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [68]:
# Importando o train_test_split
from sklearn.model_selection import train_test_split

In [71]:
# Separando a base de treino em X e y
X = treino_nr.drop(['Transported'], axis=1)
y = treino.Transported

In [72]:
# Separando em treino e validação
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.33, random_state=42)

- Para a **árvore de classificação**

In [73]:
# Fazendo a importação
from sklearn import tree

In [74]:
# Criando o classificador
clf_ac = tree.DecisionTreeClassifier()

In [75]:
# Fazendo o fit com os dados
clf_ac = clf_ac.fit(X_train, y_train)

In [76]:
# Fazendo a previsão
y_pred_ac = clf_ac.predict(X_val)

- Para o **KNeighborsClassifier**

In [77]:
# Importando
from sklearn.neighbors import KNeighborsClassifier

In [78]:
# Criando o classificador
clf_knn = KNeighborsClassifier(n_neighbors=3)

In [79]:
# Fazendo o fit com os dados
clf_knn = clf_knn.fit(X_train, y_train)

In [80]:
# Fazendo a previsão
y_pred_knn = clf_knn.predict(X_val)

- E para a **Regressão Logística**

In [81]:
# Importando
from sklearn.linear_model import LogisticRegression

In [82]:
# Criando o classificador
clf_rl = LogisticRegression()

In [83]:
# Fazendo o fit com os dados
clf_rl = clf_rl.fit(X_train, y_train)

In [84]:
# Fazendo a previsão
y_pred_rl = clf_rl.predict(X_val)

### Avaliando os modelos
- Para fazer essa análise:
    - Acurácia (método de avaliação usado na competição):
        - https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html
    - Matriz de confusão (ajuda a visualizar a distribuição dos erros):
        - https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html

- Avaliando a **acurácia**

In [85]:
# Importando
from sklearn.metrics import accuracy_score

In [86]:
# Para a árvore
accuracy_score(y_val, y_pred_ac)

0.7267340536772394

In [87]:
# Para o knn
accuracy_score(y_val, y_pred_knn)

0.7389334262809342

In [88]:
# Para a regressão logística
accuracy_score(y_val, y_pred_rl)

0.7682119205298014

- Avaliando a **matriz de confusão**

In [89]:
# Importando
from sklearn.metrics import confusion_matrix

In [90]:
# Para a árvore
confusion_matrix(y_val, y_pred_ac)

array([[ 887,  537],
       [ 247, 1198]], dtype=int64)

In [91]:
# Para o knn
confusion_matrix(y_val, y_pred_knn)

array([[1012,  412],
       [ 337, 1108]], dtype=int64)

In [92]:
# Para a regressão logística
confusion_matrix(y_val, y_pred_rl)

array([[ 909,  515],
       [ 150, 1295]], dtype=int64)

### Fazendo a previsão para os dados de teste
- Vamos usar o modelo com melhor precisão para fazer o predict na base de teste

In [93]:
# Visualizando o X_train
X_train.head(3)

Unnamed: 0,Age,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck
4696,35.0,1337.0,49.0,57.0,0.0,0.0
5946,28.0,0.0,152.0,215.0,30.0,510.0
227,43.0,0.0,0.0,0.0,0.0,0.0


In [96]:
# Visualizando a base de teste (apenas com valores numéricos)
X_teste = teste_nr
X_teste.head(3)

Unnamed: 0,Age,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck
0,27.0,0.0,0.0,0.0,0.0,0.0
1,19.0,0.0,9.0,0.0,2823.0,0.0
2,31.0,0.0,0.0,0.0,0.0,0.0


In [97]:
# Utilizando a regressão logística na base de teste
y_pred = clf_rl.predict(X_teste)

In [98]:
# Criando uma nova coluna com a previsão na base de teste
teste['Transported'] = y_pred

In [99]:
# Selecionando apenas a coluna de Id e Survived para fazer o envio
resultado1 = teste[['PassengerId', 'Transported']]

In [100]:
# Exportando para um csv
resultado1.to_csv('resultado1.csv', index=False)

- **Resultado**
    - Modelo acertou 78% das avaliações
<img src="tentativa1.png" width=900>