# Introdução

Bem-vindo ao ano de 2912, onde suas habilidades em ciência de dados são necessárias para resolver um mistério cósmico. Recebemos uma transmissão de quatro anos-luz de distância e as coisas não parecem boas.

A nave espacial Titanic foi um navio de passageiros interestelar lançado há um mês. Com quase 13.000 passageiros a bordo, o navio iniciou a sua viagem inaugural transportando emigrantes do nosso sistema solar para três exoplanetas recentemente habitáveis que orbitam estrelas próximas.

Ao contornar Alfa Centauri a caminho do seu primeiro destino – o tórrido 55 Cancri E – a incauta nave espacial Titanic colidiu com uma anomalia do espaço-tempo escondida dentro de uma nuvem de poeira. Infelizmente, teve um destino semelhante ao do seu homónimo de 1000 anos antes. Embora o navio tenha permanecido intacto, quase metade dos passageiros foram transportados para uma dimensão alternativa!

Para ajudar as tripulações de resgate e recuperar os passageiros perdidos, você é desafiado a prever quais passageiros foram transportados pela anomalia usando registros recuperados do sistema de computador danificado da nave espacial.

Ajude a salvá-los e mudar a história!

## O Dataset

*   ```PassageiroId``` – Um ID exclusivo para cada passageiro. Cada ID assume o formato gggg_pp onde gggg indica um grupo com o qual o passageiro está viajando e pp é o seu número dentro do grupo. As pessoas de um grupo são frequentemente membros da família, mas nem sempre.
*   ```PlanetaNatal``` - O planeta de onde o passageiro partiu, normalmente o planeta de residência permanente.
*   ```CrioSono``` - Indica se o passageiro optou por ser colocado em animação suspensa durante a viagem. Os passageiros em sono criogênico ficam confinados em suas cabines.
*   ```Cabine``` - O número da cabine onde o passageiro está hospedado. Assume a forma deck/num/side, onde o lado pode ser P para Bombordo ou S para Estibordo.
*   ```Destino``` - O planeta para onde o passageiro irá desembarcar.
*   ```Idade``` - A idade do passageiro.
*   ```VIP``` - Se o passageiro pagou por serviço VIP especial durante a viagem.
*   ```ServicoDeQuarto```, ```PracaAlimentacao```, ```Shopping```, ```Spa```, ```DeckVirtual``` – Valor que o passageiro pagou em cada uma das muitas comodidades de luxo da Nave Espacial Titanic.
*   ```Nome``` - O nome e sobrenome do passageiro.
*   ```Transportado``` – Se o passageiro foi transportado para outra dimensão. Este é o alvo, a coluna que você está tentando prever.

# Prova P1

## Instruções

Para cada uma das questões, ***responda na cúlula de código, o código capaz de respondê-las***. Você pode criar células de código adicionais, mas ***o código que mostra a resposta de cada questão deve estar na última célula da questão***. Eu devo ser capaz de rodar cada célula para corrigir a prova.



## EDA inicial

Importe as biliotecas necessárias aqui:

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

### **Questão 1) (0,5 ponto)** Carregue o Dataset e verifique quantas observações (linhas) e features (colunas) existem

In [16]:
df = pd.read_csv('train.csv')
linhas, colunas = df.shape
print('Linhas: ', linhas)
print('Colunas: ', colunas)

Linhas:  8693
Colunas:  14


### **Questão 3) (1 ponto)** Verifique se existem valores ausentes em alguma coluna das observações e se existirem, remova-as do `DataFrame`.

In [25]:
df.info()
df.dropna(inplace=True)

<class 'pandas.core.frame.DataFrame'>
Index: 6606 entries, 0 to 8692
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   PassageiroId      6606 non-null   object 
 1   PlanetaNatal      6606 non-null   object 
 2   CrioSono          6606 non-null   object 
 3   Cabine            6606 non-null   object 
 4   Destino           6606 non-null   object 
 5   Idade             6606 non-null   float64
 6   VIP               6606 non-null   object 
 7   ServicoDeQuarto   6606 non-null   float64
 8   PracaAlimentacao  6606 non-null   float64
 9   Shopping          6606 non-null   float64
 10  Spa               6606 non-null   float64
 11  DeckVirtual       6606 non-null   float64
 12  Nome              6606 non-null   object 
 13  Transportado      6606 non-null   bool   
dtypes: bool(1), float64(6), object(7)
memory usage: 729.0+ KB


### **Questão 4) (1 ponto)** Qual a média de passageiros transportados de cada planeta natal?

In [96]:
# Qual a média de passageiros transportados de cada planeta natal?
transported_passengers = df.query("Transportado == True")
not_transported_passengers = df.query("Transportado == False")

transported_passengers.value_counts('PlanetaNatal')
# Earth     1518
# Europa    1104
# Mars       705
df.shape[0]
# 6606 pessoas ao total

print(f'Média de passageiros transportados da Terra: {1518/6606 * 100:.0f}')
print(f'Média de passageiros transportados de Europa: {1104/6606 * 100:.0f}')
print(f'Média de passageiros transportados de Marte: {705/6606 * 100:.0f}')

Média de passageiros transportados da Terra: 23
Média de passageiros transportados de Europa: 17
Média de passageiros transportados de Marte: 11


### **Questão 5) (1 ponto)** O CrioSono aumenta as chances de ser transportado?
*(Qual a média de passageiros transportados que estavam ou não em CrioSono)*

In [102]:
passengers_using_CrioSono = df.query("CrioSono == True")
passengers_not_using_CrioSono = df.query("CrioSono == False")
print(passengers_using_CrioSono.value_counts("Transportado")) # Dentre os passageiros que usaram o CrioSono, 1905 foram transportados e 427 não foram transportados
print(f"{1905 / 2332 * 100:.2f}% foram teleportados dentre os que usaram o CrioSono")
print(passengers_not_using_CrioSono.value_counts("Transportado")) # Dentre os passageiros que não usaram o CrioSono, 1422 foram transportados e 2852 não foram transportados
print(f"{1422 /4274 * 100:.2f}% foram teleportados dentre os que não usaram o CrioSono")

print("Sim, o CrioSono influencia na taxa de transporte dos passageiros")

Transportado
True     1905
False     427
Name: count, dtype: int64
81.69% foram teleportados dentre os que usaram o CrioSono
Transportado
False    2852
True     1422
Name: count, dtype: int64
33.27% foram teleportados dentre os que não usaram o CrioSono
Sim, o CrioSono influencia na taxa de transporte dos passageiros
CrioSono
False    0.332709
True     0.816895
Name: Transportado, dtype: float64


## Pré-processamento

Antes, vamos nos certificar de que as features Transportado, CrioSono e VIP são booleanas.

In [85]:
df[['Transportado','CrioSono', 'VIP']] = df[['Transportado','CrioSono', 'VIP']].astype(bool)

### **Questão 6) (1,5 pontos)** Realize a Codificação One Hot (One Hot Encoding) para transformar as variáveis categóricas em features (colunas).

*Para preservar os dados originais, aplique a codificação One Hot em um novo DataFrame*

Ao fazer a Codificação One Hot, **exclua as features únicas**   `PassageiroId`, `Cabine` e `Nome`

In [106]:
cols = ['PlanetaNatal', 'CrioSono', 'Destino', 'Idade', 'VIP', 'ServicoDeQuarto', 'PracaAlimentacao', 'Shopping', 'Spa', 'DeckVirtual', 'Transportado']
df_onehot = df[cols].copy()
df_onehot = pd.get_dummies(df_onehot, columns=cols)
df_onehot.head()

Unnamed: 0,PlanetaNatal_Earth,PlanetaNatal_Europa,PlanetaNatal_Mars,CrioSono_False,CrioSono_True,Destino_55 Cancri e,Destino_PSO J318.5-22,Destino_TRAPPIST-1e,Idade_0.0,Idade_1.0,...,DeckVirtual_12424.0,DeckVirtual_12682.0,DeckVirtual_12708.0,DeckVirtual_14485.0,DeckVirtual_16337.0,DeckVirtual_17074.0,DeckVirtual_17306.0,DeckVirtual_20336.0,Transportado_False,Transportado_True
0,False,True,False,True,False,False,False,True,False,False,...,False,False,False,False,False,False,False,False,True,False
1,True,False,False,True,False,False,False,True,False,False,...,False,False,False,False,False,False,False,False,False,True
2,False,True,False,True,False,False,False,True,False,False,...,False,False,False,False,False,False,False,False,True,False
3,False,True,False,True,False,False,False,True,False,False,...,False,False,False,False,False,False,False,False,True,False
4,True,False,False,True,False,False,False,True,False,False,...,False,False,False,False,False,False,False,False,False,True


## Correlação

### **Questão 7) (1 ponto)** Mostre um gráfico de barras da correlação entre `Transportado` as outras features.

In [107]:
plt.figure(figsize=(15,8))
df_onehot.corr()['Transportado'].sort_values(ascending = False).plot(kind='bar')

## KNN


### **Questão 8) (1 ponto)** Divida o `DataFrame` criado para a questão anterior, criando um `DataFrame` de teste, com um terço dos dados e um outro de treino, com o resto dos dados.

*OSB: Utilize os parâmetros que julgar pertinentes para a divisão do conjunto de dados.*

In [None]:
from sklearn.model_selection import train_test_split
# df é o DataFrame criado na questão anterior
df_train, df_test = train_test_split(df, test_size=0.33, random_state=42)

### **Questão 9) (1 ponto)** Execute o classificador KNN na feature Transportado para 1 vizinho e verifique a acurácia.

In [None]:
from sklearn.neighbors import KNeighborsClassifier
df_treino, df_teste = train_test_split(df, test_size=0.33, shuffle=True, random_state=1)

plt.figure(figsize=(10, 5))
plt.scatter(df_treino['height'], df_treino['weight'],
            c='tab:green', s=50, alpha=0.5, label='Dados de treino')
plt.scatter(df_teste['height'], df_teste['weight'],
            c='tab:gray', s=20, alpha=0.8, label='Dados de Teste')

X_treino, y_treino = df_treino[['height', 'weight']], df_treino['male']
X_teste, y_teste = df_teste[['height', 'weight']], df_teste['male']

classificador = KNeighborsClassifier(n_neighbors=1)

classificador.fit(X_treino, y_treino)
y_pred_treino = classificador.predict(X_treino)
y_pred_teste = classificador.predict(X_teste)   
accuracy_score(y_treino, y_pred_treino)
accuracy_score(y_teste, y_pred_teste)


### **Questão 10) (2 pontos)** Execute o classificador KNN na feature Transportado para 2,3,4,...,30 vizinhos e desenhe um gráfico da acurácia. Escreva em um comentário de código qual número de vizinhos você escolheria para este classificador e por qual motivo.

In [None]:
# Código da questão
acu_teste = []
acu_treino = []

for k in range(1,30):
    model = KNeighborsClassifier(n_neighbors = k)
    model.fit(X_treino, y_treino)

    y_pred = model.predict(X_teste)
    y_pred_treino = model.predict(X_treino)

    acu_teste.append(accuracy_score(y_teste, y_pred))
    acu_treino.append(accuracy_score(y_treino, y_pred_treino))

    plt.figure(figsize=(15,5))

plt.plot(range(1,10), acu_teste, label='acurácia teste');
plt.plot(range(1,10), acu_treino, label='acurácia treino');

plt.scatter(range(1,10), acu_teste);
plt.scatter(range(1,10), acu_treino);

plt.xlabel('Número de vizinhos (k)')
plt.ylabel('Acurácia');
plt.legend();

In [None]:
# Escreva em um comentário de código qual número de vizinhos você escolheria para este classificador e por qual motivo
# Resposta: