# Orientações

A tarefa aqui é **observar** e **analisar** um processo completo de Machine Learning.

Adicionalmente, sugere-se que você também experimente com os dados e com os algoritmos, fazendo algumas das modificações indicadas em várias partes deste _notebook_.

Note que não é preciso escrever mais código, apenas modificar o código já fornecido.

Após a experimentação, responda ao questionário no final deste notebook e envie o mesmo (em formato **.ipynb**) via AVA.

# Problema

O problema aqui descrito é uma **tarefa de classificação**. Com base nos dados reais dos passageiros do navio RMS Titanic, precisamos ajustar um **modelo de previsão** para ser capaz de prever a chance de uma dada pessoa sobreviver ou não ao naufrágio (ocorrido em 15 de abril de 1912).

# Inicialização

Aqui importamos as bibliotecas fundamentais de Python para este _notebook_.

In [1]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import sklearn

# Conjunto de dados

Este _dataset_ já está separado em dois conjuntos, um para **treino** (`titanic_treino.csv`) e outro para **teste** (`titanic_teste.csv`).

Os conjuntos de treino e de teste já estão separados. Basta treinar um **modelo** com o conjunto de treino e aplicar uma **medida de desempenho** para sua avaliação.

Quando esta medida indicar que o modelo tem boa qualidade, então deve-se usar o conjunto de teste para gerar uma nova previsão, comparando esta com o resultado já conhecido para cada passageiro.

**Não se esqueça de fazer o upload dos aquivos CSV para o Colaboratory, antes de rodar a célula a seguir.**


In [2]:
# leitura dos conjuntos de dados

treino = pd.read_csv('titanic_treino.csv')
treino.set_index('id', inplace=True)

teste = pd.read_csv("titanic_teste.csv")
teste.set_index('id', inplace=True)

Cada conjunto de dados foi colocado em um `DataFrame` (da biblioteca Pandas).

Vamos visualizar a seguir os primeiro cinco registros da base de treino:

In [3]:
treino.head(5)

Unnamed: 0_level_0,sobrevivente,classe,nome,sexo,idade,familia1,familia2,tiquete,tarifa,cabine,embarque
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",M,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",F,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",F,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",F,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",M,35.0,0,0,373450,8.05,,S


Os dois conjuntos têm a mesma estrutura de atributos, onde cada linha representa um passageiro. As colunas são os atributos, definidos da seguinte forma:

- **id**: um número sequencial, único para cada passageiro

- **sobrevivente**: indica se o passageiro sobreviveu (1) ou não (0) ao naufrágio

- **classe**: qual a classe da passagem comprada, da primeira (1) até a terceira (3) classe

- **nome**: nome completo do passageiro (incluindo apelido, se for o caso)

- **sexo**: sexo masculino (M) ou feminino (F)

- **idade**: idade em anos

- **familia1**: número de cônjuges, de irmãos e de irmãs presentes no navio

- **familia2**: número de pais e de filhos do passageiro, também presentes no navio

- **tiquete**: código do tíquete de embarque

- **tarifa**: preço pago pela passagem, em libras esterlinas

- **cabine**: código da cabine do passageiro

- **embarque**: porto de embarque do passageiro, sendo Cherbourg (C), Queenstown (Q) ou  Southampton (S)

# Análise dos dados

Aqui vamos computar algumas estatísticas sobre a base original de dados. Estas estatísticas são importantes tanto para perceber quais operações de preprocessamento serão necessárias como para escolher quais _features_ vamos usar no treinamento.

Uma função muito útil para isso é a `.info()`, que mostra o tipo de dados e o número de valores presentes em cada coluna:

In [4]:
treino.info()

<class 'pandas.core.frame.DataFrame'>
Index: 891 entries, 1 to 891
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sobrevivente  891 non-null    int64  
 1   classe        891 non-null    int64  
 2   nome          891 non-null    object 
 3   sexo          891 non-null    object 
 4   idade         714 non-null    float64
 5   familia1      891 non-null    int64  
 6   familia2      891 non-null    int64  
 7   tiquete       891 non-null    object 
 8   tarifa        891 non-null    float64
 9   cabine        204 non-null    object 
 10  embarque      889 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 83.5+ KB


Para o conjunto de treino há um total de 891 registros.

É possível perceber que há valores faltantes, ao compararmos 891 com a coluna _non-null count_, nas colunas `idade`, `cabine` e `embarque`. Na etapa de preprocessamento precisamos completar estes valores (por exemplo, preenchendo as idades faltantes com a mediana de todas as idades). Ou pode-se simplesmente descartar algumas colunas, como faremos depois com `cabine`.

Podemos também olhar estatísticas sobre os valores das colunas numéricas usando `.describe()':

In [7]:
treino.describe()

Unnamed: 0,sobrevivente,classe,idade,familia1,familia2,tarifa
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


Vale a pena também analisar as colunas que contém poucos valores, chamadas de categóricas, para identificar as classes presentes. Faremos isso chamando a função `.value_counts()` em cada uma.

In [8]:
treino['sobrevivente'].value_counts()

Unnamed: 0_level_0,count
sobrevivente,Unnamed: 1_level_1
0,549
1,342


In [9]:
treino['classe'].value_counts()

Unnamed: 0_level_0,count
classe,Unnamed: 1_level_1
3,491
1,216
2,184


In [10]:
treino['sexo'].value_counts()

Unnamed: 0_level_0,count
sexo,Unnamed: 1_level_1
M,577
F,314


In [11]:
treino['embarque'].value_counts()

Unnamed: 0_level_0,count
embarque,Unnamed: 1_level_1
S,644
C,168
Q,77


Como o atributo que desejamos prever, `sobrevivente` só tem dois valores, temos uma tarefa de **classificação binária**. Isso afeta diretamente quais algoritmos podemos usar para fazer o treino, posteriormente.

Além disso, de 891 passageiros do conjunto de treino apenas 342 sobreviveram, o que equivale a 38%. O uso da **acurácia** como medida de desempenho parece adequado neste caso, uma vez que não há uma grande disparidade na quantidade de valores 0 e de valores 1.

# Correlação entre atributos

Apenas para gerar uma intuição sobre os dados, vamos visualizar a correlação entre os atributos do conjunto de treino.

Para isso usamos a função `.corr()` para calcular o coeficiente de correlação (também chamado de R de Pearson) entre cada par de atributos de um DataFrame.

Então visualizamos a correlação com o nosso atributo alvo, `sobrevivente`:

In [12]:
# cálculo da matriz de
corr = treino.apply(lambda x : pd.factorize(x)[0]).corr()

# quanto cada atributo se correlaciona com o valor de 'sobrevivente'
corr['sobrevivente']

Unnamed: 0,sobrevivente
sobrevivente,1.0
classe,0.247845
nome,-0.005007
sexo,0.543351
idade,0.042743
familia1,-0.136302
familia2,0.08621
tiquete,-0.047298
tarifa,0.191981
cabine,0.270495


Note que é possível visualizar a tabela inteira, que cruza cada um dos atributos com todos os demais, como visualizado abaixo. A escala de cores é de azul para valores negativos (no mínimo -1) e de vermelho para valores positivos (no máximo 1). Valores próximos ao zero são também mais próximos ao branco.

Ainda que haja correlação forte entre alguns atributos, para esta análise só interessam correlações envolvendo o atributo `sobrevivente`, ou seja, da linha superior ou da coluna mais à esquerda da tabela.

In [13]:
corr.style.background_gradient(cmap='bwr', vmin=-1).format(precision=2)

Unnamed: 0,sobrevivente,classe,nome,sexo,idade,familia1,familia2,tiquete,tarifa,cabine,embarque
sobrevivente,1.0,0.25,-0.01,0.54,0.04,-0.14,0.09,-0.05,0.19,0.27,0.1
classe,0.25,1.0,0.02,0.12,0.18,-0.15,-0.0,0.02,0.08,0.19,-0.17
nome,-0.01,0.02,1.0,-0.04,0.12,-0.03,0.0,0.76,0.3,0.24,-0.03
sexo,0.54,0.12,-0.04,1.0,0.01,-0.05,0.24,-0.13,0.14,0.08,0.11
idade,0.04,0.18,0.12,0.01,1.0,0.0,0.14,0.07,0.11,0.17,-0.15
familia1,-0.14,-0.15,-0.03,-0.05,0.0,1.0,0.17,-0.12,-0.05,-0.11,-0.03
familia2,0.09,-0.0,0.0,0.24,0.14,0.17,1.0,-0.26,0.07,-0.0,-0.08
tiquete,-0.05,0.02,0.76,-0.13,0.07,-0.12,-0.26,1.0,0.3,0.21,-0.02
tarifa,0.19,0.08,0.3,0.14,0.11,-0.05,0.07,0.3,1.0,0.38,0.08
cabine,0.27,0.19,0.24,0.08,0.17,-0.11,-0.0,0.21,0.38,1.0,0.02


# Separação dos dados

Agora vamos separar cada conjunto de dados em duas partes: `features`, que são os atributos sobre os quais treinaremos o modelo, e `rotulos`, que contém o atributo a ser previsto (no caso, apenas `sobrevivente`).
        
Para simplificar, vamos ignorar os atributos `nome`, `tiquete` e `cabine`, que são meramente textuais.

In [14]:
# separacão das features
treino_features = treino[['classe', 'sexo', 'idade', 'familia1', 'familia2', 'tarifa', 'embarque']]
teste_features  =  teste[['classe', 'sexo', 'idade', 'familia1', 'familia2', 'tarifa', 'embarque']]

# separação dos rótulos
treino_rotulos = treino[['sobrevivente']]
teste_rotulos  =  teste[['sobrevivente']]

Vamos ver o número de linhas e de colunas de cada subconjunto criado:

In [15]:
print('treino_features:', treino_features.shape)
print('treino_rotulos: ', treino_rotulos.shape)
print('teste_features: ', teste_features.shape)
print('teste_rotulos:  ', teste_rotulos.shape)

treino_features: (891, 7)
treino_rotulos:  (891, 1)
teste_features:  (418, 7)
teste_rotulos:   (418, 1)


# Preprocessamento

Aqui faremos a etapa de preprocessamento, necessária para transformar os dados brutos em valores mais adequados para os algoritmos de Machine Learning.

Lembrando, todo o processo de transformação dos dados é chamado de _pipeline_.

In [16]:
from sklearn.pipeline import Pipeline

In [17]:
# aqui definimos uma etapa auxiliar do pipeline para atributos categóricos:
# esta substitui valores faltando pelo mais frequente de cada coluna
# (não se preocupe com os detalhes do código)

from sklearn.base import BaseEstimator, TransformerMixin

class MostFrequentImputer(BaseEstimator, TransformerMixin):
    def fit(self, X, y=None):
        self.most_frequent_ = pd.Series([X[c].value_counts().index[0] for c in X], index=X.columns)
        return self
    def transform(self, X, y=None):
        return X.fillna(self.most_frequent_)

Atributos numéricos (contínuos) e atributos categóricos (discretos) precisam ser processados separadamente.

O trecho a seguir define um _pipeline_ genérico, apenas para os atributos numéricos. A etapa usando `SimpleImputer(strategy='median')` preenche valores faltando com a mediana dos valores daquele atributo.

**Ajuste:** A etapa de escalonamento usando `StandardScaler()` está desativada. Depois de medir o desempenho do modelo você pode ativar esta etapa, rodando novamente o preprocessamento e o treino, para verificar se isto melhora a qualidade do modelo.

In [18]:
# pipeline para atributos numéricos

from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler

num_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    #('std_scaler', StandardScaler()),
])

O trecho a seguir define um pipeline genérico, apenas para os atributos categóricos.

A etapa usando `MostFrequentImputer()` preenche valores faltando com o mais frequente dos valores daquele atributo. Já a etapa seguinte, usando `OneHotEncoder()` expande cada atributo que não é numérico (`classe`, `sexo` ou `embarque`) para um conjunto de atributos binários. Esta precisa ser a última etapa desse _pipeline_.

In [19]:
# pipeline para atributos categóricos

from sklearn.preprocessing import OneHotEncoder

cat_pipeline = Pipeline([
    ('imputer', MostFrequentImputer()),
    ('encoder', OneHotEncoder(sparse_output=False)),
])

A seguir usamos o recurso `ColumnTransformer`, muito útil, para aplicar determinados _pipelines_ para apenas alguns atributos dos dados. Assim temos um _pipeline_ inteligente que processa os dados de uma só vez, mas executa operações diferentes conforme a natureza de cada atributo.

In [20]:
# pipeline combinando atributos numéricos com atributos categóricos

from sklearn.compose import ColumnTransformer

full_pipeline = ColumnTransformer([
    ('num', num_pipeline, ['idade', 'familia1', 'familia2', 'tarifa']),
    ('cat', cat_pipeline, ['classe', 'sexo', 'embarque']),
])

Enfim, processamos os features de treino, gerando um novo conjunto de dados pronto para o treinamento.

In [21]:
X_treino = full_pipeline.fit_transform(treino_features)
print('X_treino:', X_treino.shape)
print(X_treino)

X_treino: (891, 12)
[[22.  1.  0. ...  0.  0.  1.]
 [38.  1.  0. ...  1.  0.  0.]
 [26.  0.  0. ...  0.  0.  1.]
 ...
 [28.  1.  2. ...  0.  0.  1.]
 [26.  0.  0. ...  1.  0.  0.]
 [32.  0.  0. ...  0.  1.  0.]]


Aqui vamos extrair somente os dados brutos dos rótulos, e colocar em `y_treino`, que é o formato esperado pelos algoritmos de Machine Learning.

In [22]:
y_treino = treino_rotulos.values.ravel()
print('y_treino:', y_treino.shape)
print(y_treino)

y_treino: (891,)
[0 1 1 1 0 0 0 0 1 1 1 1 0 0 0 1 0 1 0 1 0 1 1 1 0 1 0 0 1 0 0 1 1 0 0 0 1
 0 0 1 0 0 0 1 1 0 0 1 0 0 0 0 1 1 0 1 1 0 1 0 0 1 0 0 0 1 1 0 1 0 0 0 0 0
 1 0 0 0 1 1 0 1 1 0 1 1 0 0 1 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 1 0 1 0
 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 1 0 0 0 0 1 0 0 1 0 0 0 0 1 1 0 0 0 1 0
 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 1
 0 1 1 0 0 1 0 1 1 1 1 0 0 1 0 0 0 0 0 1 0 0 1 1 1 0 1 0 0 0 1 1 0 1 0 1 0
 0 0 1 0 1 0 0 0 1 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 1 1 1 1
 1 0 1 0 0 0 0 0 1 1 1 0 1 1 0 1 1 0 0 0 1 0 0 0 1 0 0 1 0 1 1 1 1 0 0 0 0
 0 0 1 1 1 1 0 1 0 1 1 1 0 1 1 1 0 0 0 1 1 0 1 1 0 0 1 1 0 1 0 1 1 1 1 0 0
 0 1 0 0 1 1 0 1 1 0 0 0 1 1 1 1 0 0 0 0 0 0 0 1 0 1 1 0 0 0 0 0 0 1 1 1 1
 1 0 0 0 0 1 1 0 0 0 1 1 0 1 0 0 0 1 0 1 1 1 0 1 1 0 0 0 0 1 1 0 0 0 0 0 0
 1 0 0 0 0 1 0 1 0 1 1 0 0 0 0 0 0 0 0 1 1 0 1 1 1 1 0 0 1 0 1 0 0 1 0 0 1
 1 1 1 1 1 1 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0 0 0 0 0 1 0 0 1 1 0 0 0 0 0 1 0
 0 0 1 1

# Seleção do modelo

Aqui selecionamos um modelo para o aprendizado, baseado em um dos possíveis algoritmos de classificação binária.

**Ajuste:** Depois de medir o desempenho do modelo você pode habilitar outros algoritmos. Note que apenas um par de comandos deve estar ativo (a linha `from` e a correspondente criação do `classificador`).

- Para o algoritmo `SVC` você pode mudar o parâmetro para `gamma='auto'`.

- Para o algoritmo `SGDClassifier` você pode mudar o parâmetro para `loss='log'`.

- Para o algoritmo `LogisticRegression` você **precisa ter os dados escalonados** como parte do _pipeline_ numérico. Ou seja, é preciso que a linha do `StandardScaler()` esteja habilitada e que os dados sejam novamente preprocessados.

- Para o algoritmo `RandomForestClassifier` você pode aumentar o parâmetro `n_estimators`, por exemplo para 10 ou 100.

In [23]:
from sklearn.svm import SVC
classificador = SVC(random_state=42, gamma='scale')

#from sklearn.linear_model import SGDClassifier
#classificador = SGDClassifier(random_state=42, loss='hinge')

#from sklearn.linear_model import LogisticRegression
#classificador = LogisticRegression(random_state=42)

#from sklearn.ensemble import RandomForestClassifier
#classificador = RandomForestClassifier(random_state=42, n_estimators=1)

# Treino e medida de desempenho

Vamos treinar e avaliar um classificador fazendo a **validação cruzada** do conjunto de treino. O parâmetro `cv` indica o número de dobras (ou _folds_), que é o número de vezes em que o conjunto é repartido, treinado e mensurado.

Como medida de desempenho vamos usar a **acurácia** (_accuracy_), que indica o percentual de acertos na previsão.

Como a validação cruzada devolve várias medidas, guardadas na lista `scores`, calculamos e exibimos uma média aritmética simples dessas medidas.

In [24]:
# validação cruzada

from sklearn.model_selection import cross_val_score

scores = cross_val_score(classificador, X_treino, y_treino, cv=10, scoring='accuracy')
print('{:.2%}'.format(scores.mean()))

68.13%


**Opcional:** Para melhorar o modelo existem diversas possibilidades de **ajuste** do modelo:

- A ação mais direta é simplesmente testar outros algoritmos, como mostrado na seção "Seleção do modelo".

- Você também pode ativar o escalonamento de _features_ na seção "Preprocessamento" e ver se houve ganho.

- Outra possibilidade é reduzir o número de _features_, simplesmente retirando atributos numéricos e categóricos do _pipeline_ `full_pipeline` na seção "Preprocessamento".

**Avançado**: Ainda é possível criar novas _features_ (o que precisa ser feito na seção "Separação dos dados"). Seguem três sugestões (que precisariam ser repetidas para o conjunto `teste`):

    # novo atributo (categórico) agrupando idades por faixas
    treino['faixa_etaria'] = treino['idade'] // 15 * 15
    treino[['faixa_etaria', 'sobrevivente']].groupby(['faixa_etaria']).mean()    

    # novo atributo (numérico ou categórico), agrupando dados sobre familiares
    treino['total_parentes'] = treino['familia1'] + treino['familia2']
    treino[['total_parentes', 'sobrevivente']].groupby(['total_parentes']).mean()

    # novo atributo (binário e categórico) identificando passageiros viajando sozinhos
    # (apenas 30% destes sobreviveram)
    treino['sozinho'] = (treino['familia1'] + treino['familia2']) == 0

# Teste final do modelo

Se você estiver satisfeito com a qualidade do modelo obtido (com base apenas na validação cruzada usando os rótulos de treino), então podemos fazer o teste final do modelo.

Vamos gerar a versão treinada do modelo, preprocessar os dados de teste e então gerar previsões.

Note que o treinamento do modelo é feito de fato aqui, com a chamada de `.fit()`. A validação cruzada feita anteriormente gera modelos temporários para as medidas e os descarta, mas não deixa o modelo treinado.

In [25]:
# treinamento
classificador.fit(X_treino, y_treino)

# preprocessamento dos dados de teste
X_teste = full_pipeline.transform(teste_features)

# geração das previsões
y_teste_pred = classificador.predict(X_teste)

Agora vamos avaliar a acurácia novamente, porém comparando o valores previstos com base nos dados de teste contra os rótulos reais para os mesmos dados de teste.

In [26]:
# rótulos reais
y_teste = teste_rotulos.values.ravel()

# medida de acurácia
from sklearn.metrics import accuracy_score
score = accuracy_score(y_teste, y_teste_pred)
print('{:.2%}'.format(score))

66.51%


# Gerando novas previsões

Uma vez treinado e testado, o modelo pode ser usado para gerar previsões sobre dados nunca antes vistos.

No exemplo abaixo um `DataFrame` com o mesmo formato dos conjuntos de `features` é criado, com apenas uma linha. Para essa pessoa fictícia, podemos usar o modelo para gerar uma previsão de sua possível sobrevivência ou não ao naufrágio do Titanic:

In [27]:
person = pd.DataFrame(columns=['classe', 'sexo', 'idade', 'familia1', 'familia2', 'tarifa', 'embarque'],
                      data   =[[      2,    'M',     40,           1,          0,     50.0,        'Q']])

In [28]:
X_person = full_pipeline.transform(person)
y_person = classificador.predict(X_person)
y_person[0]

0

# Questionário

**Questão 1:** Com base na seção "Análise dos dados", você consegue inferir algumas informações sobre dados demográficos ou econômicos dos passageiros em geral?


In [32]:
#Podemos ter uma ideia sobre as informações economicas ou demograficas pela classe onde cada passageiro estava,
#desta maneira conseguimos ter uma ideia da situação de cada

**Questão 2:** Com base na seção "Correlação entre atributos", o que você pode inferir sobre os coeficientes calculados entre alguns atributos?

In [33]:
#A matriz de correlação mostra que o sexo tem impacto significativo na sobrevivência (0.54), com maior chance para um gênero específico.
#Variáveis como tarifa e cabine estão positivamente relacionadas (0.38), indicando melhores acomodações para tarifas mais altas.
#Além disso, "família1" e "família2" apresentam alta correlação (1.00), sugerindo que representam informações semelhantes.

**Questão 3:** Como a breve análise sobre os dados das questões 1 e 2 pode ajudar no processo de escolha de _features_ ou de melhoria da qualidade do modelo?


In [34]:
#A análise de dados e correlações identifica atributos redundantes, irrelevantes ou altamente relacionados,
#permitindo a seleção de features mais relevantes e simplificando o modelo.
#Isso melhora a qualidade dos dados, reduz o risco de overfitting e otimiza o desempenho do modelo.

**Questão 4:** Qual a acurácia atingida com os dados de teste? Você ajustou o modelo para obter uma melhor qualidade de previsão? Se sim, explique os ajustes que você fez.

In [35]:
#A acuracia atingida usando com base os dados de teste deu 66,51%, não realizei mudanças pois não achei "teoricamente" necessario fazer um ajuste no modelo

**Questão 5:** Faça duas previsões usando o modelo final para dois personagens famosos, porém fictícios.
- O primeiro é Jack Dawson, passageiro da terceira classe, de 20 anos, sem parentes no navio. Jack ganhou em um jogo de cartas uma passagem que valia 8 libras esterlinas e embarcou em Southampton.
- O segundo é Rose DeWitt Bukater, passageira da primeira classe, de 17 anos e viajando junto com seu noivo e sua mãe. Sua passagem custou 100 libras esterlinas. Também embarcou em Southampton.

In [36]:
jack = pd.DataFrame(columns=['classe', 'sexo', 'idade', 'familia1', 'familia2', 'tarifa', 'embarque'],
                      data   =[[      3,    'M',     20,           0,          0,     8.0,        'S']])

rose = pd.DataFrame(columns=['classe', 'sexo', 'idade', 'familia1', 'familia2', 'tarifa', 'embarque'],
                      data   =[[      1,    'F',     17,           1,          1,     100.0,        'S']])

X_jack = full_pipeline.transform(jack)
y_jack = classificador.predict(X_jack)
print("jack", y_jack[0])

X_rose = full_pipeline.transform(rose)
y_rose = classificador.predict(X_rose)
print("rose", y_rose[0])

jack 0
rose 1
