# Predições - Aprendizado de Máquina
Uma vez que você compreendeu o contexto do problema e explorou os dados relacionados ao mesmo, é hora de criar um modelo para fazer predições!

### Orientações:
* O objetivo do seu modelo é fazer uma predição de sobrevivência com base nas informações de cada pessoa em individual.[Referencia para estudo de caso.](https://www.youtube.com/watch?v=ba3_UMjhAQc) 
* Você poderá desenvolver novas features para ajudar o modelo a entender melhor as características de cada amostra. 
* Deve ser feita uma limpeza e normalização dos dados antes de ser fornecido para o modelo.
* Você não poderá utilizar nenhuma lib de AutoML no desafio, é recomendado utilizar a bibliteca do [scikit-learn](https://scikit-learn.org/stable/supervised_learning.html#supervised-learning) para fazer o seu processamento dos dados e treinamento de modelo.
* Defina quais métricas são importantes para o seu problema uma vez que se trata de uma classificação. [Referencia  para entender métricas.](https://medium.com/kunumi/m%C3%A9tricas-de-avalia%C3%A7%C3%A3o-em-machine-learning-classifica%C3%A7%C3%A3o-49340dcdb198)
* Você deve testar mais de um modelo e comprar o resultados antes de escolher o melhor modelo para o seu problema.
 
Este vídeo é de um Cientista de Dados resolvendo o problema refência do desafio, a suas idéias e lógicas podem ser aproveitadas mas o código não pode ser aproveitado uma vez que os dados não são exatamente iguais.[Link da solução feita por um profissional de referência do projeto.](https://www.youtube.com/watch?v=1KguWZH4hXw&list=PLwnip85KhroW8Q1JSNbgl06iNPeC0SDkx&index=7)

#### Perguntas guias para criação do modelo:
- Como você pretende tratar os dados faltantes do seu dataset antes de fornecer para o modelo? 
- Você consegue criar alguma nova coluna (feature) para fornecer ao modelo?
- Existe alguma coluna que pode ser removida sob algum critério? Como por exemplo correlação?
- Você encontrou `outliers` no dataset? Se sim qual ação foi feita com estes dados?
- Quais normatizações você aplicou nos dados categóricos e numéricos?

# Perguntas do Desafio - Modelo:
### Quais etapas de processamento foram realizadas e o porquê de cada uma?
- Responda de maneira superficial uma vez que você já mostrou via código o que foi feito, quais as etapas do seu dado desde que ele é carregado pelo pandas até ser fornecido ao modelo durante o treinamento.

### Dos modelos testados qual foi melhor? Porque? Apresenta as métricas do seu melhor modelo.
- Sabendo que você testou pelo menos 2 modelos diferentes, como você definiu o que é o melhor e qual é o melhor.

### Seu melhor modelo comete erros? Quais os pontos fracos dele?
- Saber os pontos fracos de seu modelo é crucial durante o seu uso, tente identificar com uma matriz confusão onde o seu modelo erra e o perfil do dado que ele erra.

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import RepeatedKFold
from sklearn.ensemble import RandomForestClassifier

In [2]:
df = pd.read_csv("titanic.csv").set_index("id_passageiro")

y = df.pop("sobreviveu") # target
X = df

#### Agora, abaixo o processamento + modelos treinados com processamento

In [3]:
# Preparação das variáveis para o modelo:
# - Retirada de colunas que não serão usadas
# - Conversão de strings para ints binarios no gênero
# - Preenchimento dos valores faltantes na idade e no preço_bilhete com a média

df.drop(["numero_bilhete","cabine_numero","local_embarque"],axis=1,inplace=True)

# variaveis = ['Sex_binario', 'Age', 'Pclass', 'SibSp', 'Parch', 'Fare']

# X = df[variaveis].fillna(-1)
# => OBS: olhar melhor se é melhor preencher com a média ou com (-1)
# age
age_median = df['idade'].median()
df['idade'].fillna(age_median, inplace=True)

# fare
fare_median = df['preco_bilhete'].median()
df['preco_bilhete'].fillna(fare_median, inplace=True)

df['genero'] = df['genero'].map({'M': 0, 'F': 1})
df.head()

Unnamed: 0_level_0,classe_bilhete,genero,idade,irmaos_conjuges_abordo,pais_filhos_abordo,preco_bilhete
id_passageiro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,3,0,22.0,1,0,7.25
2,1,1,38.0,1,0,71.2833
3,3,1,26.0,0,0,7.925
4,1,1,35.0,1,0,53.1
5,3,0,35.0,0,0,8.05


In [4]:
# Modelo de Regressão Logística
lr_model = LogisticRegression(solver='liblinear')
lr_model.fit(X, y)

# verificar a acurácia do modelo
acc_logReg = round(lr_model.score(X, y) * 100, 2)
print("Acurácia do modelo de Regressão Logística: {}".format(acc_logReg))

Acurácia do modelo de Regressão Logística: 80.02


In [5]:
# Modelo de árvore de decisão
decision_tree_model = DecisionTreeClassifier(max_depth=3)
decision_tree_model.fit(X, y)

# verificar a acurácia do modelo
acc_tree = round(decision_tree_model.score(X, y) * 100, 2)
print("Acurácia do modelo de Árvore de Decisão: {}".format(acc_tree))

Acurácia do modelo de Árvore de Decisão: 82.72


In [9]:
random_tree_model = RandomForestClassifier(n_estimators=100, n_jobs=-1, random_state=0)
random_tree_model.fit(X, y)

# verificar a acurácia do modelo
acc_tree = round(random_tree_model.score(X, y) * 100, 2)
print("Acurácia do modelo de Árvore Aleatória: {}".format(acc_tree))

Acurácia do modelo de Árvore Aleatória: 97.98
