# Pacotes Necessários

In [None]:
import pandas as pd
import numpy as np

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

# Lendo o banco de dados

In [None]:
dados = pd.read_csv('ds/train.csv')

In [None]:
dados.head()

## Eliminando colunas que não serão utilizadas

In [None]:
dados = dados.drop(['Name', 'Ticket', 'Cabin', 'Embarked'], axis = 1)

In [None]:
dados.head()

# Editando Chave e Variável Resposta

In [None]:
dados = dados.set_index(['PassengerId'])
dados = dados.rename(columns = {'Survived':'target'}, inplace=False)

In [None]:
dados.head()

# Descritiva

In [None]:
dados.describe()

## podemos observar pela variável target que quase 40% (38,3838%) das pessoas sobreviveram (target = 1)

In [None]:
dados.describe(include=['O'])

## como o sexo, coluna "Sex" é uma variável categórica, ela não vem no describe, para isto precisamos passar o parâmetro O (letra O maiúscula), assim o método describe vai passar algumas informações sobre ela

# Transformação dos dados

A maioria dos algorítmos não aceitam variáveis categóricas para isto tranformamos a coluna Sex em 0 e 1. Também transformamos as classes apenas para identificá-las. Há maneiras bem melhores de fazer isto!!!!

In [None]:
dados['Sex_F'] = np.where(dados['Sex'] == 'female', 1, 0)

dados['Pclass_1'] = np.where(dados['Pclass'] == 1, 1, 0)
dados['Pclass_2'] = np.where(dados['Pclass'] == 2, 1, 0)
dados['Pclass_3'] = np.where(dados['Pclass'] == 3, 1, 0)

In [None]:
dados = dados.drop(['Pclass', 'Sex'], axis = 1)

In [None]:
dados.head()

In [None]:
dados.isnull().sum()

## No caso da idade vamos apenas como exemplo substituir nulos por zero

In [None]:
dados.fillna(0, inplace = True)

In [None]:
dados.isnull().sum()

# Amostragem

In [None]:
x_train, x_test, y_train, y_test = train_test_split(dados.drop(['target'], axis = 1), 
                                                    dados['target'], 
                                                    test_size=0.3, 
                                                    random_state=1234)
[{'treino': x_train.shape}, 
 {'teste': x_test.shape}]

# Modelo

# Random Forest

In [None]:
rndforest = RandomForestClassifier(n_estimators=1000, criterion='gini', max_depth=5)
rndforest.fit(x_train, y_train)

In [None]:
probabilidade = rndforest.predict_proba(dados.drop('target', axis=1))[:,1]
classificacao = rndforest.predict(dados.drop('target', axis=1))

In [None]:
dados['probabilidade'] = probabilidade
dados['classificacao'] = classificacao

In [None]:
dados