<a href="https://www.venturus.org.br/en/"><img src="https://s3-sa-east-1.amazonaws.com/prod-jobsite-files.kenoby.com/uploads/venturus-1544703795-vnt-mainpng.png" ></a>
<br>
<p >This notebook was specially made for Machine Learning students from Venturus company, located in Campinas, Brazil.
<br>
<a href="https://www.venturus.org.br/en/">https://www.venturus.org.br/en/</a>
</p>

In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

# Definição do problema e Aquisição dos dados

Para esse projeto o problema e os dados são nos dado pelo Kaggle. Nosso único trabalho é tratar os dados e desenvolver um modelo.

<h3>Qual é o problema?</h3>

O naufrágio do Titanic é um dos mais famosos da história, inclusive um grande sucesso do cinema. 
Em 15 de abril de 1912, durante sua viagem de inauguração, o Titanic afundou depois de colidir com um iceberg, matando 1502 dos 2224 passageiros e tripulação. Essa trágedia chocou o mundo e levou na melhoria de leis na navegação.

Um das razões que levou a tantas mortes foi a falta de botes suficientes para passageiros e tripulação. Além disso, alguns elementos que envolvendo sorte também contribuiram para a sobrevivência, sendo que alguns grupos tinham maior chance de sobreviver, como mulheres, crianças e passageiros de alto poder aquisitivo.

<b>Nessa problema, o objetivo é aplicar técnicas de Machine Learing para prever quais passageiros sobreviveriam à tragédia.</b>

Habilidades práticas:
* Classificação binária
* Python básico

<h3>Os dados</h3>

Os dados são nos fornecidos em forma de planilha no formato .csv, já divididos em dois grupos: treinamento e teste.
Usaremos os dados de treinamento para construir modelos de Machine Learning. Usaremos dados como idade, sexo e classe social para classificar quais passageiros "deveriam" ter sobrevivido.

Os dados fornecidos são:

<table>
  <tr>
    <th>Variável</th>
    <th>Definição</th>
    <th>Valor</th>
  </tr>
  <tr>
    <td>survival</td>
    <td>Sobreviveu</td>
    <td>0 = Não e 1 = Sim</td>
  </tr>
  <tr>
    <td>pclass</td>
    <td>Classe no navio</td>
    <td>1 = 1ª, 2 = 2ª e 3 = 3ª</td>
  </tr>
  <tr>
    <td>sex</td>
    <td>Sexo</td>
    <td>Feminino ou Masculino</td>
  </tr>
  <tr>
    <td>age</td>
    <td>Idade</td>
    <td></td>
  </tr>
  <tr>
    <td>sibsp</td>
    <td>Números de irmãos e conjuges a bordo do Titanic</td>
    <td></td>
  </tr>
  <tr>
    <td>parch</td>
    <td>Número de pais ou filhos abordo do Titanic</td>
    <td></td>
  </tr>
  <tr>
    <td>ticket</td>
    <td>Número da passagem</td>
    <td></td>
  </tr>
  <tr>
    <td>fare</td>
    <td>Custo da passagem</td>
    <td></td>
  </tr>
  <tr>
    <td>cabin</td>
    <td>Número da cabine</td>
    <td></td>
  </tr>
  <tr>
    <td>embarked</td>
    <td>Porto que embarcou</td>
    <td>C = Cherbourg, Q = Queenstown, S = Southampton</td>
  </tr>
</table>

# Preparação dos dados

1. Identificação das Variáveis
* Limpeza de dados
* Tratamento de valores vazios
* Criação de Variáveis
* Transformação de variáveis
* <p style="color:red"><del>Identificação de anomalias</del></p>

# Identificação das variáveis

Primeiramente vamos carregar os dados. Para isso usamos a biblioteca Pandas, qual já é preparada para a leitura de diversos tipos de arquivos.
Para dados tabulares o pandas nos fornece os dados em um DataFrame, uma classe qual facilita a manipulação dos dados.

In [None]:
train_data = pd.read_csv("../input/titanic/train.csv")
train_data.head()

In [None]:
test_data = pd.read_csv("../input/titanic/test.csv")
test_data.head()

O DataFrame tem funções simples como .describe() que nos mostra estátisticas simples dos dados.

In [None]:
train_data.describe()

In [None]:
test_data.describe()

In [None]:
data_dt = train_data.append(test_data)
data_dt.describe()

# Tratamento de valores vazios

Vamos verificar os valores vazios com a função .isna(), acrescida da função .sum() que mostra o total de valores vazios para cada variável.

In [None]:
data_dt.isna().sum()

Identificados as variáveis com valores vazios, temos algumas abordagens à seguir:
1. <p style="color:red"><del>Excluir linhas</del></p>
2. Excluir colunas
3. Preencher com a média ou mediana
4. Preencher com média ou mediana baseado em outros atributos

Vamos excluir a variável 'Cabin', visto que há uma grande quantidade de instâncias com valores vazios, dessa forma essa variável dificilmente apresenterá uma informação relevante.
Para isso basta usar a função .drop(), com o parâmetro axis=1 digo que excluirei a coluna, já o inplace informa que o DataFrame será sobreescrito pelo resultado do .drop()

In [None]:
data_dt.drop(['Cabin'], axis=1, inplace=True)

data_dt.head()

A variável idade também tem um grande número de vazios. Entretanto, pelo histórico do naufrágio, sabemos que a idade dos passageiros pode ser uma informações importante. Por isso, não iremos descarta-lá, mas sim preenche-la com valores. Uma boa estratégia é usar a mediana da idade de todos os passageiros.
A função .fillna() auxilia no preenchimento dos valores vazios pela mediana.

In [None]:
data_dt_proc = data_dt.copy()

print("Mediana de idade: {}".format(data_dt_proc.Age.median()))
data_dt_proc.Age.fillna(data_dt_proc.Age.median(), inplace=True)

In [None]:
data_dt_proc.head()

In [None]:
data_dt_proc.Fare.fillna(data_dt_proc.Fare.median(), inplace=True)

In [None]:
data_dt_proc.isna().sum()

# Limpeza dos dados

Algumas variáveis tem valores unicos para cada passageiro, que podem não representar nenhuma informação relevante, por isso iremos removê-las também.

In [None]:
data_dt_proc.drop(['Ticket', 'PassengerId'], axis=1, inplace=True)

# Criação de variáveis

Muitas vezes podemos criar novas variáveis através de informações contidas em outras variáveis que aparentemente eram inúteis.
Um exemplo disso é a variável 'Name', cada passageiro tem um nome único, porém acompanhado de um título ou pronome de tratamento.
Podemos extrair esse pronome de tratamento da coluna 'Name' e utiliza-lo no treinamento de nosso modelo de Machine Learning.

In [None]:
data_dt_proc['Title'] = data_dt_proc['Name'].str.split(", ", expand=True)[1].str.split(".", expand=True)[0]

data_dt_proc.head()

Com a função .value_counts() podemos ver a soma para cada valor único da nova coluna criada.
Como podemos ver abaixo, existem diversas abreviações para o mesmo título. Podemos agrupar algumas dessas informações.

In [None]:
data_dt_proc['Title'].value_counts()


In [None]:
print( len(data_dt_proc['Title'].value_counts()) )

O dicionário Title_Dictionary mostra um mapeamento que podemos aplicar à coluna 'Title' criada.
Vamos limitar os títulos à Officer, Royalty, Mrs, Miss, Mr e Master.
A função .map() nos auxilia nesse processo.

In [None]:
Title_Dictionary = {
    "Capt": "Officer",
    "Col": "Officer",
    "Major": "Officer",
    "Jonkheer": "Royalty",
    "Don": "Royalty",
    "Sir" : "Royalty",
    "Dr": "Officer",
    "Rev": "Officer",
    "the Countess":"Royalty",
    "Mme": "Mrs",
    "Mlle": "Miss",
    "Ms": "Mrs",
    "Mr" : "Mr",
    "Mrs" : "Mrs",
    "Miss" : "Miss",
    "Master" : "Master",
    "Lady" : "Royalty",
    "Dona" : "Mrs"
}

data_dt_proc['Title'] = data_dt_proc.Title.map(Title_Dictionary)

data_dt_proc['Title'].value_counts()

Também podemos criar uma variável relacionada ao tamanho da família, juntando duas variáveis: 'SibSp' (número de irmãos/conjuges) e 'Parch' (número de pais / filhos), formando a variável 'Family Size'.

In [None]:
data_dt_proc['FamilySize'] = data_dt_proc['Parch'] + data_dt_proc['SibSp'] + 1
data_dt_proc.head()

# Voltando ao tratamento de valores vazios

Durante o processo de tratamento de dados podemos voltar atrás e melhorar nosso processo.
É possível melhorar o preenchimento de valores vazios da coluna 'Age', utilizar apenas a média parece uma forma muito simples de resolver o problema. Talvez identificar pequenos grupos e usar a média de cada um possa ser mais interessante.
A chance de um passageiro com 'Age' vazio ter a mesma idade que um outro com as mesmas características é muito maior e real.

Por isso, vamos tentar identificar pequenos grupos baseados em informações completas como sexo ('Sex'), classe no navio ('Pclass') e título ('Title'). A função .groupby() faz esse agrupamento.

In [None]:
grouped = data_dt_proc.groupby(['Sex', 'Pclass', 'Title'])
grouped.first()

Calculamos então a mediana de cada grupo.
Na segunda linha de código é apenas feito um tratamento para exibir as informações que estamos analisando.

In [None]:
grouped_median = grouped.median()
grouped_median = grouped_median.reset_index()[['Sex', 'Pclass', 'Title', 'Age']]

grouped_median

Vamos utilizar o DataFrame original para sobreescrever os valores vazios de idade que havíamos preenchido.
Para isso criamos uma função que verifica se a linha processada tem o mesma valores que uma das regras, então aplica o valor de idade mediano.
Usamos a função .apply() do DataFrame para isso. Essa função aplica uma outra função no DataFrame.
O lambda nos ajuda a fazer linha a linha, sendo que o valor de idade será preenchido com a mediana do grupo Y para cada registro X, se a idade for vazia.

Podemos ver um exemplo para o registro 65, anteriormente com a mediana ele havia recebido o valor 28.0, agora recebeu 7.0.

In [None]:
def fill_age(row, grouped_median):
    condition = (
        (grouped_median['Sex'] == row['Sex']) &
        (grouped_median['Pclass'] == row['Pclass']) &
        (grouped_median['Title'] == row['Title'])
    )
    return grouped_median[condition]['Age'].values[0]    

data_dt['Title'] = data_dt_proc['Title'] 


print("Idade com mediana: {}".format(data_dt_proc['Age'].iloc[65]))

data_dt_proc['Age'] = data_dt.apply(lambda row: fill_age(row,grouped_median) if np.isnan(row['Age']) else row['Age'], axis=1)

print("Mediana agrupada: {}".format(data_dt_proc['Age'].iloc[65]))

In [None]:
data_dt[(data_dt['Title'] == "Master") & data_dt['Age'].isna() ]

Podemos ver na tabela abaixo com todos os registros com 'Title' == 'Master' que a mediana de 7 anos faz muito mais sentido.

In [None]:
data_dt[(data_dt['Title'] == "Master") ]

In [None]:
data_dt.drop(['Title'], axis=1, inplace=True)

data_dt_proc.drop(['Name'], axis=1, inplace=True)


# Transformação de variáveis

Muitas vezes é preciso transformar algumas variáveis, principalmente quando se tratam de variáveis categóricas.
No caso dessa base de dados, ainda temos como variáveis categóricas 'Sex', 'Embarked' e 'Title'.
A melhor transformação para esse tipo de variável é o one hot encoding. Nessa transformação cada categoria se torna uma variável binária.
Por exemplo, a categoria Embarked é quebrada em 3: Embarked_C, Embarked_Q e Embarked_S. Então todos os dados são transformados, se um passageiro embarcou em Southampton, sua nova classificação será para Pclass1, Embarked_C, Embarked_Q e Embarked_S, respectivamente, 0, 0 e 1.

In [None]:
data_dt_proc_pre_dummies = data_dt_proc.copy()
data_dt_proc = pd.get_dummies(data_dt_proc)
data_dt_proc.head()

In [None]:
data_dt_proc['Pclass_1'] = pd.get_dummies(data_dt_proc['Pclass'])[1]
data_dt_proc['Pclass_2'] = pd.get_dummies(data_dt_proc['Pclass'])[2] 
data_dt_proc['Pclass_3'] = pd.get_dummies(data_dt_proc['Pclass'])[3]

data_dt_proc.head()

# Análise exploratória dos dados

A análise dos dados também é uma etapa importante, pois permite que façamos a extração de informações importantes que podem nos auxiliar no treinamento do modelo. Informações como:

* Qual métrica devo utilizar?
* Qual o valor mínimo de acertos que o meu modelo deve ter?
* Ainda há informações que pouca agregam no treinamento do meu modelo?
* Posso criar mais variáveis para meu treinamento?
* Devo usar todas as características (variáveis) no treinamento?

<h3>Qual métrica devo utilizar?</h3>

Em geral as métricas são baseadas na matriz de confusão.

![](https://miro.medium.com/max/490/0*cBSeArnwoU_FRso7.gif)

Nessa caso o Kaggle já nós dá a informação: Acurácia!

![](https://miro.medium.com/max/700/1*s7VB26Cfo1LdVZcLou-e0g.png)

![](https://miro.medium.com/max/500/1*t1vf-ofJrJqtmam0KSn3EQ.png)

* Acurácia: indica uma performance geral. Dentre todas as classificações, quantas estão certas.
* Precisão: de todos os dados classificados como positivos, quantos realmente são positivos.
* Recall: qual a porcentagem de dados classificados como positivos comparado com a quantidade real de positivos.
* F1-Score: une precisão e recall em uma métrica geral.



![](https://miro.medium.com/max/1346/1*s0aMRNsHq7A3bCA9gX_qXQ.png) 

In [None]:
from sklearn.metrics import f1_score, accuracy_score, recall_score, precision_score

x = np.concatenate([np.ones(25), np.ones(10), np.zeros(25), np.zeros(40)])
y = np.concatenate( [np.ones(25), np.zeros(10), np.ones(25), np.zeros(40)])

print("Acurácia {:.2f}".format(accuracy_score(y,x)))
print("Precisão {:.2f}".format(precision_score(y,x)))
print("Recall {:.2f}".format(recall_score(y,x)))
print("F1 {:.2f}".format(f1_score(y,x)))

In [None]:
data_dt_proc.head()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

plt.figure(figsize=(10,10))
sns.countplot(x='Survived',data=train_data)

<h3>Qual o valor mínimo de acertos que o meu modelo deve ter?</h3>

* Classificador sem regra (Zero Rule): todas as saídas na label com mais ocorrências.
* Classificador uma regra (One Rule): uso apenas uma das entradas (variáveis) para classificar a saída.

In [None]:
survived = train_data["Survived"][:891]
rate_survived = sum(survived)/len(survived) * 100

print("Classificador Zero Rule:")
print("% de sobreviventes: {:.2f}".format(rate_survived))
print("% de mortos: {:.2f}".format(100-rate_survived))

In [None]:
print("Classificador One Rule:")


women = train_data[train_data.Sex == 'female']["Survived"]
rate_women = sum(women)/len(women)*100

print("% de mulheres que sobrevivem: {:.2f}".format(rate_women))

<h3>Ainda há informações que pouca agregam no treinamento do meu modelo?</h3>

Retiramos todas!

In [None]:
data_dt_proc.head()

<h3>Posso criar mais variáveis para meu treinamento?</h3>

Criamos várias, mas com certeza ainda é possível manipular mais os dados. Mas por hora manteremos assim.

<h3>Devo usar todas as características no treinamento?</h3>

Nem sempre todas as variáveis ou características representam conhecimento valioso, muitas vezes algumas caracteristicas podem apresentar muito ruído o que acaba influenciando no desempenho do classificador. Por isso é necessário analisar a importancia de cada característica.
Uma forma de analisar isso é utilizando a correlação.

In [None]:
data_dt_proc_pre_dummies.head()

In [None]:
data_dt_proc_pre_dummies['Sex'] = pd.factorize(data_dt_proc_pre_dummies['Sex'])[0]
data_dt_proc_pre_dummies['Embarked'] = pd.factorize(data_dt_proc_pre_dummies['Embarked'])[0]
data_dt_proc_pre_dummies['Title'] = pd.factorize(data_dt_proc_pre_dummies['Title'])[0]

In [None]:
plt.figure(figsize=(10,10))
sns.heatmap(data_dt_proc_pre_dummies.corr(), annot=True, cmap="Blues")


In [None]:
pd.DataFrame(data_dt_proc.corr()['Survived'][:])

# Treinamento do modelo </h1>

In [None]:
y = train_data['Survived']

data_dt_proc.drop(['Survived'], axis=1, inplace=True)

features_all = ["Pclass", "Age", "Pclass_1","Pclass_2","Pclass_3", "Fare", "Sex_female","Sex_male", "SibSp", "Parch", 'FamilySize', 'Embarked_C', 'Embarked_Q', 'Embarked_S', 
            'Title_Master', 'Title_Miss', 'Title_Mr', 'Title_Mrs', 'Title_Officer', 'Title_Royalty']

features_selected = ["Pclass_1","Pclass_2","Pclass_3", "Sex_female","Sex_male", "Fare", 'Title_Master', 'Title_Miss', 'Title_Mr', 'Title_Mrs', 'Title_Officer', 'Title_Royalty']

features = ["Pclass_1","Pclass_2","Pclass_3", "Sex_female","Sex_male", "Fare", "Parch", 'FamilySize', 'Embarked_C', 'Embarked_Q', 'Embarked_S']


train_data_all = data_dt_proc[features_all][:891]
test_data_all = data_dt_proc[features_all][891:]

train_data_selected = data_dt_proc[features_selected][:891]
test_data_selected = data_dt_proc[features_selected][891:]

train_data_proc = data_dt_proc[features][:891]
test_data_proc = data_dt_proc[features][891:]

y_test =  pd.read_csv("../input/titanic-leaked/titanic.csv")
y_test = y_test['Survived']

In [None]:
from xgboost import XGBClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysis
from sklearn.linear_model import LogisticRegression
from sklearn.neural_network import MLPClassifier

from sklearn.metrics import accuracy_score

def warn(*args, **kwargs):
    pass
import warnings
warnings.warn = warn

def run_all_classifiers(x, y, x_test, y_test):
    classifiers = {    
        'knn': KNeighborsClassifier(1),
        'svm': SVC(probability=True),
        'decision_tree' : DecisionTreeClassifier(),
        'random_forest' : RandomForestClassifier(n_estimators=50, max_depth=5, random_state=1),
        'ada_boost' : AdaBoostClassifier(),
        'gradient_boost' : GradientBoostingClassifier(),
        'xgboost': XGBClassifier(),
        'gaussian_nb' : GaussianNB(),
        'linear_disc' : LinearDiscriminantAnalysis(),
        'quadratic_disc' : QuadraticDiscriminantAnalysis(),
        'log_regression' : LogisticRegression(verbose=False),
        'mlp' : MLPClassifier(solver='adam', alpha=1e-3, hidden_layer_sizes=(12,1), random_state=1, max_iter=500,verbose=False)
    }

    best_acc = {'classifier' : None,
                'accuracy' : 0.0}

    all_results = {}


    for clf in classifiers:
        clf_model = classifiers[clf]
        clf_model.fit(x, y)
        y_pred = clf_model.predict(x_test)

        all_results[clf] = y_pred

        acc = accuracy_score(y_pred, y_test) * 100

        if acc > best_acc['accuracy']:
            best_acc['accuracy'] = acc
            best_acc['classifier'] = clf

        print("Acurácia de {}: {:.2f}%".format(clf, acc))

    print("\nO melhor classificador foi {} com acurácia de {:.2f}%".format(best_acc['classifier'], best_acc['accuracy']))
    
    return all_results, best_acc

In [None]:
print("Resultado com todas as características: ")
all_results_all, best_acc_all = run_all_classifiers(train_data_all, y, test_data_all, y_test)

In [None]:
print("Resultado com as características selecionadas apenas via correlação: ")
all_results_selected, best_acc_selected = run_all_classifiers(train_data_selected, y, test_data_selected, y_test)

In [None]:
print("Resultado com as características selecionadas manualmente: ")
all_results_proc, best_acc_proc = run_all_classifiers(train_data_proc, y, test_data_proc, y_test)

In [None]:
output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': all_results_proc[best_acc_proc['classifier']] })
output.to_csv('my_submission.csv', index=False)
print("Arquivo de submissão gerado com sucesso!!")

<h1>Comparando com um classificador por genêro</h1>

Vamos comparar nosso resultado com o baseline que haviamos definido: classificador de uma regra - Todas as mulheres sobrevivem.

In [None]:
y_gender =  pd.read_csv("../input/titanic/gender_submission.csv")
y_gender = y_gender['Survived']

acc_gender = round(accuracy_score(y_gender, y_test) * 100, 2)

print("Acurácia com Genero: {}".format(acc_gender))
print("Diferença com proc de {:.2f}%".format( best_acc_proc['accuracy'] - acc_gender ))
print("Diferença com selected de {:.2f}%".format( best_acc_selected['accuracy'] - acc_gender ))
print("Diferença com all de {:.2f}%".format( best_acc_all['accuracy'] - acc_gender ))

<h1>Opa, então quer dizer que o Gradient Boosting é o melhor?</h1>

<h1 style='color: red'>NÃO!</h1>

* 0.83253 com k-NN: https://www.kaggle.com/konstantinmasich/titanic-0-82-0-83/notebook
* 0.85167 com WCG + XGBoost: https://www.kaggle.com/cdeotte/titanic-wcg-xgboost-0-84688 

1.0 (100%) é impossível...

Manipular os dados é o segredo!
O mesmo vale para texto e imagens!

![](https://miro.medium.com/max/1018/1*umWjAXc8dY3aMdFGnor8QA.png)


<h1>Faça você mesmo: Experimente com imagens</h1>
    
Classificação de flores: https://www.kaggle.com/c/tpu-getting-started

* Cotas de GPU: 40h/semana
* Cotas de TPU: 30h/semana

Notebooks recomendados:
* Primeira submissão com TPU: https://www.kaggle.com/ryanholbrook/create-your-first-submission
* Melhorando com uma rede pré-treinada: https://www.kaggle.com/dimitreoliveira/flower-classification-with-tpus-eda-and-baseline
* O poder do data augmentation: https://www.kaggle.com/cdeotte/rotation-augmentation-gpu-tpu-0-96

Zera todas as madrugadas de sexta para sabádo à meia-noite (UTC-0)