# Competição de Machine Learning Kaggle Titanic
by Aline Assunção

Site utilizados para a construção da solução: https://www.kaggle.com/c/titanic e https://paulovasconcellos.com.br/competicao-kaggle-titanic-tutorial-5b11993774f7

### Descrição da Competição

O naufrágio do RMS Titanic é um dos mais infames naufrágios da história. Em 15 de abril de 1912, durante sua viagem inaugural, o Titanic afundou depois de colidir com um iceberg, matando 1502 de 2224 passageiros e tripulantes. Essa tragédia sensacional chocou a comunidade internacional e levou a melhores normas de segurança para os navios.

Uma das razões pelas quais o naufrágio causou tamanha perda de vidas foi que não havia botes salva-vidas suficientes para os passageiros e a tripulação. Embora houvesse algum elemento de sorte envolvido na sobrevivência do naufrágio, alguns grupos de pessoas tinham maior probabilidade de sobreviver do que outros, como mulheres, crianças e a classe alta.

Neste desafio, é solicitado que concluamos a análise de quais tipos de pessoas provavelmente sobreviveriam. Aplicando as ferramentas de aprendizado de máquina para prever quais passageiros sobreviveram à tragédia.

Praticar Habilidades
- Classificação binária
- Noções básicas de Python

### Objetivo

O trabalho é prever se um passageiro sobreviveu ao naufrágio do Titanic ou não.
Para cada PassengerId no conjunto de testes, deve-se prever um valor 0 ou 1 para a variável Survived.


### Métrica

A pontuação é a porcentagem de passageiros que você prevê corretamente. Isso é conhecido simplesmente como "acurácia".


### Formato de Arquivo de Submissão

Enviar um arquivo csv com exatamente 418 entradas mais uma linha de cabeçalho. O envio mostrará um erro se tiver colunas extras (além de PassengerId e Survived) ou linhas.

O arquivo deve ter exatamente 2 colunas:
- PassengerId (classificado em qualquer ordem)
- Survived (contém suas previsões binárias: 1 para sobreviventes, 0 para mortos)

### Descrição dos Dados

Temos dois datasets uma para treinar o modelo e outro para o envio do arquivo que o Kaggle espera.
- training set (train.csv)
- test set (test.csv)

### Dicionário dos dados

PassengerId: Número de identificação do passageiro;

Survived: Indica se o passageiro sobreviveu ao desastre. É atribuído o valor de 0 para aqueles que não sobreviveram, e 1 para quem sobreviveu;

Pclass: Classe na qual o passageiro viajou. É informado 1 para primeira classe; 2 para segunda; e 3 para terceira;

Name: Nome do passageiro;

Sex: Sexo do passageiro;

Age: Idade do passageiro em anos;

SibSp: Quantidade de irmãos e cônjuges a bordo ;

Parch: Quantidade de pais e filhos a bordo;

Ticket: Número da passagem;

Fare: Preço da passagem;

Cabin: Número da cabine do passageiro;

Embarked: Indica o porto no qual o passageiro embarcou. Há apenas três valores possíveis: Cherbourg, Queenstown e Southampton, indicados pelas letras “C”, “Q” e “S”, respectivamente.

In [1]:
# Primeiro importamos as bibliotecas que precisamos. 
# O pandas nos permitirá criar lindos DataFrames para visualizarmos nossos dados e trabalhar nosso código
# O scikit-learn será responsável pela geração do modelo em si. 
import pandas as pd
from sklearn.tree import DecisionTreeClassifier

In [2]:
# lendo os conjuntos de teste e treino - read_csv do Pandas
train = pd.read_csv('data/train.csv')
test = pd.read_csv('data/test.csv')

In [3]:
# Vamos visualizar as primeiras linhas (5 por default, mas podemos alterar o valor)
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [4]:
# Aqui podemos identificar dados irrelevantes para a analise
# Name, Ticket e Cabin.
# Para criação de um modelo de Machine Learning, cada dado é importante. 
# Mas se alimentarmos o modelo com coisas irrelevantes, ele ficará sobrecarregado e perderá sua precisão ao prever novos dados. 
# O metodo drop remove as colunas passadas como parametro, axis=1 indica que quero remover a coluna inteira, inplace=True salva as alterações direto no dataset
train.drop(['Name', 'Ticket', 'Cabin'], axis=1, inplace=True)
test.drop(['Name', 'Ticket', 'Cabin'], axis=1, inplace=True)

In [5]:
# Chegamos um ponto importante, machine learning entende e processa apenas números
# Por isso precisamos transformar os dados em números... Simples assim
# Para isso temos bibliotecas do Pandas e Scikit-learn que nos auxiliam neste trabalho
# Temos a função get_dummies() que aplica técnicas de engenharia de dados conhecida como One-hot encodind
# Essa função transforma variáveis categóricas em números para que possamos aplicar o modelo de classificação ou regreção
# Vamos criar novas variáveis para guardar o resultado
new_train = pd.get_dummies(train)
new_test = pd.get_dummies(test)

In [6]:
# Conferindo o resultado do dataset de treino
new_train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S
0,1,0,3,22.0,1,0,7.25,0,1,0,0,1
1,2,1,1,38.0,1,0,71.2833,1,0,1,0,0
2,3,1,3,26.0,0,0,7.925,1,0,0,0,1
3,4,1,1,35.0,1,0,53.1,1,0,0,0,1
4,5,0,3,35.0,0,0,8.05,0,1,0,0,1


In [7]:
# E o mesmopara o dataset de testes
new_test.head()

Unnamed: 0,PassengerId,Pclass,Age,SibSp,Parch,Fare,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S
0,892,3,34.5,0,0,7.8292,0,1,0,1,0
1,893,3,47.0,1,0,7.0,1,0,0,0,1
2,894,2,62.0,0,0,9.6875,0,1,0,1,0
3,895,3,27.0,0,0,8.6625,0,1,0,0,1
4,896,3,22.0,1,1,12.2875,1,0,0,0,1


In [8]:
# Tratando valores nulos
# Primeiro vamos conferir se temos algum valor NaN - Not a Number
# Quantidade de valores nulos no conjunto de treino
new_train.isnull().sum().sort_values(ascending=False).head(10)

Age           177
Embarked_S      0
Embarked_Q      0
Embarked_C      0
Sex_male        0
Sex_female      0
Fare            0
Parch           0
SibSp           0
Pclass          0
dtype: int64

In [9]:
# Como podemos ver, temos 177 valores inválidos na coluna idade
# Para resolver, será neccessário imputar valores neles. Neste caso será a média das idades
# Veja que todas as alterações que fazemos no dataset de treino fazemos no de teste (isso é muito importante)
new_train['Age'].fillna(new_train['Age'].mean(), inplace = True)
new_test['Age'].fillna(new_test['Age'].mean(), inplace = True)

In [10]:
# Quantidade de valores nulos no conjunto de teste
new_test.isnull().sum().sort_values(ascending=False).head(10)

Fare          1
Embarked_S    0
Embarked_Q    0
Embarked_C    0
Sex_male      0
Sex_female    0
Parch         0
SibSp         0
Age           0
Pclass        0
dtype: int64

In [11]:
# Assim como fizemos com a idade faremos com o preço colocando a média dos preços 
# (aqui faremos apenas no de teste, visto que não se aplica a de treino)
new_test['Fare'].fillna(new_test['Fare'].mean(), inplace = True)

## Criando o modelo de Machine Learning

Finalmente!

Neste caso utilizaremos o algoritmo chamado Árvore de Decisão (Perfeito pra quem está começando).

In [12]:
# O modelo só aprende o que ensinamos a ele, por isso é necessário treina-lo. Temos que informar o que 
# são dados de aprendizagem (features).
# Para isso criando duas váriaveis; x e y
# x armazena nossos features (dados dos passageiros)
# y armazena o que queremos prever (Survived)
x = new_train.drop('Survived', axis=1)
y = new_train['Survived']

In [13]:
# Criando a variável que armazena a instancia do objeto DecisionTreeClassifier()
tree = DecisionTreeClassifier(max_depth=3, random_state=0)
# o metodo fit() passa os argumentos x e y
tree.fit(x,y)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=3,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=0,
            splitter='best')

In [14]:
# O modelo está criado e pronto para realizar as previsoes.
# Para saber se o modelo está funcionando direito pode-se verificar o nível de precisão (score)
tree.score(x,y)

0.8271604938271605

In [15]:
# Preparando os dados para enviar ao kaggle
# Cria-se as duas colunas que a competição espera
submission = pd.DataFrame()
submission['PassengerId'] = new_test['PassengerId']
submission['Survived'] = tree.predict(new_test)

In [16]:
# Gravando o arquivo .csv para o envio
submission.to_csv('result/submission_Tree Decision.csv', index=False)