# Titanic: Machine Learning from Disaster


URL: https://www.kaggle.com/c/titanic

In [161]:
import warnings
warnings.filterwarnings("ignore")

import pandas as pd

In [162]:
# Listar conteudo do diretorio [datasets]
!ls ~/library/datasets

gender_submission.csv  test.csv  train.csv


## Exploração dos dados

In [163]:
df = pd.read_csv('~/library/datasets/train.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Dicionário de Dados

|Variable		|Definition										|Key											|
|---------------|:---------------------------------------------:|-----------------------------------------------|
|survival		|Survival										|0 = No, 1 = Yes								|
|pclass			|Ticket class									|1 = 1st, 2 = 2nd, 3 = 3rd						|
|sex			|Sex											|												|
|Age			|Age in years									|												|
|sibsp			|# of siblings / spouses aboard the Titanic		|												|
|parch			|# of parents / children aboard the Titanic		|												|
|ticket			|Ticket number									|												|
|fare			|Passenger fare									|												|
|cabin			|Cabin number									|												|
|embarked		|Port of Embarkation							|C = Cherbourg, Q = Queenstown, S = Southampton |

In [164]:
# Convertendo male para 1 e female para 0
sex_change = {
    'male': 1,
    'female': 0
}
df['Sex10'] = df.Sex.map(sex_change)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Sex10
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,1


In [165]:
# Convertendo sigla de embarque para uma representação numerica
embarked_change = {
    'C': 1,
    'S': 2,
    'Q': 3
}
df['Embarked10'] = df.Embarked.map(embarked_change)
df["Embarked10"] = df["Embarked10"].fillna(0.0).astype(int)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Sex10,Embarked10
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,1
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,0,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,1,2


In [166]:
# convertendo idade float para int
df["Age"] = df["Age"].fillna(0.0).astype(int)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Sex10,Embarked10
0,1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S,1,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38,1,0,PC 17599,71.2833,C85,C,0,1
2,3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.925,,S,0,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,53.1,C123,S,0,2
4,5,0,3,"Allen, Mr. William Henry",male,35,0,0,373450,8.05,,S,1,2


### Campos eliminados


#### Detalhamento dos campos desconsiderados para o treinamento


__`Name`__ -> Valor na minha opnião não relevante para o treinamento

__`Ticket`__ -> Valor na minha opnião não relevante para o treinamento

__`Fare`__ -> Achei justo considerar apenas a classe (__Pclass__)

__`Cabin`__ -> Como havia muitos caracteres não definidos, achei injusto considerá-lo

__`Embarked`__ -> Valor removido por conta da grande perda da acurácia do algoritmo





In [167]:
x = df[["PassengerId","Pclass","Sex10", "Age", "SibSp", "Parch"]]
x.head()

Unnamed: 0,PassengerId,Pclass,Sex10,Age,SibSp,Parch
0,1,3,1,22,1,0
1,2,1,0,38,1,0
2,3,3,0,26,0,0
3,4,1,0,35,1,0
4,5,3,1,35,0,0


In [168]:
y = df["Survived"]
y.head()

0    0
1    1
2    1
3    1
4    0
Name: Survived, dtype: int64

## Regressão Logistica

In [175]:
from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn.metrics import accuracy_score

# definir um número inicial para os algorítimos de geração de números aleatórios
SEED = 0

# separando os dados de treino e teste
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y,
                                                        random_state = SEED,
                                                        test_size = 0.2,
                                                        stratify = y)

print("Treino com %d elementos e teste com %d elementos" % (len(treino_x), len(teste_x)))

modelo = linear_model.LogisticRegression(random_state=SEED)
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia de %.2f%%" % acuracia)

Treino com 712 elementos e teste com 179 elementos
A acurácia de 77.09%


## Gaussian Naive Bayes

In [177]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

# definir um número inicial para os algorítimos de geração de números aleatórios
SEED = 15

# separando os dados de treino e teste
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y,
                                                        random_state = SEED,
                                                        test_size = 0.2, 
                                                        stratify = y)

print("Treino com %d elementos e teste com %d elementos" % (len(treino_x), len(teste_x)))

modelo = GaussianNB()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia de %.2f%%" % acuracia)

Treino com 712 elementos e teste com 179 elementos
A acurácia de 79.89%


## SVM (Support Vector Machines)

In [171]:
from sklearn.model_selection import train_test_split
from sklearn import svm
from sklearn.metrics import accuracy_score

# definir um número inicial para os algorítimos de geração de números aleatórios
SEED = 15

# separando os dados de treino e teste
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y,
                                                        random_state = SEED,
                                                        test_size = 0.2, 
                                                        stratify = y)

print("Treino com %d elementos e teste com %d elementos" % (len(treino_x), len(teste_x)))

modelo = svm.SVC(random_state=SEED)
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia de %.2f%%" % acuracia)

Treino com 712 elementos e teste com 179 elementos
A acurácia de 62.01%


## Árvores de decisão

In [181]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# definir um número inicial para os algorítimos de geração de números aleatórios
SEED = 0

# separando os dados de treino e teste
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y,
                                                        random_state = SEED,
                                                        test_size = 0.2, 
                                                        stratify = y)

print("Treino com %d elementos e teste com %d elementos" % (len(treino_x), len(teste_x)))

modelo = DecisionTreeClassifier(random_state=SEED)
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia de %.2f%%" % acuracia)

Treino com 712 elementos e teste com 179 elementos
A acurácia de 72.63%


## LinearSVC

In [178]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

# definir um número inicial para os algorítimos de geração de números aleatórios
SEED = 0

# separando os dados de treino e teste
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y,
                                                        random_state = SEED,
                                                        test_size = 0.2, 
                                                        stratify = y)

print("Treino com %d elementos e teste com %d elementos" % (len(treino_x), len(teste_x)))

modelo = LinearSVC(random_state=SEED)
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia de %.2f%%" % acuracia)

Treino com 712 elementos e teste com 179 elementos
A acurácia de 76.54%
