# Como funciona um *workflow* de Ciência de Dados?

1 - __Defina o problema:__ Se Ciência de Dados, Big Data, aprendizado de máquina, análise preditiva, inteligência de negócios ou qualquer outra palavra hypada é a solução, qual é o problema? Problemas antes dos requisitos, requisitos antes das soluções, soluções antes do projeto e design antes da tecnologia. Com muita frequência, somos rápidos em pular na nova tecnologia, ferramenta ou algoritmo brilhante antes de determinar o problema real que estamos tentando resolver.

2 - __Recolha dados:__ John Naisbitt escreveu em seu livro de Megatrends de 1984 (sim, 1984) que estamos "nos afundando em dados, mas evitando conhecimento". Então, as chances são de que o(s) conjunto(s) de dados já existam em algum lugar, em algum formato. Interno, estruturado ou não estruturado, estático ou transmitido, objetivo ou subjetivo, etc. Como diz o ditado, você não precisa reinventar a roda, você só precisa saber onde encontrá-la, transformando "dados sujos" em "dados limpos".

3 - __Prepare os dados para consumo:__ Essa etapa é geralmente chamada de *data wrangling*, um processo necessário para transformar dados “selvagens” em dados “gerenciáveis”. Ela inclui a implementação de arquiteturas de dados para armazenamento e processamento, desenvolvimento de padrões de controle de dados para qualidade e controle, extração de dados (por exemplo, ETL e web scraping) e limpeza de dados para identificar pontos de dados aberrantes, ausentes ou outliers.

4 - __Análise Exploratória de Dados (EDA):__ Qualquer pessoa que tenha trabalhado com dados já sabe, garbage-in, garbage-out (GIGO). Portanto, é importante implantar estatísticas descritivas e gráficas para procurar possíveis problemas, padrões, classificações, correlações e comparações no conjunto de dados. Além disso, a categorização de dados (ou seja, qualitativa vs quantitativa) também é importante para entender e selecionar o teste de hipótese ou modelo de dados correto.

5 - __Modelagem dos Dados:__ Como a estatística descritiva e inferencial, a modelagem de dados pode resumir os dados ou prever resultados futuros. Seu conjunto de dados e resultados esperados, determinarão os algoritmos disponíveis para uso. É importante lembrar que os algoritmos são ferramentas e não varinhas mágicas ou balas de prata. Você ainda deve ser o artesão que sabe como selecionar a ferramenta certa para o trabalho. Uma analogia seria pedir a alguém que lhe entregasse uma chave de fenda de Philips e lhe entregasse uma chave de fenda ou, pior ainda, um martelo. Na melhor das hipóteses, mostra uma completa falta de compreensão. Na pior das hipóteses, torna impossível concluir o projeto. O mesmo é verdade na modelagem de dados. O modelo errado pode levar a um desempenho ruim na melhor das hipóteses e a conclusão errada (que é usada como inteligência acionável) na pior das hipóteses.

6 - __Validação e Implementação do Modelo:__ Validar e implementar seu modelo de dados: depois de treinar seu modelo com base em um subconjunto de seus dados, é hora de testar seu modelo. Isso ajuda a garantir que você não tenha realizado overfitting em seu modelo ou o tenha tornado tão específico para o subconjunto selecionado, que ele não se encaixa com precisão em outro subconjunto do mesmo conjunto de dados. Nesta etapa, determinamos se nosso modelo ajusta, generaliza ou ajusta nosso conjunto de dados.

7 - __Optimização e Estratégia:__ Este é o passo do "homem biônico", onde você repete o processo para torná-lo melhor, mais forte e mais rápido do que era antes. Como cientista de dados, sua estratégia deve ser terceirizar as operações do desenvolvedor e o encanamento de aplicativos, para que você tenha mais tempo para se concentrar nas recomendações e no design. Uma vez que você é capaz de empacotar suas idéias, isso se torna sua taxa de "troca de moeda".

---

Estudaremos este processo com um desafio do *Kaggle*:

__[Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic)__

1. Criar conta no Kaggle.
2. Aceitar as regras da competição.
3. Baixar os dados.

---

# Passo 1: Definir o problema.

Para este projeto, a declaração do problema é dada a nós em um prato dourado, desenvolver um algoritmo para prever o resultado de sobrevivência dos passageiros no Titanic.


__Resumo do projeto__: O naufrágio do RMS Titanic é um dos mais infames naufrágios da história. Em 15 de abril de 1912, durante sua viagem inaugural, o Titanic afundou depois de colidir com um iceberg, matando 1502 de 2224 passageiros e tripulantes. Esta tragédia sensacional chocou a comunidade internacional e levou a melhores normas de segurança para os navios.

Uma das razões pelas quais o naufrágio causou tal perda de vida foi que não havia botes salva-vidas suficientes para os passageiros e a tripulação. Embora houvesse algum elemento de sorte envolvido na sobrevivência do naufrágio, alguns grupos de pessoas tinham maior probabilidade de sobreviver do que outros, como mulheres, crianças e a classe alta.

Neste desafio, pedimos que você conclua a análise de quais tipos de pessoas provavelmente sobreviveriam. Em particular, pedimos que você aplique as ferramentas de aprendizado de máquina para prever quais passageiros sobreviveram à tragédia.

Praticar Habilidades:

- Classificação binária
- Noções básicas sobre Python e R

# Passo 2: Recolher os dados.

O conjunto de dados também é dado a nós em um prato dourado com dados de teste e treinamento no Titanic: Machine Learning de Desastre de Kaggle

# Passo 3: Preparar os dados para consumo.

Como a etapa 2 nos foi fornecida em um prato dourado, o mesmo ocorre com a etapa 3. Portanto, os processos normais em *data wrangling*, como arquitetura de dados, controle e extração, estão fora do escopo. Assim, somente a limpeza de dados está no escopo.

## 3.1 Importando bibliotecas


O código a seguir está escrito em Python 3.x. As bibliotecas fornecem funcionalidade pré-escrita para executar as tarefas necessárias. A ideia é por que escrever dez linhas de código, quando você pode escrever uma linha.

In [22]:
import pandas as pd
from os import listdir

## 3.2 Conheça os dados

In [23]:
for file in listdir():
    if '.csv' in file:
        print(file)

gender_submission.csv
test.csv
train.csv


Os dados quase sempre estão contidas numa única tabela, com exceção da maioria dos problemas do Kaggle. Separar os dados para treino e teste é trabalho exclusivo do cientista de dados. Numa tabela unificada, normalmente separa-se ~30% dos dados para teste e o restante para treino, com uma amostragem aleatória para não ter problema de enviesar o modelo.

In [24]:
#Leitura simples de arquivos CSV utilizando Pandas.

test = pd.read_csv('test.csv')
train = pd.read_csv('train.csv')

In [25]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


In [26]:
test.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


- A variável __Survived__ é nosso resultado ou variável dependente. É um tipo de dados nominal binário de 1 para sobrevivente e 0 para não sobreviveu. Todas as outras variáveis são potenciais preditoras ou variáveis independentes. É importante notar que mais variáveis preditoras não fazem um modelo melhor, mas as variáveis certas.
- As variáveis __PassengerID__ e __Ticket__ são consideradas identificadores únicos aleatórios, que não têm impacto na variável de resultado. Assim, eles serão excluídos da análise.
- A variável __Pclass__ é um tipo de dados ordinal para a classe do ticket, um proxy para status socioeconômico (SES), representando 1 = classe alta, 2 = classe média e 3 = classe inferior.
- A variável __Name__ é um tipo de dados nominal. Ele poderia ser usado na engenharia de recursos para derivar o gênero do título, tamanho da família do sobrenome e SES de títulos como médico ou mestre. Já que essas variáveis já existem, nós vamos fazer isso para ver se o título, como mestre, faz diferença.
- As variáveis __Sex__ e __Embarked__ são um tipo de dados nominal. Eles serão convertidos em variáveis dummy para cálculos matemáticos.
- A variável __Age__ e __Fare__ são tipos de dados quantitativos contínuos.
- O __SibSp__ representa o número de irmãos / cônjuge a bordo e __Parch__ representa o número de pais / filhos a bordo. Ambos são tipos de dados quantitativos discretos. Isso pode ser usado para engenharia de recursos para criar um tamanho de família e é só variável.
- A variável __Cabin__ é um tipo de dado nominal que pode ser usado na engenharia de recursos para a posição aproximada na nave quando o incidente ocorreu e SES a partir dos níveis do deck. No entanto, como existem muitos valores nulos, ele não adiciona valor e, portanto, é excluído da análise.

### 3.21 Data Cleaning

In [27]:
print('Colunas da tabela de treino com valores nulos:\n', train.isnull().sum())
print("-"*50)

print('Colunas da tabela de teste com valores nulos:\n', test.isnull().sum())
print("-"*50)

train.describe(include = 'all')

Colunas da tabela de treino com valores nulos:
 PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64
--------------------------------------------------
Colunas da tabela de teste com valores nulos:
 PassengerId      0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64
--------------------------------------------------


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
count,891.0,891.0,891.0,891,891,714.0,891.0,891.0,891,891.0,204,889
unique,,,,891,2,,,,681,,147,3
top,,,,"Bateman, Rev. Robert James",male,,,,CA. 2343,,G6,S
freq,,,,1,577,,,,7,,4,644
mean,446.0,0.383838,2.308642,,,29.699118,0.523008,0.381594,,32.204208,,
std,257.353842,0.486592,0.836071,,,14.526497,1.102743,0.806057,,49.693429,,
min,1.0,0.0,1.0,,,0.42,0.0,0.0,,0.0,,
25%,223.5,0.0,2.0,,,20.125,0.0,0.0,,7.9104,,
50%,446.0,0.0,3.0,,,28.0,0.0,0.0,,14.4542,,
75%,668.5,1.0,3.0,,,38.0,1.0,0.0,,31.0,,


Nesta etapa, vamos limpar nossos dados.


__1. Correção:__ Revisando os dados, não parece haver entradas de dados aberrantes ou não aceitáveis. Além disso, vemos que podemos ter potenciais outliers em idade e tarifa. No entanto, como são valores razoáveis, aguardaremos até que concluamos nossa análise exploratória para determinar se devemos incluir ou excluir do conjunto de dados. Deve-se notar que, se fossem valores não razoáveis, por exemplo idade = 800 em vez de 80, então provavelmente é uma decisão segura para corrigir agora. No entanto, queremos ter cautela ao modificar os dados de seu valor original, porque pode ser necessário criar um modelo preciso.

__2. Completando:__ existem valores nulos ou dados ausentes na idade, na cabine e no embarque. Valores ausentes podem ser ruins, porque alguns algoritmos não sabem como manipular valores nulos e falharão. Enquanto outros, como árvores de decisão, podem manipular valores nulos. Assim, é importante corrigir antes de começar a modelar, porque vamos comparar e contrastar vários modelos. Existem dois métodos comuns: excluir o registro ou preencher o valor ausente usando uma entrada razoável. Não é recomendável excluir o registro, especialmente uma grande porcentagem de registros, a menos que ele realmente represente um registro incompleto. Em vez disso, é melhor atribuir valores ausentes. Uma metodologia básica para dados qualitativos é imputar usando o modo. Uma metodologia básica para dados quantitativos é imputada usando média, mediana ou média + desvio padrão aleatório. Uma metodologia intermediária é usar a metodologia básica baseada em critérios específicos; como a idade média por classe ou porto de embarque por tarifa e SES. Existem metodologias mais complexas, no entanto, antes de implantar, ele deve ser comparado ao modelo base para determinar se a complexidade realmente agrega valor. Para este conjunto de dados, a idade será imputada com a mediana, o atributo de cabine será descartado e o embarque será imputado com o modo. As iterações subseqüentes do modelo podem modificar essa decisão para determinar se ela melhora a precisão do modelo.

__3. Criando:__ Engenharia de *features* é quando usamos recursos existentes para criar novos recursos para determinar se eles fornecem novos sinais para prever nosso resultado. Para este conjunto de dados, criaremos um recurso de título para determinar se ele desempenhou um papel na sobrevivência.

__4. Convertendo:__ por último, mas certamente não menos importante, vamos lidar com a formatação. Não há formatos de data ou moeda, mas formatos de dados. Nossos dados categóricos são importados como objetos, o que dificulta os cálculos matemáticos. Para este conjunto de dados, converteremos tipos de dados de objeto em variáveis ​​dummy categóricas.

In [28]:
###COMPLETANDO: completar e/ou deletar valores NaN na tabela de treino e test

test.loc[:,'Age']      = test.Age.fillna(test['Age'].median())
test.loc[:,'Embarked'] = test.Embarked.fillna(test['Embarked'].mode()[0])
test.loc[:,'Fare']     = test.Fare.fillna(test['Fare'].median())

train['Age'].fillna(train['Age'].median(), inplace = True)
train['Embarked'].fillna(train['Embarked'].mode()[0], inplace = True)
train['Fare'].fillna(train['Fare'].median(), inplace = True)

drop_column = ['PassengerId','Cabin','Ticket']
train.drop(drop_column, axis=1, inplace = True)

print(test.isnull().sum())
print("-"*10)
print(train.isnull().sum())

PassengerId      0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          327
Embarked         0
dtype: int64
----------
Survived    0
Pclass      0
Name        0
Sex         0
Age         0
SibSp       0
Parch       0
Fare        0
Embarked    0
dtype: int64


In [29]:
###CRIAÇÃO: Engenharia de features para as tabelas de treino e teste

data_cleaner = [test, train]

#Variáveis discretas
for dataset in data_cleaner:
    dataset['FamilySize'] = dataset['SibSp'] + dataset['Parch'] + 1

    dataset['IsAlone'] = 1 # inicializando todos com 1
    dataset['IsAlone'].loc[dataset['FamilySize'] > 1] = 0 # update para 0 se o número de familiares é maior que 1

    #Retirando o título do nome pessoa
    dataset['Title'] = dataset['Name'].str.split(", ", expand=True)[1].str.split(".", expand=True)[0]

    #Variáveis contínuas 
    #FareBins - grupo onde se encontra a pessoa com determinado fare, dividido em quantis (frequência dos valores)
    dataset['FareBin'] = pd.qcut(dataset['Fare'], 4)

    #Age Bins/Buckets - grupo onde se encontra a pessoa com determinada idade, dividido pelos valores
    dataset['AgeBin'] = pd.cut(dataset['Age'].astype(int), 5)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._setitem_with_indexer(indexer, value)


In [30]:
print(train['Title'].value_counts())

Mr              517
Miss            182
Mrs             125
Master           40
Dr                7
Rev               6
Major             2
Mlle              2
Col               2
Lady              1
Capt              1
Jonkheer          1
Mme               1
the Countess      1
Ms                1
Don               1
Sir               1
Name: Title, dtype: int64


In [31]:
#limpeza de títulos com pouca frequência
stat_min = 10 # o tamanho é arbitrário, deve ser escolhido conforme necessidade
title_names = (train['Title'].value_counts() < stat_min) #lista true/false de nomes com mais de 10 aparições

# utilizando a função apply com lambda para inserir os valores na coluna
train['Title'] = train['Title'].apply(lambda x: 'Misc' if title_names.loc[x] == True else x)
print(train['Title'].value_counts())
print("-"*10)

#preview data again
train.sample(10)

Mr        517
Miss      182
Mrs       125
Master     40
Misc       27
Name: Title, dtype: int64
----------


Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Embarked,FamilySize,IsAlone,Title,FareBin,AgeBin
872,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,5.0,S,1,1,Mr,"(-0.001, 7.91]","(32.0, 48.0]"
130,0,3,"Drazenoic, Mr. Jozef",male,33.0,0,0,7.8958,C,1,1,Mr,"(-0.001, 7.91]","(32.0, 48.0]"
192,1,3,"Andersen-Jensen, Miss. Carla Christine Nielsine",female,19.0,1,0,7.8542,S,2,0,Miss,"(-0.001, 7.91]","(16.0, 32.0]"
60,0,3,"Sirayanian, Mr. Orsen",male,22.0,0,0,7.2292,C,1,1,Mr,"(-0.001, 7.91]","(16.0, 32.0]"
415,0,3,"Meek, Mrs. Thomas (Annie Louise Rowley)",female,28.0,0,0,8.05,S,1,1,Mrs,"(7.91, 14.454]","(16.0, 32.0]"
686,0,3,"Panula, Mr. Jaako Arnold",male,14.0,4,1,39.6875,S,6,0,Mr,"(31.0, 512.329]","(-0.08, 16.0]"
828,1,3,"McCormack, Mr. Thomas Joseph",male,28.0,0,0,7.75,Q,1,1,Mr,"(-0.001, 7.91]","(16.0, 32.0]"
139,0,1,"Giglio, Mr. Victor",male,24.0,0,0,79.2,C,1,1,Mr,"(31.0, 512.329]","(16.0, 32.0]"
359,1,3,"Mockler, Miss. Helen Mary ""Ellie""",female,28.0,0,0,7.8792,Q,1,1,Miss,"(-0.001, 7.91]","(16.0, 32.0]"
722,0,2,"Gillespie, Mr. William Henry",male,34.0,0,0,13.0,S,1,1,Mr,"(7.91, 14.454]","(32.0, 48.0]"


### 3.22 Convertendo Formatos

Iremos converter datos categóricos em variáveis dummies para análise matemática. Existem diversas maneiras para realizar o *encode* de variáveis categóricas. 

In [38]:
###CONVERSÃO: converter objetos para categorias utilizando label encoder nos datasets de treino e teste

from sklearn.preprocessing import LabelEncoder

#code categorical data
label = LabelEncoder()

for dataset in data_cleaner:    
    dataset['Sex_Code'] = label.fit_transform(dataset['Sex'])
    dataset['Embarked_Code'] = label.fit_transform(dataset['Embarked'])
    dataset['Title_Code'] = label.fit_transform(dataset['Title'])
    dataset['AgeBin_Code'] = label.fit_transform(dataset['AgeBin'])
    dataset['FareBin_Code'] = label.fit_transform(dataset['FareBin'])

In [39]:
train.sample(10)

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Embarked,FamilySize,IsAlone,Title,FareBin,AgeBin,Sex_Code,Embarked_Code,Title_Code,AgeBin_Code,FareBin_Code
310,1,1,"Hays, Miss. Margaret Bechstein",female,24.0,0,0,83.1583,C,1,1,Miss,"(31.0, 512.329]","(16.0, 32.0]",0,0,2,1,3
499,0,3,"Svensson, Mr. Olof",male,24.0,0,0,7.7958,S,1,1,Mr,"(-0.001, 7.91]","(16.0, 32.0]",1,2,3,1,0
197,0,3,"Olsen, Mr. Karl Siegwart Andreas",male,42.0,0,1,8.4042,S,2,0,Mr,"(7.91, 14.454]","(32.0, 48.0]",1,2,3,2,1
307,1,1,"Penasco y Castellana, Mrs. Victor de Satode (M...",female,17.0,1,0,108.9,C,2,0,Mrs,"(31.0, 512.329]","(16.0, 32.0]",0,0,4,1,3
267,1,3,"Persson, Mr. Ernst Ulrik",male,25.0,1,0,7.775,S,2,0,Mr,"(-0.001, 7.91]","(16.0, 32.0]",1,2,3,1,0
870,0,3,"Balkic, Mr. Cerin",male,26.0,0,0,7.8958,S,1,1,Mr,"(-0.001, 7.91]","(16.0, 32.0]",1,2,3,1,0
881,0,3,"Markun, Mr. Johann",male,33.0,0,0,7.8958,S,1,1,Mr,"(-0.001, 7.91]","(32.0, 48.0]",1,2,3,2,0
327,1,2,"Ball, Mrs. (Ada E Hall)",female,36.0,0,0,13.0,S,1,1,Mrs,"(7.91, 14.454]","(32.0, 48.0]",0,2,4,2,1
626,0,2,"Kirkland, Rev. Charles Leonard",male,57.0,0,0,12.35,Q,1,1,Misc,"(7.91, 14.454]","(48.0, 64.0]",1,1,1,3,1
201,0,3,"Sage, Mr. Frederick",male,28.0,8,2,69.55,S,11,0,Mr,"(31.0, 512.329]","(16.0, 32.0]",1,2,3,1,3


In [124]:
# seleção de features
train_xy = train[['Survived',
                  'Pclass', 
                  'Sex_Code',
                  'AgeBin_Code', 
                  'FareBin_Code', 
                  'Embarked_Code', 
                  'Title_Code', 
                  'IsAlone']]

test_x = test[['Pclass', 
               'Sex_Code',
               'AgeBin_Code', 
               'FareBin_Code', 
               'Embarked_Code', 
               'Title_Code', 
               'IsAlone']]

In [65]:
train_xy.sample(10)

Unnamed: 0,Survived,Pclass,Sex_Code,AgeBin_Code,FareBin_Code,Embarked_Code,Title_Code,IsAlone
182,0,3,1,0,3,2,0,0
85,1,3,0,2,2,2,4,0
162,0,3,1,1,0,2,3,1
511,0,3,1,1,1,2,3,1
750,1,2,0,0,2,2,2,0
366,1,1,0,3,3,0,4,0
91,0,3,1,1,0,2,3,1
164,0,3,1,0,3,2,0,0
652,0,3,1,1,1,2,3,1
106,1,3,0,1,0,2,2,1


In [125]:
test_x.sample(10)

Unnamed: 0,Pclass,Sex_Code,AgeBin_Code,FareBin_Code,Embarked_Code,Title_Code,IsAlone
287,1,1,1,3,2,5,0
220,2,0,1,1,0,4,0
178,2,0,2,3,2,6,0
251,3,1,1,1,2,5,1
14,1,0,3,3,2,6,0
129,3,1,1,1,2,5,1
231,1,0,1,2,2,4,1
303,3,1,1,1,2,5,1
1,3,0,3,0,2,6,0
253,3,1,1,1,2,5,1


# Passo 4: EDA e Estatísticas

Agora que nossos dados estão limpos, exploraremos nossos dados com estatísticas descritivas e gráficas para descrever e resumir nossas variáveis. Neste estágio, você se encontrará classificando os recursos e determinando sua correlação com a variável de destino e entre si.

In [101]:
for column in train_x.columns:
    print(train_xy[[column, 'Survived']].groupby(column, as_index=False).mean())
    print('-'*50)

   Pclass  Survived
0       1  0.629630
1       2  0.472826
2       3  0.242363
--------------------------------------------------
   Sex_Code  Survived
0         0  0.742038
1         1  0.188908
--------------------------------------------------
   AgeBin_Code  Survived
0            0  0.550000
1            1  0.344762
2            2  0.403226
3            3  0.434783
4            4  0.090909
--------------------------------------------------
   FareBin_Code  Survived
0             0  0.197309
1             1  0.303571
2             2  0.454955
3             3  0.581081
--------------------------------------------------
   Embarked_Code  Survived
0              0  0.553571
1              1  0.389610
2              2  0.339009
--------------------------------------------------
   Title_Code  Survived
0           0  0.575000
1           1  0.444444
2           2  0.697802
3           3  0.156673
4           4  0.792000
--------------------------------------------------
   IsAlone  Surv

# Passo 5: Modelagem!

Agora estamos prontos para treinar um modelo e prever a solução necessária. Existem mais de 60 algoritmos de modelagem preditiva para escolher. Devemos entender o tipo de problema e o requisito de solução para restringir a alguns modelos selecionados que podemos avaliar. 

Nosso problema é um problema de classificação e regressão. Queremos identificar a relação entre saída (sobrevivência ou não) com outras variáveis ou características. Também estamos realizando uma categoria de aprendizado de máquina que é chamada de aprendizado supervisionado, pois estamos treinando nosso modelo com um determinado conjunto de dados. 

Com esses dois critérios - __aprendizado supervisionado__ mais __classificação e regressão__, podemos restringir nossa escolha de modelos a alguns. Esses incluem:

    - Logistic Regression
    - KNN (K-Nearest Neighbors)
    - SVM (Support Vector Machines)
    - Naive Bayes Classifier
    - Decision Tree
    - Random Forest
    - Perceptron
    - Artificial neural network
    - RVM or Relevance Vector Machine

In [155]:
X_train = train_xy.drop(["Survived"], axis=1)
Y_train = train_xy["Survived"]

X_test  = test_xy.copy()

#X_test = X_test.drop('Sex_Code', axis = 1)

X_train.shape, Y_train.shape, X_test.shape

((891, 7), (891,), (418, 7))

### Regressão Logística

In [176]:
from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression()
logreg.fit(X_train, Y_train)
Y_pred = logreg.predict(X_test)
acc_log = round(logreg.score(X_train, Y_train) * 100, 2)

print('Accuracy LogReg:', acc_log, '%')

Accuracy LogReg: 78.68 %


Podemos analisar a correlação na regressão logística entre as variáveis  para vermos quais as mais impactantes no modelo.

In [157]:
coeff_df = pd.DataFrame(train_xy.columns.delete(0))
coeff_df.columns = ['Feature']
coeff_df["Correlation"] = pd.Series(logreg.coef_[0])

coeff_df.sort_values(by='Correlation', ascending=False)

Unnamed: 0,Feature,Correlation
6,IsAlone,0.220356
3,FareBin_Code,0.19468
5,Title_Code,-0.17687
4,Embarked_Code,-0.212185
2,AgeBin_Code,-0.287493
0,Pclass,-0.811433
1,Sex_Code,-2.445972


### Support Vector Machine

In [166]:
from sklearn import svm

svc = svm.SVC()
svc.fit(X_train, Y_train)
Y_pred = svc.predict(X_test)
acc_svc = round(svc.score(X_train, Y_train) * 100, 2)
print('Accuracy SVM:', acc_svc, '%')

Accuracy SVM: 82.49 %


### K-Nearest-Neighbors

In [175]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import LabelEncoder
knn = KNeighborsClassifier(n_neighbors = 3)
knn.fit(X_train, Y_train)
Y_pred = knn.predict(X_test)
acc_knn = round(knn.score(X_train, Y_train) * 100, 2)
print('Accuracy KNN:', acc_knn, '%')

Accuracy KNN: 84.74 %


### Decision Tree

In [190]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier()
decision_tree.fit(X_train, Y_train)
Y_pred = decision_tree.predict(X_test)
acc_decision_tree = round(decision_tree.score(X_train, Y_train) * 100, 2)
print('Accuracy Decision Tree:', acc_decision_tree, '%')

Accuracy Decision Tree: 86.98 %


In [191]:
sample_submission = pd.read_csv('gender_submission.csv')

In [192]:
sample_submission['Survived'] = Y_pred

In [193]:
sample_submission

Unnamed: 0,PassengerId,Survived
0,892,0
1,893,1
2,894,0
3,895,0
4,896,1
5,897,0
6,898,1
7,899,0
8,900,1
9,901,0
