Esta é uma tradução livre de um kernel explicativo voltado a iniciantes em Data Science, extraído do site kaggle.com, construído pelo usuário LD Freeman. Fonte: https://www.kaggle.com/ldfreeman3/a-data-science-framework-to-achieve-99-accuracy
Obs: algumas partes foram adaptadas para ficar mais inteligíveis para o português e fazerem mais sentido no contexto da nossa língua. Versão para Jupyter Notebook.

# Um modelo de Data Science: atingindo 99% de acurácia

Olá e bem-vindo ao Kaggle, a comunidade online de Datascience de aprendizado, compartilhamento, e competição. A maioria dos iniciantes ficam perdidos nesta área, porque eles caem dentro de uma abordagem de 'caixa preta', utilizando algoritmos e bibliotecas que eles não compreendem. Este tutorial vai dar a você 1-2 anos de vantagem sobre os seus colegas, mostrando um modelo que ensinará você como pensar como um Cientista de Dados vs o que pensar/codificar. Não apenas tornará você apto a participar de sua primeira competição, mas te habilitará a resolver qualquer problema que você venha a abordar. Eu coloco explicações claras, código limpo, e muitos links de recursos. Observação: Este Kernel ainda está em desenvolvimento. Então, verifique a parte "Change Logs" abaixo para conhecer os updates. E ainda, dá um like, faça o fork, e comente, e eu continuarei a desenvolver. Obrigado, e você pode ter uma sorte "estatisticamente significante".

<h2>Lista de Conteúdo:</h2>

<h3>1 - Capítulo 1 - Como um Cientista de Dados vence a probabilidade</h3>
<h3>2 - Capítulo 2 - Um padrão de Data Science - 'framework'</h3>
<h3>3 - Capítulo 3 - Passo 1: Definir o problema e Passo 2: Reunir os dados</h3>
<h3>4 - Capítulo 4 - Passo 3: Preparar os dados para Uso</h3>
<h3>5 - Capítulo 5 - Os 4 C's do Tratamento de Dados: corrigir, completar, criar e converter</h3>
<h3>6 - Capítulo 6 - Passo 4: Fazendo a Análise Exploratória de Dados com a Estatística</h3>
<h3>7 - Capítulo 7 - Passo 5: O Modelo de Dados</h3>
<h3>8 - Capítulo 8 - Avaliando a performancedo do Modelo</h3>
<h3>9 - Capítulo 9 - Ajustando o Modelo com 'Hyper-Parameters'</h3>
<h3>10 - Capítulo 10 - Ajustando o Modelo com ferramentas de seleção (feature selection)</h3>
<h3>11 - Capítulo 11 - Passo 6: Validando e Implementando</h3>
<h3>12 - Capítulo 12 - Conclusão e Passo 7: Otimizando e traçando estratégias</h3> 
<h3>13 - Change Log (Atualizações)</h3>
<h3>14 - Créditos</h3>

Como usar este Tutorial: Leia as explicações que estão neste Kernel e veja os links para ter acesso à documentação. O objetivo não é ensinar o 'como fazer', mas o 'por que fazer'. Se você não entender algo no código, a função 'print()' é a sua melhor amiga. Em programação, é OK tentar, falhar, e tentar novamente. Se você ficar com problemas, o Google é seu segundo melhor amigo, porque 99,99% do tempo, alguém já teve este mesmo problema/pergunta e já foi respondida pela comunidade. Se você já esgotou todos os recursos, a comunidade Kaggle via fóruns e comentários pode ajudar você também.

## Como um Cientista de Dados vence a Probabilidade

É um problema clássico, prever os resultados de um evento binário. Em termos leigos isso significa que um evento tem dois resultados apenas: pode ou não pode ocorrer. Por exemplo, você pode ganhar ou perder, você pode passar ou não passar num teste, você foi aceito ou não foi aceito. Uma aplicação comum nos negócios é a questão de rotatividade e retenção de clientes. Outra aplicação costumeira é na análise da taxa de mortalidade ou de sobrevivência nos cuidados de emergência em saúde. Eventos Binários criam um interesse dinâmico, porque nós sabemos estatisticamente que um palpite aleatório dentro desses eventos tem uma chance de 50% de acerto, sem criar nenhum único algoritmo ou escrever nenhuma linha de código. Contudo, assim como a tecnologia dos corretores ortográficos, algumas vezes nós mesmos seres humanos podemos cometer alguns erros e ser tão 'inteligentes' a ponto de apostar e ter menos do que 50% de chances (coin flip). Neste kernel, eu utilizo a competição inicial sugerida pelo Kaggle que é o "Titanic: Machine Learning from Disaster", para levar o leitor através do uso dos modelos e instrumentos de Data Science para 'vencer a probabilidade'.

## Um modelo de Data Science

1. <h5>DEFINIR O PROBLEMA.</h5> 
Se Data Science, Big Data, Machine Learning, Análise Preditiva, Business Intelligence, ou qualquer outra estratégia é a solução, então qual é o problema? Como se diz, não coloque a carroça na frente dos cavalos. Problemas antes de requisitos, requisitos antes de soluções, soluções antes de design, e design antes da tecnologia. É muito frequente termos o impulso de pularmos as fases e ficarmos presos na tecnologia, na ferramenta, ou algortimo antes de determinar exatamente o problema que estamos querendo resolver.

2. <h5>REUNIR OS DADOS.</h5> 
John Naisbitt escreveu em seu livro de 1984 "Megatrends": nós estamos "se afogando em dados, ainda famintos por conhecimento.". Então, atualmente, é provável, que um conjunto de dados (dataset) já exista em algum lugar, em algum formato. Ele pode ser externo ou interno, estruturado ou não-estruturado, estático ou transmitido, objetivo ou subjetivo, etc. Como se diz, você não precisa reinventar a roda, apenas saber onde encontrar estes dados. No próximo passo, nós iremos nos preocupar em transformar os dados brutos em dados limpos ('dirty data' to 'clean data').

3. <h5>PREPARAR OS DADOS PARA USO.</h5> 
Este passo é geralmente conhecido como tratamento de dados, um processo necessário para transformar os dados brutos em dados que possam ser manipulados. O tratamento de dados inclui implementar arquitetura de dados para armazenar e processar, desenvolver padrões de governança para qualidade e controle, extração de dados (i.e. ETL e coleta de dados web), e limpeza de dados para identificar dados fora do padrão, perdidos, discrepantes, etc.

4. <h5>FAZENDO A ANÁLISE EXPLORATÓRIA.</h5> 
Qualquer um que já tenha trabalhado com dados sabe: inputs ruins levam a outputs ruins (garbage-in, garbage-out (GIGO). Portanto, é importante utilizar da estatística descritiva e análise gráfica para encontrar potenciais problemas, padrões, classificações, correlações e comparações no conjunto de dados. Ainda, a categorização de dados (quantitativo x qualitativo) é também importante para entender e selecionar as hipóteses corretas ou o modelo de dados.

5. <h5>O MODELO DE DADOS.</h5> 
Assim como a estatística descritiva e inferencial, a modelagem de dados pode também sumarizar os dados ou predizer possíveis resultados futuros. O seu conjunto de dados e resultados esperados irão determinar os algoritmos disponíveis a serem utilizados. É importante lembrar, algoritmos são ferramentas e não varinhas mágicas ou balas de prata. Você deve ser o mestre artesão que sabe como selecionar a ferramenta ideal para o trabalho a ser feito. Uma analogia poderia ser se você pedisse para alguém uma chave de fenda Philips, e ele te alcança a chave de fenda comum ou, pior, um martelo. Na melhor das hipóteses, isso poderia apenas ser uma má compreensão do que foi pedido. Na pior, isso poderia tornar o seu trabalho impossível de ser realizado. Esta é a mesma situação aplicada a modelagem de dados. O modelo errado pode levar a uma fraca performance e até a uma conclusão errada do seu trabalho.

6. <h5>VALIDAÇÃO E IMPLEMENTAÇÃO DO MODELO DE DADOS.</h5> 
Depois de você treinar o seu modelo baseado num subconjunto de dados, é hora de testar o seu modelo. Isto ajuda a assegurar que você não extrapolou (generalizou demais) o seu modelo ou fez algo tão específico para o subconjunto apenas, o que faz que não seja tão exato quando aplicado/generalizado para outro subconjunto do mesmo conjunto de dados (dataset). Neste passo, nós determinamos se o nosso modelo 'overfit', 'generalize, ou 'underfit' o nosso dataset. Segue link para entender melhor estes últimos termos: https://docs.aws.amazon.com/machine-learning/latest/dg/model-fit-underfitting-vs-overfitting.html

7. <h5>OTIMIZAÇÃO E TRAÇAR ESTRATÉGIAS.</h5> 
Este é o passo 'biônico', onde você repete o processo para torná-lo melhor... mais robusto... e mais rápido do que antes. Como cientista de dados, a sua estratégia poderia ser a de terceirizar as operações de desenvolvimento e da aplicação, assim você pode ter mais tempo para focar nas recomendações e no design. Quando você conseguir construir o seu próprio jeito de fazer as coisas e criar sua própria metodologia, isto se tornará sua moeda de troca para novos trabalhos.




## Passo 1: Definir o Problema

Para este projeto, com a declaração do problema que nos é dado de mão beijada, desenvolver um algoritmo para prever os sobreviventes do Titanic.

### Resumo do Projeto:

O naufrágio do RMS Titanic é um dos mais famosos acidentes navais da história. Em 15 de abril de 1912, durante sua viagem inaugural, o Titanic
afundou depois de colidir com um iceberg, matando 1502 dos 2224 passageiros e tripulação a bordo. Esta grande tragédia chocou a comunidade internacional
e levou a  maiores regulações de segurança para os navios.

Uma das razões do acidente ter sido com tantas perdas foi por causa da falta de botes salva vidas suficientes para os passageiros e para a tripulação.
Contudo, existiram alguns elementos de sorte envolvidos na sobrevivência do naufrágio, alguns grupos de pessoas tinham mais chance de sobreviver do que outras,
como as mulheres, crianças e da alta classe.

Neste desafio, nós pedimos que você complete a análise de quais tipos de pessoas tiveram mais chance de sobreviver. Em particular, nós pedimos que você aplique
com as ferramentas de machine learning para prever quais passageiros sobreviveram a tragédia.

Habilidades práticas:
    
    - Classificação Binária;
    - Python e R básico;

## Passo 2: Reunindo os Dados

Um conjunto de dados nos é deixado de mão beijada com dados de treino e teste dentro do desafio do Kaggle.

## Passo 3: Preparando os dados para uso

Como no passo 2, temos tudo já oferecido pelo kaggle, vamos para a próxima etapa. Portanto, os processos normais de manipulação de dados, como arquitetura de dados,
governança e extração estão fora do escopo. Sendo assim, apenas os dados limpos nos interessam.

### 3.1 Importando bibliotecas

O código seguinte está escrito em Python 3.x. As bibliotecas nos dão funcionalidades pré-definidas e muito úteis para realizar algumas tarefas necessárias. A ideia é porque escrever 10 linhas de código
se você pode escrever apenas uma.

In [15]:
# Carregnado pacotes
import sys #acessando parametros do sistema. doc em https://docs.python.org/3/library/sys.html
print("Python version: {}". format(sys.version))

import pandas as pd #coleção de funções para processamento e análise de dados para ser utilizado com Python
print("pandas version: {}". format(pd.__version__))

import matplotlib #coleção de funções para visualização científica e de publicação
print("matplotlib version: {}". format(matplotlib.__version__))

import numpy as np #pacote fundaental para computação científica
print("NumPy version: {}". format(np.__version__))

import scipy as sp #coleção de funções para computação científica e matemática avançada
print("SciPy version: {}". format(sp.__version__)) 

import IPython
from IPython import display #para imprimir/visualizar os dataframes no Jupyter notebook
print("IPython version: {}". format(IPython.__version__)) 

import sklearn #coleção de algoritmos de Machine Learning
print("scikit-learn version: {}". format(sklearn.__version__))

#bibliotecas mistas
import random
import time


#ignorar avisos recorrentes
import warnings
warnings.filterwarnings('ignore')
print('-'*25)

# Em caso de erro, verifique se falta alguma biblioteca a instalar

Python version: 3.7.4 (default, Aug  9 2019, 18:34:13) [MSC v.1915 64 bit (AMD64)]
pandas version: 0.25.1
matplotlib version: 3.1.1
NumPy version: 1.16.5
SciPy version: 1.3.1
IPython version: 7.8.0
scikit-learn version: 0.21.3
-------------------------


### 3.11 Carregando bibliotecas de modelagem de dados

Nós usaremos a popular biblioteca 'scikit-learn' para o desenvolvimento de nossos algoritmos de Machine Learning. No sklearn, os algoritmos são chamados de Estimadores (Estimators) e são implementados nas suas próprias classes. Para visualização dos dados, nós iremos utilizar as bibliotecas 'matplotlib' e 'seaborn'. Abaixo estão os passos para carregar estas classes:

In [16]:
#Algoritmos de Modelagem mais comuns
from sklearn import svm, tree, linear_model, neighbors, naive_bayes, ensemble, discriminant_analysis, gaussian_process
from xgboost import XGBClassifier #se der problema aqui, abre o prompt pelo Anaconda e digita 'pip install xgboost'

#Helpers (são classes que auxiliam e provem certas funcionalidades)
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn import feature_selection
from sklearn import model_selection
from sklearn import metrics

#Visualização
import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib.pylab as pylab
import seaborn as sns
from pandas.plotting import scatter_matrix

#Configurando os padrões de Visualização (cor, tamanho, etc.)
%matplotlib inline
mpl.style.use('ggplot')
sns.set_style('white')
pylab.rcParams['figure.figsize'] = 12,8

### 3.2 Conhecendo os dados

Este é um passo de conhecimento dos dados. Conheça-os pelo primeiro nome e aprenda um pouco sobre eles. Como parecem 
(tipo de dados, valores), como parecem funcionar (variáveis independentes/atributos), qual é o seu objetivo (variável dependente/alvo). Tente explorar os dados para ficar familiarizado com eles, os seus campos e a sua importância.

Para começar, nós vamos primeiramente importar nossos dados. Depois, nós usaremos as funções 'info()' e 'sample()', para ter uma rápida noção dos dados brutos e do tipo de variáveis que se apresentam (qualitativas ou quantitativas). Clique aqui para ir diretamente no desafio oficial do Kaggle: https://www.kaggle.com/c/titanic/data. Mas não é necessário perder muito tempo por lá, podes continuar o restante dos passos por aqui.

Para um rápido resumo sobre os tipos de variáveis, se for necessário, acesse: http://leg.ufpr.br/~silvia/CE055/node8.html

1. A variável 'Survived' (Sobreviventes) é a nossa variável dependente ou de resultado. É uma variável binária de tipo nominal, que apresenta dois possíveis estados: 1 para sobreviveu ('survived') e 0 para não-sobreviveu ('not survive'). Todas as outras variáveis são potenciais previsores ou variáveis independentes. É importante notar que quanto mais variáveis previsoras não torna o modelo melhor, mas sim, as variáveis corretamente escolhidas para tal.

2. A variável 'PassengerID' e 'Ticket' são assumidas como identificadores randômicos, que não terão impatco para a nossa principal variável ('Survived'). Sendo assim, nós iremos excluí-las de nossa análise.

3. A variável 'Pclass' é do tipo ordinal relacionado com a classe do ticket (passagem), uma representação do status socioeconomico do passageiro (em inglês, 'SES - Socioeconomic Status'), represetado com os números:
1 - Classe Alta ('upper class')
2 - Classe Média ('middle class')
3 - Classe Baixa ('lower class')

4. A variável 'Name' é do tipo nominal. Ela poderia ser utilizada para verificar o gênero do passageiro através dos pronomes de tratamento, tamanho da família através do sobrenome, e situação socioeconômica através dos título que iniciam o nome como doutor ou mestre. Como estas variáveis realmente existem, nós iremos fazer uso delas para verificar se o título de honra, como mestre/doutor, faz alguma diferença.

5. As variáveis 'Sex' e 'Embarked', sexo e onde embarcou, são do tipo nominal. Elas serão convertidas para poderem ser utilizadas nos cálculos matemáticos.

6. As variáveis 'Age' e 'Fare, idade e valor bilhete/passagem, são variáveis do tipo quantitativas contínuas. 

7. A variável 'SibSp' representa número de de irmãos/cônjuges relacionados a bordo e a variável 'Parch' representa o número de pais/filhos relacionados a bordo. Ambos são variáveis quantitativas discretas. Elas podem ser úteis para ter uma ideia do tamanho da família a bordo ou se o passageiro estava sozinho.

8. A variável 'Cabin' é do tipo nominal que pode ser utilizada para aproximar a posição da cabine no navio, que dá uma ideia de onde estariam os passageiros na hora do incidente e também do status socioeconomico (mais em cima, melhor posicionado, alta classe). Contudo, como existem muitos valores nulos nesta coluna, não vai adicionar valor para a nossa análise e será excluída.

In [17]:
#importando os dados dos arquivos baixados:
#documentacao sobre a função read = https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html
#data_raw é a variavel que assume os valores da planilha-treino, lembrando que o desafio do Titanic no Kaggle nos proporciona
#três arquivos: um para treino, que é o arquivo que faremos toda a análise e o modelo de previsão, também é disponibilizado
#o arquivo de teste, que é o arquivo que testaremos o nosso modelo, e ainda existe um modelo ja pronto, que é o gender_submission,
#que traz a solução 'todos homens morreram, todas as mulheres sobreviveram', que nos dá uma ideia de pontuação, colocando
#este modelo pronto no site do kaggle, voce já tera uma nota de acurácia deste modelo simples, e que te dá a base de
#nota mínima que você deve alcançar com o seu próprio modelo
data_raw = pd.read_csv('train.csv') 

#um conjunto de dados (dataset) deve ser dividido em três: treino, teste e validação (train, test, and (final) validation)
#o arquivo teste é o mesmo do arquivo de validaçao para esta competição específica
#nós iremos dividir o arquivo treino em dois: dados de treino e dados de teste nas seções futuras
data_val  = pd.read_csv('test.csv')


#criamos uma cópia ainda para poder manipular sem preocupação
#lembrando de utilizar a forma mais adequada de cópia, com o parâmetro 'deep', utilizando a função 'copy'
# maiores informações: https://stackoverflow.com/questions/46327494/python-pandas-dataframe-copydeep-false-vs-copydeep-true-vs
data1 = data_raw.copy(deep = True)

#passando os dois arquivos por referência é conveniente, porque nós podemos limpar ambos os datasets de uma só vez
data_cleaner = [data1, data_val]


#Visualizando os dados:

#aqui nos dá uma ideia de quantos dados nulos temos, teremos que fazer um tratamento destes depois
print (data_raw.info()) #https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.info.html

#os cinco primeiro registros
data_raw.head() #https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.head.html

#outra opção é pegar os 05 últimos registros
#data_raw.tail() #https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.tail.html

#ainda podemos pegar uma amotra aleatória de 10 registros
#data_raw.sample(10) #https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sample.html

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### 3.21 Os 4 C's do tratamento de dados: correção, completude, criação e conversão

Nesta etapa, nós iremos tratar os nossos dados fazendo 1) correção de valores excêntricos e 'outliers', 2) completando as informações faltantes, 3) criando novas ferramentas para análise, e 4) convertendo campos para o formato correto para os cálculos e apresentação.

<h5>1. Correção</h5>
Verificando os dados inicialmente, não parece haver nenhum dado fora do normal. Adicionalmente, nós podemos verificar potenciais 'outliers' nas colunas 'Age' e 'Fare'. Contudo, uma vez que são valores razoáveis, nós iremos esperar até depois de completar a nossa etapa de análise exploratória dos dados para, assim, determinar se nós deveremos incluí-los ou excluí-los do nosso dataset. Mas veja bem, se encontrássemos valores muito fora do padrão, como idade = 800 ao invés de 80, então é provável que faríamos a correção agora. Mas, nós temos que ter cuidado quando modificamos o valor original dos dados, porque temos que fazer um modelo acurado.

<h5>2. Completude</h5>
Existem valores nulos (NaN) ou valores perdidos nas categorias de 'Age', 'Cabin e 'Embarked', conforme verificamos anteriormente com o uso da função 'info()'. Valores perdidos pode ser algo ruim, porque alguns algoritmos não sabem como lidar com estes valores nulos e eles irão falhar. Enquanto outros, como o modelo de Árvores de Decisão, podem lidar com valores nulos. Portanto, é importante corrigir antes de nós começarmos a modelar os dados, porque nós iremos comparar e contrastar diversos modelos. Existem dois métodos comuns, ou deletando o registro ou dando a ele um valor razoável. Não é recomendado que se delete o registro, especialmente uma grande porcentagem de registros, a não ser que ele apresente um valor realmente incompleto. Como alternativa, é melhor atribuir os valores nulos. Uma metodologia básica para dados qualitativos é utilizar média, mediana, ou média + desvio padrão aleatório (mean, median or mean + randomized standard deviation). Uma metodologia intermediária é utilizar esta metodologia básica baseado em critérios específicos; como por exemplo, uma média de idade por classe ou porto de embarque por valor-ticket e status-socioeconômico. Existem metodologias mais complexas, contudo antes de utilizá-las, é necessário fazer uma comparação com o modelo mais básicopara determinar se esta complexidade vai adicionar valor. Para este dataset (conjunto de dados), no campo Idade ('Age') utilizaremos a mediana (median), o campo 'Cabin' vamos eliminar, e o Embarque ('Embark') iremos utilizar a moda (mode). Modelos subsequentes poderão modificar esta nossa decisão com o intuito de melhor a performance do modelo.

<h5>3. Criação</h5>
Engenharia de recursos (feature engineering) é quando nós utilizamos ferramentas/recursos para criar novas ferramentas para determinar se elas conseguirão novos indicadores para prever nosso resultado. Para este dataset, nós vamos criar uma ferramenta principal para determinar se ele desempenha algum papel na questão de indicar os sobreviventes.

<h5>4. Conversão</h5>
Por último, mas não menos importante, nós vamos lidar com a formatação. Não existem formatos de moeda ou data, mas formato 'datatype'. Nossos dados categóricos são importados como objetos, o que dificulta os cálculos matemáticos. Para este dataset, nós iremos converter estes objetos (object datatypes) para variáveis categóricas.


In [18]:
print('Colunas do arquivo de Treino com os valores nulos:\n', data1.isnull().sum())
print("-"*10)

print('Colunas de Teste/Validação com os valores nulos:\n', data_val.isnull().sum())
print("-"*10)

data_raw.describe(include = 'all')

Colunas do arquivo de Treino com os valores nulos:
 PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64
----------
Colunas de Teste/Validação com os valores nulos:
 PassengerId      0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64
----------


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
count,891.0,891.0,891.0,891,891,714.0,891.0,891.0,891,891.0,204,889
unique,,,,891,2,,,,681,,147,3
top,,,,"Beane, Mr. Edward",male,,,,CA. 2343,,B96 B98,S
freq,,,,1,577,,,,7,,4,644
mean,446.0,0.383838,2.308642,,,29.699118,0.523008,0.381594,,32.204208,,
std,257.353842,0.486592,0.836071,,,14.526497,1.102743,0.806057,,49.693429,,
min,1.0,0.0,1.0,,,0.42,0.0,0.0,,0.0,,
25%,223.5,0.0,2.0,,,20.125,0.0,0.0,,7.9104,,
50%,446.0,0.0,3.0,,,28.0,0.0,0.0,,14.4542,,
75%,668.5,1.0,3.0,,,38.0,1.0,0.0,,31.0,,


### 3.22 Limpeza dos Dados

Agora que sabemos o que precisa ser limpo, vamos executar o nosso código.

<h5>Documentação para conhecer as funções do pandas e do desenvolvimento que estão sendo utilizadas:</h5>
<li><a href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html">pandas.DataFrame</a></li>
<li><a href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.info.html">pandas.DataFrame.info</a></li>
<li><a href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html">pandas.DataFrame.describe</a></li>
<li><a href="https://pandas.pydata.org/pandas-docs/stable/indexing.html">Indexing and Selecting Data</a></li>
<li><a href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.isnull.html">pandas.isnull</a></li>
<li><a href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sum.html">pandas.DataFrame.sum</a></li>
<li><a href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.mode.html">pandas.DataFrame.mode</a></li>
<li><a href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.copy.html">pandas.DataFrame.copy</a></li>
<li><a href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html">pandas.DataFrame.copy</a></li>
<li><a href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop.html">pandas.DataFrame.drop</a></li>
<li><a href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.value_counts.html">pandas.Series.value_counts</a></li>
<li><a href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.loc.html">pandas.DataFrame.loc</a></li>

In [19]:
###COMPLETUDE: completando ou deletando valores perdidos/nulos nos datasets 'treino' e 'teste/validação'
for dataset in data_cleaner:    
    #completando idades faltantes com o valor da mediana
    dataset['Age'].fillna(dataset['Age'].median(), inplace = True)

    #completando os pontos-embarque com o valor da moda
    dataset['Embarked'].fillna(dataset['Embarked'].mode()[0], inplace = True)

    #completando os valores-ticket com a mediana
    dataset['Fare'].fillna(dataset['Fare'].median(), inplace = True)
    
#deletando a coluna 'Cabin' e as outras duas já mencionadas anteriormente: 'PassengerId' e 'Ticket' no dataset de treino apenas
drop_column = ['PassengerId','Cabin', 'Ticket']
data1.drop(drop_column, axis=1, inplace = True)

print(data1.isnull().sum())
print("-"*10)
print(data_val.isnull().sum())

Survived    0
Pclass      0
Name        0
Sex         0
Age         0
SibSp       0
Parch       0
Fare        0
Embarked    0
dtype: int64
----------
PassengerId      0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          327
Embarked         0
dtype: int64


In [20]:
###CRIAÇÃO: engenharia de recursos para o dataset de treino e o teste/validação
for dataset in data_cleaner:    
    #Valores Discretos
    dataset['FamilySize'] = dataset ['SibSp'] + dataset['Parch'] + 1

    dataset['IsAlone'] = 1 #inicializa como sim/1 para sozinho ('alone')
    dataset['IsAlone'].loc[dataset['FamilySize'] > 1] = 0 # atualiza para n]ao/0 se o tamanho-familia > 1

    #divisão rápida das partes dos nomes. Ver doc em http://www.pythonforbeginners.com/dictionary/python-split
    dataset['Title'] = dataset['Name'].str.split(", ", expand=True)[1].str.split(".", expand=True)[0]


    #Variáveis Contínuas bins; qcut vs cut: https://stackoverflow.com/questions/30211923/what-is-the-difference-between-pandas-qcut-and-pandas-cut
    #Fare (valor-ticket) Bins/Buckets usando qcut ou frequency bins: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.qcut.html
    dataset['FareBin'] = pd.qcut(dataset['Fare'], 4)

    #Age (idade) Bins/Buckets usando cut ou valor bins: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.cut.html
    dataset['AgeBin'] = pd.cut(dataset['Age'].astype(int), 5)


    
#Limpando titulos raros nos nomes
#print(data1['Title'].value_counts())
stat_min = 10 #enquanto dizer o que é pequeno é um pouco arbitrario, nós usaremos o minimo comum em estatistica. Ver em http://nicholasjjackson.com/2012/03/08/sample-size-is-10-a-magic-number/
title_names = (data1['Title'].value_counts() < stat_min) #isto irá criar uma série binaria(V ou F) com nome principal como índice

#Funções 'apply' and 'lambda' são rápidos para limpar o código, encontrando e substituindo em poucas linhas de codigo
#ver mais info em: https://community.modeanalytics.com/python/tutorial/pandas-groupby-and-python-lambda-functions/
data1['Title'] = data1['Title'].apply(lambda x: 'Misc' if title_names.loc[x] == True else x)
print(data1['Title'].value_counts())
print("-"*10)


#Vendo os dados novamente
data1.info()
data_val.info()
data1.sample(10)

Mr        517
Miss      182
Mrs       125
Master     40
Misc       27
Name: Title, dtype: int64
----------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 14 columns):
Survived      891 non-null int64
Pclass        891 non-null int64
Name          891 non-null object
Sex           891 non-null object
Age           891 non-null float64
SibSp         891 non-null int64
Parch         891 non-null int64
Fare          891 non-null float64
Embarked      891 non-null object
FamilySize    891 non-null int64
IsAlone       891 non-null int64
Title         891 non-null object
FareBin       891 non-null category
AgeBin        891 non-null category
dtypes: category(2), float64(2), int64(6), object(4)
memory usage: 85.8+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 16 columns):
PassengerId    418 non-null int64
Pclass         418 non-null int64
Name           418 non-null object
Sex            418 non-null 

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Embarked,FamilySize,IsAlone,Title,FareBin,AgeBin
818,0,3,"Holm, Mr. John Fredrik Alexander",male,43.0,0,0,6.45,S,1,1,Mr,"(-0.001, 7.91]","(32.0, 48.0]"
519,0,3,"Pavlovic, Mr. Stefo",male,32.0,0,0,7.8958,S,1,1,Mr,"(-0.001, 7.91]","(16.0, 32.0]"
654,0,3,"Hegarty, Miss. Hanora ""Nora""",female,18.0,0,0,6.75,Q,1,1,Miss,"(-0.001, 7.91]","(16.0, 32.0]"
484,1,1,"Bishop, Mr. Dickinson H",male,25.0,1,0,91.0792,C,2,0,Mr,"(31.0, 512.329]","(16.0, 32.0]"
137,0,1,"Futrelle, Mr. Jacques Heath",male,37.0,1,0,53.1,S,2,0,Mr,"(31.0, 512.329]","(32.0, 48.0]"
443,1,2,"Reynaldo, Ms. Encarnacion",female,28.0,0,0,13.0,S,1,1,Misc,"(7.91, 14.454]","(16.0, 32.0]"
287,0,3,"Naidenoff, Mr. Penko",male,22.0,0,0,7.8958,S,1,1,Mr,"(-0.001, 7.91]","(16.0, 32.0]"
837,0,3,"Sirota, Mr. Maurice",male,28.0,0,0,8.05,S,1,1,Mr,"(7.91, 14.454]","(16.0, 32.0]"
613,0,3,"Horgan, Mr. John",male,28.0,0,0,7.75,Q,1,1,Mr,"(-0.001, 7.91]","(16.0, 32.0]"
555,0,1,"Wright, Mr. George",male,62.0,0,0,26.55,S,1,1,Mr,"(14.454, 31.0]","(48.0, 64.0]"


### 3.23 Convertendo Formatos

Nós iremos converter os dados para variáveis binárias (existe/não existe; é/não-é; em inglês: dummy variables) para análise matemática. Existem múltiplos caminhos para codificar variáveis categóricas; nós utilizaremos o 'sklearn' e funções do 'pandas'.<"\n">
Neste passo, nós iremos ainda definir nosso 'x' (variavel de previsão/independente) e o 'y' (variavel dependente/alvo/resultado) que são nossas variáveis do modelo de dados.

<h5>Documentação:</h5>
<li>Categorical Encoding: http://pbpython.com/categorical-encoding.html</li>
<li>Sklearn LabelEncoder: http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html</li>
<li>Sklearn OneHotEncoder: http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html</li>
<li>Pandas Categorical dtype: https://pandas.pydata.org/pandas-docs/stable/categorical.html</li>
<li>pandas.get_dummies: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html</li>

In [22]:
#CONVERSÃO: convertendo objetos para categorias usando 'Label Encoder' para o treino e o teste/validação

#Codificando as categorias de dados
label = LabelEncoder()
for dataset in data_cleaner:    
    dataset['Sex_Code'] = label.fit_transform(dataset['Sex'])
    dataset['Embarked_Code'] = label.fit_transform(dataset['Embarked'])
    dataset['Title_Code'] = label.fit_transform(dataset['Title'])
    dataset['AgeBin_Code'] = label.fit_transform(dataset['AgeBin'])
    dataset['FareBin_Code'] = label.fit_transform(dataset['FareBin'])


#definindo a variável y como target/outcome
Target = ['Survived']

#definindo a variável x como feature selection
data1_x = ['Sex','Pclass', 'Embarked', 'Title','SibSp', 'Parch', 'Age', 'Fare', 'FamilySize', 'IsAlone'] #nomes das categorias
data1_x_calc = ['Sex_Code','Pclass', 'Embarked_Code', 'Title_Code','SibSp', 'Parch', 'Age', 'Fare'] #ajeitando um dataset para o cálculo
data1_xy =  Target + data1_x
print('Original X Y: ', data1_xy, '\n')


#definindo variáveis x das características originais com as binarias para remover as variáveis contínuas
data1_x_bin = ['Sex_Code','Pclass', 'Embarked_Code', 'Title_Code', 'FamilySize', 'AgeBin_Code', 'FareBin_Code']
data1_xy_bin = Target + data1_x_bin
print('Bin X Y: ', data1_xy_bin, '\n')


#definindo x e y para as características binárias originais ('dummy features')
data1_dummy = pd.get_dummies(data1[data1_x])
data1_x_dummy = data1_dummy.columns.tolist()
data1_xy_dummy = Target + data1_x_dummy
print('Dummy X Y: ', data1_xy_dummy, '\n')



data1_dummy.head()

Original X Y:  ['Survived', 'Sex', 'Pclass', 'Embarked', 'Title', 'SibSp', 'Parch', 'Age', 'Fare', 'FamilySize', 'IsAlone'] 

Bin X Y:  ['Survived', 'Sex_Code', 'Pclass', 'Embarked_Code', 'Title_Code', 'FamilySize', 'AgeBin_Code', 'FareBin_Code'] 

Dummy X Y:  ['Survived', 'Pclass', 'SibSp', 'Parch', 'Age', 'Fare', 'FamilySize', 'IsAlone', 'Sex_female', 'Sex_male', 'Embarked_C', 'Embarked_Q', 'Embarked_S', 'Title_Master', 'Title_Misc', 'Title_Miss', 'Title_Mr', 'Title_Mrs'] 



Unnamed: 0,Pclass,SibSp,Parch,Age,Fare,FamilySize,IsAlone,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S,Title_Master,Title_Misc,Title_Miss,Title_Mr,Title_Mrs
0,3,1,0,22.0,7.25,2,0,0,1,0,0,1,0,0,0,1,0
1,1,1,0,38.0,71.2833,2,0,1,0,1,0,0,0,0,0,0,1
2,3,0,0,26.0,7.925,1,1,1,0,0,0,1,0,0,1,0,0
3,1,1,0,35.0,53.1,2,0,1,0,0,0,1,0,0,0,0,1
4,3,0,0,35.0,8.05,1,1,0,1,0,0,1,0,0,0,1,0
