# Pré-processamento dos dados com Python

Para este hands on vamos usar o [Data Set do Titanic disponível no Kaggle](https://www.kaggle.com/c/titanic). Este é um conjunto de dados muito famoso. O dataset disponibiliza informações dos passageiros que nos permite aplicar algoritmos de aprendizagem supervisionada para prever se um passageiro sobrevivereu ou não.

Antes de aplicarmos algum classificador para este problema vamos realizar o pré-processamento dos dados.

Este dataset já está parcialmente pré-processado, mas se quiser usar o conjunto de dados original, hospedado diretamente no Kaggle, será um desafio interessante =D.

## O Dicionário de Dados

**Survival**: Sobrevivente (Não=0, Sim=1)

**Pclass**: Classe de ingresso (1=1st, 2=2nd, 3=3rd)

**Sex**: Sexo

**Age**: Idade em anos

**Sibsp**: Quantidade de irmãos e cônjuges a bordo do Titanic

**Parch**: Quantidade de pais e filhos  a bordo do Titanic

**Ticket**: Número do ticket

**Fare**: Tarifa do passageiro

**Cabin**: Número da cabine	

**Embarked**: Portão de Embarque (C=Cherbourg, Q=Queenstown, S=Southampton)



## Import as bibliotecas
Vamos importar algumas bibliotecas para começar!

In [41]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt # biblioteca de visualização utilizada pelo pandas e pelo seaborn
import seaborn as sns # biblioteca de visualização com mais opções de gráficos
 #comando necessário para que as imagens sejam exibidas aqui mesmo no notebook
%matplotlib inline
#from sklearn.feature_selection import SelectKBest
#from sklearn.feature_selection import f_regression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import LabelBinarizer

## 1. Acessando os dados

* Utilize a função **pd.read_csv** para ler o dado e salve na variável **train**
    - O nome do dataset é **titanic_train.csv**
    - Visualize alguns elementos do seu data set, para isto use **train.head()**

In [42]:
train = pd.read_csv("titanic_train.csv")
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [43]:
train.drop(['Cabin','PassengerId', 'Name', 'Ticket'], axis=1, inplace=True)
train.dropna(inplace=True)
train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 0 to 890
Data columns (total 8 columns):
Survived    712 non-null int64
Pclass      712 non-null int64
Sex         712 non-null object
Age         712 non-null float64
SibSp       712 non-null int64
Parch       712 non-null int64
Fare        712 non-null float64
Embarked    712 non-null object
dtypes: float64(2), int64(4), object(2)
memory usage: 50.1+ KB


In [47]:
features_pp = ['Sex', 'Embarked']
enc = LabelEncoder()
enc.fit(cat_features)
new_features = enc.transform(features_pp)
print new_features # [1 2 0]
new_features = new_features.reshape(-1, 1) # Needs to be the correct shape
ohe = OneHotEncoder(sparse=False) #Easier to read
print ohe.fit_transform(new_features)

SyntaxError: Missing parentheses in call to 'print'. Did you mean print(new_features # [1 2 0])? (<ipython-input-47-63cb7458f9e7>, line 5)

In [34]:
# create feature union
features = []
#features.append(('le', LabelEncoder()))
features.append(('ohe', OneHotEncoder(['Sex'])))
#feature_union = FeatureUnion(features)
# create pipeline
#estimators = []
#estimators.append(('feature_union', feature_union))
#estimators.append(('logistic', LogisticRegression()))
#model = Pipeline(estimators)

pipe = Pipeline(steps=features)
data = pipe.transform(train)
data

ValueError: could not convert string to float: 'Q'

# 2. Exploração dos dados

Vamos verificar verificar os dados que faltam!

## Analise os atributos ausentes

Podemos usar o seaborn para criar um mapa de calor simples, heatmap, para ver onde faltam dados!

In [None]:
def impute_age(cols):
    Age = cols[0]
    Pclass = cols[1]
    
    if pd.isnull(Age):

        if Pclass == 1:
            return 37

        elif Pclass == 2:
            return 29

        else:
            return 24

    else:
        return Age
train['Age'] = train[['Age','Pclass']].apply(impute_age,axis=1)

Ótimo! Vamos em frente ...

### + Atividades

* Elimine o atributo Cabin, Name e Ticket do nosso DataSet
* Visualize os primeiros elementos do DF **train** sem o atributo cabine
* Há ainda algum valor nulo? Vamos eliminá-lo! Para fazer isto use df.dropna(inplace=True). Quantos registros sobraram?

(Dica: use a função drop, por exemplo, df.drop('coluna',axis=1,inplace=True))

<!--
train.drop('Cabin',axis=1,inplace=True)
--->


In [None]:
train.drop('Cabin',axis=1,inplace=True)

In [None]:
train[train['Embarked'].isnull()]

In [None]:
train.dropna(inplace=True)

In [None]:
train.count()

In [None]:
sex = pd.get_dummies(train['Sex'], prefix='Gender', drop_first=True)
embarked = pd.get_dummies(train['Embarked'], prefix='Embarked')
pclass = pd.get_dummies(train['Pclass'], prefix='Class')

In [None]:
train = pd.concat([train,sex,embarked,pclass],axis=1)

- Que tal substituirmos o nome pelo prenome?

In [None]:
import re

def impute_name(name):
        pattern = re.search("\\,(.+?)\\.", name)
        found='Other'
        if pattern:
            found = pattern.group(1)
        return found

In [None]:
train['Name'] = train['Name'].apply(impute_name)
name = pd.get_dummies(train['Name'],prefix='Prenome')
train = pd.concat([train, name],axis=1)
train.drop(['Name'],axis=1,inplace=True)

- Aplique normalização sobre as tarifas

In [None]:
def normalize(x, mean, std):
    z = (x - mean)/std
    return z

mean_fare = train['Fare'].mean()
std_fare = train['Fare'].std()
train['Z_Fare'] = train['Fare'].apply(normalize, args=(mean_fare, std_fare))

Existe alguma informação que você pode obter a partir do bilhete? Uma média de tarifa por exemplo, considerando a primeira letra do bilhete? Ou considerando o tamanho do bilhete

In [None]:
def new_ticket(ticket):
    nt = ticket[0]+"_"+str(len(ticket))
    return nt

train['New_Ticket'] = train['Ticket'].apply(new_ticket)

In [None]:
train_selec = train[['New_Ticket','Embarked','Pclass']]
#sns.pairplot(train_selec, hue="Pclass")

In [None]:
a = train.groupby(['New_Ticket','Pclass'])['Fare'].mean()

In [None]:
new_df = a.reset_index()

In [None]:
plt.figure(figsize=(18, 7))
ax = sns.scatterplot(x="New_Ticket", y="Fare", hue="Pclass", data=new_df)
plt.sca(ax)
plt.xticks(rotation=90);

- Talvez a cabine possa ser uma característica ... E se a cabine puder ser inferida? Como funcionava a divisão de cabines por classes ou idades
- Crie uma feature categórica com base na idade da pessoa, (por exemplo, criança, jovem, adulto e criança), no lugar da idade.
- Por onde entraram as pessoas que pagaram os ingressos mais caros?
- Crie um pipeline para o pré-processamento de features
- Aplique o pipeline sobre o dataset de titanic_test.csv

In [None]:
pd.set_option('max_columns',100)
train.head()

Data Science é o que há =D! 

Você pode querer explorar outras formas pré-processamento de dados ... fique a vontade =D!