In [1]:
import matplotlib.pyplot as plt
import matplotlib as mpl
import pandas as pd
import numpy as np
import pylab as plt

In [2]:
# Vamos agora exercitar algumas tarefas comuns na atividade de *Feature Engineering*,
# que consiste em remodelar atributos para obter melhor(?) desempenho nos algoritmos.
# Entre as tarefas faremos conversão de categorias usando OHE (*one-hot-encoding*) e *Feature Hashing*,
# e também a produção de novas colunas calculadas com base noutras.
# Não há uma "receita" para essas atividades. É sempre uma questão de experimentar e ver quais os modelos que são melhores que outros.

##Recarregando os dados da parte anterior...

df_train = pd.read_csv("train_no_nulls_no_outliers.csv")
df_train.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C


In [3]:
# A técnica de One-hot-encoding é utilizada para converter dados que são categóricos em numéricos de forma
# a não influenciar de forma negativa alguns algoritmos.
# Converter cada valor possível para a coluna em numeros de 1 a N implicaria haver uma relação fixa de
# distância geométrica entre os dados, o que normalmente não ocorre.
# A conversão funciona de forma simples: para cada categoria numa determinada coluna, é criada uma nova coluna onde o valor será 1
# quando a linha tiver aquele valor para a categoria ou 0 caso contrário.
# O código abaixo usa o método get_dummies da biblioteca pandas para criar 3 novas colunas para cada
# um dos 3 valores possíveis para a coluna 'Embarked'.

novas_colunas = pd.get_dummies(df_train["Embarked"])
df_train2 = pd.concat([df_train,novas_colunas], axis=1) # axis = 1 concatena colunas, axis = 0 concatena linhas
print(df_train2.head(3))

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   

   Parch            Ticket     Fare Embarked      C      Q      S  
0      0         A/5 21171   7.2500        S  False  False   True  
1      0          PC 17599  71.2833        C   True  False  False  
2      0  STON/O2. 3101282   7.9250        S  False  False   True  


In [4]:
#Agora podemos remover a coluna original dos dados

df_train2.drop('Embarked', axis=1, inplace=True)

In [4]:
novas_colunas_pclass = pd.get_dummies(df_train["Pclass"])
novas_colunas_sex = pd.get_dummies(df_train["Sex"])

df_train3 = pd.concat([df_train2, novas_colunas_pclass, novas_colunas_sex], axis=1)
df_train3.drop(["Pclass", "Sex"], axis=1, inplace=True)
print(df_train3.head(3))

   PassengerId  Survived                                               Name  \
0            1         0                            Braund, Mr. Owen Harris   
1            2         1  Cumings, Mrs. John Bradley (Florence Briggs Th...   
2            3         1                             Heikkinen, Miss. Laina   

    Age  SibSp  Parch            Ticket     Fare Embarked      C      Q  \
0  22.0      1      0         A/5 21171   7.2500        S  False  False   
1  38.0      1      0          PC 17599  71.2833        C   True  False   
2  26.0      0      0  STON/O2. 3101282   7.9250        S  False  False   

       S      1      2      3  female   male  
0   True  False  False   True   False   True  
1  False   True  False  False    True  False  
2   True  False  False   True    True  False  


In [5]:
df_train3.to_csv("train_no_nulls_no_outliers_ohe.csv", index=False)

In [6]:
df_train = pd.read_csv("train_no_nulls_no_outliers.csv")
df_train.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
