In [2]:
import pandas as pd
import numpy as np

df = pd.read_csv("train.csv")

In [3]:
df.head(10)

Unnamed: 0,id,sobreviveu,classe_social,nome,sexo,idade,parentes,dependentes,bilhete,tarifa,cabine,embarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [4]:
#O conjunto de dados possui alguns campos nos quais não temos interesse prático,
#como, por exemplo, o nome e a identificaçao do bilhete.
df = df[["sobreviveu",
         "classe_social",
         "sexo",
         "idade",
         "parentes",
         "dependentes",
         "tarifa",
         "cabine",
         "embarque"]]
df.head(50)

Unnamed: 0,sobreviveu,classe_social,sexo,idade,parentes,dependentes,tarifa,cabine,embarque
0,0,3,male,22.0,1,0,7.25,,S
1,1,1,female,38.0,1,0,71.2833,C85,C
2,1,3,female,26.0,0,0,7.925,,S
3,1,1,female,35.0,1,0,53.1,C123,S
4,0,3,male,35.0,0,0,8.05,,S
5,0,3,male,,0,0,8.4583,,Q
6,0,1,male,54.0,0,0,51.8625,E46,S
7,0,3,male,2.0,3,1,21.075,,S
8,1,3,female,27.0,0,2,11.1333,,S
9,1,2,female,14.0,1,0,30.0708,,C


In [5]:
#A variável-alvo é saber se o passageiro em questão sobreviveu ao acidente, isto é, o
#campo sobreviveu. Vamos separar esse campo do restante do conjunto de dados
labels = df.sobreviveu
labels.head(10)

0    0
1    1
2    1
3    1
4    0
5    0
6    0
7    0
8    1
9    1
Name: sobreviveu, dtype: int64

In [6]:

#localiza todos as linhas cujos valores não são números na coluna classe
# e imprime a tupla que mostra a dimensão
df.loc[     pd.isna(df['classe_social']), 'classe_social'    ].shape


(0,)

In [7]:


df.loc[pd.isna(df['sexo']), 'sexo'].shape

(0,)

In [8]:

df.loc[pd.isna(df['idade']), 'idade'].shape

(177,)

In [9]:
# calculando o percentual de valores indefinidos em cada coluna numérica

def calcula_percentual_indefinido(dataframe, coluna ):
    indefinidos = dataframe.loc[pd.isna(dataframe[coluna]), coluna].shape[0]
    #total = dataframe.idade.shape[0]
    total = dataframe[coluna].shape[0]

    return (indefinidos/total)* 100

In [10]:
calcula_percentual_indefinido(df, 'parentes')

0.0

In [12]:
calcula_percentual_indefinido(df, 'dependentes')

0.0

In [13]:
calcula_percentual_indefinido(df, 'tarifa')

0.0

In [14]:
calcula_percentual_indefinido(df, 'cabine')

77.10437710437711

In [15]:
calcula_percentual_indefinido(df, 'embarque')

0.22446689113355783

In [16]:
calcula_percentual_indefinido(df, 'idade')

19.865319865319865

In [17]:
'''
Os campos em que temos problemas são:
» idade (19.87%).
» cabine (77.10%)#DROOOOOOOOOOP NA COLUNA
» embarque (0.22%).
'''
'''
A coluna cabine possui um número muito grande de indefinidos, dessa forma vamos tirar ela da análise
'''
df = df.drop('cabine', axis=1)
#df = df.drop(columns=['cabine'])
df.head(10)

Unnamed: 0,sobreviveu,classe_social,sexo,idade,parentes,dependentes,tarifa,embarque
0,0,3,male,22.0,1,0,7.25,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.925,S
3,1,1,female,35.0,1,0,53.1,S
4,0,3,male,35.0,0,0,8.05,S
5,0,3,male,,0,0,8.4583,Q
6,0,1,male,54.0,0,0,51.8625,S
7,0,3,male,2.0,3,1,21.075,S
8,1,3,female,27.0,0,2,11.1333,S
9,1,2,female,14.0,1,0,30.0708,C


In [18]:
'''
O campo idade tem problemas em quase 20% dos casos, e não é simples definir um
valor-padrão. A primeira ideia seria assumir que os campos sem idade poderiam
receber o valor zero, mas isso pode comprometer muito o trabalho criando um desvio
para idades mais baixas. A segunda ideia é excluir esses dados; nesse caso, teremos um
dataset um pouco menor, mas que pode funcionar melhor, se não funcionar, aí então
nos preocupamos
'''

#deleta todas as linhas cujos números não são valores válidos
df = df[np.isfinite(df['idade'])] 
df.head(50)

Unnamed: 0,sobreviveu,classe_social,sexo,idade,parentes,dependentes,tarifa,embarque
0,0,3,male,22.0,1,0,7.25,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.925,S
3,1,1,female,35.0,1,0,53.1,S
4,0,3,male,35.0,0,0,8.05,S
6,0,1,male,54.0,0,0,51.8625,S
7,0,3,male,2.0,3,1,21.075,S
8,1,3,female,27.0,0,2,11.1333,S
9,1,2,female,14.0,1,0,30.0708,C
10,1,3,female,4.0,1,1,16.7,S


In [19]:
'''
O que fizemos acima foi excluir todos os registros que não possuem valores válidos na
coluna idade. Se calcularmos agora o percentual indefinido na coluna idade teremos:
'''
calcula_percentual_indefinido(df, 'idade')

0.0

In [20]:
'''
A coluna embarque é a menos problemática, menos de 0,5% dos valores está
indefinido. Vamos excluir os registros problemáticos sem nos preocupar muito com a
interferência.
'''
df = df[ ~pd.isna(df.embarque)] #dataframe recebe todos os que são número diferentes de NaN
calcula_percentual_indefinido(df, 'embarque')

0.0

In [21]:
'''
Após a limpeza dos valores indefinidos, precisamos converter os
campos categóricos em one-hot; são eles: classe, sexo e embarque. Para analisá-los,
vamos começar obtendo os valores que podem assumir:
'''
df.classe_social.unique()

array([3, 1, 2])

In [22]:
'''
Isso quer dizer que um passageiro pode ter sido alocado na primeira, segunda ou
terceira classes. Computacionalmente esse tipo de categoria é muito ruim, porque é
comparável! Sabemos que esses campos estão ordenados e não deveriam; então vamos
mapear cada uma dessas classes para vetores. Para facilitar, vamos criar uma função
que faça isso para nós:
'''

def one_hot(categorias, valor):
# Transforma as categorias num conjunto para eliminar duplicatas,
# depois transforma em lista para obter índice
    categorias = list(set(categorias))
    print("Categorias: ")
    print(categorias)
# Obtém o índice do elemento atual
    indice = categorias.index(valor)
    print("Indice ")
    print(indice)
# Cria um vetor com o número de coordenadas igual ao número de categorias
    print("Vetor")
    vetor = np.zeros(len(categorias))
# Modifica o índice correspondente a classe para 1.0 no vetor de categorias
    vetor[indice] = 1.0
# devolve o vetor one-hot resultante
    return vetor

In [23]:
one_hot(df.classe_social, 1)

Categorias: 
[1, 2, 3]
Indice 
0
Vetor


array([1., 0., 0.])

In [24]:
one_hot(df.classe_social, 2)

Categorias: 
[1, 2, 3]
Indice 
1
Vetor


array([0., 1., 0.])

In [25]:
one_hot(df.classe_social, 3)

Categorias: 
[1, 2, 3]
Indice 
2
Vetor


array([0., 0., 1.])

In [26]:
'''
Para converter as colunas categóricas que estão em texto (sexo). Vamos converter para vetores one-hot usando a
função anterior. Primeiro, vejamos os valores possíveis:
'''
df.sexo.unique()

array(['male', 'female'], dtype=object)

In [27]:
print(one_hot(df.sexo, 'male'))
print(one_hot(df.sexo, 'female'))

Categorias: 
['female', 'male']
Indice 
1
Vetor
[0. 1.]
Categorias: 
['female', 'male']
Indice 
0
Vetor
[1. 0.]


In [28]:
'''
Agora faremos o mesmo com a coluna embarque.
Vejamos quais os valores possíveis
'''
df.embarque.unique()

array(['S', 'C', 'Q'], dtype=object)

In [29]:
one_hot(df.embarque, 'S')

Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor


array([0., 1., 0.])

In [30]:
one_hot(df.embarque, 'C')

Categorias: 
['Q', 'S', 'C']
Indice 
2
Vetor


array([0., 0., 1.])

In [31]:
one_hot(df.embarque, 'Q')

Categorias: 
['Q', 'S', 'C']
Indice 
0
Vetor


array([1., 0., 0.])

In [32]:
#Agora vamos transformar as colunas de acordo com a codificação one-hot
df.classe_social = [  one_hot(df.classe_social, _) for _ in df.classe_social   ]

Categorias: 
[1, 2, 3]
Indice 
2
Vetor
Categorias: 
[1, 2, 3]
Indice 
0
Vetor
Categorias: 
[1, 2, 3]
Indice 
2
Vetor
Categorias: 
[1, 2, 3]
Indice 
0
Vetor
Categorias: 
[1, 2, 3]
Indice 
2
Vetor
Categorias: 
[1, 2, 3]
Indice 
0
Vetor
Categorias: 
[1, 2, 3]
Indice 
2
Vetor
Categorias: 
[1, 2, 3]
Indice 
2
Vetor
Categorias: 
[1, 2, 3]
Indice 
1
Vetor
Categorias: 
[1, 2, 3]
Indice 
2
Vetor
Categorias: 
[1, 2, 3]
Indice 
0
Vetor
Categorias: 
[1, 2, 3]
Indice 
2
Vetor
Categorias: 
[1, 2, 3]
Indice 
2
Vetor
Categorias: 
[1, 2, 3]
Indice 
2
Vetor
Categorias: 
[1, 2, 3]
Indice 
1
Vetor
Categorias: 
[1, 2, 3]
Indice 
2
Vetor
Categorias: 
[1, 2, 3]
Indice 
2
Vetor
Categorias: 
[1, 2, 3]
Indice 
1
Vetor
Categorias: 
[1, 2, 3]
Indice 
1
Vetor
Categorias: 
[1, 2, 3]
Indice 
2
Vetor
Categorias: 
[1, 2, 3]
Indice 
0
Vetor
Categorias: 
[1, 2, 3]
Indice 
2
Vetor
Categorias: 
[1, 2, 3]
Indice 
2
Vetor
Categorias: 
[1, 2, 3]
Indice 
0
Vetor
Categorias: 
[1, 2, 3]
Indice 
0
Vetor
Categorias: 
[1, 2, 3]
In

In [33]:
df.head(10)

Unnamed: 0,sobreviveu,classe_social,sexo,idade,parentes,dependentes,tarifa,embarque
0,0,"[0.0, 0.0, 1.0]",male,22.0,1,0,7.25,S
1,1,"[1.0, 0.0, 0.0]",female,38.0,1,0,71.2833,C
2,1,"[0.0, 0.0, 1.0]",female,26.0,0,0,7.925,S
3,1,"[1.0, 0.0, 0.0]",female,35.0,1,0,53.1,S
4,0,"[0.0, 0.0, 1.0]",male,35.0,0,0,8.05,S
6,0,"[1.0, 0.0, 0.0]",male,54.0,0,0,51.8625,S
7,0,"[0.0, 0.0, 1.0]",male,2.0,3,1,21.075,S
8,1,"[0.0, 0.0, 1.0]",female,27.0,0,2,11.1333,S
9,1,"[0.0, 1.0, 0.0]",female,14.0,1,0,30.0708,C
10,1,"[0.0, 0.0, 1.0]",female,4.0,1,1,16.7,S


In [34]:
df.sexo = [one_hot(df.sexo, _) for _ in df.sexo]

Categorias: 
['female', 'male']
Indice 
1
Vetor
Categorias: 
['female', 'male']
Indice 
0
Vetor
Categorias: 
['female', 'male']
Indice 
0
Vetor
Categorias: 
['female', 'male']
Indice 
0
Vetor
Categorias: 
['female', 'male']
Indice 
1
Vetor
Categorias: 
['female', 'male']
Indice 
1
Vetor
Categorias: 
['female', 'male']
Indice 
1
Vetor
Categorias: 
['female', 'male']
Indice 
0
Vetor
Categorias: 
['female', 'male']
Indice 
0
Vetor
Categorias: 
['female', 'male']
Indice 
0
Vetor
Categorias: 
['female', 'male']
Indice 
0
Vetor
Categorias: 
['female', 'male']
Indice 
1
Vetor
Categorias: 
['female', 'male']
Indice 
1
Vetor
Categorias: 
['female', 'male']
Indice 
0
Vetor
Categorias: 
['female', 'male']
Indice 
0
Vetor
Categorias: 
['female', 'male']
Indice 
1
Vetor
Categorias: 
['female', 'male']
Indice 
0
Vetor
Categorias: 
['female', 'male']
Indice 
1
Vetor
Categorias: 
['female', 'male']
Indice 
1
Vetor
Categorias: 
['female', 'male']
Indice 
0
Vetor
Categorias: 
['female', 'male']
Indice 


In [35]:
df.head()

Unnamed: 0,sobreviveu,classe_social,sexo,idade,parentes,dependentes,tarifa,embarque
0,0,"[0.0, 0.0, 1.0]","[0.0, 1.0]",22.0,1,0,7.25,S
1,1,"[1.0, 0.0, 0.0]","[1.0, 0.0]",38.0,1,0,71.2833,C
2,1,"[0.0, 0.0, 1.0]","[1.0, 0.0]",26.0,0,0,7.925,S
3,1,"[1.0, 0.0, 0.0]","[1.0, 0.0]",35.0,1,0,53.1,S
4,0,"[0.0, 0.0, 1.0]","[0.0, 1.0]",35.0,0,0,8.05,S


In [36]:
df.embarque = [one_hot(df.embarque, _) for _ in df.embarque]
df.head()

Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
2
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
2
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
0
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
0
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias: 
['Q', 'S', 'C']
Indice 
1
Vetor
Categorias

Unnamed: 0,sobreviveu,classe_social,sexo,idade,parentes,dependentes,tarifa,embarque
0,0,"[0.0, 0.0, 1.0]","[0.0, 1.0]",22.0,1,0,7.25,"[0.0, 1.0, 0.0]"
1,1,"[1.0, 0.0, 0.0]","[1.0, 0.0]",38.0,1,0,71.2833,"[0.0, 0.0, 1.0]"
2,1,"[0.0, 0.0, 1.0]","[1.0, 0.0]",26.0,0,0,7.925,"[0.0, 1.0, 0.0]"
3,1,"[1.0, 0.0, 0.0]","[1.0, 0.0]",35.0,1,0,53.1,"[0.0, 1.0, 0.0]"
4,0,"[0.0, 0.0, 1.0]","[0.0, 1.0]",35.0,0,0,8.05,"[0.0, 1.0, 0.0]"


In [37]:
'''
Não podemos nos esquecer de codificar também os resultados finais! A sobrevivência
ou não do passageiro, as classes finais armazenadas na coluna labels que separamos do
conjunto de dados, precisa ser codificada também. Primeiro, vejamos os valores possíveis:
'''
df.sobreviveu.unique()


array([0, 1])

In [38]:
df.sobreviveu = [one_hot(df.sobreviveu, _) for _ in df.sobreviveu]
df.head(10)

Categorias: 
[0, 1]
Indice 
0
Vetor
Categorias: 
[0, 1]
Indice 
1
Vetor
Categorias: 
[0, 1]
Indice 
1
Vetor
Categorias: 
[0, 1]
Indice 
1
Vetor
Categorias: 
[0, 1]
Indice 
0
Vetor
Categorias: 
[0, 1]
Indice 
0
Vetor
Categorias: 
[0, 1]
Indice 
0
Vetor
Categorias: 
[0, 1]
Indice 
1
Vetor
Categorias: 
[0, 1]
Indice 
1
Vetor
Categorias: 
[0, 1]
Indice 
1
Vetor
Categorias: 
[0, 1]
Indice 
1
Vetor
Categorias: 
[0, 1]
Indice 
0
Vetor
Categorias: 
[0, 1]
Indice 
0
Vetor
Categorias: 
[0, 1]
Indice 
0
Vetor
Categorias: 
[0, 1]
Indice 
1
Vetor
Categorias: 
[0, 1]
Indice 
0
Vetor
Categorias: 
[0, 1]
Indice 
0
Vetor
Categorias: 
[0, 1]
Indice 
0
Vetor
Categorias: 
[0, 1]
Indice 
1
Vetor
Categorias: 
[0, 1]
Indice 
1
Vetor
Categorias: 
[0, 1]
Indice 
1
Vetor
Categorias: 
[0, 1]
Indice 
0
Vetor
Categorias: 
[0, 1]
Indice 
1
Vetor
Categorias: 
[0, 1]
Indice 
0
Vetor
Categorias: 
[0, 1]
Indice 
0
Vetor
Categorias: 
[0, 1]
Indice 
0
Vetor
Categorias: 
[0, 1]
Indice 
0
Vetor
Categorias: 
[0, 1]
Indice 


Unnamed: 0,sobreviveu,classe_social,sexo,idade,parentes,dependentes,tarifa,embarque
0,"[1.0, 0.0]","[0.0, 0.0, 1.0]","[0.0, 1.0]",22.0,1,0,7.25,"[0.0, 1.0, 0.0]"
1,"[0.0, 1.0]","[1.0, 0.0, 0.0]","[1.0, 0.0]",38.0,1,0,71.2833,"[0.0, 0.0, 1.0]"
2,"[0.0, 1.0]","[0.0, 0.0, 1.0]","[1.0, 0.0]",26.0,0,0,7.925,"[0.0, 1.0, 0.0]"
3,"[0.0, 1.0]","[1.0, 0.0, 0.0]","[1.0, 0.0]",35.0,1,0,53.1,"[0.0, 1.0, 0.0]"
4,"[1.0, 0.0]","[0.0, 0.0, 1.0]","[0.0, 1.0]",35.0,0,0,8.05,"[0.0, 1.0, 0.0]"
6,"[1.0, 0.0]","[1.0, 0.0, 0.0]","[0.0, 1.0]",54.0,0,0,51.8625,"[0.0, 1.0, 0.0]"
7,"[1.0, 0.0]","[0.0, 0.0, 1.0]","[0.0, 1.0]",2.0,3,1,21.075,"[0.0, 1.0, 0.0]"
8,"[0.0, 1.0]","[0.0, 0.0, 1.0]","[1.0, 0.0]",27.0,0,2,11.1333,"[0.0, 1.0, 0.0]"
9,"[0.0, 1.0]","[0.0, 1.0, 0.0]","[1.0, 0.0]",14.0,1,0,30.0708,"[0.0, 0.0, 1.0]"
10,"[0.0, 1.0]","[0.0, 0.0, 1.0]","[1.0, 0.0]",4.0,1,1,16.7,"[0.0, 1.0, 0.0]"


In [39]:
'''
O próximo passo é normalizar os valores escalares. Vamos normalizar pela média, isto
é, vamos aplicar a seguinte transformação:

  Xnovo = (Xatual - Xmédio)/ (Xmax - Xmin)

'''
def normaliza_media(valores):
    media = np.mean(valores)
    minimo = np.min(valores)
    maximo = np.max(valores)
    return (valores - media)/(maximo-minimo)

In [40]:
df.idade = normaliza_media(df.idade)
df.head()

Unnamed: 0,sobreviveu,classe_social,sexo,idade,parentes,dependentes,tarifa,embarque
0,"[1.0, 0.0]","[0.0, 0.0, 1.0]","[0.0, 1.0]",-0.09603,1,0,7.25,"[0.0, 1.0, 0.0]"
1,"[0.0, 1.0]","[1.0, 0.0, 0.0]","[1.0, 0.0]",0.105025,1,0,71.2833,"[0.0, 0.0, 1.0]"
2,"[0.0, 1.0]","[0.0, 0.0, 1.0]","[1.0, 0.0]",-0.045766,0,0,7.925,"[0.0, 1.0, 0.0]"
3,"[0.0, 1.0]","[1.0, 0.0, 0.0]","[1.0, 0.0]",0.067327,1,0,53.1,"[0.0, 1.0, 0.0]"
4,"[1.0, 0.0]","[0.0, 0.0, 1.0]","[0.0, 1.0]",0.067327,0,0,8.05,"[0.0, 1.0, 0.0]"


In [41]:
df.parentes = normaliza_media(df.parentes)
df.head()

Unnamed: 0,sobreviveu,classe_social,sexo,idade,parentes,dependentes,tarifa,embarque
0,"[1.0, 0.0]","[0.0, 0.0, 1.0]","[0.0, 1.0]",-0.09603,0.097191,0,7.25,"[0.0, 1.0, 0.0]"
1,"[0.0, 1.0]","[1.0, 0.0, 0.0]","[1.0, 0.0]",0.105025,0.097191,0,71.2833,"[0.0, 0.0, 1.0]"
2,"[0.0, 1.0]","[0.0, 0.0, 1.0]","[1.0, 0.0]",-0.045766,-0.102809,0,7.925,"[0.0, 1.0, 0.0]"
3,"[0.0, 1.0]","[1.0, 0.0, 0.0]","[1.0, 0.0]",0.067327,0.097191,0,53.1,"[0.0, 1.0, 0.0]"
4,"[1.0, 0.0]","[0.0, 0.0, 1.0]","[0.0, 1.0]",0.067327,-0.102809,0,8.05,"[0.0, 1.0, 0.0]"


In [42]:
df.dependentes = normaliza_media(df.dependentes)
df.dependentes.head(10)

0    -0.072097
1    -0.072097
2    -0.072097
3    -0.072097
4    -0.072097
6    -0.072097
7     0.094569
8     0.261236
9    -0.072097
10    0.094569
Name: dependentes, dtype: float64

In [43]:
df.tarifa = normaliza_media(df.tarifa)
df.tarifa.head(10)

0    -0.053320
1     0.071665
2    -0.052002
3     0.036174
4    -0.051758
6     0.033758
7    -0.026335
8    -0.045740
9    -0.008776
10   -0.034875
Name: tarifa, dtype: float64

In [44]:
df.head()

Unnamed: 0,sobreviveu,classe_social,sexo,idade,parentes,dependentes,tarifa,embarque
0,"[1.0, 0.0]","[0.0, 0.0, 1.0]","[0.0, 1.0]",-0.09603,0.097191,-0.072097,-0.05332,"[0.0, 1.0, 0.0]"
1,"[0.0, 1.0]","[1.0, 0.0, 0.0]","[1.0, 0.0]",0.105025,0.097191,-0.072097,0.071665,"[0.0, 0.0, 1.0]"
2,"[0.0, 1.0]","[0.0, 0.0, 1.0]","[1.0, 0.0]",-0.045766,-0.102809,-0.072097,-0.052002,"[0.0, 1.0, 0.0]"
3,"[0.0, 1.0]","[1.0, 0.0, 0.0]","[1.0, 0.0]",0.067327,0.097191,-0.072097,0.036174,"[0.0, 1.0, 0.0]"
4,"[1.0, 0.0]","[0.0, 0.0, 1.0]","[0.0, 1.0]",0.067327,-0.102809,-0.072097,-0.051758,"[0.0, 1.0, 0.0]"


In [46]:
'''
Separando o vetor de classificação.
'''
labels = df.sobreviveu.values

In [47]:
'''
Após separar a coluna de classificação, podemos tirar ela do dataframe.
'''
df = df.drop(['sobreviveu'], axis=1)
df.head(10)

Unnamed: 0,classe_social,sexo,idade,parentes,dependentes,tarifa,embarque
0,"[0.0, 0.0, 1.0]","[0.0, 1.0]",-0.09603,0.097191,-0.072097,-0.05332,"[0.0, 1.0, 0.0]"
1,"[1.0, 0.0, 0.0]","[1.0, 0.0]",0.105025,0.097191,-0.072097,0.071665,"[0.0, 0.0, 1.0]"
2,"[0.0, 0.0, 1.0]","[1.0, 0.0]",-0.045766,-0.102809,-0.072097,-0.052002,"[0.0, 1.0, 0.0]"
3,"[1.0, 0.0, 0.0]","[1.0, 0.0]",0.067327,0.097191,-0.072097,0.036174,"[0.0, 1.0, 0.0]"
4,"[0.0, 0.0, 1.0]","[0.0, 1.0]",0.067327,-0.102809,-0.072097,-0.051758,"[0.0, 1.0, 0.0]"
6,"[1.0, 0.0, 0.0]","[0.0, 1.0]",0.306081,-0.102809,-0.072097,0.033758,"[0.0, 1.0, 0.0]"
7,"[0.0, 0.0, 1.0]","[0.0, 1.0]",-0.34735,0.497191,0.094569,-0.026335,"[0.0, 1.0, 0.0]"
8,"[0.0, 0.0, 1.0]","[1.0, 0.0]",-0.0332,-0.102809,0.261236,-0.04574,"[0.0, 1.0, 0.0]"
9,"[0.0, 1.0, 0.0]","[1.0, 0.0]",-0.196558,0.097191,-0.072097,-0.008776,"[0.0, 0.0, 1.0]"
10,"[0.0, 0.0, 1.0]","[1.0, 0.0]",-0.322218,0.097191,0.094569,-0.034875,"[0.0, 1.0, 0.0]"


In [48]:
'''
Agora precisamos transformar esse conjunto de dados em vetores, esses vetores, o que
na prática, é concatenar as colunas. Vamos criar uma função para isso:
'''
def vetorizar(classe_social, sexo, idade, parentes, dependentes, tarifa, embarque):
    return classe_social.tolist() + sexo.tolist() + [idade] + [parentes] + [dependentes] + [tarifa] + embarque.tolist()

In [49]:
entrada = [vetorizar(*_) for _ in df.values]


In [50]:
print(entrada)

[[0.0, 0.0, 1.0, 0.0, 1.0, -0.09603031787671788, 0.09719101123595505, -0.07209737827715355, -0.05331972373328396, 0.0, 1.0, 0.0], [1.0, 0.0, 0.0, 1.0, 0.0, 0.10502522371664728, 0.09719101123595505, -0.07209737827715355, 0.07166495408714868, 0.0, 0.0, 1.0], [0.0, 0.0, 1.0, 1.0, 0.0, -0.04576643247837659, -0.10280898876404494, -0.07209737827715355, -0.05200221147749218, 0.0, 1.0, 0.0], [1.0, 0.0, 0.0, 1.0, 0.0, 0.06732730966789131, 0.09719101123595505, -0.07209737827715355, 0.03617351616012832, 0.0, 1.0, 0.0], [0.0, 0.0, 1.0, 0.0, 1.0, 0.06732730966789131, -0.10280898876404494, -0.07209737827715355, -0.05175822772641962, 0.0, 1.0, 0.0], [1.0, 0.0, 0.0, 0.0, 1.0, 0.30608076531001244, -0.10280898876404494, -0.07209737827715355, 0.033758077024510044, 0.0, 1.0, 0.0], [0.0, 0.0, 1.0, 0.0, 1.0, -0.34734974486842435, 0.49719101123595505, 0.0945692883895131, -0.026335120864659646, 0.0, 1.0, 0.0], [0.0, 0.0, 1.0, 1.0, 0.0, -0.03320046112879127, -0.10280898876404494, 0.26123595505617975, -0.045740

In [51]:

def f():
    return (1,2,3,4)

a,b,c,d = f()
print(a)

1


In [52]:
a, b, c,d = f()

In [53]:
a, *_ = f()
print(a)
print(_)

1
[2, 3, 4]


In [54]:
entrada[:10]

[[0.0,
  0.0,
  1.0,
  0.0,
  1.0,
  -0.09603031787671788,
  0.09719101123595505,
  -0.07209737827715355,
  -0.05331972373328396,
  0.0,
  1.0,
  0.0],
 [1.0,
  0.0,
  0.0,
  1.0,
  0.0,
  0.10502522371664728,
  0.09719101123595505,
  -0.07209737827715355,
  0.07166495408714868,
  0.0,
  0.0,
  1.0],
 [0.0,
  0.0,
  1.0,
  1.0,
  0.0,
  -0.04576643247837659,
  -0.10280898876404494,
  -0.07209737827715355,
  -0.05200221147749218,
  0.0,
  1.0,
  0.0],
 [1.0,
  0.0,
  0.0,
  1.0,
  0.0,
  0.06732730966789131,
  0.09719101123595505,
  -0.07209737827715355,
  0.03617351616012832,
  0.0,
  1.0,
  0.0],
 [0.0,
  0.0,
  1.0,
  0.0,
  1.0,
  0.06732730966789131,
  -0.10280898876404494,
  -0.07209737827715355,
  -0.05175822772641962,
  0.0,
  1.0,
  0.0],
 [1.0,
  0.0,
  0.0,
  0.0,
  1.0,
  0.30608076531001244,
  -0.10280898876404494,
  -0.07209737827715355,
  0.033758077024510044,
  0.0,
  1.0,
  0.0],
 [0.0,
  0.0,
  1.0,
  0.0,
  1.0,
  -0.34734974486842435,
  0.49719101123595505,
  0.09456

In [55]:
'''
Salvando os resultados para realizar a análise.
'''
np.savetxt("/home/entrada_treino.csv", entrada, delimiter=',')

In [56]:
np.savetxt("/home/labels.csv", labels.tolist(), delimiter=',')

In [57]:
import warnings
warnings.filterwarnings('ignore')



In [58]:
'''
Aqui vamos criar um modelo baseado no conjunto de vizinhos mais próximos. Vamos
usar a biblioteca scikitlearn, ela possui algumas implementações do algoritmo. O
primeiro passo é importar o que vamos precisar para o trabalho.
'''
import numpy as np
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
#from bokeh.plotting import figure, show, output_notebook

In [59]:
x = np.loadtxt("/home/entrada_treino.csv", delimiter=',')
y = np.loadtxt("/home/labels.csv", delimiter=',')

In [60]:
y

array([[1., 0.],
       [0., 1.],
       [0., 1.],
       ...,
       [0., 1.],
       [0., 1.],
       [1., 0.]])

In [61]:
#cria um modelo para classificação usando KNN com k=5
model = KNeighborsClassifier(n_neighbors=5)

In [62]:
'''
Com o modelo criado, o treinamento é simples, basta usar a função fit referenciando os
vetores de entrada e os vetores com a classe selecionada. Vamos separar 70% dos dados
para treino e os outros 30% para validação. Primeiro, descobrimos quanto é 70% dos
dados de treino:
'''
tamanho_treino = int(x.shape[0]*0.7)
tamanho_treino


498

In [63]:
x.shape[0] #linhas

712

In [64]:
x.shape[1] #colunas

12

In [65]:
#Agora o que fazemos é separar para treino os dados até o índice tamanho_treino:

x_t = x[:tamanho_treino]
y_t = y[:tamanho_treino]

In [66]:
#Agora separamos a partir de tamanho_treino para validação
x_v = x[tamanho_treino:]
y_v = y[tamanho_treino:]

In [67]:
#Agora criamos o modelo usando os dados de treino.
model.fit(x_t, y_t)

KNeighborsClassifier()

In [68]:
'''
Vamos avaliar como o modelo performa nos dados de validação, ou seja, nos dados que
ele ainda não conhece. Calculando a acurácia do modelo
'''
model.score(x_v, y_v)

0.7850467289719626

In [None]:
# Exemplo da aplicação da função OneHot utilizando a biblioteca OneHotEncoder

In [None]:
cores = ['preto', 'preto', 'azul', 'vermelho', 'azul', 'rosa']

#Aplicando label_encoder
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
valores_numericos = label_encoder.fit_transform(cores)
print(valores_numericos)

[1 1 0 3 0 2]


In [None]:
set(valores_numericos)

In [None]:
#One Hot Encoding
from sklearn.preprocessing import OneHotEncoder
onehot_encoder = OneHotEncoder(sparse=False) #sparse=False gera matriz de vetores

# transforma a lista de valores em uma lista de 1 dimensão
inteiros = valores_numericos.reshape(len(valores_numericos),1)
inteiros

array([[1],
       [1],
       [0],
       [3],
       [0],
       [2]])

In [None]:
#Passa os valores para o objeto onehot_encoder fazer a transformação.
vetores_binarios = onehot_encoder.fit_transform(inteiros)
print(cores)
print("_______________________________________________")
print(vetores_binarios)

['preto', 'preto', 'azul', 'vermelho', 'azul', 'rosa']
_______________________________________________
[[0. 1. 0. 0.]
 [0. 1. 0. 0.]
 [1. 0. 0. 0.]
 [0. 0. 0. 1.]
 [1. 0. 0. 0.]
 [0. 0. 1. 0.]]


In [69]:
# Outra maneira de remover os valores NaN

from numpy import NaN
import pandas as pd

matrix = pd.DataFrame([1,2,3,4,NaN], columns=['Number'], dtype='float64')
# Remove NaN in column 'Number'
matrix['Number'][~matrix['Number'].isnull()]

0    1.0
1    2.0
2    3.0
3    4.0
Name: Number, dtype: float64