# Exemplos de Classificação em Ruby

### Notebook de Rubens Minoru Andako Bueno
#### [VAGAS.com](http://www.vagas.com.br/)

## Sumário

2. [Bibliotecas](#Bibliotecas)

3. [Desafio](#Desafio)

4. [Questões](#Questões)

5. [Passo 1: Visualizando os dados](#Passo-1:-Visualizando-os-dados)

6. [Passo 2: Pré-processamento](#Passo-2:-Pré-processamento)

7. [Passo 3: Classificação](#Passo-3:-Classificação)

## Bibliotecas

[[ Volte ao topo ]](#Sumário)

Os principais pacotes que nós iremos usar são:

* **daru**: Biblioteca para armazenamento, analise, manipulação e visualização de dados em Ruby.
* **nyaplot**: Biblioteca para gerar gráficos interativos em Ruby.
* **decisiontree**: Biblioteca que implementa o algoritmo ID3 (ganho de informação) para aprendizado de árvores de decisão.

## Desafio

[[ Volte ao topo ]](#Sumário)

Quais são os **atributos**?
- **sepal length**: Comprimento da sépala
- **sepal width**: Largura da sépala
- **petal length**: Comprimento da pétala
- **petal width**: Largura da pétala

![Descrição dos atributos](iris_with_labels.jpg)

Qual a **resposta**?
- **class**: Espécie da flor.

![Tipos de Íris](iris_types.png)

Vamos dar uma olhada nos dados:

In [2]:
require 'daru'

iris_data = Daru::DataFrame.from_csv('iris-data.csv')
iris_data.head(5)

"if(window['d3'] === undefined ||\n   window['Nyaplot'] === undefined){\n    var path = {\"d3\":\"http://d3js.org/d3.v3.min\",\"downloadable\":\"http://cdn.rawgit.com/domitry/d3-downloadable/master/d3-downloadable\"};\n\n\n\n    var shim = {\"d3\":{\"exports\":\"d3\"},\"downloadable\":{\"exports\":\"downloadable\"}};\n\n    require.config({paths: path, shim:shim});\n\n\nrequire(['d3'], function(d3){window['d3']=d3;console.log('finished loading d3');require(['downloadable'], function(downloadable){window['downloadable']=downloadable;console.log('finished loading downloadable');\n\n\tvar script = d3.select(\"head\")\n\t    .append(\"script\")\n\t    .attr(\"src\", \"http://cdn.rawgit.com/domitry/Nyaplotjs/master/release/nyaplot.js\")\n\t    .attr(\"async\", true);\n\n\tscript[0][0].onload = script[0][0].onreadystatechange = function(){\n\n\n\t    var event = document.createEvent(\"HTMLEvents\");\n\t    event.initEvent(\"load_nyaplot\",false,false);\n\t    window.dispatchEvent(event);\n\t

Daru::DataFrame(5x5),Daru::DataFrame(5x5),Daru::DataFrame(5x5),Daru::DataFrame(5x5),Daru::DataFrame(5x5),Daru::DataFrame(5x5)
Unnamed: 0_level_1,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


## Questões

[[ Volte ao topo ]](#Sumário)

Vamos fingir que você trabalha em uma empresa que deseja desenvolver um aplicativo voltado para amantes e que ajude a identificar o tipo de íris baseado somente em medidas fáceis que podem ser tiradas por um leigo.

Vamos primeiro buscar responder as seguintes perguntas:

* Existe relação entre as medidas e o tipo da flor?
* Existe algo errado dentro dos dados?
* É possível criar um modelo capaz de descobrir a espécie apenas com essas medidas?
* Com quanta certeza podemos prever?

## Passo 1: Visualizando os dados

[[ Volte ao topo ]](#Sumário)

In [3]:
iris_data.describe

Daru::DataFrame(5x4),Daru::DataFrame(5x4),Daru::DataFrame(5x4),Daru::DataFrame(5x4),Daru::DataFrame(5x4)
Unnamed: 0_level_1,petal_length_cm,petal_width_cm,sepal_length_cm,sepal_width_cm
count,150.0,145.0,150.0,150.0
mean,3.758666666666669,1.2365517241379318,5.644626666666667,3.054666666666668
std,1.7644204199522615,0.755058293656803,1.312781403756626,0.4331229914551633
min,1.0,0.1,0.055,2.0
max,6.9,2.5,7.9,4.4


Vamos visualizar esses dados de uma forma mais gráfica:

In [4]:
require 'nyaplot'

iris_data_valid = iris_data.clone_only_valid.to_nyaplotdf
graphic_colors = Nyaplot::Colors.qual

"rgb(251,180,174)","rgb(179,205,227)","rgb(204,235,197)","rgb(222,203,228)","rgb(254,217,166)","rgb(255,255,204)","rgb(229,216,189)","rgb(253,218,236)","rgb(242,242,242)"
,,,,,,,,


In [5]:
plot = Nyaplot::Plot.new
sc = plot.add_with_df(iris_data_valid, :scatter, :petal_length_cm, :petal_width_cm)
plot.x_label("Petal Length")
plot.y_label("Petal Width")
sc.color(graphic_colors)
sc.fill_by(:class)
plot.show()

In [6]:
iris_data_valid = iris_data.clone_only_valid.to_nyaplotdf

plot = Nyaplot::Plot.new
sc = plot.add_with_df(iris_data_valid, :scatter, :petal_length_cm, :sepal_length_cm)
plot.x_label("Petal Length")
plot.y_label("Sepal Length")
sc.color(graphic_colors)
sc.fill_by(:class)
plot.show()

Baseado nas visualizações, podemos concluir:

1. Existem cinco classes enquanto deveria existir apenas três

2. Muitas entradas de `sepal_width_cm` para `Iris-setosa` são próximas de zero.

3. Muitas entradas de `sepal_length_cm` para `Iris-versicolor` são próximas de zero.

4. Alguns dados estão faltando.

## Passo 2: Pré-processamento

[[ Volte ao topo ]](#Sumário)

> Existem cinco classes enquanto deveria existir apenas três

Vamos arrumar o primeiro problema com os dados:

In [7]:
iris_data['class'].to_a.uniq()

["Iris-setosa", "Iris-setossa", "Iris-versicolor", "versicolor", "Iris-virginica"]

In [8]:
iris_data['class'] = iris_data.collect(:row) do |row|
  if row['class'] == 'versicolor'
    'Iris-versicolor'
  elsif row['class'] == 'Iris-setossa'
    'Iris-setosa'
  else
    row['class']
  end
end

Daru::Vector(150),Daru::Vector(150).1
0,Iris-setosa
1,Iris-setosa
2,Iris-setosa
3,Iris-setosa
4,Iris-setosa
5,Iris-setosa
6,Iris-setosa
7,Iris-setosa
8,Iris-setosa
9,Iris-setosa


> Muitas entradas de `sepal_width_cm` para `Iris-setosa` são próximas de zero.

No caso das entradas anômalas para `Iris-setosa`, as medidas foram erroneamente obtidas. O mais prático no momento é simplesmente remover esses dados:

In [9]:
iris_data = iris_data.where(iris_data['class'].not_eq('Iris-setosa').or(iris_data['sepal_width_cm'].gteq(2.5)))

Daru::DataFrame(149x5),Daru::DataFrame(149x5),Daru::DataFrame(149x5),Daru::DataFrame(149x5),Daru::DataFrame(149x5),Daru::DataFrame(149x5)
Unnamed: 0_level_1,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5,3.4,1.5,,Iris-setosa
8,4.4,2.9,1.4,,Iris-setosa
9,4.9,3.1,1.5,,Iris-setosa


In [10]:
iris_data_valid = iris_data.clone_only_valid

hash_iris = iris_data_valid.where(iris_data['class'].eq('Iris-setosa'))['sepal_width_cm'].value_counts.to_h

plot = Nyaplot::Plot.new
sc = plot.add(:scatter, hash_iris.keys, hash_iris.values)
plot.x_label("Sepal Width")
plot.y_label("Count")
plot.show()

> Muitas entradas de `sepal_length_cm` para `Iris-versicolor` são próximas de zero.

Alguns dos valores de `sepal_length_cm` da `Iris-versicolor` estão muito próximos de zero, como se eles estivessem sendo medidos em metros, invés de centímetros, então vamos corrigir esses dados.

In [11]:
iris_data.where(iris_data['class'].eq('Iris-versicolor').and(iris_data['sepal_length_cm'].lt(1.0)))

Daru::DataFrame(5x5),Daru::DataFrame(5x5),Daru::DataFrame(5x5),Daru::DataFrame(5x5),Daru::DataFrame(5x5),Daru::DataFrame(5x5)
Unnamed: 0_level_1,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,class
77,0.067,3.0,5.0,1.7,Iris-versicolor
78,0.06,2.9,4.5,1.5,Iris-versicolor
79,0.057,2.6,3.5,1.0,Iris-versicolor
80,0.055,2.4,3.8,1.1,Iris-versicolor
81,0.055,2.4,3.7,1.0,Iris-versicolor


In [12]:
iris_data['sepal_length_cm'] = iris_data.collect(:row) do |row|
  if row['class'] == 'Iris-versicolor' && row['sepal_length_cm'] < 1.0
    row['sepal_length_cm'] * 100.0
  else
    row['sepal_length_cm']
  end
end

Daru::Vector(149),Daru::Vector(149).1
0,5.1
1,4.9
2,4.7
3,4.6
4,5
5,5.4
6,4.6
7,5
8,4.4
9,4.9


> Alguns dados estão faltando.

Muitos dos `petal_width_cm` da `Iris-setosa` está entre 0.2 e 0.3, então no momento o mais prático será preencher os valores faltantes com a média das outras observações:

In [13]:
average_petal_width_cm = iris_data.where(iris_data['class'].eq('Iris-setosa'))['petal_width_cm'].mean()

iris_data['petal_width_cm'] = iris_data.collect(:row) do |row|
  if row['class'] == 'Iris-setosa' and row['petal_width_cm'] == nil
    average_petal_width_cm
  else
    row['petal_width_cm']
  end
end

Daru::Vector(149),Daru::Vector(149).1
0,0.2
1,0.2
2,0.2
3,0.2
4,0.2
5,0.4
6,0.3
7,0.24999999999999997
8,0.24999999999999997
9,0.24999999999999997


Vamos visualizar como ficam os gráficos agora:

In [14]:
iris_data_valid = iris_data.clone_only_valid.to_nyaplotdf

plot = Nyaplot::Plot.new
sc = plot.add_with_df(iris_data_valid, :scatter, :petal_length_cm, :sepal_length_cm)
plot.x_label("Petal Length")
plot.y_label("Sepal Length")
sc.color(graphic_colors)
sc.fill_by(:class)
plot.show()

## Passo 3: Classificação

[[ Volte ao topo ]](#Sumário)

Todo esse trabalho e nós ainda não modelamos os dados. Mas lembre-se: **Dados ruins levam a modelos ruins.**. Sempre visualize seus dados.

<hr />
Classificadores baseados em Árvores de Decisão são simples em teoria. Na forma mais simples, esses classificadores perguntam uma série de questões Sim/Não sobre o dados, até que ele consiga classificar os dados perfeitamente ou simplesmente não consiga mais diferenciar os dados.

Mas antes de treinar o classificador, devemos separar os dados em:

- **Conjunto de treinamento** subconjunto aleatório de dados usados para o treinamento

- **Conjunto de teste** subconjunto aleatório de dados usados para avaliar o modelo

Vamos separar nossos dados então:

In [17]:
require 'decisiontree'

def split_validation(dataset, split = 0.8)
  training_size = (dataset.length * split).floor
  
  [dataset[(0..training_size)], dataset[(training_size+1..dataset.length)]]
end

dataset = iris_data.map(:row) { |a| a.to_a }.shuffle
training_set, test_set = split_validation(dataset) 

[[[5.2, 3.5, 1.5, 0.2, "Iris-setosa"], [6.9, 3.2, 5.7, 2.3, "Iris-virginica"], [6.5, 3.2, 5.1, 2, "Iris-virginica"], [5.1, 3.8, 1.9, 0.4, "Iris-setosa"], [5.7, 2.9, 4.2, 1.3, "Iris-versicolor"], [5.6, 2.5, 3.9, 1.1, "Iris-versicolor"], [5.6, 3, 4.1, 1.3, "Iris-versicolor"], [6.4, 3.2, 4.5, 1.5, "Iris-versicolor"], [5.5, 2.4, 3.7, 1, "Iris-versicolor"], [7.3, 2.9, 6.3, 1.8, "Iris-virginica"], [6.1, 2.8, 4, 1.3, "Iris-versicolor"], [6.4, 2.8, 5.6, 2.1, "Iris-virginica"], [5.8, 2.7, 5.1, 1.9, "Iris-virginica"], [6.2, 3.4, 5.4, 2.3, "Iris-virginica"], [6.7, 3.1, 4.7, 1.5, "Iris-versicolor"], [6.8, 3, 5.5, 2.1, "Iris-virginica"], [5.5, 2.4, 3.8, 1.1, "Iris-versicolor"], [5.6, 3, 4.5, 1.5, "Iris-versicolor"], [6, 3, 4.8, 1.8, "Iris-virginica"], [5.3, 3.7, 1.5, 0.2, "Iris-setosa"], [6.8, 2.8, 4.8, 1.4, "Iris-versicolor"], [6.1, 2.9, 4.7, 1.4, "Iris-versicolor"], [7.2, 3.6, 6.1, 2.5, "Iris-virginica"], [6.0, 2.9, 4.5, 1.5, "Iris-versicolor"], [6.1, 3, 4.9, 1.8, "Iris-virginica"], [5.4, 3, 4.5,

Agora, treinamos o classificador com o conjunto de treinamento e vemos no conjunto de testes, quantos acertos ele obteve:

In [18]:
def precision(dataset, model)
  truth_table = dataset.map do |test|
    value = test[-1]
    predict = model.predict(test)

    puts("#{predict} (Actual: #{value}))")
    value == predict
  end.group_by { |x| x }.each_with_object({}) { |(k, v), acc| acc[k] = v.count }
  
  truth_table[true].to_f / (truth_table[false].to_f + truth_table[true].to_f)
end

attributes = {
  sepal_length_cm: :continuous,
  sepal_width_cm: :continuous,
  petal_length_cm: :continuous,
  petal_width_cm: :continuous
}

dec_tree = DecisionTree::ID3Tree.new(attributes.keys.map(&:to_s), training_set, 'Iris-setosa', attributes)
dec_tree.train

precision(test_set, dec_tree)

Iris-virginica (Actual: Iris-virginica))
Iris-setosa (Actual: Iris-setosa))
Iris-setosa (Actual: Iris-setosa))
Iris-setosa (Actual: Iris-setosa))
Iris-virginica (Actual: Iris-virginica))
Iris-virginica (Actual: Iris-virginica))
Iris-virginica (Actual: Iris-virginica))
Iris-setosa (Actual: Iris-setosa))
Iris-virginica (Actual: Iris-virginica))
Iris-versicolor (Actual: Iris-versicolor))
Iris-virginica (Actual: Iris-virginica))
Iris-virginica (Actual: Iris-virginica))
Iris-setosa (Actual: Iris-setosa))
Iris-versicolor (Actual: Iris-versicolor))
Iris-versicolor (Actual: Iris-versicolor))
Iris-versicolor (Actual: Iris-virginica))
Iris-setosa (Actual: Iris-setosa))
Iris-versicolor (Actual: Iris-versicolor))
Iris-virginica (Actual: Iris-virginica))
Iris-setosa (Actual: Iris-setosa))
Iris-virginica (Actual: Iris-virginica))
Iris-versicolor (Actual: Iris-versicolor))
Iris-virginica (Actual: Iris-virginica))
Iris-versicolor (Actual: Iris-versicolor))
Iris-virginica (Actual: Iris-virginica))
Iris

0.9655172413793104

**Muito bem!** Nosso modelo consegue atingir até 97% de precisão sem muito esforço. Dado que os conjuntos são aleatórios, nosso modelo pode atingir algo entre 80% e 100% de precisão.