# Projeto 2

## Contexto
Imagine que você tenha uma empresa que vende flores de íris. Dessa forma, em algum momento as flores são colhidas e separadas para a venda. Porém, existem três espécies: Setosa, Versicolor e Virginica.<br>
Dado este contexto, surge a necessidade de identificar cada uma destas espécies para vendê-las de modo separado. Para isso, será utilizada uma máquina que captura as medidas das sépalas e pétalas das flores. A partir destas medidas, um modelo já treinado, por meio de dados históricos, irá classificar o tipo da espécie para a máquina separar corretamente.<br>
A técnica de machine learning utilizada para treinar o modelo de predição foi o modelo de Árvore de Decisão. Este modelo cria uma espécie de fluxograma para classificar as flores, por meio de suas medidas. No final do processo de desenvolvimento, dois modelos foram considerados para entrar em produção, os mesmos se diferem na altura da árvore de decisão criada. Para definir qual modelo será utilizado, novas flores serão separadas por meio dos dois modelos, e o modelo que tiver uma melhor performance será escolhido.

## Dicionário de dados
Variável  | Tipo | Unidade de Medida | Valores
----------|------|-------------------|--------
sepal length (cm) | Quantitativa continua | <center>cm | 4.3; 4.4; ... ; 7.9
sepal width (cm) | Quantitativa continua | <center>cm | 2.0; 2.2; ... ; 4.4
petal length (cm) | Quantitativa continua |<center>cm | 1.0; 1.1; ... ; 6.9
petal width (cm) | Quantitativa continua | <center>cm | 0.1; 0.2; ...; 2.5
<center>target | Quantitativa discreta | | <center>0,1,2



## Modelos e classificação

### Bibliotecas

As bibliotecas importadas são pandas, numpy e sklearn. Sklearn e numpy são utilizados exclusivamente para a importação dos dados das flores. A biblioteca pandas é utilizada para criação de um dataframe com os dados do dataset e sua manipulação.

In [1]:
from sklearn import datasets # Blioteca necessaria para importar o dataset iris
import pandas as pd # Biblioteca utilizada para manipulação dos dados de iris
import numpy as np # Blioteca necessaria para importar o dataset iris

### Implementação dos modelos

As funções de classificação são feitas baseadas nos modelos de *Decision Trees* apresentadas. As ramificações de uma arvore de decisão são facilmente representadas pela estrutura condicional "if", resultando em estruturas "if" contidas dentro de outras estruturas "if".<br>

A função 'modelo_1' utiliza a Árvore de Decisão 1 e a função 'modelo_2' utiliza a Árvore de Decisão 2. 

In [2]:
# Funções de classificação das flores, 0 = setosa, 1 = versicolor, 2 = virginica

def modelo_1(petal_length,petal_width,sepal_width):
  if petal_length <= 2.45:
    return 0

  elif petal_width <= 1.75:
    if petal_length <= 4.95:
      if petal_width <= 1.65:
        return 1
      else:
        return 2      

    elif petal_width <= 1.55:
      return 2
    
    else:
      return 1

  elif petal_length <= 4.85:
    if sepal_width <= 3.1:
      return 2
    else:
      return 1

  else:
    return 2


# Função modelo_2 é ajustada para utilização do método apply() do pandas

def modelo_2(x):
  if x['petal length (cm)'] <= 2.45:
    return 0

  elif x['petal width (cm)'] <= 1.75:
    return 1

  else:
    return 2


### Importação do dataset

As bibliotecas numpy e sklearn são utilizadas para importação dos dados de iris.

In [3]:
iris = datasets.load_iris()
dados = pd.DataFrame(data=np.c_[iris['data'], iris['target']],
                     columns= iris['feature_names'] + ['target'])

In [4]:
dados.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0
3,4.6,3.1,1.5,0.2,0.0
4,5.0,3.6,1.4,0.2,0.0


### Classificação pelo modelo 1

A função 'modelo_1' foi aplicada utilizando um laço de repetição. A estrutura de repetição "for" é utilizada para percorrer os valores do indice do Dataframe já que o indice é estrturado de forma linear. O indice varia de 0 até 149 com o intervalo de 1 entre seus elementos.<br>
O vetor "classificação_1" é utilizado para guardar os valores obtidos da função de classificação.<br>

Dentro do "for", a função 'modelo_1' é alimentada com dados do dataframe e a cada iteração temos a classificação para uma planta.<br>

Os valores da classificação são inseridos numa nova coluna chamada 'previsão_1' no dataframe.

In [5]:
classificação_1 = []

# Percorre todos os indices do dataframe

for i in dados.index:
  classificação_1.append(modelo_1(dados['petal length (cm)'][i],dados['petal width (cm)'][i],dados['sepal width (cm)'][i])) # Classifica linha a linha do Dataframe

dados['previsão_1'] = classificação_1
dados['previsão_1'].head()

0    0
1    0
2    0
3    0
4    0
Name: previsão_1, dtype: int64

In [6]:
dados['previsão_1'].value_counts()

1    51
0    50
2    49
Name: previsão_1, dtype: int64

### Classificação pelo modelo 2
A função 'modelo_2' foi aplicada utilizando o metodo "apply()" presente no pandas. O método "apply()" aplica uma função ao longo de todo um eixo (linha ou coluna) do dataframe.<br>

O vetor "classificação_2" é utilizado para guardar os valores obtidos da função de classificação.<br>

Os valores da classificação são inseridos numa nova coluna chamada 'previsão_2' no dataframe.

In [7]:
classificação_2 = dados.apply(modelo_2,axis = 1)
dados['previsão_2'] = classificação_2
dados['previsão_2'].head()

0    0
1    0
2    0
3    0
4    0
Name: previsão_2, dtype: int64

In [8]:
dados['previsão_2'].value_counts()

1    54
0    50
2    46
Name: previsão_2, dtype: int64

### Métrica de avaliação: Acurácia

A acurácia é uma boa indicação geral de como o modelo performou. A acuracia leva em conta o total de classificações corretas sobre o total de classificações.<br>

$Acuracia=\frac {Corretas}{Total}$ <br>

As classificações corretas são obtidas através de comparações entre os valores da coluna 'previsão_1' (e também 'previsão_2') em relação aos valores da coluna 'target', a quantidade de valores iguais indica o total de avaliações corretas de cada modelo. O metodo sum() do pandas é utilizado para somar o valor de todas as linhas, já que estamos tratando de valores booleanos (True ou False, que o Python interpreta como 1 ou 0) a soma será igual a contagem total de valores que obedecem a condição estabelecida.<br>

O total de avaliações pode ser adquirido de diversas formas, uma dessas formas é através do método count(), ao contar o numero de previsões realizadas temos o numero de classificações feitas. Com isso, basta uma divisão para definir o acurácia de cada um dos modelos.

In [9]:
print(f"O modelo classificou corretamente: {(dados['previsão_1'] == dados['target']).sum()} iris")
print(f"De um total de: {dados['previsão_1'].count()} iris")
acuracia_modelo1 = (dados['previsão_1'] == dados['target']).sum()/dados['previsão_1'].count()
print(f"A acurácia do modelo 1 é: {round(acuracia_modelo1,2)}\n\n--------------------- \n")

print(f"O modelo classificou corretamente: {(dados['previsão_2'] == dados['target']).sum()} iris")
print(f"De um total de: {dados['previsão_2'].count()} iris")
acuracia_modelo2 = (dados['previsão_2'] == dados['target']).sum()/dados['previsão_2'].count()
print(f"A acurácia do modelo 2 é: {round(acuracia_modelo2,2)}")

O modelo classificou corretamente: 149 iris
De um total de: 150 iris
A acurácia do modelo 1 é: 0.99

--------------------- 

O modelo classificou corretamente: 144 iris
De um total de: 150 iris
A acurácia do modelo 2 é: 0.96


### Dificuldade de classificação

Quando refletimos sobre os dados e a estrutura dos modelos de classificação podemos tirar algumas conclusões. Por exemplo, as Iris Setosa apresentam os menores valores de 'petal_length (cm)' sendo possível as diferenciar completamente do resto das amostras. Dessa forma, podemos imaginar que a performance do modelo varie de acordo com a especie de iris. <br>
As plantas avaliadas corretamente são obtidas quando filtramos pelas flores que apresentem o mesmo valor de 'previsão' e 'target'.<br>
Das flores classificadas corretamente e do numero total de flores de determinada espécie, é possivel descobrir a flor com pior taxa de acerto entre os modelos.

In [10]:
print(f"Total 'target' == 0 (setosa) = {dados['target'][dados['target'] == 0].count()}\n")
print("Para o modelo 1:")
print(f"Classificações totais: {dados.query('previsão_1 == 0')['previsão_1'].count()}")
print(f"Classificações corretas: {dados.query('previsão_1 == 0 & target == 0')['previsão_1'].count()}\n")
print("Para o modelo 2:")
print(f"Classificações totais: {dados.query('previsão_2 == 0')['previsão_2'].count()}")
print(f"Classificações corretas: {dados.query('previsão_2 == 0 & target == 0')['previsão_2'].count()}")

Total 'target' == 0 (setosa) = 50

Para o modelo 1:
Classificações totais: 50
Classificações corretas: 50

Para o modelo 2:
Classificações totais: 50
Classificações corretas: 50


In [11]:
print(f"Total 'target' == 1 (versicolor) = {dados['target'][dados['target'] == 1].count()}\n")
print("Para o modelo 1:")
print(f"Classificações totais: {dados.query('previsão_1 == 1')['previsão_1'].count()}")
print(f"Classificações corretas: {dados.query('previsão_1 == 1 & target == 1')['previsão_1'].count()}\n")
print("Para o modelo 2:")
print(f"Classificações totais: {dados.query('previsão_2 == 1')['previsão_2'].count()}")
print(f"Classificações corretas: {dados.query('previsão_2 == 1 & target == 1')['previsão_2'].count()}")

Total 'target' == 1 (versicolor) = 50

Para o modelo 1:
Classificações totais: 51
Classificações corretas: 50

Para o modelo 2:
Classificações totais: 54
Classificações corretas: 49


In [12]:
print(f"Total 'target' == 2 (virginica) = {dados['target'][dados['target'] == 2].count()}\n")
print("Para o modelo 1:")
print(f"Classificações totais: {dados.query('previsão_1 == 2')['previsão_1'].count()}")
print(f"Classificações corretas: {dados.query('previsão_1 == 2 & target == 2')['previsão_1'].count()}\n")
print("Para o modelo 2:")
print(f"Classificações totais: {dados.query('previsão_2 == 2')['previsão_2'].count()}")
print(f"Classificações corretas: {dados.query('previsão_2 == 2 & target == 2')['previsão_2'].count()}")

Total 'target' == 2 (virginica) = 50

Para o modelo 1:
Classificações totais: 49
Classificações corretas: 49

Para o modelo 2:
Classificações totais: 46
Classificações corretas: 45


Como esperado, os erros estão concentrados nas Iris Versicolor e Virginica. Para descobrir a flor com mais erros temos que verificar qual flor possui classificações diferentes de seu valor real.<br>

A lógica aplicada é simples, entre as flores com certo 'target' basta encontrar quantas possuem um valor de 'target' DIFERENTE do valor de 'previsão', assim podemos descobrir quantas flores mal classificadas estão presentes em cada especies. Lembrando que a Iris Setosa é excluida desta analise já que ambos os modelos classificam bem a especie.

In [13]:
print(f"Total de Versicolor mal classificadas (modelo 1): {dados.query('previsão_1 != target & target == 1')['target'].count()}")
print(f"Total de Virginica mal classificadas (modelo 1): {dados.query('previsão_1 != target & target == 2')['target'].count()}\n")
print(f"Total de Versicolor mal classificadas (modelo 2): {dados.query('previsão_2 != target & target == 1')['target'].count()}")
print(f"Total de Virginica mal classificadas (modelo 2): {dados.query('previsão_2 != target & target == 2')['target'].count()}")

Total de Versicolor mal classificadas (modelo 1): 0
Total de Virginica mal classificadas (modelo 1): 1

Total de Versicolor mal classificadas (modelo 2): 1
Total de Virginica mal classificadas (modelo 2): 5


Podemos concluir que os dois modelos possuem mais problemas em classificar a Iris Virgnica.

### Conclusão: Qual o melhor modelo

Com todas as comparações apresentadas, o modelo 1 apresenta melhores resultados relacionados a performance. Sua acurácia é de 0.99 enquanto o modelo 2 entrega uma acurácia de 0.96. <br>

Quando analisamos a capacidade dos modelos de classificar cada uma das especies, também notamos um melhor resultado no modelo 1, que apesar de cometer erros em sua classificação, apresenta um resultado muito superior quando comparado ao modelo 2. Sendo assim, recomenda-se a aplicação do modelo 1.