In [1]:
from sklearn import datasets
import pandas as pd
import numpy as np


In [2]:
iris = datasets.load_iris()
dados = pd.DataFrame(data = np.c_[iris['data'], iris['target']], columns= iris['feature_names'] + ['target'])


## **Modelo n.1**

Função para a árvore de decisão mais complexa, onde irá retornar a classificação das novas flores.

In [3]:
def arvore_complexa(p_length, p_width, s_width):
    if p_length <= 2.45:
        return 0
    else:   
        if p_width <= 1.75:
            if p_length <= 4.95:
                if p_width <= 1.65:
                    return 1
                else:
                    return 2
            else:
                if p_width <= 1.55:
                    return 2
                else:
                    return 1
        else:
            if p_length <= 4.85:
                if s_width <= 3.1:
                    return 2
                else:
                    return 1
            else:
                return 2


### *Classificação do modelo n.1*

*As flores foram classificadas da seguinte forma:*
- 0 : setosa
- 1 : versicolor
- 2 : virginica

Foi utilizado um laço de repetição para a criação de um dataframe (df_modelo_um) com uma coluna chamada 'Modelo1'. A partir desse novo dataframe, foram comparados os resultados das estimativas da função 'arvore_complexa' para classificar as iris que foram adicionadas em 'df_modelo_um'.

Posteriormente, houve a comparação entre as colunas 'target' do datafreme principal, com a coluna 'Modelo1' do novo dataframe. Os resultados corretos das previsões das iris foram utilizados para o calculo da acuracia do modelo.


In [4]:
lista = []
df_modelo_um = dados
df_modelo_um['Modelo1'] = 0

for i in range(len(dados['target'])):
    lista.append(arvore_complexa(dados['petal length (cm)'][i], dados['petal width (cm)'][i], dados['sepal width (cm)'][i]))

df_modelo_um['Modelo1'] = lista
acertos = df_modelo_um['Modelo1'] == dados['target']
acuracia = len(dados[acertos]) / len(dados['target'])

erros = df_modelo_um['Modelo1'] != dados['target']
erros = dados[erros]

print(f'A função para classificar as iris obteve um resultado em sua acuracia de {acuracia:.2f}% para definir as classes corretamente.')
print('Os erros podem ser visualizados abaixo:')
erros


A função para classificar as iris obteve um resultado em sua acuracia de 0.99% para definir as classes corretamente.
Os erros podem ser visualizados abaixo:


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,Modelo1
129,7.2,3.0,5.8,1.6,2.0,1


Os erros da estimativa da classificação foram adicionados a um filtro (erros) para melhor visualização das iris que a função NÃO acertou. A coluna 'target' indica qual o tipo correto da iris, enquanto a coluna 'Modelo1' indica a previsão do modelo em classificar o tipo da iris; que nesse caso especifico foi a iris-virginica.

## **Modelo n.2**

Função para a árvore de decisão mais simples, onde irá retornar a classificação das novas flores.

In [5]:
def arvore_simples(dados):

    if dados['petal length (cm)'] <= 2.45:
        flor = 0
    elif dados['petal width (cm)'] <= 1.75:
        flor = 1
    else:
        flor = 2
    return flor


### *Classificação do modelo n.2*

Foi utilizado o método '.apply()' para a criação de um dataframe (df_modelo_dois) com uma coluna chamada 'Modelo2'. A partir desse novo dataframe, foram comparados os resultados das estimativas da função 'arvore_simples' em classificar as iris que foram adicionadas em 'df_modelo_dois'.

Como no 'Modelo1', houve a comparação entre as colunas 'target' do datafreme principal, com a coluna 'Modelo2' do novo dataframe. Os resultados corretos das previsões das iris foram utilizados para o calculo da acuracia do modelo.


In [6]:
df_modelo_dois = dados
df_modelo_dois['Modelo2'] = dados.apply(arvore_simples, axis = 1)

acertos_2 = df_modelo_um['Modelo2'] == dados['target']
acuracia_2 = len(dados[acertos_2]) / len(dados['target'])

erros_2 = df_modelo_dois['Modelo2'] != dados['target']
erros_2 = dados[erros_2]

print(f'A função para classificar as iris obteve um resultado em sua acuracia de {acuracia_2:.2f}% para definir as classes corretamente.')
print('Os erros podem ser visualizados abaixo:')
erros_2


A função para classificar as iris obteve um resultado em sua acuracia de 0.96% para definir as classes corretamente.
Os erros podem ser visualizados abaixo:


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,Modelo1,Modelo2
70,5.9,3.2,4.8,1.8,1.0,1,2
106,4.9,2.5,4.5,1.7,2.0,2,1
119,6.0,2.2,5.0,1.5,2.0,2,1
129,7.2,3.0,5.8,1.6,2.0,1,1
133,6.3,2.8,5.1,1.5,2.0,2,1
134,6.1,2.6,5.6,1.4,2.0,2,1


Da mesma forma do 'Modelo1', erros da estimativa da classificação do 'Modelo2' foram adicionados a um filtro (erros) para melhor visualização das iris que a função NÃO acertou. A coluna 'target' indica qual o tipo correto da iris, enquanto a coluna 'Modelo2' indica a previsão do modelo em classificar o tipo da iris; que nesse caso também errou em classificar as iris-virginica.

## **Conclusões das analises dos modelos**

##### ***Qual o tipo de flor que possui mais erros nas classificações?***

As iris com maior percentual de erros foram as **iris-virginica**. O *'Modelo1'* errou em classificar apenas **1** iris-virginica, mas o *'Modelo2'* errou em classificar **6** iris-virginicas.

##### ***Qual o modelo se saiu melhor em classificação as flores?***

O melhor modelo foi escolhido baseado na metrica de avaliação da acuracia; os resultados dos modelos foram:

**Acurácia do 'Modelo1':**
- *0.99%*

**Acurácia do 'Modelo2':**
- *0.96%*

Sendo assim, o modelo que mais se aproximou de uma acurácia de 1.00% foi o 'Modelo1' e foi escolhido como o melhor modelo a ser utilizado.