In [1]:
# importando a classe pandas, criando um objeto dataframe com os dados no arquivo 'iris.csv', e adicionando uma coluna em branco chamada 'previsao'
import pandas as pd

df = pd.read_csv('iris.csv')
df['previsao'] = ''

# armazenando na variável 'columns' as colunas que apresentam os dados de cada espécie
columns = ['comprimento_sepala', 'largura_sepala',
           'comprimento_petala', 'largura_petala']

df.shape


(150, 6)

## Método de Classificação

Primeiramente, é necessário determinar o método de classificação das espécies. Isso é feito com base na coluna que apresenta a menor variação em seus dados.

A variação, nessa lógica, é determinado pelo maior dado na coluna subitraído do menor dado da coluna. Com isso, o menor desses resultados indica a coluna que apresenta a menor variação em seus dados.

Neste exemplo, a coluna que apresenta a menor variação é a coluna *largura_petala*. Note que a variação da coluna *largura_petala* e *largura_sepala* são quase as mesmas, porém a coluna *largura_sepala* apresenta a maior variação no 5º casa decimal.


In [2]:
# percorre cada coluna com os dados de cada classe, subitrai o maior valor da coluna com o menor valor da coluna
# o resultado será a variação de dado de cada coluna

classification_columns = [{'classification_column': column, 'variation': df[column].max()-df[column].min()}
                          for column in columns]

# cria um novo dataframe com a variação de cada coluna
variation = pd.DataFrame(data=classification_columns)
print(variation)

# ordena a lista 'classification_columns' através da chave 'variation' dos dicionários dentro dela
# depois pega o valor da chave 'classification_column' do primeiro elemento da lista, que será a coluna com menor variação de dados
classification_columns.sort(key=lambda x: x['variation'])
classification_column = classification_columns[0].get('classification_column')


  classification_column  variation
0    comprimento_sepala        3.6
1        largura_sepala        2.4
2    comprimento_petala        5.9
3        largura_petala        2.4


## Média da coluna de classificação

Agora, para cada classe, faz o cálculo da média de suas respectivas colunas **largura_petala**.

Note que o método da média influencia na taxa de acerto no resultado final. Utilizando apenas a média comum, obteve-se uma taxa de acerto de 63,333%, contudo, ao se utilizar a média mediana, a taxa de acerto subiu para 76,0%.

para observar essa mudança de resultado, substitua no bloco de código abaixo a função **median()** pela função **mean()**.
Caso faça isso, Não esquecer de alterar manualmente as regras de classificação no bloco de código posterior.


In [3]:
# para cada coluna 'largura_petala' de cada classe, faz a média mediana de seus dados
# depois disso, concatena a média com uma Serie, que possue os dados da classe daquele dado

avg_list = [pd.concat([df[df['classe'] == classe][[classification_column]].median(
), pd.Series([classe], index=['classe'])]) for classe in df['classe'].unique()]
avg_df = pd.DataFrame(avg_list)

print(avg_df)


   largura_petala           classe
0             0.2      Iris-setosa
1             1.3  Iris-versicolor
2             2.0   Iris-virginica


In [4]:
# regras para fazer a previsão do modelo conforme a média dos dados da coluna 'largura_petala'
# caso tenha mudado a função de median() para mean(), adequar as regras no código a seguir

# todas as larguras de pétalas menor que 1.3 possuem uma probabilidade de ser 'Iris-setosa'
df.loc[df[classification_column] < 1.3, ['previsao']] = 'Iris-setosa'

# todas as larguras de pétalas maior ou igual a 1.3 e menor que 2.0 possuem uma probabilidade de ser 'Iris-versicolor'
df.loc[(df[classification_column] >= 1.3) & (
    df[classification_column] < 2.0), ['previsao']] = 'Iris-versicolor'

# todas as larguras de pétalas maior ou igual a 2.0 possuem uma probabilidade de ser 'Iris-virginica'
df.loc[df[classification_column] >= 2.0, ['previsao']] = 'Iris-virginica'


In [5]:

# taxa de acerto do modelo
# verificando quais linhas da coluna 'previsao' são iguais da coluna 'classe', e exibindo a taxa de acerto

df2 = df[df['classe'] == df['previsao']]
rate = 100*(df2['previsao'].count()/df['classe'].count())

print(f"\tTaxa de acerto: {rate}%")


	Taxa de acerto: 76.0%
