# Implementação Centroide

In [10]:
import pandas as pd
import numpy as np
from random import randint
import matplotlib.pyplot as plt
import matplotlib.ticker as mtick
import warnings
import seaborn as sns
warnings.filterwarnings('ignore')

ds = pd.read_csv('dataset/iris.csv')

ds.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


### Funções auxiliares
- Euclidian distance

In [29]:
def euclidian_distance(tuple_one, tuple_two):
    ed = 0
    
    for t1, t2 in zip(tuple_one, tuple_two):
        ed += (t1-t2) ** 2
        print(t2)
    return np.sqrt(ed)

### Variaveis auxiliares

In [12]:
last_col = ds.columns[len(ds.columns)-1]
classes = list(ds[last_col].unique())

### Implementação do Centroide

Para a criação dos dados, interajo 30 vezes e para cada interação, utilizando uma variavel de controle ``i`` da primeira interação, para cada interação utilizo algoritmo de K-NN que varia entre 20% até 80%.
Assim eu consigo montar 2 datasets, um de treino e outro para teste.
Para cada interação, ele vai reordenando o dataset de maneira aleatória (pandas já faz isso automaticamente) para treinar e para testar.

In [44]:
def centroid (dataset, value):
    centroids = []
    for c in classes:
        nds = dataset[dataset[last_col]==c]
        for row in nds.values:
            r = row.tolist()
            r.pop()
            print(r)
        

#### Treinar
Executa o KNN e faz as contagens de erros e acertos

In [5]:
def train(dataset_train, dataset_test):
    count_correct = 0
    count_incorrect = 0
    
    count_by_classes_correct = [0 for i in range(0,len(classes))]
    count_by_classes_incorrect = [0 for i in range(0,len(classes))]
    
    for index, row in dataset_test.iterrows():
        
        tuple_t = list(row)
        tuple_t.pop()
        result = centroid(dataset_train,tuple(tuple_t))
        

        #Result
        if result == row[last_col]:
            count_correct += 1
            count_by_classes_correct[classes.index(result)] += 1
        else:
            count_incorrect += 1
            count_by_classes_incorrect[classes.index(result)] += 1
        
    return (count_correct, count_incorrect, count_by_classes_correct, count_by_classes_incorrect)

#### Separar dataset por classes
Essa função pega o dataset, separa por classe e divide em teste e treino de acordo com a porcentagem.
No final concatena datasets de treinos e testes.

In [6]:
def seperate_ds_by_class(dataset, percentage):
    rds_train = pd.DataFrame()
    rds_test = pd.DataFrame()
    
    for c in classes:
        nds = ds[ds[last_col]==c]
        
        # Essa função pega o dataset e separa uma fração dele, e reordena
        ds_train = nds.sample(frac=percentage, random_state=randint(0,15100))
        # Pega o que sobrou do dataset de treino
        ds_test = nds.drop(ds_train.index) 
        
        rds_train = rds_train.append(ds_train)
        rds_test = rds_test.append(ds_test)
        
    rds_train = rds_train.reset_index() # Reiniciar indice
    rds_test = rds_test.reset_index() # Reiniciar indice

    rds_train.drop('index',1,inplace=True) # Retirar coluna index
    rds_test.drop('index',1,inplace=True) # Retirar coluna index
    
    return (rds_train, rds_test)

#### Treinar e Testar
O algoritmo para implementar o K-NN, foi utilizando interando todos o dataset de ``teste`` e fazendo K-NN pela formula euclidiana e pegando o k-esimo ponto mais próximo para decidir qual a classe.
Com o resultado desse dado eu faço a verificação com cada dataset de teste da interação

In [7]:
def run_nth(percentage, number):
    percentages_correct = list()
    prob_correct_by_class = []
    
    for i in range(0,number):
        ds_train, ds_test = seperate_ds_by_class(ds,percentage)
        correct, incorrect, count_by_classes_correct, count_by_classes_incorrect = train(ds_train, ds_test)

        by_class = []
        for count_correct, count_incorrect in zip(count_by_classes_correct, count_by_classes_incorrect):
            if count_correct+count_incorrect != 0:
                by_class.append(count_correct/(count_correct+count_incorrect))
            else:
                by_class.append(0)
                
        prob_correct_by_class.append(by_class)
        percentages_correct.append(correct/(correct+incorrect))
        
    return (percentages_correct, prob_correct_by_class)

### Trata o resultado do treino e teste - K = 7
Faz o calculo da porcentagem de acordo com a quantidade de corretas e incorretas

In [8]:
percents, prob_by_class = run_nth(0.7,30)

NameError: name 'kn' is not defined

### Taxa de Acerto - K = 7

In [None]:
taxa_acerto_min=np.min(percents)
taxa_acerto_max=np.max(percents)
taxa_acerto_med=np.mean(percents)

print('Taxa de Acerto')
print('--------------')
print('Minimo: ' + str(taxa_acerto_min))
print('Máxima: ' + str(taxa_acerto_max))
print('Média: '+str(taxa_acerto_med))

### Taxa de Acerto Médio por Classe - K = 7

In [None]:
print('Taxa de Acerto Médio por classe')
print('-------------------------------')

ar_value = [ np.mean(m) for m in np.array(prob_by_class).transpose() ]

for i, _class in enumerate(ar_value):
    print('Classe \'' +  classes[i] +'\' : ' + str(_class))

### Produzir os dados para gerar o gráfico - K = 7
Nessa parte ele interaje de **80/20** até **20/80** os datasets de treino e teste, a cada porcentagem ele calcula as medias de probabilidade de acerto 30 vezes.

**OBS: ESSE TRECHO DEMORA CERCA DE 3 minutos para executar.**

In [None]:
mean_percents = list()
percents_axis = list()
for n in range(20,81):
    p, pi = run_nth(n/100, 30)
    mean_percents.append(np.mean(p))
    percents_axis.append(n)
    

### Gráfico de acerto - K = 7
Gráfico contendo a ``Probabilidade de acerto X Porcentagem do dataset de treino``.


In [None]:
fig = plt.figure(1, (7,4))
ax = fig.add_subplot(1,1,1)
percents_axis = [x / 100 for x in percents_axis]
ax.plot(percents_axis, mean_percents, label='Taxa de acerto')
ax.set_title('Gráfico de acerto')

ax.xaxis.set_major_formatter(mtick.PercentFormatter(1))
ax.yaxis.set_major_formatter(mtick.PercentFormatter(1))
ax.set_ylabel('Probabilidade de acerto')

ax.set_xlabel('Porcentagem do dataset de treino')

plt.grid(True)
plt.legend()
plt.show()

Para cada porcentagem do dataset de treino, o restante dos dados foram utilizado para teste.
Por exemplo, caso eu tenha usado 20% para treino, 80% foram utilizado para teste (Não está explicito no gráfico)

### Gráfico de dispersão
Gráfico de dispersão e historgramas de elemento x elemento do dataset IRIS.


In [None]:
sns.pairplot(ds,hue='species')

In [30]:
def knn (dataset,value, kn):
    tuple_d = [] #Tupla formato (row_index, distancia do valor)
    for i,row in enumerate(dataset.values):
        #print(row)
        tuple_d.append((i, euclidian_distance(value,tuple(row))))
    tuple_d = sorted(tuple_d,key= lambda x: x[1])
    
    minor = [tuple_d.pop(0) for i in range(0,kn)] # Array com os K menores valores da tupla
    
    counts_classes_dist = [0 for r in range(0,len(classes))]
    for point in minor:
        index_result = classes.index(dataset.loc[point[0]][last_col])
        counts_classes_dist[index_result] += 1
    classes_points = list(enumerate(counts_classes_dist))
    result = max(classes_points,key=lambda x: x[1])
    return classes[result[0]]

In [48]:
#centroid(ds,(5.1,3.5,1.4,0.2))
ds.iloc[:,:-1]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4
6,4.6,3.4,1.4,0.3
7,5.0,3.4,1.5,0.2
8,4.4,2.9,1.4,0.2
9,4.9,3.1,1.5,0.1
