In [None]:
""" 
Utilizando uma linguagem de programação adequada, a qual tenha domínio, implemente a seguinte tarefa:

Implemente o algoritmo k-means (pode usar o kmeans do scikit-learn) apresentado em aula ADNP para o problema de reconhecimento de dígitos (0-9). Download
Seu algoritmo deve gerar centróides que vão substituir as instâncias de treinamento.
Gere: 5, 10 e 20  centróides para cada classe; 
Lembre-se para gerar estes centróides, você deve passar somente as 100 instâncias de cada classe. Ou seja, a ideia é que ele gere centróides que represente a classe que estamos trabalhando.
Treine um modelo usando estes centróides ; Escolha um algoritmo de aprendizagem supervisionada estudado ;
Teste no conjunto de testes disponibilizada;
Verifique se as taxas usando centróides são melhores ou piores que usando todos as amostras no treinamento.
Não esqueça de normalizar os dados.

"""

In [None]:
from sklearn.cluster import KMeans
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import MaxAbsScaler
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import numpy as np
import os

In [None]:
# Se não existir, cria o diretório 'output'
if not os.path.exists('output'):
    os.makedirs('output')

# Deleta todos os arquivos do diretório 'output'
for file in os.listdir('output'):
    os.remove('output/' + file)

In [None]:
# Carregando os dados de treinamento
data = np.loadtxt('./data/treinamento.txt')
X = data[:, :-1]
y = data[:, -1]

# Normalizando os dados
scaler = MaxAbsScaler()
X = scaler.fit_transform(X)

# Para cada classe (100 linhas), vamos encontrar os n centroides, sendo n = 5, 10 e 20
# crie um arquivo novo para armazenar os centroides (no mesmo arquivo)
for n in [5, 10, 20]:
    # Para cada classe
    for digit_class in sorted(list(set(y))): # Para cada classe de digitos
        indexes = y == digit_class # Pegar os indices dos digitos da classe

        km = KMeans(n_clusters=n, n_init='auto')
        km.fit(X[indexes,:])

        # caso o arquivo não exista, cria um novo e escreve os centroides
        # Centroide1(.5f) Centroide2(.5f) ... CentroideN(.5f) classe(.0f)
        with open(f'./output/centroides_{n}_treino.txt', 'a') as f:
            for centroid in km.cluster_centers_:
                f.write(' '.join([f'{c:.5f}' for c in centroid]) + f' {digit_class:.0f}\n')




In [None]:
# Carregando os dados de teste
data = np.loadtxt('./data/teste.txt')
X_test = data[:, :-1]
y_test = data[:, -1]

# Normalizando os dados
scaler = MaxAbsScaler()
X_test = scaler.fit_transform(X_test)

# Para cada classe (100 linhas), vamos encontrar os n centroides, sendo n = 5, 10 e 20
# crie um arquivo novo para armazenar os centroides (no mesmo arquivo)
for n in [5, 10, 20]:
    # Para cada classe
    for digit_class in sorted(list(set(y_test))): # Para cada classe de digitos
        indexes = y_test == digit_class # Pegar os indices dos digitos da classe

        km = KMeans(n_clusters=n, n_init='auto')
        km.fit(X_test[indexes,:])

        # caso o arquivo não exista, cria um novo e escreve os centroides
        with open(f'./output/centroides_{n}_teste.txt', 'a') as f:
            for centroid in km.cluster_centers_:
                f.write(' '.join([f'{c:.5f}' for c in centroid]) + f' {digit_class:.0f}\n')


In [None]:
# Carregando os centroides
centroides = np.loadtxt('./output/centroides_5_treino.txt')
X = centroides[:, :-1]
y = centroides[:, -1]

# Dividindo os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3, random_state=42)

# Treinando o modelo
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# Testando o modelo
y_pred = knn.predict(X_test)

# Calculando a acurácia
acc = np.mean(y_pred == y_test)
print(f'Acurácia: {acc:.5f}')



In [None]:
# Carregando os centroides
centroides = np.loadtxt('./output/centroides_10_treino.txt')
X = centroides[:, :-1]
y = centroides[:, -1]

# Dividindo os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3, random_state=42)

# Treinando o modelo
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# Testando o modelo
y_pred = knn.predict(X_test)

# Calculando a acurácia
acc = np.mean(y_pred == y_test)
print(f'Acurácia: {acc:.5f}')

In [None]:
# Carregando os centroides
centroides = np.loadtxt('./output/centroides_20_treino.txt')
X = centroides[:, :-1]
y = centroides[:, -1]

# Dividindo os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3, random_state=42)

# Treinando o modelo
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# Testando o modelo
y_pred = knn.predict(X_test)

# Calculando a acurácia
acc = np.mean(y_pred == y_test)
print(f'Acurácia: {acc:.5f}')