# Projeto 3 Ciência dos Dados
### Matteo Iannoni e Raphael Azevedo

## Introdução

#### Nossa pergunta
No projeto 3, nós procuramos explorar os conceitos de machine learning e computer vision referenciados ao longo do nosso curso. Pensamos em utilizar clusterização, mais especificamente o método k-means de clusterização da biblioteca ‘sklearn’ em python 3. Com isso em mente, nós nos propusemos o seguinte desafio: Seria possível criar um algoritmo que reconheça e classifique, com maioria de acertos, imagens de números em tempo real usando esse metodo?

#### Visualização do problema
Pesquisando como fariamos para tornar a imagem interpretavel pelo computador, concluimos que deveriamos tornar a imagem em um vetor. Fizemos isso tornando cada pixel em uma dimensao desse vetor e entao o valor deste pixel seria a magnitude do vetor naquela dimensao; pixeis normalmente sao representados por tres valores, nós levamos em consideração somente um valor que representa o quao breto ou branco aquele pixel é.

#### Clusterização por k-means aplicada ao problema
Agora poderiamos clusterizar esses vetores utilizando o metodo k-means, que se extende para qualquer numero de dimensoes e por isso foi muito util para nós. Mesmo com a capacidade de clusterizar imagens, ainda é necessario ter a capacidade de identificar os clusters, por isso foi necessario usarmos uma base de dados de treino com uma imagem e com uma informação referente a o que aquela imagem era, decidimos usar a "MNIST database of handwritten digits" que tem 60k imagens de treino e 10k imagens de teste, cada uma com um identificador referente a que digito aquela imagem contem.

## O Algoritmo

In [2]:
# Importando as bibliotecas e lendo os arquivos, nada demais aqui
from sklearn.cluster import KMeans
import numpy as np
from scipy import stats as st
from mnist import *
import pickle
from random import randint
import os
import matplotlib.pyplot as plt
import cv2

# Lê a base de dados
train_images = read_idx('train-images.idx3-ubyte')
train_labels = read_idx('train-labels.idx1-ubyte')

#### Treinamento
Aqui temos o treinamento do classificador. O treino vai usar uma quantidade de imagens e clusters definidas pelas variaveis 'index_lim' e 'clustquant', respectivamente, e vai salvar a informação dos clusters criados em um arquivo pickle com o nome 'train_30clust_1000_imgs.p' (para 1000 imagens e 30 clusters, como esta no codigo). Esse codigo foi criado para podermos testar varios treinos com rapidez sem precisar treinar o classificador toda vez.

In [None]:
# Quantidade de imagens com as quais treinar
index_lim = 1000

# Criar um numpy array com a informação vetorial das imagens como explicado na visualização do problema
X = np.array([np.concatenate((train_images[x])) for x in range(0,index_lim)]) # Os vetores, nesse caso, tem 784 dimensoes

# Quantidade de clusters para criar
clustquant = 30

# Clusterização. Essa é a linha de codigo mais longa de todo o projeto
kmeans = KMeans(n_clusters=clustquant, random_state=0).fit(X)

# Salvar o arquivo pickle
exec('pickle.dump( kmeans, open( "train_' + str(clustquant) + 'clust_' + str(index_lim) + 'imgs.p", "wb" ) )')

#### Usando um treino existente
Aqui carregamos um arquivo de treino ja existente, com o nome 'train_30clust_1000_imgs.p' (para 50000 imagens e 1000 clusters, como esta no codigo).

In [None]:
# Quantidade de imagens do arquivo
image_quantity = 50000

# Quantidade de clusters do arquivo
cluster_quantity = 1000

# Carrega o arquivo pickle com as especificacoes acima
exec('kmeans = pickle.load(open("train_' + str(cluster_quantity) + 'clust_' + str(image_quantity) + 'imgs.p", "rb"))')

#### Criando o dicionario de equivalencia para os clusters desse arquivo
Aqui é criado um dicionario que o algoritmo vai usar para achar o digito que equivale ao cluster em que foi classificada uma imagem.

In [None]:
# Cria o dicionario
equivalencia = {}

# Para os indexes de 0 a cluster_quantity
for cluster in range(0,cluster_quantity):
    
    # Criar uma lista para guardar os valores dos digitos que equivalem às imagens nesse cluster
    lista_reais = []

    # Para cada index de 0 a image_quantity
    for index in range(0,image_quantity):
        
        # Se a imagem esta nesse cluster
        if kmeans.labels_[index] == cluster:
            
            # Guardar o valor do digito que equivale à imagem na lista desse cluster
            lista_reais.append(train_labels[index])
    
    # Salvar no dicionario uma key com o numero do cluster, que contém a informação do digito que esse cluster equivale a
    equivalencia[str(cluster)] = st.mode(lista_reais, axis=None)[0][0]

#### Verificando porcentagem de acertos e erros
Aqui classificamos uma certa quantidade de numeros, equivalente à variavel 'tries', e verificamos quantos foram acertos e quantos foram erros para ter uma noção da precisao da classificação.

In [None]:
# Criar um dicionario para guardar a informacao de erros e acertos
statistics = {
        'Correct' : 0,
        'Incorrect' : 0
}

# Quantidade de tentativas que queremos que o programa execute
tries = 1000

# Para a quantidade de tentativas que foi estabelecida anteriormente
for n in range(0,tries):
    
    # Escolha um index de imagem que nao foi usada no treinamento
    pred = randint(image_quantity,len(train_images)-1)

        # Se o valor que o algoritmo deu `a imagem 'e o mesmo que o valor de verdade da imagem\
        if equivalencia[str(kmeans.predict([np.concatenate((train_images[pred]))])[0])] == train_labels[pred]:
            
            # Soma 1 na quantidade 'Correct'
            statistics['Correct'] += 1
        
        # Se Nao
        else:
            
            # Soma 1 na quantidade 'Incorrect'
            statistics['Incorrect'] += 1

# Imprima a porcentagem de acertos e erros
print('% de acertos: ' + str(statistics['Correct']*100/tries))
print('% de erros: ' + str(statistics['Incorrect']*100/tries))

#### Focando uma imagem
Essa funcao foi criada do zero por nos. Ela cria uma imagem de resolucao reduzida (28x28) do local onde ela ve que tem maior densidade de preto na imagem original.

In [None]:
def focus(img):
    
    # Lista da media da tonalidade de preto em cada linha da imagem (ignora que o nome da variavel 'e 'column_means')
    column_means = np.array([int(round(np.mean(img[x]))) for x in range(0,len(img))])

    # Yminimo 'e a linha de pixeis na qual comeca a imagem
    ymin = 0
    
    # Ymaximo 'e a linha de pixeis na qual acaba a imagem
    ymax = len(img) - 1

    # Enquanto a media de tonalidade de preto for menor do que a do primeiro valor maior do que o minimo do set da lista das medias
    while column_means[ymin] < list(set(column_means))[1]:
        # Soma 1 ao Yminimo
        ymin += 1
    
    # Enquanto a media de tonalidade de preto for menor do que a do primeiro valor maior do que o minimo do set da lista das medias
    while column_means[ymax] < list(set(column_means))[1]:
        # Soma 1 ao Ymaximo
        ymax -= 1

    # Dar um pouco de margem em cima e em baixo do Yminimo e Ymaximo, por que as imagens de treino tem um pouco de margem
    ymin -= int(round((ymax - ymin)/7))
    ymax += int(round((ymax - ymin)/7))
    
    
    # Lista da media da tonalidade de preto em cada coluna da imagem ja restringida por Yminimo e Ymaximo (ignora que o nome da variavel 'e 'line_means')
    line_means = [int(round(np.mean(img[ymin:ymax,x]))) for x in range(0,len(img[0]))]
    
    # Xminimo 'e a coluna de pixeis na qual comeca a imagem
    xmin = 0
    
    # Xmaximo 'e a coluna de pixeis na qual acaba a imagem
    xmax = len(line_means) - 1
    
    # Enquanto a media de tonalidade de preto for menor do que a do primeiro valor maior do que o minimo do set da lista das medias
    while line_means[xmin] <= list(set(line_means))[1]:
        # Soma 1 ao Xminimo
        xmin += 1
    
    # Enquanto a media de tonalidade de preto for menor do que a do primeiro valor maior do que o minimo do set da lista das medias
    while line_means[xmax] <= list(set(line_means))[1]:
        # Soma 1 ao Xmaximo
        xmax -= 1
        
    # Se a imagem nao for quadrada, tornar ela quadrada com esses 2 ifs
    if ((ymax - ymin) < (xmax - xmin)):
        if ((xmax - xmin) - (ymax - ymin))%2 != 0:
            diff = (((xmax - xmin) - (ymax - ymin)) + 1)/2
            ymax += diff
            ymin -= diff
        else:
            diff = ((xmax - xmin) - (ymax - ymin))/2
            ymax += diff
            ymin -= diff
    if ((ymax - ymin) > (xmax - xmin)):
        if ((ymax - ymin) - (xmax - xmin))%2 != 0:
            diff = (((ymax - ymin) - (xmax - xmin)) + 1)/2
            xmax += (diff - 1)
            xmin -= diff
        else:
            diff = ((ymax - ymin) - (xmax - xmin))/2
            xmax += diff
            xmin -= diff

    # Se a imagem nao for divizivel por 28, tornar divizivel por 28
    if (ymax - ymin)%28 != 0:
        diff = ((ymax - ymin)%28)
        if diff%2 != 0:
            diff += 1
        diff = diff/2
        ymax += diff
        ymin -= diff
        xmax += diff
        xmin -= diff

    # Esses valores sao floats quando chegam aqui, por isso sao tornados em Ints
    ymax = int(ymax)
    ymin = int(ymin)
    xmax = int(xmax)
    xmin = int(xmin)

    # Restringir a imagem aos valores encontrados
    img = img[ymin:ymax,xmin:xmax]

    # new_img vai ser a imagem com resolucao mais baixa do que a original
    new_img = []

    # length 'e a largura que cada pixel reduzido tem na imagem original
    length = len(img)/28

    # Para linha de 0 a 28
    for y in range(0,28):
        
        # Lista vasia para guardar a informacao da linha
        line = []
        
        # Para cada pixel na linha, de 0 a 28
        for x in range(0,28):
            
            # Appenda a media de pixeis `a qual este pixel equivale
            line.append(int(round(np.mean(img[int(round(length*y)):int(round(length*(y + 1))),int(round(length*x)):int(round(length*(x + 1)))]))))
        
        # Appenda a linha
        new_img.append(line)

    return (new_img)

#### Classificando uma imagem focada
A funcao que classifica 'e bem simples, ela so' classifica a imagem que passou pelo algoritmo de focar.

In [None]:
def guesser(img):
    return((equivalencia[str(kmeans.predict([np.concatenate(focus(img))])[0])]))

In [None]:
# Define o canal de captura
cap = cv2.VideoCapture(0)

# Lista que filtra os valores classificados para uma imagem
number = []

while(1):

    # R1
    _, frame = cap.read()

    # R2
    hsv = cv2.cvtColor(frame, cv2.COLOR_BGR2HSV)

    # R3
    lower_blue = np.array([110, 100, 20])
    upper_blue = np.array([160, 255, 255])

    # R4
    mask = cv2.inRange(hsv, lower_blue, upper_blue)

    try:
        # Se a lista de filtragem tiver menos de 20 itens
        if len(number) <= 20:
            # Classificar o item na tela e appendar na lista de filtragem
            number.append(guesser(mask))
        
        # Se nao
        else:
            # Tirar valor mais antigo da lista
            number = number[1:]
            
            # Classificar o item na tela e appendar na lista de filtragem
            number.append(guesser(mask))
            
            # Imprimir o valor mais recorrente da lista
            print('Number found: ' + str(st.mode(number)[0][0]))
    
    #
    except ValueError:
        number = []
        print('Looking for number...')
    except IndexError:
        number = []
        print('Looking for number...')

    counter += 1

    cv2.imshow('mask',mask)
    cv2.imshow('frame',frame)
    k = cv2.waitKey(5) & 0xFF
    if k == 27:
        break

cv2.destroyAllWindows()