# Agrupamento e redução de dimensionalidade do Fashion-MNIST

Nesta atividade colocaremos em prática tudo que aprendemos até agora em um novo dataset: o Fashion-MNIST. Esse conjunto de dados é formado por imagens de tamanho 28x28 pixels em tons de cinza. As imagens presentes são compostas por artigos de vestuário. Como é uma base de dados razoavelmente grande, utilizaremos aqui uma amostra de 10000 imagens, sendo 1000 de cada classe. A base de dados foi disponibilizada [neste link ](https://www.kaggle.com/zalando-research/fashionmnist), o qual possui mais informações.

Para esta atividade você deve realizar as seguintes tarefas: 

* Realize agrupamentos sobre este conjunto de dados:
    * Agrupamento através do K-Means:
        * Determine através do método do cotovelo a quantidade ideal de clusters. A quantidade de clusters indicada pelo método da silhueta casa com o número real de classes (10)? Se não, por que você acha que não?
        * Analise a silhueta e pureza do agrupamento considerando o número de grupos indicado pelo método do cotovelo e o número de grupos ideal (k=10). Que conclusões você pode tirar?
    * Agrupamento Hierárquico:
        * Determine através do dendograma a quantidade ideial de clusters. A quantidade de clusters indicada pelo método da silhueta casa com o número real de classes (10)? Se não, por que você acha que não?
        * Analise a silhueta e pureza do agrupamento considerando o número de grupos indicado pelo dendograma e o número de grupos ideal (k=10).
* Redução de dimensionalidade como pré-processamento ao Agrupamento
    * Redução de dimensionalidade através do t-SNE:
        * Reduza a quantidade de dimensões para duas dimensões.
        * Visualize os dados em duas dimensões. Você percebe agrupamentos naturais nos dados?
        * Aplique novamente o agrupamento que teve melhores resultados no passo anterior (sem t-SNE) considerando k=10.
        * Analise a silhueta e pureza do agrupamento. O que aconteceu com os resultados quando comparamos com a versão sem usar t-SNE? Que conclusões você pode tirar? 
        * Teste diferentes números de dimensões para tentar melhorar os resultados.
    * Redução de dimensionalidade através do PCA:
        * Reduza a quantidade de dimensões para duas dimensões.
        * Visualize os dados em duas dimensões. Você percebe agrupamentos naturais nos dados?
        * Aplique novamente o agrupamento que teve melhores resultados no passo anterior (sem PCA) considerando k=10. 
        * Analise a silhueta e pureza do agrupamento. O que aconteceu com os resultados quando comparamos com a versão sem usar PCA? Que conclusões você pode tirar? 
        * Teste diferentes números de dimensões para tentar melhorar os resultados.
* Ao final mostre qual foi a melhor técnica de agrupamento e a melhor técnica de redução de dimensionalidade.

## Atividade Bônus

Utilize a redução de dimensionalidade para o contexto de aprendizagem supervisionada:

* Separe o conjunto de dados em treino e teste na proporção 75%/25% respectivamente.
* Treine um modelo de sua escolha com os dados originais. 
    * Compute a acurácia e o f1-score
* Treino um modelo de sua escolha com os dados em dimensionalidade reduzida. Utilize a técnica de redução de dimensionalidade e parâmetros que obtiveram melhores resultados.
* Por último, compare os resultados.



In [0]:
import pandas as pd

fashion_mnist = pd.read_csv("https://orionwinter.github.io/datasets/fashion-mnist_test.csv")
fashion_mnist.head()

Unnamed: 0,label,pixel1,pixel2,pixel3,pixel4,pixel5,pixel6,pixel7,pixel8,pixel9,pixel10,pixel11,pixel12,pixel13,pixel14,pixel15,pixel16,pixel17,pixel18,pixel19,pixel20,pixel21,pixel22,pixel23,pixel24,pixel25,pixel26,pixel27,pixel28,pixel29,pixel30,pixel31,pixel32,pixel33,pixel34,pixel35,pixel36,pixel37,pixel38,pixel39,...,pixel745,pixel746,pixel747,pixel748,pixel749,pixel750,pixel751,pixel752,pixel753,pixel754,pixel755,pixel756,pixel757,pixel758,pixel759,pixel760,pixel761,pixel762,pixel763,pixel764,pixel765,pixel766,pixel767,pixel768,pixel769,pixel770,pixel771,pixel772,pixel773,pixel774,pixel775,pixel776,pixel777,pixel778,pixel779,pixel780,pixel781,pixel782,pixel783,pixel784
0,0,0,0,0,0,0,0,0,9,8,0,0,34,29,7,0,11,24,0,0,3,3,1,0,1,1,0,0,0,0,0,4,0,0,1,0,0,0,0,0,...,242,245,224,245,234,0,3,0,0,0,0,0,0,0,0,0,0,0,0,37,69,94,123,127,138,138,142,145,135,125,103,87,56,0,0,0,0,0,0,0
1,1,0,0,0,0,0,0,0,0,0,0,0,209,190,181,150,170,193,180,219,5,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,24,...,248,238,80,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,174,233,155,0,65,235,216,34,0,0,0,0,0,0,0,0,0
2,2,0,0,0,0,0,0,14,53,99,17,0,0,0,0,0,0,0,0,12,94,68,14,0,0,0,0,0,0,0,0,0,0,0,38,106,94,89,94,68,...,0,0,0,0,0,0,87,12,26,0,0,0,0,0,0,0,46,50,29,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,63,53,31,0,0,0
3,2,0,0,0,0,0,0,0,0,0,161,212,138,150,169,164,176,202,255,183,26,0,0,0,0,0,0,0,0,0,0,0,1,0,0,129,221,255,255,215,...,255,255,254,252,255,101,196,254,252,100,0,0,0,0,0,168,232,225,0,41,172,147,148,153,155,146,137,141,143,137,137,126,140,0,133,224,222,56,0,0
4,3,0,0,0,0,0,0,0,0,0,0,37,0,0,0,0,0,0,17,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,21,204,235,...,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,2,69,0,2,0,0,0,0,0,0,0,0,0,0
