# Ficha de trabalho - Clustering e redução dimensionalidade
Ficheiros a usar: 
* wines.csv - ficheiro com os dados das análises
* wines_labels.csv - labels das classes


**Sumário:**

A data frame containing 177 rows and thirteen columns. These data are the results of chemical analyses of wines grown in the same region in Italy (Piedmont) but derived from three different cultivars (classes).


In [11]:
import pandas as pd
%matplotlib inline
import matplotlib.pyplot as plt
from scipy import stats
import statsmodels.api as sm
from sklearn import preprocessing
from scipy.cluster.hierarchy import dendrogram, linkage

1 - Importa os dados presentes nos dois ficheiros.

In [4]:
data = pd.read_csv('wines.csv', sep = ',', index_col = 0)
meta = pd.read_csv('wines_labels.csv', sep = ',', index_col = 0)

2 - Explora o dataset, indicando:
 * o número de amostras e atributos, 
 * tipos de dados, 
 * se há valores em falta.

In [5]:
print(data.shape)
print(meta.shape)
print(data.index)
print([data.iloc[:,i].dtype for i in range(data.shape[1])])
data.isnull().sum()

(177, 13)
(177, 1)
Int64Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,
            ...
            168, 169, 170, 171, 172, 173, 174, 175, 176, 177],
           dtype='int64', length=177)
[dtype('float64'), dtype('float64'), dtype('float64'), dtype('float64'), dtype('int64'), dtype('float64'), dtype('float64'), dtype('float64'), dtype('float64'), dtype('float64'), dtype('float64'), dtype('float64'), dtype('int64')]


alcohol              0
malic acid           0
ash                  0
ash alkalinity       0
magnesium            0
tot. phenols         0
flavonoids           0
non-flav. phenols    0
proanth              0
col. int.            0
col. hue             0
OD ratio             0
proline              0
dtype: int64

3 - Verifica se as amostras provenientes das classes "Barolo" e "Barbera" têm níveis de alcool significativamente diferentes. 

4 - Efectua uma análise semelhante à anterior mas considerando também a classe “Grignolino”. 

5 - Realiza um PCA e determine quantos componentes principais são necessários para explicar 90% da variabilidade dos dados. Representa os scores num gráfico onde as cores dos pontos variam consoante a classe a que a amostra pertence. O que conclui em relação à discriminação das respetivas classes?

In [13]:
from sklearn.decomposition import PCA
data_scaled = preprocessing.scale(data)
n = 13
pca = PCA(n_components = n)
pca.fit(data_scaled)
x_reduced = pca.transform(data_scaled)

print(pca.explained_variance_ratio_)

for casta in meta.x.unique():
    index_samples = meta.index[meta.x == casta]-1 # -1 porque a indexação dos arrays começa em 0
    plt.plot(x_reduced(index_samples, 0), x_reduced(index_samples, 1), 'o', label = casta)

plt.title("PCA")
plt.legend(loc='best', shadow=False)
plt.show()

[0.35983071 0.1924128  0.1117946  0.07111109 0.06628744 0.04960367
 0.04246014 0.02697991 0.02224462 0.01898528 0.01734155 0.01295206
 0.00799613]


TypeError: 'numpy.ndarray' object is not callable

6 - Realizar clustering hierarquico dos dados, utilizando a métrica de distância "Manhattan”. Apresenta a àrvore resultante colorindo as folas de acordo com a classe. O que conclui olhando para os resultados?


7 - Aplica a função de clustering k-means aos dados, com k =3, e compara os resultados com os presentes na variavel *wines_labels*. O que conclui desta análise? Cruze os resultados com os obtidos anteriormente.