# Aprendizado n√£o supervisionado

![unsupervisedLearning.jpg](attachment:unsupervisedLearning.jpg)

### Agrupamento de dados

Agrupamento de dados √© o processo de encontrar, automaticamente, agrupamentos de dados que sejam similares
entre si.
- Trata-se de uma tarefa n√£o supervisionada, pois n√£o utiliza nenhum tipo de r√≥tulo (ou vari√°vel dependente) disposto nos dados a respeito dos agrupamentos.
-  No m√≥dulo SciKit, agrupamento de dados pode ser realizado por meio do modulo **sklearn.cluster**.
- Algoritmos de agrupamento neste m√≥dulo apresentam o m√©todo **fit**, que infere os agrupamentos nos dados
    -  Pode ser visto como um treinamento, no caso do modelo ser
usado para inferir o grupo de novos dados.

### O algoritmo de agrupamento *k-means*

O K-means analisa amostras n√£o rotuladas e tenta coloca-las em grupos que parecem estar relacionados. 
- O k em **k-means** representa o n√∫mero de grupos (*clusters*) que voc√™ gostaria de ver impostos aos seus dados.
- O algoritmo organiza as amostras no n√∫mero de grupos que voc√™ especifica com anteced√™ncia, usando c√°lculos de dist√¢ncia semelhantes ao algoritmo de agrupamento de k-vizinhos mais pr√≥ximos. 
- Cada agrupamento de amostras √© agrupado em torno de um **centr√≥ide** - o ponto central do agrupamento. 

    - Inicialmente, o algoritmo escolhe k centroides aleatoriamente a partir das amostras do conjunto de dados. 
    - Depois, o restante as amostras s√£o colocadas no grupo cujo centr√≥ide √© o mais pr√≥ximo. 
    - Os centr√≥ides s√£o iterativamente recalculados e as amostras reatribu√≠das aos clusters at√©, para todos os clusters, as dist√¢ncias de um dado centr√≥ide para as amostras em seu cluster s√£o minimizados. 
    - Os resultados do algoritmo s√£o:
        - uma matriz unidimensional de r√≥tulos indicando o cluster para o qual cada amostra pertence 
        - uma matriz bidimensional de centr√≥ides que representam o centro de cada cluster.

#### Conjunto de dados Iris
Vamos trabalhar com o popular conjunto de dados *Iris* j√° presente no scikit-learn, que normalmente √© analisados para classifica√ß√£o e agrupamento. 
- Embora este conjunto de dados seja rotulado, vamos **ignorar oss r√≥tulos** aqui para demonstrar o agrupamento. Ent√£o, usaremos os r√≥tulos para determinar qu√£o bem o algoritmo k-means agrupou as amostras.

O conjunto de dados Iris tem apenas 150 amostras e quatro atributos. 
- O conjunto de dados descreve 50 amostras para cada uma das tr√™s esp√©cies de flores de √≠ris - Iris setosa, Iris versicolor e Iris virginica. 
- Os atributos de cada amostra s√£o o comprimento da s√©pala, a largura da s√©pala, o comprimento da p√©tala e a largura da p√©tala, todos medidos em cent√≠metros.
    - As s√©palas s√£o as partes externas maiores de cada flor que protegem as menores p√©talas antes que os bot√µes das flores desabrochem.

![Iris.jpg](attachment:Iris.jpg)

In [1]:
from sklearn.datasets import load_iris

In [2]:
%matplotlib notebook

In [3]:
iris = load_iris()

In [4]:
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

##### Verificando o tamanho dos conjuntos

In [5]:
iris.data.shape

(150, 4)

In [6]:
iris.target.shape

(150,)

O array target_names cont√©m os nomes dos r√≥tulos num√©ricos do array alvo

In [7]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

O array feature_names cont√©m uma lista de nomes de strings para cada coluna no array de dados

In [8]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

### Explorando o conjunto de dados Iris: estat√≠sticas descritivas com pandas
Vamos usar um DataFrame para explorar o conjunto de dados Iris. Como fizemos no caso da California Housing
estudo, vamos definir as op√ß√µes do pandas para formatar as sa√≠das baseadas em colunas:

In [9]:
import pandas as pd

In [10]:
pd.set_option('max_columns', 5)

In [11]:
pd.set_option('display.width', None)

Crie um DataFrame contendo o conte√∫do da matriz de dados, usando o conte√∫do do
array feature_names como os nomes das colunas:

In [12]:
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)

Em seguida, adicione uma coluna contendo o nome de cada esp√©cie de amostra. A compreens√£o da lista no
o snippet a seguir usa cada valor na matriz de destino para procurar as esp√©cies correspondentes
nome na matriz target_names:

In [13]:
iris_df['species'] = [iris.target_names[i] for i in iris.target]

Vamos usar os pandas para ver alguns exemplos.

In [14]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


Vamos calcular algumas estat√≠sticas descritivas para as colunas num√©ricas:

In [15]:
pd.set_option('precision', 2)

In [16]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.84,3.06,3.76,1.2
std,0.83,0.44,1.77,0.76
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Chamar o m√©todo de descri√ß√£o na coluna 'specie' confirma que ele cont√©m
tr√™s valores √∫nicos. Aqui, sabemos com anteced√™ncia de trabalhar com esses dados que existem
tr√™s classes √†s quais as amostras pertencem, embora n√£o seja o caso em aprendizado n√£o supervisionado.

In [17]:
iris_df['species'].describe()

count           150
unique            3
top       virginica
freq             50
Name: species, dtype: object

## Visualizando o Conjunto de Dados com um gr√°fico de pares Seaborn

Vamos visualizar os recursos neste conjunto de dados. 
- Uma maneira de aprender mais sobre seus dados √© ver como os atributos se relacionam uns com os outros.
- O conjunto de dados possui quatro atributos. N√£o podemos representar graficamente um contra os outros tr√™s em um √∫nico gr√°fico. 
    - No entanto, podemos tra√ßar pares de recursos contra um outro. A seguir usamos a fun√ß√£o **pairplot** do Seaborn para criar uma grade de plotagem de gr√°ficos cada recurso contra si mesmo e os outros recursos especificados:


In [18]:
import seaborn as sns

In [19]:
sns.set(font_scale=1.1)

In [20]:
sns.set_style('whitegrid')

In [21]:
grid = sns.pairplot(data=iris_df, vars=iris_df.columns[0:4],hue='species')

<IPython.core.display.Javascript object>

#### Os argumentos da palavra-chave s√£o:
- **data** - O **DataFrame** contendo os dados a serem plotados.
- **vars** - Uma sequ√™ncia contendo os nomes das vari√°veis a serem plotadas. 
    - Para um **DataFrame**, esses s√£o os nomes das colunas a serem plotadas. 
    - Aqui, usamos as quatro primeiras colunas, representando o comprimento da s√©pala, largura da s√©pala, comprimento da p√©tala e largura da p√©tala, respectivamente.
-  **hue** - A coluna do **DataFrame** que √© usada para determinar as cores dos dados plotados.
- Neste caso, iremos colorir os dados por esp√©cie de √≠ris.

Os gr√°ficos ao longo da diagonal principal, mostram a distribui√ß√£o de apenas
um atributo. Por exemplo, considere as distribui√ß√µes de comprimento de s√©pala:

![image.png](attachment:image.png)

- A √°rea sombreada em azul indica que a faixa de valores de comprimento de s√©pala (mostrado ao longo do eixo x) para a Iris setosa √© de aproximadamente 4-6 cent√≠metros e que a maioria das amostras de Iris setosa est√£o em no meio dessa faixa (aproximadamente 5 cent√≠metros). 
- Da mesma forma, a √°rea verde sombreada indica que a faixa de valores de comprimento de s√©pala para Iris virginica √© de aproximadamente 4-8,5 cent√≠metros 
- E a √°rea laranja mostra que maioria das amostras de Iris virginica t√™m valores de comprimento de s√©pala entre 6 e 7 cent√≠metros.

Os outros gr√°ficos em uma coluna mostram **gr√°ficos de dispers√£o** dos outros atributos em rela√ß√£o ao atributo no eixo x. 
- Usando cores separadas para cada esp√©cie de √≠ris, √© poss√≠vel ver como as esp√©cies se relacionam umas com as outras, considerando pares de atributos. 
     - Curiosamente, todos os gr√°ficos de dispers√£o separam claramente a Iris Setosa (pontos azuis) dos pontos laranja e verdes de outras esp√©cies, indicando que Iris setosa √© na verdade, em uma *"classe por si s√≥"*. 
     Tamb√©m podemos ver que as outras duas esp√©cies √†s vezes podem ser confundidas umas com as outras, como indicado pelos pontos laranja e verdes sobrepostos. 
     - Por  exemplo, se voc√™ olhar o gr√°fico de dispers√£o para largura da s√©pala vs. comprimento da s√©pala, voc√™ ver√° o os pontos referentes √† Iris Versicolor e √† Iris Virginica s√£o misturados. Isso indica que seria dif√≠cil distinguir entre essas duas esp√©cies se tiv√©ssemos apenas as medidas s√©palas dispon√≠veis para nos.

## Usando um Estimador KMeans

Nesta se√ß√£o, usaremos o agrupamento k-means por meio do estimador KMeans do **scikit-learn** (do m√≥dulo **sklearn.cluster**) para colocar cada amostra do conjunto de dados Iris em um cluster. 
- Como com os outros estimadores que voc√™ usou, o estimador KMeans esconde de voc√™ os detalhes matem√°ticos do algoritmo, tornando-o f√°cil de usar.

### Criando o Estimador
Vamos criar o objeto KMeans:



In [22]:
from sklearn.cluster import KMeans

In [23]:
kmeans = KMeans(n_clusters=3, random_state=11)

O argumento de palavra-chave **n_clusters** especifica o hiperpar√¢metro do algoritmo de agrupamento *k-means*, k, que o **KMeans** requer para calcular os grupos e rotular cada amostra. 
- Quando voc√™ treina um estimador **KMeans**, o algoritmo calcula para cada agrupamento um centroide que representa o ponto de dados central do cluster.
- O valor padr√£o para o par√¢metro **n_clusters** √© 8. 
    - Frequentemente, voc√™ depender√° de especialistas no dom√≠nio com conhecimento sobre os dados para ajudar a escolher um valor k apropriado. 
    - Contudo, com o ajuste de hiperpar√¢metros, voc√™ pode estimar o k apropriado.
    
Nesse caso usaremos **n_clusters = 3** para ver o qu√£o bem KMeans faz na rotulagem das amostras de √≠ris. 

### Ajustando o modelo
A seguir, treinaremos o estimador chamando o m√©todo de ajuste do objeto KMeans. Esta etapa realiza o algoritmo [k-means](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html) discutido anteriormente:

In [24]:
kmeans.fit(iris.data)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=3, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=11, tol=0.0001, verbose=0)

#### Quando o treinamento √© conclu√≠do, o objeto KMeans cont√©m:
- Uma matriz **labels_** com valores de 0 a n_clusters - 1 (neste exemplo, 0‚Äì2),
indicando os clusters aos quais as amostras pertencem.
- Um **cluster_centers_** array em que cada linha representa um centr√≥ide.

#### Comparando os r√≥tulos do agrupamento com os valores de classe do conjunto de dados Iris

Como o conjunto de dados Iris √© rotulado, podemos olhar seus valores de matriz de destino para ter uma no√ß√£o de qu√£o bem o algoritmo k-means agrupou as amostras para as tr√™s esp√©cies de Iris. 

<font color=red>Sem os r√≥tulos dos, precisar√≠amos depender de um especialista em dom√≠nio para ajudar a avaliar se as classes fazem sentido.</font>

Neste conjunto de dados, as primeiras 50 amostras s√£o Iris setosa, as pr√≥ximas 50 s√£o Iris versicolor e as os √∫ltimos 50 s√£o Iris virginica. 

A matriz de destino do conjunto de dados Iris os representa com os valores 0‚Äì2. Se o estimador KMeans escolheu os clusters perfeitamente, ent√£o cada grupo de 50 elementos em a matriz **labels_** do estimador deve ter um r√≥tulo distinto. Conforme voc√™ estuda os resultados abaixo,
observe que o estimador KMeans usa os valores de 0 a k - 1 para rotular os clusters, mas estes
n√£o est√£o relacionados √† matriz de destino do conjunto de dados Iris.

Vamos usar o fatiamento para ver como cada grupo de 50 amostras de √≠ris foi agrupado. Os seguintes
snippet mostra que as primeiras 50 amostras foram todas colocadas no cluster 1:

In [25]:
print(kmeans.labels_[0:50])

[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1]


As pr√≥ximas 50 amostras devem ser colocadas em um segundo cluster. O seguinte snippet
mostra que a maioria foi colocada no cluster 0, mas duas amostras foram colocadas no cluster 2:

In [26]:
print(kmeans.labels_[50:100])

[0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0]


Da mesma forma, as √∫ltimas 50 amostras devem ser colocadas em um terceiro cluster. Os seguintes
snippet mostra que muitas dessas amostras foram colocadas no cluster 2, mas 14 das amostras
foram colocados no cluster 0, indicando que o algoritmo pensou que eles pertenciam a um diferente
grupo:

In [27]:
print(kmeans.labels_[100:150])

[2 0 2 2 2 2 0 2 2 2 2 2 2 0 0 2 2 2 2 0 2 0 2 0 2 2 0 0 2 2 2 2 2 0 2 2 2
 2 0 2 2 2 0 2 2 2 0 2 2 0]


Os resultados desses tr√™s trechos confirmam o que vimos nos diagramas de pareamento anterior
nesta se√ß√£o - que Iris setosa est√° "em uma classe por si s√≥" e que h√° alguma confus√£o
entre Iris versicolor e Iris virginica.

In [28]:
from sklearn import cluster, datasets
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt

iris = datasets.load_iris()
X_iris = iris.data

X_iris3D = X_iris[:,0:3] # todas as linhas e as colunas 0, 1 e 2.

k_means = cluster.KMeans(n_clusters=3)
k_means.fit(X_iris3D)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=3, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=None, tol=0.0001, verbose=0)

In [29]:
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d') # 111 corresponde √†s coordendas i,j,k de poss√≠veis subfiguras.
color = ['r','b','k'] # marcadores de cor
mark = ['s','o','^'] # marcadores simb√≥licos
for i in range(len(X_iris3D)):
    ax.scatter(X_iris3D[i][0],X_iris3D[i][1],X_iris3D[i][2],c=color[k_means.labels_[i]],marker=mark[k_means.labels_[i]])
ax.set_xlabel('X Label') # r√≥tulos dos eixos
ax.set_ylabel('Y Label')
ax.set_zlabel('Z Label')
plt.show()

<IPython.core.display.Javascript object>

**Exerc√≠cio** - Utilize [outro algoritmo de agrupamento](http://scikit-learn.org/stable/modules/clustering.html), para agrupar os
mesmos dados do exemplo anterior. Verifique se o resultado
ser√° o mesmo.

### Avalia√ß√£o de agrupamento
- Por tartar-se de uma tarefa n√£o supervisionada, avaliar a performance de algoritmos de agrupamento n√£o √© t√£o trivial quanto a contagem do n√∫mero de erros.
- As formas de avalia√ß√£o devem considerar o fato que em agrupamentos de dados, membros pertencentes a um grupo s√£o mais similares entre s√≠ do que membros pertencentes a outros grupos. 
    - De acordo com alguma medida de similaridade.

#### Exemplos de medidas
- Medidas de an√°lise de agrupamentos.
    - N√£o consideram a compara√ß√£o com poss√≠veis ‚Äòverdades absolutas‚Äô
    - Analisam a qualidade dos agrupamentos obtidos (agrupamentos bem definidos).
- M√©todos no Scikit
    - Coeficiente de silhueta
    - √çndice Calinski-Harabaz

### O coeficiente de silhueta
-  O coeficiente de silhueta √© definido para cada inst√¢ncia de dado e √© composta por dois valores:
   
   ‚Äì a: A dist√¢ncia m√©dia entre uma determinada inst√¢ncia de dado e as demais inst√¢ncias do mesmo grupo.
   ‚Äì b: A dist√¢ncia m√©dia entre uma determinada inst√¢ncia √†s inst√¢ncias pertencentes ao agrupamento mais pr√≥ximo.
- O coeficiente de silhueta, s, para uma inst√¢ncia de dados √©: 

<center> $s =\frac{b-a}{max(a,b)}$ </center>

> O coeficiente de silhuetas para o agrupamento √© a m√©dia dos
Coeficientes das inst√¢ncias. Quanto maior o coeficiente, melhor!

In [30]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_samples, silhouette_score
range_n_clusters = [2, 3, 4, 5, 6]

for n_clusters in range_n_clusters:
    clusterer = KMeans(n_clusters=n_clusters, random_state=10)
    cluster_labels = clusterer.fit_predict(X_iris3D)
    silhouette_avg = silhouette_score(X_iris3D, cluster_labels)
    print("Para n_clusters =", n_clusters, "O coeficiente de silhoueta √© :", silhouette_avg)

Para n_clusters = 2 O coeficiente de silhoueta √© : 0.6845068276197064
Para n_clusters = 3 O coeficiente de silhoueta √© : 0.5498955810221875
Para n_clusters = 4 O coeficiente de silhoueta √© : 0.5083197879690337
Para n_clusters = 5 O coeficiente de silhoueta √© : 0.48778868059511105
Para n_clusters = 6 O coeficiente de silhoueta √© : 0.37083008212597807
