# C - Means

## Introdução

Este notebook versará sobre um outro modelo de agrupamento, chamado de **agrupamento difuso**. Para ser sincero não entendi muito, apenas que nele cada elemento pode pertencer a mais de um grupo. Para uma explicação mais detalhada, segue um link da Wikipédia: https://pt.wikipedia.org/wiki/Agrupamento_difuso_(fuzzy)

## Dados iniciais

Usaremos o dados do Iris para ilustrar o modelo.

In [2]:
from sklearn import datasets
from sklearn.metrics import confusion_matrix

iris = datasets.load_iris()

## ```cmeans```

Para usar esse tipo de agrupamento difuso, invocamos uma nova biblioteca, que é o ```skfuzzy```, e a partir dela importamos a função ```cmeans``` da seguinte maneira.

In [3]:
from skfuzzy import cmeans

Assim, devemos fornecer os seguintes parâmetros:

* ```data```: dados para serem agrupados
* ```c```: número de grupos a serem griados.

Os parâmetros abaixos serão colocados por padrão
* ```m=2```
* ```error=0.005```
* ```maxinter=1000```
* ```init=None```

In [5]:
r = cmeans(data = iris.data.T,
                   c = 3,
                   m = 2, 
                   error = 0.005,
                   maxiter = 1000,
                   init = None)

Como retorno, essa função nos fornece vários objetos. A "posição 1" é uma matriz contendo as probabilidades de cada ponto pertencer a um determinado  grupo.

Obs: digitamos ```iris.data.T``` ao invés de ```ìris.data```, pois a função precisa da transposta da matriz de dados.

In [7]:
previsoes_porcentagem = r[1]

Para enxergar essas probabilidades, basta criar um laço ```for```.

In [8]:
for x in range(150):
  print( previsoes_porcentagem[0][x] ,previsoes_porcentagem[1][x] ,previsoes_porcentagem[2][x] )

0.0010719264087514363 0.0023044405059659523 0.9966236330852826
0.007501321973760166 0.01665964797355822 0.9758390300526816
0.006416759261635774 0.01376612135276533 0.9798171193855989
0.010111958465519133 0.022478494990615532 0.9674095465438654
0.001767891718980516 0.0037620745111838737 0.9944700337698357
0.02062738595038894 0.04482740699607026 0.9345452070535408
0.006506810549142891 0.014010667375794242 0.9794825220750629
0.00014126759309544357 0.00031171550802818984 0.9995470168988764
0.021910790997262602 0.04774350805217007 0.9303457009505673
0.00534412149922523 0.011943114187893561 0.9827127643128812
0.01020421592314698 0.021766077757367375 0.9680297063194856
0.002432366439883121 0.005435531049943854 0.9921321025101731
0.009180970618901187 0.0201942035746841 0.9706248258064146
0.02524391270194039 0.05181714716969193 0.9229389401283676
0.03764166868843682 0.07263270650994393 0.8897256248016193
0.0543209392140753 0.10438112098257686 0.8412979398033479
0.017500516346156927 0.0355920312

## Precisão do Modelo

Para calcular a acurácia do agrupamento difuso, digitamos 

In [10]:
previsoes = previsoes_porcentagem.argmax(axis = 0)

resultados = confusion_matrix(iris.target, previsoes)

resultados

array([[ 0,  0, 50],
       [ 3, 47,  0],
       [37, 13,  0]])

Como podemos ver, esse modelo não foi muito preciso para o conjunto de dados Iris. Obs: o ```argmax``` serve para pegar o maior elemento de cada linha, isto é, a classificação mais provável do elemento.