#### C-Means

O algoritmo Fuzzy C-means, é uma variaçãodo algoritmo de K-means, onde ele possibilita tratar incertezas, ou seja, dados que possuem características de dois diferentes grupos. Estes são classificados a partir de um “grau de pertinência” de cada grupo. O grau de pertinência descreve o quanto de semelhança ou proximidade, determinado elemento tem de cada grupo, indicando que o grupo ao qual este determinado dado pertence é aquele que o que possui maior grau de pertinência. 

In [62]:
from sklearn import datasets
import numpy as np
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
import skfuzzy

Será utilizado a base de dados `iris` que está presente no módulo `sklearn.datasets`. É uma base de dados que conta com a distribuição do tamanho da pétala e sépala de 3 classes de flores:
* Iris Setosa
* Iris Veriscolor
* Iris Virginica

É um dataset mto utilizado para prática de machine learning e está presente em vários ambientes como o `R` por exemplo.

In [56]:
dataset = datasets.load_iris()

Agora cria-se o cluster utilizando a o método `skfuzzy.cmeans`. Como partâmetro é passado a matriz transposta dos dados, `dataset.data.T`, o número de clusters que é dado pelo argumento `c`, a taxa de erro, `error` e o número máximo de iterações, `maxiter`.

In [58]:
modelo = skfuzzy.cmeans(
    data=dataset.data.T,
    c=3,
    m=2,
    error=0.005,
    maxiter=1000,
    init=None
)

Então é criado um objeto dessa classe.

Esse objeto possui inúmeros parâmetros, dentre eles a porcentagem de que cada classe é atribuída aos clusters, ou seja, a chance em que uma entrada tem de pertencer a um cluster específico. Esse atributo equivale a posição 1 do objeto.

In [59]:
porcentagem = modelo[1]

Que é uma matriz com todas as entradas e a porcentagem da adesão a cada cluster. Com um `print` é possível observar com estão organizadas as 10 primeiras entradas.

In [60]:
for n in range(10):
    print(porcentagem[0][n], porcentagem[1][n], porcentagem[2][n])

0.9966236326171273 0.0023044397126467495 0.0010719276702260724
0.97583919384041 0.016659525183839976 0.007501280975750069
0.9798172261807963 0.013766041102104245 0.0064167327170994385
0.9674097634959967 0.022478331932177138 0.010111904571826135
0.9944700378107467 0.003762070010731818 0.0017678921785215587
0.9345455575931952 0.044827150477701694 0.020627291929102957
0.9794826330188524 0.014010584334525174 0.0065067826466224535
0.9995470198813872 0.00031171328911052656 0.00014126682950225364
0.9303461141708306 0.0477431966223655 0.021910689206803884
0.9827128879065682 0.011943021683425432 0.005344090410006534


Cada linha do resultado representa uma entrada, como por exemplo, para a primeira entrada, é muito mais provável que ela pertença ao terceiro cluster, com uma chance de 99,66%.

In [61]:
previsoes = porcentagem.argmax(axis=0)
confusion_matrix(dataset.target, previsoes)

array([[50,  0,  0],
       [ 0, 47,  3],
       [ 0, 13, 37]], dtype=int64)

In [63]:
accuracy_score(dataset.target, previsoes)

0.8933333333333333

Esse método gerou uma taxa de acerto de 89,3% que é uma taxa de acerto muito alta.