In [1]:
# Formação Cientista de Dados - Fernando Amaral e Jones Granatyr
# Colaboração: Adriano Santos

# Agrupamento com c-means

In [2]:
# Importação das bibliotecas - Este código em Python importa o módulo 'datasets' do scikit-learn para acessar conjuntos de dados, o 'numpy' para manipulação de arrays, e 'confusion_matrix' para avaliação de modelos de machine learning. Além disso, ele tenta instalar o pacote 'scikit-fuzzy' usando o comando '%pip install scikit-fuzzy', embora esteja comentado. Também importa o 'skfuzzy' para utilização posterior na implementação de lógica fuzzy em sistemas de controle.

from sklearn import datasets
import numpy as np
from sklearn.metrics import confusion_matrix
# %pip install scikit-fuzzy
import skfuzzy


In [3]:
# Carregamento da base de dados iris, que já está disponível no sklearn - Neste código, estamos carregando a base de dados iris, que é uma base de dados disponível no módulo scikit-learn (sklearn). A variável 'iris' irá conter os dados do conjunto de dados iris após o carregamento, permitindo que os utilizemos posteriormente para análise ou modelagem de machine learning. Essa ação é essencial no processo de preparação de dados para tarefas de aprendizado de máquina, onde a base de dados é carregada para ser usada em algoritmos de classificação, regressão ou outros tipos de análise.

iris = datasets.load_iris()

In [4]:
# Este código em Python utiliza a biblioteca skfuzzy para realizar um agrupamento de dados utilizando o algoritmo Fuzzy C-Means. Ele toma como entrada os dados do conjunto Iris, transpostos (T), e busca agrupá-los em 3 clusters (c), com um parâmetro de fuzziness (m) igual a 2. O algoritmo converge quando a diferença entre iterações sucessivas é menor que 0.005 ou após 1000 iterações. O parâmetro "init" permite especificar uma inicialização personalizada, mas está definido como "None" neste caso, o que significa que a inicialização padrão será usada.

r = skfuzzy.cmeans(
    data = iris.data.T, 
    c = 3, 
    m = 2, 
    error = 0.005, 
    maxiter = 1000, 
    init = None
)

In [5]:
# Este código simples extrai as porcentagens associadas a um cluster específico de um conjunto de previsões armazenado em uma matriz chamada "r". O valor da posição 1 da matriz "r" corresponde a esse cluster específico, e as porcentagens são atribuídas à variável "previsoes_porcentagem". Essas porcentagens podem ser usadas para avaliar a probabilidade de um registro pertencer a esse cluster em particular.

previsoes_porcentagem = r[1]

In [6]:
# Este código realiza a visualização das probabilidades de um registro pertencer a cada um dos clusters em um modelo de clusterização. O loop for percorre 150 registros e imprime as probabilidades associadas aos três clusters, representados pelos arrays `previsoes_porcentagem[0][x]`, `previsoes_porcentagem[1][x]` e `previsoes_porcentagem[2][x]`. O somatório dessas probabilidades para cada registro é igual a 1.0, indicando que a soma das chances de pertencer a todos os clusters é 100%.

for x in range(150):
  print( previsoes_porcentagem[0][x] ,previsoes_porcentagem[1][x] ,previsoes_porcentagem[2][x] )

0.002304447024283849 0.001071915125699857 0.9966236378500162
0.016660712803443656 0.007501676189496933 0.9758376110070595
0.013766817040956728 0.0064169882294376175 0.9798161947296056
0.022479909080127373 0.010112424005552076 0.9674076669143205
0.0037621130491377252 0.0017678872130871357 0.9944699997377752
0.04482962967682822 0.020628197092891282 0.9345421732302804
0.01401138725132453 0.006507051242117078 0.9794815615065583
0.00031173476037966037 0.00014127419525960356 0.9995469910443607
0.047746208707753056 0.021911669671010964 0.9303421216212361
0.011943916453395872 0.005344390201452891 0.9827116933451512
0.021767057544985324 0.0102045596001448 0.9680283828548698
0.005435924573786402 0.0024325037712745767 0.9921315716549389
0.020195414181892087 0.009181369351881848 0.9706232164662261
0.05181956514803769 0.02524474484858347 0.9229356900033789
0.0726351548103203 0.03764271942731997 0.8897221257623597
0.10438448252927801 0.05432251561692779 0.8412930018537942
0.03559339122933036 0.01750

In [9]:
# O código realiza a geração de uma matriz de contingência para comparar as previsões de um modelo com as classes originais de uma base de dados. Primeiro, ele calcula as previsões com maior porcentagem de confiança usando `previsoes_porcentagem.argmax(axis=0)`. Em seguida, utiliza a função `confusion_matrix` para calcular a matriz de contingência entre as classes reais (em `iris.target`) e as previsões. O resultado é armazenado na variável `resultados`.

previsoes = previsoes_porcentagem.argmax(axis = 0)
resultados = confusion_matrix(iris.target, previsoes)
print('Matriz de Confusão:\n', resultados)

Matriz de Confusão:
 [[ 0  0 50]
 [47  3  0]
 [13 37  0]]
