In [None]:
!pip install pycaret

In [None]:
import pycaret
print(pycaret.__version__)

In [None]:
import numpy as np

from pycaret.clustering import (
    assign_model,
    create_model,
    models,
    plot_model,
    predict_model,
    save_model,
    setup,
)

from pycaret.datasets import get_data

# PyCaret para Agrupamento

Neste exercício, você vai escolher outra base de dados do Pycaret para repetir a pipeline realizada em aula.

## Base de dados

Recupere todas as bases de dados disponibilizadas pelo Pycaret.

In [None]:
all_bases = get_data('index')

Desta vez, vamos utilizar o dataset `facebook`.

Recupere este dataset.

In [None]:
dataset = get_data('facebook')

Verifique quantas instâncias e quantos atributos este dataset possui.

In [None]:
dataset.shape

Gere uma base de treinamento correspondente a 90% dos dados totais.

In [None]:
base_train = dataset.sample(frac=0.9, random_state=1)
base_train.shape

Gere a base de testes, correspondente aos dados totais que não estão presentes na base de treinamento.

In [None]:
base_test = dataset.drop(base_train.index)
base_test.shape

## Configuração do ambiente PyCaret

Gere um experimento, utilizando a base de treinamento, baseado no tipo de status e nos atributos que quantificam as reações às publicações. Ou seja, você deve ignorar os atributos `status_id` e `status_published`. Solicite que os dados sejam normalizados.

In [None]:
experiment = setup(
    data=base_train,
    target='status_type',
    ignore_features=['status_id', 'status_published'],
    normalize=True,
    session_id=1,
)

Verifique quais são os modelos de agrupamento disponíveis.

In [None]:
models()

Instancie um modelo do tipo Density-Based Spatial Clustering.

In [None]:
dbscan = create_model('dbscan')

Gere os resultados para este modelo.

In [None]:
results_dbscan = assign_model(dbscan)
results_dbscan

## Gráficos

Exiba um gráfico do modelo com os resultados do agrupamento.

In [None]:
plot_model(dbscan)

Exiba um gráfico com a distribuição dos clusters gerados.

In [None]:
plot_model(dbscan, plot='distribution')

Exiba o gráfico de distribuição, enfatizando os tipos de status (`statys_type`).

In [None]:
plot_model(dbscan, plot='distribution', feature='statys_type', color_map='Set2')

Observe que o Cluster 0 é dominado por publicações de vídeos, o Cluster 1 por publicações de fotos, o Cluster 8 por links e o Cluster 2 por atualizações de status.

Este algoritmo não fornece suporte para predições, somente para agrupamento de todos os dados, sendo utilizado para o estudo do dataset.

Para finalizar, salve o modelo.

In [None]:
save_model(dbscan, 'dbscan')