
## Agrupamento e Clusterização

<img src="https://i.imgur.com/S65Sk9c.jpg">
**Fonte da figura:** https://mubaris.com/posts/kmeans-clustering/

In [1]:
import pandas as pd

# Carrega o dataset de notícias do IF

df = pd.read_csv('./data/df_noticias_if.csv')
df['doc'] = df.apply(lambda row: row['titulo'] + ' ' + row['conteudo'], axis=1)
df['doc'].head()

0    Campus Barbacena divulga Resultado Provisório ...
1    Divulgado o Edital de convocação de assembleia...
2    Pesquisador da Bélgica realiza palestra no Cam...
3    Divulgada a homologação das inscrições à candi...
4    Aprovado Regulamento de Eventos, Cerimonial e ...
Name: doc, dtype: object

In [5]:
!pip install nltk --user

Collecting nltk
  Using cached https://files.pythonhosted.org/packages/92/75/ce35194d8e3022203cca0d2f896dbb88689f9b3fce8e9f9cff942913519d/nltk-3.5.zip
Collecting joblib (from nltk)
  Using cached https://files.pythonhosted.org/packages/b8/a6/d1a816b89aa1e9e96bcb298eb1ee1854f21662ebc6d55ffa3d7b3b50122b/joblib-0.15.1-py3-none-any.whl
Collecting regex (from nltk)
  Using cached https://files.pythonhosted.org/packages/a4/a7/a257a738bb85739f0f992e7d8da9970f5174b15f8cd6605ef54e76384f82/regex-2020.5.14-cp36-cp36m-win_amd64.whl
Collecting tqdm (from nltk)
  Using cached https://files.pythonhosted.org/packages/c9/40/058b12e8ba10e35f89c9b1fdfc2d4c7f8c05947df2d5eb3c7b258019fda0/tqdm-4.46.0-py2.py3-none-any.whl
Installing collected packages: joblib, regex, tqdm, nltk
  Running setup.py install for nltk: started
    Running setup.py install for nltk: finished with status 'done'
Successfully installed joblib-0.15.1 nltk-3.5 regex-2020.5.14 tqdm-4.46.0


  The script tqdm.exe is installed in 'C:\Users\edson\AppData\Roaming\Python\Python36\Scripts' which is not on PATH.
You are using pip version 18.1, however version 20.2b1 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.


In [6]:
import re
import nltk
from string import punctuation

# Pré-processamento

numbers = '0123456789'
stopwords = nltk.corpus.stopwords.words('portuguese')

def preprocessa(txt):
    txt = txt.lower()
    txt = ''.join([c for c in txt if c not in punctuation + numbers])
    txt = re.sub(r'\n|\r|\t', '', txt)
    txt = re.sub(r' .+? ', ' ', txt)
    txt = ' '.join([t for t in txt.split(' ') if t not in stopwords])
    
    return txt

df['doc'] = df['doc'].apply(preprocessa)
df['doc'].head()

ModuleNotFoundError: No module named 'nltk'

In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Vetorização

tfidf_vectorizer = TfidfVectorizer(
    min_df=2 # Frequência mínima
)
tfidf_matrix = tfidf_vectorizer.fit_transform(df['doc'])

tfidf_matrix.shape

(1000, 3663)

## Clusterização

Técnica de mineração de dados para agrupar dados automaticamente (aprendizado de máquina não-supervisionado), com base no seu grau de semelhança dos registros.

### Algoritmo K-Means

<img src="http://stanford.edu/~cpiech/cs221/img/kmeansViz.png">
**Fonte da figura:** http://stanford.edu/~cpiech/cs221/handouts/kmeans.html

In [4]:
from sklearn.cluster import KMeans

N_CLUSTERS = 25

kmeans = KMeans(
    n_clusters=N_CLUSTERS,
    max_iter=500,
    n_init=10,
    n_jobs=-1,
    random_state=1
)

kmeans.fit(tfidf_matrix)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=500,
    n_clusters=25, n_init=10, n_jobs=-1, precompute_distances='auto',
    random_state=1, tol=0.0001, verbose=0)

In [5]:
# Associa o id de cada cluster ao dataframe
df['clusters'] = kmeans.labels_

In [6]:
# Exibe o cluster dos 50 primeiros documentos
kmeans.labels_[:50]

array([20, 19, 10,  4, 20, 13, 12, 12, 20, 14, 20,  5, 15,  9,  4,  9,  0,
       10, 10, 10,  4, 14,  0,  2, 10,  9,  9,  0, 20,  0,  9,  3,  5, 16,
        3, 15, 16,  3, 15, 15,  3,  0, 10,  8, 20,  8, 15, 15, 15, 16],
      dtype=int32)

In [7]:
df[df['clusters'] == 0].head(5)['titulo']

16    Estudante do Campus Barbacena ganha medalha de...
22    Alunos do Campus Barbacena participam da cerim...
27    Obap em Barbacena: Apresentações artísticas e ...
29    Alunos do Curso Superior de Tecnologia em Sist...
41    Alunos do Campus Barbacena participam do IV En...
Name: titulo, dtype: object

In [8]:
# Exibe o título de 3 notícias de cada cluster
for i in range(N_CLUSTERS):
    print('Cluster', i + 1)
    print(df[df['clusters'] == i].head(3)['titulo'])
    print('\n----\n')

Cluster 1
16    Estudante do Campus Barbacena ganha medalha de...
22    Alunos do Campus Barbacena participam da cerim...
27    Obap em Barbacena: Apresentações artísticas e ...
Name: titulo, dtype: object

----

Cluster 2
158    Atenção formandos  dos Cursos de Nutrição e Li...
704    Divulgada a homologação do resultado da eleiçã...
705    Divulgada a homologação do resultado da eleiçã...
Name: titulo, dtype: object

----

Cluster 3
23     Cursos do Campus Barbacena recebem selo de qua...
106         Novo Processo Seletivo - EaD - IF Sudeste MG
121             Campus Barbacena reaproveita óleo usado 
Name: titulo, dtype: object

----

Cluster 4
31    Divulgada a seleção para Monitor da disciplina...
34    Divulgada a seleção de monitor para as discipl...
37    Divulgada a seleção de monitores paras discipl...
Name: titulo, dtype: object

----

Cluster 5
3     Divulgada a homologação das inscrições à candi...
14               Eleições CEPE: Homologação dos eleitos
20    Eleições CEPE:

## Comparação de algoritmos de clusterização

https://scikit-learn.org/stable/modules/clustering.html#overview-of-clustering-methods

<img src="https://scikit-learn.org/stable/_images/sphx_glr_plot_cluster_comparison_0011.png">

In [9]:
from sklearn.cluster import FeatureAgglomeration

fa = FeatureAgglomeration()
fa.fit_transform(tfidf_matrix.toarray())

array([[0.00064169, 0.        ],
       [0.00054253, 0.16098383],
       [0.0009236 , 0.        ],
       ...,
       [0.00084651, 0.1051223 ],
       [0.00096439, 0.08247019],
       [0.00141705, 0.        ]])

## Algoritmo Apriori

<img src="https://edumine.files.wordpress.com/2013/09/market-basket-analysis.png">

**Fonte da figura:** https://edumine.wordpress.com/2013/09/11/apriori-algorithm-simplified-with-an-example/

In [10]:
from mlxtend.frequent_patterns import apriori
from mlxtend.preprocessing import TransactionEncoder

dataset = [
    ['Milk', 'Onion', 'Nutmeg', 'Kidney Beans', 'Eggs', 'Yogurt'],
    ['Dill', 'Onion', 'Nutmeg', 'Kidney Beans', 'Eggs', 'Yogurt'],
    ['Milk', 'Apple', 'Kidney Beans', 'Eggs'],
    ['Milk', 'Unicorn', 'Corn', 'Kidney Beans', 'Yogurt'],
    ['Corn', 'Onion', 'Onion', 'Kidney Beans', 'Ice cream', 'Eggs']
]

te = TransactionEncoder()
te_ary = te.fit(dataset).transform(dataset)
df = pd.DataFrame(te_ary, columns=te.columns_)
df

Unnamed: 0,Apple,Corn,Dill,Eggs,Ice cream,Kidney Beans,Milk,Nutmeg,Onion,Unicorn,Yogurt
0,False,False,False,True,False,True,True,True,True,False,True
1,False,False,True,True,False,True,False,True,True,False,True
2,True,False,False,True,False,True,True,False,False,False,False
3,False,True,False,False,False,True,True,False,False,True,True
4,False,True,False,True,True,True,False,False,True,False,False


In [11]:
apriori(df, min_support=0.6)

Unnamed: 0,support,itemsets
0,0.8,(3)
1,1.0,(5)
2,0.6,(6)
3,0.6,(8)
4,0.6,(10)
5,0.8,"(3, 5)"
6,0.6,"(8, 3)"
7,0.6,"(5, 6)"
8,0.6,"(8, 5)"
9,0.6,"(10, 5)"


In [12]:
# Exibindo o nome dos itens (colunas)
apriori(df, min_support=0.6, use_colnames=True)

Unnamed: 0,support,itemsets
0,0.8,(Eggs)
1,1.0,(Kidney Beans)
2,0.6,(Milk)
3,0.6,(Onion)
4,0.6,(Yogurt)
5,0.8,"(Kidney Beans, Eggs)"
6,0.6,"(Onion, Eggs)"
7,0.6,"(Milk, Kidney Beans)"
8,0.6,"(Kidney Beans, Onion)"
9,0.6,"(Kidney Beans, Yogurt)"
