In [160]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import numpy as np
import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from unidecode import unidecode 

In [161]:
stop = set(stopwords.words('portuguese'))
stops = [unidecode(word).lower() for word in stop]

In [162]:
# Document with all texts
document = ["A inteligencia artificial é demais", "Como os robos são legais devido a inteligencia artificial", "Sera que a inteligencia artificial comandará o mundo", "Eu acho que a inteligencia artificial vai morrer", "Os livros são muito bons", "Temos que estudar mais literatura", "Sera que um dia as pessoas vão ler mais", "Sera que a leitura vai fazer parte do cotidiano brasileiro", "Já viu aquele video do MIT com o robos atirando? Que inteligência", "A população precisa aprender a ler urgentemente"]

In [163]:
# Clean text
clean_document = []

for sentence in document:
    
    word_tokens = word_tokenize(unidecode(sentence.lower())) 
  
    filtered_sentence = [w for w in word_tokens if not w in stops] 
  
    filtered_sentence = [] 
  
    for w in word_tokens: 
        if w not in stops: 
            filtered_sentence.append(w)

    clean_document.append(' '.join(filtered_sentence))

In [164]:
# Using TfidfVectorizer class to fit and transform the document
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(document)

In [165]:
# Implementing k-means
true_k = 2
model = KMeans(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1)
model.fit(X)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=100,
       n_clusters=2, n_init=1, n_jobs=None, precompute_distances='auto',
       random_state=None, tol=0.0001, verbose=0)

In [166]:
# Get the centroids features
order_centroids_ = model.cluster_centers_.argsort()[:, ::-1]
terms_ = vectorizer.get_feature_names()

In [174]:
# Print the centroids for evaluate each group
for i in range(true_k):
    print('\nCluster %d: \n' % i),
    for ind in order_centroids_[i, :10]:
        print('%s' % terms_[ind])


Cluster 0: 

inteligencia
artificial
são
os
demais
que
comandará
mundo
muito
livros

Cluster 1: 

que
mais
do
sera
temos
estudar
literatura
vão
parte
as


In [177]:
X = vectorizer.transform(['Vamos estudar inteligência artificial'])
predicted = model.predict(X)
print("Predição:\n  Cluster:" , predicted)

Predição:
  Cluster: [0]
