In [1]:
import nltk
import string
import re

In [2]:
texto_original = """Algoritmos de aprendizado supervisionado utilizam dados coletados. A partir dos dados coletados, 
                    um conjunto de características é extraído. As características podem ser estruturais ou estatísticas. 
                    As características estruturais estabelecem relações entre os dados, enquanto que as estatísticas 
                    são características quantitativas. A partir das características, os modelos de aprendizado de 
                    máquina são construídos para o reconhecimento de atividades humanas."""
texto_original

'Algoritmos de aprendizado supervisionado utilizam dados coletados. A partir dos dados coletados, \n                    um conjunto de características é extraído. As características podem ser estruturais ou estatísticas. \n                    As características estruturais estabelecem relações entre os dados, enquanto que as estatísticas \n                    são características quantitativas. A partir das características, os modelos de aprendizado de \n                    máquina são construídos para o reconhecimento de atividades humanas.'

In [3]:
texto_original = re.sub(r'\s+',' ',texto_original)
texto_original

'Algoritmos de aprendizado supervisionado utilizam dados coletados. A partir dos dados coletados, um conjunto de características é extraído. As características podem ser estruturais ou estatísticas. As características estruturais estabelecem relações entre os dados, enquanto que as estatísticas são características quantitativas. A partir das características, os modelos de aprendizado de máquina são construídos para o reconhecimento de atividades humanas.'

In [4]:
def converte_para_minusculas (texto):
    return texto.lower()

In [5]:
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words("portuguese")

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\andre\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [6]:
def remove_stopwords (texto):
    texto_formatado = converte_para_minusculas(texto)
    tokens = [] # lista de tokens
    for token in nltk.word_tokenize(texto_formatado): # token é cada uma das palavras
        tokens.append(token) # insere na lista de tokens
    tokens = [cada_token for cada_token in tokens if cada_token not in stopwords and cada_token not in string.punctuation] 
    texto_formatado = ' '.join([str(cada_token) for cada_token in tokens if not cada_token.isdigit()])
    return texto_formatado   

In [7]:
texto_formatado = remove_stopwords(texto_original)
texto_formatado

'algoritmos aprendizado supervisionado utilizam dados coletados partir dados coletados conjunto características extraído características podem ser estruturais estatísticas características estruturais estabelecem relações dados enquanto estatísticas características quantitativas partir características modelos aprendizado máquina construídos reconhecimento atividades humanas'

In [8]:
frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
frequencia_palavras

FreqDist({'características': 5, 'dados': 3, 'aprendizado': 2, 'coletados': 2, 'partir': 2, 'estruturais': 2, 'estatísticas': 2, 'algoritmos': 1, 'supervisionado': 1, 'utilizam': 1, ...})

In [9]:
from sklearn.feature_extraction.text import CountVectorizer

In [10]:
documento = ['Algoritmos de aprendizados supervisionados utilizam dados coletados.',
'A partir dos dado coletado, conjunto de características é extraído.',
'As características podem ser estruturais ou estatísticas.',
'As características estruturais estabelecem relações entre os dados, enquanto que as estatísticas são características quantitativas.',
'A partir das características, os modelos de aprendizado de máquina são construídos para o reconhecimento de atividades humanas.']

In [11]:
vetorizador = CountVectorizer(documento, binary=True, stop_words=['de','das','as','ou','dos'], min_df=2, max_df=0.85)
BoW = vetorizador.fit_transform(documento)
vetorizador.vocabulary_
#BoW.shape




{'dados': 1,
 'partir': 5,
 'características': 0,
 'estruturais': 3,
 'estatísticas': 2,
 'os': 4,
 'são': 6}

In [12]:
print(BoW.toarray())

[[0 1 0 0 0 0 0]
 [1 0 0 0 0 1 0]
 [1 0 1 1 0 0 0]
 [1 1 1 1 1 0 1]
 [1 0 0 0 1 1 1]]


In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [14]:
vetorizador = TfidfVectorizer(documento, stop_words=['de','das','as','ou','dos'],min_df=2, max_df=0.8)
BoW = vetorizador.fit_transform(documento)
print(BoW.toarray())

[[0.         1.         0.         0.         0.         0.
  0.        ]
 [0.57252551 0.         0.         0.         0.         0.8198869
  0.        ]
 [0.44274009 0.         0.63402729 0.63402729 0.         0.
  0.        ]
 [0.52974084 0.37930849 0.37930849 0.37930849 0.37930849 0.
  0.37930849]
 [0.37391794 0.         0.         0.         0.53547032 0.53547032
  0.53547032]]


In [15]:
vetor_palavras = []
for cada_palavra in nltk.word_tokenize(texto_formatado):
    vetor_palavras.append(cada_palavra)
vetor_palavras

['algoritmos',
 'aprendizado',
 'supervisionado',
 'utilizam',
 'dados',
 'coletados',
 'partir',
 'dados',
 'coletados',
 'conjunto',
 'características',
 'extraído',
 'características',
 'podem',
 'ser',
 'estruturais',
 'estatísticas',
 'características',
 'estruturais',
 'estabelecem',
 'relações',
 'dados',
 'enquanto',
 'estatísticas',
 'características',
 'quantitativas',
 'partir',
 'características',
 'modelos',
 'aprendizado',
 'máquina',
 'construídos',
 'reconhecimento',
 'atividades',
 'humanas']

In [16]:
def identifica_bigramas (texto):
    vetor_bigramas = []
    for i in range(0, len(texto)):
        if i == len(texto)-1:
            break
        else:
            cada_bigrama = texto[i] + ' > ' + texto [i+1]
    
    vetor_bigramas.append(cada_bigrama)
    return vetor_bigramas

In [17]:
vetor_bigramas = identifica_bigramas(vetor_palavras)
vetor_bigramas

['atividades > humanas']

In [18]:
from nltk.collocations import BigramCollocationFinder

In [19]:
medidas_bigramas = nltk.collocations.BigramAssocMeasures()

In [20]:
bigramas_encontrados = BigramCollocationFinder.from_words(nltk.word_tokenize(texto_formatado))
#bigramas_encontrados = nltk.FreqDist(nltk.bigrams(vetor_palavras))
bigramas_encontrados.apply_freq_filter(2)
bigramas_encontrados.nbest(medidas_bigramas.pmi, 5)


[('dados', 'coletados'), ('estatísticas', 'características')]

## Parte 2

In [22]:
sentencas_originais = [sentenca for sentenca in nltk.sent_tokenize(texto_original)]
sentencas_originais

['Algoritmos de aprendizado supervisionado utilizam dados coletados.',
 'A partir dos dados coletados, um conjunto de características é extraído.',
 'As características podem ser estruturais ou estatísticas.',
 'As características estruturais estabelecem relações entre os dados, enquanto que as estatísticas são características quantitativas.',
 'A partir das características, os modelos de aprendizado de máquina são construídos para o reconhecimento de atividades humanas.']

In [23]:
sentencas_formatadas = [remove_stopwords(sentenca_original) for sentenca_original in sentencas_originais]

In [24]:
sentencas_originais

['Algoritmos de aprendizado supervisionado utilizam dados coletados.',
 'A partir dos dados coletados, um conjunto de características é extraído.',
 'As características podem ser estruturais ou estatísticas.',
 'As características estruturais estabelecem relações entre os dados, enquanto que as estatísticas são características quantitativas.',
 'A partir das características, os modelos de aprendizado de máquina são construídos para o reconhecimento de atividades humanas.']

In [25]:
sentencas_formatadas

['algoritmos aprendizado supervisionado utilizam dados coletados',
 'partir dados coletados conjunto características extraído',
 'características podem ser estruturais estatísticas',
 'características estruturais estabelecem relações dados enquanto estatísticas características quantitativas',
 'partir características modelos aprendizado máquina construídos reconhecimento atividades humanas']

In [27]:
!pip install networkx

Collecting networkx
  Downloading networkx-2.5.1-py3-none-any.whl (1.6 MB)
Installing collected packages: networkx
ERROR: Could not install packages due to an EnvironmentError: [WinError 5] Acesso negado: 'c:\\python38\\share'
Consider using the `--user` option or check the permissions.

You should consider upgrading via the 'c:\python38\python.exe -m pip install --upgrade pip' command.


In [28]:
from nltk.cluster.util import cosine_distance
import networkx as nx

In [39]:
def calcula_similaridade(sentenca_1, sentenca_2):
    vetor_p1 = [cada_palavra for cada_palavra in nltk.word_tokenize(sentenca_1)]
    vetor_p2 = [cada_palavra for cada_palavra in nltk.word_tokenize(sentenca_2)]
    print(vetor_p1)
    print(vetor_p2)
    todas_palavras = list(vetor_p1 + vetor_p2)
    print(todas_palavras)
    vetor_s1 = [0] * len(todas_palavras)
    vetor_s2 = [0] * len(todas_palavras)

    for cada_palavra in vetor_p1:
        vetor_s1[todas_palavras.index(cada_palavra)] += 1
    
    for cada_palavra in vetor_p1:
        vetor_s2[todas_palavras.index(cada_palavra)] += 1

    print(vetor_s1)
    print(vetor_s2)

    return 1-cosine_distance(vetor_s1, vetor_s2)


In [40]:
calcula_similaridade(sentencas_formatadas[0], sentencas_formatadas[1])

['algoritmos', 'aprendizado', 'supervisionado', 'utilizam', 'dados', 'coletados']
['partir', 'dados', 'coletados', 'conjunto', 'características', 'extraído']
['algoritmos', 'aprendizado', 'supervisionado', 'utilizam', 'dados', 'coletados', 'partir', 'dados', 'coletados', 'conjunto', 'características', 'extraído']
[1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0]
[1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0]


1.0000000000000002

In [43]:
import numpy as np

In [53]:
def gera_matriz_similaridade(sentencas):
    matriz_similaridades = np.zeros((len(sentencas), len(sentencas)))
    
    for i in range(len(sentencas)):
        for j in range(len(sentencas)):
            if i == j:
                continue
            else:
                matriz_similaridades[i][j] = calcula_similaridade(sentencas[i], sentencas[j])

    print(matriz_similaridades)
    return matriz_similaridades

In [54]:
gera_matriz_similaridade(sentencas_formatadas)

['algoritmos', 'aprendizado', 'supervisionado', 'utilizam', 'dados', 'coletados']
['partir', 'dados', 'coletados', 'conjunto', 'características', 'extraído']
['algoritmos', 'aprendizado', 'supervisionado', 'utilizam', 'dados', 'coletados', 'partir', 'dados', 'coletados', 'conjunto', 'características', 'extraído']
[1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0]
[1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0]
['algoritmos', 'aprendizado', 'supervisionado', 'utilizam', 'dados', 'coletados']
['características', 'podem', 'ser', 'estruturais', 'estatísticas']
['algoritmos', 'aprendizado', 'supervisionado', 'utilizam', 'dados', 'coletados', 'características', 'podem', 'ser', 'estruturais', 'estatísticas']
[1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0]
[1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0]
['algoritmos', 'aprendizado', 'supervisionado', 'utilizam', 'dados', 'coletados']
['características', 'estruturais', 'estabelecem', 'relações', 'dados', 'enquanto', 'estatísticas', 'características', 'quantitativas']
['algoritmos', 'aprendizado',

array([[0., 1., 1., 1., 1.],
       [1., 0., 1., 1., 1.],
       [1., 1., 0., 1., 1.],
       [1., 1., 1., 0., 1.],
       [1., 1., 1., 1., 0.]])

In [73]:
def define_rank (texto, n):
    sentencas_originais = [cada_sentenca for cada_sentenca in nltk.sent_tokenize(texto_original)]
    sentencas_formatadas = [remove_stopwords(sentenca_original) for sentenca_original in sentencas_originais]
    matriz_similaridades = gera_matriz_similaridade(sentencas_formatadas)
    #print(matriz_similaridades)
    grafo_similaridade = nx.from_numpy_array(matriz_similaridades)
    #print(grafo_similaridade.nodes)
    #print(grafo_similaridade.edges)
    notas_sentencas = nx.pagerank(grafo_similaridade)
    #print(notas_sentencas)
    notas_ordenadas = sorted(((notas_sentencas[i],nota) for i, nota in enumerate(sentencas_originais)), reverse=True)
    #print(notas_ordenadas)
    melhoers_sentencas = []
    for i in range(n):
        melhores_sentencas.append(notas_ordenadas[i][1])
    return sentencas_originias, melhores_sentencas, notas_ordenadas

In [74]:
sentencas_originais, melhores_sentencas, notas_ordenadas = define_rank(texto_original, 3)

['algoritmos', 'aprendizado', 'supervisionado', 'utilizam', 'dados', 'coletados']
['partir', 'dados', 'coletados', 'conjunto', 'características', 'extraído']
['algoritmos', 'aprendizado', 'supervisionado', 'utilizam', 'dados', 'coletados', 'partir', 'dados', 'coletados', 'conjunto', 'características', 'extraído']
[1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0]
[1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0]
['algoritmos', 'aprendizado', 'supervisionado', 'utilizam', 'dados', 'coletados']
['características', 'podem', 'ser', 'estruturais', 'estatísticas']
['algoritmos', 'aprendizado', 'supervisionado', 'utilizam', 'dados', 'coletados', 'características', 'podem', 'ser', 'estruturais', 'estatísticas']
[1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0]
[1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0]
['algoritmos', 'aprendizado', 'supervisionado', 'utilizam', 'dados', 'coletados']
['características', 'estruturais', 'estabelecem', 'relações', 'dados', 'enquanto', 'estatísticas', 'características', 'quantitativas']
['algoritmos', 'aprendizado',

NameError: name 'melhores_sentencas' is not defined

In [75]:
sentencas_originais

['Algoritmos de aprendizado supervisionado utilizam dados coletados.',
 'A partir dos dados coletados, um conjunto de características é extraído.',
 'As características podem ser estruturais ou estatísticas.',
 'As características estruturais estabelecem relações entre os dados, enquanto que as estatísticas são características quantitativas.',
 'A partir das características, os modelos de aprendizado de máquina são construídos para o reconhecimento de atividades humanas.']

In [76]:
melhores_sentencas

NameError: name 'melhores_sentencas' is not defined

In [77]:
notas_ordenadas

NameError: name 'notas_ordenadas' is not defined