# RAKE-NLTK

RAKE short for Rapid Automatic Keyword Extraction algorithm, 
is a domain independent keyword extraction algorithm which 
tries to determine key phrases in a body of text by analyzing 
the frequency of word appearance and its co-occurance 
with other words in the text.


https://pypi.org/project/rake-nltk/

Unsupervised Key Phrases (Topic) Extraction with RAKE | Applied NLP Tutorial in Python
https://www.youtube.com/watch?v=ZOgrhn2Uq0U
https://www.kaggle.com/code/nulldata/keyphrase-keywords-extraction-using-rake/notebook

In [1]:
import pandas as pd
import numpy as np

import re
import string
import nltk
#nltk.download('stopwords')
from nltk.tokenize import word_tokenize
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords

from nltk.collocations import *
from collections import Counter
from nltk import bigrams
from nltk import trigrams
from nltk import ngrams

In [2]:
from rake_nltk import Rake
# Uses stopwords for english from NLTK, and all puntuation characters by default
#r = Rake(stopwords= set(nltk.corpus.stopwords.words('portuguese')), punctuations = [')','(',',',':','),',').','.'])
#r = Rake()

In [3]:
# Text Example:
mytext3 = '''Compability of systems of linear constraints over the set of
            natural numbers. Criteria og compability of a system of linear
            Diophantine equations, strict inequations, and nonstrict inequations are
            considered. Upper bounds for components of a minimal set of solutions and algorithms
            of constructions of minimal generating sets os solutions for all types of
            systems are given. These criteria and the corresponding algorithms for constructiong
            a minimal supporting set of solutions can be used in solving all considered types of systems and
            systems od mixed types.'''

mytext2 = '''Compatibilidade de sistemas de restrições lineares sobre o conjunto de
            números naturais. Critérios de compatibilidade de um sistema de
            Equações diofantinas, inequações estritas e inequações não estritas são
            considerado. Limites superiores para componentes de um conjunto mínimo de soluções e algoritmos
            de construções de grupos geradores mínimos ou soluções para todos os tipos de
            sistemas são dados. Esses critérios e os algoritmos correspondentes para construção
            um conjunto mínimo de soluções de suporte pode ser usado para resolver todos os tipos considerados de sistemas e
            sistemas de tipos mistos.'''

mytext = '''Telefonia Ana Paula bom dia. Bom dia Ana Paula meu nome é João
             e estou ligando para desbloquear minha internet. O senhor pode confirmar sem telefone ? Sim é quatro cinco oito dois.
             Obrigado por ter aguardado. É só a internet deseja desbloquear. posso te ajudar com algo mais? Não era só isso. Telefonia agradece a sua ligação. tenha um ótimo dia. igualmente.
            '''

In [4]:
token = nltk.word_tokenize(mytext)

In [5]:
termos = nltk.FreqDist(token)
termos.most_common(15)

[('.', 9),
 ('dia', 3),
 ('Telefonia', 2),
 ('Ana', 2),
 ('Paula', 2),
 ('é', 2),
 ('desbloquear', 2),
 ('internet', 2),
 ('?', 2),
 ('só', 2),
 ('a', 2),
 ('bom', 1),
 ('Bom', 1),
 ('meu', 1),
 ('nome', 1)]

In [6]:
m_stopwords = set(nltk.corpus.stopwords.words('portuguese'))

In [58]:
#m_stopwords.clear()

In [7]:
m_stopwords.update(['dia', 'posso', 'por', 
                    'meu', 'é', 'bom', 'o', 
                    'um', 'dois', 'tres', 'quatro',
                    'cinco', 'seis', 'sete', 'oito', 
                    'nove', 'dez', 'aguardado', 'só',
                    'momento', 'ultimos', 'digitos',
                    'senhor', 'senhora'
                   ])

In [8]:
m_stopwords

{'a',
 'aguardado',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'até',
 'bom',
 'cinco',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'dez',
 'dia',
 'digitos',
 'do',
 'dois',
 'dos',
 'e',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'estamos',
 'estar',
 'estas',
 'estava',
 'estavam',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéramos',
 'estivéssemos',
 'estou',
 'está',
 'estávamos',
 'estão',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fui',
 'fôramos',
 'fôssemos',
 'haja',
 'hajam',
 'hajamos',
 'havemos',
 'haver',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houveram',
 'houverei',
 'houverem',
 'houveremos',
 'houv

In [9]:
r = Rake(stopwords= m_stopwords, punctuations = [')','(',',',':','),',').','.','?'])

In [10]:
# Extraction given the text.
r.extract_keywords_from_text(mytext)

In [11]:
# Extraction given the list of strings where each string is a sentence.
#r.extract_keywords_from_sentences(<list of sentences>)
#r.extract_keywords_from_sentences()

In [12]:
# To get keyword phrases ranked highest to lowest.
r.get_ranked_phrases()

['telefonia ana paula',
 'internet deseja desbloquear',
 'ana paula',
 'telefonia agradece',
 'pode confirmar',
 'internet',
 'desbloquear',
 'ótimo',
 'ter',
 'telefone',
 'sim',
 'obrigado',
 'nome',
 'ligação',
 'ligando',
 'joão',
 'igualmente',
 'algo',
 'ajudar']

In [13]:
# To get keyword phrases ranked highest to lowest with scores.
r.get_ranked_phrases_with_scores()

[(7.5, 'telefonia ana paula'),
 (7.0, 'internet deseja desbloquear'),
 (5.0, 'ana paula'),
 (4.5, 'telefonia agradece'),
 (4.0, 'pode confirmar'),
 (2.0, 'internet'),
 (2.0, 'desbloquear'),
 (1.0, 'ótimo'),
 (1.0, 'ter'),
 (1.0, 'telefone'),
 (1.0, 'sim'),
 (1.0, 'obrigado'),
 (1.0, 'nome'),
 (1.0, 'ligação'),
 (1.0, 'ligando'),
 (1.0, 'joão'),
 (1.0, 'igualmente'),
 (1.0, 'algo'),
 (1.0, 'ajudar')]

In [14]:
phrase_df = pd.DataFrame(r.get_ranked_phrases_with_scores(), columns = ['score','phrase'])

In [15]:
phrase_df.loc[phrase_df.score>=2].sort_values('score', ascending = False)

Unnamed: 0,score,phrase
0,7.5,telefonia ana paula
1,7.0,internet deseja desbloquear
2,5.0,ana paula
3,4.5,telefonia agradece
4,4.0,pode confirmar
5,2.0,internet
6,2.0,desbloquear
