<a href="https://colab.research.google.com/github/valterlucena/recuperacao-informacao/blob/master/stemming/token_stemming.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [27]:
import pandas as pd
import numpy as np
import re
import nltk
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
from nltk.stem import RSLPStemmer
from nltk.stem.porter import *
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

import matplotlib.pyplot as plt
import seaborn as sns

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


In [0]:
DATA_URL = 'https://raw.githubusercontent.com/valterlucena/ri_lab_01/master/output/results.csv'
news = pd.read_csv(DATA_URL).replace(np.nan, '', regex=True)

In [0]:
toker = RegexpTokenizer('''\w+[-']*\w*''')
stop_words = stopwords.words('portuguese')

def isValid(token):
  return token not in stop_words and not bool(re.search(r'\d', token))

word_list = []
for new in news.text:
  tokens = [token for token in toker.tokenize(new) if isValid(token)]
  word_list.extend(tokens)
  
word_list

In [0]:
total_documents = news.text.count()
total_word_occurences = len(word_list)
vocabulary_size = len(set(word_list))

words = pd.DataFrame(word_list, columns=['word'])
word_counts = words.word.value_counts().reset_index()
word_counts.columns = ['word', 'freq']
word_counts['r'] = word_counts.freq.rank(ascending=False, method='first')

occurs_mt_thousand = len(word_counts[word_counts.freq > 1000])
occurs_once = len(word_counts[word_counts.freq == 1])

In [5]:
statistics = ['Total documents', 
              'Total word occurences',
              'Vocabulary size',
              'Words occuring > 1000 times',
              'Words occuring once'
             ]

values = [total_documents,
          total_word_occurences,
          vocabulary_size,
          occurs_mt_thousand,
          occurs_once
         ]

result_table = pd.DataFrame(data={'statistics': statistics, 'values': values})
result_table

Unnamed: 0,statistics,values
0,Total documents,146
1,Total word occurences,36223
2,Vocabulary size,11055
3,Words occuring > 1000 times,0
4,Words occuring once,6314


In [28]:
stemmer = PorterStemmer()
stemmed = [stemmer.stem(word) for word in word_list]
for i in range(len(word_list)):
  print(word_list[i], stemmed[i])

O O
Ministério ministério
Público público
Estado estado
São são
Paulo paulo
requereu requereu
junto junto
Justiça justiça
processo processo
penal penal
corre corr
Vara vara
Juizado juizado
Especial especi
Embu embu
Artes art
SP SP
youtuber youtub
Nando nando
Moura moura
condenado condenado
injúria injúria
difamação difamação
estudante estudant
interior interior
São são
Paulo paulo
chamou chamou
vagabunda vagabunda
três trê
vezes veze
vídeo vídeo
publicado publicado
internet internet
visto visto
mil mil
pessoas pessoa
A A
pena pena
requerida requerida
promotoria promotoria
paulista paulista
é é
dois doi
anos ano
detenção detenção
O O
episódio episódio
ocorreu ocorreu
final final
processo processo
número número
parado parado
janeiro janeiro
deste dest
ano ano
Isso isso
porque porqu
advogados advogado
estudante estudant
ofendida ofendida
youtuber youtub
levaram levaram
quase quas
dois doi
anos ano
conseguir conseguir
entregar entregar
citação citação
réu réu
conhecido conhecido
defensor d