In [1]:
import re
import nltk
import string
from nltk.corpus import stopwords, machado
from collections import Counter
from nltk.stem import RSLPStemmer

## Downloading resources from nltk

In [2]:
# download list of stopwords
nltk.download('stopwords')
# RSLPStemmer
nltk.download('rslp')
# WordNetLemmatizer
nltk.download('wordnet')
# download machado files
nltk.download('machado')

[nltk_data] Downloading package stopwords to /home/lps/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package rslp to /home/lps/nltk_data...
[nltk_data]   Package rslp is already up-to-date!
[nltk_data] Downloading package wordnet to /home/lps/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package machado to /home/lps/nltk_data...
[nltk_data]   Package machado is already up-to-date!


True

In [3]:
raw_text = machado.raw('romance/marm05.txt')
text = raw_text[0:986]
text

'Romance, Memórias Póstumas de Brás Cubas, 1880\n\nMemórias Póstumas de\nBrás Cubas\n\nTexto-fonte:\nObra Completa, Machado de\nAssis,\nRio\nde Janeiro: Editora Nova Aguilar, 1994.\n\nPublicado originalmente em\nfolhetins, a partir de março de 1880, na Revista Brasileira.\n\nAo verme\nque\nprimeiro roeu as frias\ncarnes\ndo meu cadáver\n\ndedico\ncomo saudosa lembrança\n\nestas\nMemórias\nPóstumas\n\nPrólogo da terceira\nedição\n\nA primeira edição destas\nMemórias Póstumas de Brás Cubas foi feita aos pedaços na Revista\nBrasileira, pelos anos de 1880. Postas mais tarde em livro, corrigi o texto em\nvários lugares. Agora que tive de o rever para a terceira edição, emendei ainda\nalguma coisa e suprimi duas ou três dúzias de linhas. Assim composta, sai\nnovamente à luz esta obra que alguma benevolência parece ter encontrado no\npúblico.\n\nCapistrano de Abreu, noticiando a\npublicação do livro, perguntava: \x93As Memórias Póstumas de Brás Cubas são\num romance?\x94 Macedo Soares, em car

## Removing unknown characters

In [4]:
def remove_unknown_char(text:str, unknown_char:str) -> str:
    """
        Remove all unknown character setted by parameter
    """
    return " ".join([word.replace(unknown_char, '') for word in text.split()])

In [5]:
text = remove_unknown_char(text, '\n')
text = remove_unknown_char(text, '\x93')
text = remove_unknown_char(text, '\x94')
text

'Romance, Memórias Póstumas de Brás Cubas, 1880 Memórias Póstumas de Brás Cubas Texto-fonte: Obra Completa, Machado de Assis, Rio de Janeiro: Editora Nova Aguilar, 1994. Publicado originalmente em folhetins, a partir de março de 1880, na Revista Brasileira. Ao verme que primeiro roeu as frias carnes do meu cadáver dedico como saudosa lembrança estas Memórias Póstumas Prólogo da terceira edição A primeira edição destas Memórias Póstumas de Brás Cubas foi feita aos pedaços na Revista Brasileira, pelos anos de 1880. Postas mais tarde em livro, corrigi o texto em vários lugares. Agora que tive de o rever para a terceira edição, emendei ainda alguma coisa e suprimi duas ou três dúzias de linhas. Assim composta, sai novamente à luz esta obra que alguma benevolência parece ter encontrado no público. Capistrano de Abreu, noticiando a publicação do livro, perguntava: As Memórias Póstumas de Brás Cubas são um romance? Macedo Soares, em carta que me escreveu por esse tempo'

## Lower Casing

In [6]:
text = text.lower()
text

'romance, memórias póstumas de brás cubas, 1880 memórias póstumas de brás cubas texto-fonte: obra completa, machado de assis, rio de janeiro: editora nova aguilar, 1994. publicado originalmente em folhetins, a partir de março de 1880, na revista brasileira. ao verme que primeiro roeu as frias carnes do meu cadáver dedico como saudosa lembrança estas memórias póstumas prólogo da terceira edição a primeira edição destas memórias póstumas de brás cubas foi feita aos pedaços na revista brasileira, pelos anos de 1880. postas mais tarde em livro, corrigi o texto em vários lugares. agora que tive de o rever para a terceira edição, emendei ainda alguma coisa e suprimi duas ou três dúzias de linhas. assim composta, sai novamente à luz esta obra que alguma benevolência parece ter encontrado no público. capistrano de abreu, noticiando a publicação do livro, perguntava: as memórias póstumas de brás cubas são um romance? macedo soares, em carta que me escreveu por esse tempo'

## Removing Punctuations

In [7]:
def remove_punctuations(text:str) -> str:
    """
        Remove all ponctuations in the text input
    """
    punct = string.punctuation

    return text.translate(str.maketrans('', '', punct))

In [8]:
text = remove_punctuations(text)
text

'romance memórias póstumas de brás cubas 1880 memórias póstumas de brás cubas textofonte obra completa machado de assis rio de janeiro editora nova aguilar 1994 publicado originalmente em folhetins a partir de março de 1880 na revista brasileira ao verme que primeiro roeu as frias carnes do meu cadáver dedico como saudosa lembrança estas memórias póstumas prólogo da terceira edição a primeira edição destas memórias póstumas de brás cubas foi feita aos pedaços na revista brasileira pelos anos de 1880 postas mais tarde em livro corrigi o texto em vários lugares agora que tive de o rever para a terceira edição emendei ainda alguma coisa e suprimi duas ou três dúzias de linhas assim composta sai novamente à luz esta obra que alguma benevolência parece ter encontrado no público capistrano de abreu noticiando a publicação do livro perguntava as memórias póstumas de brás cubas são um romance macedo soares em carta que me escreveu por esse tempo'

## Removing stopwords

In [9]:
def remove_stopwords(text:str) -> str:
    """
        Revemo all stopwords of a text input
    """
    stopwd = stopwords.words('portuguese')

    return " ".join([word for word in text.split() if word not in stopwd])

In [10]:
text = remove_stopwords(text)
text

'romance memórias póstumas brás cubas 1880 memórias póstumas brás cubas textofonte obra completa machado assis rio janeiro editora nova aguilar 1994 publicado originalmente folhetins partir março 1880 revista brasileira verme primeiro roeu frias carnes cadáver dedico saudosa lembrança memórias póstumas prólogo terceira edição primeira edição destas memórias póstumas brás cubas feita pedaços revista brasileira anos 1880 postas tarde livro corrigi texto vários lugares agora rever terceira edição emendei ainda alguma coisa suprimi duas três dúzias linhas assim composta sai novamente luz obra alguma benevolência parece ter encontrado público capistrano abreu noticiando publicação livro perguntava memórias póstumas brás cubas romance macedo soares carta escreveu tempo'

## Removing unknown words

In [11]:
def remove_unknown_words(text:str) -> str:
        """
            Removing unknown words <= 2 after removing stopwords
        """
        return " ".join([word for word in text.split() if len(word) > 2])

In [12]:
text = remove_unknown_words(text)
text

'romance memórias póstumas brás cubas 1880 memórias póstumas brás cubas textofonte obra completa machado assis rio janeiro editora nova aguilar 1994 publicado originalmente folhetins partir março 1880 revista brasileira verme primeiro roeu frias carnes cadáver dedico saudosa lembrança memórias póstumas prólogo terceira edição primeira edição destas memórias póstumas brás cubas feita pedaços revista brasileira anos 1880 postas tarde livro corrigi texto vários lugares agora rever terceira edição emendei ainda alguma coisa suprimi duas três dúzias linhas assim composta sai novamente luz obra alguma benevolência parece ter encontrado público capistrano abreu noticiando publicação livro perguntava memórias póstumas brás cubas romance macedo soares carta escreveu tempo'

## Removing Frequent words

In [13]:
def frequent_words(text:str, num_top_frequency:int = 10) -> list:
    """
        Return a list of frequency words
    """
    freq = Counter()

    for word in text.split():
        # counting each word
        freq[word] += 1

    return freq.most_common(num_top_frequency)

In [14]:
frequent_words(text, num_top_frequency=20)

[('memórias', 5),
 ('póstumas', 5),
 ('brás', 4),
 ('cubas', 4),
 ('1880', 3),
 ('edição', 3),
 ('romance', 2),
 ('obra', 2),
 ('revista', 2),
 ('brasileira', 2),
 ('terceira', 2),
 ('livro', 2),
 ('alguma', 2),
 ('textofonte', 1),
 ('completa', 1),
 ('machado', 1),
 ('assis', 1),
 ('rio', 1),
 ('janeiro', 1),
 ('editora', 1)]

In [15]:
def remove_freq_words(text:str, top_frequency_word:int = 10) -> str:
    """
        Remove all stopwords in the input text
    """

    freq_words = [word for (word, _) in frequent_words(text=text, num_top_frequency=top_frequency_word)]

    return " ".join([word for word in text.split() if word not in freq_words])


In [16]:
text = remove_freq_words(text, top_frequency_word=5)
text

'romance textofonte obra completa machado assis rio janeiro editora nova aguilar 1994 publicado originalmente folhetins partir março revista brasileira verme primeiro roeu frias carnes cadáver dedico saudosa lembrança prólogo terceira edição primeira edição destas feita pedaços revista brasileira anos postas tarde livro corrigi texto vários lugares agora rever terceira edição emendei ainda alguma coisa suprimi duas três dúzias linhas assim composta sai novamente luz obra alguma benevolência parece ter encontrado público capistrano abreu noticiando publicação livro perguntava romance macedo soares carta escreveu tempo'

## Removing rare words

In [17]:
def remove_rare_words(text:str) -> str:
        """
            Remove all words with occurrence less than 1
        """

        freq_words = [word for (word, freq) in frequent_words(text=text, num_top_frequency=None) if freq == 1]

        # reversing top freq words to get all the rare one.
        rare_words = freq_words[::-1]
        
        return " ".join([word for word in text.split() if word not in rare_words])

In [18]:
text = remove_rare_words(text)
text

'romance obra revista brasileira terceira edição edição revista brasileira livro terceira edição alguma obra alguma livro romance'

## Steamming

For portuguese words, we'll use RSLPStemmer

In [19]:
def steamming(text:str) -> str:
    """
        Reduces each word to the root
    """
    steammer = RSLPStemmer()

    return " ".join([steammer.stem(word) for word in text.split()])

In [20]:
text = steamming(text)
text

'romanc obr revist brasil terc ediç ediç revist brasil livr terc ediç algum obr algum livr romanc'

## Removing URLs

In [21]:
def remove_urls(text:str) -> str:
    """
        Remove all url symbols from the input text
    """
    upattern = re.compile(r'https?://\S+|www\.\S+')
    return upattern.sub(r'', text)

In [22]:
# exemple adding two times a url
text += 'https://github.com/lps08/nlp_preprocessing_steps'
text += ' https://github.com/lps08/nlp_preprocessing_steps'
text

'romanc obr revist brasil terc ediç ediç revist brasil livr terc ediç algum obr algum livr romanchttps://github.com/lps08/nlp_preprocessing_steps https://github.com/lps08/nlp_preprocessing_steps'

In [23]:
text = remove_urls(text)
text

'romanc obr revist brasil terc ediç ediç revist brasil livr terc ediç algum obr algum livr romanc '

## Removing tags

In [24]:
def remove_tags(text):
    """
        Remove all tags from the input text
    """
    pattern = re.compile('<.*?>')
    return pattern.sub(r'', text)

In [25]:
# example tags
text += '<span>Title</span>'
text

'romanc obr revist brasil terc ediç ediç revist brasil livr terc ediç algum obr algum livr romanc <span>Title</span>'

In [26]:
text = remove_tags(text)
text

'romanc obr revist brasil terc ediç ediç revist brasil livr terc ediç algum obr algum livr romanc Title'