In [1]:
from nltk.stem.snowball import SnowballStemmer # spaCy doesn't contain
from spellchecker import SpellChecker
from textblob import TextBlob
import unicodedata
import inflect
import spacy
import os
import re

---

## Global variables

In [2]:
# Set spacy and stem for Portuguese Language
nlp = spacy.load("pt")
stemmer = SnowballStemmer(language='portuguese')

In [3]:
# Variables for usage
REGEX = {
    "end_punc": r"(\w)",
    "all_punc": r""
}

ARGS = {
    "dataset": "dataset"
}

# List all txt files of folder
files = os.listdir(ARGS["dataset"])

---

## Functions

In [4]:
def _all2ascii(tokens):
    def _removes(token):
        token = unicodedata.normalize('NFKD', token)
        return token.encode('ascii', 'ignore').decode('utf-8', 'ignore')

    return [_removes(_) for _ in tokens]

In [5]:
def _all2lower(tokens):
    return [_.lower() for _ in tokens]

In [6]:
def _changes_punctuation(tokens):
    return [re.sub(r"[^\w\s]", "", _) for _ in tokens]

In [7]:
def _numbers2words(tokens):
    inf = inflect.engine()
    return [inf.number_to_words(_) if _.isdigit() else _ for _ in tokens]

In [8]:
def normalize(tokens):
    tokens = _all2ascii(tokens)
    tokens = _all2lower(tokens)
    tokens = _changes_punctuation(tokens)
    tokens = _numbers2words(tokens)
    return tokens

---

In [9]:
# Read and decode the text
file = open(f'{ARGS["dataset"]}/{files[0]}', "rb")
text = file.read().decode('latin-1')
print(text)

Eternamente criança
<b> A mais recente versão para o cinema da história de Peter Pan pretende ser tão assustadora quanto fascinante   </b><br>
DÉBORA VICENTINI <br>
Ahistória do menino que não queria crescer sempre fascinou adultos e crianças no mundo inteiro. Agora, esses fãs poderão conferir mais uma versão dessa história mágica com o filme Peter Pan, que estréia hoje nos cinemas capixabas. Quem acha que Peter Pan não é nada mais do que uma fantasia infantil sobre crocodilos simpáticos, fadinhas voadoras, vilões bigodudos e piratas com ganchos no lugar de mãos deve repensar suas posições com essa nova versão, que tem roteiro e direção de P.J. Hogan (O Casamento de Muriel). A mais recente versão para o cinema da história criada há 100 anos pelo britânico J. M. Barrie sobre um garoto que se recusa a crescer pretende ser tão assustadora quanto fascinante e, além disso, agradar a todas as idades. O novo Peter Pan é a primeira versão moderna da história filmada com personagens 

In [10]:
# spelling correction
# text = TextBlob(text)
# text.detect_language()

In [11]:
# initial text
idoc = nlp(text)

In [12]:
# split the text
text = text.split()

In [13]:
# spelling correction
# spell = SpellChecker()

# # find those words that may be misspelled
# misspelled = spell.unknown(text)
# print(misspelled)

# for word in misspelled:
#     # Get the one `most likely` answer
#     print(spell.correction(word))

#     # Get a list of `likely` options
#     print(spell.candidates(word))

### Preprocess

**doc:** ents, sents <br>
**tokens:** text, lemma_, pos_, tag_, dep_, shape_, is_alpha, is_stop, start_char, end_char, label_, ent_iob_, ent_type_

In [14]:
# normalization
text = _all2ascii(text) # convert all text for ascii
text = _all2lower(text) # convert all text for lower case
text = _changes_punctuation(text) # changes punctuations for blank
text = _numbers2words(text) # convert all digits for words

# initializing
tokens = nlp(" ".join(text))

# print(text)

In [15]:
# Another method for see normalization params
# tokens = [_ for _ in doc]
# Convert to lower
# [_.lower_ for _ in tokens]
# Getting only words in the text
# [_.orth_ for _ in tokens if not _.is_punct]
# strings in each token
# [_.orth_ for _ in tokens]

---

### Process

In [16]:
# Removes Stop words
# nlp.Defaults.stop_words
[_ for _ in tokens if not _.is_stop]

[eternamente,
 crianca,
 b,
 a,
 recente,
 versao,
 o,
 cinema,
 historia,
 peter,
 pan,
 pretende,
 tao,
 assustadora,
 fascinante,
 bbr,
 debora,
 vicentini,
 br,
 ahistoria,
 menino,
 nao,
 queria,
 crescer,
 fascinou,
 adultos,
 e,
 criancas,
 mundo,
 inteiro,
 fas,
 poderao,
 conferir,
 versao,
 d,
 historia,
 magica,
 o,
 filme,
 peter,
 pan,
 estreia,
 cinemas,
 capixabas,
 acha,
 peter,
 pan,
 nao,
 e,
 fantasia,
 infantil,
 crocodilos,
 simpaticos,
 fadinhas,
 voadoras,
 viloes,
 bigodudos,
 e,
 piratas,
 ganchos,
 maos,
 repensar,
 posicoes,
 versao,
 roteiro,
 e,
 direcao,
 pj,
 hogan,
 o,
 casamento,
 muriel,
 a,
 recente,
 versao,
 o,
 cinema,
 historia,
 criada,
 ha,
 one,
 hundred,
 britanico,
 j,
 m,
 barrie,
 garoto,
 recusa,
 a,
 crescer,
 pretende,
 tao,
 assustadora,
 fascinante,
 e,
 alem,
 d,
 agradar,
 a,
 idades,
 o,
 peter,
 pan,
 e,
 a,
 versao,
 moderna,
 historia,
 filmada,
 personagens,
  ,
 o,
 angelical,
 jeremy,
 sumpter,
 fourteen,
 o,
 papeltitulo,
 o,

In [17]:
# Stemming
[(_.orth_, stemmer.stem(_.orth_)) for _ in tokens]

[('eternamente', 'etern'),
 ('crianca', 'crianc'),
 ('b', 'b'),
 ('a', 'a'),
 ('mais', 'mais'),
 ('recente', 'recent'),
 ('versao', 'versa'),
 ('para', 'par'),
 ('o', 'o'),
 ('cinema', 'cinem'),
 ('da', 'da'),
 ('historia', 'histor'),
 ('de', 'de'),
 ('peter', 'pet'),
 ('pan', 'pan'),
 ('pretende', 'pretend'),
 ('ser', 'ser'),
 ('tao', 'tao'),
 ('assustadora', 'assust'),
 ('quanto', 'quant'),
 ('fascinante', 'fascin'),
 ('bbr', 'bbr'),
 ('debora', 'debor'),
 ('vicentini', 'vicentin'),
 ('br', 'br'),
 ('ahistoria', 'ahistor'),
 ('do', 'do'),
 ('menino', 'menin'),
 ('que', 'que'),
 ('nao', 'nao'),
 ('queria', 'quer'),
 ('crescer', 'cresc'),
 ('sempre', 'sempr'),
 ('fascinou', 'fascin'),
 ('adultos', 'adult'),
 ('e', 'e'),
 ('criancas', 'crianc'),
 ('no', 'no'),
 ('mundo', 'mund'),
 ('inteiro', 'inteir'),
 ('agora', 'agor'),
 ('esses', 'esses'),
 ('fas', 'fas'),
 ('poderao', 'podera'),
 ('conferir', 'confer'),
 ('mais', 'mais'),
 ('uma', 'uma'),
 ('versao', 'versa'),
 ('d', 'd'),
 ('essa'

In [18]:
# Lemmatization
# aux = nlp(u"encontrei, encontraram, encontrarão, encontrariam")
[(_, _.lemma_) for _ in tokens]

[(eternamente, 'eternamente'),
 (crianca, 'crianca'),
 (b, 'b'),
 (a, 'o'),
 (mais, 'mais'),
 (recente, 'recente'),
 (versao, 'versao'),
 (para, 'parir'),
 (o, 'o'),
 (cinema, 'cinema'),
 (da, 'da'),
 (historia, 'historiar'),
 (de, 'de'),
 (peter, 'peter'),
 (pan, 'pan'),
 (pretende, 'pretender'),
 (ser, 'ser'),
 (tao, 'tao'),
 (assustadora, 'assustador'),
 (quanto, 'quantum'),
 (fascinante, 'fascinante'),
 (bbr, 'bbr'),
 (debora, 'debora'),
 (vicentini, 'vicentini'),
 (br, 'br'),
 (ahistoria, 'ahistoria'),
 (do, 'do'),
 (menino, 'menino'),
 (que, 'que'),
 (nao, 'nao'),
 (queria, 'querer'),
 (crescer, 'crescer'),
 (sempre, 'sempre'),
 (fascinou, 'fascinar'),
 (adultos, 'adulto'),
 (e, 'e'),
 (criancas, 'criancas'),
 (no, 'o'),
 (mundo, 'mundo'),
 (inteiro, 'inteirar'),
 (agora, 'agora'),
 (esses, 'esse'),
 (fas, 'fas'),
 (poderao, 'poderao'),
 (conferir, 'conferir'),
 (mais, 'mais'),
 (uma, 'umar'),
 (versao, 'versao'),
 (d, 'd'),
 (essa, 'esse'),
 (historia, 'historiar'),
 (magica, 'm

In [19]:
# Grammatical classes (PoSTagger)
[(_.orth_, _.pos_) for _ in tokens]

[('eternamente', 'ADV'),
 ('crianca', 'ADV'),
 ('b', 'PRON'),
 ('a', 'ADP'),
 ('mais', 'ADV'),
 ('recente', 'ADJ'),
 ('versao', 'NOUN'),
 ('para', 'ADP'),
 ('o', 'DET'),
 ('cinema', 'NOUN'),
 ('da', 'ADP'),
 ('historia', 'NOUN'),
 ('de', 'ADP'),
 ('peter', 'VERB'),
 ('pan', 'PUNCT'),
 ('pretende', 'VERB'),
 ('ser', 'VERB'),
 ('tao', 'ADV'),
 ('assustadora', 'ADV'),
 ('quanto', 'DET'),
 ('fascinante', 'ADJ'),
 ('bbr', 'ADJ'),
 ('debora', 'ADJ'),
 ('vicentini', 'X'),
 ('br', 'ADJ'),
 ('ahistoria', 'VERB'),
 ('do', 'ADP'),
 ('menino', 'NOUN'),
 ('que', 'PRON'),
 ('nao', 'ADV'),
 ('queria', 'VERB'),
 ('crescer', 'VERB'),
 ('sempre', 'ADV'),
 ('fascinou', 'VERB'),
 ('adultos', 'NOUN'),
 ('e', 'CCONJ'),
 ('criancas', 'ADJ'),
 ('no', 'PRON'),
 ('mundo', 'NOUN'),
 ('inteiro', 'ADJ'),
 ('agora', 'ADV'),
 ('esses', 'DET'),
 ('fas', 'NOUN'),
 ('poderao', 'VERB'),
 ('conferir', 'VERB'),
 ('mais', 'ADV'),
 ('uma', 'NUM'),
 ('versao', 'NOUN'),
 ('d', 'ADP'),
 ('essa', 'DET'),
 ('historia', 'NOUN'),


### Others analyzes

In [20]:
# Similatiry between words
# print(f"Tokens: [{tokens[0]}][{tokens[1]}] : "
#       f"similarity[{tokens[0].similarity(tokens[1])}]")

# print(f"Tokens: [{tokens[12]}][{tokens[14]}] : "
#       f"similarity[{tokens[12].similarity(tokens[14])}]")

# print(f"Tokens: [{tokens[16]}][{tokens[17]}] : "
#       f"similarity[{tokens[16].similarity(tokens[17])}]")

# print(f"Tokens: [{tokens[16]}][{tokens[1]}] : "
#       f"similarity[{tokens[16].similarity(tokens[1])}]")

In [21]:
# Check ancestor of words
# aux = nlp(u"encontrar encontrei")
# aux_tk = [_ for _ in aux]
# aux_tk[0].is_ancestor(aux_tk[1])

# tokens[0].is_ancestor(tokens[1])

In [22]:
# Getting entities
# aux = nlp(u'Machado de Assis um dos melhores escritores do Brasil, foi o primeiro presidente da Academia Brasileira de Letras')

# [(_, _.label_) for _ in aux.ents]
# [(_, _.label_) for _ in doc.ents]

---