<h1> NLP - Application and Analysis
<h3> Author: Lucas Ferro Antunes de Oliveira
<h4> HAILab - PPGTS - PUCPR

<p> This notebook shows some applications of NLP models pursuing the construction of an annotated corpus. It also shows some normalization processes using Regex and post-analysis of the corpus.
<p> Note: applications and analysis are made with the CoNLL-U format.

---
<h3> These cells install and import the libraries used throughout the notebook.

In [3]:
# Install Libraries
!pip install stanza
!pip install spacy
!pip install unidecode



In [4]:
# Import Libraries
import re
import os
import io
import unidecode
import torch
import stanza
import spacy
import time

In [5]:
# Configure PATH to work directory
# In google colab, we must create a folder under "sample_data/" called "corpus", for organization
PATH = 'sample_data/corpus/'

In [6]:
# Download NLP Models
stanza.download('pt')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.2.2.json:   0%|   …

2021-08-16 12:42:27 INFO: Downloading default packages for language: pt (Portuguese)...
2021-08-16 12:42:28 INFO: File exists: /root/stanza_resources/pt/default.zip.
2021-08-16 12:42:31 INFO: Finished downloading models and saved to /root/stanza_resources.


---
<h1> Parsing and Realizing text
<h3> Next cells create the Parse and Realize functions
<p> It contains every rule to parse and realize words in Portuguese, since capitalized words to uncapitalized words.

<br> <p> Input type: string - usually a full sentence.
<br> Output type: string

In [7]:
def parse(text):
    text = re.sub(r'( )(cum)([ ,;!?.])', r'\1 com um\3', text, flags=re.U)
    
    text = re.sub(r'(Cum)([ ,;!?.])', r'Com um\2', text, flags=re.U)
    
    text = re.sub(r'(CUM)([ ,;!?.])', r'COM UM\2', text, flags=re.U)
    
    text = re.sub(r'( )(à)([ ,;!?.])', r'\1a a\3', text, flags=re.U)
    text = re.sub(r'( )(ao)([ ,;!?.])', r'\1a o\3', text, flags=re.U)
    text = re.sub(r'( )(às)([ ,;!?.])', r'\1a as\3', text, flags=re.U)
    text = re.sub(r'( )(aos)([ ,;!?.])', r'\1a os\3', text, flags=re.U)
    
    text = re.sub(r'(Ao)([ ,;!?.])', r'A o\2', text, flags=re.U)
    text = re.sub(r'(Aos)([ ,;!?.])', r'A os\2', text, flags=re.U)
    text = re.sub(r'(Às)([ ,;!?.])', r'A as\2', text, flags=re.U)
    
    text = re.sub(r'( )(Ao)([ ,;!?.])', r'\1A o\3', text, flags=re.U)
    text = re.sub(r'( )(Às)([ ,;!?.])', r'\1A as\3', text, flags=re.U)
    text = re.sub(r'( )(Aos)([ ,;!?.])', r'\1A os\3', text, flags=re.U)
    
    text = re.sub(r'(À)([ ,;!?.])', r'A A\2', text, flags=re.U)
    text = re.sub(r'(AO)([ ,;!?.])', r'A O\2', text, flags=re.U)
    text = re.sub(r'(ÀS)([ ,;!?.])', r'A AS\2', text, flags=re.U)
    text = re.sub(r'(AOS)([ ,;!?.])', r'A OS\2', text, flags=re.U)
    
    text = re.sub(r'( )(À)([ ,;!?.])', r'\1A A\3', text, flags=re.U)
    text = re.sub(r'( )(AO)([ ,;!?.])', r'\1A O\3', text, flags=re.U)
    text = re.sub(r'( )(ÀS)([ ,;!?.])', r'\1A AS\3', text, flags=re.U)
    text = re.sub(r'( )(AOS)([ ,;!?.])', r'\1A OS\3', text, flags=re.U)
    
    text = re.sub(r'( )(do)([ ,;!?.])', r'\1de o\3', text, flags=re.U)
    text = re.sub(r'( )(da)([ ,;!?.])', r'\1de a\3', text, flags=re.U)
    text = re.sub(r'( )(dos)([ ,;!?.])', r'\1de os\3', text, flags=re.U)
    text = re.sub(r'( )(das)([ ,;!?.])', r'\1de as\3', text, flags=re.U)
 
    text = re.sub(r'( )(Do)([ ,;!?.])', r'\1De o\3', text, flags=re.U)
    text = re.sub(r'( )(Da)([ ,;!?.])', r'\1De a\3', text, flags=re.U)
    text = re.sub(r'( )(Dos)([ ,;!?.])', r'\1De os\3', text, flags=re.U)
    text = re.sub(r'( )(Das)([ ,;!?.])', r'\1De as\3', text, flags=re.U)
    
    text = re.sub(r'( )(DO)([ ,;!?.])', r'\1DE O\3', text, flags=re.U)
    text = re.sub(r'( )(DA)([ ,;!?.])', r'\1DE A\3', text, flags=re.U)
    text = re.sub(r'( )(DOS)([ ,;!?.])', r'\1DE OS\3', text, flags=re.U)
    text = re.sub(r'( )(DAS)([ ,;!?.])', r'\1DE AS\3', text, flags=re.U)
 
    text = re.sub(r'( )(dum)([ ,;!?.])', r'\1de um\3', text, flags=re.U)
    text = re.sub(r'( )(duma)([ ,;!?.])', r'\1de uma\3', text, flags=re.U)
    text = re.sub(r'( )(duns)([ ,;!?.])', r'\1de uns\3', text, flags=re.U)
    text = re.sub(r'( )(dumas)([ ,;!?.])', r'\1de umas\3', text, flags=re.U)
 
    text = re.sub(r'(Dum)([ ,;!?.])', r'De um\2', text, flags=re.U)
    text = re.sub(r'(Duma)([ ,;!?.])', r'De uma\2', text, flags=re.U)
    text = re.sub(r'(Duns)([ ,;!?.])', r'De uns\2', text, flags=re.U)
    text = re.sub(r'(Dumas)([ ,;!?.])', r'De umas\2', text, flags=re.U)
    
    text = re.sub(r'(DUM)([ ,;!?.])', r'DE UM\2', text, flags=re.U)
    text = re.sub(r'(DUMA)([ ,;!?.])', r'DE UMA\2', text, flags=re.U)
    text = re.sub(r'(DUNS)([ ,;!?.])', r'DE UNS\2', text, flags=re.U)
    text = re.sub(r'(DUMAS)([ ,;!?.])', r'DE UMAS\2', text, flags=re.U)
 
    text = re.sub(r'( )(dele)([ ,;!?.])', r'\1de ele\3', text, flags=re.U)
    text = re.sub(r'( )(dela)([ ,;!?.])', r'\1de ela\3', text, flags=re.U)
    text = re.sub(r'( )(deles)([ ,;!?.])', r'\1de eles\3', text, flags=re.U)
    text = re.sub(r'( )(delas)([ ,;!?.])', r'\1de elas\3', text, flags=re.U)
 
    text = re.sub(r'(Dele)([ ,;!?.])', r'De ele\2', text, flags=re.U)
    text = re.sub(r'(Dela)([ ,;!?.])', r'De ela\2', text, flags=re.U)
    text = re.sub(r'(Deles)([ ,;!?.])', r'De eles\2', text, flags=re.U)
    text = re.sub(r'(Delas)([ ,;!?.])', r'De elas\2', text, flags=re.U)
    
    text = re.sub(r'(DELE)([ ,;!?.])', r'DE ELE\2', text, flags=re.U)
    text = re.sub(r'(DELA)([ ,;!?.])', r'DE ELA\2', text, flags=re.U)
    text = re.sub(r'(DELES)([ ,;!?.])', r'DE ELES\2', text, flags=re.U)
    text = re.sub(r'(DELAS)([ ,;!?.])', r'DE ELAS\2', text, flags=re.U)
 
    text = re.sub(r'( )(deste)([ ,;!?.])', r'\1de este\3', text, flags=re.U)
    text = re.sub(r'( )(desta)([ ,;!?.])', r'\1de esta\3', text, flags=re.U)
    text = re.sub(r'( )(destes)([ ,;!?.])', r'\1de estes\3', text, flags=re.U)
    text = re.sub(r'( )(destas)([ ,;!?.])', r'\1de estas\3', text, flags=re.U)
    text = re.sub(r'( )(disto)([ ,;!?.])', r'\1de isto\3', text, flags=re.U)
    text = re.sub(r'( )(desse)([ ,;!?.])', r'\1de esse\3', text, flags=re.U)
    text = re.sub(r'( )(dessa)([ ,;!?.])', r'\1de essa\3', text, flags=re.U)
    text = re.sub(r'( )(desses)([ ,;!?.])', r'\1de esses\3', text, flags=re.U)
    text = re.sub(r'( )(dessas)([ ,;!?.])', r'\1de essas\3', text, flags=re.U)
    text = re.sub(r'( )(disso)([ ,;!?.])', r'\1de isso\3', text, flags=re.U)
    text = re.sub(r'( )(daquele)([ ,;!?.])', r'\1de aquele\3', text, flags=re.U)
    text = re.sub(r'( )(daquela)([ ,;!?.])', r'\1de aquela\3', text, flags=re.U)
    text = re.sub(r'( )(daqueles)([ ,;!?.])', r'\1de aqueles\3', text, flags=re.U)
    text = re.sub(r'( )(daquelas)([ ,;!?.])', r'\1de aquelas\3', text, flags=re.U)
    text = re.sub(r'( )(daquilo)([ ,;!?.])', r'\1de aquilo\3', text, flags=re.U)
    text = re.sub(r'( )(doutro)([ ,;!?.])', r'\1de outro\3', text, flags=re.U)
    text = re.sub(r'( )(doutra)([ ,;!?.])', r'\1de outra\3', text, flags=re.U)
    text = re.sub(r'( )(doutros)([ ,;!?.])', r'\1de outros\3', text, flags=re.U)
    text = re.sub(r'( )(doutras)([ ,;!?.])', r'\1de outras\3', text, flags=re.U)
    text = re.sub(r'( )(daqui)([ ,;!?.])', r'\1de aqui\3', text, flags=re.U)
    text = re.sub(r'( )(daí)([ ,;!?.])', r'\1de aí\3', text, flags=re.U)
    text = re.sub(r'( )(dali)([ ,;!?.])', r'\1de ali\3', text, flags=re.U)
    text = re.sub(r'( )(dalém)([ ,;!?.])', r'\1de além\3', text, flags=re.U)
 
    text = re.sub(r'(Deste)([ ,;!?.])', r'De este\2', text, flags=re.U)
    text = re.sub(r'(Desta)([ ,;!?.])', r'De esta\2', text, flags=re.U)
    text = re.sub(r'(Destes)([ ,;!?.])', r'De estes\2', text, flags=re.U)
    text = re.sub(r'(Destas)([ ,;!?.])', r'De estas\2', text, flags=re.U)
    text = re.sub(r'(Disto)([ ,;!?.])', r'De isto\2', text, flags=re.U)
    text = re.sub(r'(Desse)([ ,;!?.])', r'De esse\2', text, flags=re.U)
    text = re.sub(r'(Dessa)([ ,;!?.])', r'De essa\2', text, flags=re.U)
    text = re.sub(r'(Desses)([ ,;!?.])', r'De esses\2', text, flags=re.U)
    text = re.sub(r'(Dessas)([ ,;!?.])', r'De essas\2', text, flags=re.U)
    text = re.sub(r'(Disso)([ ,;!?.])', r'De isso\2', text, flags=re.U)
    text = re.sub(r'(Daquele)([ ,;!?.])', r'De aquele\2', text, flags=re.U)
    text = re.sub(r'(Daquela)([ ,;!?.])', r'De aquela\2', text, flags=re.U)
    text = re.sub(r'(Daqueles)([ ,;!?.])', r'De aqueles\2', text, flags=re.U)
    text = re.sub(r'(Daquelas)([ ,;!?.])', r'De aquelas\2', text, flags=re.U)
    text = re.sub(r'(Daquilo)([ ,;!?.])', r'De aquilo\2', text, flags=re.U)
    text = re.sub(r'(Doutro)([ ,;!?.])', r'De outro\2', text, flags=re.U)
    text = re.sub(r'(Doutra)([ ,;!?.])', r'De outra\2', text, flags=re.U)
    text = re.sub(r'(Doutros)([ ,;!?.])', r'De outros\2', text, flags=re.U)
    text = re.sub(r'(Doutras)([ ,;!?.])', r'De outras\2', text, flags=re.U)
    text = re.sub(r'(Daqui)([ ,;!?.])', r'De aqui\2', text, flags=re.U)
    text = re.sub(r'(Daí)([ ,;!?.])', r'De aí\2', text, flags=re.U)
    text = re.sub(r'(Dali)([ ,;!?.])', r'De ali\2', text, flags=re.U)
    text = re.sub(r'(Dalém)([ ,;!?.])', r'De além\2', text, flags=re.U)
 
    text = re.sub(r'(DESTE)([ ,;!?.])', r'DE ESTE\2', text, flags=re.U)
    text = re.sub(r'(DESTA)([ ,;!?.])', r'DE ESTA\2', text, flags=re.U)
    text = re.sub(r'(DESTES)([ ,;!?.])', r'DE ESTES\2', text, flags=re.U)
    text = re.sub(r'(DESTAS)([ ,;!?.])', r'DE ESTAS\2', text, flags=re.U)
    text = re.sub(r'(DISTO)([ ,;!?.])', r'DE ISTO\2', text, flags=re.U)
    text = re.sub(r'(DESSE)([ ,;!?.])', r'DE ESSE\2', text, flags=re.U)
    text = re.sub(r'(DESSA)([ ,;!?.])', r'DE ESSA\2', text, flags=re.U)
    text = re.sub(r'(DESSES)([ ,;!?.])', r'DE ESSES\2', text, flags=re.U)
    text = re.sub(r'(DESSAS)([ ,;!?.])', r'DE ESSAS\2', text, flags=re.U)
    text = re.sub(r'(DISSO)([ ,;!?.])', r'DE ISSO\2', text, flags=re.U)
    text = re.sub(r'(DAQUELE)([ ,;!?.])', r'DE AQUELE\2', text, flags=re.U)
    text = re.sub(r'(DAQUELA)([ ,;!?.])', r'DE AQUELA\2', text, flags=re.U)
    text = re.sub(r'(DAQUELES)([ ,;!?.])', r'DE AQUELES\2', text, flags=re.U)
    text = re.sub(r'(DAQUELAS)([ ,;!?.])', r'DE AQUELAS\2', text, flags=re.U)
    text = re.sub(r'(DAQUILO)([ ,;!?.])', r'DE AQUILO\2', text, flags=re.U)
    text = re.sub(r'(DOUTRO)([ ,;!?.])', r'DE OUTRO\2', text, flags=re.U)
    text = re.sub(r'(DOUTRA)([ ,;!?.])', r'DE OUTRA\2', text, flags=re.U)
    text = re.sub(r'(DOUTROS)([ ,;!?.])', r'DE OUTROS\2', text, flags=re.U)
    text = re.sub(r'(DOUTRAS)([ ,;!?.])', r'DE OUTRAS\2', text, flags=re.U)
    text = re.sub(r'(DAQUI)([ ,;!?.])', r'DE AQUI\2', text, flags=re.U)
    text = re.sub(r'(DAÍ)([ ,;!?.])', r'DE AÍ\2', text, flags=re.U)
    text = re.sub(r'(DALI)([ ,;!?.])', r'DE ALI\2', text, flags=re.U)
    text = re.sub(r'(DALÉM)([ ,;!?.])', r'DE ALÉM\2', text, flags=re.U)
 
    text = re.sub(r'( )(no)([ ,;!?.])', r'\1em o\3', text, flags=re.U)
    text = re.sub(r'( )(na)([ ,;!?.])', r'\1em a\3', text, flags=re.U)
    text = re.sub(r'( )(nos)([ ,;!?.])', r'\1em os\3', text, flags=re.U)
    text = re.sub(r'( )(nas)([ ,;!?.])', r'\1em as\3', text, flags=re.U)
 
    text = re.sub(r'( )(No)([ ,;!?.])', r'\1Em o\3', text, flags=re.U)
    text = re.sub(r'( )(Na)([ ,;!?.])', r'\1Em a\3', text, flags=re.U)
    text = re.sub(r'( )(Nos)([ ,;!?.])', r'\1Em os\3', text, flags=re.U)
    text = re.sub(r'( )(Nas)([ ,;!?.])', r'\1Em as\3', text, flags=re.U)
    
    text = re.sub(r'( )(NO)([ ,;!?.])', r'\1EM O\3', text, flags=re.U)
    text = re.sub(r'( )(NA)([ ,;!?.])', r'\1EM A\3', text, flags=re.U)
    text = re.sub(r'( )(NOS)([ ,;!?.])', r'\1EM OS\3', text, flags=re.U)
    text = re.sub(r'( )(NAS)([ ,;!?.])', r'\1EM AS\3', text, flags=re.U)
 
    text = re.sub(r'( )(num)([ ,;!?.])', r'\1em um\3', text, flags=re.U)
    text = re.sub(r'( )(numa)([ ,;!?.])', r'\1em uma\3', text, flags=re.U)
    text = re.sub(r'( )(nuns)([ ,;!?.])', r'\1em uns\3', text, flags=re.U)
    text = re.sub(r'( )(numas)([ ,;!?.])', r'\1em umas\3', text, flags=re.U)
 
    text = re.sub(r'(Num)([ ,;!?.])', r'Em um\2', text, flags=re.U)
    text = re.sub(r'(Numa)([ ,;!?.])', r'Em uma\2', text, flags=re.U)
    text = re.sub(r'(Nuns)([ ,;!?.])', r'Em uns\2', text, flags=re.U)
    text = re.sub(r'(Numas)([ ,;!?.])', r'Em umas\2', text, flags=re.U)
    
    text = re.sub(r'(NUM)([ ,;!?.])', r'EM UM\2', text, flags=re.U)
    text = re.sub(r'(NUMA)([ ,;!?.])', r'EM UMA\2', text, flags=re.U)
    text = re.sub(r'(NUNS)([ ,;!?.])', r'EM UNS\2', text, flags=re.U)
    text = re.sub(r'(NUMAS)([ ,;!?.])', r'EM UMAS\2', text, flags=re.U)
 
    text = re.sub(r'( )(nele)([ ,;!?.])', r'\1em ele\3', text, flags=re.U)
    text = re.sub(r'( )(nela)([ ,;!?.])', r'\1em ela\3', text, flags=re.U)
    text = re.sub(r'( )(neles)([ ,;!?.])', r'\1em eles\3', text, flags=re.U)
    text = re.sub(r'( )(nelas)([ ,;!?.])', r'\1em elas\3', text, flags=re.U)
 
    text = re.sub(r'(Nele)([ ,;!?.])', r'Em ele\2', text, flags=re.U)
    text = re.sub(r'(Nela)([ ,;!?.])', r'Em ela\2', text, flags=re.U)
    text = re.sub(r'(Neles)([ ,;!?.])', r'Em eles\2', text, flags=re.U)
    text = re.sub(r'(Nelas)([ ,;!?.])', r'Em elas\2', text, flags=re.U)
    
    text = re.sub(r'(NELE)([ ,;!?.])', r'EM ELE\2', text, flags=re.U)
    text = re.sub(r'(NELA)([ ,;!?.])', r'EM ELA\2', text, flags=re.U)
    text = re.sub(r'(NELES)([ ,;!?.])', r'EM ELES\2', text, flags=re.U)
    text = re.sub(r'(NELAS)([ ,;!?.])', r'EM ELAS\2', text, flags=re.U)
 
    text = re.sub(r'( )(neste)([ ,;!?.])', r'\1em este\3', text, flags=re.U)
    text = re.sub(r'( )(nesta)([ ,;!?.])', r'\1em esta\3', text, flags=re.U)
    text = re.sub(r'( )(nestes)([ ,;!?.])', r'\1em estes\3', text, flags=re.U)
    text = re.sub(r'( )(nestas)([ ,;!?.])', r'\1em estas\3', text, flags=re.U)
    text = re.sub(r'( )(nisto)([ ,;!?.])', r'\1em isto\3', text, flags=re.U)
    text = re.sub(r'( )(nesse)([ ,;!?.])', r'\1em esse\3', text, flags=re.U)
    text = re.sub(r'( )(nessa)([ ,;!?.])', r'\1em essa\3', text, flags=re.U)
    text = re.sub(r'( )(nesses)([ ,;!?.])', r'\1em esses\3', text, flags=re.U)
    text = re.sub(r'( )(nessas)([ ,;!?.])', r'\1em essas\3', text, flags=re.U)
    text = re.sub(r'( )(nisso)([ ,;!?.])', r'\1em isso\3', text, flags=re.U)
    text = re.sub(r'( )(naquele)([ ,;!?.])', r'\1em aquele\3', text, flags=re.U)
    text = re.sub(r'( )(naquela)([ ,;!?.])', r'\1em aquela\3', text, flags=re.U)
    text = re.sub(r'( )(naqueles)([ ,;!?.])', r'\1em aqueles\3', text, flags=re.U)
    text = re.sub(r'( )(naquelas)([ ,;!?.])', r'\1em aquelas\3', text, flags=re.U)
    text = re.sub(r'( )(naquilo)([ ,;!?.])', r'\1em aquilo\3', text, flags=re.U)
 
    text = re.sub(r'(Neste)([ ,;!?.])', r'Em este\2', text, flags=re.U)
    text = re.sub(r'(Nesta)([ ,;!?.])', r'Em esta\2', text, flags=re.U)
    text = re.sub(r'(Nestes)([ ,;!?.])', r'Em estes\2', text, flags=re.U)
    text = re.sub(r'(Nestas)([ ,;!?.])', r'Em estas\2', text, flags=re.U)
    text = re.sub(r'(Nisto)([ ,;!?.])', r'Em isto\2', text, flags=re.U)
    text = re.sub(r'(Nesse)([ ,;!?.])', r'Em esse\2', text, flags=re.U)
    text = re.sub(r'(Nessa)([ ,;!?.])', r'Em essa\2', text, flags=re.U)
    text = re.sub(r'(Nesses)([ ,;!?.])', r'Em esses\2', text, flags=re.U)
    text = re.sub(r'(Nessas)([ ,;!?.])', r'Em essas\2', text, flags=re.U)
    text = re.sub(r'(Nisso)([ ,;!?.])', r'Em isso\2', text, flags=re.U)
    text = re.sub(r'(Naquele)([ ,;!?.])', r'Em aquele\2', text, flags=re.U)
    text = re.sub(r'(Naquela)([ ,;!?.])', r'Em aquela\2', text, flags=re.U)
    text = re.sub(r'(Naqueles)([ ,;!?.])', r'Em aqueles\2', text, flags=re.U)
    text = re.sub(r'(Naquelas)([ ,;!?.])', r'Em aquelas\2', text, flags=re.U)
    text = re.sub(r'(Naquilo)([ ,;!?.])', r'Em aquilo\2', text, flags=re.U)
    
    text = re.sub(r'(NESTE)([ ,;!?.])', r'EM ESTE\2', text, flags=re.U)
    text = re.sub(r'(NESTA)([ ,;!?.])', r'EM ESTA\2', text, flags=re.U)
    text = re.sub(r'(NESTES)([ ,;!?.])', r'EM ESTES\2', text, flags=re.U)
    text = re.sub(r'(NESTAS)([ ,;!?.])', r'EM ESTAS\2', text, flags=re.U)
    text = re.sub(r'(NISTO)([ ,;!?.])', r'EM ISTO\2', text, flags=re.U)
    text = re.sub(r'(NESSE)([ ,;!?.])', r'EM ESSE\2', text, flags=re.U)
    text = re.sub(r'(NESSA)([ ,;!?.])', r'EM ESSA\2', text, flags=re.U)
    text = re.sub(r'(NESSES)([ ,;!?.])', r'EM ESSES\2', text, flags=re.U)
    text = re.sub(r'(NESSAS)([ ,;!?.])', r'EM ESSAS\2', text, flags=re.U)
    text = re.sub(r'(NISSO)([ ,;!?.])', r'EM ISSO\2', text, flags=re.U)
    text = re.sub(r'(NAQUELE)([ ,;!?.])', r'EM AQUELE\2', text, flags=re.U)
    text = re.sub(r'(NAQUELA)([ ,;!?.])', r'EM AQUELA\2', text, flags=re.U)
    text = re.sub(r'(NAQUELES)([ ,;!?.])', r'EM AQUELES\2', text, flags=re.U)
    text = re.sub(r'(NAQUELAS)([ ,;!?.])', r'EM AQUELAS\2', text, flags=re.U)
    text = re.sub(r'(NAQUILO)([ ,;!?.])', r'EM AQUILO\2', text, flags=re.U)
 
    text = re.sub(r'( )(pelo)([ ,;!?.])', r'\1por o\3', text, flags=re.U)
    text = re.sub(r'( )(pela)([ ,;!?.])', r'\1por a\3', text, flags=re.U)
    text = re.sub(r'( )(pelos)([ ,;!?.])', r'\1por os\3', text, flags=re.U)
    text = re.sub(r'( )(pelas)([ ,;!?.])', r'\1por as\3', text, flags=re.U)
 
    text = re.sub(r'(Pelo)([ ,;!?.])', r'Por o\2', text, flags=re.U)
    text = re.sub(r'(Pela)([ ,;!?.])', r'Por a\2', text, flags=re.U)
    text = re.sub(r'(Pelos)([ ,;!?.])', r'Por os\2', text, flags=re.U)
    text = re.sub(r'(Pelas)([ ,;!?.])', r'Por as\2', text, flags=re.U)
    
    text = re.sub(r'(PELO)([ ,;!?.])', r'POR O\2', text, flags=re.U)
    text = re.sub(r'(PELA)([ ,;!?.])', r'POR A\2', text, flags=re.U)
    text = re.sub(r'(PELOS)([ ,;!?.])', r'POR OS\2', text, flags=re.U)
    text = re.sub(r'(PELAS)([ ,;!?.])', r'POR AS\2', text, flags=re.U)
 
    return text

In [8]:
def realize(text):
    text = re.sub(r'( )(com um)([ ,;!?.])', r'\1 cum\3', text, flags=re.U)
    text = re.sub(r'(Com um)([ ,;!?.])', r'Cum\2', text, flags=re.U)
 
    text = re.sub(r'( )(de o)([ ,;!?.])', r'\1do\3', text, flags=re.U)
    text = re.sub(r'( )(de a)([ ,;!?.])', r'\1da\3', text, flags=re.U)
    text = re.sub(r'( )(de os)([ ,;!?.])', r'\1dos\3', text, flags=re.U)
    text = re.sub(r'( )(de as)([ ,;!?.])', r'\1das\3', text, flags=re.U)
 
    text = re.sub(r'(De o)([ ,;!?.])', r'Do\2', text, flags=re.U)
    text = re.sub(r'(De a)([ ,;!?.])', r'Da\2', text, flags=re.U)
    text = re.sub(r'(De os)([ ,;!?.])', r'Dos\2', text, flags=re.U)
    text = re.sub(r'(De as)([ ,;!?.])', r'Das\2', text, flags=re.U)
 
    text = re.sub(r'( )(de um)([ ,;!?.])', r'\1dum\3', text, flags=re.U)
    text = re.sub(r'( )(de uma)([ ,;!?.])', r'\1duma\3', text, flags=re.U)
    text = re.sub(r'( )(de uns)([ ,;!?.])', r'\1duns\3', text, flags=re.U)
    text = re.sub(r'( )(de umas)([ ,;!?.])', r'\1dumas\3', text, flags=re.U)
 
    text = re.sub(r'(De um)([ ,;!?.])', r'Dum\2', text, flags=re.U)
    text = re.sub(r'(De uma)([ ,;!?.])', r'Duma\2', text, flags=re.U)
    text = re.sub(r'(De uns)([ ,;!?.])', r'Duns\2', text, flags=re.U)
    text = re.sub(r'(De umas)([ ,;!?.])', r'Dumas\2', text, flags=re.U)
 
    text = re.sub(r'( )(de ele)([ ,;!?.])', r'\1dele\3', text, flags=re.U)
    text = re.sub(r'( )(de ela)([ ,;!?.])', r'\1dela\3', text, flags=re.U)
    text = re.sub(r'( )(de eles)([ ,;!?.])', r'\1deles\3', text, flags=re.U)
    text = re.sub(r'( )(de elas)([ ,;!?.])', r'\1delas\3', text, flags=re.U)
 
    text = re.sub(r'(De ele)([ ,;!?.])', r'Dele\2', text, flags=re.U)
    text = re.sub(r'(De ela)([ ,;!?.])', r'Dela\2', text, flags=re.U)
    text = re.sub(r'(De eles)([ ,;!?.])', r'Deles\2', text, flags=re.U)
    text = re.sub(r'(De elas)([ ,;!?.])', r'Delas\2', text, flags=re.U)
 
    text = re.sub(r'( )(de este)([ ,;!?.])', r'\1deste\3', text, flags=re.U)
    text = re.sub(r'( )(de esta)([ ,;!?.])', r'\1desta\3', text, flags=re.U)
    text = re.sub(r'( )(de estes)([ ,;!?.])', r'\1destes\3', text, flags=re.U)
    text = re.sub(r'( )(de estas)([ ,;!?.])', r'\1destas\3', text, flags=re.U)
    text = re.sub(r'( )(de isto)([ ,;!?.])', r'\1disto\3', text, flags=re.U)
    text = re.sub(r'( )(de esse)([ ,;!?.])', r'\1desse\3', text, flags=re.U)
    text = re.sub(r'( )(de essa)([ ,;!?.])', r'\1dessa\3', text, flags=re.U)
    text = re.sub(r'( )(de esses)([ ,;!?.])', r'\1desses\3', text, flags=re.U)
    text = re.sub(r'( )(de essas)([ ,;!?.])', r'\1dessas\3', text, flags=re.U)
    text = re.sub(r'( )(de isso)([ ,;!?.])', r'\1disso\3', text, flags=re.U)
    text = re.sub(r'( )(de aquele)([ ,;!?.])', r'\1daquele\3', text, flags=re.U)
    text = re.sub(r'( )(de aquela)([ ,;!?.])', r'\1daquela\3', text, flags=re.U)
    text = re.sub(r'( )(de aqueles)([ ,;!?.])', r'\1daqueles\3', text, flags=re.U)
    text = re.sub(r'( )(de aquelas)([ ,;!?.])', r'\1daquelas\3', text, flags=re.U)
    text = re.sub(r'( )(de aquilo)([ ,;!?.])', r'\1daquilo\3', text, flags=re.U)
    text = re.sub(r'( )(de outro)([ ,;!?.])', r'\1doutro\3', text, flags=re.U)
    text = re.sub(r'( )(de outra)([ ,;!?.])', r'\1doutra\3', text, flags=re.U)
    text = re.sub(r'( )(de outros)([ ,;!?.])', r'\1doutros\3', text, flags=re.U)
    text = re.sub(r'( )(de outras)([ ,;!?.])', r'\1doutras\3', text, flags=re.U)
    text = re.sub(r'( )(de aqui)([ ,;!?.])', r'\1daqui\3', text, flags=re.U)
    text = re.sub(r'( )(de aí)([ ,;!?.])', r'\1daí\3', text, flags=re.U)
    text = re.sub(r'( )(de ali)([ ,;!?.])', r'\1dali\3', text, flags=re.U)
    text = re.sub(r'( )(de além)([ ,;!?.])', r'\1dalém\3', text, flags=re.U)
 
    text = re.sub(r'(De este)([ ,;!?.])', r'Deste\2', text, flags=re.U)
    text = re.sub(r'(De esta)([ ,;!?.])', r'Desta\2', text, flags=re.U)
    text = re.sub(r'(De estes)([ ,;!?.])', r'Destes\2', text, flags=re.U)
    text = re.sub(r'(De estas)([ ,;!?.])', r'Destas\2', text, flags=re.U)
    text = re.sub(r'(De isto)([ ,;!?.])', r'Disto\2', text, flags=re.U)
    text = re.sub(r'(De esse)([ ,;!?.])', r'Desse\2', text, flags=re.U)
    text = re.sub(r'(De essa)([ ,;!?.])', r'Dessa\2', text, flags=re.U)
    text = re.sub(r'(De esses)([ ,;!?.])', r'Desses\2', text, flags=re.U)
    text = re.sub(r'(De essas)([ ,;!?.])', r'Dessas\2', text, flags=re.U)
    text = re.sub(r'(De isso)([ ,;!?.])', r'Disso\2', text, flags=re.U)
    text = re.sub(r'(De aquele)([ ,;!?.])', r'Daquele\2', text, flags=re.U)
    text = re.sub(r'(De aquela)([ ,;!?.])', r'Daquela\2', text, flags=re.U)
    text = re.sub(r'(De aqueles)([ ,;!?.])', r'Daqueles\2', text, flags=re.U)
    text = re.sub(r'(De aquelas)([ ,;!?.])', r'Daquelas\2', text, flags=re.U)
    text = re.sub(r'(De aquilo)([ ,;!?.])', r'Daquilo\2', text, flags=re.U)
    text = re.sub(r'(De outro)([ ,;!?.])', r'Doutro\2', text, flags=re.U)
    text = re.sub(r'(De outra)([ ,;!?.])', r'Doutra\2', text, flags=re.U)
    text = re.sub(r'(De outros)([ ,;!?.])', r'Doutros\2', text, flags=re.U)
    text = re.sub(r'(De outras)([ ,;!?.])', r'Doutras\2', text, flags=re.U)
    text = re.sub(r'(De aqui)([ ,;!?.])', r'Daqui\2', text, flags=re.U)
    text = re.sub(r'(De aí)([ ,;!?.])', r'Daí\2', text, flags=re.U)
    text = re.sub(r'(De ali)([ ,;!?.])', r'Dali\2', text, flags=re.U)
    text = re.sub(r'(De além)([ ,;!?.])', r'Dalém\2', text, flags=re.U)
 
    text = re.sub(r'( )(em o)([ ,;!?.])', r'\1no\3', text, flags=re.U)
    text = re.sub(r'( )(em a)([ ,;!?.])', r'\1na\3', text, flags=re.U)
    text = re.sub(r'( )(em os)([ ,;!?.])', r'\1nos\3', text, flags=re.U)
    text = re.sub(r'( )(em as)([ ,;!?.])', r'\1nas\3', text, flags=re.U)
 
    text = re.sub(r'(Em o)([ ,;!?.])', r'No\2', text, flags=re.U)
    text = re.sub(r'(Em a)([ ,;!?.])', r'Na\2', text, flags=re.U)
    text = re.sub(r'(Em os)([ ,;!?.])', r'Nos\2', text, flags=re.U)
    text = re.sub(r'(Em as)([ ,;!?.])', r'Nas\2', text, flags=re.U)
 
    text = re.sub(r'( )(em um)([ ,;!?.])', r'\1num\3', text, flags=re.U)
    text = re.sub(r'( )(em uma)([ ,;!?.])', r'\1numa\3', text, flags=re.U)
    text = re.sub(r'( )(em uns)([ ,;!?.])', r'\1nuns\3', text, flags=re.U)
    text = re.sub(r'( )(em umas)([ ,;!?.])', r'\1numas\3', text, flags=re.U)
 
    text = re.sub(r'(Em um)([ ,;!?.])', r'Num\2', text, flags=re.U)
    text = re.sub(r'(Em uma)([ ,;!?.])', r'Numa\2', text, flags=re.U)
    text = re.sub(r'(Em uns)([ ,;!?.])', r'Nuns\2', text, flags=re.U)
    text = re.sub(r'(Em umas)([ ,;!?.])', r'Numas\2', text, flags=re.U)
 
    text = re.sub(r'( )(em ele)([ ,;!?.])', r'\1nele\3', text, flags=re.U)
    text = re.sub(r'( )(em ela)([ ,;!?.])', r'\1nela\3', text, flags=re.U)
    text = re.sub(r'( )(em eles)([ ,;!?.])', r'\1neles\3', text, flags=re.U)
    text = re.sub(r'( )(em elas)([ ,;!?.])', r'\1nelas\3', text, flags=re.U)
 
    text = re.sub(r'(Em ele)([ ,;!?.])', r'Nele\2', text, flags=re.U)
    text = re.sub(r'(Em ela)([ ,;!?.])', r'Nela\2', text, flags=re.U)
    text = re.sub(r'(Em eles)([ ,;!?.])', r'Neles\2', text, flags=re.U)
    text = re.sub(r'(Em elas)([ ,;!?.])', r'Nelas\2', text, flags=re.U)
 
    text = re.sub(r'( )(em este)([ ,;!?.])', r'\1neste\3', text, flags=re.U)
    text = re.sub(r'( )(em esta)([ ,;!?.])', r'\1nesta\3', text, flags=re.U)
    text = re.sub(r'( )(em estes)([ ,;!?.])', r'\1nestes\3', text, flags=re.U)
    text = re.sub(r'( )(em estas)([ ,;!?.])', r'\1nestas\3', text, flags=re.U)
    text = re.sub(r'( )(em isto)([ ,;!?.])', r'\1nisto\3', text, flags=re.U)
    text = re.sub(r'( )(em esse)([ ,;!?.])', r'\1nesse\3', text, flags=re.U)
    text = re.sub(r'( )(em essa)([ ,;!?.])', r'\1nessa\3', text, flags=re.U)
    text = re.sub(r'( )(em esses)([ ,;!?.])', r'\1nesses\3', text, flags=re.U)
    text = re.sub(r'( )(em essas)([ ,;!?.])', r'\1nessas\3', text, flags=re.U)
    text = re.sub(r'( )(em isso)([ ,;!?.])', r'\1nisso\3', text, flags=re.U)
    text = re.sub(r'( )(em aquele)([ ,;!?.])', r'\1naquele\3', text, flags=re.U)
    text = re.sub(r'( )(em aquela)([ ,;!?.])', r'\1naquela\3', text, flags=re.U)
    text = re.sub(r'( )(em aqueles)([ ,;!?.])', r'\1naqueles\3', text, flags=re.U)
    text = re.sub(r'( )(em aquelas)([ ,;!?.])', r'\1naquelas\3', text, flags=re.U)
    text = re.sub(r'( )(em aquilo)([ ,;!?.])', r'\1naquilo\3', text, flags=re.U)
 
    text = re.sub(r'(Em este)([ ,;!?.])', r'Neste\2', text, flags=re.U)
    text = re.sub(r'(Em esta)([ ,;!?.])', r'Nesta\2', text, flags=re.U)
    text = re.sub(r'(Em estes)([ ,;!?.])', r'Nestes\2', text, flags=re.U)
    text = re.sub(r'(Em estas)([ ,;!?.])', r'Nestas\2', text, flags=re.U)
    text = re.sub(r'(Em isto)([ ,;!?.])', r'Nisto\2', text, flags=re.U)
    text = re.sub(r'(Em esse)([ ,;!?.])', r'Nesse\2', text, flags=re.U)
    text = re.sub(r'(Em essa)([ ,;!?.])', r'Nessa\2', text, flags=re.U)
    text = re.sub(r'(Em esses)([ ,;!?.])', r'Nesses\2', text, flags=re.U)
    text = re.sub(r'(Em essas)([ ,;!?.])', r'Nessas\2', text, flags=re.U)
    text = re.sub(r'(Em isso)([ ,;!?.])', r'Nisso\2', text, flags=re.U)
    text = re.sub(r'(Em aquele)([ ,;!?.])', r'Naquele\2', text, flags=re.U)
    text = re.sub(r'(Em aquela)([ ,;!?.])', r'Naquela\2', text, flags=re.U)
    text = re.sub(r'(Em aqueles)([ ,;!?.])', r'Naqueles\2', text, flags=re.U)
    text = re.sub(r'(Em aquelas)([ ,;!?.])', r'Naquelas\2', text, flags=re.U)
    text = re.sub(r'(Em aquilo)([ ,;!?.])', r'Naquilo\2', text, flags=re.U)
 
    text = re.sub(r'( )(por o)([ ,;!?.])', r'\1pelo\3', text, flags=re.U)
    text = re.sub(r'( )(por a)([ ,;!?.])', r'\1pela\3', text, flags=re.U)
    text = re.sub(r'( )(por os)([ ,;!?.])', r'\1pelos\3', text, flags=re.U)
    text = re.sub(r'( )(por as)([ ,;!?.])', r'\1pelas\3', text, flags=re.U)
 
    text = re.sub(r'(Por o)([ ,;!?.])', r'Pelo\2', text, flags=re.U)
    text = re.sub(r'(Por a)([ ,;!?.])', r'Pela\2', text, flags=re.U)
    text = re.sub(r'(Por os)([ ,;!?.])', r'Pelos\2', text, flags=re.U)
    text = re.sub(r'(Por as)([ ,;!?.])', r'Pelas\2', text, flags=re.U)
 
    text = text.replace(u' a a ', u' à ')
    text = text.replace(u'A a ', u'À ')
    text = text.replace(u' a as ', u' às ')
    text = text.replace(u'A as ', u'Às ')
 
    text = re.sub(r'( )(a o)([ ,;!?.])', r'\1ao\3', text, flags=re.U)
    text = re.sub(r'(A o)([ ,;!?.])', r'Ao\2', text, flags=re.U)
    text = re.sub(r'( )(a os)([ ,;!?.])', r'\1aos\3', text, flags=re.U)
    text = re.sub(r'(A os)([ ,;!?.])', r'Aos\2', text, flags=re.U)
 
    return text

<p> You can use the above functions as follows:

In [9]:
sentence = "Esta é uma sentença que será modificada pela função parse()."
parsed_sentence = parse(sentence)
print(sentence)
print(parsed_sentence)

Esta é uma sentença que será modificada pela função parse().
Esta é uma sentença que será modificada por a função parse().


In [10]:
sentence = "Esta é uma sentença que será modificada por a função realize()."
realized_sentence = realize(sentence)
print(sentence)
print(realized_sentence)

Esta é uma sentença que será modificada por a função realize().
Esta é uma sentença que será modificada pela função realize().


---
<h1> Functions for text normalization

Lowering sentences is simple, just use the lower() function.

In [11]:
sentence = "ESTA é uma SENTENÇA que será modificada pela FUNÇÃO lower()."
lower_sentence = sentence.lower()
print(sentence)
print(lower_sentence)

ESTA é uma SENTENÇA que será modificada pela FUNÇÃO lower().
esta é uma sentença que será modificada pela função lower().


It is also possible to do the reverse, using the upper() function.

In [12]:
sentence = "ESTA é uma SENTENÇA que será modificada pela FUNÇÃO upper()."
upper_sentence = sentence.upper()
print(sentence)
print(upper_sentence)

ESTA é uma SENTENÇA que será modificada pela FUNÇÃO upper().
ESTA É UMA SENTENÇA QUE SERÁ MODIFICADA PELA FUNÇÃO UPPER().


Removing accents from sentences is simple, just use the lower() function.

In [13]:
sentence = "Esta é uma sentença que será modificada pela função unidecode.unidecode()."
no_accents_sentence = unidecode.unidecode(sentence)
print(sentence)
print(no_accents_sentence)

Esta é uma sentença que será modificada pela função unidecode.unidecode().
Esta e uma sentenca que sera modificada pela funcao unidecode.unidecode().


You can mix varios functions to fit your need, as follows:

In [14]:
sentence = "ESTA é uma sentença que será MODIFICADA pela função lower(), unidecode.unidecode() e parse()"
no_accents_sentence = unidecode.unidecode(sentence)
lower_sentence = no_accents_sentence.lower()
final_sentence = parse(lower_sentence)
print(sentence)
print(final_sentence)

ESTA é uma sentença que será MODIFICADA pela função lower(), unidecode.unidecode() e parse()
esta e uma sentenca que sera modificada por a funcao lower(), unidecode.unidecode() e parse()


It can be done in one line:

In [15]:
sentence = "ESTA é uma sentença que será MODIFICADA pela função lower(), unidecode.unidecode() e parse()"
final_sentence = unidecode.unidecode(parse(sentence.lower()))
print(sentence)
print(final_sentence)

ESTA é uma sentença que será MODIFICADA pela função lower(), unidecode.unidecode() e parse()
esta e uma sentenca que sera modificada por a funcao lower(), unidecode.unidecode() e parse()


---
<h1> Regex

<h2> Use of regular expressions to tokenize text.

Using Regex, you can create various rules to best fit your context. There is no "formula" ready to tokenize a text with Regex. Often, the best way out is to go testing and see what solves your problem.
It's possible to test a number of regex rules at: [Regex](https://regexr.com)

The text used in the next example was taken from "Grande Sertão - Veredas" by Guimarães Rosa.

As follows:

Do demo? Não gloso. Senhor pergunte aos moradores. Em falso receio, desfalam no nome dele – dizem só: o Que-Diga. Vote! não... Quem muito se evita, se convive. Sentença num Aristides – o que existe no buritizal primeiro desta minha mão direita, chamado a Vereda-da-Vaca-Mansa-deSanta-Rita – todo o mundo crê: ele não pode passar em três lugares, designados: porque então a gente escuta um chorinho, atrás, e uma vozinha que avisando: – “Eu já vou! Eu já vou!...” – que é o capiroto, o que-diga... E um José Simpilício – quem qualquer daqui jura ele tem um capeta em casa, miúdo satanazim, preso obrigado a ajudar em toda ganância que executa; razão que o Simpilício se empresa em vias de completar de rico. Apre, por isso dizem também que a besta pra ele rupeia, nega de banda, não deixando, quando ele quer amontar... Superstição. José Simpilício e Aristides, mesmo estão se engordando, de assim não -ouvir ou ouvir. Ainda o senhor estude: agora mesmo, nestes dias de época, tem gente porfalando que o Diabo próprio parou, de passagem, no Andrequicé. Um Moço de fora, teria aparecido, e lá se louvou que, para aqui vir – normal, a cavalo, dum dia-e-meio – ele era capaz que só com uns vinte min utos bastava... porque costeava o Rio do Chico pelas cabeceiras! Ou, também, quem sabe – sem ofensas – não terá sido, por um exemplo, até mesmo o senhor quem se anunciou assim, quando passou por lá, por prazido divertimento engraçado? Há-de, não me dê crime, sei que não foi. E mal eu não quis. Só que uma pergunta, em hora, às vezes, clareia razão de paz. Mas, o senhor entenda: o tal moço, se há, quis mangar. Pois, hem, que, despontar o Rio pelas nascentes, será a mesma coisa que um se redobrar nos intern os deste nosso Estado nosso, custante viagem de uns três meses... Então? Que- Diga? Doideira. A fantasiação. E, o respeito de dar a ele assim esses nomes de rebuço, é que é mesmo um querer invocar que ele forme forma, com as presenças!


In [16]:
text = "Do demo? Não gloso. Senhor pergunte aos moradores. Em falso receio, desfalam no nome dele – dizem só: o Que-Diga. Vote! não... Quem muito se evita, se convive. Sentença num Aristides – o que existe no buritizal primeiro desta minha mão direita, chamado a Vereda-da-Vaca-Mansa-deSanta-Rita – todo o mundo crê: ele não pode passar em três lugares, designados: porque então a gente escuta um chorinho, atrás, e uma vozinha que avisando: – “Eu já vou! Eu já vou!...” – que é o capiroto, o que-diga... E um José Simpilício – quem qualquer daqui jura ele tem um capeta em casa, miúdo satanazim, preso obrigado a ajudar em toda ganância que executa; razão que o Simpilício se empresa em vias de completar de rico. Apre, por isso dizem também que a besta pra ele rupeia, nega de banda, não deixando, quando ele quer amontar... Superstição. José Simpilício e Aristides, mesmo estão se engordando, de assim não -ouvir ou ouvir. Ainda o senhor estude: agora mesmo, nestes dias de época, tem gente porfalando que o Diabo próprio parou, de passagem, no Andrequicé. Um Moço de fora, teria aparecido, e lá se louvou que, para aqui vir – normal, a cavalo, dum dia-e-meio – ele era capaz que só com uns vinte min utos bastava... porque costeava o Rio do Chico pelas cabeceiras! Ou, também, quem sabe – sem ofensas – não terá sido, por um exemplo, até mesmo o senhor quem se anunciou assim, quando passou por lá, por prazido divertimento engraçado? Há-de, não me dê crime, sei que não foi. E mal eu não quis. Só que uma pergunta, em hora, às vezes, clareia razão de paz. Mas, o senhor entenda: o tal moço, se há, quis mangar. Pois, hem, que, despontar o Rio pelas nascentes, será a mesma coisa que um se redobrar nos intern os deste nosso Estado nosso, custante viagem de uns três meses... Então? Que- Diga? Doideira. A fantasiação. E, o respeito de dar a ele assim esses nomes de rebuço, é que é mesmo um querer invocar que ele forme forma, com as presenças!"

In [17]:
sentence_list = re.split(r'(?<=[^A-Z].[.?!;]) +(?=[A-Z]|[a-z]|[0-9])', text)
for sentence in sentence_list:
    print(sentence)

Do demo?
Não gloso.
Senhor pergunte aos moradores.
Em falso receio, desfalam no nome dele – dizem só: o Que-Diga.
Vote!
não...
Quem muito se evita, se convive.
Sentença num Aristides – o que existe no buritizal primeiro desta minha mão direita, chamado a Vereda-da-Vaca-Mansa-deSanta-Rita – todo o mundo crê: ele não pode passar em três lugares, designados: porque então a gente escuta um chorinho, atrás, e uma vozinha que avisando: – “Eu já vou!
Eu já vou!...” – que é o capiroto, o que-diga...
E um José Simpilício – quem qualquer daqui jura ele tem um capeta em casa, miúdo satanazim, preso obrigado a ajudar em toda ganância que executa;
razão que o Simpilício se empresa em vias de completar de rico.
Apre, por isso dizem também que a besta pra ele rupeia, nega de banda, não deixando, quando ele quer amontar...
Superstição.
José Simpilício e Aristides, mesmo estão se engordando, de assim não -ouvir ou ouvir.
Ainda o senhor estude: agora mesmo, nestes dias de época, tem gente porfalando que

What this regular expression does is match all the spaces in the text which have at least three characters before it, being the first different from A-Z, the second any character, and the third being amongst " . ? ! ; ", and a letter or number after it.

---
<h1> NLP model application

The following cells apply the Portuguese NLP Model from Stanza in a sentence.

In [18]:
# Load the model
nlp = stanza.Pipeline('pt', use_gpu=False)

2021-08-16 12:42:33 INFO: Loading these models for language: pt (Portuguese):
| Processor | Package |
-----------------------
| tokenize  | bosque  |
| mwt       | bosque  |
| pos       | bosque  |
| lemma     | bosque  |
| depparse  | bosque  |

2021-08-16 12:42:33 INFO: Use device: cpu
2021-08-16 12:42:33 INFO: Loading: tokenize
2021-08-16 12:42:33 INFO: Loading: mwt
2021-08-16 12:42:33 INFO: Loading: pos
2021-08-16 12:42:33 INFO: Loading: lemma
2021-08-16 12:42:34 INFO: Loading: depparse
2021-08-16 12:42:34 INFO: Done loading processors!


In [19]:
sentence = "O modelo de NLP será aplicado nesta sentença."
# Apply the model in the sentence
doc = nlp(sentence)

To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor'). (Triggered internally at  /pytorch/aten/src/ATen/native/BinaryOps.cpp:467.)
  return torch.floor_divide(self, other)


In [20]:
# shows every words in the sentence
for sent in doc.sentences:
  for word in sent.words:
    print(word.text)

O
modelo
de
NLP
será
aplicado
em
esta
sentença
.


It is worth noting that some NLP models have the parse() function built in. In some cases, the model can miss the parsing

In [21]:
# shows every upos tag in the sentence
for sent in doc.sentences:
  for word in sent.words:
    print(word.upos)

DET
NOUN
ADP
PROPN
AUX
VERB
ADP
DET
NOUN
PUNCT


In [22]:
# shows every dependency tag and its head in the sentence
for sent in doc.sentences:
  for word in sent.words:
    print(word.deprel + " - " +  str(word.head))

det - 2
nsubj:pass - 6
case - 4
nmod - 2
aux:pass - 6
root - 0
case - 9
det - 9
obl - 6
punct - 6


You can get and test out every information about the tokens in the sentence with:
* word.id - returns the ID of the token
* word.text - returns the token
* word.lemma - returns the Lemma of the token
* word.upos - returns the Universal POS-tag of the token
* word.feats - returns the morphological features of the token
* word.head - returns the head token of the dependency relation
* word.deprel - returns the dependency relation of the token

Note: Not every NLP model or library has the same syntax to get the tokens informations or work with the model. You can always look at the library documentation to find out how everything works.

---
<h1> Putting it all together

Now, lets apply the NLP model in some normalized sentences, taken from a .txt file.

In [23]:
# show work PATH
print(PATH)

sample_data/corpus/


If you're using google colab, you can upload your corpus under the "corpus/" folder. If you're running locally, you can put your corpus inside the folder of your PATH.

In [24]:
# Load the model
nlp = stanza.Pipeline('pt', use_gpu=False)

2021-08-16 12:42:34 INFO: Loading these models for language: pt (Portuguese):
| Processor | Package |
-----------------------
| tokenize  | bosque  |
| mwt       | bosque  |
| pos       | bosque  |
| lemma     | bosque  |
| depparse  | bosque  |

2021-08-16 12:42:34 INFO: Use device: cpu
2021-08-16 12:42:34 INFO: Loading: tokenize
2021-08-16 12:42:34 INFO: Loading: mwt
2021-08-16 12:42:34 INFO: Loading: pos
2021-08-16 12:42:35 INFO: Loading: lemma
2021-08-16 12:42:35 INFO: Loading: depparse
2021-08-16 12:42:36 INFO: Done loading processors!


In [25]:
# Open the Writing File (where the informations will be stored) - Create the Writing File if it does not exist.
fw = open(PATH + 'result_corpus.conllu', 'w', encoding='utf-8')

In [None]:
# Open your corpus containing the sentences
# This corpus must be split into sentences (each line has a sentence)
with open(PATH + 'your_corpus.txt', 'r', encoding='utf-8') as f:
  text = f.read()
  idsentence = 1
  
  # Iterate through sentences
  for sentence in text.split("\n"):
    # Write the header of the sentence in the CoNLL-U format
    fw.write('# text = ' + sentence)
    fw.write("\n# source = " + "Grande Sertão - Veredas by Guimarães Rosa")
    fw.write('\n# sent_id = GR-%d' %idsentence)
    fw.write('\n# id = %d' %idsentence)
    idsentence = idsentence + 1
    idword = 1

    # Apply the model in the sentence    
    doc = nlp(sentence)
    
    # Iterate through the tokens
    for sent in doc.sentences:
      for word in sent.words:
        # Write the information about the token in the CoNLL-U format
        fw.write('\n%d' %idword + '\t' + word.text + '\t' + word.lemma + '\t' + word.upos + '\t_\t' + str(word.feats) + '\t' + str(word.head) + '\t' + word.deprel + '\t' + "_" + '\t' + "_")
        idword = idword + 1

    fw.write('\n\n')
 
# Close the file     
fw.close()

---
<h1> Apply model + Regex + Parsing

Often, we don't have an original .txt file ready for use. We can always a few normalizations to fit our need. 

In [27]:
# Open the Writing File (where the informations will be stored) - Create the Writing File if it does not exist.
fw = open(PATH + 'result_corpus_text.conllu', 'w', encoding='utf-8')
fws = open(PATH + 'sentence_corpus.conllu', 'w', encoding='utf-8')

In [28]:
# Open your corpus containing the sentences
# This corpus must be split into sentences (each line has a sentence)
# This corpus must be organized in a way that you have one paragraph per line
print("Initialized - Applying Model")
print("Initializing timer...\n")
start_t = time.time()
with open(PATH + 'your_corpus_text.txt', 'r', encoding='utf-8') as f:
  text = f.read()
  idsentence = 1
  
  # Iterate through sentences
  for p in text.split("\n"):

    # Apply Regex rule and split paragraph
    sentences = re.split(r'(?<=[^A-Z].[.?!;]) +(?=[A-Z]|[a-z]|[0-9])', p)

    # Iterate through split sentences
    for sentence in sentences:
      # Write the sentences in the new sentence corpus
      fws.write(sentence + '\n')

      # Write the header of the sentence in the CoNLL-U format
      fw.write('# text = ' + sentence)
      fw.write("\n# source = " + "Grande Sertão - Veredas by Guimarães Rosa")
      fw.write('\n# sent_id = GR-%d' %idsentence)
      fw.write('\n# id = %d' %idsentence)
      idsentence = idsentence + 1
      idword = 1

      # Before Appying, lets parse the sentences
      sp = parse(sentence)

      # Apply the model in the sentence    
      doc = nlp(sp)
      
      # Iterate through the tokens
      for sent in doc.sentences:
        for word in sent.words:
          # Write the information about the token in the CoNLL-U format
          fw.write('\n%d' %idword + '\t' + word.text + '\t' + word.lemma + '\t' + word.upos + '\t_\t' + str(word.feats) + '\t' + str(word.head) + '\t' + word.deprel + '\t' + "_" + '\t' + "_")
          idword = idword + 1

      fw.write('\n\n')

end_t = time.time()
final_t = (end_t - start_t)/60
print("Applied model in %d sentences!" %idsentence)
print("Execution time: %.2f minutes" %final_t)

Initialized - Applying Model
Initializing timer...

Applied model in 16418 sentences!
Execution time: 1821.0518782138824


In [29]:
# Close the file     
fw.close()
fws.close()

<h1> Corpus Analysis

Here I show how to make a simple analysis throughout the CoNLL-U file. 
You'll just need to adapt your search in the flagged lines (C)

In [46]:
# Write File with the wished analysis. You can change the name of the file in the "dep_" and "nmod_" camps.
fwa = open(PATH + 'dep_' + 'nmod_' + 'analysis.txt', 'w', encoding='utf-8')        #(C)

In [47]:
# Open your annotated corpus in CoNNL-U format.
with open(PATH + 'result_corpus_text.conllu', 'r', encoding='utf-8') as f:
    
    text = f.read()
    count = 0
       
    sentIdlist = []
    for wholesentence in text.split("\n\n"):
        for lines in wholesentence.split("\n"):
            
            # Get the ID of the sentence
            if '# id = ' in lines:
                sentId = lines
                sentIdlist.append(sentId)

            # Ignore lines that start with # in the CoNNL-U file    
            if not (lines.startswith("#")):
                # Split lines in Tabs
                line = lines.split("\t")
                
                # Check if it has all the informations in the line
                if (len(line) == 10):
                    # Separate the tokens information
                    ind = line[0] # index
                    tok = line[1] # token
                    pos = line[4] # UPOS-tag
                    head = line[6] # Head of the dependency
                    dep = line[7] # Dependency relation
                    last = line[9] # last column - gets MWE and NoSpaceAfter, for example
                
                    if "nmod" in dep:   # (C)
                        fwa.write("Sentence: " + str(sentId) + " - Token: " + tok + " - Index (" + ind + ") - Head: " + head + " Dep: " + dep + "\n") # (C)
                        #fwa.write("Sentença: " + str(sentId) + " - Token: " + tok + " - Index (" + ind + ") - Pos: " + pos + "\n")                   # (C)
                        count = count + 1
                        #print("Sentence: " + str(sentId) + " - Token: " + tok + " - Index (" + ind + ") - Head: " + head + " Dep: " + dep)            # (C)
                        #print("Sentença: " + str(sentId) + " - Token: " + tok + " - Index (" + ind + ") - Pos: " + pos)                              # (C)

print("Amount of matches in the corpus: %d" %count)
print("Download the Analysis corpus to get a detailed view of the matches.")

Amount of matches in the corpus: 9603
Download the Analysis corpus to get a detailed view of the matches.


In [48]:
# close analysis file
fwa.close()