<a href="https://colab.research.google.com/github/dfalci/sandbox/blob/master/nlp_processamento_basico.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Expressões regulares

O pacote <i><b>"re"</b></i> é um dos pacotes mais utilizados na linguagem Python para tratar expressões regulares.

Abaixo um quadro com as suas funções mais utilizadas:




* **findall** - retorna uma lista contendo todos os matches
* **search** - Retorna um objeto match se existe algum match em algum ponto da String
* **split** - Retorna uma lista com segmentos da String original. O ponto que determina o inicio de um novo segmento é cada novo match.
* **sub** - Substitui um match na string por um padrão informado



In [1]:
import re

texto = 'primeiro texto'
padrao = "texto|teste"
resp = re.findall(padrao, texto)
print resp

['texto']


<b>Função utilitária para demonstração da API básica</b>

In [2]:
def roda(padrao, texto):
    print 'procurando no texto : {}'.format(texto)
    print 'Resposta do findall : {}'.format(re.findall(padrao, texto))
    print 'Resultado do split : {}'.format(re.split(padrao, texto))
    print 'Resultado do sub : {}'.format(re.sub(padrao, '*TROCOU*', texto))
    m = re.search(padrao, texto)
    if not m is None:
        print 'Resposta do search : span - {}, string - {}, group - {}'.format(m.span(), m.string, m.group())
    

roda('est', "este e um pequeno texto de teste")

procurando no texto : este e um pequeno texto de teste
Resposta do findall : ['est', 'est']
Resultado do split : ['', 'e e um pequeno texto de t', 'e']
Resultado do sub : *TROCOU*e e um pequeno texto de t*TROCOU*e
Resposta do search : span - (0, 3), string - este e um pequeno texto de teste, group - est


In [3]:
#Outro teste
roda('[aA]qui', 'Aqui vemos outro teste')

procurando no texto : Aqui vemos outro teste
Resposta do findall : ['Aqui']
Resultado do split : ['', ' vemos outro teste']
Resultado do sub : *TROCOU* vemos outro teste
Resposta do search : span - (0, 4), string - Aqui vemos outro teste, group - Aqui


In [4]:
# forma alternativa


padrao = re.compile('[aA-zZ]+')
print padrao.findall('Um texto com mais de 10 caracteres')

['Um', 'texto', 'com', 'mais', 'de', 'caracteres']



##Vamos praticar!

###1 - Selecione todas as cadeias alfabéticas em um texto
<b>Apenas um teste</b>
###2 - Selecione todas as cadeias alfabéticas (em minúscula) que terminam com a letra "o"
 <b>facão, jargão, melo, golo</b>
###3 - Selecionar todas as frases que começam com um número de até 4 dígitos e terminam com uma sequência alfabética
<b>1- Frase de teste</b>
###4 - Selecionar todas as cadeias alfabéticas que tenham as palavras 'gato' e 'cachorro'.
<b>eu tenho um gato e um cachorro</b>
 
###5 - Capture uma expressão monetária em reais.
<b>R$38,50</b>
 



##Resposta 1 - Selecione todas as cadeias alfabéticas em um texto
<b>Apenas um teste</b>

In [5]:




#Exercício 1
print re.findall('[aA-zZ]+','Apenas um teste')
#fazendo skip
print re.findall('[aA-zZ]+','Apenas um teste, dessa vez com pontuacao e com o algarismo 3 misturado')
#jeito modernoso de python
print re.findall('\w+','Apenas um teste, dessa vez com pontuacao e com o algarismo 3 misturado')

['Apenas', 'um', 'teste']
['Apenas', 'um', 'teste', 'dessa', 'vez', 'com', 'pontuacao', 'e', 'com', 'o', 'algarismo', 'misturado']
['Apenas', 'um', 'teste', 'dessa', 'vez', 'com', 'pontuacao', 'e', 'com', 'o', 'algarismo', '3', 'misturado']


##Resposta 2 - Selecione a cadeia alfabética (em minúscula) que termina com a letra "o"
 <b>facão, jargão, melo, golo</b>

In [6]:
print re.findall(r'[a-z]+o$','eu sou o melo')

print re.findall(r'[a-z]+o\b','eu so o melo')

['melo']
['so', 'melo']


##Resposta 3 - Selecionar todas as frases que começam com um número de até 4 dígitos e terminam com uma sequência alfabética
<b>1- Frase de teste</b>

In [7]:
print re.findall(r'^[0-9]+.*[aA-zZ]+$', '1 - Frase de teste')
print re.findall(r'^[0-9]+.*[aA-zZ]+$', '1. Frase de teste')
print re.findall(r'^[0-9]+.*[aA-zZ]+$', '200 $ Frase de teste')
print re.findall(r'^[0-9]+.*[aA-zZ]+$', '200 $ Frase de teste.')

['1 - Frase de teste']
['1. Frase de teste']
['200 $ Frase de teste']
[]


##Resposta 4 - Selecionar todas as cadeias alfabéticas que tenham as palavras 'gato' e 'cachorro'.
<b>eu tenho um gato e um cachorro</b>

In [8]:
print re.findall(r'gato|cachorro', 'eu tenho um gato e um cachorro')

['gato', 'cachorro']


##Resposta 5 - Capture uma expressão monetária em reais.
<b>R$38,50</b>

In [9]:
print re.findall(r'[rR]\$[0-9]+,[0-9]{2}', 'Eu tenho r$38,50 em dinheiro')

['r$38,50']


# Tokenization




In [34]:
from nltk import wordpunct_tokenize
from nltk import word_tokenize
from nltk import tokenize    


import nltk
nltk.download('punkt')

print 
texto = 'Passados alguns minutos, só restou resgatar os R$50,00'
print wordpunct_tokenize(texto)
print word_tokenize(texto)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!

['Passados', 'alguns', 'minutos', ',', 's\xc3\xb3', 'restou', 'resgatar', 'os', 'R', '$', '50', ',', '00']
['Passados', 'alguns', 'minutos', ',', 's\xc3\xb3', 'restou', 'resgatar', 'os', 'R', '$', '50,00']


### Segmentação de sentenças:

A segmentação de sentenças apresenta desafios parecidos. 




In [33]:
sent_tokenizer=nltk.data.load('tokenizers/punkt/portuguese.pickle')
frases = sent_tokenizer.tokenize(u"""O Dr. Albert Einstein é um dos maiores personagens de nossa história. Ao longo de sua vida, publicou centenas de artigos e livros""")
print frases
print
for f in frases:
    print f

[u'O Dr. Albert Einstein \xe9 um dos maiores personagens de nossa hist\xf3ria.', u'Ao longo de sua vida, publicou centenas de artigos e livros']

O Dr. Albert Einstein é um dos maiores personagens de nossa história.
Ao longo de sua vida, publicou centenas de artigos e livros


## Vamos praticar

### Dado um texto com múltiplas sentenças, crie uma funcao que realize a segmentação de sentenças, a tokenização e calcule a quantidade de tokens únicos existentes no texto

In [65]:
def funcao(texto):
    sent_tokenizer = nltk.data.load('tokenizers/punkt/portuguese.pickle')
    n_sent = 0
    n_tokens = 0
    dicionario = {}
    for sent in sent_tokenizer.tokenize(texto):
        n_sent+=1
        for w in word_tokenize(sent):
            w = w.lower()
            n_tokens+=1
            dicionario[w] = dicionario.get(w, 0)+1
    return n_sent, n_tokens, dicionario


n_sent, n_tokens, dict = funcao(u'Este é apenas um texto. É um texto que contém várias sentenças')
print '{} sentencas, com {} tokens e um vocabulario de {} tokens'.format(n_sent, n_tokens, len(dict))
print '\nAbaixo o vocabulario:\n'
print dict

2 sentencas, com 13 tokens e um vocabulario de 10 tokens

Abaixo o vocabulario:

{u'este': 1, u'senten\xe7as': 1, u'\xe9': 2, u'texto': 2, u'cont\xe9m': 1, u'.': 1, u'um': 2, u'que': 1, u'v\xe1rias': 1, u'apenas': 1}


#Stopwords



In [51]:
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('portuguese')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [73]:
#quantidade de stopwords em pt na stoplist do nltk
print len(stopwords)

# as 10 primeiras stopwords nessa stoplist
print stopwords[:10]


# removendo stopwords de  uma frase
print [w.lower() for w in word_tokenize(u'tudo que eu puder fazer eu farei') if w.lower() not in stopwords ]

203
[u'de', u'a', u'o', u'que', u'e', u'do', u'da', u'em', u'um', u'para']
[u'tudo', u'puder', u'fazer', u'farei']


##Vamos praticar

###Reescreva a funcao de tokenizacao feita anteriormente de forma a remover as stopwords.

In [64]:
def funcao(texto):
    sent_tokenizer = nltk.data.load('tokenizers/punkt/portuguese.pickle')
    stopwords = nltk.corpus.stopwords.words('portuguese')
    n_sent = 0
    n_tokens = 0
    dicionario = {}
    for sent in sent_tokenizer.tokenize(texto):
        n_sent+=1
        for w in word_tokenize(sent):
            if not w in stopwords:
                w = w.lower()
                n_tokens+=1
                dicionario[w] = dicionario.get(w, 0)+1
            else:
                print 'removendo {}'.format(w)
    print
    return n_sent, n_tokens, dicionario


n_sent, n_tokens, dict = funcao(u'Este é apenas um texto. É um texto que contém várias sentenças')
print 'Temos {} sentencas, com {} tokens e um vocabulario de {} tokens'.format(n_sent, n_tokens, len(dict))
print '\nAbaixo o vocabulario:\n'
print dict

removendo um
removendo um
removendo que

Temos 2 sentencas, com 10 tokens e um vocabulario de 8 tokens

Abaixo o vocabulario:

{u'este': 1, u'senten\xe7as': 1, u'\xe9': 2, u'texto': 2, u'v\xe1rias': 1, u'.': 1, u'cont\xe9m': 1, u'apenas': 1}


# Stemming

O NLTK vem com o stemmer de orengo implementado.


Clique [aqui](http://www.inf.ufrgs.br/~viviane/rslp/) para ver a especificação

In [87]:
nltk.download('rslp')

# removedor de sufixos da lingua portuguesa - RSLP
stemmer = nltk.stem.RSLPStemmer()

stemmer.stem('Apenas')

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


u'apen'

In [88]:

padrao = 'Assim que se recuperar da cirurgia que retirou a bolsa de colostomia, o presidente Jair Bolsonaro vai chamar as bancadas e lideres de partidos para discutir os ajustes finais da reforma da Previdencia.'
retorno = ' '.join([stemmer.stem(item) for item in padrao.split(' ')])
print retorno


assim que se recuper da cirurg que retir a bols de colostomia, o presid jair bolsonar vai cham as banc e lid de part par discut os ajust final da reform da previdencia.


### Alternativas

In [82]:
from nltk.stem import PorterStemmer

porter = PorterStemmer()

print ' '.join([porter.stem(w) for w in word_tokenize('The slow advance of aid toward impoverished Venezuela has become a proxy measure of the power struggle between its two rival presidents. At the same time, there is little doubt that the Venezuelan people are in need of help. So why is it so hard to agree on aid?')])



the slow advanc of aid toward impoverish venezuela ha becom a proxi measur of the power struggl between it two rival presid . At the same time , there is littl doubt that the venezuelan peopl are in need of help . So whi is it so hard to agre on aid ?


In [84]:
from nltk.stem.snowball import SnowballStemmer

print(" ".join(SnowballStemmer.languages))



arabic danish dutch english finnish french german hungarian italian norwegian porter portuguese romanian russian spanish swedish


In [86]:
snowball = SnowballStemmer('portuguese')
padrao = 'Assim que se recuperar da cirurgia que retirou a bolsa de colostomia, o presidente Jair Bolsonaro vai chamar as bancadas e lideres de partidos para discutir os ajustes finais da reforma da Previdencia.'
retorno = ' '.join([snowball.stem(item) for item in padrao.split(' ')])
print retorno

assim que se recuper da cirurg que retir a bols de colostomia, o president jair bolsonar vai cham as banc e lid de part par discut os ajust fin da reform da previdencia.


## Vamos praticar
###Introduza o stemming na função de tokenizacao

# Lemmatizer

### Não existe lematizador da lingua portuguesa no NLTK. Em inglês:


In [102]:
nltk.download('wordnet')

from nltk.stem import WordNetLemmatizer
lemzer = WordNetLemmatizer()

words = [u'loved', u'loves', u'loving']
print [lemzer.lemmatize(w, pos='v') for w in words]

print [lemzer.lemmatize(w) for w in words]

print [lemzer.lemmatize(w, pos='n') for w in words]

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[u'love', u'love', u'love']
[u'loved', u'love', u'loving']
[u'loved', u'love', u'loving']


No <b>SpaCy</b> existe suporte para a língua Portuguesa. Trata-se de um lematizador baseado em um lookup table gigantesco! Abordaremos esta biblioteca com mais profundidade posteriormente.

In [113]:
!python -m spacy download pt


[93m    Linking successful[0m
    /usr/local/lib/python2.7/dist-packages/pt_core_news_sm -->
    /usr/local/lib/python2.7/dist-packages/spacy/data/pt

    You can now load the model via spacy.load('pt')



In [126]:
import spacy

nlp = spacy.load("pt")

texto = u"Esta noite, o presidente deverá convocar a bancada"

print [token.lemma_ for token in nlp(texto)]

[u'Esta', u'noite', u',', u'o', u'presidente', u'dever', u'convocar', u'o', u'bancada']


#Distância de edição

In [127]:
def hamming(s1, s2):
    if len(s1) == len(s2):
        cont = 0
        for i in xrange(0, len(s2)):
            if s1[i]!=s2[i]:
                cont +=1
        return cont
    else:
        return -1

def lev(s1, s2):
    if len(s1) > len(s2):
        temp = s1
        s1 = s2
        s2 = temp
    if len(s1) == 0 or len(s2) == 0:
        return max(len(s1), len(s2))
    custo = 0 if s1[-1] == s2[-1] else 1

    primeiro = lev(s1[:-1], s2)+1
    segundo = lev(s1, s2[:-1])+1
    terceiro = lev(s1[:-1], s2[:-1])+custo
    return min(primeiro, segundo, terceiro)

print lev('testado', 'teste')
print hamming('teste', 'testa')



3
1
