In [2]:
!pip install unidecode
!pip install wikipedia
!pip install spacy
!python -m spacy download en
!python -m spacy download pt

Collecting unidecode
[?25l  Downloading https://files.pythonhosted.org/packages/d0/42/d9edfed04228bacea2d824904cae367ee9efd05e6cce7ceaaedd0b0ad964/Unidecode-1.1.1-py2.py3-none-any.whl (238kB)
[K     |█▍                              | 10kB 18.5MB/s eta 0:00:01[K     |██▊                             | 20kB 1.9MB/s eta 0:00:01[K     |████▏                           | 30kB 2.5MB/s eta 0:00:01[K     |█████▌                          | 40kB 2.7MB/s eta 0:00:01[K     |██████▉                         | 51kB 2.1MB/s eta 0:00:01[K     |████████▎                       | 61kB 2.4MB/s eta 0:00:01[K     |█████████▋                      | 71kB 2.7MB/s eta 0:00:01[K     |███████████                     | 81kB 2.9MB/s eta 0:00:01[K     |████████████▍                   | 92kB 3.1MB/s eta 0:00:01[K     |█████████████▊                  | 102kB 3.0MB/s eta 0:00:01[K     |███████████████▏                | 112kB 3.0MB/s eta 0:00:01[K     |████████████████▌               | 122kB 3.0MB/

# Expressões Regulares

- O Pacote que permite utilizar ER é <b>re</b>
- Existem vários métodos para utilizar expressões regulares em python., alguns deles para <b>buscar</b> padrões são:

|   Método   |                                      Descrição                                     |
|:----------:|:----------------------------------------------------------------------------------:|
| match()    | Determina se a RE combina com o início da string.                                  |
| search()   | Varre toda a string, procurando qualquer local onde esta RE tem correspondência.   |
| findall()  | Encontra todas as substrings onde a RE corresponde, e as retorna como uma lista.   |
| finditer() | Encontra todas as substrings onde a RE corresponde, e as retorna como um iterador. |

- Métodos para modificar strings:

| Método  | Descrição                                                                                            |
|---------|------------------------------------------------------------------------------------------------------|
| split() | Divide a string em uma lista, dividindo-a onde quer que haja correspondência com a RE                |
| sub()   | Encontra todas as substrings que correspondem com a RE e faz a substituição por uma string diferente |
| subn()  |  É o mesmo que o método sub(), mas retorna a nova string e o número de substituições                 |


Link: https://docs.python.org/pt-br/3.8/howto/regex.html

Agora vamos exemplificar cada um desses métodos:

In [3]:
import re
import datetime

In [4]:
texto = "Vamos encontrar Padrões nesta string!! \nAgora é a nossa primeira prática de NLP!! Vamos aprender a procurar padrões!! \nBelo Horizonte, "+ str(datetime.datetime.now().date())+"."

In [5]:
print(texto)

Vamos encontrar Padrões nesta string!! 
Agora é a nossa primeira prática de NLP!! Vamos aprender a procurar padrões!! 
Belo Horizonte, 2020-09-19.


## Match
Determina se a RE combina com o início da string

In [6]:
re.match("Vamos", texto)

<_sre.SRE_Match object; span=(0, 5), match='Vamos'>

In [7]:
re.match("nesta", texto)

é case sensitive

In [8]:
re.match(r"vamos", texto)

## Search
Varre toda a string, procurando qualquer local onde esta RE tem correspondência

In [None]:
re.search("Vamos", texto)

In [None]:
re.search("encontrar", texto)

o default é case-sensitive

In [None]:
re.search("padrões", texto)

In [None]:
re.search("Padrões", texto)

podemos ignorar case-sensitive

In [None]:
re.search("padrões", texto, re.IGNORECASE)

## Findall
Encontra todas as substrings onde a RE corresponde, e as retorna como uma lista

In [9]:
re.findall("Vamos", texto)

['Vamos', 'Vamos']

In [10]:
re.findall("padrões", texto)

['padrões']

re.I é igal re.IGNORECASE

In [11]:
re.findall("padrões", texto, re.I)

['Padrões', 'padrões']

In [12]:
#quando uso o + o padrão é 1 ou mais. Assim todas string que tem a no meio de outras letras  são retornadas
re.findall(r'\w+a\w+', texto)

['Vamos', 'encontrar', 'Padrões', 'Vamos', 'procurar', 'padrões']

In [13]:
#quando uso o * o padrão é 0 ou mais. Assim todas string que tem a no meio, ou no início ou no fim são retornadas
re.findall(r'\w*a\w*', texto)

['Vamos',
 'encontrar',
 'Padrões',
 'nesta',
 'Agora',
 'a',
 'nossa',
 'primeira',
 'prática',
 'Vamos',
 'aprender',
 'a',
 'procurar',
 'padrões']

## Finditer
Encontra todas as substrings onde a RE corresponde, e as retorna como um iterador.

In [None]:
re.finditer("Vamos", texto)

In [None]:
res = re.finditer("Vamos", texto)
[r for r in res]

In [None]:
re.finditer("padrões", texto)

In [None]:
re.finditer("padrões", texto, re.I)

## Split

In [None]:
re.split('\n',texto)

In [None]:
texto.split("\s+")

In [None]:
(re.split(r'\s+',texto))

## Sub

In [None]:
re.sub('\w+a\w+', 'a-word', texto)

## Subn

In [None]:
re.subn('\w+a\w+', 'a-word', texto)

# Exercícios

1. Escreva uma expressão regular para verificar se uma string contém apenas um determinado conjunto de caracteres (neste caso, a-z, A-Z e 0-9).

In [34]:
string1 = "ABCDEFabcdef123450"
string2 = "*&%@#!}{"

In [35]:
print(re.match(r'^\w+$', string1))

<_sre.SRE_Match object; span=(0, 18), match='ABCDEFabcdef123450'>


2. Escreva uma expressão regular que corresponda a uma sequência que tenha um a seguido por zero ou mais b's.

In [None]:
string1 = "abc"
string2 = "aacb"
string3 = "abbc"
string4 = "bb"

3. Escreva um expressão regular que corresponda a uma sequência que tenha um a seguido por um ou mais b's.

In [None]:
string1 = "abc"
string2 = "aacb"
string3 = "abbc"
string4 = "bb"

4. Escreva uma expressão regular para converter uma data do formato aaaa-mm-dd para o formato dd-mm-aaaa.

In [None]:
data1 = "2026-01-02"
data2 = "26-01-02"

5. Escreva uma expressão para remover o excesso de espaço

In [None]:
string = "Exercídios     Expressão    Regular"

6. Escreva uma expressão para dividir uma string em letras maiúsculas

In [None]:
string = "ExercídiosExpressãoRegularAA"

7. Escreva uma expressão regular para remover a área de parênteses em uma string


- Amostra de Entrada: 
> * ["example (.br)", "w3resource", "github (.com)", "stackoverflow (.com)"] </br>
* Saída Esperada: 
> * example
> * w3resource
> * github
> * stackoverflow

In [None]:
strings = ["example (.br)", "w3resource", "github (.com)", "stackoverflow (.??)"]

8. Escreva um programa para quebrar um texto em sentenças

In [None]:
string = "Vamos encontrar Padrões nesta string!! Agora é a nossa primeira prática de NLP!! Vamos aprender a procurar padrões!! Belo Horizonte 2020."

9. Escreva um código para remover os zeros iniciais do IP 216.08.094.196

In [None]:
ip = "216.08.094.196"

10. Recupere todos os "Twitter" do arquivo http://humanstxt.org/humans.txt

Exemplo de como recuperar o texto dete arquivo web:

```python
import requests
response = requests.get('http://humanstxt.org/humans.txt')
print(response.text)
```

Imprima a quantidade de twitters e todos twitters encontrados.

# Técnicas de Pré-processamento

In [None]:
import nltk
import wikipedia
import re
import spacy
from nltk.probability import FreqDist
import pt_core_news_sm
import en_core_web_sm
nltk.download()

NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> 1
Command '1' unrecognized

---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> d

Download which package (l=list; x=cancel)?
  Identifier> 

---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> q


True

## Definindo o corpus

Primeiramente, definimos o corpus que iremos trabalhar.

In [None]:
# Caso o pacote wikipedia não funcione:
## Entre no link e faça downaload do arquivo https://drive.google.com/open?id=15R1jcugeM5SoGSPIPyG_6X6F3oMlxSBt
## Depois leia com o comando abaixo
#file = open("pln_wikipedia.txt", 'r')
#file_wiki = file.readlines()
#file.close()
#corpus = '\n'.join(file_wiki)

In [None]:
wikipedia.set_lang("pt")

In [None]:
pln = wikipedia.page("PLN")

In [None]:
corpus = pln.content

In [None]:
print("O texto que estamos utilizando é da URL",pln.url)

In [None]:
print(pln.content)

## Tokenização

Existem várias formas de realizar tokenização. 
1. Split()
2. Regex
3. NLTK
4. ...

### Split

Faça utilizando o método abaixo
<b> Não esqueça de armazenar o resultado na variável abaixo. </b>

```python
str.split()
```

In [None]:
tokens_split = 

In [None]:
#problema do split é que ele não separa as pontuações.
print(tokens_split)

### Regex

Faça utilizando o método abaixo
<b> Não esqueça de armazenar o resultado na variável abaixo. </b>

```python
re.findall(r"\w+(?:'\w+)?|[^\w\s]", corpus)
```

In [None]:
tokens_regex = 

In [None]:
#Regex
print(tokens_regex)

### NLTK

Faça utilizando o método abaixo.
<b> Não esqueça de armazenar o resultado na variável abaixo. </b>

```python
nltk.word_tokenize(corpus)
```

In [None]:
tokens_nltk = 

In [None]:
#NLTK
print(tokens_nltk)

In [None]:
def plot_frequencia_tokens(tokens):
    fd_words = FreqDist(tokens)
    fd_words.plot(20)

### Plot das tokenizações

Plote o resultado de cada uma das tokenizações. 
Utilize o método <b> plot_frequencia_tokens() </b> para plotar o gráfico.
Também imprima o tamanho de cada tokenização

In [None]:
print("Tokens Split")
#faça aqui

In [None]:
print("Tokens Regex")
#faça aqui

In [None]:
print("Tokens NLTK")
#faça aqui

Como foi possível observar, existem variações nas tokenizações realizadas. 
A que gerou mais tokens foi a que utilizou regex.
Por isso iremos utilizá-la a partir deste ponto.
Utilize o resultado de <b> tokens_regex</b>.

## Capitalização

traforme todos os tokens para minúsculo utilizando a função abaixo:

```python
str.lower()
```

In [None]:
tokens = 

 <b> <span style="color:red"> Lembre de utilizar a VARIÁVEL que contém o resultado da transformação anterior.
    Se você acompanhar o nome da variável que já está na célula não tem erro! :) </span> </b>

## Remoção Stopwords

remova todas as stopwords retornadas pelo pacote NLTK da lista de tokens.

```python
portugues_stops = stopwords.words('portuguese')
```

In [None]:
from nltk.corpus import stopwords

In [None]:
portugues_stops = 

In [None]:
#imprima as stopwords para você conhecer
print(portugues_stops)

In [None]:
tokens_sem_stop = 

## Remoção Números

remova todos os números, utilizando uma regex

```python
re.sub(__,__,__)
```

In [None]:
tokens_sem_numbers = 

## Remoção Pontuação

remova todas as pontruações retornadas pelo pacote string da lista de tokens.

```python
string.punctuation
```

In [None]:
import string

In [None]:
string.punctuation

In [None]:
tokens_sem_punction = 

In [None]:
sorted(tokens_sem_punction)

## Remoção Acentos

remova todos os acentos utilizando a função abaixo:

```python
unidecode(str)
```

In [None]:
from unidecode import unidecode

In [None]:
tokens_sem_acentos = 

###  Plote a frequência dos tokens sem acentos. Utilize o método plot_frequencia_tokens() para plotar o gráfico. Também imprima o tamanho desta lista. 

In [None]:
#tokens_sem_acentos

## Stemming

Iremos utilizar o stemming da biblioteca NLTK. O algoritmo disponível para este procedimento em portugês é o RSLPStemmer.

```python
stemmer = nltk.stem.RSLPStemmer()
#para cada token:
stemmer.stem(token)
```

Aplique o stemmet em cada elemento da lista de tokens.


In [None]:
stemmer = nltk.stem.RSLPStemmer()

In [None]:
tokens_stemmer = 

###  Plote a frequência dos tokens após o processo de stemming. Utilize o método plot_frequencia_tokens() para plotar o gráfico. Também imprima o tamanho desta lista. 

In [None]:
#tokens_stemmer

## Lemmatization
a biblitoteca NLTK não possui lematização para português.
Mas a scpaCy possui.

In [None]:
#carrega o modelo para português
#nlp = spacy.load('pt')
nlp = pt_core_news_sm.load()

Você pode executar a <b> lematização </b> com acentos ou sem acentos. Funciona da mesma forma.

A primeira etapa para executar a lematização é transformar a lista de tokens para uma string. 
Utilize a variável de tokens: <b> tokens_sem_punction </b>.

Dica: utilize o método join para isto:

```python
str.join(list)

```

In [None]:
str_tokens = 

Depois carregue a string de tokens (<b>str_tokens</b>) no modelo <b> nlp </b>, carregado em um dos passos anteriores.

```python
doc = nlp(str_tokens)
```

In [None]:
doc = nlp(str_tokens)

Verifique o tipo da variável <b> doc </b>.
Observe que é do tipo spacy.tokens.doc.Doc

In [None]:
type(doc)

Como tipo da variável doc é do tipo spacy.tokens.doc.Doc.
Apenas é preciso iterar em cada token e retornar o atributo <b> lemma_</b>

In [None]:
token_lemm = 

In [None]:
len(token_lemm)

###  Plote a frequência dos tokens após o processo de lematização. Utilize o método plot_frequencia_tokens() para plotar o gráfico. Também imprima o tamanho desta lista. 

In [None]:
#token_lemm

# Perguntas?

## 1. Quais diferenças você entrou entre os métodos de tokenização. Cite ao menos 3 tokens com resultados diferentes.

## 2. Qual a principal diferença que você verificou entre o processo de stemming e de lematização?