## Aula 1 - Processamento de Linguagem Natual

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

1) Dados Estruturados e Não Estruturados.  
2) Introdução a NLP.  
3) Processamento de Textos.  
4) Exercícios.  

<img src="https://i1.wp.com/thedatascientist.com/wp-content/uploads/2018/09/data_science_wordcloud.png?fit=1584%2C1008&ssl=1" width=800>

Primeiramente, precisamos entender qual a diferença enre as duas fontes de dados mais comuns, sendo elas dados **estruturados** e **não estruturados**. Definimos ele como:
<br><br>
- **Dados Estruturados:** São dados que seguem uma estrutura mais rígida com um padrão fixo e constante. Por exemplo: Tabelas e DataFrames;<br><br>
- **Dados Não estruturados:** Como já diz o nome, são dados que não tem uma estrutura bem estabelecida e necessitam de um processamento adicional para trabalharmos com eles. Exemplos: áudios, vídeos, textos e etc

### Introdução ao Processamento de Linguagem Natural (NLP)

O Processamento de Linguagem Natural, mas conhecido como NLP, é a abordagem onde trabalhamos com **dados não estruturados** do tipo **Texto**. O objetivo de trabalharmos com textos é extrair de informação e teor linguístico das nossas bases de textos e converter isso de uma forma númerica, onde poderemos utilizar em nossos modelos de *Machine Learning*.<br><br>
Temos como exemplos de aplicações de NLP como:
- Análise de Sentimentos em review de filmes e produtos ou mensagens em redes sociais;
- Filtro de E-Mails Spams e Não Spams;
- Identificação de textos a partir de construções linguísticas (descobrir se um texto foi escrito ou não por Machado de assis);
- Tradutores de Idiomas;
- ChatBots;
- Corretores Ortográficos;
- Classificação de textos de acordo com o conteúdo do texto (Esportes, Política, Economia e etc).
<br><br>
Nesta aula iremos aprender a partir dos nossos dados textuais a como processar, tratar e transformar os dados de uma maneira que os modelos de *Machine Learning* entendam.<br><br>

A principal biblioteca de referência para NLP chama-se [NLTK - Natural Language Toll Kit](https://www.nltk.org/)

### Processamento de Textos

Antes de mais nada, precisamos filtrar e tratar os nossos textos, de forma a deixar apenas o conteúdo de mais relevantes para a nossa análise. Existem alguns processos importantes para trabalhar com os textos (não necessariamente você precisa aplicar todos os procesos)

- Remoção de Stopwords;
- Limpeza de Textos;
- Tokenização;
- Normalização do Texto.



### Stopwords

Stopwords são palavras que aparecem com uma frequência muito alta nos textos, mas que não trazem um teor de conteúdo relevante para o nosso modelo. Vamos entender isso na prática:

In [2]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
nltk.download('punkt')  # https://www.nltk.org/_modules/nltk/tokenize/punkt.html
nltk.download('rslp')   # Stemmer em português

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/Faaeel06/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /home/Faaeel06/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package rslp to /home/Faaeel06/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

In [3]:
words_en = stopwords.words('english')

In [4]:
words_pt = nltk.corpus.stopwords.words('portuguese')

Baixada a função de Stopwords, vamos definir um set de stopwords onde teremos uma lista com todas as stopwords em inglês já identificadas:

In [5]:
example = ['my', 'house', 'is', 'black', 'and', 'white']
example

['my', 'house', 'is', 'black', 'and', 'white']

Vamos agora aplicar a remoção de Stopwords:

In [6]:
print(example[0], example[0] in words_en)
print(example[1], example[1] in words_en)
print(example[2], example[2] in words_en)
print(example[3], example[3] in words_en)
print(example[4], example[4] in words_en)
print(example[5], example[5] in words_en)

my True
house False
is True
black False
and True
white False


In [7]:
for word in example:
    if not word in words_en:
        print(word)

house
black
white


### Limpeza do Texto

Existem alguns cuidados com relação a grafia das palavras e elementos em um texto que devemos tomar bastante cuidado antes de fazer qualquer outra coisa. Esses pontos são:<br><br>
- Transformar todas as palavras para MAIÚSCULAS ou minúsculas;
- Remover caracteres especiais;
- Remover dígitos (quando não forem relevantes);
- Remover acentuação (caso típico de quando trabalhamos com textos em Português);

In [8]:
words = ['farMacêuTICO', 'relogio', 'Parada']
for word in words:
    print(word.lower())

farmacêutico
relogio
parada


### Remoção de dígitos, caracteres especiais e qualquer outro item que não queremos no texto

Para essa etapa do processo, iremos utilizar uma biblioteca auxiliar [RegEx (Regular Expression)](https://docs.python.org/3/library/re.html):

In [9]:
import re

Importada a biblioteca, vamos utilizar a função *re.sub*, para substituir os elementos que não queremos nos nossos textos:

**Procure por re.sub**  
https://docs.python.org/3/library/re.html

Obs: Utilize o site https://regex101.com/ para criar o regex e o re.sub para substituir.

In [10]:
frase = 'São mais de 50 cursos de Data Science!!!! #datascience #machinelearning'
re.sub(r'\d', '', frase)

'São mais de  cursos de Data Science!!!! #datascience #machinelearning'

In [11]:
re.sub(r'[^a-zA-Z]+',' ', frase)

'S o mais de cursos de Data Science datascience machinelearning'

Utilizem a documentação para descobrir mais códigos para filtrar elementos ou mesmo deem uma olhada nesse artigo, que resume de uma forma bem visual as aplicações do RegEx: [clique aqui](https://amitness.com/regex/)

Tutorial de regex https://blog.geekhunter.com.br/python-regex/

Hoje os emojis fazem parte da comunicação via mensagens, por isso iremos ver como utilizar frases contento emojis e trata-los de forma adequada

In [12]:
import emoji

In [13]:
texto = 'Python é :thumbs_up:'
emoji.emojize(texto)

'Python é 👍'

Para ver a lista completa:

https://www.webfx.com/tools/emoji-cheat-sheet/

Link biblioteca: https://github.com/carpedm20/emoji/

### Exercício 1
Utilizar Regex para validar CPFs

In [14]:
# pattern='[0-9]+[0-9]+[0-9]+\.[0-9]+[0-9]+[0-9]+\.[0-9]+[0-9]+[0-9]+\-[0-9]+[0-9]' ### qual é a expressao regular do regex neste caso
# pattern='[0-999]=\.[0-999]+\.[0-999]+\-[0-99]'
pattern=r'^{(\d{3}.){2}\{3}-\d{3}}'
cpf = '000.000.000-00'
bool(re.match(pattern, cpf))

False

### Exercício 2

Utilizar Regex para validação de emails

In [15]:
email = 'rafa.rafael3@gmail.com'
pattern='([a-zA-Z0-9_.+-]+)@[a-zA-Z0-9_.+-]+\.[a-zA-Z0-9_.+-]' ### qual é a expressao regular do regex neste caso
# pattern=r"([-a-zA-z0-9.'{}]+@\w+\.\w+)"
# patterns = re.compile(pattern)
# bool(re.match(patterns, email))
bool(re.match(pattern, email))

True

Podemos utilizar NLP para identificar frases que contenham uma palavra chave!

### Remoção de Acentuação
Para a remoção de acentuação, iremos utilizar uma bibloteca chamada *Unidecode*:

In [16]:
from unidecode import unidecode

In [17]:
string = 'Cecília'
print(string)
unidecode(string)
unidecode(string.lower())

Cecília


'cecilia'

## Tokenização

Tokenização é um processo onde transformamos um texto de uma string única em fragmentos desse texto na forma de *tokens*, que nada mais são do que as próprias palavras! Para isso, vamos utilizar a função *word_tokenize* do NLTK:

In [18]:
from nltk.tokenize import word_tokenize

In [19]:
string = 'Python é       legal'
print(word_tokenize(string.lower()))
# Diferença
print(string.split(' '))

['python', 'é', 'legal']
['Python', 'é', '', '', '', '', '', '', 'legal']


## Normalização de Textos

**Normalização de Textos (Text Normalization)** é o procedimento que consiste em **padronizar** o texto, de modo a evitar que variações tornem os modelos demasiadamente complexos. Por exemplo: tratar singular/plural como a mesma coisa, ou então eliminar conjugação de verbos. Outras componentes comuns da normalização são a de eliminar palavras que não agregam muito significado, ou palavras muito raras.

Abaixo alguns exemplos de ações de Text Normalization que podem ser aplicadas no pré-processamento de dados textuais:

**Stemming** - Redução de tokens à sua raiz invariante através da **remoção de prefixos ou sufixos**. Baseado em heurística<br>
**Lemmatization** - Redução de tokens à sua raiz invariante através da **análise linguística do token**. Baseado em dicionário léxico<br>

## Stemming

In [20]:
from nltk.stem.porter import *
from nltk.stem import RSLPStemmer

In [21]:
stemmer = PorterStemmer()
words = ['saving', 'writing', 'running']
for word in words:
    print(stemmer.stem(word))

save
write
run


In [22]:
stemmer = RSLPStemmer()
words_pt = ['salvando','escrevendo', 'correndo', 'corra']
for word in words_pt:
    print(stemmer.stem(word))

salv
escrev
corr
corr


### Lemmatization

In [28]:
import spacy
!spacy download 'pt_core_news_sm_'
nlp = spacy.load("pt_core_news_sm")

Traceback (most recent call last):
  File "/home/Faaeel06/.local/bin/spacy", line 5, in <module>
    from spacy.cli import setup_cli
  File "/home/Faaeel06/.local/lib/python3.9/site-packages/spacy/__init__.py", line 15, in <module>
    from .cli.info import info  # noqa: F401
  File "/home/Faaeel06/.local/lib/python3.9/site-packages/spacy/cli/__init__.py", line 17, in <module>
    from .debug_diff import debug_diff  # noqa: F401
  File "/home/Faaeel06/.local/lib/python3.9/site-packages/spacy/cli/debug_diff.py", line 10, in <module>
    from .init_config import init_config, Optimizations
  File "/home/Faaeel06/.local/lib/python3.9/site-packages/spacy/cli/init_config.py", line 8, in <module>
    from jinja2 import Template
  File "/usr/lib/python3/dist-packages/jinja2/__init__.py", line 12, in <module>
    from .environment import Environment
  File "/usr/lib/python3/dist-packages/jinja2/environment.py", line 25, in <module>
    from .defaults import BLOCK_END_STRING
  File "/usr/lib/pyt

OSError: [E050] Can't find model 'pt_core_news_sm'. It doesn't seem to be a Python package or a valid path to a data directory.

In [25]:
doc = nlp(str([palavra for palavra in words_pt]))
[token.lemma_ for token in doc if token.pos_ == 'NOUN']

NameError: name 'nlp' is not defined

### Parts-of-Speech (POS)
http://www.guru99.com/pos-tagging-chunking

In [29]:
from nltk import pos_tag, ne_chunk

nltk.download('averaged_perceptron_tagger')
words = ['learning', 'is', 'datascience', 'is', 'cool']
pos_tag(words)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/Faaeel06/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


[('learning', 'NN'),
 ('is', 'VBZ'),
 ('datascience', 'NN'),
 ('is', 'VBZ'),
 ('cool', 'JJ')]

### Named ENTITY recognition NER

In [33]:
from nltk import *
ext = "NASA awared Elon Musk's SpaceX a $2.9 billion contract to build the lunar lander"
tokens = word_tokenize(text)
tag = pos_tag(tokens)
nltk.ne_chunk(tag)

TypeError: expected string or bytes-like object

## Pipeline de Processamento de Textos

Conhecendo todos os tipos de processamentos que podemos utilizar, uma forma útil e organizada para isso é construirmos uma funçãi que receba o nosso dados originais e realizada todos os processamentos que queremos nos textos:

**drops**

Crie uma classe que seja capaz de:

- Metodo para remover acentuação
- Metodo de remover digitos
- Metodo de remover caracteres especiais
- Metodo de normalizar o texto em caixa baixa
- Metodo para criar os tokens
- Metodo para filtrar stopwords
- Metodo para pegar o stemming
- Metodo para pegar o lemma
- Metodo de pipeline.
