# Natural Language Processing

Processamento de linguagem natural é uma subárea de Inteligência artificial que tem como objetivo extrair informação a partir de linguagem natural, isto é, a linguagem do dia-a-dia de seres humanos. 

Assim, PLN compreende a análise e processamento tanto de textos (mensagens, tweets, notícias, documentos, livros, etc.) quanto de áudios transcritos (músicas, filmes, conversas telefônicas, etc.)

O objetivo é o de criar resumos, extrair informação de textos, interpretar sentidos, analisar sentimentos e aprender conceitos a partir da linguagem natural.

#### Técnicas de pré processamento

* 1) **Normalização/Tokenização:** Divisão de um texto em suas componentes mínimas, como: palavras, frases, etc. Chamamos estas componentes de "Tokens";

* 2) **Remoção de Stop Words:** Palavras comuns que normalmente não contribuem muito para a interpretação do texto, como preposições e artigos, "a", "de", "para", etc.;

* 3) **Remoção de numerais e pontuação**como "!", "?", etc., caso estes não sejam relevantes para o contexto do problema;

* 4) **Stemização e Lematização:** Reduzir a palavra a seu radical linguístico.

In [None]:
# instalando bibliotecas

# pip install -U spacy

# python -m spacy download pt 

# python -m spacy download pt_core_news_sm

In [1]:
!python -m spacy download pt 

⚠ As of spaCy v3.0, shortcuts like 'pt' are deprecated. Please use the full
pipeline package name 'pt_core_news_sm' instead.
Collecting pt-core-news-sm==3.2.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.2.0/pt_core_news_sm-3.2.0-py3-none-any.whl (22.2 MB)
✔ Download and installation successful
You can now load the package via spacy.load('pt_core_news_sm')


2022-04-04 19:59:31.287715: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cudart64_110.dll'; dlerror: cudart64_110.dll not found
2022-04-04 19:59:31.290021: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.


In [2]:
pip install -U spacy

Note: you may need to restart the kernel to use updated packages.


In [3]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.2.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.2.0/pt_core_news_sm-3.2.0-py3-none-any.whl (22.2 MB)
✔ Download and installation successful
You can now load the package via spacy.load('pt_core_news_sm')


2022-04-04 20:01:17.332142: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cudart64_110.dll'; dlerror: cudart64_110.dll not found
2022-04-04 20:01:17.332675: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.


In [4]:
import spacy

nlp = spacy.load('pt_core_news_sm')

**Doc object** -  texto a ser processado com as técnicas de PLN.

Um Doc é um objeto de sequência de objetos do tipo Token e possui diversas informações do texto que contém. Token pode ser uma palavra, frase, pontuação, etc



In [5]:
doc = nlp('Esse texto é meramente ilustrativo')

In [6]:
tokens = [token for token in doc]
tokens

[Esse, texto, é, meramente, ilustrativo]

O resultado da tokenização é uma lista com cada token que compõem o doc!

In [7]:
[token for token in doc if not token.is_punct]

[Esse, texto, é, meramente, ilustrativo]

#### Partes do discurso

O spacy oferece uma ferramenta de classificação gramatical, que permite classificar determinado token, dentro do contexto do texto, entre as possíveis classes gramaticais, como por exemplo:

- Substantivos (noun);
- Verbos (verb);
- Adjetivos (adjective);
- Pontuação (punctuation);
- etc.

Para isso, usamos os seguintes métodos:
- .orth_: retorna o token em string;
- .pos_: retorna a classe gramatical do token;
- .tag_: retorna uma tag com explicações contextuais acerca da classificação;
- spacy.explain(token.tag_) se disponível, é a função que formula uma explicação da tag, que, como podemos ver, não é muito evidente. Se não disponível, a função retorna "None"


In [8]:
[(token.orth_, token.pos_, spacy.explain(token.tag_)) for token in doc]

[('Esse', 'DET', 'determiner'),
 ('texto', 'NOUN', 'noun'),
 ('é', 'AUX', 'auxiliary'),
 ('meramente', 'NOUN', 'noun'),
 ('ilustrativo', 'ADJ', 'adjective')]

#### Stemização e Lematização

Dependendo do contexto, os diferentes tempos verbais podem não ser interessantes, de modo que importa mais a raiz (radical) do verbo.

Esse é o processo da lematização, que é aplicado com o método ".lemma_":



In [9]:
doc = nlp('As mensagens só podem ser vistas pelas pessoas na chamada e são excluídas quando ela termina')

[token.lemma_ if token.pos_ == 'VERB' else token.orth_ for token in doc]



['As',
 'mensagens',
 'só',
 'poder',
 'ser',
 'visto',
 'pelas',
 'pessoas',
 'na',
 'chamar',
 'e',
 'são',
 'excluir',
 'quando',
 'ela',
 'terminar']

#### Remoção de stopwords

Também é muito importante para alguns modelos remover as stopwords. São palavras que esolhemos ignorar como por exemplo artigos, proposições etc. Para isso vamos utilizar a biblioteca nltk.

In [10]:
pip install nltk

Note: you may need to restart the kernel to use updated packages.


In [11]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Dell\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [12]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

In [13]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import nltk

nltk.download('punkt')

stop_words = set(stopwords.words('portuguese'))

text = 'O Sistema Solar compreende o conjunto constituído pelo Sol e todos os corpos celestes que estão sob seu domínio gravitacional. A estrela central, maior componente do sistema, respondendo por mais de 99,85% da massa total, gera sua energia através da fusão de hidrogênio em hélio, dois de seus principais constituintes. Os quatro planetas mais próximos do Sol (Mercúrio, Vênus, Terra e Marte) possuem em comum uma crosta sólida e rochosa, razão pela qual se classificam no grupo dos planetas telúricos ou rochosos. Mais afastados, os quatro gigantes gasosos, Júpiter, Saturno, Urano e Netuno, são os componentes de maior massa do sistema logo após o próprio Sol. Dos cinco planetas anões, Ceres é o que se localiza mais próximo do centro do Sistema Solar, enquanto todos os outros, Plutão, Haumea, Makemake e Éris, encontram-se além da órbita de Netuno.'
print(text)

word_tokens = word_tokenize(text)

sentenca_filtrada = [word.lower() for word in word_tokens]
sentenca_filtrada = [word for word in sentenca_filtrada if word not in stop_words]

sentenca_filtrada = ' '.join(sentenca_filtrada)
print("##################################")
print(sentenca_filtrada)

doc = nlp(sentenca_filtrada) #documento do spacy

#removo pontuação
text = [token.orth_ for token in doc if token.pos_ != 'PUNCT']
text_clean = ' '.join(text)

print("##################")
print(text_clean)

#crio outro documento 
doc = nlp(text_clean)

#lemmatizo todo mundo que nao for verbo ou verbo auxiliar
text_clean = [token.lemma_ if token.pos_ in ['VERB', 'AUX'] else token.orth_ for token in doc]
text_clean = ' '.join(text_clean)

print("###############")
print(text_clean)


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Dell\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


O Sistema Solar compreende o conjunto constituído pelo Sol e todos os corpos celestes que estão sob seu domínio gravitacional. A estrela central, maior componente do sistema, respondendo por mais de 99,85% da massa total, gera sua energia através da fusão de hidrogênio em hélio, dois de seus principais constituintes. Os quatro planetas mais próximos do Sol (Mercúrio, Vênus, Terra e Marte) possuem em comum uma crosta sólida e rochosa, razão pela qual se classificam no grupo dos planetas telúricos ou rochosos. Mais afastados, os quatro gigantes gasosos, Júpiter, Saturno, Urano e Netuno, são os componentes de maior massa do sistema logo após o próprio Sol. Dos cinco planetas anões, Ceres é o que se localiza mais próximo do centro do Sistema Solar, enquanto todos os outros, Plutão, Haumea, Makemake e Éris, encontram-se além da órbita de Netuno.
##################################
sistema solar compreende conjunto constituído sol todos corpos celestes sob domínio gravitacional . estrela cent

In [14]:
stop_words = set(stopwords.words('portuguese'))

text = 'A inteligência artificial é um ramo da ciência da computação que busca simular a inteligência humana em uma máquina. Os sistemas de IA são regidos por algoritmos usando técnicas como machine learning e deep learning para demonstrar comportamento inteligente'

word_tokens = word_tokenize(text)

print(word_tokens)

sentence_filtrada = [word.lower() for word in word_tokens]
sentence_filtrada = [word for word in sentence_filtrada if word not in stop_words]

print(sentence_filtrada)

['A', 'inteligência', 'artificial', 'é', 'um', 'ramo', 'da', 'ciência', 'da', 'computação', 'que', 'busca', 'simular', 'a', 'inteligência', 'humana', 'em', 'uma', 'máquina', '.', 'Os', 'sistemas', 'de', 'IA', 'são', 'regidos', 'por', 'algoritmos', 'usando', 'técnicas', 'como', 'machine', 'learning', 'e', 'deep', 'learning', 'para', 'demonstrar', 'comportamento', 'inteligente']
['inteligência', 'artificial', 'ramo', 'ciência', 'computação', 'busca', 'simular', 'inteligência', 'humana', 'máquina', '.', 'sistemas', 'ia', 'regidos', 'algoritmos', 'usando', 'técnicas', 'machine', 'learning', 'deep', 'learning', 'demonstrar', 'comportamento', 'inteligente']


#### Entidades

Outra ferramenta extremamente útil do spacy é a de identificação automática de entidades em frases.

Entidades são classes particulares dadas à palavras, como nome de pessoas, nome de locais, objetos, etc.

Podemos determinar a classe das entidades presentes em um texto utilizando o método ".label_" de uma lista de entidades construídas pelo método ".ents", aplicado ao doc.

In [15]:
doc = nlp(u'Aprenda a projetar e manipular o banco de dados Google Big Query e a construir Dashboards de análises gerenciais usando o Google Data Studio')

print(doc.ents)

entidades = [(entidade, entidade.label_) for entidade in docs.ents]

(Google Big Query, Dashboards, Google Data Studio)


NameError: name 'docs' is not defined

# Exercícios

In [None]:
# 1) Indique os verbos de uma frase, usando o spacy;

In [None]:
# 2) Indicar o infinitivo dos verbos com o processo de lematização;

In [None]:
# 3) Indicar as classes gramaticais de todas as palavras.