# Processamento de Linguagem Natural, Aula 1

# Conteúdo

## Part of Speech

É a parte do processamento de linguagem natural responsável por identificar palavras em um texto e enriquece-las com metadados sobre sua composição e classificação (ex: verbos, adjetivos, pronomes pessoais, etc)

In [30]:
import spacy
import en_core_web_sm
from spacy import displacy

# Instancia o objeto que será responsável por processar a lingua
# inglesa
nlp = spacy.load('en_core_web_sm')

# nlp(<texto>) -> Cria um Doc (sequencia de tokens) a partir de um texto
doc = nlp('Aline sold my car')

# Lista os tokens presentes na frase
for token in doc:
    '''
    Tipos de POS
    
    - PROPN -> Pronome pessoal
    - VERB  -> Verbo
    - NOUN  -> Siubstantivo
    '''

    # <token>.text -> Retorna o texto do token
    # <token>.pos_ -> Retorna a classificação de Part Of Speech (POS) do token
    # <token>.tag_ -> Uma classificação mais detalhada do POS
    print(token.text, token.pos_, token.tag_)

Aline PROPN NNP
sold VERB VBD
my PRON PRP$
car NOUN NN


## Named Entity Recognition (NER)

É uma parte do POS especializada em extrair entidades de uma frase, e não as palavras em si

In [27]:
doc_ent = nlp('A IBM worker payed my printing for just $500,00')

# <doc>.ents -> Lista as entidades presentes no documento
for entity in doc.ents:
    '''
    Tipos de entidade:

    - ORG   -> Organização, corporação
    - MONEY -> Informação monetária
    - PER   -> Pessoa
    - LOC   -> Localidade
    '''

    # entity.text -> Retorna o texto da entidade
    # entity.label_ -> Retorna a classificação da entidade
    print(entity.text, entity.label_)

# displacy.render -> Renderiza a frase, destacando as entidades encontradas
displacy.render(doc_ent, style='ent', jupyter=True)

# Exercícios

## Exercício 1

In [16]:
nlp_pt = spacy.load('pt_core_news_sm')
doc_pt = nlp_pt('Uma frase aleatória qualquer em português, apenas para satisfazer o enunciado ao apresentar de verbos')

is_verb = lambda t: t.pos_ == 'VERB'

verbs = [token for token in doc_pt if is_verb(token)]
verbs_count = len(verbs)

print(f'Qtde verbos: {verbs_count}')
print(f'Verbos: {verbs}')

displacy.render(doc_pt, style='dep', jupyter=True)

Qtde verbos: 2
Verbos: [satisfazer, apresentar]


## Exercício 2

In [15]:
nlp_pt = spacy.load('pt_core_news_sm')
doc_pt = nlp_pt('Gustavo teste de nome Joaquim, Filó, java ')

is_name = lambda t: t.pos_ == 'PROPN'

new_text = doc_pt.text

for token in doc_pt:
    if is_name(token):
        new_text = new_text.replace(token.text, '*****')

displacy.render(doc_pt, style='dep', jupyter=True)

In [29]:
nlp_pt = spacy.load('pt_core_news_sm')
doc_araras = nlp_pt('A fundação da cidade é atribuída aos irmãos Bento de Lacerda Guimarães , barão de Araras, e José Lacerda Guimarães, barão de Arari, originários de Itatiba. As primeiras residências da região surgiram em suas terras por volta de 1862, mas foi a doação de parte da Fazenda São Joaquim (no Município de Limeira) - propriedade que pertence até hoje a seus descendentes, que permitiu a construção da capela que mais tarde se tornaria a Igreja Nossa Senhora do Patrocínio da cidade, em 15 de agosto de 1862. O nome "Araras" foi escolhido em referência ao nome do rio que corta a cidade, e também devido ao grande número dessa ave que havia na região.')

displacy.render(doc_araras, style='ent', jupyter=True)
displacy.render(doc_araras, style='dep', jupyter=True)