# **Introdução à PLN**

## Recursos:

Software:


*  Spacy: [documentação](https://spacy.io/usage)
*   Spacy em português: [documentação](https://spacy.io/models/pt)

Dados

Neste exemplo, utilizaremos frases inseridas diretamente no notebook.

In [None]:
import spacy
import os
os.system("python -m spacy download pt")
nlp = spacy.load('pt')

**Processamento do documento**

A primeira etapa para utilização do spacy é criar um documento processado.

In [None]:
doc = nlp("João estará em São Paulo na próxima semana visitando a NESS. Eu devo levar roupa para frio?")

**Atributos**

Internamente o documento é tratado como uma lista de tokens que possuem diversos atributos, como mostrado abaixo.

In [None]:
for token in doc:
    print("{0}\t{1}\t{2}\t{3}\t{4}\t{5}".format(
        token.text,
        token.idx,
        token.lemma_,
        token.is_stop,
        token.is_punct,
        token.pos_
    ))

# Pré-processamento

**Separação em sentenças**

Divide o documento numa lista de sentenças, não leva em consideração apenas a pontuação.

In [None]:
for sent in doc.sents:
    print(sent)

**Normalização**

Passa todos os caracteres para o minúsculo.

In [None]:
normal = [token.text.lower() for token in doc]
print(old)

**Remoção de stopwords**

Remove palavras com pouco significado para o texto. No caso do spacy é levado em consideração tanto a classe gramatical quanto uma lista pré-definida de palavras. 

In [None]:
sem_stopwords = [token.text.lower() for token in doc if not(token.is_stop or token.is_punct)]
print(sem_stopwords)

**Lemmatization**

Recupera a forma primitiva de cada palavra. Por exemplo, muda verbo para o infinitivo e palavras no plural para o singular.

In [None]:
lemmas = [token.lemma_.lower() for token in nlp(" ".join(new))]
print(lemmas)

**POS Tagging**

Extrai as classes gramaticais das palavras.

In [None]:
for token in doc:
    print(token.text,token.pos_)

**NER**

Extrai entidades do texto - será mais explicado num notebook a parte.

In [None]:
for ent in doc.ents:
    print(ent.text,ent.label_)

**Visualização**

In [None]:
from spacy import displacy

In [None]:
displacy.render(doc, style='ent',jupyter=True)