## Instalação

Caso for necessário, instalar a versão 2.2.3 do spacy para seguir a aula do professor:

```bash
    pip install spacy==2.2.3
```

Assim

In [1]:
import spacy
spacy.__version__

'3.8.7'

Realiza o download dos pacotes em português do spaCy.

In [None]:
!python -m spacy download pt # Agora deve ser: pt_core_news_sm

[38;5;3m⚠ As of spaCy v3.0, shortcuts like 'pt' are deprecated. Please use the
full pipeline package name 'pt_core_news_sm' instead.[0m
Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m42.7 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.0.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


## Marcação POS

- POS: (part-of-speech, partes da fala), atribui para as palavras partes da fala, como substantivos, adjetivos e verbos.
- Importante para a detecção de entidades no texto, pois primeiro é necessário saber o que o texto contém.

In [None]:
# Função principal para realizar todo o processamento nos dados de texto
pln = spacy.load('pt_core_news_sm')

Sempre que for necessário processar um texto é necessário coloca-lo dentro do objeto *pln* (variável que armazenou os modelos em português).

In [22]:
doc = pln('Estou aprendendo processamento de linguagem natural, curso do professor da IA Expert Academy, estudando em São Paulo.')

In [23]:
for token in doc:
    print(token, token.pos_) # pos_ verifica o "part-of-speech"

Estou AUX
aprendendo VERB
processamento NOUN
de ADP
linguagem NOUN
natural ADJ
, PUNCT
curso NOUN
do ADP
professor NOUN
da ADP
IA PROPN
Expert PROPN
Academy PROPN
, PUNCT
estudando VERB
em ADP
São PROPN
Paulo PROPN
. PUNCT


### Legenda

- **lemma**: raiz da palavra
- **pos**: parte da fala
- **tag**: informações morfológicas, como se o verbo está no passado
- **dep**: dependência sintática
- **shape**: formato (maiúsculo, minúsculo, dígitos)
- **alpha**: se é alfabético
- **stop**: se é stopword

In [None]:
import pandas as pd

tokens = [{'palavra': token.text, 
           'lemma_': token.lemma_, 
           'pos_': token.pos_, 
           'tag_': token.tag_, 
           'dep_': token.dep_, 
           'shape_': token.shape_, 
           'is_alpha': token.is_alpha, 
           'is_stop': token.is_stop}
          for token in doc]

df_tokens = pd.DataFrame.from_dict(tokens)
df_tokens

Unnamed: 0,palavra,lemma_,pos_,tag_,dep_,shape_,is_alpha,is_stop
0,Estou,estar,AUX,AUX,aux,Xxxxx,True,True
1,aprendendo,aprender,VERB,VERB,ROOT,xxxx,True,False
2,processamento,processamento,NOUN,NOUN,obj,xxxx,True,False
3,de,de,ADP,ADP,case,xx,True,True
4,linguagem,linguagem,NOUN,NOUN,nmod,xxxx,True,False
5,natural,natural,ADJ,ADJ,amod,xxxx,True,False
6,",",",",PUNCT,PUNCT,punct,",",False,False
7,curso,curso,NOUN,NOUN,appos,xxxx,True,False
8,do,de o,ADP,ADP,case,xx,True,True
9,professor,professor,NOUN,NOUN,nmod,xxxx,True,False


Adquirindo apenas entidades (nomes próprios):

In [25]:
for token in doc:
    if token.pos_ == 'PROPN':
        print(token)

IA
Expert
Academy
São
Paulo


## Lematização e stemização

- **Lematização**: "Lema" de uma palavra de acordo com seu significado no dicionário - **palavra base** (análise vocabular e morfológica)
    - Como por exemplo, para a palavra "aprendendo" a palavra base seria "aprender".

- **Stemização**: Extração do **radical** das palavras.
    - Como por exemplo, para a palavra "aprendendo" o radical extraído seria "aprend".

A Lematização realiza a análise morfológica das palavras.

*morfológica: refere-se ao estudo da forma e estrutura*

In [26]:
df_tokens[['palavra', 'lemma_']]

Unnamed: 0,palavra,lemma_
0,Estou,estar
1,aprendendo,aprender
2,processamento,processamento
3,de,de
4,linguagem,linguagem
5,natural,natural
6,",",","
7,curso,curso
8,do,de o
9,professor,professor


Note que o lemma para cada uma das palavras abaixo é a mesma, ou seja, a morfologia de todas essas palavras levam para a palavra "encontrar".

In [28]:
doc_2 = pln('encontrei encontraram encontrarão')
[token.lemma_ for token in doc_2]

['encontrar', 'encontrar', 'encontrar']

### Comparação de stemização (NLTK - Natural Language ToolKit) x lematização (spaCy) 

In [32]:
import nltk
nltk.download('rslp') # stemizador específico para trabalharmos com a língua portuguesa

[nltk_data] Downloading package rslp to /home/wolf/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

Quando é realizado a stemização, irá extrair apenas o radical das palavras.

É possível que com o uso dessa técnica palavras com significados diferentes tenham um mesmo radical, algo que pode gerar confusão.

In [33]:
stemmer = nltk.stem.RSLPStemmer()

stemmer.stem('aprendendo')

'aprend'

São Paulo ficou como "paul", não faz muito sentido extrair o radical de uma palavra que seria de um nome próprio.

Com a lematização o significado da palavra é mantido.

In [34]:
for token in doc:
    print(token.text, token.lemma_, stemmer.stem(token.text))

Estou estar est
aprendendo aprender aprend
processamento processamento process
de de de
linguagem linguagem lingu
natural natural natur
, , ,
curso curso curs
do de o do
professor professor profes
da de o da
IA IA ia
Expert Expert expert
Academy Academy academy
, , ,
estudando estudar estud
em em em
São São são
Paulo Paulo paul
. . .
