# Aula 5 - Análise Sintática e Estruturas Linguisticas

A análise sintática é o processo que possibilita que a máquina compreenda como é a estrutura gramatical de frases: as palavras isoladamente (classe gramatical), estrutura da oração e a relação de dependência entre as palavras

# Parte 2 - Demonstração de estruturas funcionais

In [None]:
!pip install spacy
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m86.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


### Exemplo 1 - POS Tagging com Spacy

**POS Tagging (Part-of-Speech Tagging)**, ou **marcação de classe gramatical**, é o processo de:

- Identificar e **rotular cada palavra de uma sentença com sua categoria gramatical**, como:
  - Substantivo (NOUN)
  - Verbo (VERB)
  - Adjetivo (ADJ)
  - Advérbio (ADV), entre outros.
  
- Ajuda a entender **como as palavras se relacionam dentro da frase**.

**SpaCy**: Modelo treinado com regras linguísticas e probabilísticas para:
- Determinar o contexto gramatical de cada palavra.
- Permitir análises profundas como **reconhecimento de entidades** e **extração de dependências sintáticas**.


In [None]:
import spacy

# Carrega o modelo pré-treinado da língua portuguesa
nlp = spacy.load("pt_core_news_sm")

frase = input("Insira uma frase, gramaticalmente correta: ")

# Processa a frase com o modelo do spaCy, retornando um objeto do tipo 'Doc'
doc = nlp(frase)

# Exibe o objeto 'doc', que representa a frase processada
print(doc)

for token in doc:
  # Exibe o texto do token e sua classe gramatical (POS - Part of Speech)
  print(f"{token.text} -> {token.pos_}")

Insira uma frase, gramaticalmente correta: olá turma
olá turma
olá -> PRON
turma -> NOUN


### Exemplo 2 - Pos Tagging com NLTK (somente em inglês)

**POS Tagging com NLTK** utiliza ferramentas integradas da biblioteca para:

- Realizar a **marcação de classes gramaticais** em textos escritos em inglês.
- Identificar categorias como:
  - Nouns (NN, NNP, etc.)
  - Verbs (VB, VBD, etc.)
  - Adjectives (JJ)
  - Adverbs (RB), entre outras.

Principais características:

- Utiliza o `word_tokenize` para dividir o texto em palavras (tokens).
- Aplica o `pos_tag`, que atribui rótulos gramaticais com base em regras linguísticas e modelos estatísticos.
- A saída segue o **padrão Penn Treebank**, um conjunto padronizado de rótulos gramaticais em inglês.



In [None]:
!pip install nltk



In [None]:
import nltk

nltk.download("averaged_perceptron_tagger")
nltk.download('punkt')

frase = input("Insira uma frase, coerente: ")

# Tokeniza a frase em palavras
tokens = nltk.word_tokenize(frase)

# Aplica POS Tagging, associando cada palavra à sua classe gramatical
pos_tags = nltk.pos_tag(tokens)

# Exibe cada palavra da frase junto com sua respectiva classe gramatical
for palavra, classe in pos_tags:
  print(f'{palavra} -> {classe}')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Insira uma frase, coerente: good evening class
good->JJ
evening->NN
class->NN


### Exemplo 3 - Parsing de Dependência com spacy

**Parsing de dependência** é uma técnica de análise sintática que:

- Representa a **estrutura gramatical de uma frase** por meio de relações hierárquicas entre palavras.
- Identifica qual palavra é a **palavra principal (raiz)** e quais são suas **dependentes gramaticais** (sujeito, objeto, etc.).

Com o **spaCy**, o parser de dependência:

- Usa modelos treinados para **analisar frases automaticamente**.
- Retorna informações como:
  - A **raiz** da frase (verbo principal)
  - A função de cada palavra
  - A relação entre palavras com base no contexto

In [None]:
import spacy

nlp = spacy.load('pt_core_news_sm')

frase = "O gato preto dorme na cadeira"

# Processa a frase com o modelo do spaCy, criando um objeto 'Doc' com informações linguísticas
doc = nlp(frase)

# Percorre cada token (palavra ou pontuação) na frase processada
for token in doc:
  # Exibe:
  # - o texto da palavra (`token.text`)
  # - sua função sintática na frase (`token.dep_`), como sujeito, objeto, etc.
  # - e a palavra à qual ela está relacionada (`token.head.text`), chamada de "cabeça" na árvore de dependência
  print(f"{token.text} -> {token.dep_} -> {token.head.text}")


O -> det -> gato
gato -> ROOT -> gato
preto -> amod -> gato
dorme -> amod -> gato
na -> case -> cadeira
cadeira -> nmod -> gato


### Exemplo 4 - Análise de Dependência com Spacy

A **análise de dependência** é uma forma de entender a estrutura gramatical de uma frase, revelando como as palavras se conectam e se organizam sintaticamente.

Com o **spaCy**, essa análise permite:

- Identificar as **relações sintáticas** entre palavras, como:
  - Sujeito → `nsubj`
  - Objeto → `obj`
  - Modificadores → `amod`, `prep`, etc.
  - Raiz da frase (verbo principal) → `ROOT`
  
- Acessar a **cabeça sintática** de cada palavra (ou seja, a palavra da qual ela depende).


In [None]:
import spacy

from spacy import displacy

nlp = spacy.load('pt_core_news_sm')

frase = "O gato preto dorme na cadeira."

# Processa a frase com o modelo spaCy, criando um objeto 'Doc' com informações linguísticas
doc = nlp(frase)

# Gera uma visualização da análise de dependência sintática da frase diretamente no Jupyter Notebook
# style='dep' indica que queremos o gráfico de dependências gramaticais
# jupyter=True garante que o gráfico seja exibido corretamente no ambiente do Colab ou Jupyter
displacy.render(doc, style='dep', jupyter=True)


### Exemplo 5 - Análise de Constituência com NLTK

A **análise de constituência** busca identificar como uma frase pode ser dividida em **grupos de palavras (constituentes)**, como sintagmas nominais (NP), verbais (VP), preposicionais (PP), entre outros.

Com o **NLTK**, essa análise envolve:

- A definição de uma **gramática formal** com regras sintáticas (usando notação como S → NP VP).
- A criação de um **parser** (analisador sintático), como `RecursiveDescentParser` ou `ChartParser`, para interpretar sentenças com base nessa gramática.
- A geração de **árvores sintáticas** que mostram como a frase se estrutura em termos de **sintagmas e subpartes gramaticais**.

In [None]:
import nltk

from nltk import Tree

# Cria uma árvore sintática (análise de constituência) manualmente
# A árvore segue a estrutura: S (sentença) composta por um NP (sintagma nominal) e um VP (sintagma verbal)
sintaxe = Tree('S', [  # S = sentença
    Tree('NP', [       # NP = sintagma nominal
        Tree('DET', ['O']),      # DET = determinante
        Tree('N', ['gato'])      # N = substantivo
    ]),
    Tree('VP', [       # VP = sintagma verbal
        Tree('V', ['dorme']),    # V = verbo
        Tree('PP', [             # PP = sintagma preposicional
            Tree('P', ['na']),   # P = preposição
            Tree('NP', [         # NP = sintagma nominal (dentro da preposição)
                Tree('N', ['cadeira'])  # N = substantivo
            ])
        ])
    ])
])

# Exibe a árvore sintática
sintaxe.pretty_print()


               S                  
      _________|____               
     |              VP            
     |          ____|___           
     |         |        PP        
     |         |     ___|_____     
     NP        |    |         NP  
  ___|___      |    |         |    
DET      N     V    P         N   
 |       |     |    |         |    
 O      gato dorme  na     cadeira

