<a href="https://colab.research.google.com/github/gucardos/PLN_6sem/blob/main/Aula05_PLN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aula 05 - Análise sintática e Estruturas linguísticas

**Objetivo do notebook:**
Ensinar análise sintática e identificação de funções sintáticas das palavras em frases usando técnicas de PLN.

**Técnicas de PLN implementadas:**

- POS Tagging (etiquetagem gramatical)

- Análise sintática com spaCy

**Observações:**
A análise sintática permite entender a estrutura das frases e as relações entre as palavras, essencial para tarefas de PLN mais avançadas.

## Parte 1 - Desenvolvimento conceitual - Corporas

### Inicio do processamento do Corpus

In [None]:
# Função para fazer a abertura e leitura do arquivo
def ler(nome_arquivo):
  arquivo = open(nome_arquivo,'r',encoding='utf-8')
  conteudo_arq = arquivo.read()
  arquivo.close()
  return conteudo_arq

In [None]:
texto = ler('/content/drive/MyDrive/PLN/2025.05 Ubirajara.txt')
print(len(texto))
# Contabiliza as palavras

219835


### Primeira Etapa - Buscador de palavras

In [None]:
def buscador(alvo, texto):
  texto = texto.replace('\n',' ')
  texto = texto.replace('\t',' ')

  ocorrencias = []

  encontrado_aqui = texto.find(alvo,0)
  # Se encontrar a palavra, informa a posição
  # Se não encontrar, informa -1

  while encontrado_aqui > 0:
    pos_inicial = encontrado_aqui - (40 - len(alvo))
    trecho = texto[pos_inicial:pos_inicial+80]

    ocorrencias.append(trecho)

    encontrado_aqui = texto.find(alvo,encontrado_aqui + 1)
    # Inicia a busca a partir da oposição anterior +1
    # Se encontra a palavra informa a posição
    # Se não encontrar, informa -1

  return ocorrencias


In [None]:
resultados = buscador('peito',texto)

for trecho in resultados:
  print(trecho)

i o chefe tocantim quem recebeu no peito a ponta farpada.  Quando o corpo robust
 se tua arma traiçoeira me feriu o peito, o suplicio não vencerá a constancia do
java falar; todos escutaram com respeito o heróe, ainda maior na desgraça.  --Gu
ança, escrava de Jaguarê, cravou o peito do inimigo.  «Elle caiu, o guerreiro ch
O labio de Jandira emudeceu; mas o peito soluçou.  A virjem conheceu que o amor 
 todos dignos de teu valor. Nestes peitos, que te pertencem, ella os nutrirá com
ndos que os botões do cardo por um peito feroz, e as mãos lijeiras que tecem os 
 o acolher, todos o escutam com respeito.  «Em suas palavras prudentes, os anciã
não quando elle não chupa mais seu peito. Ella é como a mangabeira; nutre o frut
ente do Xingú.  As arvores que seu peito encontrava caíam lascadas.  Jurandir es
e. Os noivos cuidavam que era a do peito do tucano; mas ella sabia que era do pe
 tucano; mas ella sabia que era do peito da arára e que tinha as côres de seu gu
os arredores. Nada encontrou

### Segunda Etapa - Limpeza do Corpus

In [None]:
palavras = texto.split()

In [None]:
def limpar(lista):
  lixo = '.,:;?!"´`^~()[]{}/\|@#$%¨&*-'
  quase_limpo = [x.strip(lixo).lower() for x in lista]
  return [x for x in quase_limpo if x.isalpha() or '-' not in x]

In [None]:
teste = "Corre-se atrás do cachorro, corre se o cachorro for embora."
word = teste.split()
print(word)

['Corre-se', 'atrás', 'do', 'cachorro,', 'corre', 'se', 'o', 'cachorro', 'for', 'embora.']


In [None]:
print(limpar(word))

['atrás', 'do', 'cachorro', 'corre', 'se', 'o', 'cachorro', 'for', 'embora']


In [None]:
print(len(palavras))
palavras = limpar(palavras)
print(len(palavras))

37139
36585


#### Descrevendo os métodos utilizados na limpeza
* split() - transformar um texto, em uma lista de palavras
* strip() - eliminar sinais ou caracteres no começo ou no fim de uma palavra
* isalpha - realizar um filtro eliminando números ou símbolos de uma lista de referência

## Parte 2 - Demostração de estruturas funcionais

### Exemplo 01 - POS Tagging com Spacy

In [1]:
!pip install spacy
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m96.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [2]:
import spacy

nlp = spacy.load('pt_core_news_sm')

frase = input("Insira uma frase gramaticamente correta: ")

doc = nlp(frase)

for token in doc:
  print(f"{token.text} -> {token.pos_}")

Insira uma frase gramaticamente correta: Nós fizemos uma grande descoberta
Nós -> PRON
fizemos -> VERB
uma -> DET
grande -> ADJ
descoberta -> NOUN


### Exemplo 02 - Pos Tagging com NLTK (somente em inglês)

In [None]:
!pip install nltk



In [None]:
import nltk
nltk.download("averaged_perceptron_tagger")
nltk.download('punkt_tab')
nltk.download('averaged_perceptron_tagger_eng')

frase = input("Insira uma frase, coerente: ")
tokens = nltk.word_tokenize(frase)

pos_tags = nltk.pos_tag(tokens)

for palavra, classe in pos_tags:
  print(f'{palavra}->{classe}')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.


Insira uma frase, coerente: Good evening class, let's study NLP.
Good->JJ
evening->NN
class->NN
,->,
let->VB
's->POS
study->VB
NLP->NNP
.->.


### Exemplo 03 - Parsing de Dependência com spacy

In [None]:
import spacy

nlp = spacy.load('pt_core_news_sm')

frase = "O gato preto dorme na cadeira"

doc = nlp(frase)

for token in doc:
  print(f"{token.text} -> {token.dep_} -> {token.head.text}")

O -> det -> gato
gato -> ROOT -> gato
preto -> amod -> gato
dorme -> amod -> gato
na -> case -> cadeira
cadeira -> nmod -> gato


### Exemplo 04 - Análise de Dependência com spacy

In [None]:
import spacy
from spacy import displacy

nlp = spacy.load('pt_core_news_sm')

frase = "O gato preto dorme na cadeira"

doc = nlp(frase)

displacy.render(doc, style='dep', jupyter=True)

### Exemplo 05 - Análise de Constituência com NLTK

In [None]:
import nltk
from nltk import Tree

sintaxe = Tree('S',[
  Tree('NP',['O','gato','preto']),
  Tree('VP',['dorme','na','cadeira'])
])

sintaxe.pretty_print()

           S                    
      _____|__________           
     NP               VP        
  ___|_____       ____|_____     
 O  gato preto dorme  na cadeira

