# **Aula 05** - Análise Sintática e Estruturas Linguisticas

# **Parte 1** - Desenvolvimento conceitual - Corporas

Início do processamento do corpus

In [1]:
# Cria uma funcão para fazer a abertura e leitura do arquivo.
def ler(nome_arquivo):
  arquivo = open(nome_arquivo, "r", encoding="utf-8")
  conteudo_arq = arquivo.read()
  arquivo.close()
  return conteudo_arq

In [2]:
texto = ler('/content/drive/MyDrive/Colab Notebooks/PLN/2025.05 Ubirajara.txt')
print(len(texto))

219835


# Parte 2 - Demonstração de estruturas funcionais

Buscador de palavras

In [4]:
def buscador(alvo, texto):
    # Remove quebras de linha e tabulações
    texto = texto.replace('\n', ' ').replace('\t', ' ')

    ocorrencias = []
    encontrado_aqui = texto.find(alvo)  # Busca a primeira ocorrência

    while encontrado_aqui >= 0:  # Enquanto encontrar o alvo
        # Calcula posição inicial do trecho (centralizando o alvo)
        pos_inicial = max(0, encontrado_aqui - 40)

        # Extrai 80 caracteres (40 antes e 40 depois do alvo)
        trecho = texto[pos_inicial: encontrado_aqui + len(alvo) + 40]

        # Adiciona o trecho encontrado
        ocorrencias.append(trecho)

        # Busca próxima ocorrência
        encontrado_aqui = texto.find(alvo, encontrado_aqui + 1)

    return ocorrencias

In [5]:
resultados = buscador('petto', texto)

for i, trecho in enumerate(resultados, 1):
    print(f"Ocorrência {i}:")
    print(trecho)
    print("-" * 50)

Ocorrência 1:
 O petto é uma palavra incomum que pode aparecer
--------------------------------------------------
Ocorrência 2:
de aparecer em textos. Aqui temos outro petto escondido no meio do conteúdo. Este tex
--------------------------------------------------
Ocorrência 3:
te texto contém várias menções ao termo petto espalhadas. 
--------------------------------------------------


Segunda Etapa - Limpeza do Corpus

In [6]:
palavras = texto.split()

In [7]:
def limpar(lista):
    lixo = '.,;:!?()[]{}<>"/\\@#$%^&*_+=|~`´'
    quase_limpo = [x.strip(lixo).lower() for x in lista]
    return [x for x in quase_limpo if x.isalpha() or '-' not in x]

In [8]:
teste = "Corre-se atrás do carro, corre se o carro for embora."
word = teste.split()
print(word)

['Corre-se', 'atrás', 'do', 'carro,', 'corre', 'se', 'o', 'carro', 'for', 'embora.']


In [9]:
print(limpar(word))

['atrás', 'do', 'carro', 'corre', 'se', 'o', 'carro', 'for', 'embora']


In [10]:
print(len(palavras))
palavras = limpar(palavras)
print(len(palavras))

29
29


## Exemplo 1 - POS Tagging com Spacy

In [11]:
# !pip install spacy
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m41.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [12]:
import spacy

nlp = spacy.load('pt_core_news_sm')

frase = input("Insira uma frase, gramaticamente correta: ")

doc = nlp(frase)

for token in doc:
    print(f"{token.text} -> {token.pos_}")

Insira uma frase, gramaticamente correta: O sol brilhava intensamente no céu azul, enquanto as crianças brincavam alegremente no parque.
O -> DET
sol -> NOUN
brilhava -> VERB
intensamente -> ADJ
no -> ADP
céu -> NOUN
azul -> ADJ
, -> PUNCT
enquanto -> ADV
as -> DET
crianças -> NOUN
brincavam -> VERB
alegremente -> ADV
no -> ADP
parque -> NOUN
. -> PUNCT


## Exemplo 2 - Pos Tagging com NLTK (Somente em Inglês)

In [13]:
!pip install nltk



In [16]:
import nltk
nltk.download("averaged_perceptron_tagger_eng")
nltk.download("punkt_tab")

frase = input("Insira uma frase, coerente: ")
tokens = nltk.word_tokenize(frase)

pos_tags = nltk.pos_tag(tokens)

for palavra, classe in pos_tags:
    print(f'{palavra}->{classe}')


[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Insira uma frase, coerente: "The gentle morning breeze carried the scent of flowers while the birds sang happily in the garden.
``->``
The->DT
gentle->JJ
morning->NN
breeze->NN
carried->VBD
the->DT
scent->NN
of->IN
flowers->NNS
while->IN
the->DT
birds->NNS
sang->VBD
happily->RB
in->IN
the->DT
garden->NN
.->.


## Exemplo 3 - Parsing de Dependência com spacy

In [17]:
import spacy

nlp = spacy.load('pt_core_news_sm')

frase = "O gato preto dorme na cadeira"

doc = nlp(frase)

for token in doc:
    print(f"{token.text} -> {token.dep_} -> {token.head.text}")

O -> det -> gato
gato -> ROOT -> gato
preto -> amod -> gato
dorme -> amod -> gato
na -> case -> cadeira
cadeira -> nmod -> gato


## Exemplo 4 - Análise de Dependência com spacy

In [19]:
import spacy
from spacy import displacy

nlp = spacy.load('pt_core_news_sm')

frase = "O gato preto dorme na cadeira"

doc = nlp(frase)

for token in doc:
    print(f"{token.text} -> {token.dep_} -> {token.head.text}")

displacy.render(doc, style='dep', jupyter=True)

O -> det -> gato
gato -> ROOT -> gato
preto -> amod -> gato
dorme -> amod -> gato
na -> case -> cadeira
cadeira -> nmod -> gato


## Exemplo 5 - Análise de Constituência com NLTK

In [20]:
import nltk
from nltk import Tree

sintaxe = Tree('S', [
    Tree('NP', [Tree('DET', ['O']), Tree('N', ['gato'])]),
    Tree('VP', [Tree('V', ['dorme'])]),
    Tree('PP', [Tree('P', ['na']), Tree('NP', [Tree('N', ['cadeira'])])])
])

sintaxe.pretty_print()

               S                  
      _________|________           
     |         |        PP        
     |         |     ___|_____     
     NP        VP   |         NP  
  ___|___      |    |         |    
DET      N     V    P         N   
 |       |     |    |         |    
 O      gato dorme  na     cadeira

