# **Aula 05** - Análise Sintática e Estruturas Linguisticas

* Parte 1 - Desenvolvimento Conceitual - Corporas
* Parte 2 - Demostração de Estruturas Funcionais

## **Parte 1** - Desenvolvimento Conceitual - Corporas

### Início do Processamento do Corpus

In [None]:
def ler(nome_arquivo):
  arquivo = open(nome_arquivo,'r', encoding='utf-8')
  conteudo_arq = arquivo.read()
  arquivo.close()
  return conteudo_arq

In [None]:
texto = ler('/content/drive/MyDrive/Colab Notebooks/2025.05 Ubirajara.txt')
print(len(texto))

219835


### Primeira Etapa - Buscador de Palavras

In [None]:
def buscador(alvo, texto):
  texto = texto.replace('\n',' ')
  texto = texto.replace('\t',' ')

  ocorrencias = []

  encontrado_aqui = texto.find(alvo, 0)

  while encontrado_aqui > 0:
    pos_inicial = encontrado_aqui - (40 - len(alvo))
    trecho = texto[pos_inicial: pos_inicial + 80]

    ocorrencias.append(trecho)

    encontrado_aqui = texto.find(alvo, encontrado_aqui + 1)

    return ocorrencias

In [None]:
resultados = buscador(' peito', texto)

for trecho in resultados:
  print(trecho)

i o chefe tocantim quem recebeu no peito a ponta farpada.  Quando o corpo robust


### Segunda Etapa - Limpeza dos corpus

In [None]:
palavras = texto.split()

In [None]:
def limpar(lista):
  lixo = '.,:;?!"´`^~()[]{}\/|@#$%¨&*-'
  quase_limpo = [x.strip(lixo).lower() for x in lista]
  return [x for x in quase_limpo if x.isalpha() or '-' not in x]

In [None]:
teste = "Corre-se atrás do carro, corre se o carro for embora."
word = teste.split()
print(word)

['Corre-se', 'atrás', 'do', 'carro,', 'corre', 'se', 'o', 'carro', 'for', 'embora.']


In [None]:
print(limpar(word))

['atrás', 'do', 'carro', 'corre', 'se', 'o', 'carro', 'for', 'embora']


In [None]:
print(len(palavras))
palavras = limpar(palavras)
print(len(palavras))

37139
36585


## **Parte 2** - Demostração de estruturas funcionais

### Exemplo 1 - POS Tagging com Spacy

In [None]:
!pip install spacy
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m87.4 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy

nlp = spacy.load("pt_core_news_sm")

frase = input("Insira uma frase, gramaticalmente correta: ")

doc = nlp(frase)

print(doc)

for token in doc:
  print(f"{token.text} -> {token.pos_}")

Insira uma frase, gramaticalmente correta: boa noite turma.
boa noite turma.
boa -> ADJ
noite -> NOUN
turma -> ADJ
. -> PUNCT


### Exemplo 2 - Pos Tagging com NLTK (somente em inglÊs)

---



In [None]:
!pip install nltk



In [None]:
import nltk
nltk.download("averaged_perceptron_tagger_eng")
nltk.download('punkt_tab')

frase = input("Insira uma frase, coerente: ")
token = nltk.word_tokenize(frase)

pos_tags = nltk.pos_tag(token)

for palavra, classe in pos_tags:
  print(f'{palavra}->{classe}')


[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Insira uma frase, coerente: Boa noite
Boa->NNP
noite->NN


### Exemplo 3 - Parsing de Dependência com spacy

In [None]:
import spacy

nlp = spacy.load('pt_core_news_sm')

frase = "O gato preto dorme na cadeira"

doc = nlp(frase)

for token in doc:
  print(f"{token.text} -> {token.dep_} -> {token.head.text}")

O -> det -> gato
gato -> ROOT -> gato
preto -> amod -> gato
dorme -> amod -> gato
na -> case -> cadeira
cadeira -> nmod -> gato


### Exemplo 4 - Análise de Dependência com spacy

In [None]:
import spacy
from spacy import displacy

nlp = spacy.load('pt_core_news_sm')

frase = "O gato preto dorme na cadeira."

doc = nlp(frase)

displacy.render(doc, style='dep', jupyter=True)

### Exemplo 5 - Análise de Constituência com NLTK

In [None]:
import nltk
from nltk import Tree

sintaxe = Tree('S', [
    Tree('NP', [Tree('DET', ['O']), Tree('N', ['gato'])]),
    Tree('VP', [Tree('V', ['dorme']),
                Tree('PP', [Tree('P',['na']), Tree('NP',[Tree('N', ['cadeira'])])])])
])

sintaxe.pretty_print()

               S                  
      _________|____               
     |              VP            
     |          ____|___           
     |         |        PP        
     |         |     ___|_____     
     NP        |    |         NP  
  ___|___      |    |         |    
DET      N     V    P         N   
 |       |     |    |         |    
 O      gato dorme  na     cadeira

