# Aula 05 - Análise Sintática e Estruturas Linguisticas

### Parte 1 - Desenvolvimento conceitual - Corporas
### Parte 2 - Demonstração de estruturas funcionais

## Parte 1 - Desenvolvimento conceitual - Corporas

### Início do processamento do corpus

In [1]:
# Criar uma função para fazer a abertura e leitura do arquivo
def ler(nome_arquivo):
  arquivo = open(nome_arquivo, 'r', encoding = 'utf-8')
  conteudo_arq = arquivo.read()
  arquivo.close()
  return conteudo_arq

In [6]:
texto = ler('/content/sample_data/Fitas.txt')
print(len(texto))

3748


### Primeira etapa - Buscador de palavras

In [7]:
def buscador(alvo, texto):
  texto = texto.replace('\n', ' ')
  texto = texto.replace('\t', ' ')

  ocorrencias = []

  encontrado_aqui = texto.find(alvo, 0)
    #Se encontra a palavra, informa a posição
    #Se não encontrar, informa -1

  while encontrado_aqui > 0:
    pos_inicial = encontrado_aqui - (40 - len(alvo))
    trecho = texto[pos_inicial: pos_inicial + 80]

    ocorrencias.append(trecho)

    encontrado_aqui = texto.find(alvo, encontrado_aqui + 1)
    # Inicia a busca a partir da posição anterior + 1

  return ocorrencias

In [8]:
resultado = buscador('Strach', texto)

for trecho in resultado:
  print (trecho)

sat: Investigação inicial Familia Strach (Hall)  - Os registros mostram que os S
l)  - Os registros mostram que os Strach em todas as gerações dessa família semp
eito do medo, o membro da família Strach que fosse o mais temido pelos outros oc
O membro mais terrivel da familia Strach ordenava os outros a realizarem suas vo
 nessa mansão mostra que todos os Strach tiveram uma mudança brusca de comportam
çaram a surgir ao redor da mansão Strach, tipo o Castelo, o Cemitério... essas c
aurar mais uma gravação de um dos Strach, acredito que esse era o homem que já e
daquele gravador antigo do Abraão Strach, aquele que a gente encontrou quando ch


## Segunda etapa - Limpeza dos corpus

In [9]:
palavra = texto.split()

In [10]:
teste = "Corre-se atrás do carro, corre se for embora."
word = teste.split()
print(word)

['Corre-se', 'atrás', 'do', 'carro,', 'corre', 'se', 'for', 'embora.']


In [11]:
def limpar(lista):
  lixo = '.,:;?!"´`()[]{}!@#$%¨&*^~-'
  quase_limpo = [x.strip(lixo).lower() for x in lista]
  return [x for x in quase_limpo if x.isalpha() or '-' not in x]

In [12]:
print(limpar(word))

['atrás', 'do', 'carro', 'corre', 'se', 'for', 'embora']


In [13]:
print(len(palavra))
palavra = limpar(palavra)
print(len(palavra))

657
657


Descrevendo os métodos utilizados na limpeza:
* Split() - transformar um texto em uma lista de palavras
* Strip() - eliminar sinais ou caracteres no começo ou no fim de uma palavra
* isalpha - realizar um filtro eliminando números ou simbolos de uma lista de referência

## Quantidade de palavras

In [14]:
# Conhecer a quantidade de palavras no vocabulário

In [None]:
# Criar um dicionário deste texto

O que é um dicionário?
* lista = [elemento1, elemento2,...] - mutável
* tupla = (elemento1, elemento2,...) - imutável
* dicionário = (nome_da_chave_1:valor_da_chave_1:nome_da_chave_2:valor_da_chave_2:nome_da_chave_3:valor_da_chave_3)

# Parte 2 - Demonstração de estruturas funcionais

## Exemplo 1 - POS Tagging com Spacy

In [15]:
!pip install spacy
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m66.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [16]:
import spacy

nlp = spacy.load("pt_core_news_sm")

frase = input("Insira uma frase, gramaticalmente correta: ")

doc = nlp(frase)

for token in doc:
  print(f"{token.text} -> {token.pos_}")

Insira uma frase, gramaticalmente correta: Boa tarde! tudo bem com você?
Boa -> ADJ
tarde -> ADV
! -> PUNCT
tudo -> PRON
bem -> ADV
com -> ADP
você -> PRON
? -> PUNCT


## Exemplo 2 - Pos Tagging com NLTK

In [17]:
!pip install nltk



In [21]:
import nltk
nltk.download("averaged_perceptron_tagger_eng")
nltk.download('punkt_tab')

frase = input("Insira uma frase coerente: ")
tokens = nltk.word_tokenize(frase)

pos_tags = nltk.pos_tag(tokens)

for palavra, classe in pos_tags:
  print(f'{palavra}->{classe}')

[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Insira uma frase coerente: Hello, how are you?
Hello->NNP
,->,
how->WRB
are->VBP
you->PRP
?->.


In [22]:
!pip install plotly



## Exemplo 3 - Parsing de Dependência com spacy

In [24]:
import spacy

nlp = spacy.load('pt_core_news_sm')

frase = "O gato preto dorme na cadeira"

doc = nlp(frase)

for token in doc:
  print(f"{token.text} -> {token.dep_} -> {token.head.text}")

O -> det -> gato
gato -> ROOT -> gato
preto -> amod -> gato
dorme -> amod -> gato
na -> case -> cadeira
cadeira -> nmod -> gato


## Exemplo 4 - Análise de Dependência com spacy

In [25]:
import spacy
from spacy import displacy

nlp = spacy.load('pt_core_news_sm')

frase = "O gato preto dorme na cadeira"

doc = nlp(frase)

displacy.render(doc, style='dep', jupyter=True)

## Exemplo 5 - Análise de Constituência com NLTK

In [26]:
import nltk
from nltk import Tree

sintaxe = Tree('S', [
    Tree('NP', [Tree('DET', ['O']), Tree('N', ['Gato'])]),
    Tree('VP', [Tree('V', ['dorme']),
                Tree('PP', [Tree('P', ['na']), Tree('NP', [Tree('N', ['cadeira'])])])])
])

sintaxe.pretty_print()

               S                  
      _________|____               
     |              VP            
     |          ____|___           
     |         |        PP        
     |         |     ___|_____     
     NP        |    |         NP  
  ___|___      |    |         |    
DET      N     V    P         N   
 |       |     |    |         |    
 O      Gato dorme  na     cadeira

