<a href="https://colab.research.google.com/github/matheus-haruki/Processamento-de-Linguagem-Natural/blob/main/Aula_6_Interpreta%C3%A7%C3%A3o_Sem%C3%A2ntica_e_Gram%C3%A1ticas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Objetivo do notebook:

O objetivo deste notebook é apresentar, de forma prática e didática, diferentes abordagens para representar e interpretar o significado de palavras e frases na linguagem natural, com foco em técnicas de interpretação semântica e análise gramatical. Através de exemplos implementados em Python, o notebook demonstra como a semântica pode ser tratada computacionalmente por meio de:

- Redes semânticas, que organizam o conhecimento com base em relações entre palavras;

- Embeddings, que traduzem palavras em vetores numéricos e permitem medir similaridade semântica;

- Árvores sintáticas, que revelam as estruturas gramaticais e dependências entre termos em uma frase;

- Ontologias, que representam formalmente conceitos e suas hierarquias em domínios específicos.

Além disso, o notebook introduz um estudo de caso que aplica essas técnicas em um corpus textual, permitindo analisar o significado de palavras em contexto e explorar como o PLN pode ser utilizado em tarefas mais avançadas, como extração de conhecimento e compreensão de texto.

Técnicas de PLN implementadas:

1. Redes Semânticas com WordNet (NLTK)
  - Uso do wordnet com suporte ao idioma português.

  - Busca de sinônimos com wordnet.synsets("carro", lang="por").

  - Interpretação semântica baseada em conjuntos de sinônimos (synsets).

2. Embeddings e Similaridade Semântica (spaCy)
  - Carregamento do modelo pt_core_news_md do spaCy.

  - Cálculo de similaridade semântica entre palavras, ex: "rei" e "rainha" usando .similarity().

3. Análise Sintática com Árvore de Dependência (spaCy)
  - Uso de pt_core_news_sm do spaCy.

  - Geração de árvore sintática com displacy.render() para visualizar dependências gramaticais em frases.

4. Ontologias com Owlready2
Criação de uma ontologia simples com classes como Animal, Mamifero, Cachorro, e Gato.

  - Armazenamento da ontologia em formato OWL.

  - Apoio à organização semântica do conhecimento.

5. Estudo de Caso - Análise Semântica em Corpus
  - Embora cortado no trecho analisado, começa a usar bibliotecas como spacy, nltk e pandas.

  - Provavelmente envolve aplicação de técnicas anteriores em um conjunto de dados real.

Exemplo 01 - Representação do significado das palavras e frases com redes Semânticas.

In [None]:
import nltk
from nltk.corpus import wordnet

nltk.download('wordnet')
# banco de dados para utilização do sinônimos
nltk.download('omw-1.4')
# Corpus que relaciona as palavras em diversos idiomas - tradução automática

# Método para encontrar os sinônimos da palavras indicada e o idioma
sinonimos = wordnet.synsets("carro", lang="por")

print(sinonimos) # imprimi a lista gerada

for s in sinonimos:
    print(s.lemmas()[0].name()) # Mostra sinônimos da palavra
# s. lemmas(): Obtém a lista de lemmas (formas básicas das palavras) no synset atual.
# [0]: Pega o primeiro lemma da lista.
# name(): Obtém o nome do lemma (o sinônimo em si).
# print(): Imprime o sinônimo na tela.


[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


[Synset('beach_wagon.n.01'), Synset('car.n.01'), Synset('car.n.02'), Synset('cart.n.01')]
beach_wagon
car
car
cart


Exemplo 02 - Representação do significado das palavras e frases por
Vetores (embeddings).

In [None]:
!python -m spacy download pt_core_news_md

Collecting pt-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_md-3.8.0/pt_core_news_md-3.8.0-py3-none-any.whl (42.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.4/42.4 MB[0m [31m14.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-md
Successfully installed pt-core-news-md-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_md')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy

# Carregando o modelo pre treinado - modelo com relações entre palavras
nlp = spacy.load('pt_core_news_md')
# criação de objetos, com suas informações e vetores
palavral = nlp('rei')
palavra2 = nlp('rainha')
# Calculo de similaridade dos objetos vetorizadas
print(palavral.similarity(palavra2))


0.6001228094100952


Exemplo 03 - Árvore Sintática

In [None]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m84.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy
from spacy import displacy
# módulo para visualização de dependencias

nlp = spacy.load("pt_core_news_sm")
frase = "O cachorro correu no parque."
doc = nlp(frase)

displacy.render(doc, style='dep', jupyter=True)



Exemplo 04 - Ontologia

In [None]:
!pip install owlready2

Collecting owlready2
  Downloading owlready2-0.47.tar.gz (27.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.3/27.3 MB[0m [31m45.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Building wheels for collected packages: owlready2
  Building wheel for owlready2 (pyproject.toml) ... [?25l[?25hdone
  Created wheel for owlready2: filename=owlready2-0.47-cp311-cp311-linux_x86_64.whl size=24577500 sha256=52209195c4ec9f6fe56919356495b03adcb0d27bafe80f78bfc55e34cb8fcfb2
  Stored in directory: /root/.cache/pip/wheels/25/9a/a3/fb1ac6339caa859c8bb18d685736168b0b51d851af13d81d52
Successfully built owlready2
Installing collected packages: owlready2
Successfully installed owlready2-0.47


In [None]:
from owlready2 import *

# Criando uma nova ontologia
onto = get_ontology("http://exemplo.com/minha_ontologia.owl")

with onto:
    class Animal(Thing): pass
    class Mamifero(Animal): pass
    class Cachorro(Mamifero): pass
    class Gato(Mamifero): pass

onto.save("minha_ontologia.owl")


Estudo de Caso 01 - Aplicação de Análise Semântica em um corpus

In [None]:
# Importando as bibliotecas necessárias
import spacy
import nltk
import pandas as pd

from nltk.corpus import wordnet as wn
# banco de dados léxico - agrupa palavras em conjuntos de sinônimos


In [None]:
import nltk
import spacy

nltk.download('wordnet')
nltk.download('omw-1.4')

nlp = spacy.load("en_core_web_sm")
# Acessar funcionalidades como tokenização, análise sintática e vetores de palavras


[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


In [None]:
# 2. Reconhecimento de Entidades Nomeadas (NER)
import spacy
import pandas as pd

# Carregar o modelo pré-treinado do spaCy (idioma inglês)
nlp = spacy.load("en_core_web_sm")
# Acessar funcionalidades como tokenização, análise sintática e vetores de palavras

# Texto de exemplo
texto = "Barack Obama was the president of the United States and was born in Hawaii."

# Processar o texto
doc = nlp(texto)

# 2. Reconhecimento de Entidades Nomeadas (NER)
entities_data = []

for ent in doc.ents:
    entities_data.append({
        "Entidade": ent.text,
        "Tipo": ent.label_
    })

# Convertendo para DataFrame
df_entities = pd.DataFrame(entities_data)
print("\n Reconhecimento de Entidades:")
print(df_entities)



 Reconhecimento de Entidades:
            Entidade    Tipo
0       Barack Obama  PERSON
1  the United States     GPE
2             Hawaii     GPE


In [None]:
# 3. Análise Semântica com WordNet
semantic_data = []

for token in doc:
    synsets = wn.synsets(token.text)
    if synsets:
        semantic_data.append({
            "Palavra": token.text,
            "Significado": synsets[0].definition(),
            "Exemplo": synsets[0].examples()
        })

# Convertendo para DataFrame
df_semantic = pd.DataFrame(semantic_data)
print("\n Análise Semântica:")
print(df_semantic)


 Análise Semântica:
     Palavra                                        Significado  \
0        was  a state in northwestern United States on the P...   
1  president      an executive officer of a firm or corporation   
2     United  act in concert or unite in a common purpose or...   
3     States  the territory occupied by one of the constitue...   
4        was  a state in northwestern United States on the P...   
5       born  British nuclear physicist (born in Germany) ho...   
6         in    a unit of length equal to one twelfth of a foot   
7     Hawaii  a state in the United States in the central Pa...   

                            Exemplo  
0                                []  
1                                []  
2                                []  
3  [his state is in the deep south]  
4                                []  
5                                []  
6                                []  
7                                []  
