<a href="https://colab.research.google.com/github/SaraSilvaa/ProcessamentoLinguagemNatural/blob/master/Aula01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Prática 1 - Sintaxe
##Exemplo 1 - Demonstração de segmentação, tokenização e uma árvore de dependência

In [1]:
import spacy

# Carregar o modelo de linguagem
nlp = spacy.load("en_core_web_sm") # modelo pré treinado para o idioma em inglês

# Processar a frase
doc = nlp("The quick brown fox jumps over the lazy dog. The black cat is walking.")
print(doc)


print("\nSegmentação de Frases:")
for sentenca in doc.sents:
    print(sentenca.text)

i = 1
print("\nteokenização das palavras:")
for token in doc:
    print(i, token.text, end = ' ') # Visualizar as palavras da frase
    print(token.pos_, end = ' ') # visualizar as classes gramaticais
    print(token.dep_) # visualiza a estrutura sintática
    i += 1

#for token in doc:
#  print(f"{token.text:10} {token.pos_:8} {token.dep_:8}")

# Visualizar a árvore graficamente (opcional)
from spacy import displacy # importa o modulo de visualização do spaCy

displacy.render(doc, style="dep", jupyter=True)


The quick brown fox jumps over the lazy dog. The black cat is walking.

Segmentação de Frases:
The quick brown fox jumps over the lazy dog.
The black cat is walking.

teokenização das palavras:
1 The DET det
2 quick ADJ amod
3 brown ADJ amod
4 fox NOUN nsubj
5 jumps VERB ROOT
6 over ADP prep
7 the DET det
8 lazy ADJ amod
9 dog NOUN pobj
10 . PUNCT punct
11 The DET det
12 black ADJ amod
13 cat NOUN nsubj
14 is AUX aux
15 walking VERB ROOT
16 . PUNCT punct


#Modelo em portugues

In [2]:
!python -m spacy download pt_core_news_sm


Collecting pt-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.7.0/pt_core_news_sm-3.7.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m57.2 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [3]:
import spacy

# Carregar o modelo para português
nlp = spacy.load("pt_core_news_sm")

# Processar um texto em português
textoRecebido = input("Digite um texto para ser analisado: ")
doc = nlp(textoRecebido)

print('\nAnálise gramatical das palavras:')
for token in doc:
    print(f"Palavra: {token.text}, Classe: {token.pos_}")

print("\nAnalise de Dependências:")
for token in doc:
  print(f"Palavra: {token.text}, Depende de: {token.head.text}")

# Visualizar a árvore graficamente (opcional)
from spacy import displacy
displacy.render(doc, style="dep", jupyter=True)

Digite um texto para ser analisado: A aula de hoje está complexa

Análise gramatical das palavras:
Palavra: A, Classe: DET
Palavra: aula, Classe: NOUN
Palavra: de, Classe: SCONJ
Palavra: hoje, Classe: ADV
Palavra: está, Classe: AUX
Palavra: complexa, Classe: ADJ

Analise de Dependências:
Palavra: A, Depende de: aula
Palavra: aula, Depende de: aula
Palavra: de, Depende de: complexa
Palavra: hoje, Depende de: complexa
Palavra: está, Depende de: complexa
Palavra: complexa, Depende de: aula


#Exemplo 2 -- Tokenização e Segmentação com NLTK


In [4]:
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize

# Download necessário para usar os tokenizadores
nltk.download('punkt')

# Texto de exemplo
texto = "O gato preto pulou sobre o muro. Ele estava com fome e procurava algo para comer."
print(texto)

# Segmentação de frases
frases = sent_tokenize(texto)
print("\nSegmentação de Frases:")
print(frases)

# Tokenização de palavras para cada frase
print("\nTokenização de Palavras:")
for frase in frases:
    palavras = word_tokenize(frase)
    print(palavras)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


O gato preto pulou sobre o muro. Ele estava com fome e procurava algo para comer.

Segmentação de Frases:
['O gato preto pulou sobre o muro.', 'Ele estava com fome e procurava algo para comer.']

Tokenização de Palavras:
['O', 'gato', 'preto', 'pulou', 'sobre', 'o', 'muro', '.']
['Ele', 'estava', 'com', 'fome', 'e', 'procurava', 'algo', 'para', 'comer', '.']


#Prática 2 - Semântica
##Exemplo 1

In [5]:
# importar o modelo de vetorização da biblioteca gensin
from gensim.models import Word2Vec

# Crie uma lista de FRASES (listas de palavras)
sentences = [
    ["O", "gato", "subiu", "na", "árvore"],
    ["O", "cachorro", "latiu", "para", "o", "gato"],
    ["A", "bola", "rolou", "pelo", "gramado"]
]

# Treine o modelo Word2Vec
model = Word2Vec(sentences, min_count=1)

# Obtenha o vetor de uma palavra
vector = model.wv['gato']
print(vector)

# Calcule a similaridade entre duas palavras
similarity = model.wv.similarity('gato', 'cachorro')
print(similarity)

[-5.3622725e-04  2.3643136e-04  5.1033497e-03  9.0092728e-03
 -9.3029495e-03 -7.1168090e-03  6.4588725e-03  8.9729885e-03
 -5.0154282e-03 -3.7633716e-03  7.3805046e-03 -1.5334714e-03
 -4.5366134e-03  6.5540518e-03 -4.8601604e-03 -1.8160177e-03
  2.8765798e-03  9.9187379e-04 -8.2852151e-03 -9.4488179e-03
  7.3117660e-03  5.0702621e-03  6.7576934e-03  7.6286553e-04
  6.3508903e-03 -3.4053659e-03 -9.4640139e-04  5.7685734e-03
 -7.5216377e-03 -3.9361035e-03 -7.5115822e-03 -9.3004224e-04
  9.5381187e-03 -7.3191668e-03 -2.3337686e-03 -1.9377411e-03
  8.0774371e-03 -5.9308959e-03  4.5162440e-05 -4.7537340e-03
 -9.6035507e-03  5.0072931e-03 -8.7595852e-03 -4.3918253e-03
 -3.5099984e-05 -2.9618145e-04 -7.6612402e-03  9.6147433e-03
  4.9820580e-03  9.2331432e-03 -8.1579173e-03  4.4957981e-03
 -4.1370760e-03  8.2453608e-04  8.4986202e-03 -4.4621765e-03
  4.5175003e-03 -6.7869602e-03 -3.5484887e-03  9.3985079e-03
 -1.5776526e-03  3.2137157e-04 -4.1406299e-03 -7.6826881e-03
 -1.5080082e-03  2.46979

##Exemplo 2

In [6]:
from gensim.models import Word2Vec

# Mais frases para melhor treinamento
sentences = [
    ["O", "gato", "subiu", "na", "árvore"],
    ["O", "cachorro", "latiu", "para", "o", "gato"],
    ["A", "bola", "rolou", "pelo", "gramado"],
    ["O", "gato", "bebeu", "leite"],
    ["O", "cachorro", "correu", "no", "parque"]
]

# Treinando o modelo com mais parâmetros
model = Word2Vec(
    sentences,
    min_count=1,        # Frequência mínima das palavras
    vector_size=100,    # Tamanho do vetor
    window=5,           # Tamanho da janela de contexto
    sg=0               # 0 para CBOW, 1 para Skip-gram
)

# Obtendo vetor
vector = model.wv['gato']
print("Vetor da palavra 'gato':", vector[:5])  # Mostra só os 5 primeiros números

# Similaridade
similarity = model.wv.similarity('gato', 'cachorro')
print("Similaridade entre 'gato' e 'cachorro':", similarity)

# Palavras mais similares
similar_words = model.wv.most_similar('gato')
print("Palavras mais similares a 'gato':", similar_words)

Vetor da palavra 'gato': [-0.00861969  0.00366574  0.00518988  0.00574194  0.00746692]
Similaridade entre 'gato' e 'cachorro': -0.02367166
Palavras mais similares a 'gato': [('gramado', 0.16072483360767365), ('A', 0.15923379361629486), ('pelo', 0.13724760711193085), ('bebeu', 0.12300863116979599), ('correu', 0.08546062558889389), ('o', 0.06797593832015991), ('para', 0.03364057466387749), ('leite', 0.022314244881272316), ('na', 0.009391162544488907), ('bola', 0.008312082849442959)]
