**Luigi Falcade de Souza**

In [1]:
import spacy

nlp = spacy.load("en_core_web_sm") # modelo pré treinado

frase = nlp("The foz jumps over the lazy dog. Tha black cat is walking.")

print(frase) # [conteudo1,conteudo2, conteudo3,...,conteudo final]

print("\n Segmentação das frases...")
for sentenca in frase.sents:# ["The fox jumps over the lazy dog.","The black cat is walking."] Este método trabalha com terminações de frases (!?.)
  print(sentenca.text)

  print("\nTokenização.")
for token in frase:
  print(token.text, end=' ') # Visualização de cada palavra
  print(token.pos_, end=' ') # Visualização das classes gramaticais
  print(token.dep_) # Visualização das relações das palavras dentro da frase.

from spacy import displacy

displacy.render(frase, style="dep", jupyter=True)

The foz jumps over the lazy dog. Tha black cat is walking.

 Segmentação das frases...
The foz jumps over the lazy dog.

Tokenização.
Tha black cat is walking.

Tokenização.
The DET det
foz NOUN nsubj
jumps VERB ROOT
over ADP prep
the DET det
lazy ADJ amod
dog NOUN pobj
. PUNCT punct
Tha PROPN nmod
black ADJ amod
cat NOUN nsubj
is AUX aux
walking VERB ROOT
. PUNCT punct


**Exemplo 2 - Agora em Português**

In [2]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.7.0/pt_core_news_sm-3.7.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m63.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [3]:
import spacy

npl = spacy.load("pt_core_news_sm") # carregando o modelo em português

# Processando o texto em português
texto = input("Digite uma frase que tenha sentido: ")
doc = npl(texto)
print(doc)

print("\nAnálise Gramatical das palavras isoladamente.")
for token in doc:
  print(f"Palavra: {token.text} --- Classe: {token.pos_}")

print("\n Análise de Dependências")
for token in doc:
  print(f'Palavra: {token.text} --- Depende de: {token.head.text}')

print("\n Análise ordenada em colunas.")
for token in doc:
  print(f"palavra: {token.text:10} - Classe:{token.pos_:8} - Dependência: {token.dep_}")

from spacy import displacy
displacy.render(doc, style="dep", jupyter=True)

Digite uma frase que tenha sentido: cachorro e gato
cachorro e gato

Análise Gramatical das palavras isoladamente.
Palavra: cachorro --- Classe: NOUN
Palavra: e --- Classe: CCONJ
Palavra: gato --- Classe: NOUN

 Análise de Dependências
Palavra: cachorro --- Depende de: cachorro
Palavra: e --- Depende de: gato
Palavra: gato --- Depende de: cachorro

 Análise ordenada em colunas.
palavra: cachorro   - Classe:NOUN     - Dependência: ROOT
palavra: e          - Classe:CCONJ    - Dependência: cc
palavra: gato       - Classe:NOUN     - Dependência: conj


**Exemplo 3 - Biblioteca NLTK**

In [4]:
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize

# Download necessário para usar os tokenizadores
nltk.download('punkt')

# Texto de exemplo
texto = "O gato preto pulou sobre o muro. Ele estava com fome e procurava algo para comer."
print(texto)

# Segmentação de frases
frases = sent_tokenize(texto)
print("\nSegmentação de frases:")
print(frases)

#Tokenização de palavras para cada frase
print("\nTokenização de palavras:")
for frase in frases:
    palavras = word_tokenize(frase)
    print(palavras)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


O gato preto pulou sobre o muro. Ele estava com fome e procurava algo para comer.


LookupError: 
**********************************************************************
  Resource [93mpunkt_tab[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt_tab')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtokenizers/punkt_tab/english/[0m

  Searched in:
    - '/root/nltk_data'
    - '/usr/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
**********************************************************************


In [5]:

from gensim.models import Word2Vec

# Crie uma lista de FRASES (listas de palavras)
sentences = [
    ["O", "gato", "subiu", "na", "árvore"],
    ["O", "cachorro", "latiu", "para", "o", "gato"],
    ["A", "bola", "rolou", "pelo", "gramado"]
]

# Treine o modelo Word2Vec
model = Word2Vec(sentences, min_count=1)

# Obtenha o vetor de uma palavra
vector = model.wv['gato']
print(vector)

# Calcule a similaridade entre duas palavras
similarity = model.wv.similarity('gato', 'cachorro')
print(similarity)

[-5.3622725e-04  2.3643136e-04  5.1033497e-03  9.0092728e-03
 -9.3029495e-03 -7.1168090e-03  6.4588725e-03  8.9729885e-03
 -5.0154282e-03 -3.7633716e-03  7.3805046e-03 -1.5334714e-03
 -4.5366134e-03  6.5540518e-03 -4.8601604e-03 -1.8160177e-03
  2.8765798e-03  9.9187379e-04 -8.2852151e-03 -9.4488179e-03
  7.3117660e-03  5.0702621e-03  6.7576934e-03  7.6286553e-04
  6.3508903e-03 -3.4053659e-03 -9.4640139e-04  5.7685734e-03
 -7.5216377e-03 -3.9361035e-03 -7.5115822e-03 -9.3004224e-04
  9.5381187e-03 -7.3191668e-03 -2.3337686e-03 -1.9377411e-03
  8.0774371e-03 -5.9308959e-03  4.5162440e-05 -4.7537340e-03
 -9.6035507e-03  5.0072931e-03 -8.7595852e-03 -4.3918253e-03
 -3.5099984e-05 -2.9618145e-04 -7.6612402e-03  9.6147433e-03
  4.9820580e-03  9.2331432e-03 -8.1579173e-03  4.4957981e-03
 -4.1370760e-03  8.2453608e-04  8.4986202e-03 -4.4621765e-03
  4.5175003e-03 -6.7869602e-03 -3.5484887e-03  9.3985079e-03
 -1.5776526e-03  3.2137157e-04 -4.1406299e-03 -7.6826881e-03
 -1.5080082e-03  2.46979

In [6]:
# Importa a biblioteca Word2Vec do Gensim
from gensim.models import Word2Vec

# Conjunto de frases para o treinamento do modelo
sentences = [
    ["O", "gato", "subiu", "na", "árvore"],              # Exemplo de frase 1
    ["O", "cachorro", "latiu", "para", "o", "gato"],     # Exemplo de frase 2
    ["A", "bola", "rolou", "pelo", "gramado"],           # Exemplo de frase 3
    ["O", "gato", "bebeu", "leite"],                     # Exemplo de frase 4
    ["O", "cachorro", "correu", "no", "parque"]          # Exemplo de frase 5
]

# Treinamento do modelo Word2Vec com os parâmetros especificados
model = Word2Vec(
    sentences,          # Dados de entrada (frases tokenizadas)
    min_count=1,        # Palavras com frequência menor que 1 serão ignoradas (todas são consideradas aqui)
    vector_size=100,    # Tamanho dos vetores de palavras (dimensão do espaço vetorial)
    window=5,           # Janela de contexto (número de palavras vizinhas consideradas)
    sg=0                # Tipo do modelo: 0 para CBOW (Bag of Words contínuo), 1 para Skip-gram
)

# Obtendo o vetor da palavra "gato" gerado pelo modelo
vector = model.wv['gato']  # Acessa o vetor da palavra "gato"
print("Vetor da palavra 'gato':", vector[:5])  # Exibe os primeiros 5 elementos do vetor

# Calcula a similaridade entre as palavras "gato" e "cachorro"
similarity = model.wv.similarity('gato', 'cachorro')  # Mede a semelhança no espaço vetorial
print("Similaridade entre 'gato' e 'cachorro':", similarity)

# Obtém as palavras mais similares à palavra "gato" no modelo treinado
similar_words = model.wv.most_similar('gato')  # Retorna palavras mais próximas em termos vetoriais
print("Palavras mais similares a 'gato':", similar_words)

Vetor da palavra 'gato': [-0.00861969  0.00366574  0.00518988  0.00574194  0.00746692]
Similaridade entre 'gato' e 'cachorro': -0.02367166
Palavras mais similares a 'gato': [('gramado', 0.16072483360767365), ('A', 0.15923379361629486), ('pelo', 0.13724760711193085), ('bebeu', 0.12300863116979599), ('correu', 0.08546062558889389), ('o', 0.06797593832015991), ('para', 0.03364057466387749), ('leite', 0.022314244881272316), ('na', 0.009391162544488907), ('bola', 0.008312082849442959)]
