# **Questão 8:**

In [1]:
import gensim.downloader as api
from scipy import spatial

In [2]:
model = api.load("glove-wiki-gigaword-50")



In [3]:
s0 = "Mark zuckerberg owns the facebook company"
s1 = "Facebook company ceo is mark zuckerberg"
s2 = "Microsoft is owned by Bill gates"
s3 = "How to learn japanese"


In [4]:
def sentence_to_vec(sentence, model):
    words = sentence.lower().split()
    word_vecs = [model[word] for word in words if word in model]
    if not word_vecs:
        return None
    return sum(word_vecs) / len(word_vecs)

In [5]:
# Calcula os vetores para cada frase
vec0 = sentence_to_vec(s0, model)
vec1 = sentence_to_vec(s1, model)
vec2 = sentence_to_vec(s2, model)
vec3 = sentence_to_vec(s3, model)

In [6]:
# Função para calcular a similaridade cosseno
def cosine_similarity(vec1, vec2):
    if vec1 is None or vec2 is None:
        return None
    return 1 - spatial.distance.cosine(vec1, vec2)


In [7]:
print("Similaridade entre s0 e s1:", cosine_similarity(vec0, vec1))
print("Similaridade entre s0 e s2:", cosine_similarity(vec0, vec2))
print("Similaridade entre s0 e s3:", cosine_similarity(vec0, vec3))
print("Similaridade entre s1 e s2:", cosine_similarity(vec1, vec2))
print("Similaridade entre s1 e s3:", cosine_similarity(vec1, vec3))
print("Similaridade entre s2 e s3:", cosine_similarity(vec2, vec3))

Similaridade entre s0 e s1: 0.9659231932518089
Similaridade entre s0 e s2: 0.8659113507077242
Similaridade entre s0 e s3: 0.5877998604663117
Similaridade entre s1 e s2: 0.8596354984226938
Similaridade entre s1 e s3: 0.5718077327907699
Similaridade entre s2 e s3: 0.7226007143523474


# **Questão 9 (Exemplo prático):**

In [18]:
import spacy

In [20]:
nlp = spacy.load('en_core_web_sm')

In [21]:
# Texto para tokenização
text = "Apple is looking at buying U.K. startup for $1 billion. This could be a big move!"


In [22]:
doc = nlp(text)

# Tokenização de sentenças
print("Tokenização de Sentenças:")
for sent in doc.sents:
    print(sent.text)

# Tokenização de palavras
print("\nTokenização de Palavras:")
for token in doc:
    print(token.text)

Tokenização de Sentenças:
Apple is looking at buying U.K. startup for $1 billion.
This could be a big move!

Tokenização de Palavras:
Apple
is
looking
at
buying
U.K.
startup
for
$
1
billion
.
This
could
be
a
big
move
!


### Explicação do Código

- **Carregar o Modelo**: `spacy.load('en_core_web_sm')` carrega o modelo de linguagem que você baixou. Este modelo contém o pipeline de processamento necessário, incluindo a tokenização.
- **Processar o Texto**: `nlp(text)` processa o texto e aplica o modelo, o que inclui a divisão do texto em tokens e sentenças.
- **Tokenização de Sentenças**: `doc.sents` é um gerador que itera sobre as sentenças tokenizadas do documento.
- **Tokenização de Palavras**: Ao iterar sobre `doc`, você acessa cada token individualmente.

Este exemplo fornece uma visão de como realizar a tokenização utilizando a biblioteca `spaCy`, que é adequada tanto para aplicações acadêmicas quanto comerciais devido à sua robustez e eficiência.

# **Questão 11:**

In [23]:
import gensim.downloader as api
from scipy import spatial
import numpy as np

In [24]:
model = api.load("glove-wiki-gigaword-50")

In [25]:
frases = [
    "Mark Zuckerberg is the founder of Facebook.",
    "Facebook is one of the largest social media platforms.",
    "Bill Gates co-founded Microsoft.",
    "Microsoft develops software products like Windows and Office.",
    "Steve Jobs was the co-founder of Apple.",
    "Apple is known for its iPhones and Mac computers.",
    "Elon Musk is the CEO of SpaceX and Tesla.",
    "Tesla is a leader in electric vehicles.",
    "Google is a major player in the tech industry.",
    "Amazon is a giant in e-commerce and cloud computing."
]

In [26]:
def frase_para_vetor(frase):
    words = [word for word in frase.lower().split() if word in model]
    if words:
        return np.mean([model[word] for word in words], axis=0)
    else:
        return np.zeros(50)

def buscar_frases(palavra):
    palavra_vec = model[palavra]
    frase_vecs = [(frase, frase_para_vetor(frase)) for frase in frases]
    similaridades = [(frase, 1 - spatial.distance.cosine(palavra_vec, vec)) for frase, vec in frase_vecs if np.any(vec)]
    similaridades.sort(key=lambda x: x[1], reverse=True)
    return similaridades[:5]

In [27]:
resultados = buscar_frases('apple')
for frase, sim in resultados:
    print(f'Frase: {frase} - Similaridade: {sim:.4f}')

Frase: Apple is known for its iPhones and Mac computers. - Similaridade: 0.7754
Frase: Microsoft develops software products like Windows and Office. - Similaridade: 0.7601
Frase: Amazon is a giant in e-commerce and cloud computing. - Similaridade: 0.6364
Frase: Tesla is a leader in electric vehicles. - Similaridade: 0.5575
Frase: Elon Musk is the CEO of SpaceX and Tesla. - Similaridade: 0.5499



### Análise das Saídas

1. **Alta Similaridade com Frases Relevantes**:
   - A frase "Apple is known for its iPhones and Mac computers." tem a maior similaridade (0.7754). Isso faz sentido, pois essa frase contém a palavra-chave "Apple" e fala diretamente sobre produtos da Apple, indicando uma alta relevância contextual e semântica.
   
2. **Frases Relacionadas à Tecnologia e Inovação**:
   - As frases sobre "Microsoft", "Amazon", "Tesla", e "Elon Musk" também aparecem na lista, embora com similaridades menores. Isso pode ser devido à associação geral entre essas empresas e o setor de tecnologia e inovação, que também é o contexto principal para "Apple". Essa é uma indicação de que o modelo GloVe não apenas captura a similaridade direta de palavras, mas também associações contextuais mais amplas.
   
3. **Diversidade nos Resultados**:
   - A inclusão de frases relacionadas a diferentes empresas de tecnologia sugere que o modelo consegue capturar e entender o campo semântico associado à palavra "apple" no contexto de empresas líderes de tecnologia. Isso demonstra a utilidade do modelo GloVe em tarefas de recuperação de informações onde o contexto e as associações gerais são importantes.

### Implicações Práticas

- **Recuperação de Informações**: A habilidade de associar "apple" com outras empresas de tecnologia mostra que tal sistema pode ser usado para recuperação de informações ou sistemas de recomendação onde entender o contexto e as relações semânticas é crucial.
  
- **Sistemas de Recomendação**: Este tipo de modelo pode ser aplicado em sistemas de recomendação para sugerir conteúdos relacionados, notícias, ou produtos baseados em palavras-chave ou tópicos de interesse.

- **Análise Semântica**: O uso de modelos de embeddings como GloVe é ideal para análises que requerem uma compreensão do espaço semântico das palavras, como em análises de sentimentos, agrupamento de textos ou classificação.
