<a href="https://colab.research.google.com/github/ligueproleo/Foundation_Trilogy/blob/main/I2A2_Desafio4_word_embedding_Leo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Desafio 4 - I2A2 - Word Embedding
## Curso Redes Generativas - 2023 - Leonardo Alves Pereira

# 1. Obter o Conteúdo na Web
## Livro: Trilogia Fundação de Isaac Asimov

#### Esse bloco de comandos é importante para obter o conteúdo de um arquivo de texto da web (neste caso, um livro) e utilizá-lo para as tarefas subsequentes, como processamento de linguagem natural, treinamento de modelos de word embedding, ou análise de texto.

In [8]:
import requests

# URL do arquivo raw no GitHub
url = "https://raw.githubusercontent.com/ligueproleo/Foundation_Trilogy/main/Isaac_Asimov_Trilogia_Fundacao_UTF8.txt"

# Requisição para obter o conteúdo do arquivo
response = requests.get(url)

# Verifica se a requisição foi bem-sucedida (status code 200)
if response.status_code == 200:
    # O conteúdo do arquivo está em response.text
    conteudo_do_arquivo = response.text

    # Agora você pode usar 'conteudo_do_arquivo' conforme necessário
    # Por exemplo, imprimir as primeiras 1000 caracteres:
    print(conteudo_do_arquivo[:1000])
else:
    print(f"Erro ao acessar o arquivo. Código de status: {response.status_code}")


ISAAC ASIMOV

       


 
 
 
Fundação
Fundação e Império
Segunda Fundação







Trilogia 
FUNDAÇÃO 
FUNDAÇÃO E IMPÉRIO 
SEGUNDA FUNDAÇÃO


PREFÁCIO

      Uma obra de ficção implica geralmente em um pouco mais que saber 
escrever bem. O conhecimento científico é desejável, mas, acima de tudo, o que 
importa é imaginação.
      Isaac Asimov talvez seja o maior polígrafo de nossa época, pelo menos e 
como registra a 115ª Edição da Enciclopédia Galáctica, e seus trabalhos se 
estendem desde obras de vulgarização cientifica, como O Corpo Humano e O 
Cérebro Humano em que um estilo leve e vivo estabelece um estudo completo do 
animal "Homo Sapiens", até os altos vôos de imaginação em que todo um novo 
Cosmos é construído, na trilogia que é atualmente um clássico: Fundação.
      Os críticos literários normalmente afetam um total desconhecimento das 
obras de ficção cientifica, pretendendo com isso afetar uma ausência de conteúdo 
artístico neste gênero

#### Os comandos desse bloco realizam as seguintes tarefas

> url = "https://raw.githubusercontent.com/ligueproleo/Foundation_Trilogy/main/Isaac_Asimov_Trilogia_Fundacao_UTF8.txt" - Essa linha define a URL do arquivo de texto no GitHub que será utilizado para criar os embeddings.

> response = requests.get(url) - Essa linha faz uma solicitação GET para a URL para obter o conteúdo do arquivo e armazena a resposta na variável response.

>if response.status_code == 200 - Isso verifica o código de status da requisição e se a solicitação foi bem-sucedida, com base no código de status HTTP 200.

> conteudo_do_arquivo = response.text - Esse comando verifica se a solicitação for bem-sucedida, e extrai o conteúdo do arquivo da resposta HTTP e o armazena na variável conteudo_do_arquivo.

> print(conteudo_do_arquivo[:1000]) - Se a solicitação for bem-sucedida, esta linha imprime os primeiros 1000 caracteres do conteúdo do arquivo, o que é interessante para verificar se ele foi baixado corretamente, e ainda para entender o seu formato.

> else:
    print(f"Erro ao acessar o arquivo. Código de status: {response.status_code}")
Aqui se faz o tratamento de erro da requisição. Se a solicitação falhar (código de status diferente de 200), essa parte do código imprime uma mensagem de erro com o código de status recebido.


# 2. Estruturar o Arquivo em Linhas
#### Estruturar em linhas pode ser útil em tarefas de NLP - processamento de linguagem natural, análise de texto, ou qualquer aplicação que envolva a manipulação de dados de texto em formato de linha, como a contagem de palavras, análise de padrões, entre outras.

In [2]:
import urllib.request
import re

# URL do arquivo raw no GitHub
url = "https://raw.githubusercontent.com/ligueproleo/Foundation_Trilogy/main/Isaac_Asimov_Trilogia_Fundacao_UTF8.txt"

# read file into list of lines, ignoring errors
with urllib.request.urlopen(url) as response:
    lines = response.read().decode('utf-8', errors='ignore').split("\n")


#### Os comandos desse bloco realizam as seguintes tarefas

> import urllib.request
import re
Isso importa as bibliotecas urllib.request para trabalhar com requisições HTTP e re para manipulação de expressões regulares.

>url = "https://raw.githubusercontent.com/ligueproleo/Foundation_Trilogy/main/Isaac_Asimov_Trilogia_Fundacao_UTF8.txt"
Essa linha define a URL do arquivo de texto no GitHub que será utilizado.

> with urllib.request.urlopen(url) as response:
    lines = response.read().decode('utf-8', errors='ignore').split("\n")

Leirura do Arquivo em Linhas, Ignorando Erros:
urllib.request.urlopen(url): Faz uma requisição para a URL especificada.
response.read(): Lê o conteúdo da resposta.
.decode('utf-8', errors='ignore'): Decodifica o conteúdo usando UTF-8, ignorando erros de codificação.
.split("\n"): Divide o conteúdo em linhas, criando uma lista de strings, onde cada string representa uma linha do arquivo.


# 3. Pré-Processamento de Texto
####  Importante em tarefas de processamento de linguagem natural (NLP), como a criação de modelos de word embeddings. Transforma o texto em um formato mais adequado para análise, removendo caracteres indesejados e dividindo-o em unidades menores (tokens). O resultado, a lista sentences, é uma lista de listas, onde cada lista interna contém os tokens de uma linha do arquivo original, pronta para ser utilizada em tarefas de modelagem de linguagem.  

In [3]:
sentences = []

for line in lines:
    # Converta a linha para minúsculas para ser case insensitive
    line = line.lower()

    # Remova pontuações e caracteres especiais, mantendo apenas letras e números
    line = re.sub(r'[^a-zA-Z0-9\s]', '', line)

    # Divida a linha em tokens usando espaços em branco como delimitadores
    tokens = line.split()

    # Somente mantenha linhas com pelo menos um token
    if len(tokens) > 0:
        sentences.append(tokens)


#### Os comandos desse bloco realizam as seguintes tarefas


> sentences = []: Cria uma lista vazia chamada sentences que será usada para armazenar as linhas processadas do arquivo

> for line in lines: Percorre cada linha do arquivo, onde lines é uma lista de strings, representando as linhas do arquivo de texto.

> line = line.lower(): Converte todas as letras da linha para minúsculas. Isso torna a tokenização case-insensitive, tratando palavras em maiúsculas e minúsculas da mesma forma.

>line = re.sub(r'[^a-zA-Z0-9\s]', '', line): Remove todas as pontuações e caracteres especiais, mantendo apenas letras e números. A expressão regular [^a-zA-Z0-9\s] significa "qualquer caractere que não seja uma letra maiúscula ou minúscula, número ou espaço em branco". Isso ajuda a manter apenas os caracteres relevantes para a análise textual.

>tokens = line.split(): Divide a linha em tokens usando espaços em branco como delimitadores. Isso cria uma lista de palavras da linha.

> if len(tokens) > 0: e sentences.append(tokens): Garante que apenas linhas com pelo menos um token sejam adicionadas à lista sentences. Isso evita a inclusão de linhas em branco ou que consistem apenas de pontuações



# 4. Treinar um Modelo Word2Vec
####  Esse etapa é crucial para tarefas de processamento de linguagem natural, especificamente para criar representações vetoriais (embeddings) de palavras.
#### O modelo Word2Vec treinado (bard2vec neste caso) pode ser usado para calcular similaridades semânticas entre palavras, encontrar palavras semanticamente relacionadas e, em geral, capturar a semântica distribucional do corpus de texto utilizado no treinamento. Esses embeddings de palavras são frequentemente utilizados em tarefas como classificação de texto, agrupamento, tradução automática, entre outras.

In [4]:
from gensim.models import Word2Vec

bard2vec = Word2Vec(
         sentences,
         min_count=3,   # Ignora palavras que aparecem menos de 3 vezes
         vector_size=50,       # Dimensionalidade dos embeddings de palavras
         sg=1,        # Usa o método skip-gram (1 para skip-gram, 0 para CBOW)
         window=7,      # Janela de contexto para palavras durante o treinamento
         epochs=40)       # Número de épocas de treinamento sobre o corpus


#### Os comandos desse bloco usam a biblioteca gensin para treinar um modelo Word2Vec a partir das sentenças processadas anteriormente

> from gensim.models import Word2Vec: Importa a classe Word2Vec da biblioteca Gensim, que é uma biblioteca popular para processamento de linguagem natural.

> bard2vec = Word2Vec(: Cria uma instância do modelo Word2Vec chamada bard2vec.

>sentences,: Passa as sentenças processadas como dados de entrada para o modelo.

>min_count=3,: Ignora palavras que aparecem menos de 3 vezes no corpus. Isso ajuda a remover palavras muito raras que podem não contribuir significativamente para as representações vetoriais.

>vector_size=50,: Define a dimensionalidade dos embeddings de palavras como 50. Isso determina o número de dimensões nos quais cada palavra será representada.

> sg=1,: Usa o método skip-gram. O valor 1 indica que o método skip-gram será utilizado, enquanto o valor 0 indicaria o uso do método CBOW (Continuous Bag of Words).

> window=7,: Define a janela de contexto para palavras durante o treinamento como 7. Isso significa que o modelo levará em consideração 7 palavras à esquerda e à direita de uma palavra alvo ao aprender as representações vetoriais.

> epochs=40): Define o número de épocas de treinamento sobre o corpus como 40. Uma época é uma passagem completa pelos dados de treinamento.

Podemos ainda, ajustar ajustar os parâmetros com base nas características específicas do corpus e das necessidades da aplicação. É uma questão de tentar alternativas.


## 4.1. Encontrar Similaridades

#### Verificar as palavras mais similares à palavra 'mutante' com base nos embeddings de palavras (vetores) aprendidos pelo modelo Word2Vec (bard2vec).

In [5]:
bard2vec.wv.most_similar('mutante')

[('poderes', 0.6433465480804443),
 ('lidar', 0.6432638168334961),
 ('supe', 0.6381413340568542),
 ('conhecesse', 0.6337699294090271),
 ('imprevisvel', 0.6267795562744141),
 ('truque', 0.6229881644248962),
 ('humano', 0.6191799640655518),
 ('provinciano', 0.6158068180084229),
 ('desconhece', 0.6111360192298889),
 ('aconteceria', 0.6099813580513)]

##### bard2vec.wv.most_similar('mutante') : Procura por palavras semanticamente mais similares à palavra 'mutante' no modelo Word2Vec treinado (bard2vec).


> bard2vec: Este é o modelo Word2Vec treinado que contém as representações vetoriais de palavras.

> wv: Este é o atributo do modelo Word2Vec que representa o Word Vectors (vetores de palavras).

> most_similar('mutante'): Este método encontra as palavras mais similares à palavra fornecida como argumento ('mutante' neste caso) com base nas representações vetoriais aprendidas durante o treinamento do modelo. O resultado é uma lista de tuplas onde cada tupla contém uma palavra similar e uma pontuação de similaridade.

Essas palavras similares são determinadas pela proximidade de vetores no espaço vetorial de palavras, refletindo a coocorrência e similaridade contextual durante o treinamento do modelo.

#### A seguir criamos uma alternativa para treinar um modelo, mas não achamos interessante porque o fasttext exigia que o arquivo de dados fosse baixado localmente, e nós já havíamos criado um repositório no github e queríamos usa-lo diretamente. Todavia, ele está aí, e funcionando para comparação.

# 5. Treinar Modelo Alternativo FastText - Skip-gram Word2Vec
####  Esse bloco alternativo no exercício, instala a biblioteca FastText e a utilizam para treinar um modelo Skip-gram Word2Vec de 50 dimensões com parâmetros específicos e, por fim, salva o modelo treinado em um arquivo binário.

In [6]:
!pip install fasttext
import fasttext
import urllib.request

# Baixa o arquivo de texto localmente
url = "https://raw.githubusercontent.com/ligueproleo/Foundation_Trilogy/main/Isaac_Asimov_Trilogia_Fundacao_UTF8.txt"
local_filename, headers = urllib.request.urlretrieve(url, filename="local_text_file.txt")

# Cria um modelo Word2Vec usando fasttext
model = fasttext.train_unsupervised(input=local_filename, model='skipgram', dim=50, epoch=40, minCount=3, ws=7)

# Salva o modelo treinado
model.save_model('fasttext_skipgram_model.bin')


Collecting fasttext
  Downloading fasttext-0.9.2.tar.gz (68 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/68.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m68.8/68.8 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting pybind11>=2.2 (from fasttext)
  Using cached pybind11-2.11.1-py3-none-any.whl (227 kB)
Building wheels for collected packages: fasttext
  Building wheel for fasttext (setup.py) ... [?25l[?25hdone
  Created wheel for fasttext: filename=fasttext-0.9.2-cp310-cp310-linux_x86_64.whl size=4199772 sha256=6308f1d40b9f73e7543f7d04fd80045e81c000f4b67eecda0414ba14ceaa5267
  Stored in directory: /root/.cache/pip/wheels/a5/13/75/f811c84a8ab36eedbaef977a6a58a98990e8e0f1967f98f394
Successfully built fasttext
Installing collected packages: pybind11, fasttext
Successfully installed fasttext-0.9.2 pybind11-2.11.1


#### Os comandos desse bloco realizam as seguintes tarefas

> !pip install fasttext: Instala a biblioteca FastText.

> url = "https://raw.githubusercontent.com/ligueproleo/Foundation_Trilogy/main/Isaac_Asimov_Trilogia_Fundacao_UTF8.txt"
local_filename, headers = urllib.request.urlretrieve(url, filename="local_text_file.txt"): Baixa o arquivo de texto da URL especificada e o salva localmente com o nome "local_text_file.txt".

> model = fasttext.train_unsupervised(input=local_filename, model='skipgram', dim=50, epoch=40, minCount=3, ws=7)
Cria um modelo Word2Vec Skip-gram de 50 dimensões utilizando o FastText, treinando-o no arquivo de texto local com parâmetros específicos, como 40 épocas de treinamento, ignorando palavras que aparecem menos de 3 vezes, e uma janela de contexto de 7 palavras.

> model.save_model('fasttext_skipgram_model.bin')
Salva o modelo treinado em um arquivo binário chamado 'fasttext_skipgram_model.bin'.



## 5.1 Encontrar Similaridades no Modelo Alternativo


In [12]:
# Carrega o modelo treinado
model = fasttext.load_model('fasttext_skipgram_model.bin')

# Encontra palavras mais similares
similar_words = model.get_nearest_neighbors('mutante', k=7)

# Imprime palavras mais similares à palavra 'mutante'
print(f'Palavras mais similares à "mutante":')
for word, score in similar_words:
    print(f'{word}: {score}')


Palavras mais similares à "mutante":
0.8703683018684387: mutante!
0.850628674030304: mutante,
0.8039129376411438: mutante.
0.753200113773346: mutação
0.6755052208900452: relutante
0.6698078513145447: desenvolvido
0.6614865064620972: razoável


