# Desafio +A Educação - Engenheiro de Inteligência Artificial

Este notebook contempla as etapas e soluções requeridas no desafio pontuadas no README.md na pasta raiz e estruturadas de acordo

*Autora*: Leticia Campos Valente

## Etapa 1: Indexação dos dados

A autora optou por utilizar a ferramenta 'Elastic Search' pelo suporte aos formatos e tipos de dados presentes no desafio, como sua eficiência e velocidade nas pesquisas, além de lidar bem com grandes volumes de dados

In [2]:
from elasticsearch import Elasticsearch

# Instanciando o Elasticsearch
# es = Elasticsearch()

### 1.1 Texto

É preciso primeiramente extrair as palavras chaves do texto para indexação conforme conteúdo e outras palavras chaves. Para o desafio, testa-se duas abordagens de extração de palavras chaves: 1 pelo método de Term Frequency-Inverse Document Frequency (TF-IDF) com NLP simples e 2 Utilizando um modelo pré-treinado da hugging face

#### 1.1.1 Extração de palavras chaves por TF-IDF

In [3]:
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.tokenize import RegexpTokenizer

In [4]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\letic\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\letic\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [10]:
def text_keyword_extraction(text, top_n=10):
    """
    Extrai as principais palavras-chave de um texto usando o método TF-IDF (Term Frequency-Inverse Document Frequency)

    Parâmetros:
    text (str)-> Texto em formato str para extração das palavras chaves
    top_n (int) -> Número de palavras-chave a serem retornadas

    Retorno: 
    list -> Lista das palavras-chave extraídas do texto, ordenadas por relevância
    """

    stop_words = nltk.corpus.stopwords.words('portuguese')

    # Pré-processamento
    vectorizer = TfidfVectorizer(stop_words=stop_words, max_features=top_n)

    # Cálculo da matriz
    tfidf_matrix = vectorizer.fit_transform([text])
    feature_names = vectorizer.get_feature_names_out()
    tfidf_scores = tfidf_matrix.toarray().flatten()

    # Pós-processamento
    keywords = sorted(zip(feature_names, tfidf_scores), key=lambda x: x[1], reverse=True)

    print('\nWord indexes:')
    print(vectorizer.vocabulary_)
    
    # display tf-idf values
    print('\ntf-idf value:')
    print(tfidf_matrix)
    
    # in matrix form
    print('\ntf-idf values in matrix form:')
    print(tfidf_matrix.toarray())
    return [palavra for palavra, score in keywords]

In [11]:
with open('../resources/Apresentação.txt', 'r') as text_file:
    text_data = text_file.read()

In [12]:
text_kw = text_keyword_extraction(text_data, 10)
print(text_kw)


Word indexes:
{'web': 9, 'pã': 6, 'ginas': 3, 'html5': 4, 'estrutura': 0, 'formataã': 1, 'texto': 8, 'listas': 5, 'tabelas': 7, 'gina': 2}

tf-idf value:
  (0, 9)	0.5163977794943223
  (0, 6)	0.5163977794943223
  (0, 3)	0.25819888974716115
  (0, 4)	0.43033148291193524
  (0, 0)	0.17213259316477408
  (0, 1)	0.17213259316477408
  (0, 8)	0.17213259316477408
  (0, 5)	0.17213259316477408
  (0, 7)	0.17213259316477408
  (0, 2)	0.25819888974716115

tf-idf values in matrix form:
[[0.17213259 0.17213259 0.25819889 0.25819889 0.43033148 0.17213259
  0.51639778 0.17213259 0.17213259 0.51639778]]
['pã', 'web', 'html5', 'gina', 'ginas', 'estrutura', 'formataã', 'listas', 'tabelas', 'texto']


In [7]:
from rake_nltk import Rake
import nltk

# Certifique-se de baixar os recursos necessários do NLTK

# Texto de exemplo
texto = """
Sistemas desenvolvidos para a plataforma web utilizam a linguagem HTML para a exibição de conteúdo, tanto para páginas estáticas como dinâmicas. Com HTML5 é possível criar páginas web com diversos recursos para a apresentação de dados por meio de novas marcações que permitem o uso de semântica e acessibilidade, facilitando a pesquisa por motores de busca automática e dispositivos próprios para deficientes visuais e auditivos.

Nesta Unidade de Aprendizagem, você vai estudar a estrutura de páginas web, a formatação de texto em documentos hipertexto e a apresentação de links, listas e tabelas em HTML5.

Bons estudos.

Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Definir a estrutura de uma página web com HTML5.
Aplicar formatação de texto em uma página web com HTML5.
Desenvolver listas e tabelas em uma página web com HTML5.
"""

# Função para extrair palavras-chave usando RAKE
def extrair_palavras_chave_rake(texto):
    rake = Rake(stopwords=nltk.corpus.stopwords.words('portuguese'))
    rake.extract_keywords_from_text(texto)
    palavras_chave = rake.get_ranked_phrases()
    return palavras_chave

# Extração de palavras-chave
palavras_chave = extrair_palavras_chave_rake(texto)
print(palavras_chave)

['possível criar páginas web', 'plataforma web utilizam', 'final desta unidade', 'páginas web', 'páginas estáticas', 'página web', 'página web', 'página web', 'nesta unidade', 'vai estudar', 'sistemas desenvolvidos', 'seguintes aprendizados', 'novas marcações', 'linguagem html', 'documentos hipertexto', 'diversos recursos', 'dispositivos próprios', 'deve apresentar', 'deficientes visuais', 'busca automática', 'bons estudos', 'desenvolver listas', 'aplicar formatação', 'listas', 'formatação', 'uso', 'texto', 'texto', 'tanto', 'tabelas', 'tabelas', 'semântica', 'pesquisa', 'permitem', 'motores', 'meio', 'links', 'html5', 'html5', 'html5', 'html5', 'html5', 'facilitando', 'exibição', 'estrutura', 'estrutura', 'dinâmicas', 'definir', 'dados', 'conteúdo', 'auditivos', 'apresentação', 'apresentação', 'aprendizagem', 'aprendizagem', 'acessibilidade']


#### 1.1.2 Extração de palavras chaves por pré-trained BERT

In [9]:
import torch
from transformers import BertTokenizer, BertModel
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# Carregar o modelo BERT pré-treinado e o tokenizer
model_name = 'bert-base-multilingual-cased'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)

# Texto de exemplo
texto = """
Sistemas desenvolvidos para a plataforma web utilizam a linguagem HTML para a exibição de conteúdo, tanto para páginas estáticas como dinâmicas. Com HTML5 é possível criar páginas web com diversos recursos para a apresentação de dados por meio de novas marcações que permitem o uso de semântica e acessibilidade, facilitando a pesquisa por motores de busca automática e dispositivos próprios para deficientes visuais e auditivos.

Nesta Unidade de Aprendizagem, você vai estudar a estrutura de páginas web, a formatação de texto em documentos hipertexto e a apresentação de links, listas e tabelas em HTML5.

Bons estudos.

Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Definir a estrutura de uma página web com HTML5.
Aplicar formatação de texto em uma página web com HTML5.
Desenvolver listas e tabelas em uma página web com HTML5.
"""

# Tokenizar o texto
inputs = tokenizer(texto, return_tensors='pt', truncation=True, padding=True, max_length=512)
input_ids = inputs['input_ids']

# Obter as embeddings do BERT
with torch.no_grad():
    outputs = model(**inputs)

# Extração das embeddings da última camada
last_hidden_states = outputs.last_hidden_state

# Calcular a média das embeddings das palavras
word_embeddings = last_hidden_states.squeeze().mean(dim=0)

# Tokenizar novamente para obter as palavras correspondentes
tokens = tokenizer.convert_ids_to_tokens(input_ids.squeeze().tolist())

# Filtrar as palavras relevantes (remover tokens especiais como [CLS] e [SEP])
word_embeddings_filtered = []
tokens_filtered = []
for token, embedding in zip(tokens, word_embeddings):
    if token not in ["[CLS]", "[SEP]", "[PAD]"]:
        tokens_filtered.append(token)
        word_embeddings_filtered.append(embedding)

# Converter listas para arrays do NumPy para cálculo de similaridade
word_embeddings_filtered = np.array([embedding.numpy() for embedding in word_embeddings_filtered])

# Calcular a similaridade de coseno entre cada palavra e o vetor médio do documento
doc_embedding = word_embeddings_filtered.mean(axis=0)
similarity_scores = cosine_similarity([doc_embedding], word_embeddings_filtered).flatten()

# Ordenar as palavras pelo score de similaridade
top_n = 10
top_indices = similarity_scores.argsort()[-top_n:][::-1]
palavras_chave = [tokens_filtered[idx] for idx in top_indices]

print(palavras_chave)

  from .autonotebook import tqdm as notebook_tqdm
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


ValueError: Expected 2D array, got 1D array instead:
array=[0.0327954].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

In [None]:
#### 1.1.1 Extração de palavras chaves por TF-IDF