## Pré-processamento de texto: limpeza de texto e representação de texto, exemplos em python

### Limpeza de texto

A limpeza de texto é uma etapa essencial no pré-processamento de texto, que visa remover elementos indesejados, como caracteres especiais, símbolos, números, stopwords e outros ruídos que podem interferir na análise e no desempenho dos modelos de aprendizado de máquina. Essa etapa é importante para garantir que os dados textuais estejam em um formato adequado para as etapas subsequentes de processamento e análise.

A limpeza de texto em Python pode ser feita utilizando a biblioteca <code>nltk</code> (Natural Language Toolkit) e a biblioteca <code>re</code> para aplicação de expressões regulares:

- Remoção de caracteres especiais e símbolos:

In [2]:
import re

text = '''
        Albert Einstein (Ulm, 14 de março de 1879 – Princeton, 18 de abril de 1955) foi um físico teórico alemão que desenvolveu a teoria da relatividade geral, um dos pilares da física moderna ao lado da mecânica quântica. Embora mais conhecido por sua fórmula de equivalência massa-energia, E = mc² — que foi chamada de "a equação mais famosa do mundo" —, foi laureado com o Prêmio Nobel de Física de 1921 "por suas contribuições à física teórica" e, especialmente, por sua descoberta da lei do efeito fotoelétrico, que foi fundamental no estabelecimento da teoria quântica.
        Nascido em uma família de judeus alemães, mudou-se para a Suíça ainda jovem e iniciou seus estudos na Escola Politécnica de Zurique. Após dois anos procurando emprego, obteve um cargo no escritório de patentes suíço enquanto ingressava no curso de doutorado da Universidade de Zurique. Em 1905, publicou uma série de artigos acadêmicos revolucionários. Uma de suas obras era o desenvolvimento da teoria da relatividade especial. Percebeu, no entanto, que o princípio da relatividade também poderia ser estendido para campos gravitacionais, e com a sua posterior teoria da gravitação, de 1916, publicou um artigo sobre a teoria da relatividade geral. Enquanto acumulava cargos em universidades e instituições, continuou a lidar com problemas da mecânica estatística e teoria quântica, o que levou às suas explicações sobre a teoria das partículas e o movimento browniano. Também investigou as propriedades térmicas da luz, o que lançou as bases da teoria dos fótons. Em 1917, aplicou a teoria da relatividade geral para modelar a estrutura do universo como um todo. Suas obras renderam-lhe o status de celebridade mundial enquanto tornava-se uma nova figura na história da humanidade, recebendo prêmios internacionais e sendo convidado de chefes de estado e autoridades.
    '''
text_clean = re.sub(r'[^\w\s]', '', text)
print("saída: ", text_clean)

saída:  
        Albert Einstein Ulm 14 de março de 1879  Princeton 18 de abril de 1955 foi um físico teórico alemão que desenvolveu a teoria da relatividade geral um dos pilares da física moderna ao lado da mecânica quântica Embora mais conhecido por sua fórmula de equivalência massaenergia E  mc²  que foi chamada de a equação mais famosa do mundo  foi laureado com o Prêmio Nobel de Física de 1921 por suas contribuições à física teórica e especialmente por sua descoberta da lei do efeito fotoelétrico que foi fundamental no estabelecimento da teoria quântica
        Nascido em uma família de judeus alemães mudouse para a Suíça ainda jovem e iniciou seus estudos na Escola Politécnica de Zurique Após dois anos procurando emprego obteve um cargo no escritório de patentes suíço enquanto ingressava no curso de doutorado da Universidade de Zurique Em 1905 publicou uma série de artigos acadêmicos revolucionários Uma de suas obras era o desenvolvimento da teoria da relatividade especial Perceb

O trecho acima aplicando a expressão regular <code>[^\w\s]</code> remove o que não for caracteres alfanuméricos.

 - Remoção de pontuação:

In [3]:
import string

print(string.punctuation)
text_no_punctuation = text_clean.translate(str.maketrans("", "", string.punctuation))
print(text_no_punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~

        Albert Einstein Ulm 14 de março de 1879  Princeton 18 de abril de 1955 foi um físico teórico alemão que desenvolveu a teoria da relatividade geral um dos pilares da física moderna ao lado da mecânica quântica Embora mais conhecido por sua fórmula de equivalência massaenergia E  mc²  que foi chamada de a equação mais famosa do mundo  foi laureado com o Prêmio Nobel de Física de 1921 por suas contribuições à física teórica e especialmente por sua descoberta da lei do efeito fotoelétrico que foi fundamental no estabelecimento da teoria quântica
        Nascido em uma família de judeus alemães mudouse para a Suíça ainda jovem e iniciou seus estudos na Escola Politécnica de Zurique Após dois anos procurando emprego obteve um cargo no escritório de patentes suíço enquanto ingressava no curso de doutorado da Universidade de Zurique Em 1905 publicou uma série de artigos acadêmicos revolucionários Uma de suas obras era o desenvolvimento da teoria da rel

- Remoção de números:

In [4]:
text_clean = re.sub(r'\d+', '', text_clean)
print(text_clean)


        Albert Einstein Ulm  de março de   Princeton  de abril de  foi um físico teórico alemão que desenvolveu a teoria da relatividade geral um dos pilares da física moderna ao lado da mecânica quântica Embora mais conhecido por sua fórmula de equivalência massaenergia E  mc²  que foi chamada de a equação mais famosa do mundo  foi laureado com o Prêmio Nobel de Física de  por suas contribuições à física teórica e especialmente por sua descoberta da lei do efeito fotoelétrico que foi fundamental no estabelecimento da teoria quântica
        Nascido em uma família de judeus alemães mudouse para a Suíça ainda jovem e iniciou seus estudos na Escola Politécnica de Zurique Após dois anos procurando emprego obteve um cargo no escritório de patentes suíço enquanto ingressava no curso de doutorado da Universidade de Zurique Em  publicou uma série de artigos acadêmicos revolucionários Uma de suas obras era o desenvolvimento da teoria da relatividade especial Percebeu no entanto que o princípi

O trecho acima aplicando a expressão regular <code>\d+</code> remove o que for número.

- Conversão para letras minúsculas:

In [5]:
text_lower = text_clean.lower()
print(text_lower)


        albert einstein ulm  de março de   princeton  de abril de  foi um físico teórico alemão que desenvolveu a teoria da relatividade geral um dos pilares da física moderna ao lado da mecânica quântica embora mais conhecido por sua fórmula de equivalência massaenergia e  mc²  que foi chamada de a equação mais famosa do mundo  foi laureado com o prêmio nobel de física de  por suas contribuições à física teórica e especialmente por sua descoberta da lei do efeito fotoelétrico que foi fundamental no estabelecimento da teoria quântica
        nascido em uma família de judeus alemães mudouse para a suíça ainda jovem e iniciou seus estudos na escola politécnica de zurique após dois anos procurando emprego obteve um cargo no escritório de patentes suíço enquanto ingressava no curso de doutorado da universidade de zurique em  publicou uma série de artigos acadêmicos revolucionários uma de suas obras era o desenvolvimento da teoria da relatividade especial percebeu no entanto que o princípi

- Remoção de espaços em branco extras:

In [6]:
text_clean = " ".join(text_lower.split())
print(text_clean)

albert einstein ulm de março de princeton de abril de foi um físico teórico alemão que desenvolveu a teoria da relatividade geral um dos pilares da física moderna ao lado da mecânica quântica embora mais conhecido por sua fórmula de equivalência massaenergia e mc² que foi chamada de a equação mais famosa do mundo foi laureado com o prêmio nobel de física de por suas contribuições à física teórica e especialmente por sua descoberta da lei do efeito fotoelétrico que foi fundamental no estabelecimento da teoria quântica nascido em uma família de judeus alemães mudouse para a suíça ainda jovem e iniciou seus estudos na escola politécnica de zurique após dois anos procurando emprego obteve um cargo no escritório de patentes suíço enquanto ingressava no curso de doutorado da universidade de zurique em publicou uma série de artigos acadêmicos revolucionários uma de suas obras era o desenvolvimento da teoria da relatividade especial percebeu no entanto que o princípio da relatividade também po

Stopwords são palavras comuns que geralmente são filtradas em análises de texto porque não contribuem muito para o significado.

- Remoção de stopwords:

In [7]:
#importa a biblioteca nltk e dois módulos específicos dela: stopwords, word_tokenize
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

#download dos stopwords em português usando o método nltk.download()
nltk.download('stopwords')
stop_words = set(stopwords.words('portuguese'))

#divide o texto em uma lista de tokens individuais
tokens = word_tokenize(text_clean)

#percorre cada token na lista tokens e verifica se o token em letras minúsculas não está presente no conjunto de stop_words;
#se o token não for uma stopword, ele é adicionado à lista text_no_stopwords.
text_no_stopwords = [token for token in tokens if token.lower() not in stop_words]

#imprime o texto sem stop words
text_clean = ' '.join(text_no_stopwords)
print(text_clean)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\johnsan2\AppData\Roaming\nltk_data...


albert einstein ulm março princeton abril físico teórico alemão desenvolveu teoria relatividade geral pilares física moderna lado mecânica quântica embora conhecido fórmula equivalência massaenergia mc² chamada equação famosa mundo laureado prêmio nobel física contribuições física teórica especialmente descoberta lei efeito fotoelétrico fundamental estabelecimento teoria quântica nascido família judeus alemães mudouse suíça ainda jovem iniciou estudos escola politécnica zurique após dois anos procurando emprego obteve cargo escritório patentes suíço enquanto ingressava curso doutorado universidade zurique publicou série artigos acadêmicos revolucionários obras desenvolvimento teoria relatividade especial percebeu entanto princípio relatividade poderia estendido campos gravitacionais posterior teoria gravitação publicou artigo sobre teoria relatividade geral enquanto acumulava cargos universidades instituições continuou lidar problemas mecânica estatística teoria quântica levou explicaç

[nltk_data]   Package stopwords is already up-to-date!


### Stemming e Lematização

Stemming e lematização são técnicas comumente utilizadas no pré-processamento de texto para reduzir as palavras a sua forma base ou raiz, a fim de lidar com variações morfológicas e melhorar a eficácia das análises de texto. Ambas as técnicas visam simplificar as palavras, mas de maneiras diferentes.

O stemming é um processo de remoção de sufixos e prefixos das palavras, mantendo apenas a raiz. Ele utiliza regras heurísticas simples para realizar essa redução. O objetivo é trazer diferentes variações de uma palavra para a sua forma base, mesmo que a raiz resultante não seja um termo válido ou reconhecível em um dicionário. Por exemplo, o stemming pode transformar as palavras "jogar", "jogando" e "jogador" em sua forma base "jog".

A biblioteca nltk em Python fornece um módulo chamado <code>RSLPStemmer</code> que implementa o algoritmo stemming RSLP (Removedor de Sufixos da Língua Portuguesa) aos tokens do texto. Aqui está um exemplo de como usar o <code>RSLPStemmer</code>:

In [8]:
from nltk.stem import RSLPStemmer
from nltk.tokenize import word_tokenize

stemmer = RSLPStemmer()

text = text_no_stopwords.copy()

stemmed_text = [stemmer.stem(token) for token in text]

print('saída:')
print(stemmed_text)

['albert', 'einstein', 'ulm', 'març', 'princeton', 'abril', 'físic', 'teór', 'alem', 'desenvolv', 'teor', 'relat', 'geral', 'pil', 'físic', 'modern', 'lad', 'mecân', 'quân', 'emb', 'conhec', 'fórmul', 'equival', 'massaenerg', 'mc²', 'cham', 'equaç', 'fam', 'mund', 'laure', 'prêmi', 'nobel', 'físic', 'contribu', 'físic', 'teór', 'espec', 'descobert', 'lei', 'efeit', 'fotoelétr', 'fundament', 'estabelec', 'teor', 'quân', 'nasc', 'famíl', 'jud', 'alem', 'mudous', 'suíç', 'aind', 'jov', 'inici', 'estud', 'escol', 'politécn', 'zuriqu', 'após', 'doi', 'ano', 'procur', 'empreg', 'obtev', 'carg', 'escritóri', 'patent', 'suíç', 'enquant', 'ingress', 'curs', 'doutor', 'univers', 'zuriqu', 'public', 'séri', 'artig', 'acadêm', 'revolucion', 'obr', 'desenvolv', 'teor', 'relat', 'espec', 'perceb', 'entant', 'princípi', 'relat', 'pod', 'estend', 'camp', 'gravitac', 'posteri', 'teor', 'gravit', 'public', 'artig', 'sobr', 'teor', 'relat', 'geral', 'enquant', 'acumul', 'carg', 'univers', 'institu', 'con

A saída é um array com as palavras reduzidas para suas formas base.

A lematização é uma técnica mais avançada que considera a estrutura gramatical da palavra. Ela mapeia as palavras para a sua forma lematizada, que é um termo válido e reconhecível em um dicionário. Por exemplo, a palavra "corrida" será lematizada para "correr". A lematização preserva o significado das palavras de forma mais precisa do que o stemming.

o Spacy é uma biblioteca de processamento de linguagem natural que oferece suporte à lematização em várias línguas, incluindo o português. O modelo pré-treinado 'pt_core_news_sm' é carregado para a língua portuguesa. Ele é um modelo de processamento de linguagem natural para a língua portuguesa que foi treinado em um grande conjunto de dados em português para aprender padrões linguísticos e realizar várias tarefas de processamento de texto. O texto é processado pelo modelo e cada token é lematizado usando o atributo <code>lemma_</code>. Aqui está um exemplo de como usar o lematizador do spacy:

In [20]:
import spacy

nlp = spacy.load('pt_core_news_sm')

doc = nlp(text_clean)
lemmatized_text = [[token, token.lemma_] for token in doc]

print('saída: ')
print(lemmatized_text)

saída: 
[[albert, 'albert'], [einstein, 'einstein'], [ulm, 'ulm'], [março, 'março'], [princeton, 'princeton'], [abril, 'abril'], [físico, 'físico'], [teórico, 'teórico'], [alemão, 'alemão'], [desenvolveu, 'desenvolver'], [teoria, 'teoria'], [relatividade, 'relatividade'], [geral, 'geral'], [pilares, 'pilar'], [física, 'físico'], [moderna, 'moderno'], [lado, 'lado'], [mecânica, 'mecânico'], [quântica, 'quântico'], [embora, 'embora'], [conhecido, 'conhecer'], [fórmula, 'fórmula'], [equivalência, 'equivalência'], [massaenergia, 'massaenergio'], [mc², 'mc²'], [chamada, 'chamar'], [equação, 'equação'], [famosa, 'famoso'], [mundo, 'mundo'], [laureado, 'laurear'], [prêmio, 'prêmio'], [nobel, 'nobel'], [física, 'físico'], [contribuições, 'contribuição'], [física, 'físico'], [teórica, 'teórico'], [especialmente, 'especialmente'], [descoberta, 'descobrir'], [lei, 'lei'], [efeito, 'efeito'], [fotoelétrico, 'fotoelétrico'], [fundamental, 'fundamental'], [estabelecimento, 'estabelecimento'], [teori

Como pode-se observar na saída as palavras foram lematizadas para suas formas base.

### Representação de texto

A representação de texto é uma etapa crucial na preparação de texto para treinamento de modelos de aprendizagem de máquina. Ela envolve a conversão de texto bruto em uma forma numérica que os modelos de aprendizagem de máquina possam entender e processar.

Existem várias abordagens comuns para a representação de texto, sendo as mais populares:

- Bag of Words (BoW): Na abordagem BoW, cada documento é representado como um vetor que contém a contagem de ocorrência de cada palavra. A ordem das palavras é ignorada, e o foco está na frequência de ocorrência das palavras nos documentos. O BoW é fácil de implementar e interpretar, mas perde informações sobre a estrutura e ordem das palavras.

- TF-IDF (Term Frequency-Inverse Document Frequency): O TF-IDF é uma técnica que combina a frequência de ocorrência de um termo em um documento (TF) com a raridade do termo em todo o conjunto de documentos (IDF). Isso atribui um peso maior a termos mais importantes e discriminativos, reduzindo o peso de termos comuns. O TF-IDF é útil para destacar palavras-chave e filtrar palavras menos informativas.

- Word Embeddings: Os word embeddings são representações vetoriais de palavras que capturam informações semânticas e relacionais. Esses vetores são treinados em grandes conjuntos de dados de texto, onde palavras semanticamente semelhantes têm vetores próximos no espaço vetorial. Os embeddings são capazes de capturar relações de significado e são usados para alimentar modelos de aprendizagem de máquina em tarefas de processamento de texto, como classificação de sentimentos, tradução automática e análise de sentimento.

    - Word2Vec, GloVe e BERT: Essas são implementações populares de word embeddings. O Word2Vec e o GloVe são algoritmos treinados em grandes conjuntos de dados de texto, enquanto o BERT é um modelo de linguagem pré-treinado que aprende representações contextuais de palavras. Esses modelos pré-treinados têm sido amplamente utilizados para obter representações de texto ricas em informações.

Além dessas abordagens, outras técnicas incluem n-gramas, representação baseada em tópicos (como Latent Dirichlet Allocation - LDA) e técnicas baseadas em redes neurais, como redes LSTM e transformers.

A escolha da representação de texto depende do problema específico, dos recursos disponíveis e da natureza dos dados. Em geral, é importante realizar uma análise exploratória de dados e experimentar diferentes técnicas para encontrar a representação de texto mais adequada para o modelo de aprendizagem de máquina que está sendo treinado.

#### Bag of Words (BOW)

A abordagem Bag of Words (BoW) é uma técnica comum na representação de texto que converte documentos de texto em vetores numéricos, ignorando a estrutura e a ordem das palavras. Nessa abordagem, cada documento é tratado como um "saco" (conjunto) de palavras, onde a frequência de ocorrência de cada palavra é contabilizada. Essas contagens são usadas para construir um vetor que representa o documento.

A representação do BoW consiste em três etapas principais:

- Tokenização: os documentos são divididos em palavras individuais, conhecidas como tokens. Geralmente, a tokenização envolve a remoção de pontuação, caracteres especiais e espaços em branco, e a separação das palavras.

- Construção do vocabulário: um vocabulário único é criado a partir de todas as palavras únicas encontradas nos documentos. Cada palavra é atribuída a um índice no vocabulário, criando assim um mapeamento entre as palavras e suas posições no vetor de representação.

- Construção dos vetores de BoW: para cada documento, um vetor numérico é criado com base no vocabulário. O valor em cada posição do vetor é a frequência (ou uma métrica relacionada) de ocorrência da palavra correspondente no documento. Pode-se usar diferentes métricas, como a frequência bruta, a frequência relativa ou a frequência ponderada, como o TF-IDF.

A seguir há um exemplo de como criar uma representação de BoW usando a biblioteca sklearn em Python:

In [32]:
from sklearn.feature_extraction.text import CountVectorizer

# Documentos de exemplo
documents = [
    'Albert Einstein (Ulm, 14 de março de 1879 – Princeton, 18 de abril de 1955) foi um físico teórico alemão que desenvolveu a teoria da relatividade geral, um dos pilares da física moderna ao lado da mecânica quântica. Embora mais conhecido por sua fórmula de equivalência massa-energia, E = mc² — que foi chamada de "a equação mais famosa do mundo" —, foi laureado com o Prêmio Nobel de Física de 1921 "por suas contribuições à física teórica" e, especialmente, por sua descoberta da lei do efeito fotoelétrico, que foi fundamental no estabelecimento da teoria quântica.',
    "Nascido em uma família de judeus alemães, mudou-se para a Suíça ainda jovem e iniciou seus estudos na Escola Politécnica de Zurique. Após dois anos procurando emprego, obteve um cargo no escritório de patentes suíço enquanto ingressava no curso de doutorado da Universidade de Zurique. Em 1905, publicou uma série de artigos acadêmicos revolucionários. Uma de suas obras era o desenvolvimento da teoria da relatividade especial. Percebeu, no entanto, que o princípio da relatividade também poderia ser estendido para campos gravitacionais, e com a sua posterior teoria da gravitação, de 1916, publicou um artigo sobre a teoria da relatividade geral. Enquanto acumulava cargos em universidades e instituições, continuou a lidar com problemas da mecânica estatística e teoria quântica, o que levou às suas explicações sobre a teoria das partículas e o movimento browniano. Também investigou as propriedades térmicas da luz, o que lançou as bases da teoria dos fótons. Em 1917, aplicou a teoria da relatividade geral para modelar a estrutura do universo como um todo. Suas obras renderam-lhe o status de celebridade mundial enquanto tornava-se uma nova figura na história da humanidade, recebendo prêmios internacionais e sendo convidado de chefes de estado e autoridades.",
    "Estava nos Estados Unidos quando o Partido Nazista chegou ao poder na Alemanha, em 1933, e não voltou para o seu país de origem, onde tinha sido professor da Academia de Ciências de Berlim. Estabeleceu-se então no país, onde naturalizou-se em 1940. Na véspera da Segunda Guerra Mundial, ajudou a alertar o presidente Franklin Delano Roosevelt que a Alemanha poderia estar desenvolvendo uma arma atômica, recomendando aos norte-americanos a começar uma pesquisa semelhante, o que levou ao que se tornaria o Projeto Manhattan. Apoiou as forças aliadas, denunciando no entanto a utilização da fissão nuclear como uma arma. Mais tarde, com o filósofo britânico Bertrand Russell, assinou o Manifesto Russell-Einstein, que destacou o perigo das armas nucleares. Foi afiliado ao Instituto de Estudos Avançados de Princeton, onde trabalhou até sua morte em 1955."
]

# Cria uma instância do CountVectorizer
vectorizer = CountVectorizer()

# Ajusta o vetorizador aos documentos e transformá-los em vetores BoW
bow_vectors = vectorizer.fit_transform(documents)

# Obtém o vocabulário
vocab = vectorizer.get_feature_names_out()

print('Vocabulário: ')
print(vocab)
print()

# Imprime a representação BoW para cada documento
for i, document in enumerate(documents):
    print(f"Documento {i+1}: \n {document}")
    print(f"\nVetor BoW: \n {bow_vectors[i].toarray()}")
    print()

Vocabulário: 
['14' '18' '1879' '1905' '1916' '1917' '1921' '1933' '1940' '1955' 'abril'
 'academia' 'acadêmicos' 'acumulava' 'afiliado' 'ainda' 'ajudou' 'albert'
 'alemanha' 'alemães' 'alemão' 'alertar' 'aliadas' 'americanos' 'anos'
 'ao' 'aos' 'aplicou' 'apoiou' 'após' 'arma' 'armas' 'artigo' 'artigos'
 'as' 'assinou' 'até' 'atômica' 'autoridades' 'avançados' 'bases' 'berlim'
 'bertrand' 'britânico' 'browniano' 'campos' 'cargo' 'cargos'
 'celebridade' 'chamada' 'chefes' 'chegou' 'ciências' 'com' 'começar'
 'como' 'conhecido' 'continuou' 'contribuições' 'convidado' 'curso' 'da'
 'das' 'de' 'delano' 'denunciando' 'descoberta' 'desenvolvendo'
 'desenvolveu' 'desenvolvimento' 'destacou' 'do' 'dois' 'dos' 'doutorado'
 'efeito' 'einstein' 'em' 'embora' 'emprego' 'energia' 'enquanto'
 'entanto' 'então' 'equação' 'equivalência' 'era' 'escola' 'escritório'
 'especial' 'especialmente' 'estabeleceu' 'estabelecimento' 'estado'
 'estados' 'estar' 'estatística' 'estava' 'estendido' 'estrutura'
 'e

Neste exemplo, utilizamos a classe <code>CountVectorizer</code> da biblioteca <code>sklearn</code> para construir a representação BoW dos documentos. A função <code>fit_transform()</code> ajusta o vetorizador aos documentos e retorna uma matriz esparsa de vetores BoW. Em seguida, podemos obter o vocabulário usando o método <code>get_feature_names_out()</code>.

Cada linha dos vetores BoW representa um documento, e cada coluna representa uma palavra do vocabulário. O valor em cada posição indica a frequência da palavra correspondente no documento.

#### TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF (Term Frequency-Inverse Document Frequency) é uma técnica comumente utilizada na representação de texto que visa capturar a importância relativa de uma palavra em um documento dentro de um conjunto de documentos. Ele combina duas medidas: frequência do termo (TF) e frequência inversa do documento (IDF).

A medida TF calcula a frequência de ocorrência de um termo em um documento específico. Ela indica o quão importante é um termo dentro do documento. A medida IDF, por sua vez, calcula a raridade de um termo em todo o conjunto de documentos. Ela indica o quão discriminativo é um termo em relação aos demais documentos.

A fórmula do Term Frequency (TF) e do Inverse Document Frequency (IDF) são as seguintes:

- Term Frequency (TF):

O Term Frequency (TF) mede a frequência de um termo em um documento específico. Existem várias formas de calcular o TF, sendo a mais comum a frequência bruta (Raw Frequency) e a frequência normalizada (Normalized Frequency). A fórmula para o cálculo da frequência bruta é:

- TF(termo, documento) = Contagem do termo no documento


- A fórmula para o cálculo da frequência normalizada (TF-N) é:

    - TF-N(termo, documento) = (Contagem do termo no documento) / (Total de termos no documento)

A escolha entre usar a frequência bruta ou a frequência normalizada depende do contexto e da preferência do usuário.

- Inverse Document Frequency (IDF):

O Inverse Document Frequency (IDF) mede a raridade de um termo em todo o conjunto de documentos. Ele é calculado como o logaritmo do inverso da proporção de documentos que contêm o termo. A fórmula para o cálculo do IDF é:

- IDF(termo) = log((Total de documentos) / (Número de documentos que contêm o termo))

O IDF atribui um peso maior a termos raros, pois eles são considerados mais informativos e discriminativos.

Existem variações e ajustes nas fórmulas do TF e IDF, dependendo do contexto e dos requisitos específicos de cada problema. As fórmulas mencionadas acima são as formas básicas e amplamente utilizadas para o cálculo do TF e IDF.

A fórmula para calcular o TF-IDF de um termo em um documento é dada por:

- TF-IDF(termo, documento) = TF(termo, documento) * IDF(termo)

A seguir um exemplo de como calcular o TF-IDF usando a biblioteca sklearn em Python:

In [41]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Documentos de exemplo
documents = [
    'Albert Einstein (Ulm, 14 de março de 1879 – Princeton, 18 de abril de 1955) foi um físico teórico alemão que desenvolveu a teoria da relatividade geral, um dos pilares da física moderna ao lado da mecânica quântica. Embora mais conhecido por sua fórmula de equivalência massa-energia, E = mc² — que foi chamada de "a equação mais famosa do mundo" —, foi laureado com o Prêmio Nobel de Física de 1921 "por suas contribuições à física teórica" e, especialmente, por sua descoberta da lei do efeito fotoelétrico, que foi fundamental no estabelecimento da teoria quântica.',
    "Nascido em uma família de judeus alemães, mudou-se para a Suíça ainda jovem e iniciou seus estudos na Escola Politécnica de Zurique. Após dois anos procurando emprego, obteve um cargo no escritório de patentes suíço enquanto ingressava no curso de doutorado da Universidade de Zurique. Em 1905, publicou uma série de artigos acadêmicos revolucionários. Uma de suas obras era o desenvolvimento da teoria da relatividade especial. Percebeu, no entanto, que o princípio da relatividade também poderia ser estendido para campos gravitacionais, e com a sua posterior teoria da gravitação, de 1916, publicou um artigo sobre a teoria da relatividade geral. Enquanto acumulava cargos em universidades e instituições, continuou a lidar com problemas da mecânica estatística e teoria quântica, o que levou às suas explicações sobre a teoria das partículas e o movimento browniano. Também investigou as propriedades térmicas da luz, o que lançou as bases da teoria dos fótons. Em 1917, aplicou a teoria da relatividade geral para modelar a estrutura do universo como um todo. Suas obras renderam-lhe o status de celebridade mundial enquanto tornava-se uma nova figura na história da humanidade, recebendo prêmios internacionais e sendo convidado de chefes de estado e autoridades.",
    "Estava nos Estados Unidos quando o Partido Nazista chegou ao poder na Alemanha, em 1933, e não voltou para o seu país de origem, onde tinha sido professor da Academia de Ciências de Berlim. Estabeleceu-se então no país, onde naturalizou-se em 1940. Na véspera da Segunda Guerra Mundial, ajudou a alertar o presidente Franklin Delano Roosevelt que a Alemanha poderia estar desenvolvendo uma arma atômica, recomendando aos norte-americanos a começar uma pesquisa semelhante, o que levou ao que se tornaria o Projeto Manhattan. Apoiou as forças aliadas, denunciando no entanto a utilização da fissão nuclear como uma arma. Mais tarde, com o filósofo britânico Bertrand Russell, assinou o Manifesto Russell-Einstein, que destacou o perigo das armas nucleares. Foi afiliado ao Instituto de Estudos Avançados de Princeton, onde trabalhou até sua morte em 1955."
]

# Cria uma instância do TfidfVectorizer
vectorizer = TfidfVectorizer()

# Ajusta o vetorizador aos documentos e transformá-los em vetores TF-IDF
tfidf_vectors = vectorizer.fit_transform(documents)

# Obtém o vocabulário
vocab = vectorizer.get_feature_names()

# Imprime a representação TF-IDF para cada documento
for i, document in enumerate(documents):
    print(f"Documento\n {i+1}: {document}")
    print(f"\nVetor TF-IDF:\n {tfidf_vectors[i].toarray()}")
    print()

Documento
 1: Albert Einstein (Ulm, 14 de março de 1879 – Princeton, 18 de abril de 1955) foi um físico teórico alemão que desenvolveu a teoria da relatividade geral, um dos pilares da física moderna ao lado da mecânica quântica. Embora mais conhecido por sua fórmula de equivalência massa-energia, E = mc² — que foi chamada de "a equação mais famosa do mundo" —, foi laureado com o Prêmio Nobel de Física de 1921 "por suas contribuições à física teórica" e, especialmente, por sua descoberta da lei do efeito fotoelétrico, que foi fundamental no estabelecimento da teoria quântica.

Vetor TF-IDF:
 [[0.09193832 0.09193832 0.09193832 0.         0.         0.
  0.09193832 0.         0.         0.06992146 0.09193832 0.
  0.         0.         0.         0.         0.         0.09193832
  0.         0.         0.09193832 0.         0.         0.
  0.         0.06992146 0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.       

#### Word Embeddings

Word Embeddings são uma abordagem avançada e poderosa na representação de texto na preparação de texto para treinamento de modelos de aprendizagem de máquina. Eles são representações numéricas de palavras que capturam informações semânticas e relacionais.

A principal ideia por trás dos word embeddings é mapear palavras para vetores densos em um espaço vetorial contínuo, onde palavras semanticamente semelhantes têm vetores próximos uns dos outros. Essa representação densa permite que os modelos de aprendizagem de máquina capturem relações complexas entre palavras.

Existem várias abordagens para a criação de word embeddings exemplos deles são:

- Word2Vec: O Word2Vec é um algoritmo amplamente utilizado para aprender word embeddings. Ele treina redes neurais em grandes conjuntos de dados de texto e, com base nas relações contextuais das palavras, gera vetores de palavras densos. O Word2Vec possui duas variantes principais: o modelo Skip-gram e o modelo Continuous Bag-of-Words (CBOW).

- GloVe: O GloVe (Global Vectors for Word Representation) é outro método popular para aprender word embeddings. Ele utiliza estatísticas de coocorrência de palavras em um grande corpus de texto para construir vetores que capturam a relação entre palavras. O GloVe oferece uma abordagem eficiente e escalável para gerar representações de palavras de alta qualidade.

Os word embeddings são úteis em várias tarefas de processamento de texto, como classificação de sentimentos, tradução automática, análise de sentimento, recuperação de informações e muito mais. Eles ajudam a lidar com o desafio da dimensionalidade do espaço vetorial, capturando informações semânticas e relacionais que melhoram o desempenho dos modelos de aprendizagem de máquina.

Na prática, você pode usar bibliotecas como o Gensim, o spaCy e o TensorFlow para treinar e usar word embeddings em seus modelos de aprendizagem de máquina. Essas bibliotecas fornecem funções e métodos convenientes para criar, carregar e usar word embeddings em seu código.

No entanto, vale ressaltar que os word embeddings são treinados em grandes conjuntos de dados de texto e, portanto, podem não ser adequados para todos os casos de uso. É essencial considerar o tamanho e a qualidade dos dados disponíveis ao escolher e usar word embeddings em seus modelos.

In [46]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# Vetores de exemplo
vector1 = np.array([1, 2, 3])
vector2 = np.array([4, 5, 6])

# Calcula a similaridade do cosseno
similarity = cosine_similarity(tfidf_vectors[0].toarray().reshape(1, -1), tfidf_vectors[1].toarray().reshape(1, -1))

# Imprime a similaridade
print(similarity)

[[0.4047185]]


##### Word2Vec

Word2Vec é um algoritmo amplamente utilizado para aprender word embeddings, que são representações vetoriais de palavras em um espaço vetorial contínuo. Ele captura relações semânticas e relacionais entre palavras com base no contexto em que elas aparecem.

A abordagem do Word2Vec envolve treinar uma rede neural em um grande conjunto de dados de texto, onde o objetivo é prever a palavra alvo com base em seu contexto (palavras vizinhas). O algoritmo é treinado usando o método Skip-gram ou o método Continuous Bag-of-Words (CBOW).



Para demonstração do aprendizado de um modelo de word embbedings utilizou-se a função de pré-processamento de texto a seguir e também utilizaremos o corpus disponível no endereço: https://github.com/gazzola/corpus_readability_nlp_portuguese.

In [55]:
import os

#diretorios com os arquivos
diretorios = [os.path.join('corpus_readability_nlp_portuguese-master', '1_Ensino_Fundamental_I'), 
              os.path.join('corpus_readability_nlp_portuguese-master', '2_Ensino_Fundamental_II'), 
              os.path.join('corpus_readability_nlp_portuguese-master', '3_Ensino_Medio'), 
              os.path.join('corpus_readability_nlp_portuguese-master', '4_Ensino_Superior')]

textos = []

#leitura arquivos presentes nos diretorios
for diretorio in diretorios:
    for arquivo in os.listdir(diretorio):
        if arquivo.endswith('.txt'):
            caminho_arquivo = os.path.join(diretorio, arquivo)
            with open(caminho_arquivo, 'r', encoding='utf-8') as arquivo_txt:
                texto = arquivo_txt.read()
                textos.append(texto)
                
print(len(textos))

2076


In [56]:
import string
import spacy
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
nlp = spacy.load('pt_core_news_sm')

#realiza pré-processamento dos textos
def tratar_texto(texto):

    #remove pontuações
    text_clean = texto
    text_clean = text_clean.translate(str.maketrans("", "", string.punctuation))
    
    #remove espaços extras
    text_clean = ' '.join(text_clean.split())
    
    #transforma em minusculo
    #remove stopwords
    stop_words = set(stopwords.words('portuguese'))
    tokens = word_tokenize(text_clean)
    text_no_stopwords = [token.lower() for token in tokens if token.lower() not in stop_words]
    text_clean = ' '.join(text_no_stopwords)

    #lematiza
    doc = nlp(text_clean)
    text_clean = [token.lemma_ for token in doc]

    return text_clean

  from .autonotebook import tqdm as notebook_tqdm


In [None]:
#trata todos os textos
for i, t in enumerate(textos):
    print(i)
    textos[i] = tratar_texto(t)

In [None]:
textos[2]

A seguir um exemplo de como treinar e usar o Word2Vec usando a biblioteca Gensim em Python:

In [60]:
from gensim.models import Word2Vec

# Treina o modelo Word2Vec
model = Word2Vec(textos, min_count=1)

In [77]:
# Obtém o vetor de uma palavra
vector = model.wv['jogar']
print(vector)
# Encontrar palavras similares
similar_words = model.wv.most_similar('céu')
l = [r[0] for r in similar_words]
print(l)

[-0.09501461  0.47518766 -0.01437831  0.19209659  0.09651536 -0.56404907
 -0.17628737  0.87498194  0.04015888 -0.25889716 -0.20550688 -0.6711192
  0.04162331  0.12203677  0.34517252 -0.31392154  0.20982435 -0.77200395
 -0.29667404 -0.5930006  -0.02044235  0.07222618  0.21853927 -0.01912769
 -0.17866477 -0.301516    0.04976756  0.06159944 -0.6603457   0.17798652
  0.36244613 -0.0087003   0.29341146 -0.59329057 -0.09883633 -0.07305593
  0.11931157 -0.38893148  0.07986113  0.01025445  0.19679803 -0.2113925
  0.03101177 -0.49126208  0.22232915 -0.24747284 -0.45628306  0.24852324
 -0.06843746  0.40374494 -0.10584044 -0.0669236  -0.33689255  0.33798307
  0.11896707  0.4284754   0.66399807  0.2185241  -0.08901431  0.23291934
 -0.3364677   0.10672618 -0.2493264   0.3441954  -0.16754566  0.1530362
  0.21157387  0.1667295  -0.28599116  0.52380776 -0.16073506 -0.02116504
  0.29714966  0.00636465  0.11351888 -0.16256355 -0.2514217   0.03919014
 -0.31792176  0.41406748 -0.22763126 -0.1956045  -0.11

No exemplo acima, foi utilizada a biblioteca Gensim para treinar o modelo Word2Vec obtendo os vetores de word embbeding . As sentenças de exemplo foram passadas para a função Word2Vec, juntamente com o parâmetro <code>min_count=1</code>, que especifica que todas as palavras devem ser consideradas, independentemente de sua frequência.

Em seguida, podemos obter o vetor de uma palavra específica usando <code>model.wv['palavra']</code>, onde 'palavra' é a palavra de interesse. Isso nos dá um vetor denso que representa a palavra no espaço vetorial.

Também podemos usar <code>model.wv.most_similar('palavra')</code> para encontrar palavras similares a uma palavra específica. Ele retorna as palavras mais próximas com base na similaridade de cosseno entre os vetores de palavras.

O Word2Vec permite explorar relações semânticas entre palavras, como encontrar palavras sinônimas, analogias e relações implícitas. É um recurso poderoso para melhorar o desempenho de modelos de aprendizagem de máquina em tarefas de processamento de texto.

##### GloVe

GloVe (Global Vectors for Word Representation) é um método popular para aprender word embeddings, que são representações vetoriais de palavras em um espaço vetorial contínuo. O GloVe utiliza estatísticas de coocorrência de palavras em um grande corpus de texto para construir vetores que capturam as relações entre as palavras.

A seguir um exemplo de como usar o GloVe em Python com a biblioteca gensim:

In [7]:
import gensim.downloader as api

#baixa o modelo GloVe: "glove-wiki-gigaword-300"
glove_model = api.load("glove-wiki-gigaword-300")

In [9]:
vector = glove_model["céu"]
print(vector)

[ 0.17424   -0.14414   -0.25859    0.58766   -0.35713    0.22232
 -0.54324    0.29451   -0.5822     0.44723   -0.16427   -0.11976
  0.068134  -0.25741    0.095769  -0.30835   -0.022946  -0.077258
  0.26153    0.26314    0.56832   -0.18019    0.10773   -0.3268
  0.33333    0.66096    0.24358   -0.19114    0.031271  -0.43021
  0.21665   -0.37643    0.12432   -0.86763    0.46218    0.23843
 -0.23862   -0.24077    0.45572    0.041023  -0.16796   -0.12025
  0.3956     0.33641   -0.2957    -0.094436   0.44196   -0.2892
  0.39988    0.1608     0.013798   0.49871   -0.22476    0.053296
 -0.73259    0.40047   -0.34746   -0.4155    -0.18256    0.30605
 -0.18916   -0.32365    0.055179   0.80395    0.12012    0.25961
 -0.069131  -0.2097     0.31034    0.043253  -0.025061  -0.23514
  0.74582   -0.046616  -0.39581    0.20825   -0.40626   -0.11532
  0.056399  -0.25094   -0.25221    0.33594   -0.031046  -0.68971
 -0.22351   -0.79309    0.11136   -0.25871   -0.0056215 -0.025702
 -0.47311    0.31802    

Neste exemplo, o modelo pré-treinado do GloVe é carregado usando o gensim com o comando api.load(). O modelo GloVe utilizado é "glove-wiki-gigaword-300", que possui vetores de dimensão 300 treinados em um grande corpus da Wikipédia.

É possível acessar os vetores de palavras usando o modelo GloVe, onde "palavra" é a palavra de interesse. Isso retorna um vetor denso que representa a palavra no espaço vetorial.

O modelo GloVe oferece várias funcionalidades úteis, como encontrar palavras mais similares a uma palavra específica, calcular a similaridade de cosseno entre duas palavras e realizar operações de palavras, como adição e subtração.

In [52]:
print('\npalavras similares\n')
similar_words = glove_model.most_similar("sky", topn=5)
l = [r[0] for r in similar_words]
print(l)
print('\nrelações\n')
result = glove_model.most_similar(positive=["king", "woman"], negative=["men"], topn=1)
l = [r[0] for r in result]
print(l)
result = glove_model.most_similar(positive=["woman", "men", "marriage"], topn=10)
l = [r[0] for r in result]
print(l)
result = glove_model.most_similar(positive=["sugar", "fat"], topn=10)
l = [r[0] for r in result]
print(l)
result = glove_model.most_similar(positive=["sport", "winter"], topn=10)
l = [r[0] for r in result]
print(l)


palavras similares

['skies', 'clouds', 'bright', 'blue', 'horizon']

relações

['queen']
['women', 'man', 'couple', 'mother', 'her', 'wife', 'girl', 'she', 'female', 'sex']
['milk', 'butter', 'calories', 'carbohydrates', 'cholesterol', 'flour', 'juice', 'soy', 'chocolate', 'cream']
['summer', 'sports', 'olympics', 'olympic', 'skiing', 'games', 'autumn', 'spring', 'athletes', 'sporting']


Esses exemplos mostram como encontrar palavras similares a uma palavra específica, calcular a similaridade de cosseno entre duas palavras e realizar operações de palavras, respectivamente.

A linha 7 realiza uma operação de similaridade com o modelo GloVe pré-treinado, utilizando a função <code>most_similar()</code> da biblioteca Gensim.

A função <code>most_similar()</code> retorna as palavras mais similares a um conjunto de palavras de consulta, com base nos vetores de palavras do modelo GloVe. A ideia por trás desse cálculo é encontrar palavras que possuam relações semânticas ou contextuais semelhantes às palavras fornecidas.

- <code>positive=["queen", "woman"]</code>: fornece uma lista de palavras consideradas como "positivas" para a operação de similaridade. Nesse caso, as palavras são "rei" e "mulher", que podem representar um relacionamento ou associação específica que desejamos explorar.
- <code>negative=["men"]</code>: fornece uma lista de palavras consideradas como "negativas" para a operação de similaridade. Nesse caso, a palavra é "homem". Essa especificação ajuda a remover qualquer componente relacionado a "homem" da relação entre "rei" e "mulher". Essa construção permite explorar conceitos de analogia ou diferenciação.
- <code>topn=1</code>: especifica que queremos obter apenas a palavra mais similar à relação entre "rei" e "mulher".

O resultado retornado pela linha de código será um objeto que contém a palavra mais similar à relação especificada no caso "queen", rei mais mulher sem homem resulta em rainha. Esse resultado pode ser acessado para obter a palavra e sua pontuação de similaridade correspondente.

O GloVe é uma abordagem eficiente e escalável para a geração de word embeddings de alta qualidade. Pode ser usado em várias tarefas de processamento de texto, como classificação de sentimentos, tradução automática, análise de sentimento, recuperação de informações, entre outros.