# Vetorização

A vetorização para processamento de linguagem natural (NLP) é o processo de converter texto em representações numéricas que podem ser entendidas pelos algoritmos de aprendizado de máquina. A vetorização envolve atribuir a cada palavra ou token do texto um vetor numérico, onde cada dimensão do vetor representa alguma característica da palavra. Esses vetores são então usados como entrada para os modelos de ML, permitindo que eles aprendam padrões nos dados textuais. As técnicas comuns de vetorização incluem a criação de um vocabulário único de palavras, a codificação one-hot encoding e a representação TF-IDF.

#### Configurando Dados

In [1]:
import pandas as pd

df = pd.read_csv('datas/tccs.csv')

df = df.drop('Unnamed: 0', axis=1)

df.head()

Unnamed: 0,titulo,curso
0,Avaliação microscópica dos fragmentos ósseos o...,ZZZ MEST
1,Efeito da Terapia Fotodinâmica sobre Bactérias...,ZZZ MEST
2,Avaliação longitudinal do impacto da Saúde Buc...,ZZZ MEST
3,SOLANUM PANICULATUM LINN E MIMOSA TENUIFLORA (...,ZZZ MEST
4,Condições de saúde bucal e capacidade funciona...,ZZZ MEST


#### Aplicação de Vetorização

In [2]:
import nltk

# Baixando stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\alexa\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [3]:
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer

# Define as stopwords específicas do idioma português.
stopwords_nltk = stopwords.words('portuguese')

# Cria um vetorizador TF-IDF com configurações distintas.
vectorizer = TfidfVectorizer(stop_words=stopwords_nltk, # Remove as stopwords definidas anteriormente.
                             max_features=2000, # Limita o número máximo de features a 2000.
                             ngram_range=(1, 2), # Considera unigramas e bigramas.
                             min_df=5, # Ignora termos que aparecem em menos de 5 documentos.
                             max_df=0.8, # Ignora termos que aparecem em mais de 80% dos documentos.
                             lowercase=True # Converte o texto para minúsculas.
                             )

# Vetoriza as frases das linhas da coluna titulo
tfidf_matrix = vectorizer.fit_transform(df['titulo'].astype(str))

# Observando vetorização
tfidf_matrix.toarray()

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

#### N-grams

Uma forma de demonstrar a eficácia da vetorização textual é na obtenção dos n-grams mais frequentes do conjunto de dados de texto vetorizado.

```shell
Args:
    X_train (np.ndarray): Os dados de texto vetorizados.
    vectorizer (TfidfVectorizer): O vetorizador usado para transformar os dados de texto.
    top_n (int, opcional): O número de top n-grams a serem retornados. O padrão é 10.

Returns:
    np.ndarray: Um array dos n-grams mais frequentes.
```

In [4]:
import numpy as np

def top_ngrams(X_train: np.ndarray, vectorizer: TfidfVectorizer, top_n: int = 10) -> np.ndarray:

    # Soma todas as colunas para obter a frequência total de cada n-grama
    frequencias_total_ngram = np.sum(X_train, axis=0)

    # Ordena os n-grams por sua frequência total
    indices_ngrams_ordenados = np.argsort(frequencias_total_ngram)[::-1]

    # Obtém os índices dos top n-grams mais frequentes
    indices_top_ngrams = indices_ngrams_ordenados[:top_n]

    # Obtém os nomes dos n-grams correspondentes aos índices mais frequentes
    nomes_ngrams = np.array(vectorizer.get_feature_names_out())

    return nomes_ngrams[indices_top_ngrams]

# Usa a função para obter os top 30 n-grams dos dados de treinamento
top_ngrams = top_ngrams(tfidf_matrix.toarray(), vectorizer, top_n=10)

# Mostrando resultado
print(f"Aqui estão as 10 palavras mais usadas nos TCC's: {', '.join(top_ngrams)}.")

Aqui estão as 10 palavras mais usadas nos TCC's: análise, rn, estudo, saúde, sobre, natal, avaliação, educação, ensino, rio.
