# Text Vectorization
## PubMed

In [1]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import pandas as pd
import pickle
import os

archivoEntrada = "../normalization/pubmed_normalized_corpus.csv"
directorioSalida = "PubMed"
os.makedirs(directorioSalida, exist_ok=True)

datosPubmed = pd.read_csv(archivoEntrada)
patronToken = r'(?u)\w+|[^\w\s]'
columnasTexto = ['Title', 'Abstract']

for columna in columnasTexto:
    textos = datosPubmed[columna].fillna("").astype(str).tolist()

    vectorizadorFreqUni = CountVectorizer(token_pattern=patronToken, ngram_range=(1, 1))
    matrizFreqUni = vectorizadorFreqUni.fit_transform(textos)
    with open(f'./{directorioSalida}/pubmed_{columna}_frecuencia_unigramas.pkl', 'wb') as f:
        pickle.dump(matrizFreqUni, f)
    with open(f'./{directorioSalida}/pubmed_{columna}_vectorizador_frecuencia_unigramas.pkl', 'wb') as f:
        pickle.dump(vectorizadorFreqUni, f)

    vectorizadorFreqBi = CountVectorizer(token_pattern=patronToken, ngram_range=(2, 2))
    matrizFreqBi = vectorizadorFreqBi.fit_transform(textos)
    with open(f'./{directorioSalida}/pubmed_{columna}_frecuencia_bigramas.pkl', 'wb') as f:
        pickle.dump(matrizFreqBi, f)
    with open(f'./{directorioSalida}/pubmed_{columna}_vectorizador_frecuencia_bigramas.pkl', 'wb') as f:
        pickle.dump(vectorizadorFreqBi, f)

    vectorizadorBinUni = CountVectorizer(binary=True, token_pattern=patronToken, ngram_range=(1, 1))
    matrizBinUni = vectorizadorBinUni.fit_transform(textos)
    with open(f'./{directorioSalida}/pubmed_{columna}_binaria_unigramas.pkl', 'wb') as f:
        pickle.dump(matrizBinUni, f)
    with open(f'./{directorioSalida}/pubmed_{columna}_vectorizador_binaria_unigramas.pkl', 'wb') as f:
        pickle.dump(vectorizadorBinUni, f)

    vectorizadorBinBi = CountVectorizer(binary=True, token_pattern=patronToken, ngram_range=(2, 2))
    matrizBinBi = vectorizadorBinBi.fit_transform(textos)
    with open(f'./{directorioSalida}/pubmed_{columna}_binaria_bigramas.pkl', 'wb') as f:
        pickle.dump(matrizBinBi, f)
    with open(f'./{directorioSalida}/pubmed_{columna}_vectorizador_binaria_bigramas.pkl', 'wb') as f:
        pickle.dump(vectorizadorBinBi, f)

    vectorizadorTfidfUni = TfidfVectorizer(token_pattern=patronToken, ngram_range=(1, 1))
    matrizTfidfUni = vectorizadorTfidfUni.fit_transform(textos)
    with open(f'./{directorioSalida}/pubmed_{columna}_tfidf_unigramas.pkl', 'wb') as f:
        pickle.dump(matrizTfidfUni, f)
    with open(f'./{directorioSalida}/pubmed_{columna}_vectorizador_tfidf_unigramas.pkl', 'wb') as f:
        pickle.dump(vectorizadorTfidfUni, f)

    vectorizadorTfidfBi = TfidfVectorizer(token_pattern=patronToken, ngram_range=(2, 2))
    matrizTfidfBi = vectorizadorTfidfBi.fit_transform(textos)
    with open(f'./{directorioSalida}/pubmed_{columna}_tfidf_bigramas.pkl', 'wb') as f:
        pickle.dump(matrizTfidfBi, f)
    with open(f'./{directorioSalida}/pubmed_{columna}_vectorizador_tfidf_bigramas.pkl', 'wb') as f:
        pickle.dump(vectorizadorTfidfBi, f)


## ArXiv

In [2]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import pandas as pd
import pickle
import os

archivoEntrada = "../normalization/arxiv_normalized_corpus.csv"
directorioSalida = "ArXiv"
os.makedirs(directorioSalida, exist_ok=True)

datosArxiv = pd.read_csv(archivoEntrada)
patronToken = r'(?u)\w+|[^\w\s]'
columnasTexto = ['Title', 'Abstract']

for columna in columnasTexto:
    textos = datosArxiv[columna].fillna("").astype(str).tolist()

    vectorizadorFreqUni = CountVectorizer(token_pattern=patronToken, ngram_range=(1, 1))
    matrizFreqUni = vectorizadorFreqUni.fit_transform(textos)
    with open(f'./{directorioSalida}/arxiv_{columna}_frecuencia_unigramas.pkl', 'wb') as f:
        pickle.dump(matrizFreqUni, f)
    with open(f'./{directorioSalida}/arxiv_{columna}_vectorizador_frecuencia_unigramas.pkl', 'wb') as f:
        pickle.dump(vectorizadorFreqUni, f)

    vectorizadorFreqBi = CountVectorizer(token_pattern=patronToken, ngram_range=(2, 2))
    matrizFreqBi = vectorizadorFreqBi.fit_transform(textos)
    with open(f'./{directorioSalida}/arxiv_{columna}_frecuencia_bigramas.pkl', 'wb') as f:
        pickle.dump(matrizFreqBi, f)
    with open(f'./{directorioSalida}/arxiv_{columna}_vectorizador_frecuencia_bigramas.pkl', 'wb') as f:
        pickle.dump(vectorizadorFreqBi, f)

    vectorizadorBinUni = CountVectorizer(binary=True, token_pattern=patronToken, ngram_range=(1, 1))
    matrizBinUni = vectorizadorBinUni.fit_transform(textos)
    with open(f'./{directorioSalida}/arxiv_{columna}_binaria_unigramas.pkl', 'wb') as f:
        pickle.dump(matrizBinUni, f)
    with open(f'./{directorioSalida}/arxiv_{columna}_vectorizador_binaria_unigramas.pkl', 'wb') as f:
        pickle.dump(vectorizadorBinUni, f)

    vectorizadorBinBi = CountVectorizer(binary=True, token_pattern=patronToken, ngram_range=(2, 2))
    matrizBinBi = vectorizadorBinBi.fit_transform(textos)
    with open(f'./{directorioSalida}/arxiv_{columna}_binaria_bigramas.pkl', 'wb') as f:
        pickle.dump(matrizBinBi, f)
    with open(f'./{directorioSalida}/arxiv_{columna}_vectorizador_binaria_bigramas.pkl', 'wb') as f:
        pickle.dump(vectorizadorBinBi, f)

    vectorizadorTfidfUni = TfidfVectorizer(token_pattern=patronToken, ngram_range=(1, 1))
    matrizTfidfUni = vectorizadorTfidfUni.fit_transform(textos)
    with open(f'./{directorioSalida}/arxiv_{columna}_tfidf_unigramas.pkl', 'wb') as f:
        pickle.dump(matrizTfidfUni, f)
    with open(f'./{directorioSalida}/arxiv_{columna}_vectorizador_tfidf_unigramas.pkl', 'wb') as f:
        pickle.dump(vectorizadorTfidfUni, f)

    vectorizadorTfidfBi = TfidfVectorizer(token_pattern=patronToken, ngram_range=(2, 2))
    matrizTfidfBi = vectorizadorTfidfBi.fit_transform(textos)
    with open(f'./{directorioSalida}/arxiv_{columna}_tfidf_bigramas.pkl', 'wb') as f:
        pickle.dump(matrizTfidfBi, f)
    with open(f'./{directorioSalida}/arxiv_{columna}_vectorizador_tfidf_bigramas.pkl', 'wb') as f:
        pickle.dump(vectorizadorTfidfBi, f)
