In [26]:
# CountVectorizer to create the vector 
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

# Must Libraries
import numpy as np
import pandas as pd

# Tools
import re
import os.path
import sys
import pickle

## Create Search Pattern for Corpus Words

We must make a regex that includes words, punctuation marks, numbers, decimal numbers, percentages, colons, double quotation marks, mathematical symbols.

In [27]:
oracion = "¡ Hola ! Este es-un ejemplo 123 : de regex para buscar palabras y números como 45.67 89.9% , . ? ¿ -hola"

# Patrón de regex
# [\w.-]+ sirve palabras, números y palabras compuestas (con guión)
# \d+\.?\d*\%? números decimales
regex = r'[\w.]+-?%?\w*|\w+\n|\.|\¿|\?|:|\¡|\!|\,|\;'
patron = regex
resultados = re.findall(patron, oracion)
print(resultados)

['¡', 'Hola', '!', 'Este', 'es-un', 'ejemplo', '123', ':', 'de', 'regex', 'para', 'buscar', 'palabras', 'y', 'números', 'como', '45.67', '89.9%', ',', '.', '?', '¿', 'hola']


In [28]:
df = pd.read_csv("NLP_functions/Corpus.csv")
df["Titulo_Contenido"] = df["Título"].str.cat(df["Contenido"], sep=' ')
df.head()

Unnamed: 0,Fuente,Título,Contenido,Sección,Url,Fecha,Titulo_Contenido
0,La Jornada,Carlos Fernández-Vega : México SA,Práctica común tiempo campaña electoral – ...,Economía,https://www.jornada.com.mx/2024/03/04/opinion/...,04/03/2024,Carlos Fernández-Vega : México SA Práctica com...
1,La Jornada,"sector energético , cada cuatro empresa atraíd...",cada cuatro firma haber arribar México relocal...,Economía,https://www.jornada.com.mx/2024/03/04/economia...,04/03/2024,"sector energético , cada cuatro empresa atraíd..."
2,La Jornada,"2023 , inversión mexicano extranjero disminuir...","año pasado , mexicano invertir 6 mil 429 milló...",Economía,https://www.jornada.com.mx/2024/03/04/economia...,04/03/2024,"2023 , inversión mexicano extranjero disminuir..."
3,La Jornada,Enrique Galván Ochoa : Dinero,haber persona interesado haber rompimiento...,Economía,https://www.jornada.com.mx/2024/03/04/opinion/...,04/03/2024,Enrique Galván Ochoa : Dinero haber persona in...
4,La Jornada,congresista EU presentar acuerdo financiamient...,Washington . negociador Congreso Estados Unido...,Economía,https://www.jornada.com.mx/2024/03/04/economia...,04/03/2024,congresista EU presentar acuerdo financiamient...


### Binarized Unigram CountVectorizer for title

In [29]:
unigramVocabulary = CountVectorizer(binary=True, token_pattern=regex).fit(df['Título'])
unigramMatrix = unigramVocabulary.transform(df['Título'])
unigramMatrix.toarray()

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 1, 0, ..., 0, 0, 0],
       [0, 1, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

In [30]:
vectorizador_tfidf = TfidfVectorizer(token_pattern=regex)

#.fit() just returns the vocabulary
vocabulary = vectorizador_tfidf.fit(df['Título'])
matrix = vocabulary.transform(df['Contenido'])
matrix.toarray()

array([[0.        , 0.386663  , 0.41226535, ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.45059511, 0.24021532, ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.41866121, 0.35710582, ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.        , 0.29215211, 0.31149655, ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.38675419, ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.43490944, ..., 0.        , 0.        ,
        0.        ]])

In [31]:
vectorizador_tfidf.get_feature_names_out()

array(['!', ',', '.', ..., 'él', 'ético', 'éxito'], dtype=object)

In [32]:
vectorizador = CountVectorizer(binary=True, token_pattern=regex)
vectorizador.fit(df["Titulo_Contenido"])
print(len(vectorizador.get_feature_names_out()))

3631


## File Pickles

In [33]:
if (os.path.exists('NLP_functions/pickles_files/title_binary_vocabulary.pkl')):
	with open ('NLP_functions/pickles_files/title_binary_vocabulary.pkl','rb') as pkl_file:
		X = pickle.load(pkl_file)
else:
	with open ('NLP_functions/pickles_files/title_binary_vocabulary.pkl','wb') as pkl_file:
		vectorizador_binario = CountVectorizer(binary=True, token_pattern=regex)
		X = vectorizador_binario.fit(df['Título'])
		pickle.dump(X, pkl_file)

In [34]:
with open ('NLP_functions/pickles_files/title_binary_vocabulary.pkl','rb') as pkl_file:
		X = pickle.load(pkl_file)
print(X.get_feature_names_out())

['!' ',' '.' ... 'él' 'ético' 'éxito']
