In [1]:
import json
import joblib
import pandas as pd

from utils.tokenizers import tokenizador
from sklearn.feature_extraction.text import CountVectorizer
from typing import List

In [2]:
economy = json.load(open("economy-articles.json", encoding="utf-8"))
society = json.load(open("society-articles.json", encoding="utf-8"))
world = json.load(open("world-articles.json", encoding="utf-8"))

In [3]:
df_economy = pd.DataFrame.from_dict(economy)
df_society = pd.DataFrame.from_dict(society)
df_world = pd.DataFrame.from_dict(world)
df_news = df_economy.append(df_society).append(df_world)

df_news

Unnamed: 0,section,date,deck,title,lead,tags,author,article
0,economy,2021-09-02,"Por exportaciones, ingresaron 3000 millones en...",Los agro-dólares alcanzan el récord del siglo,La cámara CIARA CEC informó además que en los ...,[],,El boom de precios de los commodities agropecu...
1,economy,2021-09-02,Se busca que la isla desarrolle su sector agro...,Acuerdo con Cuba para transferir tecnología,Los gobiernos avanzan en un plan en el que Arg...,"[Cuba, Jorge Neme, acuerdo comercial]",Natalí Risso,El gobierno avanza en un acuerdo comercial de ...
2,economy,2021-09-02,Programa para generar empleo entre las mujeres,Recuperación con igualdad de género,"Las mujeres perdieron 1,7 millones de puestos ...",[],Valentina Castro,El Ministerio de Economía presentó este martes...
3,economy,2021-09-02,La disputa por fortalecer la estructura produc...,"Recuperación industrial, un mensaje de campaña",Desde el gobierno subrayan la importancia de s...,"[Industria, Elecciones 2021]",Natalí Risso,"Con los números de reactivación a favor, el se..."
4,economy,2021-09-02,"El valor del m2 retrocedió 7,9 por ciento en e...",Cae el precio de las propiedades,Las escrituraciones treparon respecto del peor...,"[Propiedades, Venta de propiedades]",Valentina Castro,La caída en los valores de ventas de las propi...
...,...,...,...,...,...,...,...,...
3295,world,2020-09-13,Según estadísticas elaboradas por la universid...,"Coronavirus: Más de 28,7 millones de contagiad...",,"[coronavirus, Covid-19, pandemia]",,La cantidad de personas fallecidas en el mundo...
3296,world,2020-09-13,Bajo su liderazgo Turquía se convirtió en el a...,"Recep Tayyip Erdogan, el nuevo Solimán el Magn...",El jefe del Estado turco se instaló cómodament...,"[Turquía, Recep Tayyip Erdogan, Europa]",Eduardo Febbro,Desde París. Cuando varios jugadores hacen des...
3297,world,2020-09-13,La reacción de los especialistas ante esta nue...,Coronavirus en Gran Bretaña: Boris Johnson lan...,El plan Moonshot requiere efectuar 10 millones...,[],Marcelo Justo,"Desde Londres .A falta de vacuna, con el temib..."
3298,world,2020-09-13,La guerrilla paraguaya dio un plazo de ocho dí...,El EPP exigió la liberación de dos de sus líde...,"Además, el EPP pidió a la familia de Sánchez q...","[Paraguay, Ejército del Pueblo Paraguayo (EPP)...",,El Ejército del Pueblo Paraguayo (EPP) exigió...


In [4]:
df_news['final'] = df_news['deck'].astype(str) + " " + df_news['title'].astype(str)  + " " + df_news['lead'].astype(str)  + " " + df_news['article'].astype(str)

In [5]:
def leer_stopwords(path: str) -> List[str]:
    with open(path, "rt") as stopwords_file:
        return [stopword for stopword in [stopword.strip().lower() for stopword in stopwords_file] if len(stopword) > 0]
    
mi_lista_stopwords = leer_stopwords("utils/stopwords_es_sin_acentos.txt")

In [6]:
vectorizer = CountVectorizer(stop_words=mi_lista_stopwords, tokenizer=tokenizador(),
                             lowercase=True, strip_accents='unicode', decode_error='ignore',
                             ngram_range=(1, 2), min_df=3, max_df=0.8)

In [7]:
vectores = vectorizer.fit_transform(df_news['final'])
features_names = vectorizer.get_feature_names()

In [8]:
joblib.dump(vectores, "vectores.joblib")
joblib.dump(df_news['section'], "targets.joblib")
joblib.dump(features_names, "features.joblib")

['features.joblib']