In [1]:
import nltk
import pandas as pd
import numpy as np
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
df = pd.read_csv('../../data/izq_econ_news.csv')

In [3]:
df.shape

(144, 7)

In [4]:
df.head(5)

Unnamed: 0.1,Unnamed: 0,date,flyer,lead,headline,body,url
0,0,\nLunes 30 de noviembre,SENADO,El objetivo sería “proteger a la Argentina de ...,¿Qué dice la ley de “sostenibilidad de la deud...,Este lunes los senadores dieron media sanción ...,https://www.laizquierdadiario.com/Economia/Que...
1,1,\nLunes 30 de noviembre,ECONOMÍA,"El ministro de Trabajo, Claudio Moroni, confir...",Doble indemnización: pese a no frenar los desp...,El Gobierno nacional prorrogó hasta el próximo...,https://www.laizquierdadiario.com/Economia/Dob...
2,2,\nDomingo 29 de noviembre,AJUSTAN AL SALARIO,El último tramo del aumento se pagaría con el ...,Paritarias estatales de Jujuy: ¿qué cambia con...,El viernes 27/11 por la tarde el Gobierno lueg...,https://www.laizquierdadiario.com/Economia/Par...
3,3,\nSábado 28 de noviembre,JUBILACIONES,El proyecto del Ejecutivo para una nueva ley d...,Escándalo: el Gobierno quiere descontar a los ...,"En un nuevo intento de robo a los jubilados, e...",https://www.laizquierdadiario.com/Economia/Esc...
4,4,\nSábado 28 de noviembre,A PEDIDO DEL FMI,Se oficializa el ataque a las jubilaciones y p...,Ajuste a jubilados: el Gobierno envió al Congr...,El Ejecutivo giró este sábado al Congreso su p...,https://www.laizquierdadiario.com/Economia/Aju...


In [5]:
df.flyer.values

array(['SENADO', 'ECONOMÍA', 'AJUSTAN AL SALARIO ', 'JUBILACIONES',
       'A PEDIDO DEL FMI', 'CONSUMO', 'CIERRE DE MINA AGUILAR S.A.',
       'BRECHA CAMBIARIA', 'INFORME INDEC', 'OPTIMISMO EN LOS “MERCADOS”',
       'INFORME INDEC', 'LEVANTARLA EN PALA',
       'SEMANA ECONÓMICA EN CLAVES', 'INFLACIÓN', 'ESTADOS UNIDOS',
       'INFLACION', 'SOCIEDAD', 'AJUSTE A PEDIDO DEL FMI ',
       'TARIFAS E INFLACIÓN', 'CHANTAJE EMPRESARIAL ', 'TRIBUNA ABIERTA',
       'TUCUMÁN', 'CUMBRE DEL G20', 'PRECIOS', 'COMUNICADO DE PRENSA',
       'DOBLE DISCURSO', 'LICITACIÓN', 'AJUSTE',
       'ESTIMACIÓN JUNTA INTERNA ATE INDEC', 'INFORME INDEC', 'AJUSTE',
       'ANUNCIO OFICIAL', 'EXPORTACIONES', 'DÓLAR Y BRECHA',
       'CELEBRAN LAS PATRONALES AGRARIAS', 'INFORME INDEC', 'AJUSTE',
       'PRESUPUESTO 2021', 'MULTINACIONALES MINERAS',
       'GANANCIA EMPRESARIA', 'NO AL AJUSTE A PEDIDO DEL FMI',
       'COMERCIO INTERNACIONAL', 'MULTINACIONALES MINERAS', 'ACTUALIDAD',
       'ENTREVISTA', 'CONS

Tópicos

In [6]:
df[df.flyer.str.contains('DEUDA|Deuda|BONO', na=False)].shape

(11, 7)

In [7]:
df[df.flyer.str.contains('BRECHA|CAMBI|RESERV', na=False)].shape

(13, 7)

In [8]:
df[df.flyer.str.contains('INFLA|INDEC|SUBA|PRECIO', na=False)].shape

(16, 7)

Corpus

In [9]:
df_inflacion = df.loc[df.flyer.str.contains('INFLA|INDEC|SUBA|PRECIO', na=False),'lead'].values

In [10]:
df_cambio = df.loc[df.flyer.str.contains('BRECHA|CAMBI|RESERV', na=False), 'lead'].values

In [11]:
corpus = list(df_inflacion) + list(df_cambio)

Tokenizer

In [12]:
import re
import unidecode

In [13]:
stopwords_sp = stopwords.words('spanish')
stopwords_sp.append('mas')
stopwords_sp.append('ano')
stopwords_sp.append('anos')
stopwords_sp.append('mes')
stopwords_sp.append('asi')
stopwords_sp.append('casi')
stopwords_sp.append('dos')
stopwords_sp.append('vez')

In [14]:
def tokenizer(texto):
       
    alphanumeric = re.sub(r'([^\s\w]|_)+', '', texto).lower()
    no_accents = unidecode.unidecode(alphanumeric)
    
    tockens = word_tokenize(no_accents)
    
    tockens_clean = [tocken for tocken in tockens if tocken not in stopwords_sp]
    # tockens_clean = [tocken for tocken in tockens if tocken not in stopwords_sp and tocken.isalpha()]

    terminos = tockens_clean

    return terminos

In [20]:
tokens = tokenizer(df_inflacion[0] + df_inflacion[1])

In [21]:
tokens

['exportaciones',
 'derrumbaron',
 '216',
 'respecto',
 'mismo',
 'anterior',
 'baja',
 'pronunciada',
 'ultimos',
 'cinco',
 'exportadores',
 'esperan',
 'tipo',
 'cambio',
 'altoel',
 'estimador',
 'mensual',
 'actividad',
 'economica',
 'emae',
 'acumula',
 'baja',
 '119',
 'nueve',
 'meses',
 'estima',
 'economia',
 'caera',
 '116',
 'interanual']

In [22]:
nltk.pos_tag(tokens)

[('exportaciones', 'NNS'),
 ('derrumbaron', 'VBD'),
 ('216', 'CD'),
 ('respecto', 'NN'),
 ('mismo', 'NN'),
 ('anterior', 'JJ'),
 ('baja', 'NN'),
 ('pronunciada', 'NN'),
 ('ultimos', 'JJ'),
 ('cinco', 'NN'),
 ('exportadores', 'NNS'),
 ('esperan', 'VBP'),
 ('tipo', 'JJ'),
 ('cambio', 'NN'),
 ('altoel', 'NN'),
 ('estimador', 'VBP'),
 ('mensual', 'JJ'),
 ('actividad', 'NN'),
 ('economica', 'NN'),
 ('emae', 'VBP'),
 ('acumula', 'NN'),
 ('baja', 'NN'),
 ('119', 'CD'),
 ('nueve', 'JJ'),
 ('meses', 'NNS'),
 ('estima', 'VBP'),
 ('economia', 'JJ'),
 ('caera', 'NN'),
 ('116', 'CD'),
 ('interanual', 'JJ')]