# Clasificador Naive Bayes de noticias argentinas
El objetivo de este ejercicio es implementar un clasificador de texto utilizando el **clasificador ingenuo de Bayes** sobre el
conjunto de datos *”Noticias Argentinas”* para clasificar cada noticia según su tipo.

Librerías utilizadas:

In [1]:
import pandas as pd
import numpy as np
import nltk
import math

from nltk.corpus import stopwords

## Análisis del dataset

En principio contamos con 164690 tuplas:

In [2]:
df = pd.read_excel("Noticias_argentinas_clean.xlsx")
df

Unnamed: 0,fecha,titular,fuente,categoria
0,2018-12-13 15:49:06,Se van los Melli,,Noticias destacadas
1,2018-12-26 21:21:41,Cantos racistas en el Calcio,,Noticias destacadas
2,2018-12-26 21:21:41,Cantos racistas en el Calcio,,Noticias destacadas
3,2019-01-13 16:35:30,Los que viajan a Uruguay son...,,Noticias destacadas
4,2019-01-13 16:35:30,Los que viajan a Uruguay son...,,Noticias destacadas
...,...,...,...,...
164685,2018-11-26 11:34:11,River Boca: el Gobierno nacional pide â€œinves...,,
164686,2018-11-26 11:34:11,River Boca: el Gobierno nacional pide â€œinves...,,
164687,2018-11-24 22:25:24,Se postergó San Lorenzo Huracán: el resto de l...,,
164688,2018-11-24 22:25:24,Se postergó San Lorenzo Huracán: el resto de l...,,


In [3]:
df['fuente'].unique().shape

(958,)

Al enumerar las categorías nos encontramos con el valor NaN, indicando que hay tuplas sin especificar su categoría:

In [4]:
df['categoria'].unique()

array(['Noticias destacadas', 'Ciencia y Tecnologia', nan, 'Deportes',
       'Entretenimiento', 'Destacadas', 'Actualidad', 'Crítica'],
      dtype=object)

Al contar los valores por cada una (sin vacíos):

In [5]:
print(df.groupby('categoria')['titular'].count())

categoria
Actualidad                   1
Ciencia y Tecnologia      2966
Crítica                      4
Deportes                  2969
Destacadas                2971
Entretenimiento           2961
Noticias destacadas     133864
Name: titular, dtype: int64


Además, al observar el dataset más arriba, podemos ver que existen tuplas que se encuentran repetidas. Teniendo esto en cuenta, contamos nuevamente las noticias:

In [6]:
print(df.groupby('categoria')['titular'].nunique())

categoria
Actualidad                  1
Ciencia y Tecnologia      710
Crítica                     1
Deportes                 1402
Destacadas               1731
Entretenimiento          1199
Noticias destacadas     39491
Name: titular, dtype: int64


## División del conjunto de textos

Utilizamos el método K-Fold para futura cross-validation:

In [7]:
def k_fold_split(df : pd.DataFrame, k : int) -> tuple[pd.DataFrame, pd.DataFrame]:
    if (k < 2) : raise ValueError("k must be >= 2. The value of k was: {}".format(k))
    df         = df.copy()
    df         = df.sample(frac=1)
    df_size    = df.shape[0]
    fold_times = math.ceil(df_size / k)
    train_df   = pd.DataFrame(columns=df.columns)
    test_df    = pd.DataFrame(columns=df.columns)
    for i in range(fold_times):
        curr_fold = df.iloc[i*k:(i+1)*k]
        train_df  = pd.concat([train_df, curr_fold.iloc[0:k-1]])
        test_df   = pd.concat([test_df,  curr_fold.iloc[k-1].to_frame().T]) \
                    if curr_fold.shape[0] >= k else test_df
    return train_df, test_df

Vamos a crear dos conjuntos, uno de entrenamiento y otro de testeo, por lo que nos queda:

In [8]:
k = 2

In [9]:
test_size = df.shape[0] / k
(test_size * (k-1), test_size)

(82345.0, 82345.0)

In [10]:
train_df, test_df = k_fold_split(df, k)

## ❌ BORRAR SECCIÓN
Achico train_df para que no me explote el notebook

In [11]:
original_train_df = train_df
train_df = pd.DataFrame(train_df[:2500])

## Preprocesamiento de los datos

Vamos a expresar los títulos como un array conformado por sus palabras relevantes lematizadas:

In [12]:
nltk.download('stopwords')
stop_words = set(stopwords.words('spanish'))

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [23]:
%%capture
!python -m spacy download es_core_news_md

In [24]:
import spacy

nlp = spacy.load("es_core_news_md")

In [25]:
def preprocess_text(title_string):
  title = nlp(title_string.strip('.,+-#:;¿?¡!"\''))
  lemmas = []
  for tok in title:
    word = tok.lemma_.lower()
    if word not in stop_words:
      lemmas.append(word)
  return lemmas

In [26]:
train_df['titular'] = train_df['titular'].apply(preprocess_text)
train_df.head()

Unnamed: 0,fecha,titular,fuente,categoria
62968,2019-08-07 19:13:35,"[maría, eugenia, vidal, hacer, fuerte, llamado...",infobae,Noticias destacadas
13209,2019-07-05 10:43:00,"[león, ,, animal, compañía, rico, pakistán]",ámbito.com,Noticias destacadas
36497,2018-11-30 17:17:55,"[fortnite, battle, royale, compartir, desafío,...",Diario Depor,Ciencia y Tecnologia
76483,2019-02-20 22:09:35,"[6, motivo, poder, complicar, banco, central, ...",Infobae.com,Noticias destacadas
54281,2019-08-09 00:10:34,"[cuál, ser, historia, detrás, portada, famoso,...",El Intransigente,Noticias destacadas


## Armado de vocabulario

Para empezar creamos un diccionario con todas las palabras utilizadas en los titulares para cada categoría, evitando repetidos en cada set:

In [29]:
categories = train_df['categoria'].unique()
categories

array(['Noticias destacadas', 'Ciencia y Tecnologia', 'Destacadas', nan,
       'Deportes', 'Entretenimiento'], dtype=object)

In [31]:
vocab = {}

for category in categories:
  cat_vocab = set()
  cat_train_df = train_df[train_df['categoria'] == category]
  for title in cat_train_df['titular']:
    cat_vocab.update(title)
  vocab[category] = list(cat_vocab)

In [37]:
categories[1]

'Ciencia y Tecnologia'

In [39]:
vocab[categories[1]][:10]

['cómo',
 'campaña',
 'probabilidad',
 'asteoridar',
 'venta',
 'after',
 'descubrir',
 'furor',
 'ganar',
 'agua']


Próximamente:
*   Iterar titulares y contar la cantidad de titulares que contienen la palabra elegida.
*   Obtener la frecuencia dividiendo la cantidad de apariciones por la cantidad total de titulares.