In [1]:
%load_ext watermark
%watermark

Last updated: 2022-01-24T15:30:02.706525-03:00

Python implementation: CPython
Python version       : 3.8.12
IPython version      : 7.29.0

Compiler    : MSC v.1916 64 bit (AMD64)
OS          : Windows
Release     : 10
Machine     : AMD64
Processor   : Intel64 Family 6 Model 158 Stepping 10, GenuineIntel
CPU cores   : 12
Architecture: 64bit



In [2]:
import pandas as pd
noticias = pd.read_csv('datasets/noticias.csv')
noticias.head()

Unnamed: 0,descripcion,categoria
0,"Aunque parezca mentira, las emisiones de dióxi...",cultura
1,Hubo un proyecto impulsado por la Unión Europe...,cultura
2,China ha confirmado la conclusión con éxito de...,tecnología
3,"En su fructífera carrera como humorista, actor...",cultura
4,Tras dos años de negociación entre la instituc...,cultura


In [3]:
noticias.shape

(16495, 2)

In [4]:
noticias.categoria.value_counts()

cultura       9001
tecnología    4198
ocio          3296
Name: categoria, dtype: int64

In [5]:
# construye un vector por cada descripcion
from sklearn.feature_extraction.text import TfidfVectorizer

In [6]:
# dict de stopwords
# https://github.com/stopwords-iso/stopwords-es

In [7]:
import json 
with open ('datasets/stopwords_es.json') as fname:
    stopwords_es = json.load(fname)

In [8]:
len(stopwords_es)

732

In [9]:
# construccion del vectorizador
vectorizador = TfidfVectorizer(strip_accents='unicode', stop_words=stopwords_es)

In [10]:
vectorizador

TfidfVectorizer(stop_words=['0', '1', '2', '3', '4', '5', '6', '7', '8', '9',
                            '_', 'a', 'actualmente', 'acuerdo', 'adelante',
                            'ademas', 'ademÃ¡s', 'adrede', 'afirmÃ³', 'agregÃ³',
                            'ahi', 'ahora', 'ahÃ\xad', 'al', 'algo', 'alguna',
                            'algunas', 'alguno', 'algunos', 'algÃºn', ...],
                strip_accents='unicode')

In [11]:
# resultado de la vectorizacion
ms = vectorizador.fit_transform(noticias.descripcion)



In [12]:
# crea una matriz con mismo num de filas, 
# pero un gran num de columnas, que representan a cada palabra
ms.shape

(16495, 59952)

In [13]:
noticias.shape

(16495, 2)

In [14]:
# se interpreta de la siguiente forma: en la fila 0, columna 25003, se encuentra el valor 0.2064...
# es una matriz sparse (dispersa)
print(ms)

  (0, 25003)	0.20646849949017032
  (0, 42353)	0.12098270076249901
  (0, 7113)	0.18617962900617258
  (0, 23697)	0.20152756703885846
  (0, 20224)	0.21283846931034292
  (0, 39408)	0.1488387187872587
  (0, 46342)	0.11200473254998575
  (0, 31946)	0.11714075343588001
  (0, 23417)	0.10305267703099465
  (0, 13579)	0.1549369993817717
  (0, 45450)	0.12242728210819159
  (0, 9850)	0.3335893104245706
  (0, 22173)	0.22354574580342873
  (0, 21196)	0.21283846931034292
  (0, 50942)	0.20152756703885846
  (0, 55109)	0.1667946552122853
  (0, 20240)	0.17443024915712568
  (0, 1731)	0.19407726617604626
  (0, 4575)	0.06378000565191391
  (0, 812)	0.11255537108035345
  (0, 58023)	0.14309251962667677
  (0, 55338)	0.20378201599818133
  (0, 25006)	0.20152756703885846
  (0, 2208)	0.20646849949017032
  (0, 6534)	0.20646849949017032
  :	:
  (16494, 49162)	0.22045065666541835
  (16494, 12094)	0.22045065666541835
  (16494, 28660)	0.1727600813376245
  (16494, 11971)	0.18682121480155262
  (16494, 15768)	0.182059147405816

In [15]:
# Otras fuentes de stopwords
#import nltk 
#nltk.download('stopwords')
#from nltk.corpus import stopwords 
#sw_nltk = stopwords.words('spanish') 
#print(sw_nltk)

In [16]:
# rasbt.github.io/mlxtend
#!pip install mlxtend

In [17]:
# crear un pipeline para encapsular pasos
from sklearn.pipeline import make_pipeline
# de disperso a denso
from mlxtend.preprocessing import DenseTransformer

In [18]:
# naive bayes
from sklearn.naive_bayes import GaussianNB, BernoulliNB, MultinomialNB

In [19]:
# crear un pipeline basado en NB Gauss:
# entregar el vectorizador (no el 'ms' pq es solo una matriz con numeros)
# genera una matriz sparse con los ceros que faltan
# el GaussianNB lo toma y genera los pronosticos
pipeline_gauss = make_pipeline(vectorizador, DenseTransformer(), GaussianNB())

In [20]:
pipeline_gauss

Pipeline(steps=[('tfidfvectorizer',
                 TfidfVectorizer(stop_words=['0', '1', '2', '3', '4', '5', '6',
                                             '7', '8', '9', '_', 'a',
                                             'actualmente', 'acuerdo',
                                             'adelante', 'ademas', 'ademÃ¡s',
                                             'adrede', 'afirmÃ³', 'agregÃ³',
                                             'ahi', 'ahora', 'ahÃ\xad', 'al',
                                             'algo', 'alguna', 'algunas',
                                             'alguno', 'algunos', 'algÃºn', ...],
                                 strip_accents='unicode')),
                ('densetransformer', DenseTransformer()),
                ('gaussiannb', GaussianNB())])

In [21]:
# dividir en conjunto de entrenamiento y prueba
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(noticias.descripcion, 
                                                    noticias.categoria, 
                                                    test_size=0.3, 
                                                    random_state=42)

In [22]:
# ahora pedimos que el pipeline haga la transformacion
# entrenamiento
pipeline_gauss.fit(X=noticias.descripcion, y=noticias.categoria)

Pipeline(steps=[('tfidfvectorizer',
                 TfidfVectorizer(stop_words=['0', '1', '2', '3', '4', '5', '6',
                                             '7', '8', '9', '_', 'a',
                                             'actualmente', 'acuerdo',
                                             'adelante', 'ademas', 'ademÃ¡s',
                                             'adrede', 'afirmÃ³', 'agregÃ³',
                                             'ahi', 'ahora', 'ahÃ\xad', 'al',
                                             'algo', 'alguna', 'algunas',
                                             'alguno', 'algunos', 'algÃºn', ...],
                                 strip_accents='unicode')),
                ('densetransformer', DenseTransformer()),
                ('gaussiannb', GaussianNB())])

In [27]:
# realizar la prediccion
pipeline_gauss.predict(noticias.descripcion)

array(['cultura', 'cultura', 'tecnología', ..., 'cultura', 'tecnología',
       'ocio'], dtype='<U10')

In [28]:
# cross validation
from sklearn.model_selection import cross_val_score
# f-1 score
from sklearn.metrics import f1_score

In [33]:
def f1_curso(modelo, X, y):
    preds = modelo.predict(X)
    return f1_score(y, preds, average='micro')

In [35]:
cross_val_score(pipeline_gauss, 
                noticias.descripcion, 
                noticias.categoria, 
                scoring=f1_curso)



array([0.62988784, 0.64352834, 0.64807517, 0.63776902, 0.63504092])

In [None]:
# BernoulliNB

In [36]:
# construccion del vectorizador
# max_features: limitar cantidad de columnas
vectorizador = TfidfVectorizer(strip_accents='unicode', stop_words=stopwords_es, max_features=500)

In [37]:
# bernoulli pipeline
pipeline_bernoulii = make_pipeline(vectorizador, DenseTransformer(), BernoulliNB())

In [38]:
cross_val_score(pipeline_bernoulii, 
                noticias.descripcion, 
                noticias.categoria, 
                scoring=f1_curso)



array([0.66595938, 0.66110943, 0.66414065, 0.66565626, 0.65807821])

In [39]:
# nultinomial pipeline
pipeline_multinomial = make_pipeline(vectorizador, DenseTransformer(), MultinomialNB())

In [40]:
cross_val_score(pipeline_multinomial, 
                noticias.descripcion, 
                noticias.categoria, 
                scoring=f1_curso)



array([0.68778418, 0.67626554, 0.67262807, 0.68475296, 0.66717187])

In [41]:
# los resultados anteriores indican que nuestro modelo acierta aprox el 66% de las veces.
# Aun se puede seguir mejorando