### data set

Spanish News Classification
Natural Language Processing in Spanish

https://www.kaggle.com/datasets/kevinmorgado/spanish-news-classification



!pip install -U scikit-learn

In [1]:
import pandas as pd
import numpy as np

In [3]:
df=pd.read_csv('datasets/df_total.csv')

In [4]:
df

Unnamed: 0,url,news,Type
0,https://www.larepublica.co/redirect/post/3201905,Durante el foro La banca articulador empresari...,Otra
1,https://www.larepublica.co/redirect/post/3210288,El regulador de valores de China dijo el domin...,Regulaciones
2,https://www.larepublica.co/redirect/post/3240676,En una industria históricamente masculina como...,Alianzas
3,https://www.larepublica.co/redirect/post/3342889,Con el dato de marzo el IPC interanual encaden...,Macroeconomia
4,https://www.larepublica.co/redirect/post/3427208,Ayer en Cartagena se dio inicio a la versión n...,Otra
...,...,...,...
1212,https://www.bbva.com/es/como-lograr-que-los-in...,En la vida de toda empresa emergente llega un ...,Innovacion
1213,https://www.bbva.com/es/podcast-como-nos-afect...,La espiral alcista de los precios continúa y g...,Macroeconomia
1214,https://www.larepublica.co/redirect/post/3253735,Las grandes derrotas nacionales son experienci...,Alianzas
1215,https://www.bbva.com/es/bbva-y-barcelona-healt...,BBVA ha alcanzado un acuerdo de colaboración c...,Innovacion


In [5]:
df['news'][3]

'Con el dato de marzo el IPC interanual encadena su decimoquinta tasa positiva consecutiva. La inflación publicada por el INE se ha mantenido igual respecto al avance del 30 de marzo y se sitúa 22 puntos por encima del dato de febrero que ascendió al 76.De esos 22 puntos de diferencia la mayor parte la colocó el grupo de la vivienda 09 puntos por la subida de la electricidad y el del transporte 07 puntos por el alza de los carburantes. También impulsaron el IPC de marzo el aumento de los precios de la restauración y los servicios de alojamiento y al encarecimiento generalizado de los alimentos especialmente del pescado y el marisco de la carne de las legumbres y hortalizas y de la leche el queso y los huevos.Sin tener en cuenta la rebaja del impuesto especial sobre la electricidad y las variaciones sobre otros impuestos el IPC interanual alcanzó en marzo 107 nueve décimas más que la tasa general del 98. Así lo refleja el IPC a impuestos constantes que el INE también publica en el marco

In [12]:
# separamos los datos en variables de entrada y salida

X = df['news']
Y = df['Type']


In [14]:
# mostrar la cantidad de datos por clase
print(df['Type'].value_counts())
print(Y.value_counts())

Type
Macroeconomia     340
Alianzas          247
Innovacion        195
Regulaciones      142
Sostenibilidad    137
Otra              130
Reputacion         26
Name: count, dtype: int64
Type
Macroeconomia     340
Alianzas          247
Innovacion        195
Regulaciones      142
Sostenibilidad    137
Otra              130
Reputacion         26
Name: count, dtype: int64


In [15]:
# separamos nuestros datos en entrenamiento y prueba
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)


In [16]:
X_test

541     En este 'podcast' de 'Píldoras Agile', Ricardo...
259     Cada vez más usuarios optan por alquilar una b...
43      Cerrejón Drummond y Cerro Matoso fueron las em...
1006    En un contexto complejo y retador como el pres...
584     La empresa que funciona como el Airbnb del cow...
                              ...                        
420     BBVA Allianz Seguros ha registrado durante los...
243     Así lo ha confirmado hoy la oficina comunitari...
59      Tras la revelación del Departamento Administra...
1072    El sector avícola está agitado por el impacto ...
63      Desde este lunes está al aire y funcionando Ub...
Name: news, Length: 244, dtype: object

In [17]:
X_train

432     En aras de seguir promoviendo la utilización d...
277     El suprarreciclaje es transformar un desecho e...
721     Como cambiarle a un coche su motor diésel por ...
852     El Consejo de Administración de Bbva acordó la...
678     En México el efectivo continúa siendo uno de l...
                              ...                        
1044    Teniendo en cuenta el Octavo Panel de Reputaci...
1095    En la actual coyuntura geopolítica, marcada po...
1130    En un mundo tan hiperconectado como el actual,...
860     El Acuerdo de Apertura Contra la Inflación y l...
1126    NuHome es una proptech que logró recaudar US75...
Name: news, Length: 973, dtype: object

In [18]:
# vamos a vectorizar los datos de entrada
# es decir vamos a convertir el texto en vectores de palabras
# vamos a contar el numero de veces que aparece cada palabra en el texto

from sklearn.feature_extraction.text import CountVectorizer

In [19]:
vectorizer = CountVectorizer()

In [20]:
X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)

In [21]:
X_train_vectorized

<973x26512 sparse matrix of type '<class 'numpy.int64'>'
	with 233764 stored elements in Compressed Sparse Row format>

In [22]:
X_train_vectorized.dense=X_train_vectorized.toarray()
print(X_train_vectorized.dense)

[[0 2 0 ... 0 0 0]
 [0 1 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 2 0 ... 0 0 0]]


In [23]:
# crear un modelo de clasificacion multinomial
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score

In [24]:
model = MultinomialNB()
model.fit(X_train_vectorized, y_train)



In [25]:
# calculamos la presicion del modelo
y_pred = model.predict(X_test_vectorized)
accuracy_score(y_test, y_pred)
print(accuracy_score(y_test, y_pred))

0.7991803278688525


-----
## Stemming


In [26]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer

In [27]:
nltk.download('stopwords')
nltk.download('punkt')


[nltk_data] Downloading package stopwords to
[nltk_data]     /home/codespace/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /home/codespace/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [28]:
stemmer = SnowballStemmer('spanish')
stop_words = set(stopwords.words('spanish'))


In [29]:
def tokenize_and_stem(text):
    tokens = word_tokenize(text.lower())
    stems=[stemmer.stem(token) for token in tokens if token.isalpha()]
    return ' '.join(stems)

In [30]:
df['news_stem'] = df['news'].apply(tokenize_and_stem)

In [31]:
print(df['news'][3])

Con el dato de marzo el IPC interanual encadena su decimoquinta tasa positiva consecutiva. La inflación publicada por el INE se ha mantenido igual respecto al avance del 30 de marzo y se sitúa 22 puntos por encima del dato de febrero que ascendió al 76.De esos 22 puntos de diferencia la mayor parte la colocó el grupo de la vivienda 09 puntos por la subida de la electricidad y el del transporte 07 puntos por el alza de los carburantes. También impulsaron el IPC de marzo el aumento de los precios de la restauración y los servicios de alojamiento y al encarecimiento generalizado de los alimentos especialmente del pescado y el marisco de la carne de las legumbres y hortalizas y de la leche el queso y los huevos.Sin tener en cuenta la rebaja del impuesto especial sobre la electricidad y las variaciones sobre otros impuestos el IPC interanual alcanzó en marzo 107 nueve décimas más que la tasa general del 98. Así lo refleja el IPC a impuestos constantes que el INE también publica en el marco 

In [32]:
print(df['news_stem'][3])

con el dat de marz el ipc interanual encaden su decimoquint tas posit consecut la inflacion public por el ine se ha manten igual respect al avanc del de marz y se situ punt por encim del dat de febrer que ascend al esos punt de diferent la mayor part la coloc el grup de la viviend punt por la sub de la electr y el del transport punt por el alza de los carbur tambien impuls el ipc de marz el aument de los preci de la restaur y los servici de aloj y al encarec generaliz de los aliment especial del pesc y el marisc de la carn de las legumbr y hortaliz y de la lech el ques y los ten en cuent la rebaj del impuest especial sobr la electr y las variacion sobr otros impuest el ipc interanual alcanz en marz nuev decim mas que la tas general del asi lo reflej el ipc a impuest constant que el ine tambien public en el marc de esta inflacion subyacent sin aliment no elabor ni product energet aument en marz cuatr decim hast su valor mas alto desd septiembr de de este mod la subyacent se situ mas de 

In [33]:
# probamos el modelo con los datos procesados
X = df['news_stem']
Y = df['Type']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
vectorizer = CountVectorizer()

X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)

model = MultinomialNB()
model.fit(X_train_vectorized, y_train)

y_pred = model.predict(X_test_vectorized)
accuracy_score(y_test, y_pred)
print(accuracy_score(y_test, y_pred))

0.8278688524590164


In [34]:
X_train_vectorized

<973x11905 sparse matrix of type '<class 'numpy.int64'>'
	with 198177 stored elements in Compressed Sparse Row format>

-----
### Lemmatization


In [35]:
import spacy
nlp=spacy.load('es_core_news_sm')


In [36]:
def lemmatize(text):
    doc=nlp(text.lower())
    lemmas=[token.lemma_ for token in doc if token.is_alpha]
    return ' '.join(lemmas)

In [37]:
df['news_lemma']=df['news'].apply(lemmatize)

In [38]:
df['news_lemma'][3]

'con el dato de marzo el ipc interanual encadenar su decimoquinto tasa positivo consecutivo el inflación publicado por el ine él haber mantener igual respecto al avance del de marzo y él situar punto por encima del dato de febrero que ascender al ese punto de diferencia el mayor parte él colocar el grupo de el vivienda punto por el subida de el electricidad y el del transporte punto por el alza de el carburante también impulsar el ipc de marzo el aumento de el precio de el restauración y el servicio de alojamiento y al encarecimiento generalizado de el alimento especialmente del pescado y el marisco de el carne de el legumbr y hortaliza y de el leche el queso y el tener en cuenta el rebaja del impuesto especial sobre el electricidad y el variación sobre otro impuesto el ipc interanual alcanzar en marzo nueve décima más que el tasa general del así él reflejar el ipc a impuesto constante que el ine también publicar en el marco de este inflación subyacente sin alimento no elaborado ni pro

In [39]:
# vamos a probar el modelo con los datos lematizados
X = df['news_lemma']
Y = df['Type']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
vectorizer = CountVectorizer()

X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)

model = MultinomialNB()
model.fit(X_train_vectorized, y_train)

y_pred = model.predict(X_test_vectorized)
accuracy_score(y_test, y_pred)
print(accuracy_score(y_test, y_pred))


0.8237704918032787


In [40]:
X_train_vectorized

<973x16556 sparse matrix of type '<class 'numpy.int64'>'
	with 193336 stored elements in Compressed Sparse Row format>