# Tokenización

Descargar Dataset para prueba: ``https://www.kaggle.com/datasets/kevinmorgado/spanish-news-classification``

In [5]:
# Nos permite hacer modelos
!pip install -U scikit-learn -q
!pip install pandas -q

In [64]:

import pandas as pd

In [65]:
df = pd.read_csv("./Spanish_News_Classification.csv", encoding="UTF-8")

In [66]:
df

Unnamed: 0,url,news,Type
0,https://www.larepublica.co/redirect/post/3201905,Durante el foro La banca articulador empresari...,Otra
1,https://www.larepublica.co/redirect/post/3210288,El regulador de valores de China dijo el domin...,Regulaciones
2,https://www.larepublica.co/redirect/post/3240676,En una industria históricamente masculina como...,Alianzas
3,https://www.larepublica.co/redirect/post/3342889,Con el dato de marzo el IPC interanual encaden...,Macroeconomia
4,https://www.larepublica.co/redirect/post/3427208,Ayer en Cartagena se dio inicio a la versión n...,Otra
...,...,...,...
1212,https://www.bbva.com/es/como-lograr-que-los-in...,En la vida de toda empresa emergente llega un ...,Innovacion
1213,https://www.bbva.com/es/podcast-como-nos-afect...,La espiral alcista de los precios continúa y g...,Macroeconomia
1214,https://www.larepublica.co/redirect/post/3253735,Las grandes derrotas nacionales son experienci...,Alianzas
1215,https://www.bbva.com/es/bbva-y-barcelona-healt...,BBVA ha alcanzado un acuerdo de colaboración c...,Innovacion


In [67]:
df["news"][3]

'Con el dato de marzo el IPC interanual encadena su decimoquinta tasa positiva consecutiva. La inflación publicada por el INE se ha mantenido igual respecto al avance del 30 de marzo y se sitúa 22 puntos por encima del dato de febrero que ascendió al 76.De esos 22 puntos de diferencia la mayor parte la colocó el grupo de la vivienda 09 puntos por la subida de la electricidad y el del transporte 07 puntos por el alza de los carburantes. También impulsaron el IPC de marzo el aumento de los precios de la restauración y los servicios de alojamiento y al encarecimiento generalizado de los alimentos especialmente del pescado y el marisco de la carne de las legumbres y hortalizas y de la leche el queso y los huevos.Sin tener en cuenta la rebaja del impuesto especial sobre la electricidad y las variaciones sobre otros impuestos el IPC interanual alcanzó en marzo 107 nueve décimas más que la tasa general del 98. Así lo refleja el IPC a impuestos constantes que el INE también publica en el marco

In [68]:
# Separamos los datos en variables de entrada y etiquetas
X = df["news"] # var independiente
y = df["Type"] # var dependiente

In [69]:
print(df["Type"].value_counts())

Type
Macroeconomia     340
Alianzas          247
Innovacion        195
Regulaciones      142
Sostenibilidad    137
Otra              130
Reputacion         26
Name: count, dtype: int64


In [70]:
# Dividir la bd en un conjunto de datos de entrenamiento y en otro conjunto de datos para probar el modelo
from sklearn.model_selection import train_test_split

In [71]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [72]:
X_train

935     El banco Bbva y Bancamía hicieron la entrega d...
1173    Países con una alta proporción de exportacione...
1187    De trabajar con datos en un banco a sacar adel...
708     La publicación británica vuelve a reconocer a ...
944     El impacto de la invasión de Ucrania las sanci...
                              ...                        
942     Garanti BBVA ha publicado sus resultados de 20...
1174    Las acciones estadounidenses se desplomaron y ...
750     El Banco de Inglaterra anunció el jueves un in...
642     El 2023 se perfila para ser un año difícil en ...
194     Según las previsiones de BBVA Research las com...
Name: news, Length: 973, dtype: object

In [73]:
X_test

244    Hoy el Departamento Administrativo Nacional de...
960    BBVA en Colombia y el Centro de Estudios Super...
564    El conflicto entre Rusia y Ucrania afecta a la...
521    Como parte de su continuo proceso de digitaliz...
855    Sobre el mediodía el Dane revelará el dato de ...
                             ...                        
910    La reunión de la Reserva Federal que se realiz...
773    El Reino Unido no se unirá a una alianza de pa...
707    Como en cualquier otra decisión importante de ...
665    Las alianzas entre aerolíneas están a la orden...
862    El economista jefe de BBVA México Carlos Serra...
Name: news, Length: 244, dtype: object

In [74]:
y_train

935              Otra
1173             Otra
1187       Innovacion
708     Macroeconomia
944     Macroeconomia
            ...      
942     Macroeconomia
1174    Macroeconomia
750     Macroeconomia
642     Macroeconomia
194     Macroeconomia
Name: Type, Length: 973, dtype: object

In [75]:
y_test

244     Macroeconomia
960     Macroeconomia
564     Macroeconomia
521        Innovacion
855     Macroeconomia
            ...      
910     Macroeconomia
773          Alianzas
707    Sostenibilidad
665          Alianzas
862     Macroeconomia
Name: Type, Length: 244, dtype: object

In [76]:
# Vectoriza los datos con el metodo de contar las palabras
from sklearn.feature_extraction.text import CountVectorizer

In [77]:
vectorizer = CountVectorizer()

***CountVectorizer***

CountVectorizer es una herramienta que convierte texto en una matriz de conteos de palabras. Básicamente, toma un conjunto de textos y cuenta cuántas veces aparece cada palabra en cada texto.
fit_transform

- fit: Aprende el vocabulario (es decir, todas las palabras únicas) de los textos de entrenamiento.
- transform: Convierte los textos en una matriz donde cada fila representa un texto y cada columna representa una palabra del vocabulario. El valor en cada celda es el conteo de la palabra en el texto correspondiente.

In [78]:

X_train_transformed = vectorizer.fit_transform(X_train)
X_test_transformed = vectorizer.transform(X_test)

Ejemplo de Visualización de la matriz

In [79]:
Xtrain_transformed_dense = X_train_transformed.toarray()
Xtrain_transformed_dense

array([[0, 1, 0, ..., 0, 0, 0],
       [0, 4, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

Construyendo un modelo de clasificación para predecir el tipo de noticias.

In [80]:
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

1. Crear el modelo:

    - ``model = MultinomialNB()`` Es una instancia del clasificador MultinomialNB de sklearn. MultinomialNB es un clasificador Naive Bayes para datos distribuidos multinomialmente, comúnmente usado para clasificación de texto (por ejemplo, filtrado de spam, categorización de noticias).


2. Entrenar el Modelo:

    - ``model.fit(X_train_transformed, y_train)`` entrena el modelo usando los datos de entrenamiento.
    - ``X_train_transformed`` son las características de entrenamiento (las noticias transformadas en una matriz de conteos).
    - ``y_train`` son las etiquetas de entrenamiento (el tipo de noticia).

El modelo aprende a partir de los datos de entrenamiento cómo las palabras se asocian con las diferentes categorías de noticias.

3. Hacer predicciones:

    - ``model.predict(X_test_transformed)`` usa el modelo entrenado para predecir las etiquetas de las noticias de prueba.
    - ``X_test_transformed`` son las características de prueba (las noticias transformadas en una matriz de conteos).
    - ``y_pred`` son las etiquetas predichas por el modelo para los datos de prueba.

4. Evaluar Modelo:

    - ``metrics.accuracy_score(y_test, y_pred)`` calcula la precisión del modelo comparando las etiquetas reales de las noticias de prueba (y_test) con las etiquetas predichas (y_pred).

    - ``accuracy_score`` mide el porcentaje de predicciones correctas hechas por el modelo.

In [81]:
model = MultinomialNB()
model.fit(X_train_transformed, y_train)
y_pred = model.predict(X_test_transformed)
print(metrics.accuracy_score(y_test, y_pred))

0.7909836065573771


La manera base tiene la mayor dimension, ahora veremos como tratar  el X_train para reducir las dimensiones manteniendo o mejorando la precisión

In [82]:
X_train_transformed

<973x26677 sparse matrix of type '<class 'numpy.int64'>'
	with 231138 stored elements in Compressed Sparse Row format>

# Stemming

In [42]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer

In [43]:
nltk.download("punkt")
nltk_data_path = "D:\\Programas\\nltk"
nltk.data.path.append(nltk_data_path)
nltk.download('stopwords', download_dir=nltk_data_path)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\diabl\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to D:\Programas\nltk...
[nltk_data]   Package stopwords is already up-to-date!


True

In [59]:
stemmer = SnowballStemmer("spanish")

In [60]:
def tokenize_and_stem(text):
    tokens = word_tokenize(text.lower())
    stems = [stemmer.stem(token) for token in tokens if token.isalpha()]
    return ' '.join(stems)

In [61]:
df["news_stemmer"] = df["news"].apply(tokenize_and_stem)
df["news_stemmer"]

0       durant el for la banc articul empresarial par ...
1       el regul de valor de chin dij el doming que bu...
2       en una industri histor masculin com lo es la a...
3       con el dat de marz el ipc interanual encaden s...
4       ayer en cartagen se dio inici a la version num...
                              ...                        
1212    en la vid de tod empres emergent lleg un momen...
1213    la espiral alcist de los preci continu y gener...
1214    las grand derrot nacional son experient trauma...
1215    bbva ha alcanz un acuerd de colabor con barcel...
1216    casi entrand a la part final de noviembr la ep...
Name: news_stemmer, Length: 1217, dtype: object

In [62]:
# Separamos los datos en variables de entrada y etiquetas
X = df["news_stemmer"]
y = df["Type"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
vectorizer = CountVectorizer()
X_train_transformed = vectorizer.fit_transform(X_train)
X_test_transformed = vectorizer.transform(X_test)

model = MultinomialNB()
model.fit(X_train_transformed, y_train)

# Medimos el rendimiento del modelo
y_pred = model.predict(X_test_transformed)

print(metrics.accuracy_score(y_test, y_pred))

0.7991803278688525


Reduce las dimensiones respecto al caso anterior ademas de tener una precisión mejor o parecida

In [63]:
X_train_transformed

<973x11861 sparse matrix of type '<class 'numpy.int64'>'
	with 195185 stored elements in Compressed Sparse Row format>

# Lemmatization

In [50]:
import spacy

In [51]:
nlp = spacy.load("es_core_news_sm")

In [52]:
def lemmatize_text(text):
    doc = nlp(text.lower())
    lemmas = [token.lemma_ for token in doc if token.is_alpha]
    return ' '.join(lemmas)

In [53]:
df["news_lemma"] = df["news"].apply(lemmatize_text)

In [54]:
df["news_lemma"]

0       durante el foro el banca articulador empresari...
1       el regulador de valor de china decir el doming...
2       en uno industria históricamente masculino como...
3       con el dato de marzo el ipc interanual encaden...
4       ayer en cartagena él dar inicio a el versión n...
                              ...                        
1212    en el vida de todo empresa emergente llegar un...
1213    el espiral alcista de el precio continuar y ge...
1214    el grande derrota nacional ser experiencia tra...
1215    bbva haber alcanzar uno acuerdo de colaboració...
1216    casi entrar a el parte final de noviembre el é...
Name: news_lemma, Length: 1217, dtype: object

In [56]:
# Separamos los datos en variables de entrada y etiquetas
X = df["news_lemma"]
y = df["Type"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
vectorizer = CountVectorizer()
X_train_transformed = vectorizer.fit_transform(X_train)
X_test_transformed = vectorizer.transform(X_test)

model = MultinomialNB()
model.fit(X_train_transformed, y_train)

# Medimos el rendimiento del modelo
y_pred = model.predict(X_test_transformed)

print(metrics.accuracy_score(y_test, y_pred))

0.8483606557377049


Logra reducir aún más las dimensiones  que la primera forma aunque menos que la segunda, aunque parece ser mas preciso.

In [57]:
X_train_transformed

<973x16638 sparse matrix of type '<class 'numpy.int64'>'
	with 190585 stored elements in Compressed Sparse Row format>