In [1]:
# TOKENIZACIÓN SIMPLE
# pip install -U scikit-learn
# pip install pandas

import pandas as pd
from sklearn.model_selection import train_test_split
# Procedemos a vectorizar los datos con la libreria
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

In [2]:
# Cargar news dataset
# Estos son muy pocos datos 
df = pd.read_csv('df_total.csv', encoding='UTF-8')

In [3]:
# Separar los datos en variables de entrada y etiquetas
X = df['news']
y = df['Type']

In [4]:
X

0       Durante el foro La banca articulador empresari...
1       El regulador de valores de China dijo el domin...
2       En una industria históricamente masculina como...
3       Con el dato de marzo el IPC interanual encaden...
4       Ayer en Cartagena se dio inicio a la versión n...
                              ...                        
1212    En la vida de toda empresa emergente llega un ...
1213    La espiral alcista de los precios continúa y g...
1214    Las grandes derrotas nacionales son experienci...
1215    BBVA ha alcanzado un acuerdo de colaboración c...
1216    Casi entrando a la parte final de noviembre la...
Name: news, Length: 1217, dtype: object

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, train_size=0.8)

In [6]:
X_train

480     El favorito para la presidencia Luiz Inacio Lu...
1130    En un mundo tan hiperconectado como el actual,...
705     Compra de cartera línea de crédito que permite...
1088    Inovio Pharmaceuticals Inc. suspendió parcialm...
358     El Bbva Consumption Tracker es un indicador de...
                              ...                        
502     Los móviles reacondicionados han ganado popula...
609     Ayer el Departamento Administrativo Nacional d...
247     El Bbva lanzó la funcionalidad Salud financier...
339     Sostenibilidad no es un concepto de moda, es u...
340     BBVA ha presentado BBVA Spark, su propuesta in...
Name: news, Length: 973, dtype: object

In [7]:
X_test

72      Hace exactamente cuatro años escribí en este e...
1167    El paquete fiscal presentado por la Secretaría...
546     Las comisionistas de bolsa registraron gananci...
798     Carlos Serrano Herrera economista Jefe de BBVA...
571     Viajes y turismo, indumentaria, tecnología y c...
                              ...                        
817     BBVA ha lanzado sus tarjetas SMART una nueva g...
0       Durante el foro La banca articulador empresari...
387     En materia económica el año 2022 quedará en la...
443     BBVA ha sido galardonado en cuatro categorías ...
465     Este año la inflación de diferentes países ha ...
Name: news, Length: 244, dtype: object

In [8]:
y_train

480           Alianzas
1130        Innovacion
705               Otra
1088      Regulaciones
358               Otra
             ...      
502         Innovacion
609      Macroeconomia
247               Otra
339     Sostenibilidad
340         Innovacion
Name: Type, Length: 973, dtype: object

In [9]:
y_test

72           Alianzas
1167    Macroeconomia
546          Alianzas
798     Macroeconomia
571        Innovacion
            ...      
817     Macroeconomia
0                Otra
387     Macroeconomia
443        Innovacion
465     Macroeconomia
Name: Type, Length: 244, dtype: object

In [10]:
cv = CountVectorizer()

In [11]:
X_train_transformed = cv.fit_transform(X_train)
X_test_transformed = cv.transform(X_test)

In [12]:
X_train_transformed

<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 233203 stored elements and shape (973, 26494)>

In [13]:
X_test_transformed

<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 54605 stored elements and shape (244, 26494)>

In [14]:
X_train_transformed_dense = X_train_transformed.toarray()
X_train_transformed_dense

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

In [15]:
model_basic = MultinomialNB()
model_basic.fit(X_train_transformed, y_train)

In [16]:

y_pred = model_basic.predict(X_test_transformed)
score_basic_model = metrics.accuracy_score(y_test, y_pred)
print(score_basic_model)

0.7868852459016393


In [17]:
# STEAMING
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer

In [18]:
# Descargamos datos del modelo y de las palabras
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to C:\Users\Engel
[nltk_data]     Lundez\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to C:\Users\Engel
[nltk_data]     Lundez\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [19]:
# Es importante mantener el attr en minúsculas
stemmer = SnowballStemmer('spanish')

In [20]:

def tokenize_and_stem(text=''):
    tokens = word_tokenize(text.lower())
    stems = [stemmer.stem(token) for token in tokens if token.isalpha()]
    return ' '.join(stems)

In [21]:
df['news_stemmer'] = df['news'].apply(tokenize_and_stem)

In [22]:
X_steam = df['news_stemmer']
y_steam = df['Type']

In [23]:
X_train_steam, X_test_steam, y_train_steam, y_test_steam = train_test_split(X_steam, y_steam, test_size=0.2)

In [24]:
X_train_transformed_steam = cv.fit_transform(X_train_steam)
X_test_transformed_steam = cv.transform(X_test_steam)

In [25]:
model_steam = MultinomialNB()
model_steam.fit(X_train_transformed_steam, y_train_steam)

In [26]:
y_pred_steam = model_steam.predict(X_test_transformed_steam)
score_steam_model = metrics.accuracy_score(y_test_steam, y_pred_steam)
print(score_steam_model)

0.8032786885245902


In [27]:
X_train_transformed

<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 233203 stored elements and shape (973, 26494)>

In [28]:
X_train_transformed_steam


<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 197332 stored elements and shape (973, 11861)>

In [29]:
# Lemmatization

In [30]:
import spacy

In [31]:
nlp = spacy.load('es_core_news_sm')

In [32]:
def lemmatize_text(text=''):
    doc = nlp(text.lower())
    lemmas = [token.lemma_ for token in doc if token.is_alpha]
    return ' '.join(lemmas)

In [33]:
df['news_lemma'] = df['news'].apply(lemmatize_text)

In [34]:
df['news_lemma']

0       durante el foro el banca articulador empresari...
1       el regulador de valor de china decir el doming...
2       en uno industria históricamente masculino como...
3       con el dato de marzo el ipc interanual encaden...
4       ayer en cartagena él dar inicio a el versión n...
                              ...                        
1212    en el vida de todo empresa emergente llegar un...
1213    el espiral alcista de el precio continuar y ge...
1214    el grande derrota nacional ser experiencia tra...
1215    bbva haber alcanzar uno acuerdo de colaboració...
1216    casi entrar a el parte final de noviembre el é...
Name: news_lemma, Length: 1217, dtype: object

In [35]:
X_lemma = df['news_lemma']
y_lemma = df['Type']
X_train_lemma, X_test_lemma, y_train_lemma, y_test_lemma = train_test_split(X_lemma, y_lemma, test_size=0.2)
X_train_transformed_lemma = cv.fit_transform(X_train_lemma)
X_test_transformed_lemma = cv.transform(X_test_lemma)

model_lemma = MultinomialNB()
model_lemma.fit(X_train_transformed_lemma, y_train_lemma)

y_pred_lemma = model_lemma.predict(X_test_transformed_lemma)

score_lemma_model = metrics.accuracy_score(y_test_lemma, y_pred_lemma)

In [36]:
print(score_basic_model, score_steam_model, score_lemma_model)

0.7868852459016393 0.8032786885245902 0.8114754098360656
