# **Tokenization**

In [None]:
import pandas as pd


In [None]:
df = pd.read_csv('df_total.csv', encoding = "UTF-8")

In [None]:
df



Unnamed: 0,url,news,Type
0,https://www.larepublica.co/redirect/post/3201905,Durante el foro La banca articulador empresari...,Otra
1,https://www.larepublica.co/redirect/post/3210288,El regulador de valores de China dijo el domin...,Regulaciones
2,https://www.larepublica.co/redirect/post/3240676,En una industria históricamente masculina como...,Alianzas
3,https://www.larepublica.co/redirect/post/3342889,Con el dato de marzo el IPC interanual encaden...,Macroeconomia
4,https://www.larepublica.co/redirect/post/3427208,Ayer en Cartagena se dio inicio a la versión n...,Otra
...,...,...,...
1212,https://www.bbva.com/es/como-lograr-que-los-in...,En la vida de toda empresa emergente llega un ...,Innovacion
1213,https://www.bbva.com/es/podcast-como-nos-afect...,La espiral alcista de los precios continúa y g...,Macroeconomia
1214,https://www.larepublica.co/redirect/post/3253735,Las grandes derrotas nacionales son experienci...,Alianzas
1215,https://www.bbva.com/es/bbva-y-barcelona-healt...,BBVA ha alcanzado un acuerdo de colaboración c...,Innovacion


In [None]:
# target and features
x = df['news']
y = df["Type"]

In [None]:
y.value_counts()

Unnamed: 0_level_0,count
Type,Unnamed: 1_level_1
Macroeconomia,340
Alianzas,247
Innovacion,195
Regulaciones,142
Sostenibilidad,137
Otra,130
Reputacion,26


In [None]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

In [None]:
#Library to vectorize our text
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
#instantiation
vectorizer = CountVectorizer()

In [None]:
x_train_vec = vectorizer.fit_transform(x_train) #fit_transform for train data
x_test_vec = vectorizer.transform(x_test) # only transform for test data

In [None]:
# x_train is a matrix of 973 rows and 234k columns (words), this is a way to see it
# schematically
x_train_vec.toarray()

array([[0, 2, 0, ..., 0, 0, 0],
       [0, 1, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 2, 0, ..., 0, 0, 0]])

In [None]:
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

In [None]:
model = MultinomialNB()
model.fit(x_train_vec, y_train)
preds = model.predict(x_test_vec)
metrics.accuracy_score(preds, y_test)

0.7991803278688525

# **Stemming**


In [None]:
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
nltk.download('stopwords')
from nltk.stem import SnowballStemmer

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:
stemmer = SnowballStemmer('spanish')

In [None]:
def tokenize_and_stem(text):
  low = text.lower()
  tokens = word_tokenize(low)
  stems = [stemmer.stem(token) for token in tokens if token.isalpha()] # is alpha = true s'il n'y a que des caracteres
  return ' '.join(stems) #permet d'avoir le meme format de texte qu'au début (phrase stemmée)

def tokenize_and_stem2(text):
  low = text.lower()
  tokens = word_tokenize(low)
  stems = [stemmer.stem(token) for token in tokens if token.isalpha()] # is alpha = true s'il n'y a que des caracteres
  return stems # ici on renverra une lsite de mots, pas forcément ce qu'on veut

In [None]:
test = df['news'][0]
test

'Durante el foro La banca articulador empresarial para el desarrollo sostenible el director de sostenibilidad y clientes globales de BBVA en Colombia Andrés García aseguró que es importante entender que la sostenibilidad no la podemos asociar a mayores costos. Yo creo que el no tener un concepto de negocio sostenible puede tener un mayor impacto de lo que imaginamos.Para García el reto más importante es no cambiar prioridades ni que compitan entre sí necesariamente. En muchos de los casos se debe tratar de mantener la prioridad en cuanto a la ambición de negocios más sostenibles un reto enorme por la coyuntura. La sostenibilidad nos abre oportunidades a mejores fuentes de financiamiento agregó.El directivo argumentó que lo que se encuentra en juego acá no es un tema de rentabilidad o de negocios en particular es un tema de viabilidad del mundo de los negocios y del mundo físico en general como lo conocemos. Además los riesgos físicos y de transición asociados al cambio climático y a la

In [None]:
tokenize_and_stem(test)

'durant el for la banc articul empresarial par el desarroll sosten el director de sostenibil y client global de bbva en colombi andres garc asegur que es import entend que la sostenibil no la pod asoci a mayor cost yo cre que el no ten un concept de negoci sosten pued ten un mayor impact de lo que garc el ret mas import es no cambi prioridad ni que compit entre si necesari en much de los cas se deb trat de manten la priorid en cuant a la ambicion de negoci mas sosten un ret enorm por la coyuntur la sostenibil nos abre oportun a mejor fuent de financi direct argument que lo que se encuentr en jueg aca no es un tem de rentabil o de negoci en particul es un tem de viabil del mund de los negoci y del mund fisic en general com lo conoc ademas los riesg fisic y de transicion asoci al cambi climat y a la no inclusion social en el desarroll son real y estan ya dej de ser un aspect en paralel de respons social corpor ahor tien que estar en el adn de las estrategi del mism negoci sol de esa mane

In [None]:
tokenize_and_stem2(test)[:5]

['durant', 'el', 'for', 'la', 'banc']

In [None]:
df["stemmed_news"] = df["news"].apply(tokenize_and_stem)

In [None]:
df.head()

Unnamed: 0,url,news,Type,stemmed_news
0,https://www.larepublica.co/redirect/post/3201905,Durante el foro La banca articulador empresari...,Otra,durant el for la banc articul empresarial par ...
1,https://www.larepublica.co/redirect/post/3210288,El regulador de valores de China dijo el domin...,Regulaciones,el regul de valor de chin dij el doming que bu...
2,https://www.larepublica.co/redirect/post/3240676,En una industria históricamente masculina como...,Alianzas,en una industri histor masculin com lo es la a...
3,https://www.larepublica.co/redirect/post/3342889,Con el dato de marzo el IPC interanual encaden...,Macroeconomia,con el dat de marz el ipc interanual encaden s...
4,https://www.larepublica.co/redirect/post/3427208,Ayer en Cartagena se dio inicio a la versión n...,Otra,ayer en cartagen se dio inici a la version num...


In [None]:
# now we do the very same modelisation with this news stemmed data

x = df['stemmed_news']
y = df["Type"]

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

x_train_vec = vectorizer.fit_transform(x_train) #fit_transform for train data
x_test_vec = vectorizer.transform(x_test) # only transform for test data


model = MultinomialNB()
model.fit(x_train_vec, y_train)
preds = model.predict(x_test_vec)
metrics.accuracy_score(preds, y_test)

0.8278688524590164

In [None]:
x_train_vec # dimension reduction thanks to stemming

<973x11905 sparse matrix of type '<class 'numpy.int64'>'
	with 198177 stored elements in Compressed Sparse Row format>

# **Lemmatization**


In [None]:
!python -m spacy download es_core_news_sm
import spacy

Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m20.2 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
nlp = spacy.load('es_core_news_sm')

In [None]:
def lemmatize(text):
  doc = nlp(text.lower())
  lemmas = [token.lemma_ for token in doc if token.is_alpha]
  return ' '.join(lemmas)
# Dans la bibliothèque spaCy, l'attribut lemma_ (avec un underscore) est
# utilisé pour accéder à la forme lemmatisée du mot sous forme de chaîne de
# caractères (texte brut). Ce contraste avec lemma, qui, dans spaCy, retourne
# un entier unique (ID) correspondant à la racine du mot. %%

In [None]:
df["lemmatized_news"] = df["news"].apply(lemmatize)

In [None]:
df["lemmatized_news"].head()

Unnamed: 0,lemmatized_news
0,durante el foro el banca articulador empresari...
1,el regulador de valor de china decir el doming...
2,en uno industria históricamente masculino como...
3,con el dato de marzo el ipc interanual encaden...
4,ayer en cartagena él dar inicio a el versión n...


In [None]:
# now we do the very same modelisation with this news stemmed data

x = df['lemmatized_news']
y = df["Type"]

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

x_train_vec = vectorizer.fit_transform(x_train) #fit_transform for train data
x_test_vec = vectorizer.transform(x_test) # only transform for test data


model = MultinomialNB()
model.fit(x_train_vec, y_train)
preds = model.predict(x_test_vec)
metrics.accuracy_score(preds, y_test)

0.8237704918032787

In [None]:
x_train_vec # dimension in between but still lower  than the tokenize only

<973x16556 sparse matrix of type '<class 'numpy.int64'>'
	with 193336 stored elements in Compressed Sparse Row format>