In [593]:
import pandas as pd
import numpy as np
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.naive_bayes import MultinomialNB

In [595]:
df = pd.read_excel('dataset.xlsx')
df

Unnamed: 0,textos,ODS
0,"""Aprendizaje"" y ""educación"" se consideran sinó...",4
1,No dejar clara la naturaleza de estos riesgos ...,6
2,"Como resultado, un mayor y mejorado acceso al ...",13
3,Con el Congreso firmemente en control de la ju...,16
4,"Luego, dos secciones finales analizan las impl...",5
...,...,...
9651,Esto implica que el tiempo de las mujeres en e...,5
9652,"Sin embargo, estas fallas del mercado implican...",3
9653,El hecho de hacerlo y cómo hacerlo dependerá e...,9
9654,"Esto se destacó en el primer estudio de caso, ...",6


In [None]:
nltk.download('all')

In [597]:
def preprocess_text(text):
    tokens = word_tokenize(text.lower())
    tokens = [word for word in tokens if word.isalnum() and word not in stopwords.words('spanish')]
    return ' '.join(tokens)

df['texto_procesado'] = df['textos'].apply(preprocess_text)
df

Unnamed: 0,textos,ODS,texto_procesado
0,"""Aprendizaje"" y ""educación"" se consideran sinó...",4,aprendizaje educación consideran sinónimos esc...
1,No dejar clara la naturaleza de estos riesgos ...,6,dejar clara naturaleza riesgos puede dar lugar...
2,"Como resultado, un mayor y mejorado acceso al ...",13,resultado mayor mejorado acceso agua puede afe...
3,Con el Congreso firmemente en control de la ju...,16,congreso firmemente control jurisdicción recur...
4,"Luego, dos secciones finales analizan las impl...",5,luego dos secciones finales analizan implicaci...
...,...,...,...
9651,Esto implica que el tiempo de las mujeres en e...,5,implica tiempo mujeres mercado laboral ve afec...
9652,"Sin embargo, estas fallas del mercado implican...",3,embargo fallas mercado implican competencia so...
9653,El hecho de hacerlo y cómo hacerlo dependerá e...,9,hecho hacerlo cómo hacerlo dependerá gran medi...
9654,"Esto se destacó en el primer estudio de caso, ...",6,destacó primer estudio caso marco instituciona...


# Conversión a matriz

In [604]:
y = df['ODS']

# tfidf

In [606]:
tfidf = TfidfVectorizer()
X_tfidf = tfidf.fit_transform(df['texto_procesado'])

print(X_tfidf)

  (0, 2982)	0.13598811870389077
  (0, 11447)	0.2117272179146529
  (0, 7474)	0.34718956270815954
  (0, 29522)	0.281852758921994
  (0, 12626)	0.21140580829888028
  (0, 14496)	0.1748887980523967
  (0, 23092)	0.2824367950298744
  (0, 3918)	0.22987259817575315
  (0, 11436)	0.27291968192643007
  (0, 18785)	0.2038408780143694
  (0, 13317)	0.281852758921994
  (0, 14489)	0.13875010777875882
  (0, 11019)	0.15437243334734868
  (0, 13690)	0.23187664234016103
  (0, 1336)	0.16364862882993506
  (0, 12856)	0.18634407986469853
  (0, 15383)	0.13217382342605788
  (0, 20353)	0.12393714866287525
  (0, 6967)	0.16364862882993506
  (0, 33029)	0.19990499582281118
  (0, 5134)	0.10586360895732645
  (0, 32718)	0.1173816964864842
  (0, 16967)	0.22453631995810158
  (1, 9265)	0.10336629570142937
  (1, 6268)	0.09232199467974182
  :	:
  (9655, 25832)	0.12437198970065994
  (9655, 24561)	0.09044915880092486
  (9655, 17477)	0.0910999567286584
  (9655, 18330)	0.08135533151363049
  (9655, 19445)	0.30024754765056333
  (9655

## w2v_model

In [608]:
word2Vec = Word2Vec(df['texto_procesado'], vector_size=100, window=5, min_count=2, workers=4)

def vectorize_text(tokens, model):
    vector = np.mean([model.wv[word] for word in tokens if word in model.wv], axis=0)
    return vector if vector is not np.nan else np.zeros(model.vector_size)

df['vector'] = df['texto_procesado'].apply(lambda x: vectorize_text(x, w2v_model))
X_word2Vec = np.vstack(df['vector'].values)
print(X_word2Vec)

[[-0.02079535  0.1025949   0.02682515 ... -0.08014736  0.04182826
   0.05599443]
 [-0.0205553   0.10624275  0.02789256 ... -0.0825209   0.04359575
   0.05681476]
 [-0.0228712   0.11815599  0.03204108 ... -0.09342654  0.04906743
   0.06401127]
 ...
 [-0.02142082  0.10578831  0.02754963 ... -0.0833056   0.04330721
   0.05729998]
 [-0.02121186  0.10987116  0.02909039 ... -0.0860223   0.04533994
   0.05922742]
 [-0.01895016  0.0987791   0.02659463 ... -0.07711928  0.04019219
   0.05249154]]


# Reducir dimencionalidad

In [703]:
pca = PCA(n_components=100)
X_tfidf = pca.fit_transform(X_tfidf.toarray())
X_word2Vec = pca.fit_transform(X_word2Vec)

# Definir datos de entrenamiento y de testeo

In [705]:
X_tfidf_train, X_tfidf_test, y_tfidf_train, y_tfidf_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)

In [707]:
X_word2Vec_train, X_word2Vec_test, y_word2Vec_train, y_word2Vec_test = train_test_split(X_word2Vec, y, test_size=0.2, random_state=42)

# Entrenar modelos

In [710]:
clf_tfidf = RandomForestClassifier(n_estimators=100, random_state=42)
clf_tfidf.fit(X_tfidf_train, y_tfidf_train)

clf_word2Vec = RandomForestClassifier(n_estimators=100, random_state=42)
clf_word2Vec.fit(X_word2Vec_train, y_word2Vec_train)

In [734]:
lr_tfidf = LogisticRegression()
lr_tfidf.fit(X_tfidf_train, y_tfidf_train)

lr_word2Vec = LogisticRegression()
lr_word2Vec.fit(X_word2Vec_train, y_word2Vec_train)

In [736]:
# Entrenamiento y evaluación con SVM
svm_tfidf = SVC(kernel='linear')
svm_tfidf.fit(X_tfidf_train, y_tfidf_train)

svm_word2Vec = SVC(kernel='linear')
svm_word2Vec.fit(X_word2Vec_train, y_word2Vec_train)
