In [353]:
import pandas as pd
import numpy as np
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.naive_bayes import MultinomialNB

In [357]:
df = pd.read_excel('dataset.xlsx')

In [None]:
nltk.download('all')

In [359]:
def preprocess_text(text):
    tokens = word_tokenize(text.lower())
    tokens = [word for word in tokens if word.isalnum() and word not in stopwords.words('spanish')]
    return ' '.join(tokens)

df['texto_procesado'] = df['textos'].apply(preprocess_text)
df

Unnamed: 0,textos,ODS,texto_procesado
0,"""Aprendizaje"" y ""educación"" se consideran sinó...",4,aprendizaje educación consideran sinónimos esc...
1,No dejar clara la naturaleza de estos riesgos ...,6,dejar clara naturaleza riesgos puede dar lugar...
2,"Como resultado, un mayor y mejorado acceso al ...",13,resultado mayor mejorado acceso agua puede afe...
3,Con el Congreso firmemente en control de la ju...,16,congreso firmemente control jurisdicción recur...
4,"Luego, dos secciones finales analizan las impl...",5,luego dos secciones finales analizan implicaci...
...,...,...,...
9651,Esto implica que el tiempo de las mujeres en e...,5,implica tiempo mujeres mercado laboral ve afec...
9652,"Sin embargo, estas fallas del mercado implican...",3,embargo fallas mercado implican competencia so...
9653,El hecho de hacerlo y cómo hacerlo dependerá e...,9,hecho hacerlo cómo hacerlo dependerá gran medi...
9654,"Esto se destacó en el primer estudio de caso, ...",6,destacó primer estudio caso marco instituciona...


# tfidf

In [74]:
tfidf = TfidfVectorizer()
X = tfidf.fit_transform(df['texto_procesado'])
y = df['ODS']

print(X)

  (0, 2982)	0.13598811870389077
  (0, 11447)	0.2117272179146529
  (0, 7474)	0.34718956270815954
  (0, 29522)	0.281852758921994
  (0, 12626)	0.21140580829888028
  (0, 14496)	0.1748887980523967
  (0, 23092)	0.2824367950298744
  (0, 3918)	0.22987259817575315
  (0, 11436)	0.27291968192643007
  (0, 18785)	0.2038408780143694
  (0, 13317)	0.281852758921994
  (0, 14489)	0.13875010777875882
  (0, 11019)	0.15437243334734868
  (0, 13690)	0.23187664234016103
  (0, 1336)	0.16364862882993506
  (0, 12856)	0.18634407986469853
  (0, 15383)	0.13217382342605788
  (0, 20353)	0.12393714866287525
  (0, 6967)	0.16364862882993506
  (0, 33029)	0.19990499582281118
  (0, 5134)	0.10586360895732645
  (0, 32718)	0.1173816964864842
  (0, 16967)	0.22453631995810158
  (1, 9265)	0.10336629570142937
  (1, 6268)	0.09232199467974182
  :	:
  (9655, 25832)	0.12437198970065994
  (9655, 24561)	0.09044915880092486
  (9655, 17477)	0.0910999567286584
  (9655, 18330)	0.08135533151363049
  (9655, 19445)	0.30024754765056333
  (9655

In [78]:
pca = PCA(n_components=100)
X_reduced = pca.fit_transform(X.toarray())

In [86]:
X_train, X_test, y_train, y_test = train_test_split(X_reduced, y, test_size=0.2, random_state=42)

In [88]:
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)

In [98]:
y_pred = clf.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           1       0.74      0.86      0.79        90
           2       0.78      0.75      0.76        71
           3       0.81      0.89      0.84       178
           4       0.82      0.97      0.89       200
           5       0.87      0.93      0.90       232
           6       0.88      0.88      0.88       135
           7       0.83      0.91      0.87       164
           8       0.68      0.40      0.50        86
           9       0.86      0.67      0.76        55
          10       0.69      0.40      0.51        60
          11       0.89      0.71      0.79       143
          12       0.92      0.75      0.83        64
          13       0.83      0.82      0.83       102
          14       0.95      0.84      0.89        64
          15       0.97      0.84      0.90        81
          16       0.84      0.98      0.90       207

    accuracy                           0.84      1932
   macro avg       0.83   

In [100]:
y_pred

array([14,  4,  9, ..., 13,  4, 10], dtype=int64)

In [112]:
lr = LogisticRegression()
lr.fit(X_train, y_train)

In [114]:
y_pred = lr.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           1       0.85      0.83      0.84        90
           2       0.82      0.86      0.84        71
           3       0.85      0.95      0.90       178
           4       0.89      0.99      0.94       200
           5       0.95      0.92      0.94       232
           6       0.92      0.91      0.92       135
           7       0.91      0.93      0.92       164
           8       0.70      0.66      0.68        86
           9       0.91      0.78      0.84        55
          10       0.77      0.50      0.61        60
          11       0.89      0.84      0.86       143
          12       0.96      0.83      0.89        64
          13       0.83      0.83      0.83       102
          14       0.96      0.84      0.90        64
          15       0.99      0.86      0.92        81
          16       0.87      0.99      0.93       207

    accuracy                           0.88      1932
   macro avg       0.88   

In [122]:
# Entrenamiento y evaluación con SVM
clf_svm = SVC(kernel='linear')
clf_svm.fit(X_train, y_train)
y_pred_svm = clf_svm.predict(X_test)
print("SVM:\n", classification_report(y_test, y_pred_svm))


SVM:
               precision    recall  f1-score   support

           1       0.81      0.84      0.83        90
           2       0.81      0.86      0.84        71
           3       0.89      0.96      0.92       178
           4       0.92      0.98      0.95       200
           5       0.95      0.93      0.94       232
           6       0.95      0.93      0.94       135
           7       0.94      0.90      0.92       164
           8       0.62      0.67      0.65        86
           9       0.80      0.82      0.81        55
          10       0.75      0.60      0.67        60
          11       0.89      0.87      0.88       143
          12       0.97      0.89      0.93        64
          13       0.86      0.84      0.85       102
          14       0.95      0.91      0.93        64
          15       0.97      0.89      0.93        81
          16       0.95      0.98      0.96       207

    accuracy                           0.90      1932
   macro avg       0

In [124]:
# Entrenamiento y evaluación con Naïve Bayes
clf_nb = MultinomialNB()
clf_nb.fit(X_train, y_train)
y_pred_nb = clf_nb.predict(X_test)
print("Naïve Bayes:\n", classification_report(y_test, y_pred_nb))

Naïve Bayes:
               precision    recall  f1-score   support

           1       0.87      0.50      0.63        90
           2       0.92      0.17      0.29        71
           3       0.80      0.88      0.84       178
           4       0.62      0.99      0.77       200
           5       0.43      0.95      0.59       232
           6       0.80      0.84      0.82       135
           7       0.60      0.93      0.73       164
           8       1.00      0.01      0.02        86
           9       1.00      0.09      0.17        55
          10       0.00      0.00      0.00        60
          11       0.99      0.48      0.65       143
          12       1.00      0.05      0.09        64
          13       0.96      0.47      0.63       102
          14       1.00      0.27      0.42        64
          15       1.00      0.15      0.26        81
          16       0.74      0.98      0.84       207

    accuracy                           0.65      1932
   macro avg

In [128]:
## Recoradar usar w2v_model

from gensim.models import Word2Vec

# Datos de ejemplo
sentences = [["hola", "mundo"], ["aprendiendo", "word2vec"], ["modelo", "de", "embeddings"]]

# Entrenamiento del modelo
w2v_model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, sg=0)  # CBOW
# Para Skip-gram: sg=1

# Obtener el vector de una palabra
vector = w2v_model.wv["hola"]
print(vector)


[ 8.13227147e-03 -4.45733406e-03 -1.06835726e-03  1.00636482e-03
 -1.91113955e-04  1.14817743e-03  6.11386076e-03 -2.02715401e-05
 -3.24596534e-03 -1.51072862e-03  5.89729892e-03  1.51410222e-03
 -7.24261976e-04  9.33324732e-03 -4.92128357e-03 -8.38409644e-04
  9.17541143e-03  6.74942741e-03  1.50285603e-03 -8.88256077e-03
  1.14874600e-03 -2.28825561e-03  9.36823711e-03  1.20992784e-03
  1.49006362e-03  2.40640994e-03 -1.83600665e-03 -4.99963388e-03
  2.32429506e-04 -2.01418041e-03  6.60093315e-03  8.94012302e-03
 -6.74754381e-04  2.97701475e-03 -6.10765442e-03  1.69932481e-03
 -6.92623248e-03 -8.69402662e-03 -5.90020278e-03 -8.95647518e-03
  7.27759488e-03 -5.77203138e-03  8.27635173e-03 -7.24354526e-03
  3.42167495e-03  9.67499893e-03 -7.78544787e-03 -9.94505733e-03
 -4.32914635e-03 -2.68313056e-03 -2.71289347e-04 -8.83155130e-03
 -8.61755759e-03  2.80021061e-03 -8.20640661e-03 -9.06933658e-03
 -2.34046578e-03 -8.63180775e-03 -7.05664977e-03 -8.40115082e-03
 -3.01328895e-04 -4.56429

In [130]:
w2v_model = Word2Vec(df['texto_procesado'], vector_size=100, window=5, min_count=2, workers=4)

In [132]:
def vectorize_text(tokens, model):
    vector = np.mean([model.wv[word] for word in tokens if word in model.wv], axis=0)
    return vector if vector is not np.nan else np.zeros(model.vector_size)

df['vector'] = df['texto_procesado'].apply(lambda x: vectorize_text(x, w2v_model))
X = np.vstack(df['vector'].values)
y = df['ODS']

# Reducción de dimensionalidad con PCA
pca = PCA(n_components=50)
X_reduced = pca.fit_transform(X)

# División en datos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_reduced, y, test_size=0.2, random_state=42)

# Entrenamiento del modelo de clasificación
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)




In [134]:
# Evaluación del modelo
y_pred = clf.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           1       0.52      0.39      0.45        90
           2       0.00      0.00      0.00        71
           3       0.22      0.37      0.28       178
           4       0.33      0.61      0.43       200
           5       0.43      0.61      0.50       232
           6       0.42      0.39      0.40       135
           7       0.42      0.51      0.46       164
           8       0.08      0.01      0.02        86
           9       0.00      0.00      0.00        55
          10       0.25      0.02      0.03        60
          11       0.33      0.07      0.12       143
          12       0.25      0.02      0.03        64
          13       0.44      0.24      0.31       102
          14       0.54      0.11      0.18        64
          15       0.56      0.06      0.11        81
          16       0.40      0.78      0.53       207

    accuracy                           0.37      1932
   macro avg       0.32   

In [136]:
clf_svm = SVC(kernel='linear')
clf_svm.fit(X_train, y_train)
y_pred_svm = clf_svm.predict(X_test)
print("SVM:\n", classification_report(y_test, y_pred_svm))

SVM:
               precision    recall  f1-score   support

           1       0.00      0.00      0.00        90
           2       0.00      0.00      0.00        71
           3       0.21      0.29      0.25       178
           4       0.27      0.61      0.37       200
           5       0.33      0.59      0.43       232
           6       0.61      0.19      0.28       135
           7       0.51      0.23      0.31       164
           8       0.00      0.00      0.00        86
           9       0.00      0.00      0.00        55
          10       0.00      0.00      0.00        60
          11       0.00      0.00      0.00       143
          12       0.00      0.00      0.00        64
          13       0.00      0.00      0.00       102
          14       0.00      0.00      0.00        64
          15       0.00      0.00      0.00        81
          16       0.25      0.86      0.39       207

    accuracy                           0.29      1932
   macro avg       0

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [369]:
def letterOds(ods):
    df_ods = list(df[df["ODS"] == ods]["texto_procesado"])
    a = [a.split(" ") for a in df_ods]
    resultado = [item for sublist in a for item in sublist]
    return resultado

number_ODS = df['ODS'].unique()

arr = [letterOds(ods) for ods in number_ODS]

In [371]:
X.shape

(16, 5000)

In [373]:
w2v_model = Word2Vec(sentences=arr, vector_size=5000, window=5, min_count=1, sg=0)

# Generar representaciones vectoriales de los textos
def text_to_vector(text):
    vectors = [w2v_model.wv[word] for word in text if word in w2v_model.wv]
    return np.mean(vectors, axis=0) if vectors else np.zeros(100)
    
X = np.array([text_to_vector(text) for text in arr])
y = list(number_ODS) # Clases (sustituir por las etiquetas de los ODS)

# Reducción de dimensionalidad
pca = PCA(n_components=3)
#X_reduced = pca.fit_transform(X) #Para hacerlo hay que cambar posiciones
#X_reduced.shape

In [391]:
X.shape

(16, 5000)

In [313]:
list(df["texto_procesado"])[0].split(" ")

['aprendizaje',
 'educación',
 'consideran',
 'sinónimos',
 'escolarización',
 'formal',
 'organizaciones',
 'auxiliares',
 'editoriales',
 'educación',
 'juntas',
 'examinadoras',
 'organizaciones',
 'formación',
 'docentes',
 'consideran',
 'extensiones',
 'acuerdos',
 'establecidos',
 'gobiernos',
 'marco',
 'comprensión',
 'vuelto',
 'cada',
 'vez',
 'inadecuado']

In [421]:

dfnuevo = df.iloc[:1000]
dfnuevo["nueva"] = dfnuevo["texto_procesado"].apply(lambda x: x.split(' '))
dfnuevo

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dfnuevo["nueva"] = dfnuevo["texto_procesado"].apply(lambda x: x.split(' '))


Unnamed: 0,textos,ODS,texto_procesado,nueva
0,"""Aprendizaje"" y ""educación"" se consideran sinó...",4,aprendizaje educación consideran sinónimos esc...,"[aprendizaje, educación, consideran, sinónimos..."
1,No dejar clara la naturaleza de estos riesgos ...,6,dejar clara naturaleza riesgos puede dar lugar...,"[dejar, clara, naturaleza, riesgos, puede, dar..."
2,"Como resultado, un mayor y mejorado acceso al ...",13,resultado mayor mejorado acceso agua puede afe...,"[resultado, mayor, mejorado, acceso, agua, pue..."
3,Con el Congreso firmemente en control de la ju...,16,congreso firmemente control jurisdicción recur...,"[congreso, firmemente, control, jurisdicción, ..."
4,"Luego, dos secciones finales analizan las impl...",5,luego dos secciones finales analizan implicaci...,"[luego, dos, secciones, finales, analizan, imp..."
...,...,...,...,...
995,El propósito de este artículo es presentar sol...,16,propósito artículo presentar soluciones instit...,"[propósito, artículo, presentar, soluciones, i..."
996,En este documento se evalúa el equilibrio de t...,2,documento evalúa equilibrio tales compensacion...,"[documento, evalúa, equilibrio, tales, compens..."
997,Continuará la recopilación de exceso de mortal...,3,continuará recopilación exceso mortalidad suic...,"[continuará, recopilación, exceso, mortalidad,..."
998,Además de las dificultades relacionadas con la...,15,además dificultades relacionadas aplicación ex...,"[además, dificultades, relacionadas, aplicació..."


In [401]:
# Entrenar modelo de clasificación
clf = RandomForestClassifier()
clf.fit(X, y)


    
# Prueba con un nuevo texto
#new_text = list(df["texto_procesado"])[2].split(" ")
#vector = text_to_vector(new_text).reshape(1, -1)
#vector_reduced = pca.transform(vector)
#prediction = clf.predict(vector)

In [433]:
def fun(a):
    return text_to_vector(a).reshape(1, -1)

dfnuevo["vector"] = dfnuevo["nueva"].apply(fun)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dfnuevo["vector"] = dfnuevo["nueva"].apply(fun)


In [449]:
X_p = np.vstack(dfnuevo['vector'].values)
y_test = np.vstack(dfnuevo['ODS'].values)

y_p = clf.predict(X_p)

In [451]:
print("SVM:\n", classification_report(y_test, y_p))

SVM:
               precision    recall  f1-score   support

           1       0.10      0.53      0.17        47
           2       0.02      0.03      0.03        29
           3       0.12      0.04      0.06        94
           4       0.17      0.04      0.06       108
           5       0.12      0.03      0.05       105
           6       0.20      0.01      0.02        76
           7       0.10      0.02      0.04        84
           8       0.09      0.02      0.04        41
           9       0.00      0.00      0.00        27
          10       0.03      0.06      0.04        31
          11       0.08      0.02      0.04        83
          12       0.06      0.03      0.04        37
          13       0.11      0.12      0.12        57
          14       0.03      0.14      0.04        28
          15       0.07      0.03      0.04        36
          16       0.30      0.61      0.40       117

    accuracy                           0.13      1000
   macro avg       0

In [405]:
print(f"ODS Predicho: {prediction}")

ODS Predicho: [1]


In [307]:
df.iloc[2]

textos             Como resultado, un mayor y mejorado acceso al ...
ODS                                                               13
texto_procesado    resultado mayor mejorado acceso agua puede afe...
vector             [-0.07445496, -0.018971777, 0.12250593, 0.0333...
Name: 2, dtype: object

In [166]:
from gensim.models import Word2Vec
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
import numpy as np

# Datos de ejemplo (sustituir por tu dataset real)
texts = [["sostenibilidad", "medioambiente", "energía"], 
         ["educación", "igualdad", "escuela"], 
         ["innovación", "tecnología", "desarrollo"]]

# Entrenar modelo Word2Vec
w2v_model = Word2Vec(sentences=texts, vector_size=100, window=5, min_count=1, sg=0)

# Generar representaciones vectoriales de los textos
def text_to_vector(text):
    vectors = [w2v_model.wv[word] for word in text if word in w2v_model.wv]
    return np.mean(vectors, axis=0) if vectors else np.zeros(100)

X = np.array([text_to_vector(text) for text in texts])
y = [0, 1, 2]  # Clases (sustituir por las etiquetas de los ODS)

# Reducción de dimensionalidad
pca = PCA(n_components=3)
X_reduced = pca.fit_transform(X)

# Entrenar modelo de clasificación
clf = RandomForestClassifier()
clf.fit(X_reduced, y)

# Prueba con un nuevo texto
new_text = ["sostenibilidad", "energía"]
vector = text_to_vector(new_text).reshape(1, -1)
vector_reduced = pca.transform(vector)
prediction = clf.predict(vector_reduced)

print(f"ODS Predicho: {prediction}")


ODS Predicho: [1]
