# Universidad de los Andes

Proyecto presentado por:
* Javier Camilo Garcia Matos
* Daniel Felipe Caro Torres

## Proyecto: Claficador de texto según las 17 ODS

El objetivo del proyecto es desarrollar una solución, basada en técnicas de procesamiento del
lenguaje natural y machine learning, que permita clasificar automáticamente un texto en los
17 ODS, ofreciendo una forma de presentación de resultados a través de una herramienta de
fácil comprensión para el usuario final.

### Planteamiento del problema y solucion

En el marco de los Objetivos de Desarrollo Sostenible (ODS) de la ONU, muchas organizaciones buscan clasificar grandes volúmenes de texto para entender qué partes de la información corresponden a cada objetivo: fin de la pobreza, salud y bienestar, educación de calidad, igualdad de género, etc. Para ello, se pueden usar técnicas de procesamiento de lenguaje natural (NLP) y machine learning, evitando el análisis manual de miles de documentos.

###### Este notebook presentará el desarrollo paso a paso de un clasificador entrenado en textos en español, siguiendo el flujo:

1. Importación y exploración de datos
2. Separación de train/test/validación
3. Preprocesamiento (limpieza, stopwords, stemming, etc.)
4. Vectorización (TF-IDF)
5. Reducción de dimensionalidad (SVD)
6. Entrenamiento y selección de modelo
7. Evaluación (métricas y ejemplos concretos en un conjunto de prueba)
8. Conclusiones

Se finaliza mostrando la clasificación de algunos ejemplos de test, verificando la utilidad del modelo.

#### 1. Importación y exploración de datos

In [9]:
import nltk
import numpy as np
import pandas as pd
from nltk import RegexpTokenizer
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer # SnowballStemmer para espa;ol

# entrenar/validar el modelo
from sklearn.model_selection import train_test_split

# Representación de textos
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

# Reducción de dimensionalidad
from sklearn.decomposition import TruncatedSVD

#-----------------

# Clasificadores 
from sklearn.linear_model import LogisticRegression

# Para métricas de evaluación
from sklearn.metrics import classification_report, confusion_matrix

# Para pipeline y búsqueda de hiperparámetros
from sklearn.pipeline import Pipeline
from sklearn.model_selection import RandomizedSearchCV, GridSearchCV

nltk.download('stopwords')  


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\danie\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

##### Carga y exploración de datos

In [11]:
df = pd.read_excel('Train_textosODS.xlsx')
df.sample(5)

Unnamed: 0,textos,ODS
5102,Este enfoque está orientado a la producción de...,6
8256,Las habilidades básicas proporcionan la base p...,4
3471,Se analiza la historia de los litigios migrato...,16
8414,El marco de estándares está compuesto por siet...,4
2732,"No obstante, ha ido en aumento (del 22,5% en 2...",5


In [12]:
print('Tamaño de los datos:',df.shape)

Tamaño de los datos: (9656, 2)


In [13]:
print('Cantidad de datos nulos:')
print(df.isna().sum())

Cantidad de datos nulos:
textos    0
ODS       0
dtype: int64


In [14]:
print('Cantidad de datos duplicados:')
print(df.duplicated().sum())

Cantidad de datos duplicados:
0


#### 2. Separación de train/test/validación

In [16]:
df_train, df_test = train_test_split(df, test_size = 0.4, random_state=0)
df_test, df_val = train_test_split(df_test, test_size = 0.5, random_state=0)
print('Cantidad de datos de entrenamiento:',len(df_train))
print('Cantidad de datos de prueba:',len(df_test))
print('Cantidad de datos de validación:',len(df_val))

Cantidad de datos de entrenamiento: 5793
Cantidad de datos de prueba: 1931
Cantidad de datos de validación: 1932


In [17]:
x_train = df_train['textos']
y_train = df_train['ODS']

x_test = df_test['textos']
y_test = df_test['ODS']

x_val = df_val['textos']
y_val = df_val['ODS']


#### 3. Preprocesamiento (limpieza, stopwords, stemming, etc.)

In [19]:
def text_preprocess(text):
    tokenizer = RegexpTokenizer(r'\w+')
    stemmer = nltk.SnowballStemmer('spanish')  # Stemming en español
    spanish_stops = set(stopwords.words('spanish'))
    
    # minúsculas
    text = text.lower()

    tokens = tokenizer.tokenize(text)
    # remover stopwords
    tokens = [word for word in tokens if word not in spanish_stops]
    # stemming
    tokens = [stemmer.stem(word) for word in tokens]
    return ' '.join(tokens)



#### 4. Vectorización (TF-IDF)

In [21]:
vectorizer = TfidfVectorizer(preprocessor=text_preprocess)

#### 5. Reducción de dimensionalidad (SVD)

Usamos TruncatedSVD para reduccoin de dimensionalidad, ya que lo consideramos más adecuado para datos dispersos, como los generados por TF-IDF, ya que no requiere centrar los datos y puede trabajar eficientemente con matrices dispersas.

In [23]:
tsvd = TruncatedSVD(n_components=100, random_state=42)

In [24]:
preprocessing_pipeline = Pipeline([
    ('tfidf', vectorizer),
    ('svd', tsvd)
])


#### 6. Entrenamiento y selección de modelo

In [26]:
# Ajustar (fit) el pipeline con los datos de entrenamiento
X_train_processed = preprocessing_pipeline.fit_transform(x_train)

In [27]:
X_train_processed.shape

(5793, 100)

In [28]:
X_val_processed = preprocessing_pipeline.transform(x_val)
X_test_processed = preprocessing_pipeline.transform(x_test)


Escogemos Regresión Logística para multiclase:

In [30]:
clf = LogisticRegression(
    multi_class='multinomial',
    solver='saga', 
    max_iter=1000,
    random_state=42
)


In [31]:
full_pipeline = Pipeline([
    ('tfidf', vectorizer),
    ('svd', tsvd),
    ('clf', clf)
])
full_pipeline.fit(x_train, y_train)




predecir en validación/test

In [33]:
y_val_pred = full_pipeline.predict(x_val)
y_test_pred = full_pipeline.predict(x_test)

##### Búsqueda de hiperparámetros 

In [35]:
param_grid = {
    'svd__n_components': [50, 100, 200],
    'clf__C': [0.01, 0.1, 1, 10, 100]
}

grid_search = GridSearchCV(full_pipeline, param_grid, 
                           scoring='accuracy', 
                           cv=3 
                           )

grid_search.fit(x_train, y_train)
print("Mejores hiperparámetros:", grid_search.best_params_)
best_model = grid_search.best_estimator_




Mejores hiperparámetros: {'clf__C': 10, 'svd__n_components': 200}


#### 7. Evaluación (métricas y ejemplos concretos en un conjunto de prueba)

In [37]:
print("Evaluación en conjunto de validación:")
y_val_pred = best_model.predict(x_val)
print(classification_report(y_val, y_val_pred))


Evaluación en conjunto de validación:
              precision    recall  f1-score   support

           1       0.80      0.76      0.78        91
           2       0.71      0.72      0.71        71
           3       0.88      0.93      0.90       177
           4       0.93      0.98      0.95       215
           5       0.89      0.90      0.90       195
           6       0.88      0.86      0.87       146
           7       0.93      0.90      0.91       166
           8       0.64      0.56      0.60        88
           9       0.78      0.75      0.76        60
          10       0.69      0.61      0.65        70
          11       0.78      0.87      0.82       113
          12       0.83      0.78      0.80        63
          13       0.87      0.88      0.87        98
          14       0.97      0.86      0.91        76
          15       0.96      0.86      0.91        80
          16       0.91      0.99      0.95       223

    accuracy                           0.8

In [38]:
print("Evaluación en conjunto de prueba:")
y_test_pred = best_model.predict(x_test)
print(classification_report(y_test, y_test_pred))


Evaluación en conjunto de prueba:
              precision    recall  f1-score   support

           1       0.86      0.84      0.85       103
           2       0.76      0.89      0.82        65
           3       0.90      0.91      0.90       175
           4       0.93      0.94      0.93       202
           5       0.92      0.91      0.92       223
           6       0.91      0.95      0.93       117
           7       0.91      0.90      0.90       173
           8       0.68      0.63      0.66        95
           9       0.70      0.70      0.70        69
          10       0.72      0.59      0.65        70
          11       0.82      0.86      0.84       139
          12       0.90      0.86      0.88        71
          13       0.86      0.82      0.84        87
          14       0.94      0.88      0.91        73
          15       0.96      0.87      0.91        52
          16       0.91      0.97      0.94       217

    accuracy                           0.87   

In [39]:
cm = confusion_matrix(y_test, y_test_pred)
print("Matriz de confusión:\n", cm)


Matriz de confusión:
 [[ 87   1   1   1   1   0   0   2   0   7   1   0   0   0   0   2]
 [  1  58   1   0   0   1   1   1   1   0   0   1   0   0   0   0]
 [  1   2 159   2   5   0   0   4   0   0   0   1   0   0   0   1]
 [  0   0   1 190   2   0   0   3   2   0   0   0   0   0   0   4]
 [  2   0   2   3 204   0   0   3   0   1   0   0   0   0   0   8]
 [  0   0   1   0   0 111   0   0   1   0   3   0   1   0   0   0]
 [  0   2   0   0   0   1 155   0   2   0   5   1   6   1   0   0]
 [  2   4   1   7   6   0   2  60   3   6   3   0   0   0   0   1]
 [  0   0   1   1   0   1   3   5  48   0   8   1   0   0   0   1]
 [  8   3   2   0   2   0   1   9   1  41   2   0   0   0   0   1]
 [  0   0   3   0   0   3   3   0   5   1 119   3   1   0   0   1]
 [  0   1   2   0   0   0   1   0   2   0   2  61   1   0   0   1]
 [  0   2   2   0   0   2   4   0   3   0   0   0  71   1   1   1]
 [  0   3   0   0   0   3   0   0   1   0   0   0   1  64   1   0]
 [  0   0   0   0   0   0   1   1   0   

##### Ejemplos concretos de prediccion

In [41]:
import random

sample_indices = random.sample(list(df_test.index), 4)
for idx in sample_indices:
    raw_text = df_test.loc[idx, 'textos']
    true_label = df_test.loc[idx, 'ODS']
    pred_label = best_model.predict([raw_text])[0]
    
    print("="*60)
    print(f"Texto:\n{raw_text}\n")
    print(f"ODS real: {true_label}")
    print(f"ODS predicho: {pred_label}")
    print("="*60, "\n")


Texto:
La percepción del nivel de riesgo ha aumentado en general, es decir, los agricultores tienden a estimar los mismos riesgos como más importantes que antes. Los agricultores neozelandeses distinguen entre los riesgos que generan amenazas y los que generan oportunidades, siendo probablemente la línea divisoria entre ambos la capacidad del agricultor para gestionar el riesgo. Como esta capacidad puede cambiar a largo plazo, su percepción del riesgo como oportunidad o amenaza también puede cambiar con el tiempo. 

ODS real: 2
ODS predicho: 2

Texto:
A partir de entonces, se redujo ligeramente, a medida que aumentaba la migración por motivos de empleo, sobre todo dentro de la Unión Europea, y de nuevo, más recientemente, con la llegada de grandes flujos de refugiados y solicitantes de asilo. Sin embargo, la composición por sexos de la población inmigrante sólo se ha visto afectada de forma muy marginal, ya que, una vez más, las categorías migratorias en las que las mujeres representan

#### 8. Conclusiones

##### 1) Preparacion de datos y reduccion de al dimensionalidad:

 - Se ha justificado el uso de TF-IDF por resaltar términos relevantes 
     y SVD por condensar la información en menos dimensiones (50, 100 o 200), 
     mejorando tiempo de entrenamiento y reduciendo ruido.

##### 2) Resultados del modelo

El modelo alcanzó un desempeño destacado al clasificar automáticamente textos en relación con los distintos ODS. En promedio, la exactitud rondó alrededor del 86–87% en el conjunto de prueba, lo cual indicó que la mayoría de las clases fueron reconocidas con buenos valores de precisión, recall y f1-score. Sin embargo, se evidenció que ciertos ODS con menos ejemplos disponibles presentaron resultados más modestos, lo que sugirió la necesidad de recopilar más datos o ajustar algunas fases del preprocesamiento para mejorar aún más la robustez del modelo.

Asimismo, la reducción de dimensionalidad mediante SVD contribuyó a una mayor eficiencia y a evitar el sobreajuste en un espacio inicial muy extenso producto de la representación TF-IDF. Esto, sumado a la búsqueda de hiperparámetros a través de GridSearchCV, permitió afinar los valores óptimos para la regresión logística, logrando un equilibrio entre complejidad y rendimiento. En última instancia, el uso de métricas globales y de ejemplos concretos demostró la solidez del enfoque para clasificar grandes volúmenes de texto en español, brindando una base confiable para su aplicación en contextos reales de análisis y toma de decisiones sobre los ODS.


##### 3) Ejemplos reales:

   - Se mostraron 4 textos del conjunto de prueba, junto a la 
     etiqueta real y la predicción, evidenciando la utilidad del modelo 
     para clasificar nuevos documentos.