# Carga de datos

In [2]:
!pip install unidecode
!pip install nltk
import nltk
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')




[nltk_data] Downloading package stopwords to /home/sergon/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /home/sergon/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /home/sergon/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [3]:
# Librerías para manejo de datos
import pandas as pd
pd.set_option('display.max_columns', 25) # Número máximo de columnas a mostrar
pd.set_option('display.max_rows', 50) # Numero máximo de filas a mostar
import numpy as np
np.random.seed(3301)
import pandas as pd
# Para preparar los datos
from sklearn.preprocessing import LabelEncoder
# Para crear el arbol de decisión
from sklearn.tree import DecisionTreeClassifier
# Para usar KNN como clasificador
from sklearn.neighbors import KNeighborsClassifier
# Para realizar la separación del conjunto de aprendizaje en entrenamiento y test.
from sklearn.model_selection import train_test_split
# Para evaluar el modelo
#from sklearn.metrics import confusion_matrix, classification_report, precision_score, recall_score, f1_score, accuracy_score
#from sklearn.metrics import plot_confusion_matrix
# Para búsqueda de hiperparámetros
from sklearn.model_selection import GridSearchCV
# Para la validación cruzada
from sklearn.model_selection import KFold
#Librerías para la visualización
import matplotlib.pyplot as plt
# Seaborn
import seaborn as sns
from sklearn import tree
from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction import text
from nltk.corpus import stopwords
from wordcloud import WordCloud
import unidecode
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix
import spacy

In [4]:
ubi = './data/ODScat_345.xlsx'

In [5]:
df_ods = pd.read_excel(ubi)

In [6]:
df_ods.shape

(4049, 2)

Se evidencion que hay 4049 opiniones sobre problematicas relacionadas con los ODS

In [8]:
df_ods.sample(5)

Unnamed: 0,Textos_espanol,sdg
3202,"Por lo tanto, necesitan desarrollar fuertes ví...",4
2667,"Prensa feminista, 2007), pág. 212. Comenzó a e...",5
1374,"El maestro de preescolar, el maestro de primer...",4
1106,Aquellos que hablan un idioma europeo tienen p...,4
4022,"Además, el plan no solo cubre al ejército cana...",5


La informacion cuenta con dos columnas, la primera Textos_espanol contiene el texto con la opinion del ciudadano, la segunda es el numero de ODS que le corresponde (columna que debemos predecir)

In [10]:
df_ods['sdg'].value_counts()

sdg
5    1451
4    1354
3    1244
Name: count, dtype: int64

# Preparacion de datos

Resolver problemas de codificacion

In [13]:
# mapa de uft a ansi
utf8_to_ansi_map = {
    'Ã¡': 'á', 'Ã©': 'é', 'Ã­': 'í', 'Ã³': 'ó', 'Ãº': 'ú',
    'Ã±': 'ñ', 'ÃÁ': 'Á', 'Ã‰': 'É', 'ÃÍ': 'Í', 'ÃÓ': 'Ó',
    'ÃÚ': 'Ú', 'Ã‘': 'Ñ', 'Â¿': '¿', 'Â¡': '¡'
}

# funcion para remplazar las malas codificaciones
def replace_utf8_with_ansi(text):
    for utf8_char, ansi_char in utf8_to_ansi_map.items():
        text = text.replace(utf8_char, ansi_char)
    return text

df_manipulado = df_ods.copy()
# aplicar codificacion
df_manipulado['Textos_espanol'] = df_ods['Textos_espanol'].apply(replace_utf8_with_ansi)
df_manipulado.sample(5)


Unnamed: 0,Textos_espanol,sdg
530,Las habilidades sociales son un determinante c...,3
847,"En el Reino Unido, los ADE pueden representar ...",3
15,Estas estaciones cuentan con asistentes médico...,3
4037,A pesar de que las mujeres están en el mercado...,5
1229,Se consideró que el éxito de las reformas al p...,4


Verificamos y todos los textos se encuentran en español por lo tanto es importante tener una buena preparcion de datos con respecto a los caracteres especiales.  Se define un mapeo entre los caracteres UTF-8 mal interpretados y sus equivalentes en ANSI para hacer este proceso. Se extrae una muestra de 5 filas aleatorias del DataFrame df_manipulado para verificar cómo quedaron los textos después de la corrección

Convertir en tokens

In [26]:
def preprocess_text(text):
    # poner en minusculas
    text = text.lower()
    # Tokenize the text
    tokens = word_tokenize(text)
    # remover puntuacion y stopwords
    tokens = [word for word in tokens if word.isalnum() and word not in spanish_stop_words]
    return ' '.join(tokens)

spanish_stop_words = stopwords.words('spanish')

df_manipulado['processed_text'] = df_manipulado['Textos_espanol'].apply(preprocess_text)
df_manipulado.sample(5)

Unnamed: 0,Textos_espanol,sdg,processed_text
1733,"De hecho, se ha comprobado que la educación en...",4,hecho comprobado educación primera infancia fa...
9,"En este sentido, es una forma eficaz de mejora...",3,forma eficaz mejorar eficacia calidad servicio...
3464,Las mujeres y las niñas deben tener el mismo a...,5,mujeres niñas deben tener mismo acceso servici...
3239,La OCDE está elaborando mejores datos sobre lo...,3,ocde elaborando mejores datos resultados asist...
1586,Esto podría implicar directrices para las escu...,4,podría implicar directrices escuelas celebraci...


El objetivo es normalizar los textos para futuros análisis, eliminando caracteres irrelevantes y facilitando el procesamiento natural del lenguaje (NLP).

**Convertir a minúsculas (text.lower()):**

Esta conversión uniformiza las palabras, eliminando la diferencia entre mayúsculas y minúsculas. Por ejemplo, "Gobierno" y "gobierno" serán tratadas como la misma palabra.


**Tokenización (word_tokenize(text)):**

La tokenización separa el texto en palabras o "tokens". Esto para poder evaluar las palabras invidualmente
Ejemplo: "El consumo anual de alcohol" → ["El", "consumo", "anual", "de", "alcohol"].

**Eliminar puntuación y palabras vacías:**

Puntuación: Se eliminan tokens que no son alfanuméricos, como comas y puntos.
Stopwords: Las palabras vacías (palabras comunes como "de", "el", "y") se eliminan. Esto es útil porque estas palabras no suelen agregar significado a los análisis de texto.


**Unir los tokens (' '.join(tokens)):**

Se reconstruye el texto a partir de los tokens filtrados. El resultado es un texto sin puntuación, palabras comunes, y con solo palabras relevantes para el análisis.

Lemalizacion

In [30]:
#  transformar a vectores usando TF-IDF

vectorizerRF = TfidfVectorizer()
X = vectorizerRF.fit_transform(df_manipulado['processed_text'])
y = df_ods['sdg']

Convertimos cada texto en un vector numérico, donde cada entrada representa la relevancia de una palabra para ese texto en particular. Este vector será usado como entrada para el modelo de clasificación.

# Construccion del modelo

## Random forest

In [35]:
# Dividimos los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenamos el modelo Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# Hacemos predicciones
y_pred = rf_model.predict(X_test)

# Evaluamos el rendimiento del modelo
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred, target_names=['ODS 3', 'ODS 4', 'ODS 5'], digits=4)
print(accuracy)
print(report)

0.9703703703703703
              precision    recall  f1-score   support

       ODS 3     0.9762    0.9840    0.9801       250
       ODS 4     0.9596    0.9739    0.9667       268
       ODS 5     0.9755    0.9555    0.9654       292

    accuracy                         0.9704       810
   macro avg     0.9704    0.9711    0.9707       810
weighted avg     0.9704    0.9704    0.9703       810



# Procesamiento de datos TEST

In [38]:
ubi_test = './data/TestODScat_345.xlsx'
df_test = pd.read_excel(ubi_test)

Resolver problemas de codificacion

In [41]:
df_test_manipulado = df_test.copy()
df_test_manipulado['Textos_espanol'] = df_test['Textos_espanol'].apply(replace_utf8_with_ansi)
df_test_manipulado.sample(5)

Unnamed: 0,Textos_espanol,sdg
443,Estos períodos coinciden con distintas fases e...,
653,Los hombres tienen tres veces más probabilidad...,
259,Garantizar la igualdad de oportunidades para t...,
337,"Además, el objetivo de la Ley es contrarrestar...",
546,Hacer que los beneficios del registro sean más...,


Tokenizado

In [44]:
df_test_manipulado['processed_text'] = df_test_manipulado['Textos_espanol'].apply(preprocess_text)

Crear vector

In [47]:
X = vectorizerRF.transform(df_test_manipulado['processed_text'])

In [49]:
y_pred = rf_model.predict(X)
df_test["sdg"] = y_pred
df_test.sample(20)

Unnamed: 0,Textos_espanol,sdg
604,Los 290 municipios financian la atención a la ...,3
490,Este estudio es un excelente ejemplo de una me...,5
158,Su nivel educativo sería inferior a 3 años en ...,4
632,"Aún así, persiste una limitación en la producc...",5
287,"Con este fin, los países de la OCDE utilizan c...",5
192,La estrategia podría incorporar elementos impo...,5
197,"Por lo tanto, aunque las causas estructurales ...",5
653,Los hombres tienen tres veces más probabilidad...,5
96,"En la mayoría de los países, las políticas mon...",5
627,"Sin embargo, se debe tener el mismo cuidado pa...",5


In [51]:
# guardar la informacion 
df_test.to_csv('./data/salida_test.csv', index=False)