In [84]:
import pandas as pd
from sklearn.decomposition import TruncatedSVD
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVR
from sklearn.model_selection import train_test_split
import nltk
from nltk.corpus import stopwords
from sklearn.preprocessing import LabelEncoder


In [79]:
nltk.download('stopwords')
spanish_stopwords = stopwords.words('spanish')



[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/vorellan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [80]:
data = pd.read_excel('./data/data.xlsx', engine='openpyxl')

In [81]:
data = data.dropna(subset=['textos', 'ODS'])
data = data.drop_duplicates(subset=['textos'])


In [82]:
X = data['textos']


In [85]:
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(data['ODS']) 

In [86]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [87]:
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer(stop_words=spanish_stopwords)), 
    ('svd', TruncatedSVD(n_components=100)),  
    ('regressor', SVR())  
])


In [88]:
pipeline.fit(X_train, y_train)


In [89]:
y_pred = pipeline.predict(X_test)


In [90]:
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Mean Squared Error (MSE): {}".format(mse))
print("Mean Absolute Error (MAE): {}".format(mae))
print("R^2 Score: {}".format(r2))

Mean Squared Error (MSE): 5.235633069557148
Mean Absolute Error (MAE): 1.6054441706040854
R^2 Score: 0.7596171482281422


In [137]:
def predecir_texto(texto):
    prediccion = pipeline.predict([texto])
    prediccion_decodificada = label_encoder.inverse_transform([int(prediccion[0])])
    return prediccion_decodificada[0]

###Prueba 1

texto_prueba_1 = X_test.iloc[300]
print("Texto de prueba:", texto_prueba_1)

prediccion_prueba_1 = predecir_texto(texto_prueba_1)
print("Predicción para el texto:", prediccion_prueba_1)

###Prueba 2

texto_prueba_2 = X_test.iloc[800]
print("Texto de prueba:", texto_prueba_2)

prediccion_prueba_2 = predecir_texto(texto_prueba_2)
print("Predicción para el texto:", prediccion_prueba_2)

#Prueba 3

texto_prueba_3 = X_test.iloc[280]
print("Texto de prueba:", texto_prueba_3)

prediccion_prueba_3 = predecir_texto(texto_prueba_3)
print("Predicción para el texto:", prediccion_prueba_3)

#Prueba 4

texto_prueba_4 = X_test.iloc[234]
print("Texto de prueba:", texto_prueba_4)

prediccion_prueba_4 = predecir_texto(texto_prueba_4)
print("Predicción para el texto:", prediccion_prueba_4)



Texto de prueba: En 2012, el 83% de todas las muertes en Costa Rica se debieron a ENT, siendo las enfermedades cardiovasculares la principal causa de muerte con un 30%, seguidas por el cáncer con un 23% de todas las muertes (Figura 1.6) (OMS, 2014). En una encuesta de 2010, el 38 % de los adultos tenía hipertensión, el 42 % niveles elevados de colesterol y el 51 % tenía poca o ninguna actividad física. La prevalencia de la obesidad fue del 24,4 % de la población en 2014, cifra superior al promedio de la OCDE del 19 % (OCDE, 2016b).
Predicción para el texto: 3
Texto de prueba: En general, a nivel nacional, las autoridades estiman que alcanzar el nivel de tratamiento que cumpla con los estándares de descarga requerirá niveles de inversión de unos MXN114 mil millones (USD 9,5 mil millones). Además, los municipios de Chihuahua y Juárez se han mostrado activos en el reciclaje de agua para riego de áreas verdes y uso industrial. Este mapa tiene fines ilustrativos y se entiende sin perjuicio 