In [59]:
import pandas as pd
pd.set_option('display.max_colwidth', None)

from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

from sklearn.pipeline import Pipeline

from nltk.stem import SnowballStemmer
import spacy
import re, unicodedata

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from num2words import num2words

from sklearn.feature_extraction.text import TfidfVectorizer

import swifter

from joblib import dump, load

In [14]:
data = pd.read_excel("data/cat_345.xlsx")

In [17]:
Y = data['sdg']
X = data.drop(['sdg'], axis=1)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=1234, stratify=Y)
print(f"Total de filas en entrenamiento {X_train.shape[0]} y test {X_test.shape[0]}")

Total de filas en entrenamiento 2400 y test 600


In [12]:
X_train_clean = pd.read_excel("data2/cat_345_clean_con_lema.xlsx")
X_test_clean = pd.read_excel("data2/cat_345_clean_con_lema_test.xlsx")

In [11]:
def tokenizer(text):
    return word_tokenize(text, language="spanish")

In [36]:
vectorizer = TfidfVectorizer(
        sublinear_tf=True, max_df=0.5, min_df=5, stop_words=stopwords.words('spanish'), tokenizer=tokenizer
    )
X_train_TFID = vectorizer.fit_transform(X_train_clean['texto_limpio'])
X_test_TFID = vectorizer.transform(X_test_clean['texto_limpio'])



## Importation of the best model which is already trained

In [38]:
best_model = load('best_model.joblib')

In [40]:
y_train_pred = best_model.predict(X_train_TFID)
print(classification_report(Y_train, y_train_pred))

              precision    recall  f1-score   support

           3       1.00      1.00      1.00       800
           4       1.00      1.00      1.00       800
           5       1.00      1.00      1.00       800

    accuracy                           1.00      2400
   macro avg       1.00      1.00      1.00      2400
weighted avg       1.00      1.00      1.00      2400



In [41]:
y_test_pred = best_model.predict(X_test_TFID)
print(classification_report(Y_test, y_test_pred))

              precision    recall  f1-score   support

           3       0.98      0.97      0.98       200
           4       0.97      0.99      0.98       200
           5       0.98      0.98      0.98       200

    accuracy                           0.98       600
   macro avg       0.98      0.98      0.98       600
weighted avg       0.98      0.98      0.98       600



In [43]:
Y_test

684     3
2562    5
2521    5
1250    4
2410    5
       ..
2323    5
2115    5
1378    4
1833    4
1330    4
Name: sdg, Length: 600, dtype: int64

In [44]:
y_test_pred

array([3, 5, 5, 4, 5, 5, 5, 4, 3, 3, 3, 4, 4, 5, 5, 5, 5, 4, 4, 4, 3, 4,
       4, 3, 4, 5, 3, 4, 5, 4, 5, 3, 4, 3, 3, 3, 4, 5, 3, 4, 5, 5, 3, 5,
       3, 4, 5, 5, 4, 5, 4, 5, 4, 3, 4, 4, 4, 4, 5, 4, 5, 5, 5, 5, 4, 4,
       4, 3, 4, 4, 5, 3, 4, 4, 4, 5, 5, 3, 4, 5, 3, 5, 3, 3, 4, 3, 5, 5,
       4, 4, 5, 4, 3, 5, 3, 5, 3, 3, 3, 3, 4, 3, 4, 4, 3, 4, 3, 4, 5, 5,
       3, 3, 3, 5, 4, 4, 3, 5, 3, 4, 5, 4, 5, 4, 5, 5, 4, 3, 5, 4, 5, 5,
       5, 3, 3, 4, 5, 3, 4, 5, 3, 4, 4, 5, 3, 4, 4, 3, 5, 5, 3, 3, 5, 5,
       3, 4, 5, 5, 4, 4, 3, 4, 5, 5, 4, 3, 4, 4, 3, 5, 5, 4, 5, 3, 3, 3,
       5, 5, 3, 5, 4, 5, 5, 5, 4, 3, 5, 4, 4, 3, 4, 4, 3, 4, 4, 3, 3, 5,
       5, 3, 5, 3, 4, 3, 4, 3, 4, 3, 5, 4, 4, 4, 5, 5, 4, 5, 5, 4, 5, 4,
       5, 5, 5, 3, 4, 5, 5, 4, 5, 5, 4, 5, 3, 4, 3, 3, 5, 3, 3, 5, 4, 3,
       5, 4, 3, 4, 3, 4, 5, 3, 5, 3, 4, 4, 5, 3, 3, 5, 4, 5, 5, 3, 4, 3,
       3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 3, 3, 3, 4, 4, 4, 3, 4, 3, 4, 5, 4,
       4, 5, 5, 5, 5, 5, 3, 5, 5, 4, 5, 3, 5, 3, 3,

In [46]:
X_test.head(1)

Unnamed: 0,Textos_espanol
684,"El centro, ubicado en el Hospital Universitario de Dakar, también ofrece un programa de mantenimiento con metadona, servicios de tratamiento de la drogodependencia, programas de extensión y programas para el tratamiento de la infección por el VIH y la hepatitis para consumidores de drogas. Cabo Verde está poniendo a prueba una “ventanilla única” para drogadictos, un centro que ofrece múltiples servicios de tratamiento por abuso de drogas en un barrio vulnerable de la ciudad capital de Praia, promoviendo la implementación de un enfoque de tratamiento basado en la comunidad. En Kenia, después de que se abriera un centro de tratamiento de sustitución de opiáceos (conocido localmente como clínica de terapia médicamente asistida) en Nairobi en diciembre de 2014, se abrió un segundo centro en Malindi en febrero de 2015 y otros dos en Mombasa en septiembre de 2015."


In [47]:
X_test_clean.head(1)

Unnamed: 0.1,Unnamed: 0,Textos_espanol,texto_limpio
0,684,"El centro, ubicado en el Hospital Universitario de Dakar, también ofrece un programa de mantenimiento con metadona, servicios de tratamiento de la drogodependencia, programas de extensión y programas para el tratamiento de la infección por el VIH y la hepatitis para consumidores de drogas. Cabo Verde está poniendo a prueba una “ventanilla única” para drogadictos, un centro que ofrece múltiples servicios de tratamiento por abuso de drogas en un barrio vulnerable de la ciudad capital de Praia, promoviendo la implementación de un enfoque de tratamiento basado en la comunidad. En Kenia, después de que se abriera un centro de tratamiento de sustitución de opiáceos (conocido localmente como clínica de terapia médicamente asistida) en Nairobi en diciembre de 2014, se abrió un segundo centro en Malindi en febrero de 2015 y otros dos en Mombasa en septiembre de 2015.",centr ubic hospital universitari dak tambi ofrec program manten metadon servici tratamient drogodependent program extension program tratamient infeccion vih hepatitis consumidor drog cab verd pon prueb ventanill unic drogadict centr ofrec multipl servici tratamient abus drog barri vulner ciud capital prai promov implement enfoqu tratamient bas comun keni despu abrier centr tratamient sustitucion opiace conoc local clinic terapi medic asist nairobi diciembr dos mil catorc abri segund centr malindi febrer dos mil quinc dos mombas septiembr dos mil quinc centro ubicado hospital universitario dakar tambien ofrecer programa mantenimiento metadona servicios tratamiento drogodependenciar programas extension programas tratamiento infeccion vih hepatitis consumidores drogas cabo verde poner prueba ventanilla unicar drogadictos centro ofrecer multiples servicios tratamiento abuso drogas barrio vulnerable ciudad capital praia promover implementacion enfoque tratamiento basado comunidad kenia despues abriera centro tratamiento sustitucion opiaceos conocido localmente clinica terapia medicamente asistida nairobi diciembre dos mil catorce abrio segundo centro malindi febrero dos mil quince dos mombasa septiembre dos mil quince


## Pipeline creation

In [42]:
pipe = Pipeline([
    ('Vectorizer', vectorizer),
    ('Ridge Classifier', best_model)
])

In [61]:
dump(pipe, 'thePipeline.joblib')

['thePipeline.joblib']

In [57]:
text = ['escuel centro educ']

In [58]:
pipe.predict(text)

array([4], dtype=int64)