# Radar ODS
`Información esencial` Un ODS es un objetivo de desarrollo sostenible. Este notebook hará uso del Procesamiento de Lenguaje Natural para predecir ODS's mediante el análisis de comentarios escritos por usuarios em la aplicación de eAgora.

Existe un apartado donde se define una función que leerá una tabla con datos etiquetados y cuando se le añada un nuevo comentario sin etiquetar, se hará la predicción de este comentario.

In [1]:
# Importamos todos los paquetes necesarios para poder llevar a cabo el ejercicio
import MySQLdb
import pandas as pd
import numpy as np
import re
import string
import spacy
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from skmultilearn.adapt import MLkNN
from sklearn.metrics import hamming_loss, accuracy_score
from sklearn.preprocessing import MultiLabelBinarizer
from langdetect import detect, DetectorFactory
from skmultilearn.problem_transform import BinaryRelevance
from sklearn.naive_bayes import GaussianNB
from skmultilearn.problem_transform import LabelPowerset
from sklearn.linear_model import LogisticRegression
import sklearn.metrics as skm

In [2]:
# Importamos el dataset de entrenamiento
# Dataset generado a mano de manera artificial 

contenidos = pd.read_excel(r"C:\Users\pueygu01\Python Programs\Máster - Proyecto\dataset - español y catalan final version.xlsx")
contenidos.head()

Unnamed: 0,español,catalan,Etiqueta
0,erradicar la pobreza extrema para todas las pe...,erradicar la pobresa extrema per a totes les p...,ODS1
1,reducir al menos a la mitad la proporción de h...,reduir almenys a la meitat la proporció d'home...,ODS1
2,"garantizar que todos los hombres y mujeres, en...","garantir que tots els homes i dones, en partic...",ODS1
3,omentar la resiliencia de los pobres y las per...,omentar la resiliència dels pobres i les perso...,ODS1
4,reducir su exposición y vulnerabilidad a los f...,reduir la seva exposició i vulnerabilitat als ...,ODS1


In [3]:
# Podemos limpiar un poco el texto de mayúsculas y comillas. Para ello usamos una función que nos lo haga en todo el dataset

def clean_text(text):
    text = text.lower()
    text = text.strip(' ')
    text = text.strip('"')
    return text

In [4]:
# Aplicamos la función anterior
contenidos["español_limpio"]=contenidos.español.apply(clean_text)
contenidos["catalan_limpio"]=contenidos.catalan.apply(clean_text)
contenidos.head()

Unnamed: 0,español,catalan,Etiqueta,español_limpio,catalan_limpio
0,erradicar la pobreza extrema para todas las pe...,erradicar la pobresa extrema per a totes les p...,ODS1,erradicar la pobreza extrema para todas las pe...,erradicar la pobresa extrema per a totes les p...
1,reducir al menos a la mitad la proporción de h...,reduir almenys a la meitat la proporció d'home...,ODS1,reducir al menos a la mitad la proporción de h...,reduir almenys a la meitat la proporció d'home...
2,"garantizar que todos los hombres y mujeres, en...","garantir que tots els homes i dones, en partic...",ODS1,"garantizar que todos los hombres y mujeres, en...","garantir que tots els homes i dones, en partic..."
3,omentar la resiliencia de los pobres y las per...,omentar la resiliència dels pobres i les perso...,ODS1,omentar la resiliencia de los pobres y las per...,omentar la resiliència dels pobres i les perso...
4,reducir su exposición y vulnerabilidad a los f...,reduir la seva exposició i vulnerabilitat als ...,ODS1,reducir su exposición y vulnerabilidad a los f...,reduir la seva exposició i vulnerabilitat als ...


In [5]:
# IMPORTANTE:  Para poder aplicar un modelo de prediccón de multi-etiqueta, es necesario que las etiquetas sean un conjunto de listas
# Pasamos a lista nuestras etiquetas

contenidos["Etiqueta"] = contenidos["Etiqueta"].str.split()

In [6]:
# Mediante MultiLabelBinarizer() podemos extraer todas las etiquetas y transponerlas a columnas

multilabel = MultiLabelBinarizer()

# Renombramos 
new_contenidos = multilabel.fit_transform(contenidos["Etiqueta"])


In [7]:
# Para ver todas las diferentes etiquetas, llamamos a "classes_" mediante miltilabel
multilabel.classes_

array(['ODS1', 'ODS10', 'ODS11', 'ODS12', 'ODS13', 'ODS14', 'ODS15',
       'ODS16', 'ODS17', 'ODS2', 'ODS3', 'ODS4', 'ODS5', 'ODS6', 'ODS7',
       'ODS8', 'ODS9'], dtype=object)

In [8]:
# Para poder trabajar, lo tenemos que pasar a DataFrame y aprovechamos para poner las etiquetas como columnas

new_contenidos1 = pd.DataFrame(new_contenidos
             , columns = multilabel.classes_)
new_contenidos1.head()

Unnamed: 0,ODS1,ODS10,ODS11,ODS12,ODS13,ODS14,ODS15,ODS16,ODS17,ODS2,ODS3,ODS4,ODS5,ODS6,ODS7,ODS8,ODS9
0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
3,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
4,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [9]:
# Concatenamos el último dataframe con su correspondiente comentario para obtener así el formato de tabla que necesitamos
# para moderlar
# Ahora ya tenemos los comentarios junto con sus etiquetas en columnas con cero o uno

df_new_contenidos = pd.concat([contenidos, new_contenidos1], axis=1)

df_new_contenidos.head()

Unnamed: 0,español,catalan,Etiqueta,español_limpio,catalan_limpio,ODS1,ODS10,ODS11,ODS12,ODS13,...,ODS16,ODS17,ODS2,ODS3,ODS4,ODS5,ODS6,ODS7,ODS8,ODS9
0,erradicar la pobreza extrema para todas las pe...,erradicar la pobresa extrema per a totes les p...,[ODS1],erradicar la pobreza extrema para todas las pe...,erradicar la pobresa extrema per a totes les p...,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,reducir al menos a la mitad la proporción de h...,reduir almenys a la meitat la proporció d'home...,[ODS1],reducir al menos a la mitad la proporción de h...,reduir almenys a la meitat la proporció d'home...,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,"garantizar que todos los hombres y mujeres, en...","garantir que tots els homes i dones, en partic...",[ODS1],"garantizar que todos los hombres y mujeres, en...","garantir que tots els homes i dones, en partic...",1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,omentar la resiliencia de los pobres y las per...,omentar la resiliència dels pobres i les perso...,[ODS1],omentar la resiliencia de los pobres y las per...,omentar la resiliència dels pobres i les perso...,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,reducir su exposición y vulnerabilidad a los f...,reduir la seva exposició i vulnerabilitat als ...,[ODS1],reducir su exposición y vulnerabilidad a los f...,reduir la seva exposició i vulnerabilitat als ...,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


# Creación de Modelos
------------------------
En este siguiente apartado vamos crear los modelos y a evaluar su rendimiento. Recordamos que el dataset de entrenamiento ha sido creado a mano de manera artificial y por tanto es muy pequeño para lograr calidad en el modelo.


### `Definición de molelos en Castellano`
Vamos a usar el dataset con los comentarios en castellano para entrenar y validar nuestro modelo

In [10]:
# Definimos un vector X con los comentarios y un vector y con las etiquetas (1 ó 0)

X_castellano = df_new_contenidos["español_limpio"]
y_castellano = np.asarray(df_new_contenidos[df_new_contenidos.columns[5:]])

# Iniciamos el paquete TfidfVectorizer 

vetorizar_castellano = TfidfVectorizer(max_features=3000, max_df=0.85)

# Aplicamos el fit() en el vector de comentarios X
vetorizar_castellano.fit(X_castellano)

# Usando "train_test_split" partimos nuestro dataset en entrenamiento y test
X_train_castellano, X_test_castellano, y_train_castellano, y_test_castellano = train_test_split(X_castellano
                                                                                               ,y_castellano
                                                                                               ,test_size=0.25
                                                                                               ,random_state=42)

# Transformamos nuestros datos

X_castellano_train_tfidf = vetorizar_castellano.transform(X_train_castellano)
X_castellano_test_tfidf = vetorizar_castellano.transform(X_test_castellano)

#################################################################################
############## Clasificación Multilabel de los vecinos más cercanos #############
#################################################################################

mlknn_classifier_castellano = MLkNN()
mlknn_classifier_castellano.fit(X_castellano_train_tfidf, y_train_castellano)

#################################################################################
######################## Relevancia Binaria con Naive Bayes #####################
#################################################################################

bin_class_castellano = BinaryRelevance(GaussianNB())
bin_class_castellano.fit(X_castellano_train_tfidf, y_train_castellano)

#################################################################################
##################### Power Label Set con Regresión logística ###################
#################################################################################

label_powerset_castellano = LabelPowerset(LogisticRegression())
label_powerset_castellano.fit(X_castellano_train_tfidf, y_train_castellano)




LabelPowerset(classifier=LogisticRegression(), require_dense=[True, True])

### `Definición de molelos en Catalán`
Vamos a usar el dataset con los comentarios en catalán para entrenar y validar nuestro modelo

In [11]:
# Definimos un vector X con los comentarios y un vector y con las etiquetas (1 ó 0)

X_catalan = df_new_contenidos["catalan_limpio"]
y_catalan = np.asarray(df_new_contenidos[df_new_contenidos.columns[5:]])

# Iniciamos el paquete TfidfVectorizer 

vetorizar_catalan = TfidfVectorizer(max_features=3000, max_df=0.85)

# Aplicamos el fit() en el vector de comentarios X
vetorizar_catalan.fit(X_catalan)

# Usando "train_test_split" partimos nuestro dataset en entrenamiento y test
X_train_catalan, X_test_catalan, y_train_catalan, y_test_catalan = train_test_split(X_catalan
                                                                                   ,y_catalan
                                                                                   ,test_size=0.25
                                                                                   ,random_state=42)

# Transformamos nuestros datos

X_catalan_train_tfidf = vetorizar_catalan.transform(X_train_catalan)
X_catalan_test_tfidf = vetorizar_catalan.transform(X_test_catalan)

#################################################################################
############## Clasificación Multilabel de los vecinos más cercanos #############
#################################################################################

mlknn_classifier_catalan = MLkNN()
mlknn_classifier_catalan.fit(X_catalan_train_tfidf, y_train_catalan)

#################################################################################
######################## Relevancia Binaria con Naive Bayes #####################
#################################################################################

bin_class_catalan = BinaryRelevance(GaussianNB())
bin_class_catalan.fit(X_catalan_train_tfidf, y_train_catalan)

#################################################################################
##################### Power Label Set con Regresión logística ###################
#################################################################################

label_powerset_catalan = LabelPowerset(LogisticRegression())
label_powerset_catalan.fit(X_catalan_train_tfidf, y_train_catalan)





LabelPowerset(classifier=LogisticRegression(), require_dense=[True, True])

### Generación de las dos funciones. Una para cada idioma
Las siguientes funciones se usarán para llamar al modelo entrenado y predecir ODSs en castellano o catalán

In [12]:
def identificador_ODS_castellano(comentario):
    frase_tfidf = vetorizar_castellano.transform(comentario)
    predicción = multilabel.inverse_transform(mlknn_classifier_castellano.predict(frase_tfidf))
    return print("El/los ODS para ese comentario son;", predicción)

def identificador_ODS_catalan(comentario):
    frase_tfidf = vetorizar_catalan.transform(comentario)
    predicción = multilabel.inverse_transform(mlknn_classifier_catalan.predict(frase_tfidf))
    return print("El/los ODS para ese comentario son;", predicción)

## Función para limpiar el texto
Estas funciones nos permiten limpiar el texto para poder obtener una mejor predicción

In [13]:
#lista de stop-words específicos de nuestro corpus (aproximación)
stop_words = ['el', 'la', 'lo', 'los', 'las', 'un', 'una', 'unos', 'unas', 'me', 'a', 'de', 'se', 'te','?']

pattern2 = re.compile('[{}]'.format(re.escape(string.punctuation))) #elimina símbolos de puntuación

def clean_text(text):
    """Limpiamos las menciones y URL del texto. Luego convertimos en tokens
    eliminamos los tokens que son signos de puntuación, convertimos en
    minúsculas y quitamos signos de puntuación. Para terminar
    volvemos a convertir en cadena de texto"""
    text = re.sub(r'@[\w_]+|https?://[\w_./]+', '', text) #elimina menciones y URL
    tokens = nlp(text)
    tokens = [tok.lower_ for tok in tokens if not tok.is_punct and not tok.is_space]
    filtered_tokens = [pattern2.sub('', token) for token in tokens if not (token in stop_words)]
    filtered_text = ' '.join(filtered_tokens)
    
    return filtered_text

def lemmatize_text(text):
    """Convertimos el texto a tokens, extraemos el lema de cada token
    y volvemos a convertir en cadena de texto"""
    tokens = nlp(text)
    lemmatized_tokens = [tok.lemma_ for tok in tokens]
    lemmatized_text = ' '.join(lemmatized_tokens)
    
    return lemmatized_text

# Rendimiento de modelos
En este apartado calcularemos el accuracy de nuestros modelos para ver cuál de ellos es el que mejor predice.

### MLkNN - Vecinos más cercanos

In [14]:
prediccion_castellano = mlknn_classifier_castellano.predict(X_castellano_test_tfidf)
prediccion_catalan = mlknn_classifier_catalan.predict(X_catalan_test_tfidf)
print("--------------------------------------------------------------")
print("-------------- Accuracy de los modelos MLKnn ------------------")
print("---------------------------------------------------------------")
print("El accuracy del modelo MLKnn en CASTELLANO es ;",accuracy_score(y_test_castellano,prediccion_castellano))
print("El accuracy del modelo MLKnn en CATALÁN es    ;",accuracy_score(y_test_catalan,prediccion_catalan))

--------------------------------------------------------------
-------------- Accuracy de los modelos MLKnn ------------------
---------------------------------------------------------------
El accuracy del modelo MLKnn en CASTELLANO es ; 0.5647382920110193
El accuracy del modelo MLKnn en CATALÁN es    ; 0.5426997245179064


### Relevancia binaria con Naive - Bayes


In [15]:
prediccion_castellano = bin_class_castellano.predict(X_castellano_test_tfidf)
prediccion_catalan = bin_class_catalan.predict(X_catalan_test_tfidf)
print("--------------------------------------------------------------")
print("------- Accuracy de los modelos ocn Relevancia binaria -------")
print("---------------------------------------------------------------")
print("El accuracy del modelo de Relevancia binaria en CASTELLANO es ;",accuracy_score(prediccion_castellano, y_test_castellano))
print("El accuracy del modelo de Relevancia binaria en CATALÁN es    ;",accuracy_score(prediccion_catalan, y_test_catalan))

--------------------------------------------------------------
------- Accuracy de los modelos ocn Relevancia binaria -------
---------------------------------------------------------------
El accuracy del modelo de Relevancia binaria en CASTELLANO es ; 0.49586776859504134
El accuracy del modelo de Relevancia binaria en CATALÁN es    ; 0.4820936639118457


### Label Powerset con regresión logística

#### `Castellano`

In [16]:
prediccion_castellano = label_powerset_castellano.predict(X_castellano_test_tfidf)
prediccion_catalan = label_powerset_catalan.predict(X_catalan_test_tfidf)
print("--------------------------------------------------------------")
print("------- Accuracy de los modelos ocn Relevancia binaria -------")
print("---------------------------------------------------------------")


print("El accuracy del modelo Label Powerset en CASTELLANO es ;",accuracy_score(prediccion_castellano, y_test_castellano))
print("El accuracy del modelo Label Powerset en CATALÁN es    ;",accuracy_score(prediccion_catalan, y_test_catalan))

--------------------------------------------------------------
------- Accuracy de los modelos ocn Relevancia binaria -------
---------------------------------------------------------------
El accuracy del modelo Label Powerset en CASTELLANO es ; 0.650137741046832
El accuracy del modelo Label Powerset en CATALÁN es    ; 0.6473829201101928


## Precisión de modelos
Vamos a ver la precisión de los modelos en los dos idiomas para los 3 modelos diferentes

In [17]:
##############################################################################
############## Relevancia Binaria con Naive Bayes ############################

# Catalán

prediccion_catalan = bin_class_catalan.predict(X_catalan_test_tfidf)
#cm = skm.multilabel_confusion_matrix(y_test_castellano,prediccion_castellano)
#print(cm)
print(skm.classification_report(y_test_catalan,prediccion_catalan))

              precision    recall  f1-score   support

           0       0.89      0.79      0.84        42
           1       0.76      0.36      0.49        36
           2       0.52      0.48      0.50        23
           3       1.00      0.40      0.57         5
           4       0.56      0.38      0.45        39
           5       0.74      0.40      0.52        42
           6       0.72      0.47      0.57        38
           7       0.76      0.71      0.73        31
           8       0.80      0.33      0.47        12
           9       1.00      0.75      0.86        24
          10       0.96      0.89      0.92        27
          11       0.85      0.74      0.79        31
          12       0.79      0.39      0.52        28
          13       1.00      0.43      0.60         7
          14       0.00      0.00      0.00         1
          15       0.65      0.50      0.57        26
          16       0.85      0.46      0.59        24

   micro avg       0.78   

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [18]:
##############################################################################
############## Relevancia Binaria con Naive Bayes ############################

# Castellano

prediccion_castellano = bin_class_castellano.predict(X_castellano_test_tfidf)
#cm = skm.multilabel_confusion_matrix(y_test_castellano,prediccion_castellano)
#print(cm)
print(skm.classification_report(y_test_castellano,prediccion_castellano))

              precision    recall  f1-score   support

           0       0.92      0.81      0.86        42
           1       0.63      0.33      0.44        36
           2       0.56      0.43      0.49        23
           3       1.00      0.60      0.75         5
           4       0.57      0.41      0.48        39
           5       0.81      0.40      0.54        42
           6       0.81      0.55      0.66        38
           7       0.79      0.74      0.77        31
           8       0.80      0.33      0.47        12
           9       0.94      0.71      0.81        24
          10       0.96      0.89      0.92        27
          11       0.88      0.74      0.81        31
          12       0.80      0.43      0.56        28
          13       1.00      0.29      0.44         7
          14       0.00      0.00      0.00         1
          15       0.68      0.50      0.58        26
          16       0.85      0.46      0.59        24

   micro avg       0.80   

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [19]:
##############################################################################
######################## Vecinos más cercanos ################################

# Castellano

prediccion_castellano = mlknn_classifier_castellano.predict(X_castellano_test_tfidf)
#conf_matrix = skm.multilabel_confusion_matrix(y_test_castellano,prediccion_castellano)
#print(conf_matrix)
print( skm.classification_report(y_test_castellano,prediccion_castellano))

              precision    recall  f1-score   support

           0       0.86      0.90      0.88        42
           1       0.71      0.33      0.45        36
           2       0.79      0.65      0.71        23
           3       0.00      0.00      0.00         5
           4       0.77      0.51      0.62        39
           5       1.00      0.57      0.73        42
           6       0.83      0.53      0.65        38
           7       0.93      0.81      0.86        31
           8       0.83      0.42      0.56        12
           9       0.85      0.92      0.88        24
          10       0.78      0.93      0.85        27
          11       1.00      0.77      0.87        31
          12       0.81      0.46      0.59        28
          13       0.83      0.71      0.77         7
          14       0.00      0.00      0.00         1
          15       0.70      0.54      0.61        26
          16       0.79      0.46      0.58        24

   micro avg       0.84   

In [20]:
##############################################################################
######################## Vecinos más cercanos ################################

# Catalán

prediccion_catalan = mlknn_classifier_catalan.predict(X_catalan_test_tfidf)
#conf_matrix = skm.multilabel_confusion_matrix(y_test_castellano,prediccion_castellano)
#print(conf_matrix)
print( skm.classification_report(y_test_catalan,prediccion_catalan))

              precision    recall  f1-score   support

           0       0.84      0.88      0.86        42
           1       0.71      0.33      0.45        36
           2       0.83      0.65      0.73        23
           3       0.00      0.00      0.00         5
           4       0.81      0.54      0.65        39
           5       0.96      0.55      0.70        42
           6       0.90      0.47      0.62        38
           7       0.91      0.68      0.78        31
           8       1.00      0.17      0.29        12
           9       0.92      0.92      0.92        24
          10       0.92      0.89      0.91        27
          11       1.00      0.81      0.89        31
          12       0.79      0.68      0.73        28
          13       0.71      0.71      0.71         7
          14       1.00      1.00      1.00         1
          15       0.72      0.50      0.59        26
          16       0.73      0.33      0.46        24

   micro avg       0.86   

In [21]:
##############################################################################
################# Power Label Set con Regresión logística ####################

# Catalán

prediccion_catalan = label_powerset_catalan.predict(X_catalan_test_tfidf)
#conf_matrix = skm.multilabel_confusion_matrix(y_test_castellano,prediccion_castellano)
#print(conf_matrix)
print( skm.classification_report(y_test_catalan,prediccion_catalan))

              precision    recall  f1-score   support

           0       0.97      0.83      0.90        42
           1       0.67      0.17      0.27        36
           2       0.73      0.70      0.71        23
           3       0.00      0.00      0.00         5
           4       0.71      0.77      0.74        39
           5       0.70      0.74      0.72        42
           6       0.53      0.53      0.53        38
           7       0.41      1.00      0.58        31
           8       1.00      0.17      0.29        12
           9       0.95      0.83      0.89        24
          10       0.93      0.96      0.95        27
          11       0.97      0.97      0.97        31
          12       1.00      0.36      0.53        28
          13       1.00      0.71      0.83         7
          14       0.00      0.00      0.00         1
          15       0.65      0.50      0.57        26
          16       0.79      0.46      0.58        24

   micro avg       0.72   

  _warn_prf(average, modifier, msg_start, len(result))


In [22]:
##############################################################################
################# Power Label Set con Regresión logística ####################

# Castellano

prediccion_castellano = label_powerset_castellano.predict(X_castellano_test_tfidf)
#conf_matrix = skm.multilabel_confusion_matrix(y_test_castellano,prediccion_castellano)
#print(conf_matrix)
print( skm.classification_report(y_test_castellano,prediccion_castellano))

              precision    recall  f1-score   support

           0       0.97      0.86      0.91        42
           1       0.67      0.17      0.27        36
           2       0.77      0.74      0.76        23
           3       0.00      0.00      0.00         5
           4       0.75      0.77      0.76        39
           5       0.70      0.76      0.73        42
           6       0.50      0.55      0.53        38
           7       0.44      1.00      0.61        31
           8       0.00      0.00      0.00        12
           9       0.87      0.83      0.85        24
          10       0.93      0.96      0.95        27
          11       1.00      1.00      1.00        31
          12       1.00      0.36      0.53        28
          13       1.00      0.71      0.83         7
          14       0.00      0.00      0.00         1
          15       0.64      0.54      0.58        26
          16       0.79      0.46      0.58        24

   micro avg       0.72   

  _warn_prf(average, modifier, msg_start, len(result))


In [23]:
import dash
import dash_core_components as dcc
import dash_html_components as html
import pandas as pd
from dash.dependencies import Input, Output, State
import base64

In [None]:
app = dash.Dash(__name__)
app.layout = html.Div([
    html.H1(children = "Radar ODS", style = {'text-align': 'center',
                                             'color':'blue',
                                             'fontSize': 50}),
    html.Div([
        html.P('Prototipo para predecir Objetivos de Desarrollo Sostenible', style = {'text-align': 'center',
                                                                                      'fontSize': 40}),
        
        html.Img(src = "https://user-images.githubusercontent.com/81468745/146152199-b00ec408-07fb-4991-afb9-160a421ec85c.png"
                ,style = {'height': '10%','width': '10%'}),
        
        html.P("Lista de Objetivos de Desarrollo Sostenible", style = {'fontSize': 25})
    
    ]),
    
    dcc.Markdown(
        ''' 
            * ODS1 Fin de la pobreza
            * ODS2 Hambre cero
            * ODS3 Salud y bienestar
            * ODS4 Educación de calidad
            * ODS5 Igualdad de género
            * ODS6 Agua y saneamiento
            * ODS7 Energía sostenible y no contaminante
            * ODS8 Trabajo decente y crecimiento económico
            * ODS9 Industria, innovación e infraestructura
            * ODS10 Reducción de las desigualdades
            * ODS11 Ciudades y comunidades sostenibles
            * ODS12 Producción y consumos responsables
            * ODS13 Acción por el clima
            * ODS14 Vida submarina
            * ODS15 Vida de ecosistemas terrestres
            * ODS16 Paz, jusicia e instituciones sólidas
            * ODS17 Alianzas para lograr los objetivos
        '''
    ),

      dcc.Markdown(
        '''*En el cuadro de texto podemos escribir el comentario deseado, ya sea una actividad,
          una iniciativa, una protesta etc*''',style = {'fontSize': 20}),
        
    dcc.Textarea(
        placeholder = 'Introduce la descripción de tu actividad',
        id='textarea-state-example',
        style={'width': '30%', 'height': 90},
    ),
    
    html.Button('Analizar predicción', id='textarea-state-example-button'
                , n_clicks=0
                , style = {'font-size': '20px', 'color':'blue'}),
    
    html.Div(id='textarea-state-example-output'
             , style={'whiteSpace': 'pre-line'})
])

@app.callback(
    Output('textarea-state-example-output', 'children'),
    Input('textarea-state-example-button', 'n_clicks'),
    State('textarea-state-example', 'value')
)
    
def identificador_ODS(n_clicks, value):
    value1 = [value]
    lengua = detect(value)
    if lengua == 'ca':
        frase_tfidf = vetorizar_catalan.transform(value1)
        predicción = multilabel.inverse_transform(mlknn_classifier_catalan.predict(frase_tfidf))
        if n_clicks>0:
            return 'El ODS predicho es: \n{}'.format(predicción)
    else:
        frase_tfidf = vetorizar_castellano.transform(value1)
        predicción = multilabel.inverse_transform(mlknn_classifier_castellano.predict(frase_tfidf))
        if n_clicks>0:
            return 'El ODS predicho es: \n{}'.format(predicción)


if __name__ == '__main__':
    app.run_server()

# Demostración del modelo
A continuación se hace una demostración en vivo de cómo aplicamos el algoritmo usando la App de eAgora. Los pasos a seguir son los siguientes;
- Abrimos la App y escribimos una iniciativa, una actividad o cualquier tipo de historia
- Este comentario se inserta directamente en una tabla SQL mediante una API
- Leemos el último comentario de la tabla que debería ser nuestro comentario y aplicamos el modelo y predecimos

In [37]:
from IPython.display import Image
Image(r"C:\Users\bursa\Proyecto MBIT\Material Proyecto\captura.png")


FileNotFoundError: No such file or directory: 'C:\Users\bursa\Proyecto MBIT\Material Proyecto\captura.png'

FileNotFoundError: No such file or directory: 'C:\Users\bursa\Proyecto MBIT\Material Proyecto\captura.png'

<IPython.core.display.Image object>

In [None]:
#### Leemos la tabla del servidor usando SQL y cogemos el útlimo comentario

# Credenciales para acceder a la BBDD de eAgora

miConexion = MySQLdb.connect(host='hostings.cwgbfpd1iqhk.eu-west-1.rds.amazonaws.com'
                             ,user= 'eagora_gpueyo'
                             ,passwd='3hivhk4ah9sAzibtkHVy'
                             ,db='eagora' )
cur = miConexion.cursor()

# Leemos la tabla "contents" que es donde se almacenan los comentarios desde la aplicación

table_contenidos = pd.read_sql("""select title
                             ,description
                         from contents"""
                    ,miConexion)

# Seleccionamos el último comentario escrito en la aplicación
ultimo_comentario = table_contenidos.tail(1)["description"].to_string(index=False)
ultimo_comentario1 = str(ultimo_comentario)
ultimo_comentario2 = clean_text(ultimo_comentario1)

#### Creamos la función para aplicar el modelo si es catlán o castellano

def identificador_ODS(comentario):
    value1 = [comentario]
    lengua = detect(comentario)
       
    if lengua == 'ca':
        frase_tfidf = vetorizar_catalan.transform(value1)
        predicción = multilabel.inverse_transform(mlknn_classifier_catalan.predict(frase_tfidf))
        return 'El ODS predicho es: \n{}'.format(predicción)
    else:
        frase_tfidf = vetorizar_castellano.transform(value1)
        predicción = multilabel.inverse_transform(mlknn_classifier_castellano.predict(frase_tfidf))
        return 'El ODS predicho es: \n{}'.format(predicción)

In [None]:
identificador_ODS(ultimo_comentario2)

------------------------------------

----------------------

## Código auxiliar (diferente tabla)
Esta solución la tendremos por si en el futuro existe una tabla con las etiquetas ya definidas pero en esa misma tabla siguen viniendo comentarios sin etiquetar.

In [None]:
txt = pd.read_excel(r"C:\Users\pueygu01\Python Programs\Máster - Proyecto\contenidos y etiquetas_proba.xlsx", index_col=None)
txt.head(10)

In [None]:
# Lo que haríamos a continuación es iterar por el dataset haste que encuentra el campo vación, entonces ahí aplicamos le modelo
# y predecimos el ODS.
DetectorFactory.seed = 0
for t in txt.index:
    if pd.isnull(txt['Etiqueta'][t]):
        lengua=detect(txt['description'][t])
        if lengua=='ca':
            nlp = spacy.load("ca_core_news_sm")
            txt["lemas"]=txt.description.apply(clean_text)
            txt["lemas"]=txt.lemas.apply(lemmatize_text)
            identificador_ODS_catalan([txt['description'][t]])
        else:
            nlp = spacy.load("es_core_news_sm")
            txt.description.apply(clean_text)
            txt.description.apply(lemmatize_text)
            identificador_ODS_castellano([txt['description'][t]])
    

print(lengua) 