# Proyecto BI - Análitica de Texto según ODS

## Etapa 1

## Objetivos

*   Aplicar la metodología de analítica de textos para la construcción de soluciones de analítica alineadas con los objetivos del negocio en un contexto de aplicación.
*   Planear la interacción con un grupo interdisciplinario para identificar usuarios y posibles herramientas a desarrollar para la interacción del resultado del modelo desarrollado.

## Problema
<p style="text-align: justify;"> Desarrollar un modelo de clasificación, con técnicas de aprendizaje automático, que permita relacionar de manera automática un texto según los ODS. Al igual que desarrollar una aplicación que facilite la interacción con el resultado de dicho modelo. El modelo podrá ser utilizado entonces para la interpretación y análisis de la información textual que es recopilada a través de diferentes fuentes por UNFPA en procesos de planeación participativa para el desarrollo a nivel territorial.


### 1. Instalación e importanción de librerías.

In [57]:
!pip install ftfy



In [58]:
pip install openpyxl

Note: you may need to restart the kernel to use updated packages.


In [59]:
!pip install unidecode



In [60]:
# Librería para manejar las contracciones que se presentan en el inglés.
!pip install contractions



In [61]:
# librería para manejar las flexiones gramaticales en el idioma inglés.
!pip install inflect
!pip install pandas-profiling==2.7.1



ERROR: Could not find a version that satisfies the requirement pandas-profiling==2.7.1 (from versions: 3.0.0, 3.1.0, 3.2.0, 3.3.0, 3.4.0, 3.5.0, 3.6.0, 3.6.1, 3.6.2, 3.6.3, 3.6.4, 3.6.5, 3.6.6)
ERROR: No matching distribution found for pandas-profiling==2.7.1


In [62]:
# librería Natural Language Toolkit, usada para trabajar con textos 
import nltk
# Punkt permite separar un texto en frases.
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\paula\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [63]:
# Descarga de paquete WordNetLemmatizer, este es usado para encontrar el lema de cada palabra
# ¿Qué es el lema de una palabra? ¿Qué tan dificil puede ser obtenerlo, piensa en el caso en que tuvieras que escribir la función que realiza esta tarea?
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\paula\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [64]:
# Instalación de librerias
import pandas as pd
import numpy as np
import sys
from pandas_profiling import ProfileReport
from unidecode import unidecode

import re, string, unicodedata
import contractions
import inflect
from nltk import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem import LancasterStemmer, WordNetLemmatizer
import nltk
from nltk.corpus import wordnet
from nltk.stem import PorterStemmer
nltk.download('wordnet')


from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer, HashingVectorizer
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.svm import SVC
from sklearn.ensemble import BaggingClassifier, RandomForestClassifier, AdaBoostClassifier
from sklearn.naive_bayes import BernoulliNB
from sklearn.metrics import classification_report, confusion_matrix
#from sklearn.metrics import plot_precision_recall_curve
from sklearn.base import BaseEstimator, ClassifierMixin
from nltk.tokenize import word_tokenize
from sklearn.metrics import (
    ConfusionMatrixDisplay, RocCurveDisplay,
    roc_auc_score, precision_score, recall_score, f1_score
)
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.pipeline import Pipeline

import matplotlib.pyplot as plt


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\paula\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [65]:
import warnings
warnings.filterwarnings("ignore")

In [66]:
# Configuring pandas to show all cell content
pd.set_option("display.max_colwidth", None)

In [67]:
# Downloading stopwords
nltk.download("punkt")
nltk.download("stopwords")
stop_words = stopwords.words("spanish")

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\paula\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\paula\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [68]:
stop_words


['de',
 'la',
 'que',
 'el',
 'en',
 'y',
 'a',
 'los',
 'del',
 'se',
 'las',
 'por',
 'un',
 'para',
 'con',
 'no',
 'una',
 'su',
 'al',
 'lo',
 'como',
 'más',
 'pero',
 'sus',
 'le',
 'ya',
 'o',
 'este',
 'sí',
 'porque',
 'esta',
 'entre',
 'cuando',
 'muy',
 'sin',
 'sobre',
 'también',
 'me',
 'hasta',
 'hay',
 'donde',
 'quien',
 'desde',
 'todo',
 'nos',
 'durante',
 'todos',
 'uno',
 'les',
 'ni',
 'contra',
 'otros',
 'ese',
 'eso',
 'ante',
 'ellos',
 'e',
 'esto',
 'mí',
 'antes',
 'algunos',
 'qué',
 'unos',
 'yo',
 'otro',
 'otras',
 'otra',
 'él',
 'tanto',
 'esa',
 'estos',
 'mucho',
 'quienes',
 'nada',
 'muchos',
 'cual',
 'poco',
 'ella',
 'estar',
 'estas',
 'algunas',
 'algo',
 'nosotros',
 'mi',
 'mis',
 'tú',
 'te',
 'ti',
 'tu',
 'tus',
 'ellas',
 'nosotras',
 'vosotros',
 'vosotras',
 'os',
 'mío',
 'mía',
 'míos',
 'mías',
 'tuyo',
 'tuya',
 'tuyos',
 'tuyas',
 'suyo',
 'suya',
 'suyos',
 'suyas',
 'nuestro',
 'nuestra',
 'nuestros',
 'nuestras',
 'vuestro'

### 2. Perfilamiento y entendimiento de los datos


#### Lectura de los datos.

In [69]:
# Uso de la libreria pandas para la lectura de archivos excel
df = pd.read_excel('./data/cat_345.xlsx')
# Asignación a una nueva variable de los datos leidos
data_t=df


In [70]:
data_t.shape

(3000, 2)

In [71]:
data_t.sample(5)

Unnamed: 0,Textos_espanol,sdg
2419,"Le dije a la secretaria que viniera a mi casa y tomara mi firma porque tengo mucho que hacer en la casa, cuidar niños, tareas del hogar, si tengo que asistir a las reuniones tendré que tener a alguien que haga mis tareas.' En el sector urbano es 13,8 para las mujeres y 55,4 para los hombres. El empleo total de mujeres en el sector organizado fue del 19,5 por ciento en 2007 (Mujeres y Hombres en India 2011).",5
2456,"La Plataforma apoya la diversidad de voces de las mujeres, el reconocimiento de que, a pesar del progreso, las mujeres sufren debido a los obstáculos para lograr la igualdad con los hombres y que el progreso se ve obstaculizado, especialmente, por la pobreza que sufren tantas mujeres y niños. Desde entonces, ha entrado en el lenguaje común y se utiliza en referencia a la posición económica de las mujeres a escala mundial.",5
201,"La expansión del acceso a la financiación de Medicare puede considerarse una posible herramienta para alentar a los profesionales de la salud adecuadamente calificados y capacitados a adoptar otras funciones. Por ejemplo, los farmacéuticos en áreas de necesidad podrían ser elegibles para recibir fondos de Medicare para administrar vacunas y recetar medicamentos limitados. Tal movimiento debe ser cuidadosamente regulado y realizado de manera fiscalmente responsable.",3
1833,"Los sistemas educativos también pueden considerar la posibilidad de ofrecer incentivos económicos a los centros con exceso de matrícula para que matriculen a alumnos inmigrantes (Field et al., Por ejemplo, la financiación de los centros puede ponderarse en función de las características sociodemográficas de la población estudiantil. La idea es que las buenas escuelas tratarán de matricular a alumnos inmigrantes procedentes de entornos socioeconómicos bajos porque saben que con el dinero adicional proporcionado podrán ofrecer apoyo adicional para que el niño muestre tendencias de mejora y alcance niveles de rendimiento (Hoxby, 2001).",4
292,"En su decisión del 26 de junio de 2009, esta última confirmó el rechazo de la oficina de patentes de una patente para Glivec, negando la “eficacia significativamente mejorada” de Glivec en virtud del Artículo 3 (d) sobre una molécula previamente conocida (ver la decisión IPAB en Novartis AG contra Union of India y otros Business Standard de 5 de julio de 2009). Además, el IPAB dictaminó que debido al precio cobrado por Glivec, los pacientes pobres con cáncer en la India no podrían pagar el medicamento, lo que a su vez pondría en peligro la vida de muchas personas y crearía así el desorden público en el país (pág. . 191 de la sentencia).",3


## 2.1 Limpieza de datos

In [72]:
data_t["sdg"].value_counts(dropna=False, normalize=True)

sdg
3    0.333333
4    0.333333
5    0.333333
Name: proportion, dtype: float64

Se puede ver una distribución equitativa de los datos en los tres grupos de ODS

In [73]:
data_t["Textos_espanol"] = data_t["Textos_espanol"].astype(str)

### Corrección de palabras mal codificadas

In [74]:
import ftfy

def fix_malformed_words(text):
    # Utiliza ftfy para corregir problemas de codificación
    text = ftfy.fix_text(text)
    return text

# Aplica la función a tu DataFrame
data_t['Textos_espanol'] = data_t['Textos_espanol'].apply(fix_malformed_words)



In [75]:
#Se verifica que se haya realizado la corrección
data_t.head(5)

Unnamed: 0,Textos_espanol,sdg
0,"Por ejemplo, el número de consultas externas de especialistas es de 319 por cada mil derechohabientes en el SP, en comparación con 338 y 620 por cada mil derechohabientes en el IMSS y el ISSSTE, respectivamente. Si bien algunas de estas diferencias pueden reflejar una necesidad desigual (como la población ligeramente mayor del ISSSTE), otras no pueden justificarse de esta manera. El número de recetas que no pudieron ser surtidas en su totalidad por un farmacéutico debido a la falta de existencias es de 33% dentro del SP en comparación con 14% dentro del IMSS según los datos de la encuesta (aunque las propias cifras de los institutos de la SS sugieren tasas más altas de recetas surtidas). Ambas cifras se encuentran entre las más altas de la OCDE. El gasto de bolsillo no se ha reducido significativamente en la última década, a pesar de los esfuerzos para lograr la cobertura sanitaria universal a través de la reforma del SP.",3
1,"En 2007, el gobierno central financió directamente solo el 0,3% del gasto total en salud, pero realizó transferencias específicas para el gasto en salud que ascendieron a otro 5,6% del gasto total. La mayor parte del gasto presupuestario en salud lo realizan los gobiernos de los condados. Por lo tanto, los condados pobres solo pueden ofrecer un bajo nivel de atención a la población local. El gobierno provincial proporciona subsidios del lado de la oferta a los hospitales.",3
2,"Claramente, hay muchos otros factores en juego, en particular, una variedad de barreras y determinantes sociales. Estos pueden estar relacionados con el género, la clase, la etnia, la casta, el idioma y la religión, y surgen de estructuras, normas y procesos sociales arraigados que aceptan e incluso fomentan distribuciones injustas de la riqueza y los recursos sociales. Por ejemplo, las personas que viven con el VIH y algunas otras enfermedades crónicas enfrentan altos niveles de estigma y discriminación que dificultan su acceso a pruebas médicas, tratamiento, atención y apoyo. Por lo tanto, los gobiernos que buscan mejorar los estándares de salud querrán mejorar la condición de la mujer, brindar servicios de salud reproductiva efectivos, implementar programas integrales de lactancia materna en línea con las recomendaciones actuales y aumentar las presiones comunitarias contra el aborto selectivo por sexo. Las personas pobres, que carecen de educación e información, o de fondos para opciones más saludables, son más vulnerables al impacto de las ENT que los ricos y es probable que mueran antes. Directa e indirectamente, las ENT tendrán impactos de gran alcance en el progreso hacia los ODM.",3
3,"Por ejemplo, el estado australiano de Victoria creó una agencia de promoción de la salud financiada con los impuestos sobre el tabaco, y varios estados de EE.UU. (California, Massachusetts, Arizona y Oregón) han destinado parte de los ingresos procedentes de los impuestos especiales sobre el tabaco a actividades de educación y control del tabaco, mientras que en Nueva Jersey, Ohio y Texas los ingresos procedentes del alcohol se utilizan para programas de educación y prevención relacionados con el alcohol (Sassi et al., 2004), Los impuestos locales pueden ser una fuente importante de ingresos, sobre todo en los sistemas sanitarios descentralizados (por ejemplo, Dinamarca, Finlandia, Italia y Suecia)17 . Además, el nivel de los impuestos locales puede fijarse en función de las preferencias locales sobre el nivel y la calidad de los servicios médicos. Sin embargo, en ausencia de un mecanismo de transferencia ajustado al riesgo y gestionado centralmente, la descentralización reduce la mancomunación de riesgos y podría dar lugar a mayores disparidades sanitarias interregionales.",3
4,"El consumo anual de alcohol se estima en 15,7 litros al año para los hombres, más de un 50% por encima de la media de la OCDE (10,4) (Sistema mundial de información sobre alcohol y salud de la OMS), lo que puede ayudar a explicar la alta mortalidad por enfermedad hepática relacionada con el alcohol. Si bien la prevalencia de la obesidad en adultos es relativamente baja en comparación con muchos países de la OCDE, más del 30 % de las mujeres en Kazajstán son obesas, en comparación con el 16 % de los hombres (World Obesity, 2016), lo que coloca la tasa entre las mujeres a la par con algunos de los países más obesos de la OCDE. De hecho, una gran proporción de la brecha en la esperanza de vida se explica por una mayor mortalidad entre los jóvenes kazajos de 15 a 29 años, un grupo de edad en el que las tasas generales de mortalidad son más de tres veces más altas que en la UE de los 15.",3


### Eliminación de caracteres especiales y puntuación

In [76]:
import re
import unicodedata
import inflect
from nltk.corpus import stopwords

# Esta lista contiene las stop words en español
spanish_stopwords = set(stopwords.words('spanish'))

def remove_non_ascii(words):
    """Remove non-ASCII characters from list of tokenized words"""
    new_words = []
    for word in words:
        new_word = unicodedata.normalize('NFKD', word).encode('ascii', 'ignore').decode('utf-8', 'ignore')
        new_words.append(new_word)
    return new_words

def to_lowercase(words):
    """Convert all characters to lowercase from list of tokenized words"""
    new_words = []
    for word in words:
        new_words.append(word.lower())
    return new_words

def remove_punctuation(words):
    """Remove punctuation from list of tokenized words"""
    new_words = []
    for word in words:
        new_word = re.sub(r'[^\w\s]', '', word)
        if new_word != '':
            new_words.append(new_word)
    return new_words

def replace_numbers(words):
    """Replace all integer occurrences in list of tokenized words with textual representation"""
    p = inflect.engine()
    new_words = []
    for word in words:
        if word.isdigit():
            new_word = p.number_to_words(word)
            new_words.append(new_word)
        else:
            new_words.append(word)
    return new_words

def remove_stopwords(words):
    """Remove stop words from list of tokenized words"""
    new_words = []
    for word in words:
        if word not in spanish_stopwords:
            new_words.append(word)
    return new_words

def preprocessing(words):
    words = to_lowercase(words)
    words = replace_numbers(words)
    words = remove_punctuation(words)
    words = remove_non_ascii(words)
    words = remove_stopwords(words)
    return words


### Tokenización

In [77]:
data_t['Textos_espanol'] = data_t['Textos_espanol'].apply(contractions.fix) #Aplica la corrección de las contracciones

In [78]:
data_t['words'] = data_t['Textos_espanol'].apply(word_tokenize).apply(preprocessing) #Aplica la eliminación del ruido
data_t.head()

Unnamed: 0,Textos_espanol,sdg,words
0,"Por ejemplo, el número de consultas externas de especialistas es de 319 por cada mil derechohabientes en el SP, en comparación con 338 y 620 por cada mil derechohabientes en el IMSS y el ISSSTE, respectivamente. Si bien algunas de estas diferencias pueden reflejar una necesidad desigual (como la población ligeramente mayor del ISSSTE), otras no pueden justificarse de esta manera. El número de recetas que no pudieron ser surtidas en su totalidad por un farmacéutico debido a la falta de existencias es de 33% dentro del SP en comparación con 14% dentro del IMSS según los datos de la encuesta (aunque las propias cifras de los institutos de la SS sugieren tasas más altas de recetas surtidas). Ambas cifras se encuentran entre las más altas de la OCDE. El gasto de bolsillo no se ha reducido significativamente en la última década, a pesar de los esfuerzos para lograr la cobertura sanitaria universal a través de la reforma del SP.",3,"[ejemplo, numero, consultas, externas, especialistas, three hundred and nineteen, cada, mil, derechohabientes, sp, comparacion, three hundred and thirtyeight, six hundred and twenty, cada, mil, derechohabientes, imss, issste, respectivamente, si, bien, diferencias, pueden, reflejar, necesidad, desigual, poblacion, ligeramente, mayor, issste, pueden, justificarse, manera, numero, recetas, pudieron, ser, surtidas, totalidad, farmaceutico, debido, falta, existencias, thirtythree, dentro, sp, comparacion, fourteen, dentro, imss, segun, datos, encuesta, aunque, propias, cifras, institutos, ss, sugieren, tasas, mas, altas, recetas, surtidas, ambas, cifras, encuentran, mas, altas, ocde, gasto, bolsillo, reducido, significativamente, ultima, decada, pesar, esfuerzos, lograr, cobertura, sanitaria, universal, traves, reforma, sp]"
1,"En 2007, el gobierno central financió directamente solo el 0,3% del gasto total en salud, pero realizó transferencias específicas para el gasto en salud que ascendieron a otro 5,6% del gasto total. La mayor parte del gasto presupuestario en salud lo realizan los gobiernos de los condados. Por lo tanto, los condados pobres solo pueden ofrecer un bajo nivel de atención a la población local. El gobierno provincial proporciona subsidios del lado de la oferta a los hospitales.",3,"[two thousand and seven, gobierno, central, financio, directamente, solo, 03, gasto, total, salud, realizo, transferencias, especificas, gasto, salud, ascendieron, 56, gasto, total, mayor, parte, gasto, presupuestario, salud, realizan, gobiernos, condados, condados, pobres, solo, pueden, ofrecer, bajo, nivel, atencion, poblacion, local, gobierno, provincial, proporciona, subsidios, lado, oferta, hospitales]"
2,"Claramente, hay muchos otros factores en juego, en particular, una variedad de barreras y determinantes sociales. Estos pueden estar relacionados con el género, la clase, la etnia, la casta, el idioma y la religión, y surgen de estructuras, normas y procesos sociales arraigados que aceptan e incluso fomentan distribuciones injustas de la riqueza y los recursos sociales. Por ejemplo, las personas que viven con el VIH y algunas otras enfermedades crónicas enfrentan altos niveles de estigma y discriminación que dificultan su acceso a pruebas médicas, tratamiento, atención y apoyo. Por lo tanto, los gobiernos que buscan mejorar los estándares de salud querrán mejorar la condición de la mujer, brindar servicios de salud reproductiva efectivos, implementar programas integrales de lactancia materna en línea con las recomendaciones actuales y aumentar las presiones comunitarias contra el aborto selectivo por sexo. Las personas pobres, que carecen de educación e información, o de fondos para opciones más saludables, son más vulnerables al impacto de las ENT que los ricos y es probable que mueran antes. Directa e indirectamente, las ENT tendrán impactos de gran alcance en el progreso hacia los ODM.",3,"[claramente, factores, juego, particular, variedad, barreras, determinantes, sociales, pueden, relacionados, genero, clase, etnia, casta, idioma, religion, surgen, estructuras, normas, procesos, sociales, arraigados, aceptan, incluso, fomentan, distribuciones, injustas, riqueza, recursos, sociales, ejemplo, personas, viven, vih, enfermedades, cronicas, enfrentan, altos, niveles, estigma, discriminacion, dificultan, acceso, pruebas, medicas, tratamiento, atencion, apoyo, gobiernos, buscan, mejorar, estandares, salud, querran, mejorar, condicion, mujer, brindar, servicios, salud, reproductiva, efectivos, implementar, programas, integrales, lactancia, materna, linea, recomendaciones, actuales, aumentar, presiones, comunitarias, aborto, selectivo, sexo, personas, pobres, carecen, educacion, informacion, fondos, opciones, mas, saludables, mas, vulnerables, impacto, ent, ricos, probable, mueran, directa, indirectamente, ent, tendran, impactos, gran, alcance, progreso, ...]"
3,"Por ejemplo, el estado australiano de Victoria creó una agencia de promoción de la salud financiada con los impuestos sobre el tabaco, y varios estados de EE.UU. (California, Massachusetts, Arizona y Oregón) han destinado parte de los ingresos procedentes de los impuestos especiales sobre el tabaco a actividades de educación y control del tabaco, mientras que en Nueva Jersey, Ohio y Texas los ingresos procedentes del alcohol se utilizan para programas de educación y prevención relacionados con el alcohol (Sassi et al., 2004), Los impuestos locales pueden ser una fuente importante de ingresos, sobre todo en los sistemas sanitarios descentralizados (por ejemplo, Dinamarca, Finlandia, Italia y Suecia)17 . Además, el nivel de los impuestos locales puede fijarse en función de las preferencias locales sobre el nivel y la calidad de los servicios médicos. Sin embargo, en ausencia de un mecanismo de transferencia ajustado al riesgo y gestionado centralmente, la descentralización reduce la mancomunación de riesgos y podría dar lugar a mayores disparidades sanitarias interregionales.",3,"[ejemplo, australiano, victoria, creo, agencia, promocion, salud, financiada, impuestos, tabaco, varios, eeuu, california, massachusetts, arizona, oregon, destinado, parte, ingresos, procedentes, impuestos, especiales, tabaco, actividades, educacion, control, tabaco, mientras, nueva, jersey, ohio, texas, ingresos, procedentes, alcohol, utilizan, programas, educacion, prevencion, relacionados, alcohol, sassi, et, two thousand and four, impuestos, locales, pueden, ser, fuente, importante, ingresos, sistemas, sanitarios, descentralizados, ejemplo, dinamarca, finlandia, italia, suecia, seventeen, ademas, nivel, impuestos, locales, puede, fijarse, funcion, preferencias, locales, nivel, calidad, servicios, medicos, embargo, ausencia, mecanismo, transferencia, ajustado, riesgo, gestionado, centralmente, descentralizacion, reduce, mancomunacion, riesgos, podria, dar, lugar, mayores, disparidades, sanitarias, interregionales]"
4,"El consumo anual de alcohol se estima en 15,7 litros al año para los hombres, más de un 50% por encima de la media de la OCDE (10,4) (Sistema mundial de información sobre alcohol y salud de la OMS), lo que puede ayudar a explicar la alta mortalidad por enfermedad hepática relacionada con el alcohol. Si bien la prevalencia de la obesidad en adultos es relativamente baja en comparación con muchos países de la OCDE, más del 30 % de las mujeres en Kazajstán son obesas, en comparación con el 16 % de los hombres (World Obesity, 2016), lo que coloca la tasa entre las mujeres a la par con algunos de los países más obesos de la OCDE. De hecho, una gran proporción de la brecha en la esperanza de vida se explica por una mayor mortalidad entre los jóvenes kazajos de 15 a 29 años, un grupo de edad en el que las tasas generales de mortalidad son más de tres veces más altas que en la UE de los 15.",3,"[consumo, anual, alcohol, estima, 157, litros, ano, hombres, mas, fifty, encima, media, ocde, 104, sistema, mundial, informacion, alcohol, salud, oms, puede, ayudar, explicar, alta, mortalidad, enfermedad, hepatica, relacionada, alcohol, si, bien, prevalencia, obesidad, adultos, relativamente, baja, comparacion, paises, ocde, mas, thirty, mujeres, kazajstan, obesas, comparacion, sixteen, hombres, world, obesity, two thousand and sixteen, coloca, tasa, mujeres, par, paises, mas, obesos, ocde, hecho, gran, proporcion, brecha, esperanza, vida, explica, mayor, mortalidad, jovenes, kazajos, fifteen, twentynine, anos, grupo, edad, tasas, generales, mortalidad, mas, tres, veces, mas, altas, ue, fifteen]"


### Normalización de texto

In [79]:
# Crear instancias de los stemmers y lematizadores
stemmer = LancasterStemmer()
lemmatizer = WordNetLemmatizer()

def stem_words(words):
    """Stem words in list of tokenized words"""
    stems = [stemmer.stem(word) for word in words]
    return stems

def lemmatize_verbs(words):
    """Lemmatize verbs in list of tokenized words"""
    lemmas = []
    for word in words:
        pos = get_wordnet_pos(word)
        if pos:
            lemma = lemmatizer.lemmatize(word, pos)
            lemmas.append(lemma)
        else:
            lemmas.append(word)
    return lemmas

def stem_and_lemmatize(words):
    stems = stem_words(words)
    lemmas = lemmatize_verbs(stems)
    return lemmas

def get_wordnet_pos(word):
    """Map POS tag to first character accepted by WordNetLemmatizer"""
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}
    return tag_dict.get(tag, wordnet.NOUN)


In [80]:
#Se verifica que se haya realizado la corrección
data_t.head(5)

Unnamed: 0,Textos_espanol,sdg,words
0,"Por ejemplo, el número de consultas externas de especialistas es de 319 por cada mil derechohabientes en el SP, en comparación con 338 y 620 por cada mil derechohabientes en el IMSS y el ISSSTE, respectivamente. Si bien algunas de estas diferencias pueden reflejar una necesidad desigual (como la población ligeramente mayor del ISSSTE), otras no pueden justificarse de esta manera. El número de recetas que no pudieron ser surtidas en su totalidad por un farmacéutico debido a la falta de existencias es de 33% dentro del SP en comparación con 14% dentro del IMSS según los datos de la encuesta (aunque las propias cifras de los institutos de la SS sugieren tasas más altas de recetas surtidas). Ambas cifras se encuentran entre las más altas de la OCDE. El gasto de bolsillo no se ha reducido significativamente en la última década, a pesar de los esfuerzos para lograr la cobertura sanitaria universal a través de la reforma del SP.",3,"[ejemplo, numero, consultas, externas, especialistas, three hundred and nineteen, cada, mil, derechohabientes, sp, comparacion, three hundred and thirtyeight, six hundred and twenty, cada, mil, derechohabientes, imss, issste, respectivamente, si, bien, diferencias, pueden, reflejar, necesidad, desigual, poblacion, ligeramente, mayor, issste, pueden, justificarse, manera, numero, recetas, pudieron, ser, surtidas, totalidad, farmaceutico, debido, falta, existencias, thirtythree, dentro, sp, comparacion, fourteen, dentro, imss, segun, datos, encuesta, aunque, propias, cifras, institutos, ss, sugieren, tasas, mas, altas, recetas, surtidas, ambas, cifras, encuentran, mas, altas, ocde, gasto, bolsillo, reducido, significativamente, ultima, decada, pesar, esfuerzos, lograr, cobertura, sanitaria, universal, traves, reforma, sp]"
1,"En 2007, el gobierno central financió directamente solo el 0,3% del gasto total en salud, pero realizó transferencias específicas para el gasto en salud que ascendieron a otro 5,6% del gasto total. La mayor parte del gasto presupuestario en salud lo realizan los gobiernos de los condados. Por lo tanto, los condados pobres solo pueden ofrecer un bajo nivel de atención a la población local. El gobierno provincial proporciona subsidios del lado de la oferta a los hospitales.",3,"[two thousand and seven, gobierno, central, financio, directamente, solo, 03, gasto, total, salud, realizo, transferencias, especificas, gasto, salud, ascendieron, 56, gasto, total, mayor, parte, gasto, presupuestario, salud, realizan, gobiernos, condados, condados, pobres, solo, pueden, ofrecer, bajo, nivel, atencion, poblacion, local, gobierno, provincial, proporciona, subsidios, lado, oferta, hospitales]"
2,"Claramente, hay muchos otros factores en juego, en particular, una variedad de barreras y determinantes sociales. Estos pueden estar relacionados con el género, la clase, la etnia, la casta, el idioma y la religión, y surgen de estructuras, normas y procesos sociales arraigados que aceptan e incluso fomentan distribuciones injustas de la riqueza y los recursos sociales. Por ejemplo, las personas que viven con el VIH y algunas otras enfermedades crónicas enfrentan altos niveles de estigma y discriminación que dificultan su acceso a pruebas médicas, tratamiento, atención y apoyo. Por lo tanto, los gobiernos que buscan mejorar los estándares de salud querrán mejorar la condición de la mujer, brindar servicios de salud reproductiva efectivos, implementar programas integrales de lactancia materna en línea con las recomendaciones actuales y aumentar las presiones comunitarias contra el aborto selectivo por sexo. Las personas pobres, que carecen de educación e información, o de fondos para opciones más saludables, son más vulnerables al impacto de las ENT que los ricos y es probable que mueran antes. Directa e indirectamente, las ENT tendrán impactos de gran alcance en el progreso hacia los ODM.",3,"[claramente, factores, juego, particular, variedad, barreras, determinantes, sociales, pueden, relacionados, genero, clase, etnia, casta, idioma, religion, surgen, estructuras, normas, procesos, sociales, arraigados, aceptan, incluso, fomentan, distribuciones, injustas, riqueza, recursos, sociales, ejemplo, personas, viven, vih, enfermedades, cronicas, enfrentan, altos, niveles, estigma, discriminacion, dificultan, acceso, pruebas, medicas, tratamiento, atencion, apoyo, gobiernos, buscan, mejorar, estandares, salud, querran, mejorar, condicion, mujer, brindar, servicios, salud, reproductiva, efectivos, implementar, programas, integrales, lactancia, materna, linea, recomendaciones, actuales, aumentar, presiones, comunitarias, aborto, selectivo, sexo, personas, pobres, carecen, educacion, informacion, fondos, opciones, mas, saludables, mas, vulnerables, impacto, ent, ricos, probable, mueran, directa, indirectamente, ent, tendran, impactos, gran, alcance, progreso, ...]"
3,"Por ejemplo, el estado australiano de Victoria creó una agencia de promoción de la salud financiada con los impuestos sobre el tabaco, y varios estados de EE.UU. (California, Massachusetts, Arizona y Oregón) han destinado parte de los ingresos procedentes de los impuestos especiales sobre el tabaco a actividades de educación y control del tabaco, mientras que en Nueva Jersey, Ohio y Texas los ingresos procedentes del alcohol se utilizan para programas de educación y prevención relacionados con el alcohol (Sassi et al., 2004), Los impuestos locales pueden ser una fuente importante de ingresos, sobre todo en los sistemas sanitarios descentralizados (por ejemplo, Dinamarca, Finlandia, Italia y Suecia)17 . Además, el nivel de los impuestos locales puede fijarse en función de las preferencias locales sobre el nivel y la calidad de los servicios médicos. Sin embargo, en ausencia de un mecanismo de transferencia ajustado al riesgo y gestionado centralmente, la descentralización reduce la mancomunación de riesgos y podría dar lugar a mayores disparidades sanitarias interregionales.",3,"[ejemplo, australiano, victoria, creo, agencia, promocion, salud, financiada, impuestos, tabaco, varios, eeuu, california, massachusetts, arizona, oregon, destinado, parte, ingresos, procedentes, impuestos, especiales, tabaco, actividades, educacion, control, tabaco, mientras, nueva, jersey, ohio, texas, ingresos, procedentes, alcohol, utilizan, programas, educacion, prevencion, relacionados, alcohol, sassi, et, two thousand and four, impuestos, locales, pueden, ser, fuente, importante, ingresos, sistemas, sanitarios, descentralizados, ejemplo, dinamarca, finlandia, italia, suecia, seventeen, ademas, nivel, impuestos, locales, puede, fijarse, funcion, preferencias, locales, nivel, calidad, servicios, medicos, embargo, ausencia, mecanismo, transferencia, ajustado, riesgo, gestionado, centralmente, descentralizacion, reduce, mancomunacion, riesgos, podria, dar, lugar, mayores, disparidades, sanitarias, interregionales]"
4,"El consumo anual de alcohol se estima en 15,7 litros al año para los hombres, más de un 50% por encima de la media de la OCDE (10,4) (Sistema mundial de información sobre alcohol y salud de la OMS), lo que puede ayudar a explicar la alta mortalidad por enfermedad hepática relacionada con el alcohol. Si bien la prevalencia de la obesidad en adultos es relativamente baja en comparación con muchos países de la OCDE, más del 30 % de las mujeres en Kazajstán son obesas, en comparación con el 16 % de los hombres (World Obesity, 2016), lo que coloca la tasa entre las mujeres a la par con algunos de los países más obesos de la OCDE. De hecho, una gran proporción de la brecha en la esperanza de vida se explica por una mayor mortalidad entre los jóvenes kazajos de 15 a 29 años, un grupo de edad en el que las tasas generales de mortalidad son más de tres veces más altas que en la UE de los 15.",3,"[consumo, anual, alcohol, estima, 157, litros, ano, hombres, mas, fifty, encima, media, ocde, 104, sistema, mundial, informacion, alcohol, salud, oms, puede, ayudar, explicar, alta, mortalidad, enfermedad, hepatica, relacionada, alcohol, si, bien, prevalencia, obesidad, adultos, relativamente, baja, comparacion, paises, ocde, mas, thirty, mujeres, kazajstan, obesas, comparacion, sixteen, hombres, world, obesity, two thousand and sixteen, coloca, tasa, mujeres, par, paises, mas, obesos, ocde, hecho, gran, proporcion, brecha, esperanza, vida, explica, mayor, mortalidad, jovenes, kazajos, fifteen, twentynine, anos, grupo, edad, tasas, generales, mortalidad, mas, tres, veces, mas, altas, ue, fifteen]"
