# Proceso de comprensión y preparación de datos

## Recogida, comprensión y evaluación de calidad de datos
Un problema que se identificó a priori es que el tipo de dato de SDG en el test set es float, cuando debería ser int. Por otro lado, hay muchos caracteres especiales que deben ser tratados.

In [207]:
import pandas as pd
import re
import chardet
from num2words import num2words
import spacy
pd.set_option('display.max_rows', None)

# Mostrar todo el contenido de las celdas, sin truncar
pd.set_option('display.max_colwidth', None)

file1 = 'ODScat_345.csv' 
file2 = 'TestODScat_345.csv'  

df1 = pd.read_csv(file1)
df2 = pd.read_csv(file2)

# Functions
def find_unusual_characters(df, column_name):
    all_text = ' '.join(df[column_name].astype(str))
    unusual_chars = re.findall(r'[^\w\s,.!?;:\-()\'"]', all_text)
    return set(unusual_chars)

# Understanding
print("First few rows of training set:")
display(df1.head())

print("First few rows of test set:")
display(df2.head())

print("\nShape of training set:", df1.shape)

print("Shape of validation set:", df2.shape)

print("\nInfo for training set:")
df1.info()
print("\nInfo for validation set:")
df2.info()

print("\nDescriptive statistics for training set:")
display(df1.describe(include='all')) 

print("\nDescriptive statistics for validation set:")
display(df2.describe(include='all'))

print("\nBasic statistics for natural_text length in training set:")
display(df1['Textos_espanol'].str.len().describe())

print("\nBasic statistics for natural_text length in validation set:")
display(df2['Textos_espanol'].str.len().describe())

print("Distribution of SDG categories in training set:")
distribution_file1 = df1['sdg'].value_counts()
display(distribution_file1)

print("\nDistribution of SDG categories in test set:")
distribution_file2 = df2['sdg'].value_counts()
display(distribution_file2)

print("\nUnusual characters in training set:")
unusual_chars_file1 = find_unusual_characters(df1, 'Textos_espanol')
display(unusual_chars_file1)

print("\nUnusual characters in validation set:")
unusual_chars_file2 = find_unusual_characters(df2, 'Textos_espanol')
display(unusual_chars_file2)

# Consistency
print("\nColumn names in training set:", df1.columns.tolist())
print("Column names in test:", df2.columns.tolist())

print("\nData types in training set:")
display(df1.dtypes)

print("Data types in test set:")
display(df2.dtypes)

# Uniqueness
print("Checking for duplicated rows within each file...\n")

duplicates_file1 = df1[df1.duplicated()]
print(f"Number of duplicated rows in training set: {len(duplicates_file1)}")
display(duplicates_file1)

duplicates_file2 = df2[df2.duplicated()]
print(f"Number of duplicated rows in test set: {len(duplicates_file2)}")
display(duplicates_file2)

print("\nChecking for common rows between file1 and file2...")

common_rows = pd.merge(df1, df2, how='inner')
print(f"Number of common rows between file1 and file2: {len(common_rows)}")
display(common_rows)

if len(common_rows) > 0:
    print("\nCommon rows found in both files:")
    display(common_rows)
else:
    print("\nNo common rows found in both files.")

# Missing values
print("\nMissing values in training set:")
display(df1.isnull().sum())

print("Missing values in validation set:")
display(df2.isnull().sum())

# Validity
print("\nUnique labels in test set:")
display(df1['sdg'].unique())

print("Unique labels in validation set:")
display(df2['sdg'].unique())


First few rows of training set:


Unnamed: 0,Textos_espanol,sdg
0,"Por ejemplo, el nÃºmero de consultas externas de especialistas es de 319 por cada mil derechohabientes en el SP, en comparaciÃ³n con 338 y 620 por cada mil derechohabientes en el IMSS y el ISSSTE, respectivamente. Si bien algunas de estas diferencias pueden reflejar una necesidad desigual (como la poblaciÃ³n ligeramente mayor del ISSSTE), otras no pueden justificarse de esta manera. El nÃºmero de recetas que no pudieron ser surtidas en su totalidad por un farmacÃ©utico debido a la falta de existencias es de 33% dentro del SP en comparaciÃ³n con 14% dentro del IMSS segÃºn los datos de la encuesta (aunque las propias cifras de los institutos de la SS sugieren tasas mÃ¡s altas de recetas surtidas). Ambas cifras se encuentran entre las mÃ¡s altas de la OCDE. El gasto de bolsillo no se ha reducido significativamente en la última década, a pesar de los esfuerzos para lograr la cobertura sanitaria universal a través de la reforma del SP.",3
1,"En 2007, el gobierno central financió directamente solo el 0,3% del gasto total en salud, pero realizó transferencias específicas para el gasto en salud que ascendieron a otro 5,6% del gasto total. La mayor parte del gasto presupuestario en salud lo realizan los gobiernos de los condados. Por lo tanto, los condados pobres solo pueden ofrecer un bajo nivel de atención a la población local. El gobierno provincial proporciona subsidios del lado de la oferta a los hospitales.",3
2,"Claramente, hay muchos otros factores en juego, en particular, una variedad de barreras y determinantes sociales. Estos pueden estar relacionados con el género, la clase, la etnia, la casta, el idioma y la religión, y surgen de estructuras, normas y procesos sociales arraigados que aceptan e incluso fomentan distribuciones injustas de la riqueza y los recursos sociales. Por ejemplo, las personas que viven con el VIH y algunas otras enfermedades crónicas enfrentan altos niveles de estigma y discriminación que dificultan su acceso a pruebas médicas, tratamiento, atención y apoyo. Por lo tanto, los gobiernos que buscan mejorar los estándares de salud querrán mejorar la condición de la mujer, brindar servicios de salud reproductiva efectivos, implementar programas integrales de lactancia materna en línea con las recomendaciones actuales y aumentar las presiones comunitarias contra el aborto selectivo por sexo. Las personas pobres, que carecen de educación e información, o de fondos para opciones más saludables, son más vulnerables al impacto de las ENT que los ricos y es probable que mueran antes. Directa e indirectamente, las ENT tendrán impactos de gran alcance en el progreso hacia los ODM.",3
3,"Por ejemplo, el estado australiano de Victoria creó una agencia de promoción de la salud financiada con los impuestos sobre el tabaco, y varios estados de EE.UU. (California, Massachusetts, Arizona y Oregón) han destinado parte de los ingresos procedentes de los impuestos especiales sobre el tabaco a actividades de educación y control del tabaco, mientras que en Nueva Jersey, Ohio y Texas los ingresos procedentes del alcohol se utilizan para programas de educación y prevención relacionados con el alcohol (Sassi et al., 2004), Los impuestos locales pueden ser una fuente importante de ingresos, sobre todo en los sistemas sanitarios descentralizados (por ejemplo, Dinamarca, Finlandia, Italia y Suecia)17 . Además, el nivel de los impuestos locales puede fijarse en función de las preferencias locales sobre el nivel y la calidad de los servicios médicos. Sin embargo, en ausencia de un mecanismo de transferencia ajustado al riesgo y gestionado centralmente, la descentralización reduce la mancomunación de riesgos y podría dar lugar a mayores disparidades sanitarias interregionales.",3
4,"El consumo anual de alcohol se estima en 15,7 litros al año para los hombres, más de un 50% por encima de la media de la OCDE (10,4) (Sistema mundial de información sobre alcohol y salud de la OMS), lo que puede ayudar a explicar la alta mortalidad por enfermedad hepática relacionada con el alcohol. Si bien la prevalencia de la obesidad en adultos es relativamente baja en comparación con muchos países de la OCDE, más del 30 % de las mujeres en Kazajstán son obesas, en comparación con el 16 % de los hombres (World Obesity, 2016), lo que coloca la tasa entre las mujeres a la par con algunos de los países más obesos de la OCDE. De hecho, una gran proporción de la brecha en la esperanza de vida se explica por una mayor mortalidad entre los jóvenes kazajos de 15 a 29 años, un grupo de edad en el que las tasas generales de mortalidad son más de tres veces más altas que en la UE de los 15.",3


First few rows of test set:


Unnamed: 0,Textos_espanol,sdg
0,"Han examinado la contribuciÃ³n de las universidades y las instituciones de educaciÃ³n terciaria al desarrollo del capital humano y las competencias, la transferencia de tecnologÃa y la innovaciÃ³n empresarial, el desarrollo social, cultural y medioambiental, y la creaciÃ³n de capacidad regional. El proceso de revisiÃ³n ha facilitado la creaciÃ³n de asociaciones en ciudades y regiones al reunir a instituciones de educaciÃ³n terciaria y organismos pÃºblicos y privados para identificar objetivos estratÃ©gicos y trabajar juntos para alcanzarlos. Complementa las revisiones que se han llevado a cabo en la región transfronteriza México-Estados Unidos, de gran importancia estratégica y económica, como las de Nuevo León, la región Paso del Norte y, más recientemente, la del sur de Arizona (2011), junto al estado de Sonora.",
1,"En la última década, y en particular desde 2010, el número de altas per cápita ha tendido a disminuir, y ahora está en línea con la media de la OCDE mencionada anteriormente. Por ejemplo, los habitantes de zonas rurales representan el 43% de la población, pero sólo el 32% de las altas hospitalarias. A falta de información complementaria, no es posible determinar si esta diferencia indica o no disparidades en el acceso de las poblaciones rurales y, en caso afirmativo, si las causas son geográficas, culturales o infraestructurales. No parece que se recojan datos sobre el acceso a la atención desde el punto de vista del paciente, lo que ayudaría a comprender la naturaleza de los obstáculos al acceso (y las soluciones). En general, no es posible determinar con los datos disponibles si los ingresos o las características socioeconómicas de los pacientes influyen a la hora de llegar a las puertas del hospital o de ser ingresado. El acceso desigual probablemente se deba también a la incapacidad de los centros de las distintas regiones para prestar los mismos servicios.",
2,"¿En qué países los estudiantes de alto rendimiento se sienten atraídos por la docencia? Las encuestas de docentes en servicio a menudo muestran que los maestros actuales están muy motivados por los beneficios intrínsecos de la enseñanza: trabajar con niños y ayudarlos a desarrollarse y hacer una contribución a la sociedad, mientras que los estudios que encuestan a grandes grupos de graduados sobre sus opciones de carrera muestran que la los salarios relativos de las ocupaciones de los graduados juegan un papel en sus elecciones: si los salarios de los docentes hubieran sido más altos, más ""docentes potenciales"" habrían considerado seriamente una carrera en la enseñanza. A nivel de país, los resultados indican que tanto los salarios de los docentes como la estatus social de la profesión docente se asocian positivamente con las expectativas de los estudiantes de trabajar como docentes.",
3,"A raíz de su preocupación por el hecho de que los médicos de todo el sistema sanitario japonés no fueran capaces de identificar los signos de sufrimiento psicológico que podrían ayudar a reducir los suicidios, la Asociación Médica Japonesa informa de que empezó a compartir información y orientaciones sobre la depresión con todos los médicos, primero en 2004 y luego de nuevo en 2009. En la actualidad, sólo se recogen indicadores sobre la tasa de reclusión y contención, y de ingresos involuntarios, por parte de los proveedores y a nivel prefectural. La información recopilada sistemáticamente sobre el sistema de atención de salud mental se limita a indicadores estructurales: instalaciones, número de personal, número de camas.",
4,"1999|H5|, Ares Abalde, 2014[ij]. El pequeño número de estudiantes y docentes en estas escuelas da forma a las formas en que las escuelas pueden utilizar el tiempo de docentes y alumnos, y cómo estos se agrupan por grados y habilidades (Mulcahy, 2009[ii6i). Los padres pueden estar preocupados por el hecho de que sus hijos aprendan junto con niños de diferentes edades en el mismo salón de clases (Cornish, 2006[ii7j), pero la investigación sugiere que la enseñanza multigrado no es necesariamente menos efectiva que en clases de edades específicas.",



Shape of training set: (4049, 2)
Shape of validation set: (702, 2)

Info for training set:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4049 entries, 0 to 4048
Data columns (total 2 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Textos_espanol  4049 non-null   object
 1   sdg             4049 non-null   int64 
dtypes: int64(1), object(1)
memory usage: 63.4+ KB

Info for validation set:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 702 entries, 0 to 701
Data columns (total 2 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Textos_espanol  702 non-null    object 
 1   sdg             0 non-null      float64
dtypes: float64(1), object(1)
memory usage: 11.1+ KB

Descriptive statistics for training set:


Unnamed: 0,Textos_espanol,sdg
count,4049,4049.0
unique,4049,
top,"Por ejemplo, el nÃºmero de consultas externas de especialistas es de 319 por cada mil derechohabientes en el SP, en comparaciÃ³n con 338 y 620 por cada mil derechohabientes en el IMSS y el ISSSTE, respectivamente. Si bien algunas de estas diferencias pueden reflejar una necesidad desigual (como la poblaciÃ³n ligeramente mayor del ISSSTE), otras no pueden justificarse de esta manera. El nÃºmero de recetas que no pudieron ser surtidas en su totalidad por un farmacÃ©utico debido a la falta de existencias es de 33% dentro del SP en comparaciÃ³n con 14% dentro del IMSS segÃºn los datos de la encuesta (aunque las propias cifras de los institutos de la SS sugieren tasas mÃ¡s altas de recetas surtidas). Ambas cifras se encuentran entre las mÃ¡s altas de la OCDE. El gasto de bolsillo no se ha reducido significativamente en la última década, a pesar de los esfuerzos para lograr la cobertura sanitaria universal a través de la reforma del SP.",
freq,1,
mean,,4.051124
std,,0.814338
min,,3.0
25%,,3.0
50%,,4.0
75%,,5.0



Descriptive statistics for validation set:


Unnamed: 0,Textos_espanol,sdg
count,702,0.0
unique,702,
top,"Han examinado la contribuciÃ³n de las universidades y las instituciones de educaciÃ³n terciaria al desarrollo del capital humano y las competencias, la transferencia de tecnologÃa y la innovaciÃ³n empresarial, el desarrollo social, cultural y medioambiental, y la creaciÃ³n de capacidad regional. El proceso de revisiÃ³n ha facilitado la creaciÃ³n de asociaciones en ciudades y regiones al reunir a instituciones de educaciÃ³n terciaria y organismos pÃºblicos y privados para identificar objetivos estratÃ©gicos y trabajar juntos para alcanzarlos. Complementa las revisiones que se han llevado a cabo en la región transfronteriza México-Estados Unidos, de gran importancia estratégica y económica, como las de Nuevo León, la región Paso del Norte y, más recientemente, la del sur de Arizona (2011), junto al estado de Sonora.",
freq,1,
mean,,
std,,
min,,
25%,,
50%,,
75%,,



Basic statistics for natural_text length in training set:


count    4049.000000
mean      699.632502
std       228.988965
min       294.000000
25%       531.000000
50%       657.000000
75%       827.000000
max      1513.000000
Name: Textos_espanol, dtype: float64


Basic statistics for natural_text length in validation set:


count     702.000000
mean      693.564103
std       219.593226
min       338.000000
25%       515.250000
50%       665.500000
75%       836.500000
max      1468.000000
Name: Textos_espanol, dtype: float64

Distribution of SDG categories in training set:


sdg
5    1451
4    1354
3    1244
Name: count, dtype: int64


Distribution of SDG categories in test set:


Series([], Name: count, dtype: int64)


Unusual characters in training set:


{'#',
 '$',
 '%',
 '&',
 '*',
 '+',
 '/',
 '<',
 '=',
 '>',
 '@',
 '[',
 ']',
 '{',
 '|',
 '~',
 '¡',
 '¢',
 '£',
 '©',
 '«',
 '®',
 '°',
 '±',
 '»',
 '¿',
 '˜',
 '\u200b',
 '–',
 '—',
 '’',
 '“',
 '”',
 '…',
 '€',
 '™'}


Unusual characters in validation set:


{'$',
 '%',
 '&',
 '*',
 '+',
 '/',
 '@',
 '[',
 '\\',
 ']',
 '|',
 '¡',
 '©',
 '«',
 '±',
 '»',
 '¿',
 '˜',
 '\u200b',
 '—',
 '“',
 '”',
 '€',
 '™'}


Column names in training set: ['Textos_espanol', 'sdg']
Column names in test: ['Textos_espanol', 'sdg']

Data types in training set:


Textos_espanol    object
sdg                int64
dtype: object

Data types in test set:


Textos_espanol     object
sdg               float64
dtype: object

Checking for duplicated rows within each file...

Number of duplicated rows in training set: 0


Unnamed: 0,Textos_espanol,sdg


Number of duplicated rows in test set: 0


Unnamed: 0,Textos_espanol,sdg



Checking for common rows between file1 and file2...
Number of common rows between file1 and file2: 0


Unnamed: 0,Textos_espanol,sdg



No common rows found in both files.

Missing values in training set:


Textos_espanol    0
sdg               0
dtype: int64

Missing values in validation set:


Textos_espanol      0
sdg               702
dtype: int64


Unique labels in test set:


array([3, 4, 5], dtype=int64)

Unique labels in validation set:


array([nan])

## Tranformación de datos

### Limpieza inicial del texto
Al final quedan los tokens almacenados en el DF.

In [213]:
# def corregir_tildes(words):
#     """Corrige caracteres malformados con tildes en el texto."""
#     reemplazos = {
#         'Ã±': 'ñ',
#         'Ã³': 'ó',
#         'Ãº': 'ú',
#         'Ã©': 'é',
#         'Ã¡': 'á',
#         'Ã­': 'í'
#     }
#     corregidos = []
#     for word in words:
#         print(type(word))
#         print(word, [ord(c) for c in word])
#         palabra_corregida = word
#         for malformado, correcto in reemplazos.items():
#             if malformado in palabra_corregida:
#                 print("Encontrado")
#             palabra_corregida = palabra_corregida.replace(malformado, correcto)
#         corregidos.append(palabra_corregida)
#     return corregidos

def corregir_tildes_texto(text):
    """Corrige caracteres malformados con tildes en el texto."""
    reemplazos = {
        'Ã±': 'ñ',
        'Ã³': 'ó',
        'Ãº': 'ú',
        'Ã©': 'é',
        'Ã¡': 'á',
        'Ã­': 'í'
    }
    texto_corregido = text
    for malformado, correcto in reemplazos.items():
        if malformado in texto_corregido:
            print("Encontrado")
        texto_corregido = texto_corregido.replace(malformado, correcto)
    return texto_corregido



In [208]:
import unicodedata
import nltk
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem.snowball import SnowballStemmer

nltk.download('stopwords')
nltk.download('punkt')
nltk.download('punkt_tab')
stop_words = set(stopwords.words('spanish'))
stemmer = SnowballStemmer("spanish")

df1['Textos_espanol'] = df1['Textos_espanol'].apply(corregir_tildes_texto)

def clean_text(text):
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub(r'\d+', '', text)
    text = unicodedata.normalize('NFKD', text)
    text = ''.join([c for c in text if not unicodedata.combining(c)])
    word_tokens = word_tokenize(text)
    filtered_words = [word for word in word_tokens if word.lower() not in stop_words]
    stems = [stemmer.stem(word) for word in filtered_words]
    return ' '.join(stems)

df2['sdg'] = 0

df1['Textos_espanol'] = df1['Textos_espanol'].apply(clean_text)
df2['Textos_espanol'] = df2['Textos_espanol'].apply(clean_text)

df1.sample(10)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\USUARIO\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\USUARIO\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\USUARIO\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Unnamed: 0,Textos_espanol,sdg
413,hbalc promedi pacient atencion primari cambi ultim anos mejor parec probabl men modifiqu practic clinic proporcion alcanz met presion arterial mm iig variacion dobl cond proporcion presion arterial inferior mm hg alrededor result apunt tratamient insuficient potencial mejor tod region embarg marg mejor sol pacient diabet menor anos alcanz met colesterol ldl variacion nivel cond vari indic accident cerebrovascul infart agud miocardi tratamient acuerd gui result mejor signific,3
751,dich estrategi polit implic cambi form organiz actual rol comprador proveedor supervision produc compr bien servici reembols proveedor establec infraestructur inform sistem salud altern polit identific luz experient internacional ocde lugar evalu factibil especif context colombian seccion present problem relacion calid prestacion atencion salud mientr seccion trat mayor preocup colombi sostenibil financ sistem salud,3
3702,siguient pais seleccion exam angol austri baham bulgari chil macedoni pakist tog referent ocasional inform pais deb inform pais region men period inform tambi inclu inform jordani period inform anterior febrer implic reconoc naturalez entrelaz desventaj mujer desequilibri pod dentr hog famili irradi haci exterior desigualdad fuerz laboral mas general acces recurs vid public suficient senal much situacion mujer sig sujet discapac legal formal tambi import organ onu destaqu desventaj sustant caus desigualdad legal agreg falt reconoc derech reproduct tambi part cicl mujer pierd trabaj educ ten cas ten hij tempran edad ibid,5
3804,australi occidental ejempl implement revision obligatori tod muert ocurr hospital public centr salud priv brind servici pacient public queensland llev cab auditori cabecer anual medic recopil inform ciert element atencion evalu si cumpl estandar esper nivel nacional royal australasi colleg of surgeons establec requisit particip australi auditori mortal quirurg zeland part program desarroll profesional continu univers acsqhc tambi realiz auditori evalu cumplimient estandar mayori dat centr volumen atencion recurs dentr sistem dat clinic tambi recopil casi exclus trav registr especif organiz enfermed dirig grup especif poblacion bas hospital,3
2288,progres are complej llev mas tiemp logr requier redistribucion pod cambi norm relacion estructur desigual discrimin desiguald tem sostenibil result pas prim plan abord result iguald gener analisis gener seguimient evolucion result gener inclu retroces avanc dentr context crucial aprend refin program logr mayor eficaci,5
3827,falt mecan monitore evalu efect inici iguald gener identific barrer import mas pais respond falt habil analisis gener casi encuest ver figur tal creacion capac institu gener sector public are parec ser fundamental abord brech iguald restant miembr personal suel ubic ministeri agenci competent principal respons administr ley reglament especif relacion iguald gener recopil dat desarroll plan sectorial capacit desarroll polit personal sensibl gener unid gener sirv punt focal garantiz cuestion iguald gener incorpor llev mes ejecut apoy ejecut ejercici liderazg tem,5
1836,mism val univers maribor primorsk general alrededor estudi provien mism region institu educ superior ausenci tarif matricul diferencial factor impulsor detr baj movil estudiantil interregional condicion econom estudi padr proporcion estudi extranjer esloveni matricul total proporcion estudi esloven estudi extranjer matricul total encontr mas baj ocde ue imad,4
3949,prohibicion pued obstaculiz select ciert eleccion objet limit consum general product incident comport determin result encuest revel gobi centr mas accion diet estil vid activ aunqu accion relacion ultim respons nivel gobiern regional municipal pais encuest tambi revel mayori accion centr aument opcion brind inform program educ influ preferent,3
2978,desiguald salarial gener tambi pued mejor balanz pag reduc neces depend devalu moned medi mejor competit result feminiz ingres divis samarasingh seguin embarg hech desiguald gener pued circunst contribu crecimient agreg subray peligr potencial confi unic argument eficient econom promov iguald gener primer estudi encontr correl posit crecimient varied med bienest mujer iguald gener inclu relacion educ esper vid indic desarroll gener nacion unid particip femenin fuerz laboral segreg laboral brech salarial gener,5
2162,mas especif institu social discriminatori pais orig pued influ decision emigr mujer dos maner lad pued ser determin adicional emigr deriv neces mujer escap discrimin especif gener ejempl mujer pued migr escap violenci abus sexual mujer solter viud divorci pued migr escap estigm social nin pued migr escap restriccion libert presion cas permanec cast matrimoni jolly reev evident sudest asiat mujer migr escap matrimoni involuntari lam hoang,5


### Vectorización del texto

In [209]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer()

X_tfidf_1 = tfidf_vectorizer.fit_transform(df1['Textos_espanol'])
X_tfidf_2 = tfidf_vectorizer.transform(df2['Textos_espanol'])

tfidf_df_1 = pd.DataFrame(X_tfidf_1.toarray(), columns=tfidf_vectorizer.get_feature_names_out())
tfidf_df_2 = pd.DataFrame(X_tfidf_2.toarray(), columns=tfidf_vectorizer.get_feature_names_out())

tfidf_df_1.sample(10)

for col in tfidf_df_1.columns:
    print(col)


_par
a3ptim
a3rgan
aaad
aaadia3
aalt
aalton
aao
aaon
aaos
aarkrog
aarrev
abaj
aban
abander
abandon
abarc
abarcari
abarqu
abbas
abbasi
abbasishavazi
abbott
abbotts
abc
abdullah
abiert
abitur
abiy
abog
abol
aboli
abolicion
abon
abord
abordaj
aborigen
abort
abouch
about
abp
abre
abrevi
abri
abria3
abriac
abriend
abrier
abril
abrir
abrirs
abrum
abrupt
absent
absolut
absorb
absorbi
absorcion
abstemi
absten
abstendri
abstract
abu
abuel
abuj
aburr
abus
abyect
aca3m
acab
acabari
acadam
academ
academi
academiqu
acam
acar
acarr
acced
accedi
accentur
acces
accesibil
access
accia3n
accident
accidental
accion
account
accra
accrott
ace
acech
aceiter
aceler
acelerari
acemoglu
acentu
acept
aceptari
acerc
acerqu
acert
achac
achievement
acholi
acid
aclar
acnur
acog
acogedor
acogi
acomod
acompa
acompan
aconsej
acontec
acord
acort
acos
acquir
acredit
acreditacia3n
acrwc
acsqhc
act
action
actions
actitud
activ
acto
actor
actos
actu
actuacia3n
actuacion
actual
actualic
actualiz
actuari
actuarial
acual
acuci

# Modelo y evaluación

In [210]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

y_train = df1['sdg']

clf = RandomForestClassifier(n_estimators=100, random_state=42)

clf.fit(tfidf_df_1, y_train)

# Testing the model with tfidf_df_2
# Example: Predict the label for the first text in tfidf_df_2
sample_index = 0
sample_text_vector = tfidf_df_2.iloc[sample_index].values.reshape(1, -1)
predicted_label = clf.predict(sample_text_vector)

print(f"Predicted label for the sample text: {predicted_label[0]}")

original_stems = df2['Textos_espanol'].iloc[sample_index]

original_text_str = ' '.join(original_stems)

print(f"Original list of stems for sample index {sample_index}: {original_stems}")


Predicted label for the sample text: 4
Original list of stems for sample index 0: examin contribucia3n univers institu educacia3n terciari desarroll capital human competent transferent tecnologa innovacia3n empresarial desarroll social cultural medioambiental creacia3n capac regional proces revisia3n facilit creacia3n asoci ciudad region reun institu educacia3n terciari organ paoblic priv identific objet estratag trabaj junt alcanz complement revision llev cab region transfronteriz mexicoest unid gran import estrateg econom nuev leon region pas nort mas recient sur arizon junt sonor




In [211]:
df = pd.read_csv(file1, encoding='UTF-8')

df.head(1)


Unnamed: 0,Textos_espanol,sdg
0,"Por ejemplo, el nÃºmero de consultas externas de especialistas es de 319 por cada mil derechohabientes en el SP, en comparaciÃ³n con 338 y 620 por cada mil derechohabientes en el IMSS y el ISSSTE, respectivamente. Si bien algunas de estas diferencias pueden reflejar una necesidad desigual (como la poblaciÃ³n ligeramente mayor del ISSSTE), otras no pueden justificarse de esta manera. El nÃºmero de recetas que no pudieron ser surtidas en su totalidad por un farmacÃ©utico debido a la falta de existencias es de 33% dentro del SP en comparaciÃ³n con 14% dentro del IMSS segÃºn los datos de la encuesta (aunque las propias cifras de los institutos de la SS sugieren tasas mÃ¡s altas de recetas surtidas). Ambas cifras se encuentran entre las mÃ¡s altas de la OCDE. El gasto de bolsillo no se ha reducido significativamente en la última década, a pesar de los esfuerzos para lograr la cobertura sanitaria universal a través de la reforma del SP.",3


In [212]:
def get_examples_for_unusual_characters(df, column_name):
    unusual_chars = find_unusual_characters(df, column_name)
    examples = {}

    for char in unusual_chars:
        # Encuentra filas que contienen el carácter inusual
        rows_with_char = df[df[column_name].str.contains(re.escape(char), na=False)]
        
        # Selecciona hasta 5 ejemplos para cada carácter
        examples[char] = rows_with_char[column_name].head(5).tolist()

    return examples

# Ejemplo de uso
# Supongamos que tienes un DataFrame df con una columna llamada 'Textos_espanol'
unusual_char_examples = get_examples_for_unusual_characters(df, 'Textos_espanol')

# Mostrar los resultados
for char, examples in unusual_char_examples.items():
    print(f"Carácter inusual: {char}")
    for i, example in enumerate(examples, 1):
        print(f"Ejemplo {i}: {example}")
    print("\n")

Carácter inusual: ¢
Ejemplo 1: En particular, los programas deportivos y los modelos deportivos a seguir pueden reforzar la educación y los mensajes sobre salud para reducir los factores de riesgo de las ENT. Los programas deportivos para el empoderamiento femenino pueden incluir sesiones en las que se discuta información de salud y se eduque a las participantes sobre salud sexual y reproductiva, VIH y SIDA, y nutrición e higiene (Kay 2009). â€¢ La investigaciÃ³n ha demostrado que esto puede ser mÃ¡s efectivo que los enfoques convencionales para mejorar el conocimiento y las actitudes entre los jÃ³venes a travÃ©s del uso de comunicaciÃ³n alternativa y el apoyo de lÃderes entre pares (Delvaa et al. TambiÃ©n es un enfoque principal dentro del sector SDP, especialmente en el área de VIH y SIDA.
Ejemplo 2: ¿Se está brindando al personal necesario capacitación en profundidad sobre temas específicos de género, como entrevistar a víctimas de violencia sexual o reclutar mujeres de grupos minor

In [214]:
df = pd.read_csv(file1, encoding='UTF-8')

In [218]:
df = pd.read_csv(file1, encoding='UTF-8')
nlp = spacy.load('es_core_news_md')
def remove_non_ascii(words):
    """Remove non-ASCII characters from list of tokenized words"""
    new_words = []
    for word in words:
        if word is not None:
            new_word = unicodedata.normalize('NFKD', word).encode('ascii', 'ignore').decode('utf-8', 'ignore')
            new_words.append(new_word)
    return new_words

def replace_numbers_in_spanish(words):
    """Replace all integer occurrences in list of tokenized words with their textual representation in Spanish."""
    new_words = []
    for word in words:
        if word.isdigit():
            new_word = num2words(word, lang='es')
            new_words.append(new_word)
        else:
            new_words.append(word)
    return new_words


# def lemmatize_words(words):
#     lemmatized_words = []
#     for word in words:
#         doc = nlp(word)
#         lemmatized_words.append(doc[0].lemma_)  # Lematiza palabra por palabra
#     return lemmatized_words


# def clean_text(text):
#     text = text.lower()  # Convertir a minúsculas
#     words = word_tokenize(text)  # Tokenizar primero
    
#     #print('token', words)

#     # Corregir tildes
#     words = corregir_tildes(words)
#     #print ('tildes', words)

#     # Reemplazar números con su representación textual en español
#     words = replace_numbers_in_spanish(words)
#     #print('numeros', words)


#     # Eliminar caracteres no deseados
#     words = [re.sub(r'[^\w\s]', '', word) for word in words]

#     # Eliminar caracteres no ASCII
#     words = remove_non_ascii(words)
#     #print('ascii',  words)

#     # Filtrar stopwords (asegúrate de tener tu lista de stopwords en español)
#     stop_words = set(nlp.Defaults.stop_words)  # Lista de stopwords de SpaCy
#     words = [word for word in words if word not in stop_words]

#     # Lematizar palabras
#     words = lemmatize_words(words)
   

#     return ' '.join(words)

df["Textos_espanol"] = df["Textos_espanol"].apply(corregir_tildes_texto)

def clean_text(text):
    # Convertir todo el texto a minúsculas
    text = text.lower()

    #text = corregir_tildes_texto(text)

    # Tokenizar primero
    words = word_tokenize(text)  # Tokenización
    
    # Corregir tildes
    #words = corregir_tildes(words)
    
    # Reemplazar números con su representación textual en español
    words = replace_numbers_in_spanish(words)

    # Unir las palabras tokenizadas para lematizarlas de una sola vez
    text = ' '.join(words)

    # Eliminar caracteres no deseados y no ASCII
    text = re.sub(r'[^\w\s]', '', text)
    text = unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode('utf-8', 'ignore')

    # Procesar el texto con SpaCy (esto lematiza todo de una vez)
    doc = nlp(text)

    # Extraer lemas de cada token
    words = [token.lemma_ for token in doc if not token.is_stop and token.is_alpha]

    return ' '.join(words)
    #return text

# Aplicar la función clean_text a la columna del dataframe
# df_muestra = df.sample(n=1)
# df_muestra['Textos_espanol'] = df_muestra['Textos_espanol'].apply(clean_text)

df['Textos_espanol'] = df['Textos_espanol'].apply(clean_text)

df.head(1)

Unnamed: 0,Textos_espanol,sdg
0,ejemplo naomero consulta externo especialista trescientos diecinueve mil derechohabient sp trescientos treinta seisciento veinte mil derechohabient imss issste respectivamente diferencia reflejar necesidad desigual ligeramente issste justificar él naomero receta poder surtir totalidad farmacautico falta existencia treinta sp catorce imss segaon dato encuesta cifra instituto ss sugerir tasa alto receta surtida ambos cifra encontrar alto ocde gasto bolsillo reducir significativamente ultimo decada esfuerzo lograr cobertura sanitario universal traves reforma sp,3


In [216]:
df.head(100)

Unnamed: 0,Textos_espanol,sdg
0,ejemplo numero consulta externo especialista trescientos diecinueve mil derechohabient sp comparacion trescientos treinta seisciento veinte mil derechohabient imss issste respectivamente diferencia reflejar necesidad desigual poblacion ligeramente issste justificar él numero receta poder surtir totalidad farmaceutico falta existencia treinta sp comparacion catorce imss dato encuesta cifra instituto ss sugerir tasa alto receta surtida ambos cifra encontrar alto ocde gasto bolsillo reducir significativamente ultimo decada esfuerzo lograr cobertura sanitario universal traves reforma sp,3
1,mil gobierno central financio directamente gasto salud realizar transferencia especifico gasto salud ascender gasto gasto presupuestario salud realizar gobierno condado condado pobre ofrecer nivel atencion poblacion local gobierno provincial proporcionar subsidio oferta hospital,3
2,claramente factor juego particular variedad barrera determinante social relacionado genero clase etnia casta idioma religion surgir estructura norma proceso social arraigado aceptar fomentar distribución injusto riqueza recurso social ejemplo persona vivir vih enfermedad cronica enfrentar alto nivel estigma discriminacion dificultar acceso prueba medica tratamiento atencion apoyo gobierno buscar mejorar estandar salud querrar mejorar condicion mujer brindar servicio salud reproductivo efectivo implementar programa integral lactancia materno linea recomendación actual aumentar presión comunitario aborto selectivo sexo persona pobre carecer educacion informacion fondo opción saludable vulnerable impacto ent rico probable morir directo indirectamente ent tendran impacto alcance progreso odm,3
3,ejemplo australiano victoria agencia promocion salud financiado impuesto tabaco eeuu california massachusetts arizona oregon destinar ingreso procedente impuesto especial tabaco actividad educacion control tabaco jersey ohio texas ingreso procedente alcohol utilizar programa educacion prevencion relacionado alcohol sassi et mil impuesto local fuente importante ingreso sistema sanitario descentralizado ejemplo dinamarca finlandia italia suecia diecisiete nivel impuesto local fijar él funcion preferencia local nivel calidad servicio medico ausencia mecanismo transferencia ajustado riesgo gestionar centralmente descentralizacion reducir mancomunacion riesgo lugar mayor disparidad sanitario interregional,3
4,consumo anual alcohol estimar litro ano hombre cincuenta media ocde sistema mundial informacion alcohol salud oms ayudar explicar alto mortalidad enfermedad hepatico relacionado alcohol prevalencia obesidad adulto relativamente bajo comparacion país ocde treinta mujer kazajstan obesa comparacion dieciseis hombre world obesity mil dieciseis colocar tasa mujer par país obeso ocde proporcion brecha esperanza vida explicar mortalidad joven kazajo quince veintinueve ano grupo edad tasa general mortalidad alto ue quince,3
5,probar medicina rural crear deseo permanecer lugar graduar él universidad sydney veinte graduado programa rural ocupar puesto capacitacion posgrado rural disponible mason mil trece surgimiento especialista particularmente cirugia contribuir problema mano obra zona rural australia programa generalista rural comenzo ano queensland permitir medico cabecera capacitar poder desempenar función especializado anestesista obstetricia programa ampliar,3
6,duracion medio estancia hospital a él utilizar indicador eficiencia prestacion servicio hospitalario constante dema factor estancia corto reducira coste alta permitirar tratamiento numero paciente determinado periodo entrada paciente ingresado afección potencialmente mortal infarto agudo miocardio ataque cardiaco enfermedad cerebrovascular ictu tender permanecer tiempo hospital ejemplo paciente ingresado infarto agudo miocardio iam pasar medio trece hospital media ocde diferencia paciente ingresado enfermedad cerebrovascular derrame cerebral paciente corea permanecer promedio sesenta mayoria dema país hospitalizar quince,3
7,periodo retrospectivo veinte ano mil noveciento cincuenta precio incluir tecnologia expectativa politica gubernamental inflacion factor entrada envejecimiento poblacion gasto publico salud zelanda documento trabajo tesoro zelanda tendencia gasto salud zelanda wellington ministerio salud,3
8,vincular dato registro incluir relativo mortalidad potencial ampliacion registro electronico normalizado vinculacion dato reducirio carga suponer personal atencion primaria registro dato duplicado multipl registro calidad mejora normalizacion racionalizacion arquitectura informacion apoyar mejora calidad coordinacion asistencia sanitario incluir atencion primario deberiar prioridad abordar cuestión practica conllevar necesario liderazgo cambio cultura atencion primario vencer resistencia recogida dato promover potencial dato referencia mejora calidad apoyo paciente,3
9,sentido forma eficaz mejorar eficacia calidad servicio prestar medico atencion primaria probable introduccion tcc basado atencion primaria equivalente terapia conversacion ahorrir costo comparacion introduccion programa independiente aumentar reembolso terapia proporcionada medico atencion primario especialmente medico alternativo privado invertir desarrollo capacidad prestacion terapia psicologica particular país sistema atencion primaria debil alto nivel estigma torno enfermedad mental probable introduccion tcc atencion primario eficiente recurso,3


In [217]:
words = ['esto', 'es', 'una', 'prÃ³rroga', 'con', 'Ã©xito']
words = corregir_tildes(words)
print(words)

<class 'str'>
esto [101, 115, 116, 111]
<class 'str'>
es [101, 115]
<class 'str'>
una [117, 110, 97]
<class 'str'>
prÃ³rroga [112, 114, 195, 179, 114, 114, 111, 103, 97]
Encontrado
<class 'str'>
con [99, 111, 110]
<class 'str'>
Ã©xito [195, 169, 120, 105, 116, 111]
Encontrado
['esto', 'es', 'una', 'prórroga', 'con', 'éxito']


subprocess.run(["python", "-m", "spacy", "download", "es_core_news_md"])