In [1]:
# Instalar spaCy y descargar el modelo de inglés
# !pip install spacy
# !python -m spacy download en_core_web_sm

# Instalar SentenceTransformers para embeddings semánticos
# !pip install sentence-transformers

# Instalar NLTK para manejo de sinónimos
# !pip install nltk

# Descargar recursos de NLTK
import nltk
# nltk.download('wordnet')
# nltk.download('omw-1.4')


In [5]:
import pandas as pd

# Nombre del archivo CSV generado previamente
archivo_csv = 'SDG_final.csv'

# Definir el goal_id fijo
goal_id_fijo = '3'  # Cambia este valor según el GOAL que desees (por ejemplo, '2', '3', etc.)

try:
    # Cargar el archivo CSV
    df = pd.read_csv(archivo_csv, delimiter=',', encoding='utf-8')
    print("Archivo CSV cargado exitosamente.\n")
    
    # Verificar que las columnas necesarias existen en el DataFrame
    columnas_necesarias = {'goal_id', 'target_id', 'texto'}
    if not columnas_necesarias.issubset(df.columns):
        missing = columnas_necesarias - set(df.columns)
        raise KeyError(f"Faltan las siguientes columnas en el archivo CSV: {missing}")
    
    # Filtrar las filas que corresponden al goal_id especificado
    df_goal = df[df['goal_id'].astype(str) == str(goal_id_fijo)]
    
    # Verificar si se encontraron filas para el goal_id especificado
    if df_goal.empty:
        print(f"No se encontraron registros para el goal_id '{goal_id_fijo}'.")
    else:
        # Extraer la columna 'texto' y almacenarla en una lista llamada 'targets'
        targets = df_goal['texto'].tolist()
        goal_ids = df_goal['goal_id'].tolist()
        target_ids = df_goal['target_id'].tolist()
        
        # Mostrar la cantidad de textos extraídos
        print(f"Se han extraído {len(targets)} textos para el goal_id {goal_id_fijo}.\n")
        
        # Mostrar los textos extraídos
        print("Lista 'targets':")
        for idx, texto in enumerate(targets, start=1):
            print(f"{idx}. {texto}\n")
        
        # (Opcional) Guardar la lista 'targets' en un archivo de texto
        # Descomenta las siguientes líneas si deseas guardar los textos en un archivo
        """
        nombre_archivo_salida = f'targets_goal_{goal_id_fijo}.txt'
        with open(nombre_archivo_salida, 'w', encoding='utf-8') as f:
            for texto in targets:
                f.write(texto + '\n')
        print(f"Lista 'targets' guardada en el archivo '{nombre_archivo_salida}'.")
        """

except FileNotFoundError:
    print(f"Error: El archivo '{archivo_csv}' no se encontró en el directorio actual.")
except pd.errors.EmptyDataError:
    print(f"Error: El archivo '{archivo_csv}' está vacío.")
except pd.errors.ParserError:
    print(f"Error: El archivo '{archivo_csv}' no pudo ser parseado. Verifica el delimitador y el formato del archivo.")
except KeyError as e:
    print(f"Error de clave: {e}")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

Archivo CSV cargado exitosamente.

Se han extraído 13 textos para el goal_id 3.

Lista 'targets':
1. By 2030, reduce the global maternal mortality ratio to less than 70 per 100,000 live births | Maternal mortality ratio | Proportion of births attended by skilled health personnel

2. By 2030, end preventable deaths of newborns and children under 5 years of age, with all countries aiming to reduce neonatal mortality to at least as low as 12 per 1,000 live births and under-5 mortality to at least as low as 25 per 1,000 live births | Under-five mortality rate | Neonatal mortality rate

3. By 2030, end the epidemics of AIDS, tuberculosis, malaria and neglected tropical diseases and combat hepatitis, water-borne diseases and other communicable diseases  | Number of new HIV infections per 1,000 uninfected population, by sex, age and key populations | Tuberculosis incidence per 1,000 population | Malaria incidence per 1,000 population | Hepatitis B incidence per 100,000 population | Number of 

In [6]:
import pandas as pd

# Nombre del archivo CSV
archivo_csv = 'Compiled-Keywords-for-SDG.csv'

# Definir el parámetro fijo X (por ejemplo, 'SDG 1')
X = f'SDG {goal_id_fijo}'  # Cambia este valor según el GOAL que desees (e.g., 'SDG 2', 'SDG3', etc.)

try:
    # Cargar el archivo CSV
    df = pd.read_csv(archivo_csv, delimiter=',', encoding='utf-8')
    print(f"Archivo '{archivo_csv}' cargado exitosamente.\n")
    
    # Verificar que las columnas X y 'Misc' existen en el DataFrame
    columnas_necesarias = [X, 'Misc']
    columnas_presentes = df.columns.tolist()
    
    for columna in columnas_necesarias:
        if columna not in columnas_presentes:
            raise KeyError(f"La columna '{columna}' no existe en el archivo CSV. Columnas disponibles: {columnas_presentes}")
    
    # Extraer las columnas X y 'Misc', eliminando valores nulos y espacios en blanco
    elementos_X = df[X].dropna().astype(str).str.strip()
    elementos_Misc = df['Misc'].dropna().astype(str).str.strip()
    
    # Combinar ambas series
    combinados = pd.concat([elementos_X, elementos_Misc])
    
    # Eliminar entradas vacías después de stripping y convertir a lista de elementos únicos
    combinados = combinados[combinados != '']
    palabras_clave = combinados.unique().tolist()
    
    # Eliminar posibles duplicados adicionales y valores vacíos
    palabras_clave = [elemento for elemento in palabras_clave if elemento]
    
    # Mostrar la lista 'palabras_clave'
    print(f"Lista 'palabras_clave' para la columna '{X}' y 'Misc':\n")
    for idx, elemento in enumerate(palabras_clave, start=1):
        print(f"{idx}. {elemento}")
    
    # (Opcional) Guardar la lista 'palabras_clave' en un archivo de texto
    # Descomenta las siguientes líneas si deseas guardar los resultados
    """
    nombre_archivo_salida = f'palabras_clave_{X.replace(" ", "_")}_y_Misc.txt'
    with open(nombre_archivo_salida, 'w', encoding='utf-8') as f:
        for elemento in palabras_clave:
            f.write(elemento + '\n')
    print(f"\nLa lista 'palabras_clave' ha sido guardada en el archivo '{nombre_archivo_salida}'.")
    """

except FileNotFoundError:
    print(f"Error: El archivo '{archivo_csv}' no se encontró en el directorio actual.")
except pd.errors.EmptyDataError:
    print(f"Error: El archivo '{archivo_csv}' está vacío.")
except pd.errors.ParserError:
    print(f"Error: El archivo '{archivo_csv}' no pudo ser parseado. Verifica el delimitador y el formato del archivo.")
except KeyError as e:
    print(f"Error de clave: {e}")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

Archivo 'Compiled-Keywords-for-SDG.csv' cargado exitosamente.

Lista 'palabras_clave' para la columna 'SDG 3' y 'Misc':

1. Access to clean water and sanitation
2. Affordable medicines
3. AIDS
4. Air contamination
5. Air pollution
6. Alcohol abuse
7. Antenatal care
8. Antiretroviral
9. Antiretroviral therapy
10. Biomedical
11. Bodily autonomy
12. Child deaths
13. Contraceptive use
14. Death rate
15. Dental
16. Disability and family support
17. Disability and inclusion
18. Disability and politics of location
19. Diseases
20. Family planning
21. Health
22. Health in resource-constrained settings
23. Health worker density
24. Healthy
25. Healthy lives
26. Hepatitis
27. HIV
28. Improving mortality
29. Increasing life expectancy
30. Indigenous
31. Infected
32. International health policy
33. International health regulations
34. Malaria
35. Maternal mortality
36. Measles
37. Medical
38. Mental health
39. Mortality
40. Mortality rate
41. Narcotic drug abuse
42. Neonatal mortality
43. Polio
44

In [7]:
import re
import unicodedata

def normalizar_texto(texto):
    """
    Normaliza el texto:
    - Convierte a minúsculas
    - Elimina acentos
    - Elimina caracteres especiales
    - Elimina espacios en blanco excesivos
    """
    # Convertir a minúsculas
    texto = texto.lower()
    # Eliminar acentos
    texto = unicodedata.normalize('NFKD', texto).encode('ASCII', 'ignore').decode('utf-8')
    # Eliminar caracteres especiales
    texto = re.sub(r'[^a-z0-9\s]', '', texto)
    # Eliminar espacios en blanco excesivos
    texto = ' '.join(texto.split())
    return texto

# Normalizar palabras clave
palabras_clave_normalizadas = [normalizar_texto(palabra) for palabra in palabras_clave]

# Normalizar targets
targets_normalizados = [normalizar_texto(target) for target in targets]

print("Palabras clave normalizadas:")
print(palabras_clave_normalizadas)
print("\nPrimer target normalizado:")
print(targets_normalizados[0])


Palabras clave normalizadas:
['access to clean water and sanitation', 'affordable medicines', 'aids', 'air contamination', 'air pollution', 'alcohol abuse', 'antenatal care', 'antiretroviral', 'antiretroviral therapy', 'biomedical', 'bodily autonomy', 'child deaths', 'contraceptive use', 'death rate', 'dental', 'disability and family support', 'disability and inclusion', 'disability and politics of location', 'diseases', 'family planning', 'health', 'health in resourceconstrained settings', 'health worker density', 'healthy', 'healthy lives', 'hepatitis', 'hiv', 'improving mortality', 'increasing life expectancy', 'indigenous', 'infected', 'international health policy', 'international health regulations', 'malaria', 'maternal mortality', 'measles', 'medical', 'mental health', 'mortality', 'mortality rate', 'narcotic drug abuse', 'neonatal mortality', 'polio', 'premature mortality', 'preventable deaths', 'reducing malaria', 'reducing mortality', 'refugees and health services', 'reproduc

In [8]:
import spacy
from tqdm import tqdm

# Cargar el modelo de spaCy para inglés
# Nota: Asegúrate de haber descargado el modelo 'en_core_web_sm' previamente
# Puedes hacerlo ejecutando: python -m spacy download en_core_web_sm
nlp = spacy.load('en_core_web_sm')

def extraer_conceptos(target):
    """
    Extrae conceptos clave de un target utilizando spaCy.
    """
    doc = nlp(target)
    conceptos = set()
    for chunk in doc.noun_chunks:
        # Filtrar chunks demasiado cortos
        if len(chunk.text.split()) < 2:
            continue
        # Filtrar chunks que sean solo stop words
        if all(token.is_stop for token in chunk):
            continue
        # Añadir el chunk normalizado
        conceptos.add(normalizar_texto(chunk.text))
    return conceptos

# Extraer conceptos de todos los targets
targets_conceptos = []
for target in tqdm(targets_normalizados, desc="Extrayendo conceptos"):
    conceptos = extraer_conceptos(target)
    targets_conceptos.append(conceptos)

# Ejemplo de conceptos extraídos para el primer target
print("\nConceptos extraídos para el primer target:")
print(targets_conceptos[0])


Extrayendo conceptos: 100%|██████████| 13/13 [00:00<00:00, 69.88it/s]


Conceptos extraídos para el primer target:
{'skilled health personnel', 'the global maternal mortality ratio', 'live births maternal mortality ratio proportion'}





In [9]:
from nltk.corpus import wordnet as wn
import nltk

# Descargar recursos de NLTK (si no se han descargado previamente)
nltk.download('wordnet')
nltk.download('omw-1.4')

def obtener_sinonimos(palabra):
    """
    Obtiene sinónimos de una palabra en inglés utilizando WordNet.
    """
    sinonimos = set()
    for syn in wn.synsets(palabra, lang='eng'):
        for lemma in syn.lemmas('eng'):
            # Reemplazar guiones bajos con espacios y normalizar
            sinonimos.add(normalizar_texto(lemma.name().replace('_', ' ')))
    return list(sinonimos)

# Función para obtener sinónimos restringidos a palabras_clave_normalizadas
def obtener_sinonimos(palabra):
    """
    Obtiene sinónimos de una palabra en inglés utilizando WordNet.
    Solo devuelve sinónimos que ya están en palabras_clave_normalizadas.
    """
    sinonimos = set()
    for syn in wn.synsets(palabra, lang='eng'):
        for lemma in syn.lemmas('eng'):
            # Reemplazar guiones bajos con espacios y normalizar
            sin = normalizar_texto(lemma.name().replace('_', ' '))
            if sin in palabras_clave_normalizadas:
                sinonimos.add(sin)
    return list(sinonimos)

# Expansión de palabras clave restringida a palabras_clave_normalizadas
palabras_clave_expandidas = set(palabras_clave_normalizadas)
for palabra in palabras_clave_normalizadas:
    sinonimos_filtrados = obtener_sinonimos(palabra)
    palabras_clave_expandidas.update(sinonimos_filtrados)

palabras_clave_expandidas = list(palabras_clave_expandidas)

print("\nPalabras clave expandidad con sinónimos restringidos:")
print(palabras_clave_expandidas)

# Verificar que todas las palabras clave expandidas estén en palabras_clave_normalizadas
palabras_no_presentes = [p for p in palabras_clave_expandidas if p not in palabras_clave_normalizadas]
if palabras_no_presentes:
    print("\nLas siguientes palabras no están en la lista original de palabras_clave:")
    print(palabras_no_presentes)
else:
    print("\nTodas las palabras clave expandidas están presentes en la lista original.")


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\sgsr_\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\sgsr_\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!



Palabras clave expandidad con sinónimos restringidos:
['malaria', 'treatment of substance abuse', 'equal rights to economic resources', 'land locked developing countries', 'soil contamination', 'wellbeingwell beingwellbeing', 'leave no one behind', 'accountability', 'co2 emissions', 'sustainable transport', 'environmental', 'diseases', 'neonatal mortality', 'social protection policies', 'smart houses', 'sustainable development goals', 'reducing malaria', 'road traffic accidents', 'improving mortality', 'wash', 'world health organisation', 'social responsibility', 'contraceptive use', 'biodiversity', 'foodenergywater nexus waterenergyfood nexus', 'health', 'migration and policy', 'medical', 'alternative energy', 'wellbeing', 'preventable deaths', 'low impact farming', 'environmental degradation', 'refugees and health services', 'environment', 'aids', 'disability', 'family planning', 'death rate', 'air contamination', 'disability and inclusion', 'disability and politics of location', 't

In [10]:
from sentence_transformers import SentenceTransformer, util
import torch

# Cargar el modelo de embeddings multilingüe
modelo = SentenceTransformer('paraphrase-MiniLM-L6-v2')  # Puedes elegir otro modelo si lo prefieres

# Generar embeddings para palabras clave expandidas
embeddings_palabras = modelo.encode(palabras_clave_expandidas, convert_to_tensor=True)

# Generar embeddings para conceptos únicos
# Primero, aplanamos la lista de conceptos
conceptos_unicos = list(set(concepto for conceptos in targets_conceptos for concepto in conceptos))
embeddings_conceptos = modelo.encode(conceptos_unicos, convert_to_tensor=True)

print(f"\nTotal de conceptos únicos: {len(conceptos_unicos)}")
print(f"Total de palabras clave expandidas: {len(palabras_clave_expandidas)}")


  from .autonotebook import tqdm as notebook_tqdm



Total de conceptos únicos: 117
Total de palabras clave expandidas: 135


In [11]:
# Calculamos la matriz de similitud
similitudes = util.pytorch_cos_sim(embeddings_conceptos, embeddings_palabras)

# Definir umbral de similitud
umbral_similitud = 0.7

# Crear un diccionario para mapear conceptos a palabras clave
mapa_concepto_palabra = {}

for idx, concepto in enumerate(conceptos_unicos):
    similitudes_concepto = similitudes[idx]
    indices_similares = torch.where(similitudes_concepto >= umbral_similitud)[0]
    palabras_similares = [palabras_clave_expandidas[i] for i in indices_similares]
    if palabras_similares:
        mapa_concepto_palabra[concepto] = palabras_similares

print("\nEjemplo de mapeo de concepto a palabras clave:")
for concepto, palabras in list(mapa_concepto_palabra.items())[:5]:
    print(f"- {concepto}: {palabras}")




Ejemplo de mapeo de concepto a palabras clave:
- 1000 population malaria incidence: ['malaria', 'reducing malaria']
- the capacity: ['capacity building']
- neonatal mortality: ['neonatal mortality', 'premature mortality', 'maternal mortality']
- family planning information: ['family planning']
- public health: ['health', 'international health policy', 'universal health']


In [12]:
from sklearn.cluster import AgglomerativeClustering
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Extraer los embeddings de las palabras clave
embeddings_palabras_np = embeddings_palabras.cpu().numpy()

# Aplicar Agglomerative Clustering con el métrico 'cosine'
# Nota: 'cosine' métrico se utiliza directamente, no 'precomputed'
# linkage='average' es compatible con 'cosine' métrico
cluster = AgglomerativeClustering(
    n_clusters=None,
    distance_threshold=0.3,  # Ajusta este umbral según tus necesidades
    linkage='average',
    metric='cosine'
    #metric=None
)

clusters = cluster.fit_predict(embeddings_palabras_np)

# Agrupar palabras clave por clusters
from collections import defaultdict

clusters_dict = defaultdict(list)
for palabra, c in zip(palabras_clave_expandidas, clusters):
    clusters_dict[c].append(palabra)

print("\nClusters de palabras clave similares:")
for c, palabras in clusters_dict.items():
    if len(palabras) > 1:
        print(f"Cluster {c}: {palabras}")



Clusters de palabras clave similares:
Cluster 18: ['malaria', 'reducing malaria']
Cluster 1: ['treatment of substance abuse', 'alcohol abuse']
Cluster 30: ['soil contamination', 'soil pollution']
Cluster 17: ['wellbeingwell beingwellbeing', 'wellbeing', 'human wellbeing']
Cluster 27: ['sustainable transport', 'sustainable public transport']
Cluster 15: ['environmental', 'environmental policy']
Cluster 3: ['neonatal mortality', 'premature mortality', 'maternal mortality']
Cluster 14: ['sustainable development goals', 'sustainable societies', 'sustainable development', 'sustainable management', 'sustainable development indicators', 'sustainable', 'sustainability', 'technology for sustainable development', 'environmental sustainability']
Cluster 8: ['improving mortality', 'death rate', 'mortality', 'mortality rate', 'reducing mortality']
Cluster 2: ['world health organisation', 'international health policy', 'international health regulations']
Cluster 7: ['migration and policy', 'irregul

In [13]:
# Selección de representantes asegurando que pertenezcan a palabras_clave_normalizadas
cluster_representante = {}
for c, palabras in clusters_dict.items():
    if len(palabras) == 1:
        palabra = palabras[0]
        if palabra in palabras_clave_normalizadas:
            cluster_representante[c] = palabra
        else:
            # Opcional: no asignar representante o asignar una palabra válida
            print(f"Cluster {c} contiene una palabra no deseada: {palabra}. No se asigna representante.")
    else:
        # Calcular similitud promedio de cada palabra con las demás en el cluster
        indices = [palabras_clave_expandidas.index(p) for p in palabras]
        similitudes_cluster = cosine_similarity(embeddings_palabras_np[indices])
        sim_promedio = similitudes_cluster.mean(axis=1)
        # Seleccionar la palabra con mayor similitud promedio
        representante_idx = np.argmax(sim_promedio)
        representante = palabras[representante_idx]
        if representante in palabras_clave_normalizadas:
            cluster_representante[c] = representante
        else:
            # Elegir la primera palabra que esté en palabras_clave_normalizadas
            representante_alternativo = next((p for p in palabras if p in palabras_clave_normalizadas), None)
            if representante_alternativo:
                cluster_representante[c] = representante_alternativo
            else:
                print(f"Cluster {c} no tiene representantes válidos en palabras_clave_normalizadas.")

print("\nPalabras clave representativas por cluster:")
for c, rep in cluster_representante.items():
    print(f"Cluster {c}: {rep}")



Palabras clave representativas por cluster:
Cluster 18: malaria
Cluster 1: treatment of substance abuse
Cluster 73: equal rights to economic resources
Cluster 58: land locked developing countries
Cluster 30: soil contamination
Cluster 17: wellbeing
Cluster 87: leave no one behind
Cluster 77: accountability
Cluster 45: co2 emissions
Cluster 27: sustainable transport
Cluster 15: environmental
Cluster 81: diseases
Cluster 3: neonatal mortality
Cluster 68: social protection policies
Cluster 80: smart houses
Cluster 14: sustainable development
Cluster 63: road traffic accidents
Cluster 8: mortality
Cluster 74: wash
Cluster 2: international health policy
Cluster 61: social responsibility
Cluster 67: contraceptive use
Cluster 90: biodiversity
Cluster 71: foodenergywater nexus waterenergyfood nexus
Cluster 85: health
Cluster 7: migration and policy
Cluster 4: biomedical
Cluster 6: alternative energy
Cluster 86: preventable deaths
Cluster 22: low impact farming
Cluster 84: environmental degrad

In [14]:
# Mapeo de conceptos a palabras clave representativas
mapa_concepto_palabra_representante = {}
for concepto, palabras in mapa_concepto_palabra.items():
    representantes = set()
    for palabra in palabras:
        # Encontrar el cluster de la palabra
        cluster_id = next((c for c, p in clusters_dict.items() if palabra in p), None)
        if cluster_id is not None:
            representante = cluster_representante.get(cluster_id, None)
            if representante and representante in palabras_clave_normalizadas:
                representantes.add(representante)
    if representantes:
        mapa_concepto_palabra_representante[concepto] = list(representantes)

print("\nEjemplo de mapeo de concepto a palabras clave representativas:")
for concepto, palabras in list(mapa_concepto_palabra_representante.items())[:5]:
    print(f"- {concepto}: {palabras}")



Ejemplo de mapeo de concepto a palabras clave representativas:
- 1000 population malaria incidence: ['malaria']
- the capacity: ['capacity building']
- neonatal mortality: ['neonatal mortality']
- family planning information: ['family planning']
- public health: ['health', 'universal health coverage', 'international health policy']


In [15]:
# Asignación de palabras clave a cada target
palabras_clave_por_target = []
for conceptos in tqdm(targets_conceptos, desc="Asignando palabras clave a targets"):
    palabras_asignadas = set()
    for concepto in conceptos:
        palabras = mapa_concepto_palabra_representante.get(concepto, [])
        palabras_asignadas.update(palabras)
    palabras_clave_por_target.append(list(palabras_asignadas))

# Crear el DataFrame con IDs desde SDG_final.csv
targets_df = pd.DataFrame({
    'goal_id': goal_ids,
    'target_id': target_ids,
    'target': targets,
    'target_normalizado': targets_normalizados,
    'conceptos': targets_conceptos,
    'palabras_clave': palabras_clave_por_target
})

# Mostrar un ejemplo
print("\nEjemplo de palabras clave asignadas a un target:")
print(targets_df[['goal_id', 'target_id', 'target', 'palabras_clave']].iloc[0])

Asignando palabras clave a targets: 100%|██████████| 13/13 [00:00<?, ?it/s]


Ejemplo de palabras clave asignadas a un target:
goal_id                                                           3
target_id                                                       3.1
target            By 2030, reduce the global maternal mortality ...
palabras_clave                                 [neonatal mortality]
Name: 0, dtype: object





In [16]:
# Identificar targets sin palabras clave asignadas
targets_df['tiene_palabras_clave'] = targets_df['palabras_clave'].apply(lambda x: len(x) > 0)
targets_sin_palabras = targets_df[targets_df['tiene_palabras_clave'] == False]

print(f"\nTotal de targets sin palabras clave asignadas: {len(targets_sin_palabras)}")
print(targets_sin_palabras[['target', 'palabras_clave']])



Total de targets sin palabras clave asignadas: 0
Empty DataFrame
Columns: [target, palabras_clave]
Index: []


In [17]:
from collections import Counter

# Calcular la frecuencia de cada palabra clave
contador_palabras = Counter([palabra for sublist in palabras_clave_por_target for palabra in sublist])
palabras_frecuentes = [palabra for palabra, _ in contador_palabras.most_common(3)]  # Top 3 palabras clave

print("\nPalabras clave más frecuentes:", palabras_frecuentes)

# Asignar las top 3 palabras clave más frecuentes a targets sin palabras clave
for i, row in targets_df.iterrows():
    if not row['tiene_palabras_clave']:
        targets_df.at[i, 'palabras_clave'] = palabras_frecuentes

# Verificar nuevamente
print(f"\nTotal de targets sin palabras clave asignadas después de la asignación de palabras frecuentes: {len(targets_df[targets_df['palabras_clave'].apply(lambda x: len(x) == 0)])}")



Palabras clave más frecuentes: ['neonatal mortality', 'international health policy', 'developing countries']

Total de targets sin palabras clave asignadas después de la asignación de palabras frecuentes: 0


In [18]:
# targets_df

In [19]:
import os

# Concatenar las palabras clave separadas por comas
targets_df['palabras_clave_concatenadas'] = targets_df['palabras_clave'].apply(lambda x: ', '.join(x))

# Seleccionar las columnas deseadas, incluyendo goal_id y target_id
resultado_csv = targets_df[['goal_id', 'target_id', 'target', 'palabras_clave_concatenadas']]

# Definir la ruta del archivo CSV final
file_path = 'targets_con_palabras_clave_agrupadas.csv'

# Verificar si el archivo ya existe
file_exists = os.path.isfile(file_path)
# Concatenar las palabras clave separadas por comas
targets_df['palabras_clave_concatenadas'] = targets_df['palabras_clave'].apply(lambda x: ', '.join(x))

# Seleccionar las columnas deseadas, incluyendo goal_id y target_id
resultado_csv = targets_df[['goal_id', 'target_id', 'target', 'palabras_clave_concatenadas']]

# Definir la ruta del archivo CSV final
file_path = 'targets_con_palabras_clave_agrupadas.csv'

# Verificar si el archivo ya existe
file_exists = os.path.isfile(file_path)

# Si el archivo ya existe, leerlo para evitar duplicados
if file_exists:
    final_df = pd.read_csv(file_path)
    # Filtrar los targets que ya están en el archivo final
    nuevos_resultados = resultado_csv[~resultado_csv['target_id'].isin(final_df['target_id'])]
else:
    nuevos_resultados = resultado_csv

# Guardar los nuevos resultados en el archivo CSV usando append si ya existe
nuevos_resultados.to_csv(file_path, mode='a', index=False, header=not file_exists)

print(f"\nArchivo CSV generado exitosamente: '{file_path}'")


Archivo CSV generado exitosamente: 'targets_con_palabras_clave_agrupadas.csv'
