# entrevistas

In [17]:
import pandas as pd

# Archivos Excel de entrada
archivos_excel = [
    './data/interview/Leonidas Iza.xlsx',
    './data/interview/HenryKronfle.xlsx',
    './data/interview/Luis Tilleria.xlsx'
]

# Convertir cada archivo Excel a CSV con ,
for archivo_excel in archivos_excel:
    # Leer el archivo Excel
    df = pd.read_excel(archivo_excel)
    
    # Definir el archivo CSV de salida
    archivo_csv = archivo_excel.replace('.xlsx', '.csv')  # Reemplaza la extensión .xlsx por .csv
    
    # Guardar como archivo CSV con ,
    df.to_csv(archivo_csv, index=False, sep=',')  # Usamos tabulación como separador
    
    print(f"Archivo convertido a CSV con ,: {archivo_csv}")


Archivo convertido a CSV con ,: ./data/interview/Leonidas Iza.csv
Archivo convertido a CSV con ,: ./data/interview/HenryKronfle.csv
Archivo convertido a CSV con ,: ./data/interview/Luis Tilleria.csv


In [22]:
import pandas as pd
import re
import ollama  # Asegúrate de tener instalada la librería con: pip install ollama

# Lista de temas relevantes
temas_relevantes = { 
    "economía", "educación", "salud", "seguridad", "empleo",
    "infraestructura", "corrupción", "tecnología", "ambiente",
    "justicia", "transporte", "política", "desarrollo", "energía",
    "derechos humanos", "igualdad", "innovación", "turismo",
    "agricultura", "cultura", "deporte", "finanzas", "inversión",
    "vivienda", "servicios públicos", "ciencia", "medio ambiente",
    "gobierno", "industria", "exportaciones", "importaciones",
    "educación superior", "sanidad", "movilidad", "inteligencia artificial",
    "seguridad ciudadana", "crimen organizado", "democracia", "pobreza",
    "sostenibilidad", "digitalización", "gestión pública", "comercio",
    "cambio climático", "energías renovables", "transparencia", "ciberseguridad",
    "salud pública", "gobernanza", "justicia social", "igualdad de género",
    "emprendimiento", "industria 4.0", "desarrollo sostenible", "desastres naturales",
    "reforestación", "movilidad urbana", "biodiversidad", "educación financiera",
    "trabajo remoto", "accesibilidad", "industria alimentaria", "industria tecnológica",
    "educación digital", "cultura digital", "sociedad del conocimiento", 
    "banca digital", "teletrabajo", "inteligencia colectiva", "biotecnología",
    "blockchain", "fintech", "medicina personalizada", "economía circular",
    "ciudades inteligentes", "protección de datos", "energía solar", "transporte eléctrico",
    "robotización", "computación cuántica", "espacio exterior", "protección ambiental",
    "seguridad en la nube", "movilidad eléctrica", "alimentos orgánicos", "tecnología educativa",
    "agtech", "neurociencia", "edtech", "deep learning", "big data", "sistemas autónomos",
    "tecnología espacial", "cambio de paradigma", "smart grids", "ciudades sostenibles", 
    "ecoeficiencia", "energía eólica", "tecnologías disruptivas", "energía geotérmica",
    "nanotecnología", "microbioma", "bioeconomía", "ecoturismo", "industrias creativas",
    "gobernanza digital", "energía limpia", "criptomonedas", "minería digital", "ciencias marinas",
    "nanomateriales", "inteligencia emocional", "finanzas sostenibles", "educación en línea",
    "bio", "ecoinnovación", "simulación computacional", "agricultura urbana", "cultivos inteligentes","IESS"
}

# 📌 Función para extraer los temas tratados
def extraer_temas(texto):
    # Aseguramos que el texto no sea vacío o nulo
    if not texto or not isinstance(texto, str):
        return "Otros"
    
    # Convertimos el texto a minúsculas y buscamos los temas
    texto = texto.lower()
    temas_detectados = [tema for tema in temas_relevantes if tema.lower() in texto]
    
    # Si encontramos temas, los unimos en una cadena separada por comas
    return ", ".join(temas_detectados) if temas_detectados else "Otros"

# 📌 Función para generar resúmenes con Ollama
def generar_resumen_ollama(texto):
    prompt = f"Resume el siguiente texto en un parrafo:\n\n{texto}"

    try:
        respuesta = ollama.chat(
            model="llama3.2:latest",
            messages=[{"role": "user", "content": prompt}]
        )
        resumen = respuesta.get("message", {}).get("content", "").strip()
        # Eliminar saltos de línea y espacios extras
        resumen = ' '.join(resumen.split())
        return resumen if resumen else "No se pudo generar el resumen"

    except Exception as e:
        print(f"❌ Error con Ollama: {e}")
        return "Resumen no disponible"

def procesar_csv(archivo_entrada, archivo_salida):
    df = pd.read_csv(archivo_entrada,sep=",")

    # Verifica si la columna "entrevista" existe en el archivo CSV
    if "entrevista" not in df.columns:
        print("❌ La columna 'entrevista' no se encuentra en el archivo.")
        return

    # Extraer temas tratados
    df["Temas_Tratados"] = df["entrevista"].astype(str).apply(extraer_temas)

    # Generar resúmenes con Ollama
    df["descripcion"] = df["entrevista"].astype(str).apply(generar_resumen_ollama)

    # Guardar el archivo procesado
    df.to_csv(archivo_salida, index=False, encoding="utf-8-sig", sep=",")
    print(f"✅ Archivo procesado: {archivo_salida}")

# 🔥 Ejecutar para múltiples archivos CSV
procesar_csv("./data/interview/Leonidas Iza.csv", "./data/interview/Leonidas_Iza_pross.csv")
procesar_csv("./data/interview/HenryKronfle.csv", "./data/interview/Henry_Kronfle_pross.csv")
procesar_csv("./data/interview/Luis Tilleria.csv", "./data/interview/Luis_Tilleria_pross.csv")

✅ Archivo procesado: ./data/interview/Leonidas_Iza_pross.csv
✅ Archivo procesado: ./data/interview/Henry_Kronfle_pross.csv
✅ Archivo procesado: ./data/interview/Luis_Tilleria_pross.csv


In [25]:
import os
import pandas as pd
import csv
import numpy as np

# Carpeta que contiene los archivos CSV
directorio_csv = './data/interview'  # Cambia por la ruta de tu carpeta con archivos CSV

# Definir las columnas en el orden que quieres
columnas_ordenadas = ['ID', 'Candidato', 'Temas_Tratados', 'Descripcion', 'Entrevista']

# Función para encontrar el nombre más similar a una lista de nombres
def encontrar_columna_similar(nombre_columna, lista_columnas):
    import difflib
    # Encuentra la coincidencia más cercana
    coincidencias = difflib.get_close_matches(nombre_columna, lista_columnas, n=1, cutoff=0.8)
    return coincidencias[0] if coincidencias else None

# Función para depurar un DataFrame
def depurar_dataframe(df):
    # Rellenar valores NaN con un valor vacío o 0 dependiendo del tipo de la columna
    for col in df.columns:
        if df[col].dtype == 'object':  # Si es columna de tipo texto
            df[col].fillna('', inplace=True)
        else:  # Si es columna numérica
            df[col].fillna(0, inplace=True)
    
    # Verificar si todas las columnas esperadas están presentes
    for col in columnas_ordenadas:
        if col not in df.columns:
            df[col] = ''  # Si falta alguna columna, agregarla como vacía
    
    # Asegurarse de que el DataFrame no esté vacío
    if df.empty:
        print("El DataFrame está vacío, no se guardará.")
        return None
    
    # Asignar numeración secuencial a la columna 'ID'
    df['ID'] = range(1, len(df) + 1)
    
    # Reordenar las columnas del DataFrame
    df = df[columnas_ordenadas]
    
    return df

# Iterar sobre todos los archivos en la carpeta
for archivo in os.listdir(directorio_csv):
    if archivo.endswith('.csv'):
        archivo_csv = os.path.join(directorio_csv, archivo)
        
        try:
            df = pd.read_csv(archivo_csv, sep=',', quoting=csv.QUOTE_MINIMAL, quotechar='"')
        except Exception as e:
            print(f"Error al leer el archivo {archivo}: {e}")
            continue
        
        # Renombrar las columnas si hay coincidencias
        columnas_actuales = df.columns.tolist()
        columnas_renombradas = {}
        
        for col in columnas_actuales:
            columna_similar = encontrar_columna_similar(col, columnas_ordenadas)
            if columna_similar:
                columnas_renombradas[col] = columna_similar
        
        # Renombrar las columnas en el DataFrame
        df.rename(columns=columnas_renombradas, inplace=True)
        
        # Depurar el DataFrame
        df_limpio = depurar_dataframe(df)
        
        if df_limpio is not None:
            # Guardar el archivo CSV con el nuevo orden de columnas y delimitador ";"
            df_limpio.to_csv(archivo_csv, index=False, sep=',')
            print(f'Archivo renombrado, ordenado y con numeración secuencial en "ID": {archivo}')
        else:
            print(f'El archivo {archivo} no se guardó debido a que está vacío o con errores.')


Archivo renombrado, ordenado y con numeración secuencial en "ID": Andrea_Gonzalez.csv
Archivo renombrado, ordenado y con numeración secuencial en "ID": carlos_rabascall.csv
Archivo renombrado, ordenado y con numeración secuencial en "ID": Daniel_Noboa.csv
Archivo renombrado, ordenado y con numeración secuencial en "ID": HenryKronfle.csv
Archivo renombrado, ordenado y con numeración secuencial en "ID": Henry_Kronfle_pross.csv
Archivo renombrado, ordenado y con numeración secuencial en "ID": JimmyJairala.csv
Archivo renombrado, ordenado y con numeración secuencial en "ID": JorgeEscala.csv
Archivo renombrado, ordenado y con numeración secuencial en "ID": Leonidas Iza.csv
Archivo renombrado, ordenado y con numeración secuencial en "ID": Leonidas_Iza_pross.csv
Archivo renombrado, ordenado y con numeración secuencial en "ID": Luis Tilleria.csv
Archivo renombrado, ordenado y con numeración secuencial en "ID": Luis_Tilleria_pross.csv
Archivo renombrado, ordenado y con numeración secuencial en 

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna('', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

F

unir entrevistas

In [27]:
import os
import pandas as pd
import csv

# Carpeta que contiene los archivos CSV
directorio_csv = './data/interview/'  # Cambia por la ruta de tu carpeta con archivos CSV

# Definir las columnas en el orden que quieres
columnas_ordenadas = ['ID', 'Candidato', 'Temas_Tratados', 'Descripcion', 'Entrevista']

# Función para encontrar el nombre más similar a una lista de nombres
def encontrar_columna_similar(nombre_columna, lista_columnas):
    import difflib
    # Encuentra la coincidencia más cercana
    coincidencias = difflib.get_close_matches(nombre_columna, lista_columnas, n=1, cutoff=0.8)
    return coincidencias[0] if coincidencias else None

# Función para depurar un DataFrame
def depurar_dataframe(df):
    # Rellenar valores NaN con un valor vacío o 0 dependiendo del tipo de la columna
    for col in df.columns:
        if df[col].dtype == 'object':  # Si es columna de tipo texto
            df[col].fillna('', inplace=True)
        else:  # Si es columna numérica
            df[col].fillna(0, inplace=True)
    
    # Verificar si todas las columnas esperadas están presentes
    for col in columnas_ordenadas:
        if col not in df.columns:
            df[col] = ''  # Si falta alguna columna, agregarla como vacía
    
    # Asegurarse de que el DataFrame no esté vacío
    if df.empty:
        print("El DataFrame está vacío, no se guardará.")
        return None
    
    # Reordenar las columnas del DataFrame
    df = df[columnas_ordenadas]
    
    return df

# Lista para almacenar todos los DataFrames
df_final = []
id_contador = 1  # Contador para los IDs secuenciales

# Iterar sobre todos los archivos en la carpeta
for archivo in os.listdir(directorio_csv):
    if archivo.endswith('.csv'):
        archivo_csv = os.path.join(directorio_csv, archivo)
        
        try:
            df = pd.read_csv(archivo_csv, sep=',', quoting=csv.QUOTE_MINIMAL, quotechar='"')
        except Exception as e:
            print(f"Error al leer el archivo {archivo}: {e}")
            continue
        
        # Renombrar las columnas si hay coincidencias
        columnas_actuales = df.columns.tolist()
        columnas_renombradas = {}
        
        for col in columnas_actuales:
            columna_similar = encontrar_columna_similar(col, columnas_ordenadas)
            if columna_similar:
                columnas_renombradas[col] = columna_similar
        
        # Renombrar las columnas en el DataFrame
        df.rename(columns=columnas_renombradas, inplace=True)
        
        # Depurar el DataFrame
        df_limpio = depurar_dataframe(df)
        
        if df_limpio is not None:
            # Asignar los IDs secuenciales antes de agregar el DataFrame al archivo final
            df_limpio['ID'] = range(id_contador, id_contador + len(df_limpio))
            id_contador += len(df_limpio)  # Incrementar el contador para el siguiente archivo
            
            # Agregar el DataFrame limpio a la lista
            df_final.append(df_limpio)
        else:
            print(f'El archivo {archivo} no se guardó debido a que está vacío o con errores.')

# Combinar todos los DataFrames en uno solo
df_combinado = pd.concat(df_final, ignore_index=True)

# Guardar el archivo combinado en un nuevo CSV
archivo_combinado = './data/interview/archivo_combinado.csv'
df_combinado.to_csv(archivo_combinado, index=False, sep=',')

print(f'Archivo combinado guardado como: {archivo_combinado}')


Archivo combinado guardado como: ./data/interview/archivo_combinado.csv


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna('', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

F

In [34]:
import pandas as pd
import re

# Función para limpiar el contenido del texto
def clean_content(text):
    if not isinstance(text, str):
        return ''  # Si no es un string, devolver vacío
    
    # Eliminar viñetas comunes
    text = re.sub(r"[\u2022\u25CB\u2023\u2219\u2022\u25AA\u25B6\u25B7\u25C6\u2043\u25B8\u25BB\u2660\u25FE\u25FB]", "", text)
    text = re.sub(r'\(cid:\d+\)', '', text)
    
    # Eliminar enumeraciones (números seguidos de punto)
    text = re.sub(r'^\d+\.', '', text)  # Al inicio de la línea
    text = re.sub(r'\n\d+\.', '\n', text)  # En medio del texto
    
    # Reemplazar múltiples espacios con uno solo
    text = re.sub(r'\s+', ' ', text)
    
    # Eliminar espacios al inicio y final
    text = text.strip()
    
    return text

# Función para dividir el texto en oraciones por ID
def dividir_oraciones_por_id(text, text_id):
    delimitadores = '.'
    oraciones = []
    oracion_actual = ""
    
    for char in text:
        oracion_actual += char
        if char in delimitadores:
            oraciones.append(oracion_actual.strip())
            oracion_actual = ""
    
    if oracion_actual:  # Si hay algo restante
        oraciones.append(oracion_actual.strip())
    
    # Crear una lista de tuplas con ID y oraciones
    return [(text_id, i, oracion) for i, oracion in enumerate(oraciones, start=1)]

# Cargar el archivo combinado
archivo_combinado = './data/interview/archivo_combinado.csv'

try:
    df = pd.read_csv(archivo_combinado)
except FileNotFoundError:
    print(f"❌ Error: No se encontró el archivo {archivo_combinado}")
    exit()
except pd.errors.EmptyDataError:
    print(f"❌ Error: El archivo {archivo_combinado} está vacío.")
    exit()

# Verificar si la columna 'ID' ya existe
if 'ID' in df.columns:
    df = df.sort_values(by='ID').reset_index(drop=True)  # Ordenar por ID y resetear índices
else:
    print("⚠️ Advertencia: La columna 'ID' no existe. Se generará numeración automática.")
    df['ID'] = range(1, len(df) + 1)

# Crear lista para almacenar las nuevas filas con oraciones separadas
nuevas_filas = []

# Procesar cada fila del dataframe
for _, row in df.iterrows():
    text_id = row['ID']
    texto_limpio = clean_content(row.get('Entrevista', ''))  # Limpiar el texto antes de dividirlo
    oraciones = dividir_oraciones_por_id(texto_limpio, text_id)  # Extraer oraciones con ID
    
    for id_original, id_oracion, oracion in oraciones:
        nueva_fila = row.drop(labels=['Entrevista'], errors='ignore').to_dict()  # Evitar KeyError
        nueva_fila['ID_Oracion'] = f"{id_original}-{id_oracion}"  # ID único para cada oración
        nueva_fila['Oracion_Entrevista'] = oracion
        nuevas_filas.append(nueva_fila)

# Convertir la lista de nuevas filas en un DataFrame
df_expandido = pd.DataFrame(nuevas_filas)

# Reajustar la columna ID para que sea secuencial
df_expandido['ID'] = range(1, len(df_expandido) + 1)

# Guardar el archivo actualizado con oraciones separadas
archivo_expandido = './data/interview/archivo_combinado_expandido.csv'
df_expandido.to_csv(archivo_expandido, index=False, sep=',')

print(f'✅ Archivo expandido guardado como: {archivo_expandido}')


✅ Archivo expandido guardado como: ./data/interview/archivo_combinado_expandido.csv


# Procesamiento de pdfs

# columna id, partido politico,content

In [7]:
import os
import re
import pandas as pd
import pdfplumber

# Directorio donde están los archivos PDF
pdf_directory = "./data/"
output_csv = "candidatos.csv"

# Lista de diccionarios específicos a procesar
file_parameters = [
    {"file_name": "REVOLUCIÓN CIUDADANA - RETO _Plan de trabajo_.pdf"},
    {"file_name": "PARTIDO SOCIEDAD UNIDA MÁS ACCIÓN, SUMA _Plan de trabajo_.pdf"},
    {"file_name": "PARTIDO IZQUIERDA DEMOCRÁTICA _Plan de trabajo_.pdf"},
    {"file_name": "MOVIMIENTO CENTRO DEMOCRÁTICO _Plan de trabajo_.pdf"},
    {"file_name": "MOVIMIENTO CONSTRUYE _Plan de trabajo_.pdf"},
    {"file_name": "MOVIMIENTO CREO, CREANDO OPORTUNIDADES _Plan de trabajo_.pdf"},
    {"file_name": "MOVIMIENTO AMIGO, ACCIÓN MOVILIZADORA INDEPENDIENTE GENERANDO OPORTUNIDADES _Plan de trabajo_.pdf"},
    {"file_name": "MOVIMIENTO PUEBLO IGUALDAD DEMOCRACIA _PID_ _Plan de trabajo_.pdf"},
    {"file_name": "MOVIMIENTO ACCION DEMOCRATICA NACIONAL, ADN _Plan de trabajo_.pdf"},
    {"file_name": "PARTIDO SOCIEDAD PATRIÓTICA  21 DE ENERO _Plan de trabajo_.pdf"},
    {"file_name": "PARTIDO UNIDAD POPULAR _Plan de trabajo_.pdf"},
    {"file_name": "PARTIDO SOCIALISTA ECUATORIANO _Plan de trabajo_.pdf"},
    {"file_name": "MOVIMIENTO DEMOCRACIA SÍ _Plan de trabajo_.pdf"},
    {"file_name": "PARTIDO AVANZA _Plan de trabajo_.pdf"},
    {"file_name": "PARTIDO SOCIAL CRISTIANO _Plan de trabajo_.pdf"},
    {"file_name": "MOVIMIENTO DE UNIDAD PLURINACIONAL PACHAKUTIK _Plan de trabajo_.pdf"},
]

# Función para obtener el último ID del archivo CSV
def get_last_id(csv_path):
    if not os.path.exists(csv_path):
        return 1
    df = pd.read_csv(csv_path, sep="|", encoding="utf-8")
    if df.empty:
        return 1
    return df['ID'].iloc[-1] + 1


# Obtener el ID inicial
file_id = get_last_id(output_csv)

# Crear una lista para almacenar los datos
data = []

# Recorrer la lista de diccionarios específicos
for file_param in file_parameters:
    file_name = file_param["file_name"]

    # Construir la ruta completa del archivo
    pdf_path = os.path.join(pdf_directory, file_name)

    # Verificar si el archivo existe
    if os.path.exists(pdf_path):
        # Procesar el nombre del archivo
        processed_name = file_name.replace("_Plan de trabajo_", "").replace(".pdf", "")

        # Agregar los datos a la lista
        data.append([file_id, processed_name])
        file_id += 1
    else:
        print(f"Archivo no encontrado: {file_name}")

# Crear un DataFrame a partir de los datos nuevos
df_new = pd.DataFrame(data, columns=['ID', 'Nombre'])

# Verificar si el archivo CSV ya existe
if os.path.exists(output_csv):
    # Leer el archivo CSV existente
    df_existing = pd.read_csv(output_csv, sep="|", encoding="utf-8")
    # Concatenar los datos nuevos con los existentes
    df_combined = pd.concat([df_existing, df_new], ignore_index=True)
else:
    df_combined = df_new

# Guardar el DataFrame combinado en el archivo CSV con delimitador ";"
df_combined.to_csv(output_csv, sep=";", index=False, encoding="utf-8")

print(f"Datos agregados al archivo CSV: {output_csv}")


Datos agregados al archivo CSV: candidatos.csv


In [9]:
import os
import re
import pandas as pd
import pdfplumber

# Directorio donde están los archivos PDF
pdf_directory = "./data/"
output_csv = "oraciones.csv"

# Lista de diccionarios específicos a procesar
file_parameters = [
    {"file_name": "REVOLUCIÓN CIUDADANA - RETO _Plan de trabajo_.pdf", "exclude_pages_start": 8},
    {"file_name": "PARTIDO SOCIEDAD UNIDA MÁS ACCIÓN, SUMA _Plan de trabajo_.pdf", "exclude_pages_start": 7},
    {"file_name": "PARTIDO IZQUIERDA DEMOCRÁTICA _Plan de trabajo_.pdf","exclude_pages_start": 5},
    {"file_name": "MOVIMIENTO CENTRO DEMOCRÁTICO _Plan de trabajo_.pdf", "exclude_pages_start": 4},
    {"file_name": "MOVIMIENTO CONSTRUYE _Plan de trabajo_.pdf", "exclude_pages_start": 4},
    {"file_name": "MOVIMIENTO CREO, CREANDO OPORTUNIDADES _Plan de trabajo_.pdf", "exclude_pages_start": 4},
    {"file_name": "MOVIMIENTO AMIGO, ACCIÓN MOVILIZADORA INDEPENDIENTE GENERANDO OPORTUNIDADES _Plan de trabajo_.pdf", "exclude_pages_start": 4},
    {"file_name": "MOVIMIENTO PUEBLO IGUALDAD DEMOCRACIA _PID_ _Plan de trabajo_.pdf", "exclude_pages_start": 3},
    {"file_name": "MOVIMIENTO ACCION DEMOCRATICA NACIONAL, ADN _Plan de trabajo_.pdf", "exclude_pages_start": 3},
    {"file_name": "PARTIDO SOCIEDAD PATRIÓTICA  21 DE ENERO _Plan de trabajo_.pdf", "exclude_pages_start": 2},
    {"file_name": "PARTIDO UNIDAD POPULAR _Plan de trabajo_.pdf", "exclude_pages_start": 2},
    {"file_name": "PARTIDO SOCIALISTA ECUATORIANO _Plan de trabajo_.pdf", "exclude_pages_start": 2},
    {"file_name": "MOVIMIENTO DEMOCRACIA SÍ _Plan de trabajo_.pdf", "exclude_pages_start": 2},
    {"file_name": "PARTIDO AVANZA _Plan de trabajo_.pdf", "exclude_pages_start": 2},
    {"file_name": "PARTIDO SOCIAL CRISTIANO _Plan de trabajo_.pdf", "exclude_pages_start": 2},
    {"file_name": "MOVIMIENTO DE UNIDAD PLURINACIONAL PACHAKUTIK _Plan de trabajo_.pdf", "exclude_pages_start": 1}
]

# Función para obtener el último ID del archivo CSV
def get_last_id(csv_path):
    if not os.path.exists(csv_path):
        return 1
    df = pd.read_csv(csv_path, sep="|", encoding="utf-8")
    if df.empty:
        return 1
    return df['ID'].iloc[-1] + 1

# Función para extraer texto del PDF excluyendo las primeras y últimas páginas
def extract_text_excluding_pages(pdf_path, exclude_pages_start, exclude_pages_end=1):
    extracted_text = ""
    with pdfplumber.open(pdf_path) as pdf:
        for i in range(exclude_pages_start, len(pdf.pages) - exclude_pages_end):
            page_text = pdf.pages[i].extract_text()
            if page_text:
                extracted_text += page_text + "\n"
    return extracted_text.strip()

# Función para limpiar el contenido del texto
def clean_content(text):
    # Eliminar viñetas comunes
    text = re.sub(r"[\u2022\u25CB\u2023\u2219\u2022\u25AA\u25B6\u25B7\u25C6\u2043\u25B8\u25BB\u2660\u25FE\u25FB]", "", text)
    text = re.sub(r'\(cid:\d+\)', '', text)
    # Eliminar enumeraciones (números seguidos de punto)
    text = re.sub(r'^\d+\.', '', text)  # Al inicio de la línea
    text = re.sub(r'\n\d+\.', '\n', text)  # En medio del texto
    
    # Reemplazar múltiples espacios con uno solo
    text = re.sub(r'\s+', ' ', text)
    
    # Eliminar espacios al inicio y final
    text = text.strip()
    
    return text

# Función para dividir el texto en oraciones
def dividir_oraciones_por_id(text, text_id):
    delimitadores = '.'
    oraciones = []
    oracion_actual = ""
    for char in text:
        oracion_actual += char
        if char in delimitadores:
            oraciones.append(oracion_actual.strip())
            oracion_actual = ""
    if oracion_actual:  # Si hay algo restante
        oraciones.append(oracion_actual.strip())
    
    # Crear una lista de tuplas con id y oraciones
    return [(text_id, i, oracion) for i, oracion in enumerate(oraciones, start=1)]

# Obtener el ID inicial
file_id = get_last_id(output_csv)

# Crear una lista para almacenar los datos
data = []

# Recorrer la lista de diccionarios específicos
for file_param in file_parameters:
    file_name = file_param["file_name"]
    exclude_pages_start = file_param["exclude_pages_start"]

    # Construir la ruta completa del archivo
    pdf_path = os.path.join(pdf_directory, file_name)

    # Verificar si el archivo existe
    if os.path.exists(pdf_path):
        # Procesar el nombre del archivo
        processed_name = file_name.replace("_Plan de trabajo_", "").replace(".pdf", "")

        # Extraer el contenido del PDF
        content = extract_text_excluding_pages(pdf_path, exclude_pages_start=exclude_pages_start)

        # Limpiar el contenido extraído
        cleaned_content = clean_content(content)

        # Dividir el contenido en oraciones
        oraciones = dividir_oraciones_por_id(cleaned_content, file_id)

        # Agregar las oraciones a la lista de datos
        data.extend(oraciones)

        # Incrementar el ID
        file_id += 1
    else:
        print(f"Archivo no encontrado: {file_name}")

# Crear un DataFrame a partir de las oraciones
df_oraciones = pd.DataFrame(data, columns=['ID', 'Oracion_ID', 'Oracion'])

# Verificar si el archivo CSV ya existe
if os.path.exists(output_csv):
    # Leer el archivo CSV existente
    df_existing = pd.read_csv(output_csv, sep="|", encoding="utf-8")
    # Concatenar los datos nuevos con los existentes
    df_combined = pd.concat([df_existing, df_oraciones], ignore_index=True)
else:
    df_combined = df_oraciones

# Guardar el DataFrame combinado en el archivo CSV con delimitador ";"
df_combined.to_csv(output_csv, sep=";", index=False, encoding="utf-8")

print(f"Datos agregados al archivo CSV: {output_csv}")


Datos agregados al archivo CSV: oraciones.csv


# ocr

In [11]:
import pytesseract
from pdf2image import convert_from_path
import csv
import os
import nltk
from nltk.tokenize import sent_tokenize
import pandas as pd

# Descargar el recurso necesario para tokenizar oraciones
nltk.download('punkt')

csv.field_size_limit(1000000)

# Configuración global
pdf_directory = "./data/"
csv_file = "oraciones.csv"
columns = ['ID', 'Nombre', 'Contenido']

# Configurar Tesseract para Fedora
pytesseract.pytesseract.tesseract_cmd = '/usr/bin/tesseract'

def procesar_pdf(ruta_pdf, id_asignado, nombre_doc):
    try:
        # Convertir PDF a imágenes
        images = convert_from_path(ruta_pdf, dpi=300)
        
        # Extraer y limpiar texto
        contenido = " ".join(
            [pytesseract.image_to_string(img, lang='spa').strip().replace('\n', ' ') 
             for img in images]
        )
        
        # Tokenizar el texto en oraciones
        oraciones = sent_tokenize(contenido, language='spanish')
        
        # Asignar ID único a cada oración
        oraciones_ids = []
        oraciones_texto = []
        
        for i, oracion in enumerate(oraciones):
            oraciones_ids.append(f"{id_asignado}_{i}")  # ID único para cada oración
            oraciones_texto.append(oracion)  # Texto de la oración
        
        # Crear DataFrame con solo los campos requeridos
        data = {
            'ID': [id_asignado] * len(oraciones),
            'Oracion_ID': oraciones_ids,
            'Oracion': oraciones_texto
        }
        df_oraciones = pd.DataFrame(data, columns=['ID', 'Oracion_ID', 'Oracion'])
        
        # Escribir el DataFrame al CSV (o concatenar al existente)
        if os.path.exists(csv_file):
            df_oraciones.to_csv(csv_file, mode='a', header=False, index=False, sep=';')
        else:
            df_oraciones.to_csv(csv_file, mode='w', header=True, index=False, sep=';')
        
        return True
    except Exception as e:
        print(f"Error procesando {ruta_pdf}: {str(e)}")
        return False

# Mapeo de archivos a IDs y nombres
documentos = {
    "PARTIDO UNIDAD POPULAR _Plan de trabajo_.pdf": {"id": 11, "nombre": "PARTIDO UNIDAD POPULAR"},
    "MOVIMIENTO DEMOCRACIA SÍ _Plan de trabajo_.pdf": {"id": 13, "nombre": "MOVIMIENTO DEMOCRACIA SÍ"},
    "PARTIDO SOCIAL CRISTIANO _Plan de trabajo_.pdf": {"id": 15, "nombre": "PARTIDO SOCIAL CRISTIANO"}   
}

# Procesar todos los documentos
for archivo, datos in documentos.items():
    ruta_completa = os.path.join(pdf_directory, archivo)
    if os.path.exists(ruta_completa):
        if procesar_pdf(ruta_completa, datos['id'], datos['nombre']):
            print(f"{archivo} procesado (ID {datos['id']})")
    else:
        print(f"Archivo no encontrado: {ruta_completa}")

print("\nProceso completado.")


[nltk_data] Downloading package punkt to /home/alech/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


PARTIDO UNIDAD POPULAR _Plan de trabajo_.pdf procesado (ID 11)
MOVIMIENTO DEMOCRACIA SÍ _Plan de trabajo_.pdf procesado (ID 13)
PARTIDO SOCIAL CRISTIANO _Plan de trabajo_.pdf procesado (ID 15)

Proceso completado.


# limpiar la columna oracion

In [None]:
import csv
import re
import os

# Función para limpiar el contenido del texto
def clean_content(text):
    text = text.lower()
    # Eliminar viñetas comunes
    text = re.sub(r"[\u2022\u25CB\u2023\u2219\u2022\u25AA\u25B6\u25B7\u25C6\u2043\u25B8\u25BB\u2660\u25FE\u25FB]", "", text)
    
    # Eliminar (cid:...) - Referencias CID
    text = re.sub(r'\(cid:\d+\)', '', text)
    
    # Eliminar enumeraciones (números seguidos de punto)
    text = re.sub(r'^\d+\.', '', text)  # Al inicio de la línea
    text = re.sub(r'\n\d+\.', '\n', text)  # En medio del texto

    # Eliminar la enumeración de página (ejemplo: 'Página 1', 'pág. 2', etc.)
    text = re.sub(r'Página \d+', '', text)
    text = re.sub(r'pág\.\s*\d+', '', text)
    text = re.sub(r'pag\.\s*\d+', '', text)
    text = re.sub(r'Page \d+', '', text)
    text = re.sub(r'page \d+', '', text)

    # Eliminar caracteres especiales no alfabéticos ni numéricos (como @, #, $, etc.)
    text = re.sub(r'[^\w\s]', '', text)

    # Reemplazar múltiples espacios con uno solo
    text = re.sub(r'\s+', ' ', text)
    
    # Eliminar espacios al inicio y final
    text = text.strip()
    
    return text


# Leer el archivo CSV, limpiar el contenido de la columna "Oracion", ordenar por ID y guardar
def limpiar_y_guardar_csv(csv_file):
    try:
        filas_existentes = []
        
        # Leer las filas existentes desde el CSV
        if os.path.exists(csv_file):
            with open(csv_file, 'r', encoding='utf-8-sig') as f:
                reader = csv.DictReader(f, delimiter=';')
                for row in reader:
                    # Limpiar el contenido de la columna "Oracion"
                    row['Oracion'] = clean_content(row['Oracion'])
                    
                    # Verificar si la columna "Oracion" no está vacía
                    if row['Oracion']:  
                        filas_existentes.append(row)
        
        # Ordenar las filas por ID (conversión a int para evitar errores de ordenación)
        filas_existentes.sort(key=lambda x: int(x['ID']))

        # Escribir las filas modificadas en el archivo CSV
        with open(csv_file, 'w', newline='', encoding='utf-8-sig') as f:
            writer = csv.DictWriter(f, fieldnames=['ID', 'Oracion_ID', 'Oracion'], delimiter=';')
            writer.writeheader()
            writer.writerows(filas_existentes)
        
        print(f"Archivo {csv_file} procesado, limpiado y ordenado correctamente.")
    
    except Exception as e:
        print(f"Error procesando el archivo CSV: {str(e)}")

# Llamar a la función
limpiar_y_guardar_csv('oraciones.csv')


✅ Archivo oraciones.csv procesado, limpiado y ordenado correctamente.


In [5]:
import spacy
import nltk
from nltk.tokenize import sent_tokenize
import pandas as pd

# Descargar recursos necesarios de NLTK
nltk.download("punkt")

# Cargar modelo de lenguaje en español
nlp = spacy.load("es_core_news_sm")

# Cargar el CSV con las oraciones
df = pd.read_csv("oraciones.csv", sep=";")

# Lista ampliada de temas clave
temas_relevantes = {
    "economía", "educación", "salud", "seguridad", "empleo",
    "infraestructura", "corrupción", "tecnología", "ambiente",
    "justicia", "transporte", "política", "desarrollo", "energía",
    "derechos humanos", "igualdad", "innovación", "turismo",
    "agricultura", "cultura", "deporte", "finanzas", "inversión",
    "vivienda", "servicios públicos", "ciencia", "medio ambiente",
    "gobierno", "industria", "exportaciones", "importaciones",
    "educación superior", "sanidad", "movilidad", "inteligencia artificial",
    "seguridad ciudadana", "crimen organizado", "democracia", "pobreza",
    "sostenibilidad", "digitalización", "gestión pública", "comercio",
    "cambio climático", "energías renovables", "transparencia", "ciberseguridad",
    "salud pública", "gobernanza", "justicia social", "igualdad de género",
    "emprendimiento", "industria 4.0", "desarrollo sostenible", "desastres naturales",
    "reforestación", "movilidad urbana", "biodiversidad", "educación financiera",
    "trabajo remoto", "accesibilidad", "industria alimentaria", "industria tecnológica",
    "educación digital", "cultura digital", "sociedad del conocimiento", 
    "banca digital", "teletrabajo", "inteligencia colectiva", "biotecnología",
    "blockchain", "fintech", "medicina personalizada", "economía circular",
    "ciudades inteligentes", "protección de datos", "energía solar", "transporte eléctrico",
    "robotización", "computación cuántica", "espacio exterior", "protección ambiental",
    "seguridad en la nube", "movilidad eléctrica", "alimentos orgánicos", "tecnología educativa",
    "agtech", "neurociencia", "edtech", "deep learning", "big data", "sistemas autónomos",
    "tecnología espacial", "cambio de paradigma", "smart grids", "ciudades sostenibles", 
    "ecoeficiencia", "energía eólica", "tecnologías disruptivas", "energía geotérmica",
    "nanotecnología", "microbioma", "bioeconomía", "ecoturismo", "industrias creativas",
    "gobernanza digital", "energía limpia", "criptomonedas", "minería digital", "ciencias marinas",
    "nanomateriales", "inteligencia emocional", "finanzas sostenibles", "educación en línea",
    "biomimicry", "ecoinnovación", "simulación computacional", "agricultura urbana", "cultivos inteligentes"
}

# Función para extraer solo los temas clave
def extraer_temas_clave(texto):
    if pd.isna(texto):  # Manejar valores nulos
        return ""

    oraciones = sent_tokenize(texto, language="spanish")  # Dividir en oraciones
    temas_detectados = set()

    for oracion in oraciones:
        # Identificar temas clave dentro de la oración
        temas_detectados.update({tema for tema in temas_relevantes if tema in oracion.lower()})

    # Retornar los temas clave detectados como una cadena separada por coma
    return ", ".join(temas_detectados)

# Aplicar la extracción de temas clave en cada fila del DataFrame
df["Temas Clave"] = df["Oracion"].apply(extraer_temas_clave)

# Guardar el nuevo CSV con la nueva columna 'Temas Clave' sin eliminar datos anteriores
df.to_csv("oraciones_actualizado.csv", index=False, sep=";")

print(" CSV actualizado con éxito. Se agregaron las columnas 'Temas Clave'.")


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\kale\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


 CSV actualizado con éxito. Se agregaron las columnas 'Temas Clave'.


# Stop words, tokenizar,lemmatizacion

In [8]:
import nltk
import csv
import re
import os
import spacy
from nltk.corpus import stopwords

# Descargar recursos necesarios
nltk.download('punkt')
nltk.download('stopwords')

# Inicializar el lematizador de SpaCy
nlp = spacy.load("es_core_news_sm")

# Obtener las stopwords en español de NLTK
stop_words = set(stopwords.words('spanish'))

# Función para lematizar y eliminar stopwords
def lematizar_y_eliminar_stopwords(texto):
    doc = nlp(texto)
    # Lematizar y eliminar stopwords
    return ' '.join([token.lemma_ for token in doc if token.is_alpha and token.lemma_ not in stop_words])

# Limpiar contenido eliminando puntuaciones y números
def clean_content(texto):
    texto = re.sub(r'[^\w\s]', '', texto)  # Eliminar puntuaciones
    texto = re.sub(r'\d+', '', texto)      # Eliminar números
    return texto.lower()

# Función para procesar el CSV
def limpiar_y_guardar_csv(csv_file, output_csv):
    try:
        filas_existentes = []
        
        # Leer las filas existentes desde el CSV
        if os.path.exists(csv_file):
            with open(csv_file, 'r', encoding='utf-8-sig') as f:
                reader = csv.DictReader(f, delimiter=';')
                for row in reader:
                    # Limpiar el contenido de la columna "Oracion"
                    if 'Oracion' in row:
                        row['Oracion'] = clean_content(row['Oracion'])
                        # Procesar el contenido: lematizar y eliminar stopwords
                        row['Oracion'] = lematizar_y_eliminar_stopwords(row['Oracion'])
                    
                    # Verificar si la columna "Oracion" no está vacía
                    if row['Oracion']:  # Si no está vacío o solo contiene espacios
                        filas_existentes.append(row)
        
        # Escribir las filas modificadas en el archivo CSV
        with open(output_csv, 'w', newline='', encoding='utf-8-sig') as f:
            writer = csv.DictWriter(f, fieldnames=['ID', 'Oracion_ID', 'Oracion', 'Temas Clave'], delimiter=';')
            writer.writeheader()
            writer.writerows(filas_existentes)
        
        print(f"Archivo procesado y guardado correctamente en: {output_csv}")
    
    except Exception as e:
        print(f"Error procesando el archivo CSV: {str(e)}")

# Llamar a la función
input_csv = 'oraciones_actualizado.csv'
output_csv = 'oraciones_procesadas.csv'
limpiar_y_guardar_csv(input_csv, output_csv)


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\kale\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\kale\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Archivo procesado y guardado correctamente en: oraciones_procesadas.csv


In [10]:
import pandas as pd

# Cargar los archivos CSV asegurando el delimitador correcto
df_oraciones = pd.read_csv('oraciones_procesadas.csv', delimiter=';')
df_candidatos = pd.read_csv('candidatos.csv', delimiter=';')

# Limpiar la columna 'ID' eliminando espacios y asegurando que solo contenga números
df_oraciones['ID'] = df_oraciones['ID'].astype(str).str.extract('(\d+)').astype(float).astype('Int64')
df_candidatos['ID'] = df_candidatos['ID'].astype(str).str.extract('(\d+)').astype(float).astype('Int64')

# Realizar la fusión de datos usando 'ID' como clave
df_completo = df_oraciones.merge(df_candidatos, on='ID', how='left')

# Guardar el nuevo CSV con los datos combinados
df_completo.to_csv('oraciones_procesadas_completo.csv', sep=';', index=False)

print("Archivo combinado guardado como 'oraciones_procesadas_completo.csv'")


Archivo combinado guardado como 'oraciones_procesadas_completo.csv'


# enbeddings Bert

In [13]:
import pandas as pd
import numpy as np
import torch
from sentence_transformers import SentenceTransformer
import faiss
import pickle
import nltk
import spacy
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

# Descargar recursos de NLTK
nltk.download('punkt')
nltk.download('stopwords')

# Verificar si hay GPU disponible
device = 'cuda' if torch.cuda.is_available() else 'cpu'

# Cargar los archivos CSV
df = pd.read_csv('oraciones_procesadas_completo.csv', delimiter=';')


# Inicializar el modelo BERT y moverlo a GPU si está disponible
model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2', device=device)

# Crear embeddings para todas las oraciones
embeddings = model.encode(df['Oracion'].tolist(), show_progress_bar=True, device=device)
embeddings = np.array(embeddings).astype('float32')

# Crear un índice FAISS
dimension = embeddings.shape[1]
index = faiss.IndexFlatL2(dimension)
index.add(embeddings)

# Guardar los embeddings e índice FAISS
np.save('embeddings.npy', embeddings)
faiss.write_index(index, 'faiss_index.index')

# Guardar datos procesados en un archivo pickle
with open('sentences.pkl', 'wb') as f:
    pickle.dump(df.to_dict(orient='records'), f)

print("Embeddings y FAISS guardados exitosamente.")

# Cargar spaCy para español
nlp = spacy.load('es_core_news_sm')

def preprocess_text(text):
    tokens = word_tokenize(text.lower(), language='spanish')
    stop_words = set(stopwords.words('spanish'))
    tokens = [token for token in tokens if token.isalpha() and token not in stop_words]
    doc = nlp(' '.join(tokens))
    return ' '.join([token.lemma_ for token in doc])

def query_faiss(query, top_k=5):
    cleaned_query = preprocess_text(query)
    query_embedding = model.encode([cleaned_query], device=device).astype('float32')
    D, I = index.search(query_embedding, top_k)
    
    with open('sentences.pkl', 'rb') as f:
        sentences = pickle.load(f)
    
    results = []
    for i in range(top_k):
        result = sentences[I[0][i]]
        results.append({
            'ID': result['ID'],
            'Oracion_ID':result['Oracion_ID'],
            'Oracion': result['Oracion'],
            'Temas Clave': result['Temas Clave'],
            'Partido': result['Partido'],
            'CandidatoPresidente': result['CandidatoPresidente'],
            'CandidatoVicePresidente': result['CandidatoVicePresidente'],
            'ListaPolitica': result['ListaPolitica'],
            'Distancia': D[0][i]
        })
    return results

# Ejemplo de uso
query = "¿Cómo mejorar la eficiencia energética en la industria?"
results = query_faiss(query)
for res in results:
    print(res)


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\kale\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\kale\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Batches:   0%|          | 0/430 [00:00<?, ?it/s]

Embeddings y FAISS guardados exitosamente.
{'ID': 4, 'Oracion_ID': '993', 'Oracion': 'eficiencia energético implementar política eficiencia energético sector clave industria transporte construcción promover uso tecnología reducir consumo energía', 'Temas Clave': 'energía, transporte, ciencia, tecnología, política, industria', 'Partido': 'MOVIMIENTO CENTRO DEMOCRÁTICO', 'CandidatoPresidente': 'JIMMY JAIRALA VALLAZZA', 'CandidatoVicePresidente': 'LUCIA VALLECILLA SUAREZ', 'ListaPolitica': '1', 'Distancia': 0.33702278}
{'ID': 14, 'Oracion_ID': '811', 'Oracion': 'además realizar campaña nacional eficiencia ahorro energético énfasis sector comercial residencial industrial institucional', 'Temas Clave': 'industria, ciencia', 'Partido': 'PARTIDO AVANZA', 'CandidatoPresidente': 'LUIS FELIPE TILLERIA', 'CandidatoVicePresidente': 'KARLA PAULINA ROSERO', 'ListaPolitica': '8', 'Distancia': 0.38165388}
{'ID': 14, 'Oracion_ID': '827', 'Oracion': 'campaña nacional eficiencia ahorro energético promove

Ollama

In [36]:
import pandas as pd
import numpy as np
import torch
from sentence_transformers import SentenceTransformer
import faiss
import pickle
import nltk
import spacy
import ollama  # Importar la librería para usar Ollama
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Descargar recursos de NLTK
nltk.download('punkt')
nltk.download('stopwords')

# Verificar si hay GPU disponible
device = 'cuda' if torch.cuda.is_available() else 'cpu'

# Cargar el archivo CSV con las oraciones procesadas
df = pd.read_csv('oraciones_procesadas_completo.csv', delimiter=';')

# Cargar el archivo CSV con los datos de los partidos y candidatos

candidatos_df = pd.read_csv('candidatos.csv', delimiter=';')  # Asegúrate de que el archivo correcto esté aquí

# Inicializar el modelo BERT preentrenado y moverlo a la GPU si está disponible
model = SentenceTransformer('paraphrase-distilroberta-base-v1', device='cuda' if torch.cuda.is_available() else 'cpu')

# Cargar el índice FAISS previamente guardado
index = faiss.read_index('faiss_index.index')

# Cargar los datos de oraciones
with open('sentences.pkl', 'rb') as f:
    sentences = pickle.load(f)

# Cargar el modelo de spaCy para lematización en español
nlp = spacy.load('es_core_news_sm')

# Función para preprocesar el texto
def preprocess_text(text):
    print(f"Texto preprocesado: {text}")
    tokens = word_tokenize(text.lower(), language='spanish')
    stop_words = set(stopwords.words('spanish'))
    tokens = [token for token in tokens if token.isalpha() and token not in stop_words]
    doc = nlp(' '.join(tokens))
    lemmatized_tokens = [token.lemma_ for token in doc]
    return ' '.join(lemmatized_tokens)

# Función para obtener la oración original sin procesar y sus datos adicionales
def get_oracion_data_by_id(oracion_id):
    oracion_row = df[df['Oracion_ID'] == oracion_id]
    if not oracion_row.empty:
        oracion = oracion_row.iloc[0]['Oracion']
        temas_clave = oracion_row.iloc[0]['Temas Clave']
        return oracion, temas_clave
    return None, None

def get_partido_data_by_id(id):
    candidato_row = candidatos_df[candidatos_df['ID'] == id]  # Buscamos usando el 'ID'
    if not candidato_row.empty:
        partido = candidato_row.iloc[0]['Partido']
        candidato_presidente = candidato_row.iloc[0]['CandidatoPresidente']
        candidato_vicepresidente = candidato_row.iloc[0]['CandidatoVicePresidente']
        lista_politica = candidato_row.iloc[0]['ListaPolitica']
        return partido, candidato_presidente, candidato_vicepresidente, lista_politica
    return None, None, None, None

def query_faiss_ollama(query, top_k=50):  
    # Preprocesar la consulta
    cleaned_query = preprocess_text(query)
    # Mostrar el tamaño de la consulta procesada
    print(f"Consulta procesada: {cleaned_query}")
    # Generar el embedding para la consulta
    query_embedding = model.encode([cleaned_query], device=device).astype('float32')
    # Realizar la búsqueda en el índice FAISS
    D, I = index.search(query_embedding, top_k)
    # Procesar los resultados
    resultados = []
    for i in range(top_k):
        # Obtener el ID de la oración correspondiente
        oracion_id = sentences[I[0][i]]['Oracion_ID']

        id= sentences[I[0][i]]['ID']
        # Buscar la oración original y sus temas clave usando Oracion_ID
        oracion_original, temas_clave = get_oracion_data_by_id(oracion_id)

        # Buscar los datos del partido usando el ID del candidato
        partido, candidato_presidente, candidato_vicepresidente, lista_politica = get_partido_data_by_id(id)

        if oracion_original:  # Si se encuentra la oración original
            resultado = (
                f"Oración: {oracion_original}, "
                f"Temas Clave: {temas_clave}, "
                f"Partido: {partido}, "
                f"Presidente: {candidato_presidente}, "
                f"Vicepresidente: {candidato_vicepresidente}, "
                f"Lista Política: {lista_politica}"
            )
            resultados.append(resultado)
        
    # Verificar si hemos obtenido resultados
    if not resultados:
        return "No se encontraron oraciones relevantes para la consulta."

    # Construir el prompt para Ollama con las oraciones obtenidas
    prompt = f"quiero que menciones los nombres de los Presidente,Vicepresidente,Lista Política y el partido de lo que he encontrado clasificalo:\n\n" + "\n".join(resultados) + "\n\nGenera un resumen basado en estas declaraciones, explícalo."

    # Generar la respuesta con Ollama
    respuesta = ollama.chat(model='llama3.2:latest', messages=[{'role': 'user', 'content': prompt}])

    return respuesta['message']['content']

# Ejemplo de consulta para verificar el funcionamiento
query = "que propone daniel noboa para el fortalecimiento economico?"
respuesta = query_faiss_ollama(query)
print(respuesta)



[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\kale\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\kale\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Texto preprocesado: que propone daniel noboa para el fortalecimiento economico?
Consulta procesada: proponer daniel noboa fortalecimiento economico
Basándome en las declaraciones proporcionadas, se puede resumir que el tema principal de estas discursos y manifestaciones políticas es la promoción de políticas y acciones que benefician al país Ecuador, priorizando la soberanía nacional, la defensa del medio ambiente, la sostenibilidad económica y social, la seguridad ciudadana y la protección de los derechos humanos.

Muchos de los partidos políticos mencionados en estas declaraciones, como Movimiento Creo, Movimiento Construye, Partido Sociedad Patriótica 21 de Enero, Partido Sociedad Unida Más Acción, Movimiento Amigo y Movimiento Centro Democrático, enfatizan la importancia de:

1. **Desarrollo sostenible**: Promover políticas que equilibren el crecimiento económico con la protección ambiental y la conservación de los recursos naturales.
2. **Soberanía nacional**: Priorizar la indepen