# Procesamiento de pdfs

# columna id, partido politico,content

In [7]:
import os
import re
import pandas as pd
import pdfplumber

# Directorio donde están los archivos PDF
pdf_directory = "./data/"
output_csv = "candidatos.csv"

# Lista de diccionarios específicos a procesar
file_parameters = [
    {"file_name": "REVOLUCIÓN CIUDADANA - RETO _Plan de trabajo_.pdf"},
    {"file_name": "PARTIDO SOCIEDAD UNIDA MÁS ACCIÓN, SUMA _Plan de trabajo_.pdf"},
    {"file_name": "PARTIDO IZQUIERDA DEMOCRÁTICA _Plan de trabajo_.pdf"},
    {"file_name": "MOVIMIENTO CENTRO DEMOCRÁTICO _Plan de trabajo_.pdf"},
    {"file_name": "MOVIMIENTO CONSTRUYE _Plan de trabajo_.pdf"},
    {"file_name": "MOVIMIENTO CREO, CREANDO OPORTUNIDADES _Plan de trabajo_.pdf"},
    {"file_name": "MOVIMIENTO AMIGO, ACCIÓN MOVILIZADORA INDEPENDIENTE GENERANDO OPORTUNIDADES _Plan de trabajo_.pdf"},
    {"file_name": "MOVIMIENTO PUEBLO IGUALDAD DEMOCRACIA _PID_ _Plan de trabajo_.pdf"},
    {"file_name": "MOVIMIENTO ACCION DEMOCRATICA NACIONAL, ADN _Plan de trabajo_.pdf"},
    {"file_name": "PARTIDO SOCIEDAD PATRIÓTICA  21 DE ENERO _Plan de trabajo_.pdf"},
    {"file_name": "PARTIDO UNIDAD POPULAR _Plan de trabajo_.pdf"},
    {"file_name": "PARTIDO SOCIALISTA ECUATORIANO _Plan de trabajo_.pdf"},
    {"file_name": "MOVIMIENTO DEMOCRACIA SÍ _Plan de trabajo_.pdf"},
    {"file_name": "PARTIDO AVANZA _Plan de trabajo_.pdf"},
    {"file_name": "PARTIDO SOCIAL CRISTIANO _Plan de trabajo_.pdf"},
    {"file_name": "MOVIMIENTO DE UNIDAD PLURINACIONAL PACHAKUTIK _Plan de trabajo_.pdf"},
]

# Función para obtener el último ID del archivo CSV
def get_last_id(csv_path):
    if not os.path.exists(csv_path):
        return 1
    df = pd.read_csv(csv_path, sep="|", encoding="utf-8")
    if df.empty:
        return 1
    return df['ID'].iloc[-1] + 1


# Obtener el ID inicial
file_id = get_last_id(output_csv)

# Crear una lista para almacenar los datos
data = []

# Recorrer la lista de diccionarios específicos
for file_param in file_parameters:
    file_name = file_param["file_name"]

    # Construir la ruta completa del archivo
    pdf_path = os.path.join(pdf_directory, file_name)

    # Verificar si el archivo existe
    if os.path.exists(pdf_path):
        # Procesar el nombre del archivo
        processed_name = file_name.replace("_Plan de trabajo_", "").replace(".pdf", "")

        # Agregar los datos a la lista
        data.append([file_id, processed_name])
        file_id += 1
    else:
        print(f"Archivo no encontrado: {file_name}")

# Crear un DataFrame a partir de los datos nuevos
df_new = pd.DataFrame(data, columns=['ID', 'Nombre'])

# Verificar si el archivo CSV ya existe
if os.path.exists(output_csv):
    # Leer el archivo CSV existente
    df_existing = pd.read_csv(output_csv, sep="|", encoding="utf-8")
    # Concatenar los datos nuevos con los existentes
    df_combined = pd.concat([df_existing, df_new], ignore_index=True)
else:
    df_combined = df_new

# Guardar el DataFrame combinado en el archivo CSV con delimitador ";"
df_combined.to_csv(output_csv, sep=";", index=False, encoding="utf-8")

print(f"Datos agregados al archivo CSV: {output_csv}")


Datos agregados al archivo CSV: candidatos.csv


In [9]:
import os
import re
import pandas as pd
import pdfplumber

# Directorio donde están los archivos PDF
pdf_directory = "./data/"
output_csv = "oraciones.csv"

# Lista de diccionarios específicos a procesar
file_parameters = [
    {"file_name": "REVOLUCIÓN CIUDADANA - RETO _Plan de trabajo_.pdf", "exclude_pages_start": 8},
    {"file_name": "PARTIDO SOCIEDAD UNIDA MÁS ACCIÓN, SUMA _Plan de trabajo_.pdf", "exclude_pages_start": 7},
    {"file_name": "PARTIDO IZQUIERDA DEMOCRÁTICA _Plan de trabajo_.pdf","exclude_pages_start": 5},
    {"file_name": "MOVIMIENTO CENTRO DEMOCRÁTICO _Plan de trabajo_.pdf", "exclude_pages_start": 4},
    {"file_name": "MOVIMIENTO CONSTRUYE _Plan de trabajo_.pdf", "exclude_pages_start": 4},
    {"file_name": "MOVIMIENTO CREO, CREANDO OPORTUNIDADES _Plan de trabajo_.pdf", "exclude_pages_start": 4},
    {"file_name": "MOVIMIENTO AMIGO, ACCIÓN MOVILIZADORA INDEPENDIENTE GENERANDO OPORTUNIDADES _Plan de trabajo_.pdf", "exclude_pages_start": 4},
    {"file_name": "MOVIMIENTO PUEBLO IGUALDAD DEMOCRACIA _PID_ _Plan de trabajo_.pdf", "exclude_pages_start": 3},
    {"file_name": "MOVIMIENTO ACCION DEMOCRATICA NACIONAL, ADN _Plan de trabajo_.pdf", "exclude_pages_start": 3},
    {"file_name": "PARTIDO SOCIEDAD PATRIÓTICA  21 DE ENERO _Plan de trabajo_.pdf", "exclude_pages_start": 2},
    {"file_name": "PARTIDO UNIDAD POPULAR _Plan de trabajo_.pdf", "exclude_pages_start": 2},
    {"file_name": "PARTIDO SOCIALISTA ECUATORIANO _Plan de trabajo_.pdf", "exclude_pages_start": 2},
    {"file_name": "MOVIMIENTO DEMOCRACIA SÍ _Plan de trabajo_.pdf", "exclude_pages_start": 2},
    {"file_name": "PARTIDO AVANZA _Plan de trabajo_.pdf", "exclude_pages_start": 2},
    {"file_name": "PARTIDO SOCIAL CRISTIANO _Plan de trabajo_.pdf", "exclude_pages_start": 2},
    {"file_name": "MOVIMIENTO DE UNIDAD PLURINACIONAL PACHAKUTIK _Plan de trabajo_.pdf", "exclude_pages_start": 1}
]

# Función para obtener el último ID del archivo CSV
def get_last_id(csv_path):
    if not os.path.exists(csv_path):
        return 1
    df = pd.read_csv(csv_path, sep="|", encoding="utf-8")
    if df.empty:
        return 1
    return df['ID'].iloc[-1] + 1

# Función para extraer texto del PDF excluyendo las primeras y últimas páginas
def extract_text_excluding_pages(pdf_path, exclude_pages_start, exclude_pages_end=1):
    extracted_text = ""
    with pdfplumber.open(pdf_path) as pdf:
        for i in range(exclude_pages_start, len(pdf.pages) - exclude_pages_end):
            page_text = pdf.pages[i].extract_text()
            if page_text:
                extracted_text += page_text + "\n"
    return extracted_text.strip()

# Función para limpiar el contenido del texto
def clean_content(text):
    # Eliminar viñetas comunes
    text = re.sub(r"[\u2022\u25CB\u2023\u2219\u2022\u25AA\u25B6\u25B7\u25C6\u2043\u25B8\u25BB\u2660\u25FE\u25FB]", "", text)
    text = re.sub(r'\(cid:\d+\)', '', text)
    # Eliminar enumeraciones (números seguidos de punto)
    text = re.sub(r'^\d+\.', '', text)  # Al inicio de la línea
    text = re.sub(r'\n\d+\.', '\n', text)  # En medio del texto
    
    # Reemplazar múltiples espacios con uno solo
    text = re.sub(r'\s+', ' ', text)
    
    # Eliminar espacios al inicio y final
    text = text.strip()
    
    return text

# Función para dividir el texto en oraciones
def dividir_oraciones_por_id(text, text_id):
    delimitadores = '.'
    oraciones = []
    oracion_actual = ""
    for char in text:
        oracion_actual += char
        if char in delimitadores:
            oraciones.append(oracion_actual.strip())
            oracion_actual = ""
    if oracion_actual:  # Si hay algo restante
        oraciones.append(oracion_actual.strip())
    
    # Crear una lista de tuplas con id y oraciones
    return [(text_id, i, oracion) for i, oracion in enumerate(oraciones, start=1)]

# Obtener el ID inicial
file_id = get_last_id(output_csv)

# Crear una lista para almacenar los datos
data = []

# Recorrer la lista de diccionarios específicos
for file_param in file_parameters:
    file_name = file_param["file_name"]
    exclude_pages_start = file_param["exclude_pages_start"]

    # Construir la ruta completa del archivo
    pdf_path = os.path.join(pdf_directory, file_name)

    # Verificar si el archivo existe
    if os.path.exists(pdf_path):
        # Procesar el nombre del archivo
        processed_name = file_name.replace("_Plan de trabajo_", "").replace(".pdf", "")

        # Extraer el contenido del PDF
        content = extract_text_excluding_pages(pdf_path, exclude_pages_start=exclude_pages_start)

        # Limpiar el contenido extraído
        cleaned_content = clean_content(content)

        # Dividir el contenido en oraciones
        oraciones = dividir_oraciones_por_id(cleaned_content, file_id)

        # Agregar las oraciones a la lista de datos
        data.extend(oraciones)

        # Incrementar el ID
        file_id += 1
    else:
        print(f"Archivo no encontrado: {file_name}")

# Crear un DataFrame a partir de las oraciones
df_oraciones = pd.DataFrame(data, columns=['ID', 'Oracion_ID', 'Oracion'])

# Verificar si el archivo CSV ya existe
if os.path.exists(output_csv):
    # Leer el archivo CSV existente
    df_existing = pd.read_csv(output_csv, sep="|", encoding="utf-8")
    # Concatenar los datos nuevos con los existentes
    df_combined = pd.concat([df_existing, df_oraciones], ignore_index=True)
else:
    df_combined = df_oraciones

# Guardar el DataFrame combinado en el archivo CSV con delimitador ";"
df_combined.to_csv(output_csv, sep=";", index=False, encoding="utf-8")

print(f"Datos agregados al archivo CSV: {output_csv}")


Datos agregados al archivo CSV: oraciones.csv


# ocr

In [11]:
import pytesseract
from pdf2image import convert_from_path
import csv
import os
import nltk
from nltk.tokenize import sent_tokenize
import pandas as pd

# Descargar el recurso necesario para tokenizar oraciones
nltk.download('punkt')

csv.field_size_limit(1000000)

# Configuración global
pdf_directory = "./data/"
csv_file = "oraciones.csv"
columns = ['ID', 'Nombre', 'Contenido']

# Configurar Tesseract para Fedora
pytesseract.pytesseract.tesseract_cmd = '/usr/bin/tesseract'

def procesar_pdf(ruta_pdf, id_asignado, nombre_doc):
    try:
        # Convertir PDF a imágenes
        images = convert_from_path(ruta_pdf, dpi=300)
        
        # Extraer y limpiar texto
        contenido = " ".join(
            [pytesseract.image_to_string(img, lang='spa').strip().replace('\n', ' ') 
             for img in images]
        )
        
        # Tokenizar el texto en oraciones
        oraciones = sent_tokenize(contenido, language='spanish')
        
        # Asignar ID único a cada oración
        oraciones_ids = []
        oraciones_texto = []
        
        for i, oracion in enumerate(oraciones):
            oraciones_ids.append(f"{id_asignado}_{i}")  # ID único para cada oración
            oraciones_texto.append(oracion)  # Texto de la oración
        
        # Crear DataFrame con solo los campos requeridos
        data = {
            'ID': [id_asignado] * len(oraciones),
            'Oracion_ID': oraciones_ids,
            'Oracion': oraciones_texto
        }
        df_oraciones = pd.DataFrame(data, columns=['ID', 'Oracion_ID', 'Oracion'])
        
        # Escribir el DataFrame al CSV (o concatenar al existente)
        if os.path.exists(csv_file):
            df_oraciones.to_csv(csv_file, mode='a', header=False, index=False, sep=';')
        else:
            df_oraciones.to_csv(csv_file, mode='w', header=True, index=False, sep=';')
        
        return True
    except Exception as e:
        print(f"Error procesando {ruta_pdf}: {str(e)}")
        return False

# Mapeo de archivos a IDs y nombres
documentos = {
    "PARTIDO UNIDAD POPULAR _Plan de trabajo_.pdf": {"id": 11, "nombre": "PARTIDO UNIDAD POPULAR"},
    "MOVIMIENTO DEMOCRACIA SÍ _Plan de trabajo_.pdf": {"id": 13, "nombre": "MOVIMIENTO DEMOCRACIA SÍ"},
    "PARTIDO SOCIAL CRISTIANO _Plan de trabajo_.pdf": {"id": 15, "nombre": "PARTIDO SOCIAL CRISTIANO"}   
}

# Procesar todos los documentos
for archivo, datos in documentos.items():
    ruta_completa = os.path.join(pdf_directory, archivo)
    if os.path.exists(ruta_completa):
        if procesar_pdf(ruta_completa, datos['id'], datos['nombre']):
            print(f"{archivo} procesado (ID {datos['id']})")
    else:
        print(f"Archivo no encontrado: {ruta_completa}")

print("\nProceso completado.")


[nltk_data] Downloading package punkt to /home/alech/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


PARTIDO UNIDAD POPULAR _Plan de trabajo_.pdf procesado (ID 11)
MOVIMIENTO DEMOCRACIA SÍ _Plan de trabajo_.pdf procesado (ID 13)
PARTIDO SOCIAL CRISTIANO _Plan de trabajo_.pdf procesado (ID 15)

Proceso completado.


# limpiar la columna oracion

In [None]:
import csv
import re
import os

# Función para limpiar el contenido del texto
def clean_content(text):
    text = text.lower()
    # Eliminar viñetas comunes
    text = re.sub(r"[\u2022\u25CB\u2023\u2219\u2022\u25AA\u25B6\u25B7\u25C6\u2043\u25B8\u25BB\u2660\u25FE\u25FB]", "", text)
    
    # Eliminar (cid:...) - Referencias CID
    text = re.sub(r'\(cid:\d+\)', '', text)
    
    # Eliminar enumeraciones (números seguidos de punto)
    text = re.sub(r'^\d+\.', '', text)  # Al inicio de la línea
    text = re.sub(r'\n\d+\.', '\n', text)  # En medio del texto

    # Eliminar la enumeración de página (ejemplo: 'Página 1', 'pág. 2', etc.)
    text = re.sub(r'Página \d+', '', text)
    text = re.sub(r'pág\.\s*\d+', '', text)
    text = re.sub(r'pag\.\s*\d+', '', text)
    text = re.sub(r'Page \d+', '', text)
    text = re.sub(r'page \d+', '', text)

    # Eliminar caracteres especiales no alfabéticos ni numéricos (como @, #, $, etc.)
    text = re.sub(r'[^\w\s]', '', text)

    # Reemplazar múltiples espacios con uno solo
    text = re.sub(r'\s+', ' ', text)
    
    # Eliminar espacios al inicio y final
    text = text.strip()
    
    return text


# Leer el archivo CSV, limpiar el contenido de la columna "Oracion", ordenar por ID y guardar
def limpiar_y_guardar_csv(csv_file):
    try:
        filas_existentes = []
        
        # Leer las filas existentes desde el CSV
        if os.path.exists(csv_file):
            with open(csv_file, 'r', encoding='utf-8-sig') as f:
                reader = csv.DictReader(f, delimiter=';')
                for row in reader:
                    # Limpiar el contenido de la columna "Oracion"
                    row['Oracion'] = clean_content(row['Oracion'])
                    
                    # Verificar si la columna "Oracion" no está vacía
                    if row['Oracion']:  
                        filas_existentes.append(row)
        
        # Ordenar las filas por ID (conversión a int para evitar errores de ordenación)
        filas_existentes.sort(key=lambda x: int(x['ID']))

        # Escribir las filas modificadas en el archivo CSV
        with open(csv_file, 'w', newline='', encoding='utf-8-sig') as f:
            writer = csv.DictWriter(f, fieldnames=['ID', 'Oracion_ID', 'Oracion'], delimiter=';')
            writer.writeheader()
            writer.writerows(filas_existentes)
        
        print(f"Archivo {csv_file} procesado, limpiado y ordenado correctamente.")
    
    except Exception as e:
        print(f"Error procesando el archivo CSV: {str(e)}")

# Llamar a la función
limpiar_y_guardar_csv('oraciones.csv')


✅ Archivo oraciones.csv procesado, limpiado y ordenado correctamente.


In [5]:
import spacy
import nltk
from nltk.tokenize import sent_tokenize
import pandas as pd

# Descargar recursos necesarios de NLTK
nltk.download("punkt")

# Cargar modelo de lenguaje en español
nlp = spacy.load("es_core_news_sm")

# Cargar el CSV con las oraciones
df = pd.read_csv("oraciones.csv", sep=";")

# Lista ampliada de temas clave
temas_relevantes = {
    "economía", "educación", "salud", "seguridad", "empleo",
    "infraestructura", "corrupción", "tecnología", "ambiente",
    "justicia", "transporte", "política", "desarrollo", "energía",
    "derechos humanos", "igualdad", "innovación", "turismo",
    "agricultura", "cultura", "deporte", "finanzas", "inversión",
    "vivienda", "servicios públicos", "ciencia", "medio ambiente",
    "gobierno", "industria", "exportaciones", "importaciones",
    "educación superior", "sanidad", "movilidad", "inteligencia artificial",
    "seguridad ciudadana", "crimen organizado", "democracia", "pobreza",
    "sostenibilidad", "digitalización", "gestión pública", "comercio",
    "cambio climático", "energías renovables", "transparencia", "ciberseguridad",
    "salud pública", "gobernanza", "justicia social", "igualdad de género",
    "emprendimiento", "industria 4.0", "desarrollo sostenible", "desastres naturales",
    "reforestación", "movilidad urbana", "biodiversidad", "educación financiera",
    "trabajo remoto", "accesibilidad", "industria alimentaria", "industria tecnológica",
    "educación digital", "cultura digital", "sociedad del conocimiento", 
    "banca digital", "teletrabajo", "inteligencia colectiva", "biotecnología",
    "blockchain", "fintech", "medicina personalizada", "economía circular",
    "ciudades inteligentes", "protección de datos", "energía solar", "transporte eléctrico",
    "robotización", "computación cuántica", "espacio exterior", "protección ambiental",
    "seguridad en la nube", "movilidad eléctrica", "alimentos orgánicos", "tecnología educativa",
    "agtech", "neurociencia", "edtech", "deep learning", "big data", "sistemas autónomos",
    "tecnología espacial", "cambio de paradigma", "smart grids", "ciudades sostenibles", 
    "ecoeficiencia", "energía eólica", "tecnologías disruptivas", "energía geotérmica",
    "nanotecnología", "microbioma", "bioeconomía", "ecoturismo", "industrias creativas",
    "gobernanza digital", "energía limpia", "criptomonedas", "minería digital", "ciencias marinas",
    "nanomateriales", "inteligencia emocional", "finanzas sostenibles", "educación en línea",
    "biomimicry", "ecoinnovación", "simulación computacional", "agricultura urbana", "cultivos inteligentes"
}

# Función para extraer solo los temas clave
def extraer_temas_clave(texto):
    if pd.isna(texto):  # Manejar valores nulos
        return ""

    oraciones = sent_tokenize(texto, language="spanish")  # Dividir en oraciones
    temas_detectados = set()

    for oracion in oraciones:
        # Identificar temas clave dentro de la oración
        temas_detectados.update({tema for tema in temas_relevantes if tema in oracion.lower()})

    # Retornar los temas clave detectados como una cadena separada por coma
    return ", ".join(temas_detectados)

# Aplicar la extracción de temas clave en cada fila del DataFrame
df["Temas Clave"] = df["Oracion"].apply(extraer_temas_clave)

# Guardar el nuevo CSV con la nueva columna 'Temas Clave' sin eliminar datos anteriores
df.to_csv("oraciones_actualizado.csv", index=False, sep=";")

print(" CSV actualizado con éxito. Se agregaron las columnas 'Temas Clave'.")


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\kale\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


 CSV actualizado con éxito. Se agregaron las columnas 'Temas Clave'.


# Stop words, tokenizar,lemmatizacion

In [8]:
import nltk
import csv
import re
import os
import spacy
from nltk.corpus import stopwords

# Descargar recursos necesarios
nltk.download('punkt')
nltk.download('stopwords')

# Inicializar el lematizador de SpaCy
nlp = spacy.load("es_core_news_sm")

# Obtener las stopwords en español de NLTK
stop_words = set(stopwords.words('spanish'))

# Función para lematizar y eliminar stopwords
def lematizar_y_eliminar_stopwords(texto):
    doc = nlp(texto)
    # Lematizar y eliminar stopwords
    return ' '.join([token.lemma_ for token in doc if token.is_alpha and token.lemma_ not in stop_words])

# Limpiar contenido eliminando puntuaciones y números
def clean_content(texto):
    texto = re.sub(r'[^\w\s]', '', texto)  # Eliminar puntuaciones
    texto = re.sub(r'\d+', '', texto)      # Eliminar números
    return texto.lower()

# Función para procesar el CSV
def limpiar_y_guardar_csv(csv_file, output_csv):
    try:
        filas_existentes = []
        
        # Leer las filas existentes desde el CSV
        if os.path.exists(csv_file):
            with open(csv_file, 'r', encoding='utf-8-sig') as f:
                reader = csv.DictReader(f, delimiter=';')
                for row in reader:
                    # Limpiar el contenido de la columna "Oracion"
                    if 'Oracion' in row:
                        row['Oracion'] = clean_content(row['Oracion'])
                        # Procesar el contenido: lematizar y eliminar stopwords
                        row['Oracion'] = lematizar_y_eliminar_stopwords(row['Oracion'])
                    
                    # Verificar si la columna "Oracion" no está vacía
                    if row['Oracion']:  # Si no está vacío o solo contiene espacios
                        filas_existentes.append(row)
        
        # Escribir las filas modificadas en el archivo CSV
        with open(output_csv, 'w', newline='', encoding='utf-8-sig') as f:
            writer = csv.DictWriter(f, fieldnames=['ID', 'Oracion_ID', 'Oracion', 'Temas Clave'], delimiter=';')
            writer.writeheader()
            writer.writerows(filas_existentes)
        
        print(f"Archivo procesado y guardado correctamente en: {output_csv}")
    
    except Exception as e:
        print(f"Error procesando el archivo CSV: {str(e)}")

# Llamar a la función
input_csv = 'oraciones_actualizado.csv'
output_csv = 'oraciones_procesadas.csv'
limpiar_y_guardar_csv(input_csv, output_csv)


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\kale\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\kale\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Archivo procesado y guardado correctamente en: oraciones_procesadas.csv


# enbeddings Bert y faiss

In [28]:
import pandas as pd
import numpy as np
import torch
from sentence_transformers import SentenceTransformer
import faiss
import pickle
import nltk
import spacy
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Descargar recursos de NLTK
nltk.download('punkt')
nltk.download('stopwords')

# Verificar si hay GPU disponible
device = 'cuda' if torch.cuda.is_available() else 'cpu'

# Cargar el archivo CSV con las oraciones procesadas
df = pd.read_csv('oraciones_procesadas.csv', delimiter=';')  # Cambia el nombre de tu archivo CSV si es necesario

# Cargar el archivo CSV con los candidatos y partidos
candidatos_df = pd.read_csv('candidatos.csv', delimiter=';')  # Asegúrate de que contiene 'ID' y 'Nombre Partido'

# Inicializar el modelo BERT preentrenado y moverlo a la GPU si está disponible
model = SentenceTransformer('paraphrase-MiniLM-L6-v2', device=device)

# Crear embeddings para todas las oraciones
embeddings = model.encode(df['Oracion'].tolist(), show_progress_bar=True, device=device)

# Convertir los embeddings en un formato compatible con FAISS (float32)
embeddings = np.array(embeddings).astype('float32')

# Crear un índice FAISS
dimension = embeddings.shape[1]  # Dimensión de los embeddings
index = faiss.IndexFlatL2(dimension)  # Índice basado en L2 (distancia euclidiana)
index.add(embeddings)  # Agregar los embeddings al índice FAISS

# Guardar los embeddings y el índice FAISS en archivos
np.save('embeddings.npy', embeddings)  # Guardamos los embeddings en un archivo .npy
faiss.write_index(index, 'faiss_index.index')  # Guardamos el índice FAISS en un archivo .index

# Guardar los ID y las oraciones en un archivo .pkl para cargarlos fácilmente después
with open('sentences.pkl', 'wb') as f:
    pickle.dump(df[['ID', 'Oracion', 'Temas Clave']].to_dict(orient='records'), f)

print("Embeddings y FAISS guardados exitosamente.")

# Cargar el modelo de spaCy para lematización en español
nlp = spacy.load('es_core_news_sm')

# Función para preprocesar el texto (limpieza y lematización)
def preprocess_text(text):
    # Tokenización
    tokens = word_tokenize(text.lower(), language='spanish')
    
    # Eliminar stopwords y caracteres no alfabéticos
    stop_words = set(stopwords.words('spanish'))
    tokens = [token for token in tokens if token.isalpha() and token not in stop_words]
    
    # Lematización usando spaCy
    doc = nlp(' '.join(tokens))
    lemmatized_tokens = [token.lemma_ for token in doc]
    
    # Unir los tokens lematizados en una sola cadena
    return ' '.join(lemmatized_tokens)

# Función para obtener el nombre del partido a partir del ID
def get_partido_name(id):
    partido_row = candidatos_df[candidatos_df['ID'] == id]
    if not partido_row.empty:
        return partido_row.iloc[0]['Partido']
    return "Partido no encontrado"

# Función para realizar una consulta
def query_faiss(query, top_k=5):
    # Preprocesar la consulta
    cleaned_query = preprocess_text(query)

    # Generar el embedding para la consulta
    query_embedding = model.encode([cleaned_query], device=device)
    query_embedding = np.array(query_embedding).astype('float32')

    # Realizar la búsqueda en FAISS
    D, I = index.search(query_embedding, top_k)  # D son las distancias, I son los índices

    # Obtener los resultados
    with open('sentences.pkl', 'rb') as f:
        sentences = pickle.load(f)

    # Mostrar los resultados
    print("Resultados de la consulta:")
    for i in range(top_k):
        result = sentences[I[0][i]]
        partido_nombre = get_partido_name(result['ID'])
        print(f"{i+1}. ID: {result['ID']} | Oración: {result['Oracion']} | Temas Clave: {result['Temas Clave']} | Partido: {partido_nombre} (Distancia: {D[0][i]})")

# Ejemplo de uso
query = "¿Cómo mejorar la eficiencia energética en la industria?"
query_faiss(query)


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\kale\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\kale\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Batches:   0%|          | 0/430 [00:00<?, ?it/s]

Embeddings y FAISS guardados exitosamente.
Resultados de la consulta:
1. ID: 14 | Oración: mantenimiento modernización infraestructura mejorar eficiencia reducir pérdida sistema energético | Temas Clave: infraestructura, ciencia | Partido: PARTIDO AVANZA  (Distancia: 18.809154510498047)
2. ID: 4 | Oración: eficiencia energético implementar política eficiencia energético sector clave industria transporte construcción promover uso tecnología reducir consumo energía | Temas Clave: energía, transporte, ciencia, tecnología, política, industria | Partido: MOVIMIENTO CENTRO DEMOCRÁTICO  (Distancia: 20.003599166870117)
3. ID: 1 | Oración: intervenir vivienda promover eficiencia energético | Temas Clave: vivienda, ciencia | Partido: REVOLUCIÓN CIUDADANA - RETO  (Distancia: 20.277034759521484)
4. ID: 8 | Oración: colaboración sector privado ser vital desarrollo sostenibilidad sistema energético | Temas Clave: desarrollo, sostenibilidad | Partido: MOVIMIENTO PUEBLO IGUALDAD DEMOCRACIA _PID_  (Dis

Ollama

In [9]:
import pandas as pd
import numpy as np
import torch
from sentence_transformers import SentenceTransformer
import faiss
import pickle
import nltk
import spacy
import ollama  # Importar la librería para usar Ollama
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Descargar recursos de NLTK
nltk.download('punkt')
nltk.download('stopwords')

# Verificar si hay GPU disponible
device = 'cuda' if torch.cuda.is_available() else 'cpu'

# Cargar el archivo CSV con las oraciones procesadas
df = pd.read_csv('oraciones_procesadas.csv', delimiter=';')

# Cargar el archivo CSV con los candidatos y partidos
candidatos_df = pd.read_csv('candidatos.csv', delimiter=';')

# Inicializar el modelo BERT preentrenado y moverlo a la GPU si está disponible
model = SentenceTransformer('paraphrase-MiniLM-L6-v2', device=device)

# Cargar el índice FAISS previamente guardado
index = faiss.read_index('faiss_index.index')

# Cargar los datos de oraciones
with open('sentences.pkl', 'rb') as f:
    sentences = pickle.load(f)

# Cargar el modelo de spaCy para lematización en español
nlp = spacy.load('es_core_news_sm')

# Función para preprocesar el texto
def preprocess_text(text):
    tokens = word_tokenize(text.lower(), language='spanish')
    stop_words = set(stopwords.words('spanish'))
    tokens = [token for token in tokens if token.isalpha() and token not in stop_words]
    doc = nlp(' '.join(tokens))
    lemmatized_tokens = [token.lemma_ for token in doc]
    return ' '.join(lemmatized_tokens)

# Función para obtener el nombre del partido a partir del ID
def get_partido_name(id):
    partido_row = candidatos_df[candidatos_df['ID'] == id]
    if not partido_row.empty:
        return partido_row.iloc[0]['Partido']
    return "Partido no encontrado"

# Función para realizar una consulta en FAISS y obtener una respuesta con Ollama
def query_faiss_ollama(query, top_k=20):
    cleaned_query = preprocess_text(query)
    query_embedding = model.encode([cleaned_query], device=device).astype('float32')
    D, I = index.search(query_embedding, top_k)

    resultados = []
    for i in range(top_k):
        result = sentences[I[0][i]]
        partido_nombre = get_partido_name(result['ID'])
        resultados.append(f"Oración: {result['Oracion']}, Temas Clave: {result['Temas Clave']}, Partido: {partido_nombre}")

    # Construir el prompt para Ollama
    prompt = f"He encontrado las siguientes declaraciones políticas relacionadas:\n\n" + "\n".join(resultados) + "\n\nGenera un resumen basado en estas declaraciones explicame a profundidad."

    # Generar la respuesta con Ollama
    respuesta = ollama.chat(model='llama3.2:latest', messages=[{'role': 'user', 'content': prompt}])

    return respuesta['message']['content']


query = "que candidaato propone generacion de empleo a los recien graduados"
respuesta = query_faiss_ollama(query)
print(respuesta)


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\kale\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\kale\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Basándonos en las declaraciones políticas proporcionadas, es posible identificar varios temas y partidos que se repiten y algunas características generales de cada uno.

**Temas Clave**

* Empleo: Es un tema central en la mayoría de las declaraciones, con énfasis en generar empleo, mejorar la calidad del empleo y fortalecer relaciones entre el gobierno y el sector privado.
* Desarrollo sostenible: También es un tema importante, con énfasis en lograr desarrollo económico y social sostenibles a largo plazo.
* Seguridad jurídica: Muchos partidos destacan la importancia de garantizar una seguridad jurídica para su gente.
* Democracia y transparencia: La mayoría de los partidos mencionados enfatizan la importancia de promover la democracia, la justicia y la transparencia en el gobierno.

**Partidos Políticos**

* **PARTIDO SOCIAL CRISTIANO**: Destaca la importancia del desarrollo sostenible, el empleo y la seguridad jurídica. También enfatiza la necesidad de garantizar una mayor representac