In [1]:
import tkinter as tk
from tkinter import scrolledtext
import nltk
import spacy
import PyPDF2
import sqlite3
import re
import os  # Importar el módulo os para manipulación de rutas

# Descargar recursos necesarios de nltk y spacy (ejecutar solo la primera vez)
# nltk.download('punkt')
# spacy.cli.download("es_core_news_sm")  # Asegurarse de que se descargue si es necesario

# --- Configuración ---
DATABASE_NAME = "rrhh_knowledge.db"
PDF_FILE = "Prueba3.pdf"  # Asegurarse de que el archivo exista en el directorio actual

# --- Inicialización de spaCy ---
try:
    nlp = spacy.load("es_core_news_sm")
except:
    spacy.cli.download("es_core_news_sm")
    nlp = spacy.load("es_core_news_sm")

# --- Funciones de Base de Datos ---
def create_table():
    conn = sqlite3.connect(DATABASE_NAME)
    cursor = conn.cursor()
    cursor.execute("""
        CREATE TABLE IF NOT EXISTS knowledge (
            id INTEGER PRIMARY KEY AUTOINCREMENT,
            question TEXT UNIQUE,
            answer TEXT
        )
    """)
    conn.commit()
    conn.close()

def insert_knowledge(question, answer):
    conn = sqlite3.connect(DATABASE_NAME)
    cursor = conn.cursor()
    try:
        cursor.execute("INSERT INTO knowledge (question, answer) VALUES (?, ?)", (question, answer))
        conn.commit()
        print(f"Conocimiento insertado: {question}")
    except sqlite3.IntegrityError:
        print(f"La pregunta ya existe: {question}")
    finally:
        conn.close()

def get_answer_from_db(user_input):
    conn = sqlite3.connect(DATABASE_NAME)
    cursor = conn.cursor()
    user_input = user_input.lower()
    cursor.execute("SELECT answer FROM knowledge WHERE question LIKE ?", ('%' + user_input + '%',))
    result = cursor.fetchone()
    conn.close()
    if result:
        return result[0]
    else:
        return None

# --- Función para extraer texto del PDF ---
def extract_text_from_pdf(pdf_path):
    text = ""
    try:
        with open(pdf_path, 'rb') as file:
            reader = PyPDF2.PdfReader(file)
            for page in reader.pages:
                text += page.extract_text()
    except FileNotFoundError:
        print(f"Error: El archivo PDF '{pdf_path}' no se encontró.")
        return None
    except Exception as e:
        print(f"Error al leer el PDF: {e}")
        return None
    return text

# --- Función para procesar el texto extraído y crear pares pregunta-respuesta ---
def process_pdf_text(text):
    # Divide el texto en líneas y asume que cada línea es una pregunta-respuesta
    lines = text.split('\n')
    pairs = []
    for line in lines:
        # Usa una expresión regular para dividir la línea en pregunta y respuesta
        match = re.match(r"^(.*?):(.*)$", line)
        if match:
            question = match.group(1).strip()
            answer = match.group(2).strip()
            if question and answer:  # Asegúrate de que ambos no estén vacíos
                pairs.append((question, answer))
    return pairs

# --- Función para obtener la respuesta ---
def get_response(user_input):
    """
    Función para obtener una respuesta basada en la entrada del usuario.
    Utiliza spaCy para el procesamiento del lenguaje natural y la búsqueda en la base de datos.
    """
    user_input = user_input.lower()
    doc = nlp(user_input)
    # Buscar en la base de datos
    answer = get_answer_from_db(user_input)
    if answer:
        return answer
    # Si no se encuentra en la base de datos, devolver un mensaje genérico
    return "Lo siento, no entiendo tu pregunta. Por favor, reformula o contacta a RRHH directamente."

# --- Función para enviar mensaje ---
def send_message():
    user_input = entry_field.get()
    chat_history.config(state=tk.NORMAL)
    chat_history.insert(tk.END, "Tú: " + user_input + "\n")
    chat_history.config(state=tk.DISABLED)
    response = get_response(user_input)
    chat_history.config(state=tk.NORMAL)
    chat_history.insert(tk.END, "Chatbot: " + response + "\n")
    chat_history.config(state=tk.DISABLED)
    entry_field.delete(0, tk.END)

# --- Carga de conocimiento desde el PDF ---
def load_knowledge_from_pdf():
    pdf_text = extract_text_from_pdf(PDF_FILE)
    if pdf_text:
        pairs = process_pdf_text(pdf_text)
        for question, answer in pairs:
            insert_knowledge(question, answer)
        print("Conocimiento cargado desde el PDF.")
    else:
        print("No se pudo cargar el conocimiento desde el PDF.")

# --- Interfaz Gráfica ---
root = tk.Tk()
root.title("Chatbot de RRHH")
root.geometry("800x600")
root.configure(bg="#f0f0f0")
font_style = ("Arial", 12)

# Área de historial de chat
chat_history = scrolledtext.ScrolledText(root, width=70, height=20, font=font_style, state=tk.DISABLED, bg="white")
chat_history.pack(padx=10, pady=10)

# Campo de entrada de texto
entry_field = tk.Entry(root, width=60, font=font_style)
entry_field.pack(padx=10, pady=5)

# Botón de envío
send_button = tk.Button(root, text="Enviar", command=send_message, font=font_style, bg="#4CAF50", fg="white", borderwidth=0, padx=10, pady=5)
send_button.pack(pady=5)

# Etiqueta de bienvenida
welcome_label = tk.Label(root, text="¡Hola! ¿En qué puedo ayudarte hoy?", font=font_style, bg="#f0f0f0")
welcome_label.pack(pady=(0, 10))

# --- Cargar conocimiento al iniciar ---
create_table()
# Verificar si el PDF existe antes de cargarlo
if os.path.exists(PDF_FILE):
    load_knowledge_from_pdf()
else:
    print(f"Error: El archivo '{PDF_FILE}' no se encontró.")

# Iniciar el bucle principal de la aplicación
root.mainloop()

ValueError: numpy.dtype size changed, may indicate binary incompatibility. Expected 96 from C header, got 88 from PyObject