# Alcance del Proyecto

#### Descripción del Proyecto
Desarrollar una IA generativa que pueda procesar, entender y responder preguntas relacionadas con la odontología a partir de un conjunto de documentos especializados. La IA deberá ser capaz de interpretar la información contenida en textos médicos, artículos de investigación, guías de tratamiento, entre otros, y proporcionar respuestas precisas y contextualmente relevantes.

#### Funcionalidades Clave
1. **Carga de Documentos**: La capacidad de cargar y almacenar documentos relacionados con la odontología en diversos formatos (PDF, Word, etc.).
2. **Procesamiento de Lenguaje Natural (NLP)**: Utilizar técnicas avanzadas de NLP para entender y extraer información relevante de los documentos cargados.
3. **Generación de Respuestas**: La capacidad de generar respuestas coherentes y precisas a preguntas específicas basadas en la información contenida en los documentos.
4. **Interfaz de Usuario**: Desarrollar una interfaz amigable que permita a los usuarios cargar documentos y hacer preguntas a la IA.
5. **Actualización y Mantenimiento**: Procedimientos para actualizar la base de datos de documentos y mejorar el modelo de IA con el tiempo.

#### Restricciones y Limitaciones
- **Idioma**: El proyecto se enfocará en documentos y consultas en español.
- **Tipo de Información**: Limitado a documentos relacionados con la odontología.
- **Privacidad y Seguridad**: Garantizar la seguridad y privacidad de los documentos cargados y la información procesada.

### Objetivos del Proyecto

#### Objetivo General
Desarrollar una herramienta de IA generativa que pueda responder preguntas específicas sobre odontología, utilizando información extraída de documentos técnicos y científicos, para apoyar a profesionales de la salud dental en sus consultas y decisiones clínicas.

#### Objetivos Específicos
1. **Desarrollo del Sistema de Carga de Documentos**
   - Implementar un módulo para cargar y almacenar documentos en diferentes formatos.
   - Establecer un repositorio estructurado para la gestión de estos documentos.

2. **Implementación del Procesamiento de Lenguaje Natural**
   - Desarrollar modelos de NLP entrenados específicamente en terminología y conceptos odontológicos.
   - Integrar técnicas de extracción de información para identificar y organizar datos relevantes de los documentos.

3. **Desarrollo del Generador de Respuestas**
   - Crear algoritmos de generación de respuestas que puedan utilizar la información procesada para responder preguntas con precisión.
   - Asegurar que las respuestas sean coherentes y contextualmente adecuadas.

4. **Diseño e Implementación de la Interfaz de Usuario**
   - Diseñar una interfaz intuitiva para la interacción con la IA.
   - Facilitar la carga de documentos y la formulación de preguntas por parte de los usuarios.

5. **Evaluación y Mejora Continua**
   - Realizar pruebas exhaustivas para evaluar la precisión y relevancia de las respuestas generadas.
   - Implementar un sistema de feedback para mejorar continuamente la precisión del modelo de IA.

### Metodología

1. **Recopilación de Datos**: Reunir una amplia colección de documentos odontológicos de diversas fuentes.
2. **Entrenamiento del Modelo**: Utilizar técnicas de aprendizaje automático y modelos pre-entrenados para adaptar la IA a la terminología y contextos específicos de la odontología.
3. **Desarrollo e Integración**: Implementar las funcionalidades clave y asegurar la integración eficiente entre módulos.
4. **Pruebas y Validación**: Probar el sistema con casos reales y ajustar el modelo según sea necesario.
5. **Despliegue y Mantenimiento**: Desplegar la herramienta para su uso y establecer un plan de mantenimiento y actualización.

### Herramientas y Tecnologías

- **Procesamiento de Lenguaje Natural**: Herramientas y librerías como SpaCy, NLTK, y BERT.
- **Almacenamiento y Gestión de Datos**: Bases de datos como MongoDB o PostgreSQL.
- **Desarrollo de la Interfaz de Usuario**: Frameworks como React o Angular.
- **Infraestructura**: Plataformas en la nube como AWS, Google Cloud o Azure para el despliegue y escalabilidad.

Este plan proporciona una visión clara y estructurada del desarrollo de la IA generativa para odontología, asegurando que se aborden todos los aspectos cruciales del proyecto.

## Librerías utilizadas:

- openai: Biblioteca que proporciona acceso a las API de OpenAI para utilizar modelos de lenguaje avanzados, como GPT-3, para generar texto natural y responder preguntas basadas en texto.

- httpx: Cliente HTTP moderno para Python, utilizado para hacer solicitudes HTTP de manera eficiente y manejar respuestas.

- PyPDF2: Biblioteca para trabajar con archivos PDF en Python. Permite leer, escribir y manipular documentos PDF.

- langchain.text_splitter.CharacterTextSplitter: Parte de la biblioteca LangChain, que proporciona herramientas para dividir texto en fragmentos más pequeños, como párrafos o secciones, facilitando el procesamiento y análisis de grandes cantidades de texto.

- langchain.embeddings.OpenAIEmbeddings: Herramienta dentro de LangChain que maneja embeddings o incrustaciones de texto generadas por OpenAI. Los embeddings son representaciones numéricas de texto que capturan su semántica y estructura.

- langchain.vectorstores.FAISS: Herramienta de LangChain que utiliza FAISS (Facebook AI Similarity Search) para crear un vectorstore, que es una estructura de datos optimizada para búsqueda y recuperación rápida de información basada en vectores (como los embeddings de texto).

- langchain.memory.ConversationBufferMemory: Componente de LangChain que gestiona la memoria de la conversación, almacenando el historial de interacciones pasadas del asistente virtual para mejorar la coherencia y relevancia de las respuestas futuras.

- langchain.chains.ConversationalRetrievalChain: Implementación en LangChain de una cadena de conversación que combina un modelo de lenguaje conversacional (como ChatOpenAI), un vectorstore y una memoria de conversación para crear un sistema de diálogo que puede recuperar y utilizar contexto relevante.

- langchain.chat_models.ChatOpenAI: Modelo de lenguaje conversacional específico de LangChain, utilizado aquí como parte de la configuración del sistema de conversación para interactuar con el usuario y generar respuestas basadas en el contexto y la entrada proporcionada.



In [11]:
# Librerias
import openai
import httpx
from PyPDF2 import PdfReader
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain
from langchain.chat_models import ChatOpenAI

## Función get_pdf_text(pdf_paths):

- Descripción: Esta función recorre una lista de rutas de archivos PDF y extrae el texto completo de cada página de cada PDF.
- Detalles: Utiliza PdfReader de PyPDF2 para leer cada página del PDF y extraer el texto. Cada documento extraído se guarda junto con metadatos que incluyen el nombre del documento y el número de página.
- Salida: Devuelve una lista de diccionarios, donde cada diccionario contiene el texto extraído de un documento PDF y sus metadatos.

In [12]:
# Función para extraer texto de los PDF
def get_pdf_text(pdf_paths):
    documents = []
    for doc_index, pdf_path in enumerate(pdf_paths):
        pdf_reader = PdfReader(pdf_path)
        for page_index, page in enumerate(pdf_reader.pages):
            text = page.extract_text()
            if text:
                documents.append({
                    "text": text,
                    "metadata": {
                        "document": pdf_path,
                        "page": page_index + 1
                    }
                })
    return documents

## Función get_text_chunks(documents):

- Descripción: Divide el texto de los documentos en chunks más pequeños para facilitar el procesamiento y la búsqueda.
- Detalles: Utiliza CharacterTextSplitter de langchain para dividir el texto en chunks de tamaño especificado (1000 caracteres por chunk, con un solapamiento de 200 caracteres). Cada chunk conserva los metadatos del documento y la página de donde se extrajo.
- Salida: Devuelve una lista de diccionarios, donde cada diccionario contiene un chunk de texto y sus metadatos asociados.

In [13]:
# Función para dividir el texto en chunks
def get_text_chunks(documents):
    text_splitter = CharacterTextSplitter(
        separator="\n\n",  # Separar por párrafos
        chunk_size=1000,
        chunk_overlap=200,
        length_function=len
    )
    
    chunks = []
    for document in documents:
        text = document["text"]
        metadata = document["metadata"]
        page_chunks = text_splitter.split_text(text)
        
        for chunk in page_chunks:
            chunks.append({
                "text": chunk,
                "metadata": metadata
            })
    
    return chunks


## Función get_vectorstore(text_chunks):

- Descripción: Crea un vectorstore utilizando embeddings de OpenAI para representar los textos de los chunks en un espacio vectorial.
- Detalles: Utiliza OpenAIEmbeddings para obtener embeddings de los textos y FAISS de langchain para crear un índice de búsqueda utilizando estos embeddings. Se incluyen metadatos para cada texto para poder recuperar información adicional.
- Salida: Devuelve un vectorstore que permite realizar búsquedas eficientes basadas en similitud de texto.

In [14]:
# Función para crear el vectorstore
def get_vectorstore(text_chunks):
    embeddings = OpenAIEmbeddings()
    texts = [chunk["text"] for chunk in text_chunks]
    metadatas = [chunk["metadata"] for chunk in text_chunks]
    vectorstore = FAISS.from_texts(texts=texts, embedding=embeddings, metadatas=metadatas)
    return vectorstore

## Función para crear el asistente de odontología

Esta función permite crear un asistente virtual especializado en odontología utilizando documentos en formato PDF como base de conocimiento.

1. Extracción y procesamiento de textos PDF:

- get_pdf_text(pdf_paths): Extrae el texto de los archivos PDF especificados en pdf_paths y organiza la información en documentos estructurados que incluyen el texto extraído y metadatos como el nombre del documento y el número de página.

2. División del texto en chunks:

- get_text_chunks(documents): Divide el texto de cada documento en fragmentos más pequeños llamados "chunks", utilizando un separador para delimitar párrafos. Esto facilita el manejo y la búsqueda de información más específica dentro de cada documento.
Creación del vectorstore:

- get_vectorstore(text_chunks): Crea un vectorstore utilizando los chunks de texto procesados. Se utiliza FAISS para generar representaciones vectoriales de los textos, empleando embeddings de OpenAI para capturar la semántica y similitudes entre los chunks.

3. Configuración del modelo de lenguaje y la memoria:

- ChatOpenAI() y ConversationBufferMemory(): Configura un modelo de lenguaje basado en ChatGPT y una memoria para mantener el historial de la conversación. Esto permite al asistente mantener coherencia y contexto durante interacciones sucesivas.

4. Creación de la cadena de conversación:

- ConversationalRetrievalChain.from_llm(...): Establece una cadena de conversación que integra el modelo de lenguaje, el vectorstore y la memoria. Esto habilita al asistente para recuperar y utilizar contextos relevantes basados en los textos extraídos de los documentos PDF.

5. Función para interactuar con el asistente:

- odontology_assistant(query): Es una función interna que permite realizar consultas al asistente de odontología. Toma como entrada una pregunta (query), la envía a la cadena de conversación configurada y recibe una respuesta. La respuesta se formatea para incluir el texto de la respuesta generada y las referencias de los documentos y páginas más relevantes según el contexto recuperado.

6. Retorno del asistente de odontología:

- Devuelve la función odontology_assistant, lista para ser utilizada para interactuar con el asistente virtual creado. Esta función encapsula toda la configuración y lógica necesaria para procesar consultas relacionadas con odontología basadas en los documentos PDF proporcionados.


In [15]:
# Función para crear el asistente de odontología
def create_odontology_assistant(pdf_paths):
    # Extraer y procesar el texto de los PDFs
    documents = get_pdf_text(pdf_paths)
    text_chunks = get_text_chunks(documents)
    vectorstore = get_vectorstore(text_chunks)
    
    # Configurar el LLM y la memoria de la cadena de conversación
    llm = ChatOpenAI()
    memory = ConversationBufferMemory(memory_key='chat_history', return_messages=True)
    
    # Crear la cadena de conversación con recuperación de contexto
    conversation_chain = ConversationalRetrievalChain.from_llm(
        llm=llm,
        retriever=vectorstore.as_retriever(),
        memory=memory
    )
    
    # Función para interactuar con el asistente
    def odontology_assistant(query):
        inputs = {"question": query}
        response = conversation_chain(inputs)
        
        # Obtener los metadatos y texto de los chunks más similares
        most_similar_chunks = response.get("source_documents", [])
        chunks_info = ""
        for chunk in most_similar_chunks:
            document = chunk.metadata.get("document", "Desconocido")
            page = chunk.metadata.get("page", "Desconocida")
            chunk_text = chunk.text
            chunks_info += f"\n\nChunk:\n{chunk_text}\nDocumento: {document}, Página: {page}\n"
        
        # Formatear la respuesta final con referencias a los chunks más similares
        formatted_response = f"{response['answer']}\n\nBasado en los chunks más similares:{chunks_info}"
        
        return formatted_response
    
    return odontology_assistant



In [None]:
import os
from PyPDF2 import PdfReader
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.llms import OpenAI
from dotenv import load_dotenv

# Cargar las variables de entorno desde el archivo .env
load_dotenv()

# Obtener la API key desde las variables de entorno
openai_api_key = os.getenv("OPENAI_API_KEY")

# Paso 1: Leer los PDF y extraer la información
def extract_text_from_pdfs(folder_path):
    pdf_texts = {}
    for file_name in os.listdir(folder_path):
        if file_name.endswith('.pdf'):
            file_path = os.path.join(folder_path, file_name)
            print(f"Procesando archivo: {file_path}")
            try:
                reader = PdfReader(file_path)
                text = ""
                for page in reader.pages:
                    text += page.extract_text()
                pdf_texts[file_name] = text
                print(f"Texto extraído del archivo {file_name}: {text[:500]}...")  # Muestra los primeros 500 caracteres
            except Exception as e:
                print(f"Error procesando {file_name}: {e}")
    return pdf_texts

# Paso 2: Dividir la información en chunks
def split_text_into_chunks(text, chunk_size=1000, overlap=200):
    chunks = []
    start = 0
    while start < len(text):
        end = min(start + chunk_size, len(text))
        chunks.append(text[start:end])
        start += chunk_size - overlap
    print(f"Dividido el texto en {len(chunks)} chunks")
    return chunks

# Paso 3: Crear el índice de búsqueda
def create_faiss_index(pdf_texts):
    print("Creando embeddings e índice FAISS")
    embeddings = OpenAIEmbeddings()
    texts = []
    metadatas = []
    for file_name, text in pdf_texts.items():
        chunks = split_text_into_chunks(text)
        for i, chunk in enumerate(chunks):
            texts.append(chunk)
            metadatas.append({'document': file_name, 'chunk': i})
    index = FAISS.from_texts(texts, embeddings, metadatas)
    print("Índice FAISS creado")
    return index

# Paso 4: Generar una respuesta
def generate_response(query, index, top_k=5):
    print(f"Generando respuesta para la consulta: {query}")
    docs_and_scores = index.similarity_search_with_score(query, k=top_k)
    
    relevant_chunks = ""
    for doc, score in docs_and_scores:
        relevant_chunks += f"\n\nChunk {doc.metadata['chunk']} del documento {doc.metadata['document']}:\n{doc.page_content}"
    
    # Usar el modelo de OpenAI para generar una respuesta basada en los chunks relevantes
    llm = OpenAI()
    prompt = f"Responde a la siguiente pregunta basándote en la información proporcionada:\n\nPregunta: {query}\n\nInformación:\n{relevant_chunks}\n\nRespuesta:"
    response = llm(prompt)

    final_response = f"""Response: {response.strip()}\n\nRELEVANT CHUNKS:{relevant_chunks}"""
    return final_response

def main():
    folder_path = './documentacion_odontologia'  # Cambia esto por la ruta a tu carpeta de PDFs
    print("Extrayendo textos de PDFs...")
    pdf_texts = extract_text_from_pdfs(folder_path)
    print("Textos extraídos de todos los PDFs")

    index = create_faiss_index(pdf_texts)
    
    while True:
        query = input("Haz una pregunta: ")
        response = generate_response(query, index)
        print(response)

if __name__ == "__main__":
    main()


In [None]:
from dotenv import load_dotenv
import os
from PyPDF2 import PdfReader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.llms import OpenAI
import logging

# Configuración de logging
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

# Cargar las variables de entorno
load_dotenv()

# Obtener la API Key desde las variables de entorno
openai_api_key = os.getenv("OPENAI_API_KEY")

if openai_api_key is None:
    raise ValueError("La API Key de OpenAI no se ha encontrado. Por favor, verifica tu archivo .env")

# Funciones de procesamiento
def extract_text_from_pdfs(folder_path):
    pdf_texts = {}
    for file_name in os.listdir(folder_path):
        if file_name.endswith('.pdf'):
            file_path = os.path.join(folder_path, file_name)
            logger.info(f"Procesando archivo: {file_path}")
            try:
                reader = PdfReader(file_path)
                text = ""
                for page in reader.pages:
                    text += page.extract_text()
                pdf_texts[file_name] = text
                logger.info(f"Texto extraído del archivo {file_name}: {text[:500]}...")  # Muestra los primeros 500 caracteres
            except Exception as e:
                logger.error(f"Error procesando {file_name}: {e}")
    return pdf_texts

def split_text_into_chunks(text, chunk_size=1000, overlap=200):
    chunks = []
    start = 0
    while start < len(text):
        end = min(start + chunk_size, len(text))
        chunks.append(text[start:end])
        start += chunk_size - overlap
    logger.info(f"Dividido el texto en {len(chunks)} chunks")
    return chunks

def create_faiss_index(pdf_texts):
    logger.info("Creando embeddings e índice FAISS")
    embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key)
    texts = []
    metadatas = []
    for file_name, text in pdf_texts.items():
        chunks = split_text_into_chunks(text)
        for i, chunk in enumerate(chunks):
            texts.append(chunk)
            metadatas.append({'document': file_name, 'chunk': i})
    index = FAISS.from_texts(texts, embeddings, metadatas)
    logger.info("Índice FAISS creado")
    return index

def generate_response(query, index, top_k=5):
    logger.info(f"Generando respuesta para la consulta: {query}")
    docs_and_scores = index.similarity_search_with_score(query, k=top_k)
    
    relevant_chunks = ""
    for doc, score in docs_and_scores:
        relevant_chunks += f"\n\nChunk {doc.metadata['chunk']} del documento {doc.metadata['document']}:\n{doc.page_content}"
    
    llm = OpenAI(api_key=openai_api_key)
    prompt = f"Responde a la siguiente pregunta basándote en la información proporcionada:\n\nPregunta: {query}\n\nInformación:\n{relevant_chunks}\n\nRespuesta:"
    response = llm(prompt)

    final_response = f"""Response: {response.strip()}\n\nRELEVANT CHUNKS:{relevant_chunks}"""
    return final_response

def main():
    folder_path = './documentacion_odontologia'  # Cambia esto por la ruta a tu carpeta de PDFs
    logger.info("Extrayendo textos de PDFs...")
    pdf_texts = extract_text_from_pdfs(folder_path)
    logger.info("Textos extraídos de todos los PDFs")

    index = create_faiss_index(pdf_texts)
    
    while True:
        query = input("Haz una pregunta: ")
        response = generate_response(query, index)
        print(response)

if __name__ == "__main__":
    main()


INFO:__main__:Extrayendo textos de PDFs...
INFO:__main__:Procesando archivo: C:/Users/jaime/OneDrive/Escritorio/Proyectos/Proyectos_IA/documentacion_odontologia\COMPENDIOENDODONCIA2016.pdf
INFO:__main__:Texto extraído del archivo COMPENDIOENDODONCIA2016.pdf: See discussions, st ats, and author pr ofiles f or this public ation at : https://www .researchgate.ne t/public ation/303961195
COMPENDIO DE ENDODONCIA
Research · June 2016
DOI: 10.13140/RG.2.1.1772.5041
CITATIONS
0READS
71,449
2 author s:
Javier Alv arez Rodrígue z
Univ ersidad de Ciencias Médic as de La Hab ana
107 PUBLICA TIONS    156 CITATIONS    
SEE PROFILE
Dachel Martíne z Asanz a
National School of Public He alth, Hav ana Medic al Scienc es Univ ersity
56 PUBLICA TIONS    119 CITATIONS  ...
INFO:__main__:Procesando archivo: C:/Users/jaime/OneDrive/Escritorio/Proyectos/Proyectos_IA/documentacion_odontologia\Odontologia_sanitaria.pdf
INFO:__main__:Texto extraído del archivo Odontologia_sanitaria.pdf: ODONTOLOGIA
SANITARIAAgra

Haz una pregunta: Cual es el mejor tratamiento para las caries?


INFO:__main__:Generando respuesta para la consulta: Cual es el mejor tratamiento para las caries?
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/completions "HTTP/1.1 200 OK"


Response: De acuerdo a la información proporcionada, el mejor tratamiento para las caries es la utilización del flúor en métodos como la fluoruración del agua y las aplicaciones tópicas. Otros métodos como el uso de flúor en comprimidos, la fluoruración de la sal de cocina y la pasta dentífrica conteniendo fluoruro también son alternativas prometedoras, pero aún no completamente demostradas. Además, se recomienda una nutrición adecuada para fortalecer los dientes y evitar el ataque de la caries. Finalmente, se menciona la importancia de realizar un examen periódico y un tratamiento de lesiones en su inicio como medidas de prevención y diagnóstico temprano.

RELEVANT CHUNKS:

Chunk 451 del documento Odontologia_sanitaria.pdf:
 caries.
De momento, nuestros mejores métodos de prevención de la caries dental
son aquellos que se relacionan con el mecanismo de defensa, más específica-
mente, con la utilización del flúor. Son en.verdad inmensas las posibilidades
que el flúor ofrece al odontólo