# LangChain para INVIAS

Este codigo viene de [langc_v01.ipynb](../../../Platzi_codes/langc/v01/langc_v01.ipynb). Este código desarrollo tiene [Code Explanation](../../../AI_Queries/code_explanation/) 

## 1. Instalación de librerías

In [None]:
""" 
Lista de los paquetes a instalar:

    upgrade:
        pip
        setuptools
        wheel
    Packages:
        langchain 
        pypdf 
        openai 
        chromadb 
        tiktoken
        langchain-community
"""
import subprocess

comandos = [
    ["pip", "install", "--upgrade", "pip", "setuptools", "wheel"],
    ["pip", "install", "langchain", "pypdf", "openai", "chromadb", "tiktoken"],
    ["pip", "install", "-U", "langchain-community"],
    ["python", "-m", "pip", "install", "--upgrade", "pip"]
]

log_path = "instalacion_log.txt"

with open(log_path, "w", encoding="utf-8") as log_file:
    for i, cmd in enumerate(comandos, start=1):
        log_file.write(f"\n🔧 Ejecutando comando {i}: {' '.join(cmd)}\n")
        result = subprocess.run(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
        
        log_file.write("✅ STDOUT:\n")
        log_file.write(result.stdout + "\n")
        
        if result.stderr:
            log_file.write("⚠️ STDERR:\n")
            log_file.write(result.stderr + "\n")

print(f"✅ Resultado guardado en {log_path}")


## 2. Configuración de API Key de OpenAI

In [1]:
import os
from openai import OpenAI
# Recuperar la clave API de la variable de entorno
api_key_environ = os.environ.get("OPENAI_API_KEY")
 
# Verificar que la clave API esté disponible
if not api_key_environ:
    raise ValueError("La variable de entorno OPENAI_API_KEY no está configurada o está vacía.")
 
# Inicializar el cliente de OpenAI con la clave API
client = OpenAI(api_key=api_key_environ)
 
# Usar el cliente para tus tareas
print("¡Cliente de OpenAI inicializado correctamente!")

¡Cliente de OpenAI inicializado correctamente!


## 3. Carga de documents

In [37]:
import requests
from langchain.document_loaders import PyPDFLoader
import os

relative_pdf_path = "../../../assets/DG_docs/PDFs_test/"

ml_papers = []

for i, file_name in enumerate(os.listdir(relative_pdf_path)):
    if file_name.lower().endswith(".pdf"):
        full_pdf_path = os.path.join(relative_pdf_path,file_name)
        print(f"📄 Cargando {file_name}")

        loader = PyPDFLoader(full_pdf_path)
        data = loader.load() # AI_Queries\code_explanation\ai_query-langc_v01-PyPDFLoader(filename).loader.load()_usage.md
        ml_papers.extend(data) # AI_Queries\code_explanation\ai_query-langc_v01-.extend_usage.md
        # print (ml_papers) # AI_Queries/code_explanation/ai_query-langc_v01-list_start_end_usage.md
# Utiliza la lista ml_papers para acceder a los elementos de todos los documentos descargados
print('Esto es todo el contenido de `ml_papers:`')
print(f"""
🆗 Todos los documentos estan cargados en ml_papers.
➖ Total de fragmentos: {len(ml_papers)}
➖ Los fragmentos son cada una de las hojas de cada uno de los {len(os.listdir(relative_pdf_path))} archivos en la carpeta {relative_pdf_path}
➖ Este script se ejecuta desde {os.getcwd()}
➖ Este es el contenido de la última hoja cargada {ml_papers[-1]}
""")

📄 Cargando 2024S-VBOG-054699.pdf
📄 Cargando 2024S-VBOG-056838.pdf
📄 Cargando 2024S-VBOG-056839.pdf
📄 Cargando 2024S-VBOG-056844.pdf
📄 Cargando 2024S-VBOG-056845.pdf
Esto es todo el contenido de `ml_papers:`

🆗 Todos los documentos estan cargados en ml_papers.
➖ Total de fragmentos: 31
➖ Los fragmentos son cada una de las hojas de cada uno de los 5 archivos en la carpeta ../../../assets/DG_docs/PDFs_test/
➖ Este script se ejecuta desde c:\Users\devel\UNAD\INVIAS\INVIAS_NLP\MMO_codes\langc\v01
➖ Este es el contenido de la última hoja cargada page_content='d. Las tasas de peajes serán diferenciales, es decir, se fijarán en proporción a las
distancias recorridas, las características vehiculares y sus respectivos costos de
operación. 
e. Para la determinación del valor del peaje y de las tasas de valorización, en las
vías nacionales, se tendrá en cuenta un criterio de equidad fiscal”.
4. Sírvase dar a conocer cuáles son los servicios que por normativa están
obligados a brindar las concesion

## Split de documents

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500, 
    # AI_Queries\code_explanation\ai_query-langc_v01-chunk_usage.md 
    # AI_Queries\code_explanation\ai_query-langc_v01-max_tokens_Chatgptmodels.md 
    # AI_Queries\code_explanation\ai_query-langc_v01-meaning_inputpromptandanswer.md 
    # AI_Queries\code_explanation\ai_query-langc_v01-retrieval_meaning.md
    
    chunk_overlap=200,
    length_function=len
    )

documents = text_splitter.split_documents(ml_papers)

In [None]:
len(documents), documents[0]

## Embeddings e ingesta a base de datos vectorial (⚠️ advertencia de uso de esta sección)

In [None]:
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# AI_Queries\code_explanation\ai_query-langc_v01-Embeddings_and_Vector_Store_Ingestion.md

# 1. Crear embeddings con el modelo oficial de OpenAI
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

# 2. Definir carpeta para almacenar la base de datos vectorial
persist_directory = "chroma_db" #

# 3. Crear la base desde documentos y embeddings
vectorstore = Chroma.from_documents(
    documents=documents,
    embedding=embeddings,
    persist_directory=persist_directory
)

# 4. Guardar la base en disco
vectorstore.persist()
print("✅ Base de datos Chroma guardada en:", persist_directory)


# 5. Cargar la base vectorial guardada en disco
vectorstore = Chroma(
    embedding_function=embeddings,
    persist_directory="chroma_db"
)

# 6. Usar como retriever
retriever = vectorstore.as_retriever(
    search_kwargs={"k": 3}
    )

⚠️ Fue necesario crear copia de las lineas "*# 1. Crear embeddings con el modelo oficial de OpenAI*", "*# 5. Cargar la base vectorial guardada en disco*" y "*# 6. Usar como retriever*" para **solamente hacer uso de la Based de Datos de embeddings `chroma_db` ya creada y evitar recalcularla**.

In [None]:
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# 1. Modelo de embeddings (debe ser el mismo usado al crear la base)
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

# 5. Cargar la base vectorial guardada en disco
vectorstore = Chroma(
    embedding_function=embeddings,
    persist_directory="chroma_db"
)

# 6. Usar como retriever
retriever = vectorstore.as_retriever(
    search_kwargs={"k": 5}
)

## Modelos de chat y cadenas para consulta de información

In [None]:
#AI_Queries/code_explanation/ai_query-langc_v01-Chat_Models_and_Retrieval_Chains_for_Information_Querying.md

from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA

chat = ChatOpenAI(
    openai_api_key=api_key_environ,
    model_name='gpt-3.5-turbo',
    temperature=0.0
)

# AI_Queries/code_explanation/ai_query-langc_v01-RetrievalQA.from_chain_type_usage.md
qa_chain = RetrievalQA.from_chain_type(
    llm=chat,
    chain_type="stuff",
    retriever=retriever
)

In [None]:
# AI_Queries/code_explanation/ai_query-langc_v01-qa_chain.run()_usage.md

query = "qué es fingpt?"
qa_chain.run(query)

In [None]:
query = "qué hace complicado entrenar un modelo como el fingpt?"
qa_chain.run(query)

In [None]:
query = "qué es fast segment?"
qa_chain.run(query)

In [None]:
query = "cuál es la diferencia entre fast sam y mobile sam?"
qa_chain.run(query)