In [4]:
#pip install transformers==4.35.0 sentence-transformers==2.2.2 chromadb==0.4.6 accelerate tqdm 

# Creaci√≥n de un Entorno de Python

En este documento, vamos a explicar c√≥mo configurar un nuevo entorno de Python utilizando tanto `venv` como `conda`.

## Usando venv

`venv` es una herramienta que viene preinstalada con Python (versi√≥n 3.3 o superior) y permite crear entornos virtuales de Python aislados.

### Pasos

1. **Crear un entorno virtual:** Abre la terminal y ejecuta el siguiente comando en el directorio donde desees crear el entorno virtual.

   ```bash
   python3 -m venv nombre_del_entorno


2. **Activar el entorno virtual:** Utiliza el siguiente comando para activar el entorno.


  Linux/Mac:

```bash
    source nombre_del_entorno/bin/activate
```


   Windows:

```bash
    .\nombre_del_entorno\Scripts\activate
```


3. **Instalar dependencias desde requirements.txt con pip:** Una vez activado el entorno, puedes instalar todas las dependencias necesarias desde un archivo `requirements.txt` utilizando:

   ```bash
   pip install -r requirements.txt

4. **Desactivar el entorno virtual:** Para salir del entorno virtual, simplemente ejecuta:

```bash
   deactivate

## Usando Conda
conda es un sistema de gesti√≥n de paquetes y de entorno que puede instalar paquetes de diferentes lenguajes.

### Pasos
1. **Instalar Conda:** Puedes descargar e instalar Conda desde [este enlace](https://www.anaconda.com/download).

2. **Crear un entorno Conda:** Para crear un nuevo entorno con Conda, abre la terminal y ejecuta:

```bash
    conda create --name nombre_del_entorno python=3.9 ipykernel
```

Para esta biblioteca, vamos a usar python 3.9 y para interactuar con Jupyter Notebooks vamos a usar "ipykernel" o "jupyter"

3. **Activar el entorno Conda:** Utiliza el siguiente comando para activar el entorno.

```bash
    conda activate nombre_del_entorno
```
4. **Instalar dependencias desde requirements.txt con pip:** Al igual que con venv, puedes instalar las dependencias necesarias desde un archivo requirements.txt en el entorno Conda activado utilizando:
```bash
    pip install -r requirements.txt
```

5. Desactivar el entorno Conda: Para salir del entorno Conda, simplemente ejecuta:

```bash
    conda deactivate
```

In [1]:
# 1Ô∏è‚É£ Importar librer√≠as
from sentence_transformers import SentenceTransformer
import chromadb
from chromadb.config import Settings
import os
import numpy as np
import uuid

# Modelo de embeddings
model_name = "sentence-transformers/all-MiniLM-L6-v2"
model = SentenceTransformer(model_name)

def get_embeddings(text):
    return model.encode(text).tolist()

# Inicializar ChromaDB con persistencia
client = chromadb.PersistentClient(path="./chroma_store")
collection = client.get_or_create_collection(name="documentos_ia")

def cargar_documentos():
    docs_path = "docs/"
    documentos = []
    metadatos = []
    ids = []

    for filename in os.listdir(docs_path):
        if filename.endswith(".txt"):
            with open(os.path.join(docs_path, filename), 'r', encoding="utf-8") as f:
                text = f.read().strip()
                chunks = [text[i:i+500] for i in range(0, len(text), 500)]
                
                for i, chunk in enumerate(chunks):
                    documentos.append(chunk)
                    metadatos.append({"source": filename})
                    ids.append(str(uuid.uuid4()))  # ID √∫nico
    
    return documentos, metadatos, ids

def crear_base_datos():
    docs, metas, ids = cargar_documentos()
    embeddings = [get_embeddings(d) for d in docs]
    collection.add(documents=docs, embeddings=embeddings, metadatas=metas, ids=ids)
    print("‚úÖ Base de datos creada con √©xito.")

# --- CRUD FUNCIONES ---

def create_example(new_doc):
    """A√±adir un documento nuevo"""
    embedding = get_embeddings(new_doc)
    doc_id = str(uuid.uuid4())
    metadata = {"source": "nuevo_documento.txt"}
    
    collection.add(
        documents=[new_doc],
        embeddings=[embedding],
        metadatas=[metadata],
        ids=[doc_id]
    )
    print(f"‚úÖ Documento a√±adido con ID: {doc_id}")

def read_example(query):
    """Consultar documentos similares"""
    query_emb = get_embeddings(query)
    results = collection.query(
        query_embeddings=[query_emb],
        n_results=1
    )
    
    if results["documents"]:
        print(f"üìÑ Mejor coincidencia: {results['documents'][0][0]}")
        print(f"üìÅ Fuente: {results['metadatas'][0][0]['source']}")
        print(f"üÜî ID: {results['ids'][0][0]}")
    else:
        print("‚ö†Ô∏è No se encontraron resultados.")

def get_documents_by_id(doc_id):
    """Obtener un documento por ID"""
    results = collection.get(ids=[doc_id], include=["documents", "metadatas", "embeddings"])
    
    if results["documents"]:
        print(f"üìÑ Documento: {results['documents'][0]}")
        print(f"üìÅ Fuente: {results['metadatas'][0]['source']}")
    else:
        print("‚ö†Ô∏è Documento no encontrado.")

def update_example(old_id, new_text):
    """Actualizar un documento (eliminar y reinsertar)"""
    collection.delete(ids=[old_id])
    
    new_id = str(uuid.uuid4())
    embedding = get_embeddings(new_text)
    metadata = {"source": "documento_actualizado.txt"}
    
    collection.add(
        documents=[new_text],
        embeddings=[embedding],
        metadatas=[metadata],
        ids=[new_id]
    )
    print(f"‚ôªÔ∏è Documento actualizado. Nuevo ID: {new_id}")

def delete_example(doc_id):
    """Eliminar por ID"""
    collection.delete(ids=[doc_id])
    print(f"üóëÔ∏è Documento con ID '{doc_id}' eliminado.")

print('listo')

  from .autonotebook import tqdm as notebook_tqdm
  _torch_pytree._register_pytree_node(
Downloading .gitattributes: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1.23k/1.23k [00:00<00:00, 1.19MB/s]
Downloading config.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 190/190 [00:00<00:00, 1.07MB/s]
Downloading README.md: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10.5k/10.5k [00:00<00:00, 11.3MB/s]
Downloading config.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 612/612 [00:00<00:00, 2.05MB/s]
Downloading (‚Ä¶)ce_transformers.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 116/116 [00:00<00:00, 491kB/s]
Downloading data_config.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 39.3k/39.3k [00:00<00:00, 50.4MB/s]
Downloading model.safetensors: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 90.9M/90.9M [00:02<00:00, 40.0MB/s]
Downloading model.onnx: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 90.4M/90.4M [00:02<00:00, 40.1MB/s]
Downloading model_O1.onnx: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 90.4M/90.4M [00:02<00:00, 40.8MB/s]
Downloading mod

RuntimeError: Failed to import transformers.models.bert.modeling_bert because of the following error (look up to see its traceback):
Failed to import transformers.generation.utils because of the following error (look up to see its traceback):
cannot import name 'split_torch_state_dict_into_shards' from 'huggingface_hub' (/Users/eMinus1db/Documents/Python_Labs/sandbox_ai/data_bases_ai/bases-datos-IA/bdia-venv/lib/python3.11/site-packages/huggingface_hub/__init__.py)

In [None]:
crear_base_datos()

In [20]:
get_embeddings("Reynaldo Gonz√°lez es un ingeniero de software con 10 a√±os de experiencia en desarrollo web y m√≥vil.")

[-0.09879043698310852,
 0.01190011203289032,
 -0.07934802025556564,
 -0.07173146307468414,
 0.048498932272195816,
 -0.08828750997781754,
 0.04442286118865013,
 0.06878755241632462,
 -0.044716671109199524,
 -0.019074397161602974,
 0.009390965104103088,
 0.055638387799263,
 0.020385729148983955,
 0.005857549142092466,
 0.05711754783987999,
 0.03409784287214279,
 -0.03325347602367401,
 0.008881255984306335,
 0.02236260287463665,
 -0.0675140991806984,
 0.11720025539398193,
 -0.029926341027021408,
 0.0018127167131751776,
 -0.007679759059101343,
 -0.014972863718867302,
 0.0011125666787847877,
 0.0069056423380970955,
 -0.016392147168517113,
 -0.025348804891109467,
 -0.09709928184747696,
 0.03483700752258301,
 0.06626580655574799,
 0.07979559898376465,
 0.05058017373085022,
 -0.024885054677724838,
 -0.004187207669019699,
 0.021157706156373024,
 -0.058077372610569,
 -0.0793750211596489,
 0.01205082330852747,
 -0.1423080861568451,
 0.029957270249724388,
 -0.0037485037464648485,
 -0.0742330774664

In [26]:
results = collection.get(include=["embeddings", "documents", "metadatas"])

In [27]:
for id, content, metadata, embedding in zip(results["ids"], results["documents"], results["metadatas"], results["embeddings"]):
    print(f"ID: {id}, Contenido: {content[:100]} ", f"Metadata: {metadata}", f"Embedding: {embedding[:5]}...")

ID: 771abf37-d48e-4201-a56c-8ed4891f0d87, Contenido: El sol se alzaba sobre las colinas de Buenos Aires, pintando el cielo con tonos naranja y rosa. El a  Metadata: {'source': 'doc1.txt'} Embedding: [ 0.05201019 -0.04184364  0.03102785  0.03516812  0.00390169]...
ID: 899f51d4-481d-4b96-a001-cd16fb6919d4, Contenido: ciosa continuaba, con el tr√°fico constante y el murmullo de las conversaciones. Los turistas se mara  Metadata: {'source': 'doc1.txt'} Embedding: [ 0.06561411  0.0027415   0.01852138 -0.00384714 -0.08065526]...
ID: d70fa0b5-3fe2-4d09-bee8-68a24adf8d9f, Contenido:  los restaurantes serv√≠an deliciosas parrilladas.

Hacia el norte, el elegante barrio de Recoleta in  Metadata: {'source': 'doc1.txt'} Embedding: [ 0.06329252 -0.05760498  0.01019357  0.01427126 -0.11836303]...
ID: 32882197-f7c8-447e-a17d-c97dc291eb52, Contenido: y novelas exploran la realidad, la fantas√≠a y la condici√≥n humana con una prosa exquisita.

El f√∫tbo  Metadata: {'source': 'doc1.txt'} Embedding: [ 0.

In [43]:
while True:
    opcion = input("Elige una opci√≥n o escribe ayuda: ")
    
    if opcion=="ayuda":
        print("\n--- Men√∫ CRUD ---")
        print("1. Crear documento")
        print("2. Consultar por tema")
        print("3. Actualizar documento (por ID)")
        print("4. Eliminar documento (por ID)")
        print("5. Buscar documento (por ID)")
        print("6. Salir")

    if opcion == "1":
        nuevo_doc = input("Ingresa el texto a a√±adir: ")
        create_example(nuevo_doc)
        
    elif opcion == "2":
        consulta = input("Consulta: ")
        read_example(consulta)
        
    elif opcion == "3":
        doc_id = input("ID del documento a actualizar: ")
        nuevo_texto = input("Nuevo contenido: ")
        update_example(doc_id, nuevo_texto)
        
    elif opcion == "4":
        doc_id = input("ID del documento a eliminar: ")
        delete_example(doc_id)  

    elif opcion == "5":
        doc_id = input("ID del documento a buscar: ")
        get_documents_by_id(doc_id)
        
    elif opcion == "6":
        print("üëã Saliendo del programa.")
        break

‚úÖ Documento a√±adido con ID: 0c7df931-509b-41ab-93e3-23206c59cc7c
üìÑ Mejor coincidencia: mi vieja mula ya no es lo que era
üìÅ Fuente: nuevo_documento.txt
üÜî ID: 0c7df931-509b-41ab-93e3-23206c59cc7c
‚ôªÔ∏è Documento actualizado. Nuevo ID: 0571d281-1c8d-4973-b33a-d857c92ea0d4
üóëÔ∏è Documento con ID '0c7df931-509b-41ab-93e3-23206c59cc7c' eliminado.
üìÑ Documento: Mi vieja mula ya no es lo que era, ya no es lo que era, ya no es lo que era
üìÅ Fuente: documento_actualizado.txt
üëã Saliendo del programa.


## ¬øC√≥mo sigue esto?

### de forma conceptual debemos:
1. Recuperar el contexto relevante con una busqueda como read_example(query) o similar.
2. Formular el prompt para el llm, juntando la consulta original con los embeddings relevantes.
3. Enviar la Petici√≥n al Endpoint (en este caso LM Studio).
4. Recibir y mostrar la respuesta.

In [45]:
# Esta secci√≥n es para la integraci√≥n con LM Studio y no es parte del CRUD. Es solo un ejemplo de c√≥mo se podr√≠a hacer una consulta a un modelo de lenguaje como Llama 3 o similar.
# 2Ô∏è‚É£ Integraci√≥n con LM Studio (Llama 3 o similar)
import requests
import json

LM_STUDIO_URL = "http://192.168.0.3:1234/v1/chat/completions"  

def query_llama(prompt):
    """Envia un prompt a LM Studio y recibe la respuesta."""
    headers = {
        "Content-Type": "application/json"
    }
    data = {
        "messages": [{"role": "user", "content": prompt}],
        "max_tokens": 256, 
        # Es posible agregar otros par√°metros de generaci√≥n aca (temperature, top_p, etc.)
    }
    try:
        response = requests.post(LM_STUDIO_URL, headers=headers, data=json.dumps(data))
        response.raise_for_status()
        return response.json()["choices"][0]["message"]["content"]
    except requests.exceptions.RequestException as e:
        print(f"Error al conectar con LM Studio: {e}")
        return None
    except (KeyError, json.JSONDecodeError) as e:
        print(f"Error al procesar la respuesta de LM Studio: {e}")
        return None

def responder_pregunta(pregunta):
    """Busca documentos relevantes y luego consulta a Llama."""
    query_emb = get_embeddings(pregunta)
    results = collection.query(
        query_embeddings=[query_emb],
        n_results=3  # Obtener algunos documentos relevantes como contexto
    )

    if results["documents"]:
        contexto = "\n\n".join(results["documents"][0])
        prompt = f"Bas√°ndote en la siguiente informaci√≥n:\n\n{contexto}\n\nResponde a la siguiente pregunta: {pregunta}" # Juntar el contexto obtenido y la pregunta
        respuesta = query_llama(prompt)
        return respuesta
    else:
        return "No se encontraron documentos relevantes para responder a tu pregunta."

# --- Ejemplo de uso ---
if __name__ == "__main__":
    crear_base_datos() 

    while True:
        pregunta_usuario = input("Preg√∫ntame algo sobre los documentos (o escribe 'salir'): ")
        if pregunta_usuario.lower() == 'salir':
            break

        respuesta_ia = responder_pregunta(pregunta_usuario)
        if respuesta_ia:
            print(f"ü§ñ Respuesta de la IA: {respuesta_ia}")

‚úÖ Base de datos creada con √©xito.
ü§ñ Respuesta de la IA: <think>
El texto describe que el sol pintaba el cielo con tonos naranja y rosa.
</think>

El sol pintaba el cielo de Buenos Aires con **tonos naranja y rosa**.
