# Instalación de Dependencias

In [None]:
# Instalación de las bibliotecas necesarias
!pip install chromadb sentence-transformers pandas

Collecting chromadb
  Downloading chromadb-0.5.18-py3-none-any.whl.metadata (6.8 kB)
Collecting build>=1.0.3 (from chromadb)
  Downloading build-1.2.2.post1-py3-none-any.whl.metadata (6.5 kB)
Collecting chroma-hnswlib==0.7.6 (from chromadb)
  Downloading chroma_hnswlib-0.7.6-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (252 bytes)
Collecting fastapi>=0.95.2 (from chromadb)
  Downloading fastapi-0.115.5-py3-none-any.whl.metadata (27 kB)
Collecting uvicorn>=0.18.3 (from uvicorn[standard]>=0.18.3->chromadb)
  Downloading uvicorn-0.32.0-py3-none-any.whl.metadata (6.6 kB)
Collecting posthog>=2.4.0 (from chromadb)
  Downloading posthog-3.7.0-py2.py3-none-any.whl.metadata (2.0 kB)
Collecting onnxruntime>=1.14.1 (from chromadb)
  Downloading onnxruntime-1.20.0-cp310-cp310-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (4.4 kB)
Collecting opentelemetry-exporter-otlp-proto-grpc>=1.2.0 (from chromadb)
  Downloading opentelemetry_exporter_otlp_proto_grpc-1.28.1-py3

# Configuración y Carga del CSV

In [None]:
import pandas as pd
from chromadb import PersistentClient
from chromadb.utils import embedding_functions
from sentence_transformers import SentenceTransformer


# Ruta al archivo CSV en Google Drive
csv_path = '/content/drive/MyDrive/tesis colab/vectorización/violence_embeddings.csv'

# Cargar el archivo CSV
df = pd.read_csv(csv_path)

# Verificar que el archivo contiene las columnas necesarias
required_columns = {'clase', 'ejemplos'}
if not required_columns.issubset(df.columns):
    raise ValueError(f"El archivo CSV debe contener las columnas: {required_columns}")

# Crear columna 'ids' automáticamente
df['ids'] = df.index.astype(str)
print(f"Archivo '{csv_path}' cargado exitosamente con {len(df)} filas.")

  from tqdm.autonotebook import tqdm, trange


Archivo '/content/drive/MyDrive/tesis colab/vectorización/violence_embeddings.csv' cargado exitosamente con 240 filas.


# Configuración del Modelo y ChromaDB

In [None]:
# Configurar el modelo Sentence Transformer
model_name = "all-mpnet-base-v2"
model = SentenceTransformer(model_name)

# Configurar ChromaDB para almacenamiento persistente
chroma_path = '/content/drive/MyDrive/tesis colab/vectorización/data_embeddings'
client_persistent = PersistentClient(path=chroma_path)

# Crear función de embeddings para ChromaDB
embedding_function = embedding_functions.SentenceTransformerEmbeddingFunction(model_name=model_name)

# Crear o cargar la colección en ChromaDB con la métrica de distancia cosine
collection_name = 'violence_embeddings_DB'
try:
    db = client_persistent.get_collection(name=collection_name, embedding_function=embedding_function)
    print(f"Colección '{collection_name}' cargada exitosamente.")
except Exception:
    db = client_persistent.create_collection(
        name=collection_name,
        embedding_function=embedding_function,
        metadata={"hnsw:space": "cosine"}  # Especificar la distancia cosine
    )
    print(f"Colección '{collection_name}' creada exitosamente.")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.6k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Colección 'violence_embeddings_DB' creada exitosamente.


# Generación de Embeddings

In [None]:
# Generar embeddings para los textos de la columna 'ejemplos'
print("Generando embeddings...")
df['embeddings'] = df['ejemplos'].apply(lambda x: model.encode(x).tolist())
print("Embeddings generados exitosamente.")

Generando embeddings...
Embeddings generados exitosamente.


# Agregar Datos a ChromaDB

In [None]:
# Agregar datos a la colección de ChromaDB
print("Agregando datos a ChromaDB...")
db.add(
    ids=df['ids'].astype(str).tolist(),         # IDs únicos
    documents=df['ejemplos'].tolist(),         # Documentos (ejemplos de texto)
    embeddings=df['embeddings'].tolist(),      # Embeddings generados
    metadatas=[{'clase': clase} for clase in df['clase']]  # Metadatos opcionales
)
print(f"Datos agregados a la colección '{collection_name}' exitosamente.")


Agregando datos a ChromaDB...
Datos agregados a la colección 'violence_embeddings_DB' exitosamente.


# Verificar Contenido de ChromaDB

In [None]:
# Consultar los documentos en la colección
print("Verificando contenido de la colección...")
results = db.get()
print("Documentos en la colección:", results['documents'][:5])  # Mostrar los primeros 5 documentos
print("Metadatos en la colección:", results['metadatas'][:5])  # Mostrar los primeros 5 metadatos

Verificando contenido de la colección...
Documentos en la colección: ['orto', 'bulto', 'cajeta', 'choto', 'coger']
Metadatos en la colección: [{'clase': 0}, {'clase': 0}, {'clase': 0}, {'clase': 0}, {'clase': 0}]


# Query DB

In [None]:
# Probar una consulta en la base de datos
query_text = "feliz cumpleaños"  # Frase a consultar

print(f"Realizando consulta para: '{query_text}'...")
results = db.query(query_texts=[query_text], n_results=1)  # Consulta con 1 resultado

if results['distances'] and results['documents']:
    distance = results['distances'][0][0]
    closest_document = results['documents'][0][0]
    print(f"Frase consultada: '{query_text}'")
    print(f"Distancia más cercana: {distance:.10f}")
    print(f"Documento más cercano: {closest_document}")
else:
    print("No se encontraron resultados para la consulta.")


Realizando consulta para: 'feliz cumpleaños'...
Frase consultada: 'feliz cumpleaños'
Distancia más cercana: 0.4454335315
Documento más cercano: maten a los blancos


In [None]:
# Generar embedding para una frase específica
embedding = model.encode("feliz cumpleaños").tolist()

print("Realizando consulta basada en embeddings...")
results = db.query(query_embeddings=[embedding], n_results=1)

if results['distances'] and results['documents']:
    distance = results['distances'][0][0]
    closest_document = results['documents'][0][0]
    print(f"Distancia más cercana: {distance:.10f}")
    print(f"Documento más cercano: {closest_document}")
else:
    print("No se encontraron resultados para la consulta basada en embeddings.")


Realizando consulta basada en embeddings...
Distancia más cercana: 0.4454335315
Documento más cercano: maten a los blancos


# Cargar la Base de Datos desde Cero

In [None]:
import pandas as pd
from chromadb import PersistentClient
from chromadb.utils import embedding_functions
from sentence_transformers import SentenceTransformer

In [None]:

# Ruta de la base de datos persistente
chroma_path = '/content/drive/MyDrive/tesis colab/vectorización/data_embeddings'
client_persistent = PersistentClient(path=chroma_path)

# Nombre de la colección existente
collection_name = 'violence_embeddings_DB'

# Conectar a la colección existente
try:
    db = client_persistent.get_collection(name=collection_name)
    print(f"Colección '{collection_name}' cargada exitosamente.")
except Exception as e:
    print(f"Error al cargar la colección: {e}")


Colección 'violence_embeddings_DB' cargada exitosamente.


In [None]:
# Verificar los documentos existentes en la colección
results = db.get()

# Mostrar algunos documentos y metadatos
print("Documentos en la colección:", results['documents'][:5])  # Mostrar los primeros 5 documentos
print("Metadatos en la colección:", results['metadatas'][:5])  # Mostrar los primeros 5 metadatos


Documentos en la colección: ['orto', 'bulto', 'cajeta', 'choto', 'coger']
Metadatos en la colección: [{'clase': 0}, {'clase': 0}, {'clase': 0}, {'clase': 0}, {'clase': 0}]


In [None]:
# Realizar una consulta
query_text = "feliz cumpleaños"
model = SentenceTransformer("all-mpnet-base-v2")
query_embedding = model.encode(query_text).tolist()

# Obtener el resultado más cercano
results = db.query(query_embeddings=[query_embedding], n_results=1)

# Mostrar resultados
if results['documents'] and results['distances']:
    for document, distance in zip(results['documents'][0], results['distances'][0]):  # Acceder a la lista interna
        print(f"Documento: {document}, Distancia: {distance:.4f}")
else:
    print("No se encontraron resultados.")


Documento: maten a los blancos, Distancia: 0.4454
