In [7]:
#!/usr/bin/env python
# coding: utf-8

# Instalamos dependencias necesarias
get_ipython().system('pip install langchain==0.0.123 langchain_community==0.0.10 spacy==3.5.0 PyPDF2==3.0.1 sentence-transformers==2.2.2 scikit-learn==1.2.2 qdrant-client==1.1.5 streamlit==1.22.0')

# Descargamos el modelo de spaCy
get_ipython().system('python -m spacy download es_core_news_sm')

# Importamos las librerías necesarias
import spacy
from langchain.document_loaders import PyPDFLoader
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
import os
import pickle
import matplotlib.pyplot as plt
from qdrant_client import QdrantClient
from qdrant_client.http.models import Distance, VectorParams

# Carga del documento PDF
file_path = "./Regulaciones_cacao_y_chocolate_2003.pdf"
assert os.path.exists(file_path), "El archivo PDF no se encuentra en la ruta especificada."
loader = PyPDFLoader(file_path)
documents = loader.load()
print(f"Se han cargado {len(documents)} páginas del documento PDF.")

# Limpieza del texto
try:
    nlp = spacy.load("es_core_news_sm")
except ImportError:
    print("Error al cargar el modelo de spaCy. Asegúrate de que spaCy esté instalado correctamente y que el modelo esté descargado.")
    exit()

def preprocess_text(text):
    doc = nlp(text)
    tokens = [token.lemma_.lower() for token in doc if not token.is_stop and not token.is_punct and not token.like_num]
    return ' '.join(tokens)

cleaned_documents = []
for doc in documents:
    cleaned_text = preprocess_text(doc.page_content)
    doc.page_content = cleaned_text
    cleaned_documents.append(doc)

print("Limpieza de datos completada.")

# Segmentación semántica
model = SentenceTransformer('all-MiniLM-L6-v2')
all_sentences = []

# Dividir en oraciones usando spaCy
def split_into_sentences(text):
    doc = nlp(text)
    sentences = [sent.text.strip() for sent in doc.sents if sent.text.strip()]
    return sentences

for doc in cleaned_documents:
    sentences = split_into_sentences(doc.page_content)
    all_sentences.extend(sentences)

print(f"Se han obtenido {len(all_sentences)} oraciones en total.")

# Generación de embeddings para cada oración
sentence_embeddings = model.encode(all_sentences)
print("Embeddings de las oraciones calculados.")

# Cálculo de la distancia del coseno entre oraciones consecutivas
distances = []
for i in range(len(sentence_embeddings) - 1):
    similarity = cosine_similarity([sentence_embeddings[i]], [sentence_embeddings[i + 1]])[0][0]
    distance = 1 - similarity
    distances.append(distance)

print("Distancias entre oraciones calculadas.")

# Visualización de las distancias
plt.figure(figsize=(10, 6))
plt.plot(distances, label='Distancia del Coseno entre Oraciones Consecutivas')
plt.axhline(y=np.percentile(distances, 95), color='r', linestyle='-', label='Umbral Percentil 95')
plt.xlabel('Índice de Oración')
plt.ylabel('Distancia del Coseno')
plt.title('Distancias del Coseno entre Oraciones Consecutivas')
plt.legend()
plt.show()

# Identificación de puntos de quiebre y creación de chunks
threshold = np.percentile(distances, 95)
breakpoints = [i + 1 for i, d in enumerate(distances) if d > threshold]

chunks = []
start = 0
for breakpoint in breakpoints:
    chunk = ' '.join(all_sentences[start:breakpoint])
    chunks.append(chunk)
    start = breakpoint

if start < len(all_sentences):
    chunk = ' '.join(all_sentences[start:])
    chunks.append(chunk)

print(f"Se han creado {len(chunks)} chunks.")

# Guardado de los chunks
os.makedirs('data/chunks', exist_ok=True)
for i, chunk in enumerate(chunks):
    with open(f'data/chunks/chunk_{i}.txt', 'w', encoding='utf-8') as f:
        f.write(chunk)

print("Chunks guardados en la carpeta 'data/chunks'.")

# Generación de embeddings para cada chunk
chunk_embeddings = model.encode(chunks)
print("Embeddings de los chunks calculados.")

# Guardado de los embeddings y chunks
os.makedirs('embeddings', exist_ok=True)
with open('embeddings/chunk_embeddings.pkl', 'wb') as f:
    pickle.dump(chunk_embeddings, f)
with open('embeddings/chunk_texts.pkl', 'wb') as f:
    pickle.dump(chunks, f)

print("Embeddings y chunks guardados en la carpeta 'embeddings'.")

# Indexación de embeddings en Qdrant
qdrant_client = QdrantClient(':memory:')
collection_name = 'cocoa_chocolate_regulations'
vector_size = chunk_embeddings.shape[1]

qdrant_client.recreate_collection(
    collection_name=collection_name,
    vectors_config=VectorParams(size=vector_size, distance=Distance.COSINE),
)

payload = [{'chunk': chunk} for chunk in chunks]
ids = list(range(len(chunks)))
qdrant_client.upload_collection(
    collection_name=collection_name,
    vectors=chunk_embeddings,
    payload=payload,
    ids=ids,
)

print("Embeddings indexados en Qdrant.")

# Ejemplo de consulta utilizando Qdrant
def search_chunks_qdrant(query, top_k=5):
    query_embedding = model.encode([query])[0]
    search_result = qdrant_client.search(
        collection_name=collection_name,
        query_vector=query_embedding.tolist(),
        limit=top_k
    )
    for hit in search_result:
        print(f"Resultado con score {hit.score:.4f}:\n{hit.payload['chunk']}\n---")

# Ejemplo de consulta
query = "regulaciones para añadir grasas vegetales en productos de chocolate"
search_chunks_qdrant(query)

# Notas para Streamlit
# En la aplicación Streamlit, se pueden incluir las gráficas generadas y permitir a los usuarios realizar búsquedas interactivas en Qdrant.


Collecting langchain==0.0.123
  Downloading langchain-0.0.123-py3-none-any.whl.metadata (7.9 kB)
Collecting langchain_community==0.0.10
  Downloading langchain_community-0.0.10-py3-none-any.whl.metadata (7.3 kB)
Collecting spacy==3.5.0
  Downloading spacy-3.5.0-cp311-cp311-macosx_11_0_arm64.whl.metadata (25 kB)
Collecting sentence-transformers==2.2.2
  Downloading sentence-transformers-2.2.2.tar.gz (85 kB)
  Preparing metadata (setup.py) ... [?25ldone
Collecting qdrant-client==1.1.5
  Downloading qdrant_client-1.1.5-py3-none-any.whl.metadata (6.7 kB)
Collecting langchain-core<0.2,>=0.1.8 (from langchain_community==0.0.10)
  Downloading langchain_core-0.1.53-py3-none-any.whl.metadata (5.9 kB)
Collecting langsmith<0.1.0,>=0.0.63 (from langchain_community==0.0.10)
  Downloading langsmith-0.0.92-py3-none-any.whl.metadata (9.9 kB)
Collecting typer<0.8.0,>=0.3.0 (from spacy==3.5.0)
  Downloading typer-0.7.0-py3-none-any.whl.metadata (17 kB)
Collecting protobuf<4,>=3.12 (from streamlit==1.22

ImportError: cannot import name util