<a target="_blank" href="https://colab.research.google.com/github/GoUpCloud/LLM2-db-documental/blob/Pinecone-Colab/pinecone_colab/Pinecone-Colab-df.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

# Pinecone + Colab + df

# Paso 1: Instalar los paquetes necesarios

In [None]:
print('iniciando instalaciones para carga y consulta documental')
!pip install langchain
!pip install pypdf
#!pip install PyPDF2
!pip install docx2txt
#!pip install python-docx
!pip install pinecone-client
!pip install huggingface_hub
!pip install sentence_transformers
print('instalaciones finalizadas')

In [None]:
print('iniciando instalaciones para carga y consulta del modelo')
!pip install bitsandbytes
!pip install accelerate
!pip install translate
import locale
locale.getpreferredencoding = lambda: "UTF-8" #necesario para googletrans
!pip install googletrans==4.0.0-rc1
print('instalaciones finalizadas')

# Paso 2: Importar las librerías necesarias

In [None]:
print('importando librerías para carga y consulta documental')
from langchain.document_loaders import PyPDFLoader, OnlinePDFLoader, TextLoader , Docx2txtLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter #, CharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Pinecone
import pinecone
import pandas as pd
import os
from sentence_transformers import SentenceTransformer
from datetime import date, time
import datetime
import shutil
#import PyPDF2
#from docx import Document

In [None]:
print('importando librerías para carga y consulta del modelo')
from langchain.chains.question_answering import load_qa_chain
from googletrans import Translator
from langchain import HuggingFacePipeline
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch
from torch import cuda, bfloat16

In [None]:
#from langchain.chains import ConversationalRetrievalChain
#from langchain.llms import CTransformers
#from langchain.memory import ConversationBufferMemory
#from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler

***
# PARTE 1. BASE DE DATOS VECTORIAL EN PINECONE Y SEGUIMIENTO DE CARGA DOCUMENTAL EN DF
***

# Paso 3. Conectar con Pinecone y configurar índice

In [None]:
pinecone.init(api_key='cfbb82d1-3577-464e-8d9b-01dbd85ddd95', environment='gcp-starter') # key de goup

In [None]:
index_name = 'langchain-pinecone-llama2'

In [None]:
# Create an index
if pinecone.list_indexes() == []:
  pinecone.create_index(name=index_name, dimension=384, metric='cosine')
pinecone.list_indexes()

['langchain-pinecone-llama2']

In [None]:
# Connect to the index
index = pinecone.Index(index_name=index_name)

# Paso 4. Definir modelo de embeddings y método de split

In [None]:
print('inicia descarga de modelo de embeddings de HuggingFace')
embeddings=HuggingFaceEmbeddings(model_name='sentence-transformers/all-MiniLM-L6-v2')
print('modelo descargado')

In [None]:
#model_name = 'sentence-transformers/all-MiniLM-L6-v2'
#embeddings = SentenceTransformer(model_name)

In [None]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000,
                                              chunk_overlap=200,
                                              length_function=len,
                                              #is_separator_regex = False,
                                              separators=['.\n\n', '.\n', '.', '\n\n', ',', ' ']
                                               )

# Paso 5: Cargar los datos en Pinecone (vectores) y en df (metadata)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
%cd '/content/drive/MyDrive/Llama2+Pinecone+Langchain'
%pwd

/content/drive/MyDrive/Llama2+Pinecone+Langchain


'/content/drive/MyDrive/Llama2+Pinecone+Langchain'

In [None]:
# Obtener la ruta actual
ruta_actual = os.getcwd()
ruta_actual

'/content/drive/MyDrive/Llama2+Pinecone+Langchain'

In [None]:
# Directorio que contiene los archivos
ruta_carga_documentos = os.path.join(ruta_actual, 'carga-documentos')
ruta_carga_documentos

'/content/drive/MyDrive/Llama2+Pinecone+Langchain/carga-documentos'

In [None]:
# Cargar el DataFrame si ya existe
if os.path.exists('documentos_df.csv'):
    df = pd.read_csv('documentos_df.csv')
else:
    # Si no existe, crea un DataFrame vacío
    df = pd.DataFrame(columns=['nombre', 'ruta', 'formato', 'texto', 'fecha', 'hora', 'usuario'])

# Crear un conjunto con los nombres de archivo ya cargados
archivos_cargados = set(df['nombre'])

# Recorrer los archivos en el directorio carga-documentos
for archivo in os.listdir(ruta_carga_documentos):
    if archivo.endswith((".txt", ".docx", ".pdf")): #, ".wav", ".mp4", ".csv"
        # Si el archivo no está cargado en el df, se extrae el texto y los metadatos, y se carga en una nueva fila
        if archivo not in archivos_cargados:
          ruta_completa = os.path.join(ruta_carga_documentos, archivo)
          if archivo.endswith(".txt"):
              formato = ".txt"
              loader = TextLoader(ruta_completa, autodetect_encoding=True)
          elif archivo.endswith(".docx"):
              formato = ".docx"
              loader = Docx2txtLoader(ruta_completa)
          elif archivo.endswith(".pdf"):
              formato = ".pdf"
              loader = PyPDFLoader(ruta_completa)
          else:
              formato = "Desconocido"

          # Metadatos
          fecha_carga = date.today()
          hora_carga = datetime.datetime.now().time()
          usuario_carga = 'SD'

          # Carga en Pinecone
          data = loader.load()
          docs=text_splitter.split_documents(data)
          for i in range(len(docs)):
                docs[i].page_content = docs[i].page_content.replace('\n', '')
          docsearch=Pinecone.from_texts([t.page_content for t in docs], embeddings, index_name=index_name)

          # Extracción de texto limpio (data es una lista de tuplas: [(page_content, metadata)])
          texto = ''
          for i in range(len(data)):
            texto += ' ' + data[i].page_content.replace('\n', ' ')

          # Agregar nueva fila al DataFrame
          nueva_fila = {'nombre': archivo,
                        'ruta': ruta_completa,
                        'formato': formato,
                        'texto': texto,
                        'fecha': fecha_carga,
                        'hora': hora_carga,
                        'usuario': usuario_carga}
          df2 = pd.DataFrame([nueva_fila])
          df = pd.concat([df, df2], ignore_index=True)

          # Mueve el archivo a carpeta documentos-cargados
          ruta_documentos_cargados = os.path.join(ruta_carga_documentos, 'documentos-cargados')
          shutil.move(ruta_completa, ruta_documentos_cargados)

        else:
          # El archivo ya ha sido cargado, eliminarlo del directorio carga-documentos
          ruta_completa = os.path.join(ruta_carga_documentos, archivo)
          os.remove(ruta_completa)

# Guardar el DataFrame en un archivo CSV
df.to_csv('documentos_df.csv', index=False)

In [None]:
df

Unnamed: 0,nombre,ruta,formato,texto,fecha,hora,usuario
0,Medida_cautelar.pdf,/content/drive/MyDrive/Llama2+Pinecone+Langcha...,.pdf,"3/10/23, 08:03 Sín título 200.70.33.133/cmoex...",2023-10-16,02:26:28.767345,SD
1,valores_carta_documento.docx,/content/drive/MyDrive/Llama2+Pinecone+Langcha...,.docx,Valores vigentes para el envío de Carta Docum...,2023-10-16,02:26:39.788105,SD
2,FALLO DIGITAL A. 642. XLVI. ORI.pdf,/content/drive/MyDrive/Llama2+Pinecone+Langcha...,.pdf,CSJ 642/2010 (46 -A)/CS1 ORIGINARIO...,2023-10-16,02:26:42.153916,SD
3,FALLO CSJ 483_2018.pdf,/content/drive/MyDrive/Llama2+Pinecone+Langcha...,.pdf,CSJ 483/2018 ORIGINARIO Holcim (A...,2023-10-16,02:26:45.609983,SD
4,1_HéctorÁvila.txt,/content/drive/MyDrive/Llama2+Pinecone+Langcha...,.txt,Nombre: Héctor Ávila About: Profesional con...,2023-10-16,02:26:47.826991,SD
5,2_NoeliaLeón.txt,/content/drive/MyDrive/Llama2+Pinecone+Langcha...,.txt,Nombre: Noelia León About: Profesional con ...,2023-10-16,02:26:49.403105,SD
6,3_DavidOlivares.txt,/content/drive/MyDrive/Llama2+Pinecone+Langcha...,.txt,Nombre: David Olivares About: Profesional c...,2023-10-16,02:26:51.019820,SD


# Paso 6: Consultar Base de Datos Vectorial Pinecone

In [None]:
pinecone.list_indexes()

['langchain-pinecone-llama2']

En caso de querer traer los vectores desde un índice de Pinecone existente:

In [None]:
docsearch = Pinecone.from_existing_index(index_name, embeddings)

***
# PARTE 2. CONSULTA DE LA BASE DE DATOS A TRAVÉS DEL MODELO LLAMA 2
***

# Paso 9: Consultar los documentos en dos pasos:
* 1) Buscar similitud entre Query y Documentos para seleccionar los k documentos más pertinentes
* 2) Obtener la respuesta a la consulta, utilizando modelo Llama 2, basándose en la información obtenida de los k documentos seleccionados

Autentificación en HuggingFace

In [None]:
from huggingface_hub import notebook_login
#'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'
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

# Paso 10. Cuantización y descarga del modelo Llama 2

Configuración de cuantificación para utilizar llm con menos memoria de GPU. Utiliza biblioteca `bitsandbytes`

In [None]:
device = f'cuda:{cuda.current_device()}' if cuda.is_available() else 'cpu'

bnb_config = transformers.BitsAndBytesConfig(
     load_in_4bit=True,
     bnb_4bit_quant_type='nf4',
     bnb_4bit_use_double_quant=True,
     bnb_4bit_compute_dtype=bfloat16
     )

In [None]:
model_id = "meta-llama/Llama-2-7b-chat-hf"

In [None]:
tokenizer = AutoTokenizer.from_pretrained(model_id,
                                          use_auth_token=True,)

model = AutoModelForCausalLM.from_pretrained(model_id,
                                            device_map='auto',
                                             torch_dtype=torch.bfloat16,
                                             use_auth_token=True,
                                             local_files_only=False,
                                             quantization_config=bnb_config,
                                             trust_remote_code=True
                                            #cache_dir="model/"
                                            )

In [None]:
pipe = pipeline("text-generation",
            model=model,
            tokenizer= tokenizer,
            #torch_dtype=torch.bfloat16,
            #device_map="auto",
            max_new_tokens = 4096,
            #do_sample=True,
            #top_k=30,
            #num_return_sequences=1,
            #eos_token_id=tokenizer.eos_token_id
            )
llm = HuggingFacePipeline(pipeline = pipe, model_kwargs = {'temperature':0.02})

# Paso 11. Ejecución con Pinecone

## Ejemplo 1

In [None]:
chain=load_qa_chain(llm, chain_type="stuff")

In [None]:
query='¿en qué consiste la demanda contra la Provincia de San Luis?'
docs=docsearch.similarity_search(query, k=4)


In [None]:
answer = chain.run(input_documents=docs, question=query)

In [None]:
translator = Translator()
translation = translator.translate(answer, src='en', dest='es')
answer =translation.text
answer

'La demanda presentada por la administración de Parques Nacionales contra la provincia de San Luis busca declarar la inconstitucionalidad de la ley local V -0721-2010, que fue promulgada por el decreto ejecutivo provincial 1520 -MgJyc -2010 y declarado de utilidad pública y asuntoPara expropiar los derechos previamente cedidos por la provincia al ciudadano estatal sobre las propiedades inmuebles afectadas, con el objetivo de restaurarlos a sus propietarios originales y ancestrales, el pueblo nación Huarpe de San Luis, para la preservación y gestión sostenible de esa región.'

In [None]:
print('basado en los fragmentos:')
docs

basado en los fragmentos:


[Document(page_content='.499 y 18 y subsiguientes de la Ley General de Expropiaciones de la Provincia de San Luis V -0128-2004 (5497).     II) A fs. 446/449 del incidente sobre medida cautelar (CSJ 642/2010  (46-A)/CS1/IN9) se declaró la competencia originaria de esta Corte para entender en el caso, se admitió la prohibición de innovar requerida en forma previa a la promoción de la demanda, y,  en ese marco, se le ordenó a la Provincia de San Luis que se abstenga de ejecutar la ley local V -0721-2010 y toda otra disposición dictada en consecuencia, y de llevar a cabo actos que alteren la situación anterior a la sanción de esa norma. Asimismo, se ordenó la acumulación a este proceso de los autos caratulados “Gobierno de la Provincia de San Luis c/ Estado Nacional – Administración de Parques Nacionales s/'),
 Document(page_content='. 747/2010) ante el Juzgado Federal de la ciudad de San Luis, y describe las actuaciones llevadas a cabo en ese proceso.    Aduce que la esc rituración pendie

## Ejemplo 2

In [None]:
query='¿Quiénes integran el juzgado de primera instancia 6, y con qué cargos?'
docs=docsearch.similarity_search(query, k=2)
answer = chain.run(input_documents=docs, question=query)
translator = Translator()
translation = translator.translate(answer, src='en', dest='es')
answer = translation.text
answer

'La respuesta a esta pregunta se puede encontrar en el último párrafo del texto, donde se afirma que "iv) A fs. 224/228 SE presente Comunidad Huarpe de Guanacache A los efectos de ser tenida por parte en el proceso en los términosDel Artículo 90, Inciso 1 °, Del Código Procesal civil y Comercial de la Nacia ".Por lo tanto, los jueces de la Primera Instancia 6 son los miembros de la Comunidad Huarpe de Guanacache.'

In [None]:
print('basado en los fragmentos:')
docs

basado en los fragmentos:


[Document(page_content='- 26 - y en él funciona un establecimiento de utilidad nacional. Ello es así pues en virtud de las previsiones contenidas en el artículo 75, inciso 5° de la Ley Fundamental, es facultad del Congreso de la Nación disponer del uso y de la enajenación de tierras de propiedad nacional (Fallos: 276:104; 323:4046 y 327:429).    14) Que las consideraciones precedentes son suficientes para resolver el caso y tornan innecesario el tratamiento de los restantes argumen tos expuestos por las partes.  Por ello, y habiendo dictaminado la señora Procuradora General de la Nación, se resuelve: I. Hacer lugar a la demanda entablada por la Administración de Parques Nacionales y, en consecuencia, declarar la inconstitucionalidad de la ley V -0721-2010 de la Provincia de San Luis. II'),
 Document(page_content='. Agrega que el derecho a la posesión y propiedad comunitaria reviste una importancia fundamental, no solo por el significado que tiene la tierra para las culturas indígenas, 

## Ejemplo 3

In [None]:
query='¿qué artículo quiere declarar inconstitucional Holcim (Argentina) S.A.?'
docs=docsearch.similarity_search(query, k=4)
answer = chain.run(input_documents=docs, question=query)
translator = Translator()
translation = translator.translate(answer, src='en', dest='es')
answer = translation.text
answer

'Holcim (Argentina) S.A. quiere declarar el arte.124 de la Constitución Argentina, que establece que las provincias tienen derecho al dominio original de los recursos naturales ubicados dentro de su territorio, así como el marco legal correspondiente, incluida la Ley 26197, que modifica el arte.1 de la ley 17.319, inconstitucional.La compañía argumenta que este artículo y el marco legal establecido por él son incompatibles con el principio de igualdad y no discriminación, así como con el derecho a la propiedad y el derecho al disfrute y el ejercicio de los derechos reconocidos por la Constitución y los tratados internacionales.'

In [None]:
print('basado en los fragmentos:')
docs

basado en los fragmentos:


[Document(page_content='CSJ 483/2018  ORIGINARIO  Holcim (Argentina) S.A. c/ Neuquén, Provincia del s/  acción  declarativa de certeza.  Corte Suprema de Justicia de la Nación       - 7 - (artículo 68, Código Procesal Civil y Comercial de la Nación). Notifíquese, comuníquese esta decisión a la Procuración General de la Nación y, oportunamente, archívese.'),
 Document(page_content='.Por ello es que conviene comenzar señalando que haquedado consentido por las partes intervinientes queestamos en presencia de la explotación de recursosnaturales existentes y comprendidos en el dominiooriginario de las provincias, conforme los arts. 124 dela Constitución Nacional: (“...Corresponde a lasprovincias el dominio originario de los recursosnaturales existentes en su territorio." ) y alcanzadospor la Ley Nacional Nº 26197 que modifica el art. 1º dela Ley 17.319 (“Los yacimientos de hidrocarburoslíquidos y gaseosos situados en el territorio de laRepública Argentina y en su plataforma continentalperte