In [1]:
%pip install llama-index-llms-huggingface
!pip install llama-index
!pip install transformers accelerate bitsandbytes
!pip install llama-index-embeddings-huggingface

Collecting llama-index-llms-huggingface
  Downloading llama_index_llms_huggingface-0.1.1-py3-none-any.whl (7.4 kB)
Collecting llama-index-core<0.11.0,>=0.10.1 (from llama-index-llms-huggingface)
  Downloading llama_index_core-0.10.5-py3-none-any.whl (631 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m631.0/631.0 kB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting torch<3.0.0,>=2.1.2 (from llama-index-llms-huggingface)
  Downloading torch-2.2.0-cp310-cp310-manylinux1_x86_64.whl (755.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m755.5/755.5 MB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting transformers[torch]<5.0.0,>=4.37.0 (from llama-index-llms-huggingface)
  Downloading transformers-4.37.2-py3-none-any.whl (8.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.4/8.4 MB[0m [31m91.2 MB/s[0m eta [36m0:00:00[0m
Collecting dataclasses-json (from llama-index-core<0.11.0,>=0.10.1->llama-index-llms-h

In [3]:
from llama_index.core import SimpleDirectoryReader

documents = SimpleDirectoryReader("dataPrueba").load_data()

[nltk_data] Downloading package stopwords to
[nltk_data]     /usr/local/lib/python3.10/dist-
[nltk_data]     packages/llama_index/core/_static/nltk_cache...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to
[nltk_data]     /usr/local/lib/python3.10/dist-
[nltk_data]     packages/llama_index/core/_static/nltk_cache...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [12]:
import torch
from transformers import BitsAndBytesConfig
from llama_index.core import PromptTemplate
from llama_index.llms.huggingface import HuggingFaceLLM

quantization_config = BitsAndBytesConfig( # configuración de cuantificación del modelo -> reduce tamaño y aumenta velocidad
    load_in_4bit=True,                    # carga el modelo en formato 4bits
    bnb_4bit_compute_dtype=torch.float16, # más configuraciones relacionadas con eso
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
)

llm = HuggingFaceLLM(                                                             # se carga mistral desde hugging face
    model_name="mistralai/Mistral-7B-Instruct-v0.1",                              # modelo
    tokenizer_name="mistralai/Mistral-7B-Instruct-v0.1",                          # tokenizador
    query_wrapper_prompt=PromptTemplate("<s>[INST] {query_str} [/INST] </s>\n"),  # plantilla para envolver las consultas al modelo, lo que ayuda a guiar al modelo para responder de una manera específica
    context_window=3900,                                                          # tamaño máximo de la ventana de contexto que el modelo puede considerar para cada predicción
    max_new_tokens=256,                                                           # tokens que el modelo puede generar
    model_kwargs={"quantization_config": quantization_config},                    # configuración de cuantificación
    generate_kwargs={"temperature": 0.2, "top_k": 5, "top_p": 0.95},              # parámetros para la generación de texto
    device_map="auto",                                                            # el modelo se distribuye automaticamente entre los dispositivos disponibles
    system_prompt="Always respond in Spanish."                                    # prompt para que conteste en español
)

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [13]:
from llama_index.core import ServiceContext

service_context = ServiceContext.from_defaults(llm=llm, embed_model="local:BAAI/bge-small-en-v1.5")

  service_context = ServiceContext.from_defaults(llm=llm, embed_model="local:BAAI/bge-small-en-v1.5")


In [14]:
from llama_index.core import VectorStoreIndex

vector_index = VectorStoreIndex.from_documents(documents, service_context=service_context)

In [15]:
from llama_index.core.response.notebook_utils import display_response

In [16]:
import logging
import sys

logging.basicConfig(stream=sys.stdout, level=logging.INFO)
logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))

In [17]:
query_engine = vector_index.as_query_engine(response_mode="compact")

response = query_engine.query("¿Cuál es la misión de las fuerzas armadas?")

display_response(response)

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


**`Final Response:`** The mission of the armed forces is to ensure the sovereignty and independence of Spain, defend its territorial integrity, and uphold the constitutional order.

In [18]:
query_engine = vector_index.as_query_engine(response_mode="refine")

response = query_engine.query("¿Cuál es la misión de las fuerzas armadas?")

display_response(response)

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


**`Final Response:`** La misión de las Fuerzas Armadas es garantizar la soberanía e independencia de España, defender su integridad territorial y el ordenamiento constitucional. Además, las fuerzas armadas tienen la responsabilidad de defender la patria y sus intereses nacionales, tanto en el ámbito nacional como internacional. Ellas también tienen la misión de garantizar la seguridad y la protección de la población civil y de los recursos naturales del país.

In [19]:
query_engine = vector_index.as_query_engine(response_mode="compact")

response = query_engine.query("¿Cuál es la capital de España?")

display_response(response)

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


**`Final Response:`** The capital of Spain is Madrid.

In [20]:
query_engine = vector_index.as_query_engine(response_mode="refine")

response = query_engine.query("¿Cuál es la capital de España?")

display_response(response)

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


**`Final Response:`** La capital de España es la villa de Madrid. Además, según el artículo 61 de la Constitución española, el Rey, al ser proclamado ante las Cortes Generales, prestará juramento de desempeñar fielmente sus funciones, guardar y hacer guardar la Constitución y las leyes y respetar los derechos de los ciudadanos y de las Comunidades Autónomas. El Rey también tiene la facultad de sancionar y promulgar las leyes, convocar y disolver las Cortes Generales y convocar elecciones en los términos previstos en la Constitución, entre otras funciones.