# Inferencia con LLamaCpp

## Instalación de paquetes de python

In [None]:
!pip install  prompttools typing sentence-transformers

# Instalación de llama-cpp-python

In [4]:
!CMAKE_ARGS="-DLLAMA_AVX=on -DLLAMA_AVX2=on -DLLAMA_F16C=on -DLLAMA_FMA=on" .venv/bin/pip install llama-cpp-python --upgrade --force-reinstall --no-cache-dir

#!CMAKE_ARGS="-DLLAMA_CUDA=on" .venv/bin/pip install llama-cpp-python --force-reinstall --no-cache-dir --upgrade --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu123

Collecting llama-cpp-python
  Downloading llama_cpp_python-0.2.78.tar.gz (50.2 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.2/50.2 MB[0m [31m115.4 MB/s[0m eta [36m0:00:00[0m1m115.7 MB/s[0m eta [36m0:00:01[0m
[?25h  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Installing backend dependencies ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
[?25hCollecting typing-extensions>=4.5.0 (from llama-cpp-python)
  Downloading typing_extensions-4.12.2-py3-none-any.whl.metadata (3.0 kB)
Collecting numpy>=1.20.0 (from llama-cpp-python)
  Downloading numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.0/61.0 kB[0m [31m357.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting diskcache>=5.6.1 (from llama-cpp-python)
  Downloading diskcache-5.6.3-py3-no

## Importamos `prompttools` y los modulos de **typings**

In [None]:
from typing import Dict, List, Tuple
from prompttools.experiment import LlamaCppExperiment

# Descargamos los modelos cuantizados para usar con llama-cpp

[Referencia de tipos de cuantización empleados en llama.cpp y cómo distinguirlos](https://github.com/ggerganov/llama.cpp/wiki/Tensor-Encoding-Schemes)

In [None]:
!mkdir -p models
!curl -sSLk https://huggingface.co/TheBloke/LLaMa-7B-GGML/blob/main/llama-7b.ggmlv3.q2_K.bin -O --output-dir models
!curl -sSLk https://huggingface.co/TheBloke/Llama-2-7B-GGML/blob/main/llama-2-7b.ggmlv3.q2_K.bin -O --output-dir models

> OJO! ¿Lo hemos descargado bien? ;-) Miremos...

In [None]:
!ls -lh models/llama*
!file models/llama-2-7b.ggmlv3.q2_K.bin
!file models/llama-2-7b.ggmlv3.q2_K.bin


Cuidado con las descargas directas de HF...

In [None]:
!pwd

En la carpeta **models**/buenos/** , hemos descargado directamente los modelos adecuados.

- [TheBloke - LLama-7b GGUF](https://huggingface.co/TheBloke/LLaMA-7b-GGUF/tree/main)
- [TheBloke - LLama-2-7b GGUF](https://huggingface.co/TheBloke/Llama-2-7B-GGUF)


Si quieres saber que es el formato GGUF, que se emplea con llama.cpp, mira [este artículo](https://vickiboykis.com/2024/02/28/gguf-the-long-way-around/).

Y ojo con los modelos que cargas. Mira este [vídeo explicativo](https://youtu.be/2ethDz9KnLk) sobre el tema.

Ahora crearemos nuestros prompts a comparar así como la configuración de los modelos que queremos comparar y el parámetro de la temperatura.

[LlamaCppExperiment](https://github.com/hegelai/prompttools/blob/main/prompttools/experiment/experiments/llama_cpp_experiment.py)

In [None]:
model_paths = [
    "/home/guachu/Desktop/practica/inferencia_con_llamacpp/models/buenos/llama-7b.Q2_K.gguf",  
    "/home/guachu/Desktop/practica/inferencia_con_llamacpp/models/buenos/llama-2-7b.Q2_K.gguf",
]  
prompts = [
    "Who was the first president?",
    "Who was the first president of the USA?",
]
temperatures = [0.0, 1.0]
max_tokens = [20]


call_params = dict(temperature=temperatures,max_tokens=max_tokens)

experiment = LlamaCppExperiment(model_paths, prompts, call_params=call_params)

Ejecutamos el experimento una vez que lo hemos configurado

In [None]:
experiment.run()

## Evaluación de los modelos

Definimos una función de evaluación. En este caso, la de similaridad semántica


In [None]:
from prompttools.utils import semantic_similarity

In [None]:
experiment.evaluate("similar_to_expected", semantic_similarity, expected=["George Washington"] * 8)

Finalmente, visualizamos el resultado del experimento


In [None]:
experiment.visualize()