Skip to content

ManzDev/shama

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 

Repository files navigation

SHAMA

Shama es un simple wrapper que hace más legible y sencillo el uso de llama.cpp desde una terminal. Simplemente destaca los detalles importantes, busca los modelos en tu carpeta local y actualiza la configuración para configurarlos en opencode.

El objetivo de este script es montar un sistema de Inteligencia Artificial de modo que puedas utilizarlo en local para desarrollar mediante opencode (u otro agente) si tienes una buena tarjeta gráfica y recursos de hardware.

$ shama

███████╗██╗  ██╗ █████╗ ███╗   ███╗ █████╗
██╔════╝██║  ██║██╔══██╗████╗ ████║██╔══██╗
███████╗███████║███████║██╔████╔██║███████║
╚════██║██╔══██║██╔══██║██║╚██╔╝██║██╔══██║
███████║██║  ██║██║  ██║██║ ╚═╝ ██║██║  ██║
╚══════╝╚═╝  ╚═╝╚═╝  ╚═╝╚═╝     ╚═╝╚═╝  ╚═╝

Modelos disponibles:

  1. gemma4-26b-a4b-q2-kxl.gguf (10.55 GB)
  2. gemma4-e2b-it-q4xl.gguf (3.17 GB)
  3. gemma4-e4b-it-q8.gguf (8.19 GB)
  4. lfm2.5-350m-q8.gguf (0.45 GB)
  5. nvidia-nemotron3-nano-4b-q4.gguf (2.84 GB)
  6. qwen3.5-27b-ud-iq2-xxs.gguf (8.57 GB)
  7. qwen3.5-9b-iq4-nl.gguf (5.37 GB)
  8. qwen3.6-27b-ud-iq2-xxs.gguf (9.39 GB)
  9. qwen3.6-35b-a3b-iq2_xxs.gguf (10.76 GB)
  0. Salir

Elige un modelo [1-9]:

Requisitos

Antes de empezar, necesitas tener el software instalado en tu sistema, para asi poder utilizar llama.cpp en WSL2 o en Docker, compartiendo la GPU del anfitrión:

Instalación de llama.cpp

Con esto, compilas llama.cpp específicamente para tu hardware y así conseguir el mejor rendimiento. En esta configuración lo hace con CUDA (nvidia). Si necesitas otro, echa un vistazo a docs:

sudo apt install git build-essential cmake libssl-dev wget jq
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j 8

Una vez compilado, los archivos se habrán generado en build/bin. Para instalarlos puedes hacer lo siguiente:

sudo install -Dm755 build/bin/* /usr/local/bin/
sudo install -Dm644 build/bin/*.so /usr/local/lib/
sudo ldconfig

Ahora, simplemente escribiendo llama-server --version deberías ver algo similar a esto (pero con tu hardware):

ggml_cuda_init: found 1 CUDA devices (Total VRAM: 12287 MiB):
  Device 0: NVIDIA GeForce RTX 3060, compute capability 8.6, VMM: yes, VRAM: 12287 MiB
version: 8931 (9725a313b)
built with GNU 14.2.0 for Linux x86_64

Descarga de modelos

En huggingface tienes muchísimos repositorios de modelos de inteligencia artificial para utilizar. Te recomiendo especialmente los de UnSloth.

Descarga los modelos .gguf que necesites y guardalos en la carpeta ~/.models/gguf. El script shama los buscará ahí (o donde tu configures).

Instalación de shama

El fichero shama de este repo es un wrapper/script para que sea más sencillo trabajar con llama. Simplemente nos descargamos el fichero y lo instalamos en nuestro sistema:

cp shama /usr/local/bin/
chmod +x /usr/local/bin/shama

Asegúrate de tener un fichero de configuración de opencode, generalmente en ~/.config/opencode/opencode.json:

{
  "$schema": "https://opencode.ai/config.json",
  "model": "llamacpp/qwen3.6-35b-a3b-iq2_xss",
  "provider": {
    "llamacpp": {
      "models": {
      },
      "name": "Llama.cpp",
      "npm": "@ai-sdk/openai-compatible",
      "options": {
        "baseURL": "http://127.0.0.1:8999/v1"
      }
    }
  }
}

Observa que model es el modelo que quieres que salga por defecto, en este caso añadimos Qwen 3.6 35B A3B, que es el mostrado en este video. Luego, asegúrate de tener el puerto correcto ( :8999 ) en baseURL, por si lo has cambiado en el script shama.

Más información:

About

Local Llama.cpp + opencode for development

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors