<a href="https://colab.research.google.com/github/Erfan-ram/Deep-ML-Doc/blob/main/ollama_setup.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Run Ollama in Colab
---

[![5aharsh/collama](https://raw.githubusercontent.com/5aharsh/collama/main/assets/banner.png)](https://github.com/5aharsh/collama)

This is an example notebook which demonstrates how to run Ollama inside a Colab instance. With this you can run pretty much any small to medium sized models offerred by Ollama for free.

For the list of available models check [models being offerred by Ollama](https://ollama.com/library).


## Before you proceed
---

Since by default the runtime type of Colab instance is CPU based, in order to use LLM models make sure to change your runtime type to T4 GPU (or better if you're a paid Colab user). This can be done by going to **Runtime > Change runtime type**.

While running your script be mindful of the resources you're using. This can be tracked at **Runtime > View resources**.

## Running the notebook
---

After configuring the runtime just run it with **Runtime > Run all**. And you can start tinkering around. This example uses [Llama 3.2](https://ollama.com/library/llama3.2) to generate a response from a prompted question using [LangChain Ollama Integration](https://python.langchain.com/docs/integrations/chat/ollama/).

## Installing Dependencies
---

1. `pciutils` is required by Ollama to detect the GPU type.
2. Installation of Ollama in the runtime instance will be taken care by `curl -fsSL https://ollama.com/install.sh | sh`




In [1]:
!sudo apt update
!sudo apt install -y pciutils
!curl -fsSL https://ollama.com/install.sh | sh

Hit:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
Get:2 http://security.ubuntu.com/ubuntu jammy-security InRelease [129 kB]
Get:3 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,632 B]
Hit:4 http://archive.ubuntu.com/ubuntu jammy InRelease
Get:5 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [128 kB]
Get:6 https://r2u.stat.illinois.edu/ubuntu jammy InRelease [6,555 B]
Hit:7 http://archive.ubuntu.com/ubuntu jammy-backports InRelease
Hit:8 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Get:9 https://r2u.stat.illinois.edu/ubuntu jammy/main amd64 Packages [2,688 kB]
Hit:10 https://ppa.launchpadcontent.net/graphics-drivers/ppa/ubuntu jammy InRelease
Get:11 http://security.ubuntu.com/ubuntu jammy-security/main amd64 Packages [2,788 kB]
Hit:12 https://ppa.launchpadcontent.net/ubuntugis/ppa/ubuntu jammy InRelease
Get:13 http://archive.ubuntu.com/ubuntu jammy-updates/main amd64 Packages [3,099 kB

## Running Ollama
---

In order to use Ollama it needs to run as a service in background parallel to your scripts. Becasue Jupyter Notebooks is built to run code blocks in sequence this make it difficult to run two blocks at the same time. As a workaround we will create a service using subprocess in Python so it doesn't block any cell from running.

Service can be started by command `ollama serve`.

`time.sleep(5)` adds some delay to get the Ollama service up before downloading the model.

In [50]:
import threading
import subprocess
import time

def run_ollama_serve():
  subprocess.Popen(["ollama", "serve"])

thread = threading.Thread(target=run_ollama_serve)
thread.start()
time.sleep(5)

## Pulling Model
---

Download the LLM model using `ollama pull llama3.2`.

For other models check https://ollama.com/library

In [None]:
!ollama pull llama3.2:1b

In [None]:
!ollama pull llama3.2

In [None]:
!ollama pull deepseek-r1:8b


In [None]:
!ollama pull llama3.1:8b



In [None]:
!ollama pull mistral

In [None]:
!ollama pull phi4

In [None]:
!ollama pull gemma3:4b

## And that's it!
---

With this you should be able to freely play around with the models in your scripts. Following is an example using `langchain-ollama` to answer a simple prompt.

If you have a use-case that can help out others feel free to add your notebook to [Collama](https://github.com/5aharsh/collama/fork)

In [None]:
!pip install langchain-ollama

In [54]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_ollama.llms import OllamaLLM
from IPython.display import Markdown

template = """Question: {question}

Answer: Let's think step by step."""

prompt = ChatPromptTemplate.from_template(template)

# model = OllamaLLM(model="deepseek-r1:8b")
# model = OllamaLLM(model="llama3.1:8b")
# model = OllamaLLM(model="gemma3:4b")
# model = OllamaLLM(model="mistral")


# model = OllamaLLM(model="llama3.2")
# https://www.youtube.com/watch?v=3tkmnItNXJM

# model = OllamaLLM(model="deepseek-r1:7b")
# model = OllamaLLM(model="phi4")

from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
# from langchain.llms import OllamaLLM  # Adjust the import if necessary

# Set up the model with streaming enabled
model = OllamaLLM(
    model="gemma3:4b",
    callbacks=[StreamingStdOutCallbackHandler()],
    streaming=True
)


chain = prompt | model

# display(Markdown(chain.invoke({"question": "hi could you generate me a story about a person whos name is yosef and he live in iran . he is 21 years old and he study computer enginearing"})))
chain.invoke({"question": "یک داستان در مورد یک پسر 15 ساله که در تهران زندگی میکند بهم بگو که باشد به زبان فارسی"})
chain.invoke({"question": "خداوند کیست ؟ به زبان فارسی"})
# display(Markdown(chain.invoke({"question": "تهران در کجا قرار دارد ؟ . کمی درباره تهران بهم بگو. شیعه چیست . 10 خط درباره آن توضیح بده"})))


Okay, let’s craft a story about a 15-year-old boy living in Tehran. Here's a draft, aiming for a natural and engaging tone:

---

**عنوان: دود و ستاره‌ها**

آرش، پانزده سالش بود و زندگی‌اش مثل خیابون‌های شلوغ و پر دود تهران، پر از صدا و اتفاق بود. خونه‌اش تو محله‌ای قدیمی‌تر، نزدیک بازارِ قیچی، بود. بوی ادویه، روغن زیتون و قهوه، همه‌شون توی خونش پیچیده بود و با بوی بارونِ شب، یه جور حس خاصی بهش می‌داد.

آرش بیشتر وقت‌‌ها تو کافه کنار خونه‌اش، "قهوه دلتنگی"، می‌خوند یا با دوستاش حرف می‌زد. دوستاش هم مثل خودش، بچه‌هاییِ بی‌خیال و سرگردون، بودند که روی مسائلِ زندگی به seriousness فکر نمی‌کردند. بعضی‌شون تو مدرسه فوتبال بازی می‌کردن، بعضی‌‌ها تو نقاشی وقت می‌گذروندن و بعضی‌ها هم فقط دنبالِ یه کم تفریح و خوش گذرونی بودند.

اما آرش، یه چیزی تو دلش داشت که نمی‌دونست چیه. یه حسِ شکسته بودن، یه چیزی که داشت اون رو به سمت یه چیزیِ دیگه می‌کشید. این حس، مخصوصا وقتی که به آسمونِ تاریکِ تهران نگاه می‌کرد، قوی‌تر می‌شد.  از پشتِ دودِ بلند و ستون‌های بلندِ شهر، ستاره‌ها می‌زدن در رو بهش.  یه جورایی، 

'خداوند، به طور کلی، اشاره به خدای یکتا در ادیان ابراهیمی (یهودیت، مسیحیت و اسلام) است. این کلمه به معنای "خداوند" یا "آفریننده" است و به جای خدا (که نامی برای خداست) به عنوان یک عنوان یا نام\u200cگذاری برای او استفاده می\u200cشود.\n\nبه طور خلاصه، خداوند به معنای **خدا** است، خدای یکتا و خالق جهان.\n'

In [51]:
!ollama ps

NAME    ID    SIZE    PROCESSOR    UNTIL 


In [39]:
!ollama stop llama3.2:latest

[?25l[?2026h[?25l[1G[K[?25h[?2026l[2K[1G[?25h

In [53]:
!ollama stop mistral

[?25l[?2026h[?25l[1G[K[?25h[?2026l[2K[1G[?25h

In [None]:
!ollama stop llama3.1:8b