RAG Studio (Private-by-Default)

A local Retrieval-Augmented Generation (RAG) app with:

CLI query (rag.py)
Browser UI via FastAPI (web_app.py)
Streamlit UI (streamlit_app.py)

It uses:

ChromaDB for vector search
SentenceTransformers embeddings
Local Llama GGUF (llama-cpp-python) or OpenAI for generation

Project layout

resources/documents/ - your source files (.txt, .md, .pdf)
resources/public_demo/ - safe sample docs used for Streamlit public demo bootstrap
resources/document_catalog.json - auto-generated catalog (ignored by git)
resources/DOCUMENT_INDEX.md - auto-generated markdown index (ignored by git)
chroma_db/ - vector index (ignored by git)

Quick start (local)

cd RAG
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements_local.txt

Add documents to resources/documents/, then index:

python ingest.py

Ask from CLI:

python rag.py "What is time series forecasting?"

Run UIs

FastAPI web UI:

python web_app.py

Open http://127.0.0.1:8765.

Streamlit UI:

streamlit run streamlit_app.py

Streamlit Cloud deployment

Use streamlit_app.py as the app entry point. This repo includes:

requirements.txt (cloud-safe, faster deploy)
requirements_local.txt (full local stack: FastAPI + local Llama)
runtime.txt pinned to Python 3.11 for dependency compatibility.

Recommended public-demo environment/secrets:

PUBLIC_DEMO_MODE=1
AUTO_BOOTSTRAP_DEMO=1 (auto-ingest resources/public_demo/ when catalog is empty)
SHOW_DOC_METADATA=0
ALLOW_USER_UPLOAD=0
ALLOW_USER_REINDEX=0

These defaults prevent exposing document names, chunks, and write operations in public demos.

If using OpenAI:

set OPENAI_API_KEY in Streamlit secrets.

Privacy notes

.gitignore excludes private docs and generated indexes:
- resources/documents/* (except .gitkeep)
- resources/document_catalog.json
- resources/DOCUMENT_INDEX.md
- .env
- .streamlit/secrets.toml
Keep private files only on your local machine or private storage.

Optional local Llama model

Download default GGUF:

python download_llm.py

Then query with local backend (default) or set LLM_BACKEND=openai for cloud model.

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
data		data
resources		resources
web/static		web/static
.env.example		.env.example
.gitignore		.gitignore
README.md		README.md
catalog.py		catalog.py
download_llm.py		download_llm.py
ingest.py		ingest.py
rag.py		rag.py
rag_common.py		rag_common.py
rag_core.py		rag_core.py
requirements.txt		requirements.txt
requirements_local.txt		requirements_local.txt
run.sh		run.sh
runtime.txt		runtime.txt
streamlit_app.py		streamlit_app.py
web_app.py		web_app.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

RAG Studio (Private-by-Default)

Project layout

Quick start (local)

Run UIs

Streamlit Cloud deployment

Privacy notes

Optional local Llama model

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

RAG Studio (Private-by-Default)

Project layout

Quick start (local)

Run UIs

Streamlit Cloud deployment

Privacy notes

Optional local Llama model

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages