# üìö RAG Wissensdatenbank mit Confluence Support

Dieses Notebook installiert und startet die RAG Wissensdatenbank mit √∂ffentlichem Zugang √ºber Cloudflare Tunnel.

## Voraussetzungen
- **OpenAI API Key** als Colab Secret (Name: `OPENAI_API_KEY`)

### Secret einrichten
1. Links auf das üîë Symbol klicken
2. "Neues Secret hinzuf√ºgen"
3. Name: `OPENAI_API_KEY`, Wert: Ihr API Key
4. "Notebook-Zugriff" aktivieren

### Confluence einrichten (nur Confluence Cloud!)
1. üëâ https://id.atlassian.com/manage-profile/security/api-tokens
2. Klicken Sie auf "Create API token"
3. Vergeben Sie einen Namen f√ºr den Token (z.B. "Wissensdatenbank")
4. Klicken Sie auf "Create"
5. Kopieren Sie das Token sofort (wird nur einmal angezeigt!)
6. Tragen Sie das Token in der App im Tab Confluence ein


## 1Ô∏è‚É£ Repository klonen

In [1]:
!git clone https://github.com/janschachtschabel/simple-document-rag.git
%cd simple-document-rag

Cloning into 'simple-document-rag'...
remote: Enumerating objects: 84, done.[K
remote: Counting objects: 100% (84/84), done.[K
remote: Compressing objects: 100% (59/59), done.[K
remote: Total 84 (delta 48), reused 57 (delta 24), pack-reused 0 (from 0)[K
Receiving objects: 100% (84/84), 91.82 KiB | 2.35 MiB/s, done.
Resolving deltas: 100% (48/48), done.
/content/simple-document-rag


## 2Ô∏è‚É£ Abh√§ngigkeiten installieren

In [None]:
!pip install fastapi
!pip install uvicorn
!pip install openai
!pip install sentence-transformers
!pip install chromadb
!pip install python-multipart
!pip install jinja2
!pip install aiofiles
!pip install pydantic
!pip install numpy
!pip install pandas
!pip install python-dotenv
!pip install langchain
!pip install langchain-openai
!pip install tiktoken
!pip install beautifulsoup4
!pip install langchain-community
!pip install atlassian-python-api
!pip install streamlit
!pip install rank-bm25
!pip install langgraph>=0.2.0
!pip install langchain-core>=0.3.0
!pip install markitdown[all]



In [None]:
# Cloudflare Tunnel installieren
!wget -q https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64.deb
!sudo dpkg -i cloudflared-linux-amd64.deb

## 3Ô∏è‚É£ API Key laden und Modelle konfigurieren

In [None]:
import os
from google.colab import userdata

# API Key aus Colab Secrets laden
try:
    os.environ["OPENAI_API_KEY"] = userdata.get('OPENAI_API_KEY')
    print("‚úÖ OpenAI API Key geladen")
except Exception as e:
    print("‚ùå Secret 'OPENAI_API_KEY' nicht gefunden!")
    print("   üîë Symbol links ‚Üí Neues Secret ‚Üí OPENAI_API_KEY")
    raise e

# Modelle (hier anpassen falls gew√ºnscht)
OPENAI_MODEL = "gpt-5-mini"
EMBEDDING_MODEL = "text-embedding-3-small"
REASONING_EFFORT = "low"
VERBOSITY = "high"
MAX_WORKERS = "20" # Max parallel LLM calls (OpenAI Tier-1: ~500 RPM)

os.environ["OPENAI_MODEL"] = OPENAI_MODEL
os.environ["EMBEDDING_MODEL"] = EMBEDDING_MODEL
os.environ["REASONING_EFFORT"] = REASONING_EFFORT
os.environ["VERBOSITY"] = VERBOSITY
os.environ["MAX_WORKERS"] = MAX_WORKERS
os.environ["CHROMA_PERSIST_DIRECTORY"] = "./chroma_db"
os.environ["CHUNK_SIZE"] = "1000"
os.environ["CHUNK_OVERLAP"] = "100"
os.environ["TOP_K_RETRIEVAL"] = "200"

print(f"‚úÖ LLM: {OPENAI_MODEL}")
print(f"‚úÖ Embedding: {EMBEDDING_MODEL}")

## 4Ô∏è‚É£ FastAPI Server starten

In [None]:
import subprocess
import time
import requests

api_process = subprocess.Popen(
    ["python", "main.py"],
    stdout=subprocess.PIPE,
    stderr=subprocess.PIPE
)

print("‚è≥ Starte API...")

# Retry-Loop: Warte bis API erreichbar ist (max 60 Sekunden)
api_ready = False
for i in range(12):  # 12 Versuche √ó 5 Sekunden = 60 Sekunden max
    time.sleep(5)
    try:
        r = requests.get("http://localhost:8000/health", timeout=3)
        if r.status_code == 200:
            api_ready = True
            break
    except:
        print(f"   Versuch {i+1}/12...")

if api_ready:
    print("‚úÖ API l√§uft auf http://localhost:8000")
else:
    print("‚ùå API nicht erreichbar nach 60 Sekunden")
    print("   F√ºhren Sie diese Zelle erneut aus oder pr√ºfen Sie die Logs")

## 5Ô∏è‚É£ Streamlit + Cloudflare Tunnel starten

Nach Ausf√ºhrung erscheint eine **√∂ffentliche URL**.

In [None]:
import subprocess
import re
import time

# Streamlit im Hintergrund starten
streamlit_process = subprocess.Popen(
    ["streamlit", "run", "app.py", "--server.port", "8501", "--server.headless", "true"],
    stdout=subprocess.PIPE,
    stderr=subprocess.PIPE
)
print("‚è≥ Starte Streamlit...")
time.sleep(5)

# Cloudflare Tunnel starten und URL extrahieren
def start_cloudflare_tunnel(port):
    print(f"üåê Starte Cloudflare Tunnel f√ºr Port {port}...")
    process = subprocess.Popen(
        ["cloudflared", "tunnel", "--url", f"http://localhost:{port}"],
        stdout=subprocess.PIPE,
        stderr=subprocess.PIPE,
        text=True
    )
    for line in process.stderr:
        print(f"Cloudflare: {line.strip()}")
        if "trycloudflare.com" in line:
            match = re.search(r'https://[\w-]+\.trycloudflare\.com', line)
            if match:
                return match.group(0), process
    return None, process

tunnel_url, tunnel_process = start_cloudflare_tunnel(8501)

if tunnel_url:
    print("\n" + "=" * 60)
    print("üéâ RAG WISSENSDATENBANK IST ONLINE!")
    print("=" * 60)
    print(f"üîó Public URL: {tunnel_url}")
    print("=" * 60)

## 6Ô∏è‚É£ Status pr√ºfen

In [None]:
import requests

print("üìä Status")
print("-" * 30)

try:
    r = requests.get("http://localhost:8000/health", timeout=5)
    print(f"‚úÖ API: OK ({r.json().get('statistics', {}).get('total_documents', 0)} Dokumente)")
except:
    print("‚ùå API: Offline")

try:
    r = requests.get("http://localhost:8501", timeout=5)
    print("‚úÖ Streamlit: OK")
except:
    print("‚ùå Streamlit: Offline")

if 'tunnel_process' in dir() and tunnel_process.poll() is None:
    print("‚úÖ Tunnel: Aktiv")
else:
    print("‚ùå Tunnel: Inaktiv")

---
## üìù Hinweise

- **Laufzeit**: Bis zu 12 Stunden (kostenlos)
- **Dokumente**: Gehen nach Sitzungsende verloren
- **Tunnel-URL**: √Ñndert sich bei jedem Neustart
- **Confluence**: In der App unter üî∑ Confluence konfigurieren