Turn a talking-head video into a dynamic edit with automatic B-roll clips, word-level captions, and optional AI-generated music.
Mac / Linux / WSL:
curl -sSL https://raw.githubusercontent.com/Meir770ar/broll-skill/master/install.sh | bashהסקריפט יבדוק שיש לך Node + ffmpeg + git, ישכפל את הריפו, יתקין תלויות, יכין קבצי config, ויוריד פונטים. בסוף תקבל רשימה של 3 מפתחות API שצריך להשיג (חינם או ~$5).
Works with:
- Claude Code (local) —
skills/claude-code.md - OpenClaw (WhatsApp bot) —
skills/openclaw.md
המטרה: מינימום עלויות. שדרוגים — רק כשצריך.
| רכיב | מסלול בסיסי | שדרוג |
|---|---|---|
| Gemini API (ניתוח B-roll) | חינם (1500 בקשות/יום) | $0.001/סרטון |
| תמלול | Groq Whisper v3 (חינם) | ElevenLabs Scribe v2 (~$5/חודש) — דיוק גבוה יותר בעברית |
| Pexels Stock Video | חינם (200 בקשות/שעה) | — |
| Runware (AI image gen) | חינם, אופציונלי | — |
| מוזיקת רקע Lyria 3 Pro | מבוטל כברירת מחדל | $0.08/סרטון |
| שליחה WhatsApp | Green API מסלול חינמי | ~$10/חודש pro |
| 🎯 עלות מינימלית | חינם לגמרי (Groq + Gemini + Pexels) | — |
- Node.js 20+ — nodejs.org
- ffmpeg + ffprobe
- git
- Linux בלבד:
sudo apt install libnss3 libatk1.0-0 libxcomposite1 libxdamage1 libxrandr2 libgbm1 libasound2
חובה:
- Gemini (חינם) → aistudio.google.com/apikey
- Pexels (חינם) → pexels.com/api — נדרש לקליפי B-roll
תמלול — בחר אחד:
- Groq (חינם, ברירת מחדל) → console.groq.com/keys — Whisper Large v3
- ElevenLabs (~$5/חודש, דיוק גבוה יותר) → elevenlabs.io — Scribe v2
הבחירה מתבצעת ב-config.json → "transcribe_provider": "groq" או "elevenlabs".
אופציונלי:
- Runware (חינם tier) → runware.ai — AI image generation כתחליף/תוספת ל-Pexels
- Green API (חינם tier) → green-api.com — שליחה אוטומטית ל-WhatsApp
-
cp .env.example .env→ למלא את המפתחות -
cp config.example.json config.json→ להתאים לפי הצורך (ברירות המחדל טובות) -
cd scripts && npm install -
cd ../remotion && npm install
- הורד מ-Google Fonts — Assistant: Regular + Bold
- שים ב-
remotion/public/fonts/(שמור את השמותAssistant-Regular.ttf+Assistant-Bold.ttf)
- Claude Code:
cp skills/claude-code.md ~/.claude/skills/talking-head-broll/SKILL.md— החלף<PIPELINE_PATH> - OpenClaw:
cp skills/openclaw.mdלתיקיית הסקילים של הבוט
./scripts/pipeline.sh \
--video /path/to/talking-head.mp4 \
--config ./config.jsonInput: a talking-head video (person speaking to camera). Output: a polished edit with:
- 🎥 The original as Picture-in-Picture (PIP) bottom-right
- 🎞️ Full-screen B-roll clips (from Pexels or AI-generated via Runware) matched to what the speaker says
- ✍️ Word-level captions in Hebrew (ElevenLabs Scribe v2)
- 🎵 Optional Lyria 3 Pro AI music matching the content mood
- 🔊 Voice enhancement (noise reduction + loudness normalization)
pip— הדובר מופיע כ-Picture-in-Picture בפינה ה-bottom-right, ה-B-roll מתנגן full-screen על הרובfullscreen— אין PIP. ה-B-roll full-screen מכסה את הדובר, הקול שלו ממשיך לרוץ ברציפות. Gemini משאיר פערים מכוונים (2-4 שניות כל 15-25 שניות) שבהם הדובר נראה full-screen בעצמו — ב"רגעי עוגן" (נקודה מרכזית, שאלה רטורית, call-to-action)
Flow: extract audio → enhance voice → transcribe (Groq or ElevenLabs per config) → Gemini picks B-roll moments + mood → download Pexels clips (and/or generate AI images) → optional Lyria music → Remotion render → compress → send.
Time: 3-6 minutes for a 1-2 minute input video.
- Pexels + Runware both — better visual variety than Pexels alone
- Green API pro (~$10/mo) — WhatsApp auto-send at scale
- Lyria 3 Pro music (~$0.08/video) — flip
lyria_music_enabled: truein config. Generates instrumental matched to detected mood (calm/energetic/corporate/emotional/tech). - Premium Hebrew font — if you license one, drop in
remotion/public/fonts/and updatefont_familyin config.
Built by Meir Arad — mehubarim.org.il.
Contributions welcome via PR.
MIT — see LICENSE. User-provided assets (fonts, logos, music) carry their own licenses.