Skip to content

Meir770ar/broll-skill

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Talking-Head B-roll Skill

Turn a talking-head video into a dynamic edit with automatic B-roll clips, word-level captions, and optional AI-generated music.

🚀 התקנה בפקודה אחת

Mac / Linux / WSL:

curl -sSL https://raw.githubusercontent.com/Meir770ar/broll-skill/master/install.sh | bash

הסקריפט יבדוק שיש לך Node + ffmpeg + git, ישכפל את הריפו, יתקין תלויות, יכין קבצי config, ויוריד פונטים. בסוף תקבל רשימה של 3 מפתחות API שצריך להשיג (חינם או ~$5).

Works with:

  • Claude Code (local) — skills/claude-code.md
  • OpenClaw (WhatsApp bot) — skills/openclaw.md

🇮🇱 צ'ק-ליסט התקנה

המטרה: מינימום עלויות. שדרוגים — רק כשצריך.

💰 טבלת עלויות

רכיב מסלול בסיסי שדרוג
Gemini API (ניתוח B-roll) חינם (1500 בקשות/יום) $0.001/סרטון
תמלול Groq Whisper v3 (חינם) ElevenLabs Scribe v2 (~$5/חודש) — דיוק גבוה יותר בעברית
Pexels Stock Video חינם (200 בקשות/שעה)
Runware (AI image gen) חינם, אופציונלי
מוזיקת רקע Lyria 3 Pro מבוטל כברירת מחדל $0.08/סרטון
שליחה WhatsApp Green API מסלול חינמי ~$10/חודש pro
🎯 עלות מינימלית חינם לגמרי (Groq + Gemini + Pexels)

🔧 שלב 1: תוכנה

  • Node.js 20+nodejs.org
  • ffmpeg + ffprobe
  • git
  • Linux בלבד: sudo apt install libnss3 libatk1.0-0 libxcomposite1 libxdamage1 libxrandr2 libgbm1 libasound2

🔑 שלב 2: מפתחות API

חובה:

תמלול — בחר אחד:

  • Groq (חינם, ברירת מחדל) → console.groq.com/keys — Whisper Large v3
  • ElevenLabs (~$5/חודש, דיוק גבוה יותר) → elevenlabs.io — Scribe v2

הבחירה מתבצעת ב-config.json"transcribe_provider": "groq" או "elevenlabs".

אופציונלי:

  • Runware (חינם tier) → runware.ai — AI image generation כתחליף/תוספת ל-Pexels
  • Green API (חינם tier) → green-api.com — שליחה אוטומטית ל-WhatsApp

📝 שלב 3: קונפיגורציה

  • cp .env.example .env → למלא את המפתחות
  • cp config.example.json config.json → להתאים לפי הצורך (ברירות המחדל טובות)
  • cd scripts && npm install
  • cd ../remotion && npm install

🔤 שלב 4: פונט עברי להעלאה

  • הורד מ-Google Fonts — Assistant: Regular + Bold
  • שים ב-remotion/public/fonts/ (שמור את השמות Assistant-Regular.ttf + Assistant-Bold.ttf)

🎯 שלב 5: התקנת הסקיל (בחר אחד)

  • Claude Code: cp skills/claude-code.md ~/.claude/skills/talking-head-broll/SKILL.md — החלף <PIPELINE_PATH>
  • OpenClaw: cp skills/openclaw.md לתיקיית הסקילים של הבוט

✅ שלב 6: בדיקת שפיות

./scripts/pipeline.sh \
  --video /path/to/talking-head.mp4 \
  --config ./config.json

What the pipeline does

Input: a talking-head video (person speaking to camera). Output: a polished edit with:

  • 🎥 The original as Picture-in-Picture (PIP) bottom-right
  • 🎞️ Full-screen B-roll clips (from Pexels or AI-generated via Runware) matched to what the speaker says
  • ✍️ Word-level captions in Hebrew (ElevenLabs Scribe v2)
  • 🎵 Optional Lyria 3 Pro AI music matching the content mood
  • 🔊 Voice enhancement (noise reduction + loudness normalization)

🎨 סגנונות (broll_style ב-config)

  • pip — הדובר מופיע כ-Picture-in-Picture בפינה ה-bottom-right, ה-B-roll מתנגן full-screen על הרוב
  • fullscreen — אין PIP. ה-B-roll full-screen מכסה את הדובר, הקול שלו ממשיך לרוץ ברציפות. Gemini משאיר פערים מכוונים (2-4 שניות כל 15-25 שניות) שבהם הדובר נראה full-screen בעצמו — ב"רגעי עוגן" (נקודה מרכזית, שאלה רטורית, call-to-action)

Flow: extract audio → enhance voice → transcribe (Groq or ElevenLabs per config) → Gemini picks B-roll moments + mood → download Pexels clips (and/or generate AI images) → optional Lyria music → Remotion render → compress → send.

Time: 3-6 minutes for a 1-2 minute input video.


🚀 Upgrades (in priority order)

  1. Pexels + Runware both — better visual variety than Pexels alone
  2. Green API pro (~$10/mo) — WhatsApp auto-send at scale
  3. Lyria 3 Pro music (~$0.08/video) — flip lyria_music_enabled: true in config. Generates instrumental matched to detected mood (calm/energetic/corporate/emotional/tech).
  4. Premium Hebrew font — if you license one, drop in remotion/public/fonts/ and update font_family in config.

Author

Built by Meir Aradmehubarim.org.il.

Contributions welcome via PR.

License

MIT — see LICENSE. User-provided assets (fonts, logos, music) carry their own licenses.

About

Turn a talking-head video into a dynamic edit with AI-selected B-roll clips, word-level Hebrew captions (ElevenLabs Scribe v2), voice enhancement, and optional Lyria 3 Pro music. Works with OpenClaw WhatsApp bot or Claude Code. ~$5/mo minimum.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors