Herramientas para descargar audio/video de publicaciones en redes sociales y transcribir el contenido usando IA.
- 🎬 Descarga de audio/video desde Facebook, TikTok y YouTube
- 🎙️ Transcripción automática con Whisper
- 💬 Scraping de comentarios de posts públicos en Facebook
- 📊 Procesamiento batch de múltiples URLs
- Python 3.11+
- ffmpeg (Linux:
sudo apt install ffmpeg) - Paquetes Python:
pip install -r requirements.txt
- Playwright (solo si usas
scraper-fb.py):python -m playwright install chromium
# Clonar repositorio
git clone https://github.com/tu-usuario/analisis-electoral.git
cd analisis-electoral
# Crear entorno virtual
python3.11 -m venv venv
source venv/bin/activate # En Windows: venv\Scripts\activate
# Instalar dependencias
pip install -r requirements.txtpython transcriptor.py --url "https://www.youtube.com/watch?v=dQw4w9WgXcQ" --outdir datos-crudos# Crear archivo urls.txt con una URL por línea
echo "https://www.youtube.com/watch?v=..." >> urls.txt
echo "https://www.tiktok.com/..." >> urls.txt
# Ejecutar
python runner.py --list urls.txt --outdir datos-crudospython scraper-fb.py --url "URL_DEL_POST_PUBLICO" --cookies facebook-cookies.json --headless- Instala la extensión Cookie-Editor en Chrome/Chromium
- Ve a facebook.com e inicia sesión
- Abre Cookie-Editor → Selecciona el ícono de exportar (export)
- Copia el JSON exportado
- Crea
facebook-cookies.jsonen la raíz del proyecto y pega el contenido
Ejemplo de estructura: Ver facebook-cookies.example.json
facebook-cookies.json está en .gitignore para proteger tus credenciales. Nunca lo subas a GitHub.
python scraper-fb-comments.py --url "URL_DEL_POST_PUBLICO" --cookies facebook-cookies.json --outdir datos-crudos --max-clicks 30⚠️ Usa solo contenido público y con propósitos de investigación- 📋 Respeta GDPR, CCPA y leyes de protección de datos locales
- 🔒 Anonimiza datos personales antes de compartir resultados
- 📖 Revisar políticas de cada plataforma (Facebook, TikTok, YouTube)
- Muchas URLs requieren sesión/cookies. Si falla descarga: usa navegador con sesión activa
- Agrega pausas entre solicitudes para no saturar servidores
- Usa user-agents realistas y respeta
robots.txt
- Los archivos de transcripción se guardan en
datos-crudos/con nombretranscripcion_YYYYMMDD-HHMMSS.txt.