Análisis Electoral: Scraping y Transcripción

Herramientas para descargar audio/video de publicaciones en redes sociales y transcribir el contenido usando IA.

Características

🎬 Descarga de audio/video desde Facebook, TikTok y YouTube
🎙️ Transcripción automática con Whisper
💬 Scraping de comentarios de posts públicos en Facebook
📊 Procesamiento batch de múltiples URLs

Requisitos

Python 3.11+
ffmpeg (Linux: sudo apt install ffmpeg)
Paquetes Python:
```
pip install -r requirements.txt
```
Playwright (solo si usas scraper-fb.py):
```
python -m playwright install chromium
```

Instalación rápida

# Clonar repositorio
git clone https://github.com/tu-usuario/analisis-electoral.git
cd analisis-electoral

# Crear entorno virtual
python3.11 -m venv venv
source venv/bin/activate  # En Windows: venv\Scripts\activate

# Instalar dependencias
pip install -r requirements.txt

Uso

Transcripción de una sola URL

python transcriptor.py --url "https://www.youtube.com/watch?v=dQw4w9WgXcQ" --outdir datos-crudos

Batch de múltiples URLs

# Crear archivo urls.txt con una URL por línea
echo "https://www.youtube.com/watch?v=..." >> urls.txt
echo "https://www.tiktok.com/..." >> urls.txt

# Ejecutar
python runner.py --list urls.txt --outdir datos-crudos

Scraper de Facebook (posts públicos)

python scraper-fb.py --url "URL_DEL_POST_PUBLICO" --cookies facebook-cookies.json --headless

Configurar cookies de Facebook

Instala la extensión Cookie-Editor en Chrome/Chromium
Ve a facebook.com e inicia sesión
Abre Cookie-Editor → Selecciona el ícono de exportar (export)
Copia el JSON exportado
Crea facebook-cookies.json en la raíz del proyecto y pega el contenido

Ejemplo de estructura: Ver facebook-cookies.example.json

⚠️ IMPORTANTE: El archivo facebook-cookies.json está en .gitignore para proteger tus credenciales. Nunca lo subas a GitHub.

Scraping de comentarios de Facebook

python scraper-fb-comments.py --url "URL_DEL_POST_PUBLICO" --cookies facebook-cookies.json --outdir datos-crudos --max-clicks 30

Consideraciones importantes

Privacidad y Cumplimiento Legal

⚠️ Usa solo contenido público y con propósitos de investigación
📋 Respeta GDPR, CCPA y leyes de protección de datos locales
🔒 Anonimiza datos personales antes de compartir resultados
📖 Revisar políticas de cada plataforma (Facebook, TikTok, YouTube)

Consejos técnicos

Muchas URLs requieren sesión/cookies. Si falla descarga: usa navegador con sesión activa
Agrega pausas entre solicitudes para no saturar servidores
Usa user-agents realistas y respeta robots.txt

Carpeta de salida

Los archivos de transcripción se guardan en datos-crudos/ con nombre transcripcion_YYYYMMDD-HHMMSS.txt.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
.env.example		.env.example
.gitignore		.gitignore
.python-version		.python-version
README.md		README.md
debug-fb-structure.py		debug-fb-structure.py
facebook-cookies.example.json		facebook-cookies.example.json
requirements.txt		requirements.txt
runner.py		runner.py
scraper-fb-comments-v2.py		scraper-fb-comments-v2.py
scraper-fb-comments.py		scraper-fb-comments.py
scraper-fb.py		scraper-fb.py
transcriptor.py		transcriptor.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Análisis Electoral: Scraping y Transcripción

Características

Requisitos

Instalación rápida

Uso

Transcripción de una sola URL

Batch de múltiples URLs

Scraper de Facebook (posts públicos)

Configurar cookies de Facebook

Scraping de comentarios de Facebook

Consideraciones importantes

Privacidad y Cumplimiento Legal

Consejos técnicos

Carpeta de salida

About

Uh oh!

Releases

Packages

Languages

HzuDev/web-scraping

Folders and files

Latest commit

History

Repository files navigation

Análisis Electoral: Scraping y Transcripción

Características

Requisitos

Instalación rápida

Uso

Transcripción de una sola URL

Batch de múltiples URLs

Scraper de Facebook (posts públicos)

Configurar cookies de Facebook

Scraping de comentarios de Facebook

Consideraciones importantes

Privacidad y Cumplimiento Legal

Consejos técnicos

Carpeta de salida

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages