# üéôÔ∏è Podcast Parser & Transkriptor

Ein umfassendes Tool zum Herunterladen von Podcast-Folgen aus RSS-Feeds und deren Transkription mit OpenAI's Whisper-Modell.

---

## üìã Features

### üì• Podcast Downloader
- RSS-Feed-Parsing und Analyse
- Selektiver Download von Folgen
- Dateigr√∂√üen-Anzeige
- Intelligente Dateinamen-Generierung

### üìù Audio Transkriptor
- OpenAI Whisper Integration
- Mehrsprachige Transkription (Deutsch, Englisch, Auto)
- Verschiedene Modell-Gr√∂√üen (tiny bis large)
- Multi-Format Support (MP3, WAV, M4A, FLAC, OGG)

---

## üöÄ Installation & Setup

In [None]:
# Install required packages
!pip install feedparser requests openai-whisper

# Import libraries
import os
import requests
import feedparser
import whisper
import tempfile
import shutil
from urllib.parse import urlparse
from google.colab import files
from IPython.display import display, HTML, clear_output
import ipywidgets as widgets
from datetime import datetime

print("‚úÖ Alle Abh√§ngigkeiten installiert und importiert!")

## üõ†Ô∏è Hilfsfunktionen

In [None]:
def title_to_filename(title, ext):
    """Konvertiert einen Titel in einen g√ºltigen Dateinamen"""
    invalid_chars = ['?', '*', ':', '<', '>', '|', '"', '\\', '/', '\n', '\r']
    filename = title
    for char in invalid_chars:
        filename = filename.replace(char, "_")
    filename = filename.strip().replace(' ', '_')
    filename = filename[:120]  # L√§nge beschr√§nken
    return f"{filename}{ext}"

def format_file_size(size_bytes):
    """Formatiert Bytes in lesbare Gr√∂√üe"""
    if size_bytes == 0:
        return "0 B"
    size_names = ["B", "KB", "MB", "GB"]
    import math
    i = int(math.floor(math.log(size_bytes, 1024)))
    p = math.pow(1024, i)
    s = round(size_bytes / p, 2)
    return f"{s} {size_names[i]}"

def create_download_link(filename, text):
    """Erstellt einen Download-Link f√ºr Colab"""
    html = f'<a href="files/{filename}" download="{filename}">{text}</a>'
    return HTML(html)

print("‚úÖ Hilfsfunktionen definiert!")

## üì• Podcast Downloader

In [None]:
# Widgets f√ºr Podcast Downloader
feed_url_widget = widgets.Text(
    value="https://www.energiezone.org/feed/mp3",
    description="RSS-Feed URL:",
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='600px')
)

download_dir_widget = widgets.Text(
    value="./podcasts",
    description="Zielordner:",
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='600px')
)

load_feed_button = widgets.Button(
    description="üì° Feed laden & Folgen anzeigen",
    button_style='primary',
    layout=widgets.Layout(width='300px')
)

download_button = widgets.Button(
    description="‚¨áÔ∏è Ausgew√§hlte Folgen herunterladen",
    button_style='success',
    layout=widgets.Layout(width='300px')
)

# Container f√ºr Checkboxen
episode_checkboxes = widgets.VBox([])
episode_data = []

display(HTML("<h3>üéôÔ∏è Podcast Downloader</h3>"))
display(feed_url_widget)
display(download_dir_widget)
display(load_feed_button)
display(episode_checkboxes)
display(download_button)

In [None]:
def load_feed(b):
    print("Feed laden wurde geklickt!")
    # Hier kommt dein Code zum Laden des Feeds

def download_episodes(b):
    print("Download wurde geklickt!")
    # Hier kommt dein Code zum Herunterladen der Episoden

# Event-Handler verbinden
load_feed_button.on_click(load_feed)
download_button.on_click(download_episodes)


## üìù Audio Transkriptor

In [None]:
# Widgets f√ºr Audio Transkriptor
model_size_widget = widgets.Dropdown(
    options=["tiny", "base", "small", "medium", "large"],
    value="base",
    description="Whisper Modell:",
    style={'description_width': 'initial'}
)

load_model_button = widgets.Button(
    description="ü§ñ Modell laden",
    button_style='primary'
)

language_widget = widgets.Dropdown(
    options=["auto", "de", "en"],
    value="auto",
    description="Sprache:",
    style={'description_width': 'initial'}
)

transcribe_button = widgets.Button(
    description="üéØ Transkribieren",
    button_style='success'
)

model_status = widgets.HTML(value="<span style='color: red;'>‚ùå Modell nicht geladen</span>")

display(HTML("<h3>üìù Audio Transkriptor</h3>"))
display(model_size_widget)
display(load_model_button)
display(model_status)
display(language_widget)
display(transcribe_button)

In [None]:
def load_whisper_model(b):
    print("Modell laden wurde geklickt!")
    # Hier kommt dein Code zum Laden des Whisper-Modells

def transcribe_audio(b):
    print("Transkribieren wurde geklickt!")
    # Hier kommt dein Code zur Transkription

# Event-Handler verbinden
load_model_button.on_click(load_whisper_model)
transcribe_button.on_click(transcribe_audio)


## üîÑ Batch-Transkription f√ºr heruntergeladene Podcasts

In [None]:
# Widgets f√ºr Batch-Transkription
batch_dir_widget = widgets.Text(
    value="./podcasts",
    description="Podcast-Ordner:",
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='600px')
)

batch_language_widget = widgets.Dropdown(
    options=["auto", "de", "en"],
    value="auto",
    description="Sprache:",
    style={'description_width': 'initial'}
)

batch_transcribe_button = widgets.Button(
    description="üîÑ Alle Podcasts transkribieren",
    button_style='warning'
)

display(HTML("<h3>üîÑ Batch-Transkription</h3>"))
display(HTML("<p>Transkribiert alle Audio-Dateien in einem Ordner automatisch.</p>"))
display(batch_dir_widget)
display(batch_language_widget)
display(batch_transcribe_button)

In [None]:
def batch_transcribe(b):
    """Transkribiert alle Audio-Dateien in einem Ordner"""
    global whisper_model
    
    if whisper_model is None:
        print("‚ùå Bitte laden Sie zuerst ein Whisper-Modell!")
        return
    
    batch_dir = batch_dir_widget.value
    language = batch_language_widget.value
    
    if not os.path.exists(batch_dir):
        print(f"‚ùå Ordner nicht gefunden: {batch_dir}")
        return
    
    # Finde alle Audio-Dateien
    audio_extensions = ('.mp3', '.wav', '.m4a', '.flac', '.ogg')
    audio_files = [f for f in os.listdir(batch_dir) 
                   if f.lower().endswith(audio_extensions)]
    
    if not audio_files:
        print(f"‚ùå Keine Audio-Dateien in {batch_dir} gefunden!")
        return
    
    print(f"üîÑ Starte Batch-Transkription f√ºr {len(audio_files)} Dateien...")
    
    # Erstelle Ausgabe-Ordner
    output_dir = f"{batch_dir}_transkriptionen"
    os.makedirs(output_dir, exist_ok=True)
    
    for idx, audio_file in enumerate(audio_files):
        audio_path = os.path.join(batch_dir, audio_file)
        original_filename = os.path.splitext(audio_file)[0]
        output_filename = f"{original_filename}.txt"
        output_path = os.path.join(output_dir, output_filename)
        
        # Pr√ºfe ob Transkription bereits existiert
        if os.path.exists(output_path):
            print(f"‚è≠Ô∏è {audio_file} bereits transkribiert, √ºberspringe.")
            continue
        
        print(f"üéµ [{idx+1}/{len(audio_files)}] Transkribiere: {audio_file}")
        
        try:
            # F√ºhre Transkription durch
            result = whisper_model.transcribe(
                audio_path,
                language=language if language != "auto" else None,
                task="transcribe"
            )
            
            # Speichere Transkription
            with open(output_path, 'w', encoding='utf-8') as f:
                f.write(result["text"])
            
            print(f"‚úÖ Gespeichert: {output_filename}")
            
        except Exception as e:
            print(f"‚ùå Fehler bei {audio_file}: {e}")
    
    print(f"\nüéâ Batch-Transkription abgeschlossen!")
    print(f"üìÅ Transkriptionen gespeichert in: {output_dir}")
    
    # Erstelle ZIP-Archiv f√ºr einfachen Download
    import zipfile
    zip_filename = f"{batch_dir}_transkriptionen.zip"
    
    with zipfile.ZipFile(zip_filename, 'w') as zipf:
        for file in os.listdir(output_dir):
            file_path = os.path.join(output_dir, file)
            zipf.write(file_path, file)
    
    print(f"üì¶ ZIP-Archiv erstellt: {zip_filename}")
    display(create_download_link(zip_filename, "‚¨áÔ∏è Alle Transkriptionen herunterladen (ZIP)"))

# Event-Handler verbinden
batch_transcribe_button.on_click(batch_transcribe)

print("‚úÖ Batch-Transkription Widgets erstellt!")

## üìñ Verwendungsbeispiele

In [None]:
# Beispiel: Automatischer Workflow
def example_workflow():
    """Demonstriert einen typischen Workflow"""
    
    print("üöÄ Beispiel-Workflow: Podcast herunterladen und transkribieren")
    print("="*60)
    
    # 1. Feed laden
    print("1Ô∏è‚É£ RSS-Feed laden...")
    print("   - Geben Sie die RSS-URL ein")
    print("   - Klicken Sie auf 'Feed laden & Folgen anzeigen'")
    print("   - W√§hlen Sie gew√ºnschte Folgen aus")
    print()
    
    # 2. Folgen herunterladen
    print("2Ô∏è‚É£ Folgen herunterladen...")
    print("   - Klicken Sie auf 'Ausgew√§hlte Folgen herunterladen'")
    print("   - Warten Sie bis alle Downloads abgeschlossen sind")
    print()
    
    # 3. Whisper-Modell laden
    print("3Ô∏è‚É£ Whisper-Modell laden...")
    print("   - W√§hlen Sie Modell-Gr√∂√üe (tiny = schnell, large = genau)")
    print("   - Klicken Sie auf 'Modell laden'")
    print()
    
    # 4. Transkribieren
    print("4Ô∏è‚É£ Audio transkribieren...")
    print("   - Option A: Einzelne Datei hochladen")
    print("   - Option B: Batch-Transkription f√ºr alle heruntergeladenen Folgen")
    print()
    
    # 5. Ergebnisse
    print("5Ô∏è‚É£ Ergebnisse verwenden...")
    print("   - Transkriptionen als Text herunterladen")
    print("   - F√ºr weitere Verarbeitung verwenden")
    print("="*60)

# Zeige Beispiel
example_workflow()

## üí° Tipps & Fehlerbehebung

### üéØ F√ºr beste Transkriptions-Ergebnisse:
- **Audioqualit√§t**: Verwenden Sie hochwertige Audio-Dateien
- **Hintergrundger√§usche**: Reduzieren Sie St√∂rger√§usche
- **Modellauswahl**: 
  - **Tiny/Base**: F√ºr schnelle Transkription
  - **Medium/Large**: F√ºr hohe Genauigkeit
- **Sprache**: W√§hlen Sie die korrekte Sprache
- **RAM**: Stellen Sie sicher, dass gen√ºgend RAM verf√ºgbar ist

### üîß H√§ufige Probleme:

**Modell kann nicht geladen werden:**
- √úberpr√ºfen Sie Ihre Internetverbindung (erster Download)
- Stellen Sie sicher, dass gen√ºgend RAM verf√ºgbar ist
- Versuchen Sie ein kleineres Modell

**Audio-Datei kann nicht verarbeitet werden:**
- √úberpr√ºfen Sie, ob die Datei besch√§digt ist
- Stellen Sie sicher, dass das Format unterst√ºtzt wird
- Versuchen Sie eine andere Audio-Datei

**Langsame Performance:**
- Verwenden Sie ein kleineres Whisper-Modell
- Schlie√üen Sie andere Programme
- Stellen Sie sicher, dass gen√ºgend RAM verf√ºgbar ist

### üìä Whisper-Modell Vergleich:

| Modell | Gr√∂√üe   | RAM  | Geschwindigkeit | Genauigkeit | Empfehlung |
| ------ | ------- | ---- | --------------- | ----------- | ---------- |
| tiny   | 39 MB   | 1GB  | Sehr schnell    | Gut         | Schnelle Tests |
| base   | 74 MB   | 1GB  | Schnell         | Besser      | Standard |
| small  | 244 MB  | 2GB  | Mittel          | Noch besser | Gute Balance |
| medium | 769 MB  | 5GB  | Langsam         | Sehr gut    | Hohe Qualit√§t |
| large  | 1550 MB | 10GB | Sehr langsam    | Beste       | Beste Qualit√§t |

## üéâ Fazit

Dieses Notebook bietet eine vollst√§ndige L√∂sung f√ºr:

‚úÖ **Podcast-Download** aus RSS-Feeds  
‚úÖ **Audio-Transkription** mit OpenAI Whisper  
‚úÖ **Batch-Verarbeitung** f√ºr mehrere Dateien  
‚úÖ **Benutzerfreundliche Oberfl√§che** mit Widgets  
‚úÖ **Export-Funktionen** f√ºr Transkriptionen  

---

**Hinweis**: Stellen Sie sicher, dass Sie die Rechte haben, Podcast-Inhalte herunterzuladen und zu transkribieren. Respektieren Sie die Urheberrechte der Podcast-Ersteller.

**Inspiriert von**: [LocalTranscript](https://github.com/chradden/LocalTranscript)