In [None]:
!pip install isodate

Code zum Abrufen fast aller Daten des youtube Channels. Es müssen noch die API-Daten und der Link zur json-Datei eingetragen werden. Außerdem der Datumsbereich

In [None]:
# API Konfiguration - Hier Ihre Werte eintragen
CHANNEL_ID = "UCSeil5V81-mEGB1-VNR7YEA"  # Ihre YouTube Channel ID
DATA_API_V3_KEY = ""  # API Key für YouTube Data API v3
#ANALYTICS_API_KEY = ""  # API Key für YouTube Analytics API
CREDENTIALS_PATH = ""


# Datum Konfiguration - Format: "DD.MM.YYYY"
START_DATE = "01.01.2024"  # z.B. "01.09.2024"
END_DATE = "31.01.2024"   # z.B. "02.09.2024"

from googleapiclient.discovery import build
from google_auth_oauthlib.flow import InstalledAppFlow
from datetime import datetime
import pandas as pd
import isodate

# OAuth 2.0 Scopes
SCOPES = ['https://www.googleapis.com/auth/yt-analytics.readonly']

def get_video_data_from_api():
    """YouTube Data API v3 Abfrage für Basis-Videodaten"""
    youtube = build('youtube', 'v3', developerKey=DATA_API_V3_KEY)
    
    start_date = datetime.strptime(START_DATE, '%d.%m.%Y')
    end_date = datetime.strptime(END_DATE, '%d.%m.%Y').replace(hour=23, minute=59, second=59)
    
    start_date_rfc = start_date.isoformat() + 'Z'
    end_date_rfc = end_date.isoformat() + 'Z'
    
    videos_data = []
    next_page_token = None
    
    while True:
        request = youtube.search().list(
            part='snippet',
            channelId=CHANNEL_ID,
            maxResults=50,
            order='date',
            publishedAfter=start_date_rfc,
            publishedBefore=end_date_rfc,
            type='video',
            pageToken=next_page_token
        )
        
        response = request.execute()
        
        for item in response['items']:
            video_id = item['id']['videoId']
            
            video_request = youtube.videos().list(
                part='snippet,contentDetails,status',
                id=video_id
            )
            video_response = video_request.execute()
            
            if video_response['items']:
                video_info = video_response['items'][0]
                duration = int(isodate.parse_duration(video_info['contentDetails']['duration']).total_seconds())
                
                video_data = {
                    'video_id': video_id,
                    'title': video_info['snippet']['title'],
                    'publish_date': video_info['snippet']['publishedAt'],
                    'video_length_seconds': duration,
                    'privacy_status': video_info['status']['privacyStatus']
                }
                videos_data.append(video_data)
        
        next_page_token = response.get('nextPageToken')
        if not next_page_token:
            break
    
    return pd.DataFrame(videos_data)

def get_analytics_data(analytics, video_id, start_date, end_date):
    """YouTube Analytics API Abfrage für detaillierte Metriken"""
    try:
        # Performance Metriken
        metrics = [
            'estimatedMinutesWatched',
            'averageViewDuration',
            'averageViewPercentage',
            'subscribersGained',
            'subscribersLost',
            'views',
            'likes',
            'dislikes',
            'shares',
            'comments'
        ]
        
        perf_response = analytics.reports().query(
            ids=f'channel=={CHANNEL_ID}',
            startDate=start_date.strftime('%Y-%m-%d'),
            endDate=end_date.strftime('%Y-%m-%d'),
            metrics=','.join(metrics),
            filters=f'video=={video_id}'
        ).execute()

        # Demografische Daten
        demo_response = analytics.reports().query(
            ids=f'channel=={CHANNEL_ID}',
            startDate=start_date.strftime('%Y-%m-%d'),
            endDate=end_date.strftime('%Y-%m-%d'),
            metrics='viewerPercentage',
            dimensions='ageGroup,gender',
            filters=f'video=={video_id}'
        ).execute()

        # Basis-Daten sammeln
        data = {
            'video_id': video_id,
            'wiedergabezeit_minuten': 0,
            'durchschnittliche_wiedergabedauer': 0,
            'durchschnittliche_wiedergabedauer_prozent': 0,
            'gewonnene_abonnenten': 0,
            'verlorene_abonnenten': 0,
            'aufrufe': 0,
            'likes': 0,
            'dislikes': 0,
            'geteilte_inhalte': 0,
            'kommentare': 0
        }

        # Performance Daten einfügen
        if 'rows' in perf_response and perf_response['rows']:
            row = perf_response['rows'][0]
            data.update({
                'wiedergabezeit_minuten': row[0],
                'durchschnittliche_wiedergabedauer': row[1],
                'durchschnittliche_wiedergabedauer_prozent': row[2],
                'gewonnene_abonnenten': row[3],
                'verlorene_abonnenten': row[4],
                'aufrufe': row[5],
                'likes': row[6],
                'dislikes': row[7],
                'geteilte_inhalte': row[8],
                'kommentare': row[9]
            })

        # Demografische Daten einfügen
        if 'rows' in demo_response:
            for row in demo_response['rows']:
                age_group, gender, percentage = row
                key = f"audience_{gender.lower()}_{age_group}"
                data[key] = percentage

        return data

    except Exception as e:
        print(f"Fehler bei Video {video_id}: {str(e)}")
        return None

def main():
    try:
        print("1. Hole Basis-Videodaten über YouTube Data API v3...")
        video_df = get_video_data_from_api()
        print(f"   - {len(video_df)} Videos gefunden")

        print("\n2. Hole Analytics-Daten über YouTube Analytics API...")
        # Authentifizierung für Analytics API
        flow = InstalledAppFlow.from_client_secrets_file(CREDENTIALS_PATH, SCOPES)
        credentials = flow.run_local_server(port=0)
        analytics = build('youtubeAnalytics', 'v2', credentials=credentials)
        
        start_date = datetime.strptime(START_DATE, '%d.%m.%Y')
        end_date = datetime.strptime(END_DATE, '%d.%m.%Y')
        
        # Sammle Analytics-Daten für jedes Video
        analytics_data = []
        for index, row in video_df.iterrows():
            print(f"   - Verarbeite Video {index + 1} von {len(video_df)}: {row['video_id']}")
            data = get_analytics_data(analytics, row['video_id'], start_date, end_date)
            if data:
                analytics_data.append(data)

        # Erstelle DataFrame aus Analytics-Daten
        analytics_df = pd.DataFrame(analytics_data)
        
        # Merge beide DataFrames
        final_df = pd.merge(video_df, analytics_df, on='video_id', how='left')
        
        # Speichere Ergebnis und stelle sicher, dass Videolänge als Ganzzahl gespeichtert wird
        video_df['video_length_seconds'] = video_df['video_length_seconds'].astype(int)
        output_filename = f'youtube_complete_analysis_{datetime.now().strftime("%Y%m%d_%H%M%S")}.csv'
        final_df.to_csv(output_filename, index=False)
        
        print(f"\nAnalyse abgeschlossen!")
        print(f"Daten wurden in {output_filename} gespeichert")
        print(f"Anzahl der Videos: {len(final_df)}")
        print(f"Anzahl der Spalten: {len(final_df.columns)}")
        
    except Exception as e:
        print(f"Ein Fehler ist aufgetreten: {str(e)}")

if __name__ == "__main__":
    main()

Hier wird eine Liste von video_ids abgefragt

In [None]:
# API Konfiguration - Hier Ihre Werte eintragen
CHANNEL_ID = "UCSeil5V81-mEGB1-VNR7YEA"  # Ihre YouTube Channel ID
DATA_API_V3_KEY = ""  # API Key für YouTube Data API v3
#ANALYTICS_API_KEY = "AIzaSyCBw3tVk-TnYLCZW2vmojQlYFBArzudU-A"  # API Key für YouTube Analytics API
CREDENTIALS_PATH = "C:\\Users\\laukat\\OneDrive - Mediengruppe RTL\\HDM Data Analyti\\oauth 2.0\\client_secret_796311161257-bnk32mvms5t9fsfma7agbgrlt5fo54gi.apps.googleusercontent.com.json"  # Pfad zur client_secrets.json"


# Datum Konfiguration - Format: "DD.MM.YYYY"
START_DATE = "01.01.2000"
END_DATE = "31.01.2100"

from googleapiclient.discovery import build
from google_auth_oauthlib.flow import InstalledAppFlow
from datetime import datetime
import pandas as pd
import isodate

# OAuth 2.0 Scopes
SCOPES = ['https://www.googleapis.com/auth/yt-analytics.readonly']

def get_video_data_from_list(video_ids):
    """Hole Videodaten basierend auf einer Liste von Video-IDs"""
    youtube = build('youtube', 'v3', developerKey=DATA_API_V3_KEY)
    
    videos_data = []
    for video_id in video_ids:
        video_request = youtube.videos().list(
            part='snippet,contentDetails,status',
            id=video_id
        )
        video_response = video_request.execute()
        
        if video_response['items']:
            video_info = video_response['items'][0]
            duration = int(isodate.parse_duration(video_info['contentDetails']['duration']).total_seconds())
            
            video_data = {
                'video_id': video_id,
                'title': video_info['snippet']['title'],
                'publish_date': video_info['snippet']['publishedAt'],
                'video_length_seconds': duration,
                'privacy_status': video_info['status']['privacyStatus']
            }
            videos_data.append(video_data)
    
    return pd.DataFrame(videos_data)

def get_analytics_data(analytics, video_id, start_date, end_date):
    """YouTube Analytics API Abfrage für detaillierte Metriken"""
    # Unverändert vom Original
    ...

def main():
    try:
        print("1. Lade Video-IDs aus der bereinigten Datei...")
        cleaned_video_df = pd.read_csv("cleaned_datenpaket2.csv")
        video_ids = cleaned_video_df['video_id'].tolist()
        print(f"   - {len(video_ids)} Video-IDs geladen")
        
        print("\n2. Hole Basis-Videodaten über YouTube Data API v3...")
        video_df = get_video_data_from_list(video_ids)
        print(f"   - {len(video_df)} Videodaten abgerufen")

        print("\n3. Hole Analytics-Daten über YouTube Analytics API...")
        flow = InstalledAppFlow.from_client_secrets_file(CREDENTIALS_PATH, SCOPES)
        credentials = flow.run_local_server(port=0)
        analytics = build('youtubeAnalytics', 'v2', credentials=credentials)
        
        # Start- und Enddatum festlegen
        start_date = datetime.strptime(START_DATE, '%d.%m.%Y')
        end_date = datetime.strptime(END_DATE, '%d.%m.%Y')

        # Analytics-Daten sammeln
        analytics_data = []
        for index, row in video_df.iterrows():
            print(f"   - Verarbeite Video {index + 1} von {len(video_df)}: {row['video_id']}")
            data = get_analytics_data(analytics, row['video_id'], start_date, end_date)
            if data:
                analytics_data.append(data)

        analytics_df = pd.DataFrame(analytics_data)
        
        # Merge original cleaned file with API results
        final_df = pd.merge(cleaned_video_df, video_df, on='video_id', how='left')  # Basisdaten
        final_df = pd.merge(final_df, analytics_df, on='video_id', how='left')     # Analytics-Daten

        output_filename = f'youtube_analysis_with_cleaned_{datetime.now().strftime("%Y%m%d_%H%M%S")}.csv'
        final_df.to_csv(output_filename, index=False)

        print(f"\nAnalyse abgeschlossen!")
        print(f"Daten wurden in {output_filename} gespeichert")
        
    except Exception as e:
        print(f"Ein Fehler ist aufgetreten: {str(e)}")


if __name__ == "__main__":
    main()


Der Folgende Code ruft bestimmte video_ids ab, die in einer cs gespeichert sind.
Der Code ist so eingerichtet, dass er:

Kontinuierlich in die CSV-Datei speichert
Einen Checkpoint für den letzten verarbeiteten Index anlegt
Fortschrittsinformationen ausgibt.
Der Code kann unterbrochen werden und arbeitet bei Wiederaufnahme an der letzten Stelle fort. 
Weietre Merkmale:
Explizite Float-Konvertierung der Prozentwerte
Mehr Debug-Ausgaben um zu sehen, was genau passiert
Verhinderung der String-Formatierung beim Speichern
Verifikation der gespeicherten Daten
Verwendung von Komma als Dezimaltrennzeichen
Semikolon als Spaltentrenner
Formatierung aller numerischen Werte auf 2 Nachkommastellen

In [1]:
# API Konfiguration - Hier Ihre Werte eintragen
CHANNEL_ID = "UCSeil5V81-mEGB1-VNR7YEA"  # Ihre YouTube Channel ID
DATA_API_V3_KEY = "AIzaSyCBw3tVk-TnYLCZW2vmojQlYFBArzudU-A"  # API Key für YouTube Data API v3
CREDENTIALS_PATH = "C:\\Users\\laukat\\OneDrive - Mediengruppe RTL\\HDM Data Analyti\\oauth 2.0\\client_secret_796311161257-bnk32mvms5t9fsfma7agbgrlt5fo54gi.apps.googleusercontent.com.json"

# Datum Konfiguration
START_DATE = "01.01.2000"

from googleapiclient.discovery import build
from google_auth_oauthlib.flow import InstalledAppFlow
from datetime import datetime, timedelta
import pandas as pd
import json
import os
import time

# OAuth 2.0 Scopes
SCOPES = ['https://www.googleapis.com/auth/yt-analytics.readonly']

# Konstanten
CHECKPOINT_FILE = 'analytics_checkpoint.json'
OUTPUT_FILE = 'youtube_demographic_analysis_continuous.csv'

def read_csv_with_encoding(file_path):
    """Versucht die CSV-Datei mit verschiedenen Encodings zu lesen"""
    encodings = ['utf-8', 'iso-8859-1', 'cp1252', 'latin1']
    
    for encoding in encodings:
        try:
            print(f"Versuche Encoding: {encoding}")
            return pd.read_csv(file_path, encoding=encoding, sep=';')
        except UnicodeDecodeError:
            continue
        except Exception as e:
            print(f"Fehler beim Lesen der Datei mit {encoding}: {str(e)}")
            continue
    
    raise Exception("Konnte die Datei mit keinem der verfügbaren Encodings lesen")

def save_to_csv(data, filename):
    """Speichert oder aktualisiert die CSV-Datei mit deutschen Zahlenformat"""
    try:
        # Wenn Datei existiert, lade bestehende Daten
        if os.path.exists(filename):
            df_existing = pd.read_csv(filename, sep=';', decimal=',')
            df_new = pd.DataFrame([data])
            df_combined = pd.concat([df_existing, df_new], ignore_index=True)
        else:
            # Erste Daten
            df_combined = pd.DataFrame([data])
        
        # Formatiere alle numerischen Spalten
        for col in df_combined.columns:
            if col != 'video_id':
                # Konvertiere zu numerisch falls noch nicht geschehen
                df_combined[col] = pd.to_numeric(df_combined[col], errors='ignore')
                # Formatiere mit deutschem Format (Komma statt Punkt)
                df_combined[col] = df_combined[col].apply(lambda x: f"{x:.2f}".replace('.', ','))
        
        # Speichere mit Semikolon als Trenner
        df_combined.to_csv(filename, sep=';', index=False, encoding='utf-8-sig')
        
        print("\nDaten erfolgreich gespeichert")
        return True
        
    except Exception as e:
        print(f"Fehler beim Speichern: {str(e)}")
        return False

def get_gender_age_analytics(analytics, video_id, start_date, end_date):
    """YouTube Analytics API Abfrage für Geschlechter- und Altersverteilung"""
    try:
        request = analytics.reports().query(
            dimensions='ageGroup,gender',
            ids=f'channel=={CHANNEL_ID}',
            metrics='viewerPercentage',
            filters=f'video=={video_id}',
            startDate=start_date.strftime('%Y-%m-%d'),
            endDate=end_date.strftime('%Y-%m-%d')
        )
        response = request.execute()
        
        # Initialisiere Dictionary mit allen möglichen Altersgruppen
        age_groups = ['13-17', '18-24', '25-34', '35-44', '45-54', '55-64', '65-']
        data = {
            'video_id': video_id
        }
        for age in age_groups:
            data[f'audience_female_age{age}'] = 0.0  # Explizit als float
            data[f'audience_male_age{age}'] = 0.0    # Explizit als float
            
        value_count = 0
        total_percentage = 0
            
        if 'rows' in response:
            print(f"\nGefundene Werte für Video {video_id}:")
            for row in response['rows']:
                age_group = row[0]
                gender = row[1]
                percentage = float(row[2])  # Explizite Konvertierung zu float
                
                column_name = f'audience_{gender}_age{age_group}'
                data[column_name] = percentage
                print(f"{column_name}: {percentage:.1f}%")
                
                value_count += 1
                total_percentage += percentage
            
            print(f"\nDatenqualität:")
            print(f"Anzahl gefundener Werte: {value_count}")
            print(f"Summe der Prozente: {total_percentage:.1f}%")
            
            if value_count < 5:
                print("Zu wenige demografische Daten vorhanden - Datensatz wird übersprungen")
                return None
                
            if total_percentage < 20:
                print("Gesamtprozentsatz zu niedrig - Datensatz wird übersprungen")
                return None
            
            # Debug-Ausgabe der finalen Daten
            print("\nFinale Daten vor dem Speichern:")
            for key, value in data.items():
                print(f"{key}: {value}")
                
            return data
        else:
            print(f"\nKeine Daten für Video {video_id} gefunden")
            return None
            
    except Exception as e:
        if 'quota' in str(e).lower():
            print(f"Quota-Limit erreicht bei Video {video_id}")
            raise e
        print(f"Fehler bei Video {video_id}: {str(e)}")
        return None

def process_videos(analytics, video_ids, start_date, end_date, start_index=0):
    """Verarbeitet Videos und zeigt Fortschritt"""
    total_videos = len(video_ids)
    start_time = time.time()
    valid_data_count = 0
    skipped_data_count = 0
    
    try:
        for index, video_id in enumerate(video_ids[start_index:], start=start_index):
            current_time = time.time()
            videos_processed = index - start_index + 1
            
            if videos_processed > 0:
                time_per_video = (current_time - start_time) / videos_processed
                videos_remaining = total_videos - (index + 1)
                estimated_time_remaining = timedelta(seconds=int(videos_remaining * time_per_video))
                
                print(f"\n{'='*50}")
                print(f"Video {index + 1} von {total_videos}: {video_id}")
                print(f"Durchschnittliche Zeit pro Video: {time_per_video:.1f} Sekunden")
                print(f"Geschätzte verbleibende Zeit: {estimated_time_remaining}")
                print(f"Bisher valide Datensätze: {valid_data_count}")
                print(f"Übersprungene Datensätze: {skipped_data_count}")
            
            data = get_gender_age_analytics(analytics, video_id, start_date, end_date)
            if data:
                if save_to_csv(data, OUTPUT_FILE):
                    valid_data_count += 1
                    print(f"Daten in {OUTPUT_FILE} gespeichert")
            else:
                skipped_data_count += 1
            
            # Speichere Checkpoint
            with open(CHECKPOINT_FILE, 'w') as f:
                json.dump({'last_processed_index': index}, f)
                
    except Exception as e:
        print(f"Fehler aufgetreten: {str(e)}")
        print(f"Letzter verarbeiteter Index: {index}")
        raise e

def main():
    try:
        # Lade Video-IDs mit korrektem Encoding
        print("Lade Video-IDs aus der bereinigten Datei...")
        video_df = read_csv_with_encoding("daten bereinigt dezimalzeichen fehlt in gender.csv")
        video_ids = video_df['video_id'].tolist()
        print(f"Geladen: {len(video_ids)} Videos")
        
        # Lade letzten Fortschritt
        start_index = -1
        if os.path.exists(CHECKPOINT_FILE):
            with open(CHECKPOINT_FILE, 'r') as f:
                start_index = json.load(f)['last_processed_index']
        
        # Initialisiere API
        flow = InstalledAppFlow.from_client_secrets_file(CREDENTIALS_PATH, SCOPES)
        credentials = flow.run_local_server(port=0)
        analytics = build('youtubeAnalytics', 'v2', credentials=credentials)
        
        # Setze Datumsgrenzen
        start_date = datetime.strptime(START_DATE, '%d.%m.%Y')
        end_date = datetime.now()
        
        print(f"Starte Verarbeitung ab Index {start_index + 1}")
        process_videos(analytics, video_ids, start_date, end_date, start_index + 1)
        
        print("\nVerarbeitung abgeschlossen!")
        
    except Exception as e:
        print(f"Fehler: {str(e)}")
        print("Sie können das Skript später neu starten - es wird am letzten Checkpoint fortgesetzt.")

if __name__ == "__main__":
    main()

Lade Video-IDs aus der bereinigten Datei...
Versuche Encoding: utf-8
Versuche Encoding: iso-8859-1
Geladen: 2536 Videos
Please visit this URL to authorize this application: https://accounts.google.com/o/oauth2/auth?response_type=code&client_id=796311161257-bnk32mvms5t9fsfma7agbgrlt5fo54gi.apps.googleusercontent.com&redirect_uri=http%3A%2F%2Flocalhost%3A53354%2F&scope=https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fyt-analytics.readonly&state=xbHFXVhn42aEFxkQN1zr67A19k8clM&access_type=offline
Starte Verarbeitung ab Index 2536

Verarbeitung abgeschlossen!
