# Was ist und kann Transformers?
Kurze Einführung und Vorstellung der Funktionen des transformers python packages

In [None]:
# Installation des Pakets (Nicht notwendig bei Google Colab)
!pip install pandas transformers torchaudio pydub

## Transkription von Audiodateien

In [None]:
from transformers import pipeline

# Neue Pipeline erstellen und Aufgabe zuweisen


## Testdaten

In [None]:
!pip install datasets

In [None]:
from datasets import load_dataset

# Datensätze laden und untersuchen

# Analyse von Nachrichtenartikeln
In diesem Abschnitt verwenden wir verschiedene NLP-Tools von Hugging Face, um einen großen Datensatz voller Spiegel-Artikel zu analysieren. Mit Hilfe von Transformer-Modellen führen wir Sentiment-Analyse, Named Entity Recognition (NER) und Topic Modeling durch, um wichtige Einblicke in die Artikel zu gewinnen.

Archiv unter: https://www.spiegel.de/spiegel/print/index-2002-1.html

### Ziel:
- Laden und Verarbeiten großer JSON-Datensätze in Chunks
- Durchführung von Sentiment-Analyse und NER auf Artikeldaten
- Visualisierung und Analyse der Ergebnisse

**Benötigte Zeit:** ~1-2 Stunden


## 1. Setup und Laden der JSON-Daten in Chunks
Wir beginnen mit der Installation der notwendigen Bibliotheken und laden die JSON-Daten in verwaltbaren Chunks, damit wir große Dateien effizient verarbeiten können.

In [None]:
# Bibliotheken importieren
import json
import pandas as pd
from transformers import pipeline

# JSON-Daten in Chunks laden
def load_json_from_github_in_chunks(url, chunk_size=1000):
    response = requests.get(url)
    data = response.json()
    articles = list(data.values())
    for i in range(0, len(articles), chunk_size):
        yield articles[i:i + chunk_size]

# Pfad zur Datei angeben (Pfad entsprechend in Google Colab anpassen oder direkt von URL ziehen)
github_url = 'https://raw.githubusercontent.com/dajo51/hands-on-msc-journalismus/main/data_2009.json'

# Beispiel-Chunks laden und Struktur inspizieren
sample_chunk = next(load_json_from_github_in_chunks(github_url))
df_sample = pd.DataFrame(sample_chunk)
df_sample.head()

## 2. Extrahieren und Verarbeiten der Schlüsselinformationen
Wir transformieren die JSON-Daten in ein DataFrame-Format, um sie leichter analysieren zu können. Hier extrahieren wir Felder wie `title`, `description`, `text` und `keywords`.

In [None]:

# Funktion zum Extrahieren der Schlüssel-Felder

# Beispiel-Chunks verarbeiten

# Test Datensatz erstellen

    

## 3. Sentiment-Analyse auf Artikelbeschreibungen
Wir verwenden ein Transformer-Modell, das speziell für die deutsche Sprache trainiert wurde, um die Stimmung der Artikelbeschreibungen zu analysieren.

In [None]:

# Sentiment-Analyse Pipeline mit einem deutschen Modell initialisieren

# Sentiment-Analyse auf die Beschreibungen anwenden

# Ergebnisse anzeigen


## 4. Named Entity Recognition (NER) auf Artikeltexten
Mit Hilfe eines multilingualen NER-Modells analysieren wir die wichtigsten Entitäten (z. B. Personen, Organisationen, Orte), die in den Artikeln genannt werden.

In [None]:

# NER-Pipeline mit einem multilingualen Modell für die deutsche Sprache

# NER auf den Artikeltext anwenden

# Ergebnisse anzeigen
    

In [None]:
# Hier ist Platz für euren Visualisierungen

## 5. Keyword-Extraktion aus dem Keyword-Feld
Wir analysieren die häufig vorkommenden Schlagwörter, um wiederkehrende Themen zu identifizieren.

In [None]:

from collections import Counter

# Schlagwörter splitten und Häufigkeiten zählen


# Umwandeln in DataFrame zur Visualisierung

    

## 6. Advanced: Topic Modeling auf Artikeltexten
Mit Topic Modeling können wir zugrunde liegende Themen in den Artikeln identifizieren.

In [None]:

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

# Textdaten für Topic Modeling vorbereiten

# LDA-Analyse durchführen

# Top-Wörter für jedes Thema anzeigen

    

## 7. Visualisierung der Sentiment- und Keyword-Analyse
Abschließend visualisieren wir die Häufigkeit der wichtigsten Schlagwörter sowie die Verteilung der Stimmung in den Artikelbeschreibungen.

In [None]:

import matplotlib.pyplot as plt

# Top-Schlagwörter plotten
plt.figure(figsize=(10, 6))
df_keywords.head(10).plot(kind='barh', x='Keyword', y='Frequency', legend=False, color='skyblue')
plt.title('Top-Schlagwörter in Artikeln')
plt.xlabel('Häufigkeit')
plt.show()

# Sentiment-Verteilung plotten
sentiment_counts = df_articles['sentiment'].value_counts()
plt.figure(figsize=(6, 6))
sentiment_counts.plot(kind='pie', autopct='%1.1f%%', startangle=140)
plt.title('Sentiment-Verteilung in Artikelbeschreibungen')
plt.show()
    

## 8. Zusammenfassung
In diesem Notebook haben wir verschiedene NLP-Methoden auf einen großen Datensatz von deutschen Nachrichtenartikeln angewendet. Durch Sentiment-Analyse, Named Entity Recognition und Topic Modeling haben wir nützliche Erkenntnisse aus den Artikeldaten gewonnen. Diese Methoden können weiter genutzt werden, um tiefere Analysen in journalistischen Projekten durchzuführen.

## 9. Gruppenübung
Habt ihr Ideen zur Analyse, Auswertung und Visualisierung der Spiegel Daten oder eines eigenes Datensatzes? 

In [None]:
# Hier starten