# Bundestags-API anzapfen
#### click&collect AfD Data

In diesem Projekt analysieren wir die Aktivitäten der AfD im Bundestag im Jahr 2024. Dazu verwenden wir die Bundestags-API, um Informationen über die Abgeordneten und deren parlamentarische Aktionen zu sammeln. Wir filtern alle relevanten Aktivitäten und verfolgen diese bis auf die einzelnen AfD-Abgeordneten zurück.

Wir nutzen Python und Jupyter Notebooks, um diese Daten effizient zu verarbeiten und zu analysieren.

__"Gemeinsam die Bundestags-API anzapfen"__



### Nutzungsbedingungen für das Dokumentations- und Informationssystem für Parlamentsmaterialien (DIP)

https://dip.bundestag.de/%C3%BCber-dip/nutzungsbedingungen


#### Bereitstellung der Daten

Die Daten des Dokumentations- und Informationssystems für Parlamentsmaterialien (DIP) werden unentgeltlich zur Verfügung gestellt.


Die DIP-Daten können über die DIP-Rechercheoberfläche oder über eine Anwendungsschnittstelle (API) abgerufen und heruntergeladen werden. Der Datenbestand ist bei beiden Zugängen identisch.


Für maschinengesteuerte Zugriffe ist die bereitgestellte API zu nutzen. Ein gültiger API-Schlüssel muss bei jeder Abfrage als Parameter mitgeliefert werden. Ein öffentlich verfügbarer API-Schlüssel steht auf der API-Hilfeseite zur Verfügung. Bei missbräuchlicher Nutzung kann dieser kurzfristig ausgetauscht werden. Alternativ kann ein personalisierter und dauerhaft gültiger API-Schlüssel per E-Mail angefordert werden.

#### Regeln für erweiterte Nutzung

Bei der Nutzung von DIP-Daten über den persönlichen Gebrauch hinaus gelten folgende Regeln:
   - PDF-Dokumente dürfen nicht verändert werden, können aber auszugsweise genutzt werden.
   - Maschinenlesbare Daten dürfen umfassend genutzt und weiterverarbeitet werden, mit Quellenangabe und Kenntlichmachung von Änderungen.
   - Als Quelle ist "Deutscher Bundestag/Bundesrat – DIP" anzugeben.
   - Kommerzielle Nutzung erfordert einen Hinweis auf die kostenfreie Verfügbarkeit der Daten in DIP.


Die Nutzung von DIP-Daten in sinnentstellendem Zusammenhang oder zur Herabwürdigung ist untersagt.

Es wird keine Haftung für die Richtigkeit der DIP-Daten übernommen. Nutzungsrechte des Deutschen Bundestages und Bundesrates sind im Rahmen der Nutzungsbedingungen zulässig, jedoch ohne Gewähr für Rechte Dritter. Nutzer sind für die Klärung dieser Rechte verantwortlich und haften bei Verletzung. Der Deutsche Bundestag wird von Ansprüchen Dritter freigestellt.

_________


### Nutzung der DIP-API

Die API des Dokumentations- und Informationssystems für Parlamentsmaterialien (DIP) ermöglicht ausschließlich lesenden Zugriff auf die Inhalte. Über die API können Informationen zu Vorgängen, Vorgangspositionen, Aktivitäten, Personen, Drucksachen und Plenarprotokollen sowie deren zugehörige Metadaten abgefragt werden.

#### Voraussetzungen

Für die Nutzung der API ist ein API-Key erforderlich. Der aktuell gültige öffentliche API-Key lautet:  

`I9FKdCn.hbfefNWCY336dL6x62vfwNKpoN2RZ1gp21`  

Dieser Key ist bis Ende Mai 2025 gültig. Alternativ kann ein eigener API-Key mit einer Laufzeit von zunächst zehn Jahren beantragt werden. Anfragen dazu sind per E-Mail an `parlamentsdokumentation@bundestag.de` zu richten.

#### Dokumentation der API

Die API-Dokumentation ist in verschiedenen Formaten verfügbar:
- **PDF-Kurzdokumentation**

https://dip.bundestag.de/documents/informationsblatt_zur_dip_api.pdf

- **Swagger UI**

https://search.dip.bundestag.de/api/v1/swagger-ui/
  
- **OpenAPI YAML**

vollständige API-Dokumentation:

https://dip.bundestag.de/%C3%BCber-dip/hilfe/api#content

Für die Nutzung der DIP-Datenbank gelten die offiziellen [Nutzungsbedingungen](https://dip.bundestag.de/documents/nutzungsbedingungen_dip.pdf).


_________________


### Technische Details

Die API ist als RESTful Web Service unter der Basis-URL `https://search.dip.bundestag.de/api/v1` verfügbar. Es werden ausschließlich lesende HTTP-Anfragen (`GET`, `HEAD`, `OPTIONS`) unterstützt.  

Die Antwortformate sind:
- `application/json`
- `application/xml`  
Das Format kann über den Parameter `format` gesteuert werden.

#### API-Key-Verwendung

Der API-Key kann auf zwei Arten übermittelt werden:
1. **Authorization Header**:
   ```
   Authorization: ApiKey I9FKdCn.hbfefNWCY336dL6x62vfwNKpoN2RZ1gp21
   ```
2. **Anfrageparameter**:
   ```
   ?apikey=I9FKdCn.hbfefNWCY336dL6x62vfwNKpoN2RZ1gp21
   ```

#### Aufbau der URLs

Die URL-Struktur der API folgt einem konsistenten Schema:
- `https://search.dip.bundestag.de/api/v1/{ressourcentyp}`: Liefert eine Liste aller Entitäten eines bestimmten Ressourcentyps.
- `https://search.dip.bundestag.de/api/v1/{ressourcentyp}/{id}`: Liefert eine spezifische Entität anhand ihrer ID.

Beispiele für Ressourcentypen:  
`vorgang`, `plenarprotokoll`, `drucksache`.

#### Beispiele

Anfrage einer einzelnen Entität:  
`GET https://search.dip.bundestag.de/api/v1/plenarprotokoll/908?apikey=I9FKdCn.hbfefNWCY336dL6x62vfwNKpoN2RZ1gp21`

Beispielantwort:
```json
{
  "id": "908",
  "typ": "Dokument",
  "dokumentart": "Plenarprotokoll",
  "titel": "Protokoll der 1. Sitzung des 19. Deutschen Bundestages",
  "dokumentnummer": "19/1",
  "wahlperiode": 19,
  "herausgeber": "BT",
  "datum": "2017-10-24",
  "fundstelle": {
    "pdf_url": "https://dserver.bundestag.de/btp/19/19001.pdf",
    "dokumentnummer": "19/1",
    "datum": "2017-10-24",
    "verteildatum": "2017-10-25"
  }
}
```






__________

### ausgewählte API-Endpunkte

#### Vorgänge

- **GET /vorgang**
  - Liefert eine Liste von Metadaten zu Vorgängen.

- **GET /vorgang/{id}**
  - Liefert Metadaten zu einem Vorgang.

#### Vorgangspositionen

- **GET /vorgangsposition**
  - Liefert eine Liste von Metadaten zu Vorgangspositionen.

#### Drucksachen

- **GET /drucksache**
  - Liefert eine Liste von Metadaten zu Drucksachen.

- **GET /drucksache/{id}**
  - Liefert Metadaten zu einer Drucksache.

- **GET /drucksache-text**
  - Liefert eine Liste von Volltexten und Metadaten zu Drucksachen.

- **GET /drucksache-text/{id}**
  - Liefert Volltext und Metadaten zu einer Drucksache.

#### Plenarprotokolle

- **GET /plenarprotokoll**
  - Liefert eine Liste von Metadaten zu Plenarprotokollen.

- **GET /plenarprotokoll/{id}**
  - Liefert Metadaten zu einem Plenarprotokoll.

- **GET /plenarprotokoll-text**
  - Liefert eine Liste von Volltexten und Metadaten zu Plenarprotokollen.

- **GET /plenarprotokoll-text/{id}**
  - Liefert Volltext und Metadaten zu einem Plenarprotokoll.

#### Aktivitäten

- **GET /aktivitaet**
  - Liefert eine Liste von Metadaten zu Aktivitäten.

- **GET /aktivitaet/{id}**
  - Liefert Metadaten zu einer Aktivität.

#### Personenstammdaten

- **GET /person**
  - Liefert eine Liste von Personenstammdaten.

- **GET /person/{id}**
  - Liefert Personenstammdaten zu einer Person.
 
    
__________


### API-Parameter

#### Allgemeine Anfrageparameter

- **format (query)**
  - Steuert das Datenformat der Antwort, möglich sind JSON (voreingestellt) oder XML.
  - **Available values**: `json`, `xml`
  - **Default value**: `json`

- **cursor (query)**
  - Position des Cursors zur Anfrage weiterer Entitäten, verwendet für die Paginierung.

#### ausgewählte Filterparameter

- **f.aktualisiert.start und f.aktualisiert.end (query)**
  - Selektiert Entitäten basierend auf dem Aktualisierungsdatum.

- **f.datum.start und f.datum.end (query)**
  - Selektiert Entitäten basierend auf dem Dokumentdatum.

- **f.dokumentnummer (query)**
  - Dokumentnummer einer Drucksache oder eines Plenarprotokolls.

- **f.vorgangstyp (query)**
  - Selektiert Entitäten basierend auf dem Vorgangstyp.

### Antwortcodes

- **200**: Erfolgreiche Anfrage mit Rückgabe der Metadaten.
- **400**: Syntaxfehler in einem der Anfrageparameter.
- **401**: Ein gültiger API-Key ist erforderlich.
- **404**: Die angefragte Entität wurde nicht gefunden.



___________
_____________

## Bundestags-API GET-Aktivitäten-Endpunkt

Ein geschäftiges Treiben in der großen Halle der freien Meinungsäußerungen.

Der **GET /aktivitaet** Endpunkt der Bundestags-API bietet detaillierte Informationen über parlamentarische Aktivitäten. Jede Aktivität hat eine eindeutige ID und wird als Typ "Aktivität" klassifiziert. Die Art der Aktivität wird beschrieben, etwa als "Rede" oder "Antrag". Zudem wird die Dokumentart angegeben, die zeigt, ob die Aktivität mit einem "Plenarprotokoll" oder einer "Drucksache" verknüpft ist. Die Wahlperiode gibt an, in welcher Legislaturperiode die Aktivität stattgefunden hat. Das Datum der Aktivität und das letzte Aktualisierungsdatum helfen bei der zeitlichen Einordnung. 

Verknüpfte Dokumente und Quellen sind ebenfalls detailliert beschrieben. Die Fundstelle liefert Informationen über das verknüpfte Dokument, einschließlich der ID, Dokumentart, PDF-URL, Dokumentnummer, Drucksachetyp und Herausgeber. Diese Details helfen, die Quelle der Aktivität nachzuvollziehen. Angaben über den Urheber und das Verteilungsdatum des Dokuments sind ebenfalls enthalten. Seitenangaben, wie Anfangs- und Endseite sowie Seitenquadranten, erleichtern die Lokalisierung der Aktivität im Dokument. Fragenummern und zusätzliche Anhänge, wie Gutachtenverzeichnisse, werden aufgelistet. Informationen über den Tagesordnungspunkt, der im Plenarprotokoll behandelt wird, sind ebenfalls vermerkt.

Der Vorgangsbezug liefert Details über den Zusammenhang der Aktivität mit bestimmten Vorgängen, einschließlich Titel und Typ des Vorgangs, wie "Ansprache/Erklärung/Mitteilung". Deskriptoren beschreiben die Themen der Aktivität, wie "Parlamentarische Geschäftsordnung", und helfen, die Aktivität in den Kontext parlamentarischer Themen einzuordnen. 



In [None]:
import requests
import sqlite3
import datetime

API_KEY = 'I9FKdCn.hbfefNWCY336dL6x62vfwNKpoN2RZ1gp21'  # öffentlicher API-Key
API_URL = 'https://search.dip.bundestag.de/api/v1/aktivitaet'

def create_database():
    conn = sqlite3.connect('aktivitaeten.db')
    cursor = conn.cursor()
    cursor.execute('''
        CREATE TABLE IF NOT EXISTS aktivitaeten (
            id INTEGER PRIMARY KEY,
            aktivitaetsart TEXT,
            typ TEXT,
            dokumentart TEXT,
            wahlperiode INTEGER,
            datum TEXT,
            aktualisiert TEXT,
            titel TEXT,
            dokumentnummer TEXT,
            urheber TEXT,
            vorgangsbezug TEXT,
            deskriptor TEXT,
            abstract TEXT
        )
    ''')
    conn.commit()
    conn.close()

def fetch_data():
    headers = {
        'Authorization': f'ApiKey {API_KEY}',
        'Accept': 'application/json'
    }

    params = {
        'format': 'json',
        'f.datum.start': '2024-01-01',
        'f.datum.end': '2024-12-31'
    }

    all_data = []
    cursor = None

    while True:
        if cursor:
            params['cursor'] = cursor

        response = requests.get(API_URL, headers=headers, params=params)
        if response.status_code != 200:
            print(f'Fehler {response.status_code}: {response.text}')
            break

        data = response.json()
        documents = data.get('documents', [])
        all_data.extend(documents)

        new_cursor = data.get('cursor')
        if not new_cursor or new_cursor == cursor:
            break
        cursor = new_cursor

    return all_data

def save_data(data):
    conn = sqlite3.connect('aktivitaeten.db')
    cursor = conn.cursor()
    for activity in data:
        try:
            cursor.execute('''
                INSERT OR REPLACE INTO aktivitaeten (
                    id, aktivitaetsart, typ, dokumentart, wahlperiode,
                    datum, aktualisiert, titel, dokumentnummer, urheber,
                    vorgangsbezug, deskriptor, abstract
                ) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
            ''', (
                int(activity['id']),
                activity.get('aktivitaetsart'),
                activity.get('typ'),
                activity.get('dokumentart'),
                activity.get('wahlperiode'),
                activity.get('datum'),
                activity.get('aktualisiert'),
                activity.get('titel'),
                activity.get('fundstelle', {}).get('dokumentnummer'),
                ', '.join(activity.get('fundstelle', {}).get('urheber', [])),
                ', '.join([f"{vb['titel']} ({vb['vorgangstyp']})"
                           for vb in activity.get('vorgangsbezug', [])]),
                ', '.join([d['name'] for d in activity.get('deskriptor', [])]),
                activity.get('abstract')
            ))
        except Exception as e:
            print(f'Fehler bei ID {activity["id"]}: {e}')
    conn.commit()
    conn.close()

def main():
    create_database()
    data = fetch_data()
    if data:
        save_data(data)
        print(f'{len(data)} Aktivitäten aus 2024 wurden gespeichert.')
    else:
        print('Keine neuen Aktivitäten gefunden.')

if __name__ == '__main__':
    main()

 Der bereitgestellte Code verwendet die sqlite3-Bibliothek, um eine Verbindung zur SQLite-Datenbank aktivitaeten.db herzustellen und führt eine SQL-Abfrage aus, um alle Daten aus der Tabelle aktivitaeten abzurufen. Diese Daten werden in einen Pandas DataFrame geladen, indem die Funktion load_data_into_dataframe() verwendet wird. 
Der resultierende DataFrame enthält Informationen über verschiedene Aktivitäten, darunter eine eindeutige ID, die Art der Aktivität (z. B. "Frage" oder "Antwort"), den Typ (wahrscheinlich immer "Aktivität"), die Dokumentart (z. B. "Plenarprotokoll"), die Wahlperiode, das Datum der Aktivität, den Zeitpunkt der letzten Aktualisierung, den Titel oder die Beschreibung der Aktivität, die Dokumentnummer, den Urheber, den Vorgangsbezug, Deskriptoren und eine Zusammenfassung, falls verfügbar. 

Gelistet werden __35099 Einträge__ aus der Bundestags-API gespeicherten Information für `Aktivitäten` in 2024 im Bundestag.

In [31]:
import sqlite3
import pandas as pd

def load_data_into_dataframe():
    # Verbindung zur SQLite-Datenbank herstellen
    conn = sqlite3.connect('aktivitaeten.db')
    
    # SQL-Abfrage, um alle Daten aus der Tabelle zu erhalten
    query = 'SELECT * FROM aktivitaeten'
    
    # Laden der Daten in einen Pandas DataFrame
    df = pd.read_sql_query(query, conn)
    
    # Schließen der Datenbankverbindung
    conn.close()
    
    return df

if __name__ == '__main__':
    # Daten in den DataFrame laden
    df = load_data_into_dataframe()


In [32]:
df

Unnamed: 0,id,aktivitaetsart,typ,dokumentart,wahlperiode,datum,aktualisiert,titel,dokumentnummer,urheber,vorgangsbezug,deskriptor,abstract
0,1670304,Antwort,Aktivität,Plenarprotokoll,20,2024-02-21,2024-06-13T10:08:06+02:00,"Benjamin Strasser, Parl. Staatssekr., Bundesmi...",20/153,,Aufwand der geplanten Tilgung früherer Verurte...,,
1,1670307,Frage,Aktivität,Plenarprotokoll,20,2024-02-21,2024-06-13T10:08:06+02:00,"Max Straubinger, MdB, CDU/CSU",20/153,,Einnahmeverluste der Sozialversicherungen durc...,,
2,1670308,Antwort,Aktivität,Plenarprotokoll,20,2024-02-21,2024-06-13T10:08:06+02:00,"Anette Kramme, Parl. Staatssekr., Bundesminist...",20/153,,Einnahmeverluste der Sozialversicherungen durc...,,
3,1670309,Frage,Aktivität,Plenarprotokoll,20,2024-02-21,2024-06-13T10:08:06+02:00,"Matthias W. Birkwald, MdB, DIE LINKE",20/153,,Entwicklung der Anzahl von Über-65-Jährigen mi...,,
4,1670310,Antwort,Aktivität,Plenarprotokoll,20,2024-02-21,2024-06-13T10:08:06+02:00,"Anette Kramme, Parl. Staatssekr., Bundesminist...",20/153,,Entwicklung der Anzahl von Über-65-Jährigen mi...,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
35095,1706245,Frage,Aktivität,Drucksache,20,2024-12-13,2025-01-08T14:25:38+01:00,"Barbara Benkstein, MdB, AfD",20/14188,,Mögliche Beeinflussung der Bundestagswahl 2025...,,
35096,1706246,Antwort,Aktivität,Drucksache,20,2024-12-13,2025-01-08T14:25:56+01:00,"Rita Schwarzelühr-Sutter, Parl. Staatssekr., B...",20/14188,,Mögliche Beeinflussung der Bundestagswahl 2025...,,
35097,1706247,Frage,Aktivität,Drucksache,20,2024-12-13,2025-01-08T14:37:03+01:00,"Michael Brand (Fulda), MdB, CDU/CSU",20/14188,,,,
35098,1706248,Antwort,Aktivität,Drucksache,20,2024-12-13,2025-01-08T14:37:21+01:00,"Rita Schwarzelühr-Sutter, Parl. Staatssekr., B...",20/14188,,,,


_____________

##  Aktivitäten des Olaf Scholz am 11.Dezember 2024

###  Antrag des Bundeskanzlers Olaf Scholz gemäß Artikel 68 des Grundgesetzes (Vertrauensantrag des Bundeskanzlers)

In diesem Codeausschnitt wird die Aktivität von Olaf Scholz am 11. Dezember 2024 aus der Datenbank gefiltert. Bundestags-API macht **politische Aktivitäten nachvollziehbar**.

In [33]:
df_filtered_date = df[df['datum'] == '2024-12-11']

# Weiterfiltern nach Titel "Olaf Scholz"
df_filtered_title = df_filtered_date[df_filtered_date['titel'].str.contains('Olaf Scholz', na=False)]

# gewünschte Spalten
df_selected = df_filtered_title[['datum','aktivitaetsart', 'titel', 'urheber', 'vorgangsbezug']]

# Ausgabe
for index, row in df_selected.iterrows():
    print(f"Aktivitaetsart: {row['aktivitaetsart']}")
    print(f"Aktivitaetsart: {row['datum']}")
    print(f"Titel: {row['titel']}")
    print(f"Urheber: {row['urheber']}")
    print(f"Vorgangsbezug: {row['vorgangsbezug']}")
    print("\n" + "-"*50 + "\n")



Aktivitaetsart: Antrag
Aktivitaetsart: 2024-12-11
Titel: Olaf Scholz, Bundeskanzl.
Urheber: 
Vorgangsbezug: Antrag des Bundeskanzlers Olaf Scholz gemäß Artikel 68 des Grundgesetzes (Vertrauensantrag des Bundeskanzlers)

--------------------------------------------------



___________

### politische Aktivität der Fraktion "Alternative für Deutschland" (AfD) in Bundestag 2024

Wir filtern alle Einträge aus der Spalte `titel`die die Kennung der Fraktion __AfD__ stehen haben.

In [34]:
afd_entries = df[df['titel'].str.contains('AfD', case=False, na=False)]
afd_entries



Unnamed: 0,id,aktivitaetsart,typ,dokumentart,wahlperiode,datum,aktualisiert,titel,dokumentnummer,urheber,vorgangsbezug,deskriptor,abstract
31,1670339,Frage,Aktivität,Plenarprotokoll,20,2024-02-21,2024-06-13T10:08:06+02:00,"Thomas Seitz, MdB, AfD",20/153,,"Auftragsvergabe der Studie ""StopptCOVID"" ohne ...",,
33,1670341,Kleine Anfrage,Aktivität,Drucksache,20,2024-02-22,2024-05-08T10:00:11+02:00,"Thomas Seitz, MdB, AfD",20/10453,Fraktion der AfD,Zwischenbilanz der deutschen Mitgliedschaft in...,,
34,1670342,Kleine Anfrage,Aktivität,Drucksache,20,2024-02-22,2024-04-03T09:51:16+02:00,"Mike Moncsek, MdB, AfD",20/10453,Fraktion der AfD,Zwischenbilanz der deutschen Mitgliedschaft in...,,
35,1670343,Kleine Anfrage,Aktivität,Drucksache,20,2024-02-22,2024-04-03T09:51:16+02:00,"Sebastian Münzenmaier, MdB, AfD",20/10453,Fraktion der AfD,Zwischenbilanz der deutschen Mitgliedschaft in...,,
36,1670344,Kleine Anfrage,Aktivität,Drucksache,20,2024-02-22,2024-04-03T09:51:16+02:00,"Klaus Stöber, MdB, AfD",20/10453,Fraktion der AfD,Zwischenbilanz der deutschen Mitgliedschaft in...,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
35085,1706235,Frage,Aktivität,Drucksache,20,2024-12-13,2025-01-08T13:45:15+01:00,"Sebastian Münzenmaier, MdB, AfD",20/14188,,In Rheinland-Pfalz gemeldete syrische Staatsan...,,
35087,1706237,Frage,Aktivität,Drucksache,20,2024-12-13,2025-01-08T13:45:15+01:00,"Stephan Protschka, MdB, AfD",20/14188,,Anschläge und Sabotageakte auf landwirtschaftl...,,
35091,1706241,Frage,Aktivität,Drucksache,20,2024-12-13,2025-01-08T13:45:15+01:00,"Eugen Schmidt, MdB, AfD",20/14188,,Bearbeitung einer gemeldeten Aussage durch die...,,
35093,1706243,Frage,Aktivität,Drucksache,20,2024-12-13,2025-01-08T14:18:36+01:00,"Roger Beckamp, MdB, AfD",20/14188,,"Erläuterung der Formulierung ""Selbstbeschreibu...",,


Es wurden __8493 Aktivitäten__ indentifiziert. Keine Gewähr auf Vollständigkeit.


___________

#### Dataframe-to-csv

Zum weiteren Gebrauch

In [35]:
# afd-entries_dataframes to csv
afd_entries.to_csv('afd_entries.csv', index=False)

__________

### Wortwolken zum Vorgangsbezug

Eine Wortwolke ist eine visuelle Darstellung von Textdaten, bei der die Häufigkeit von Wörtern durch die Größe und Farbe der Wörter im Bild dargestellt wird. In diesem Fall wird die Wortwolke so angepasst, dass die Farben der Wörter basierend auf einem Bild festgelegt werden. Die Datenquelle ist eine CSV-Datei namens afd_entries.csv, und wir verwenden lediglich die Inhalte aus der Spalte `vorgangsbezug`.

In [None]:
import numpy as np
import pandas as pd
from PIL import Image
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from collections import Counter
import re

# Bild laden und in ein numpy-Array umwandeln für die Masken- und Farbdaten
image_path = 'logo_postprocess.png'
mask = np.array(Image.open(image_path))
image_color = Image.open(image_path).convert('RGB')
np_image_rgb = np.array(image_color)

# Funktion, um dominante Farben aus einem Bild mit K-Means Clustering zu extrahieren
def get_dominant_colors(image, n_colors=3):
    pixels = np.float32(image.reshape(-1, 3))
    clt = KMeans(n_clusters=n_colors)
    clt.fit(pixels)
    return clt.cluster_centers_

# Extraktion der dominanten Farben aus dem Bild
dominant_colors = get_dominant_colors(np_image_rgb, n_colors=3)

# Farbfunktion, die die Farbe jedes Wortes basierend auf seiner Position im Bild zuweist
def precise_color_func(word, font_size, position, orientation, random_state=None, **kwargs):
    x = int(position[1] + font_size / 2)
    y = int(position[0] + font_size / 2)
    if x >= np_image_rgb.shape[1] or y >= np_image_rgb.shape[0]:
        return "rgb(255, 255, 255)"  # Rückgabe weißer Farbe als Fallback
    color = np_image_rgb[y, x]
    return "rgb({},{},{})".format(color[0], color[1], color[2])

# CSV-Datei laden und Textinhalte aus der Spalte 'vorgangsbezug' extrahieren
df = pd.read_csv('afd_entries.csv')
all_text = ' '.join(df['vorgangsbezug'].dropna())
all_text = re.sub(r'[^a-zA-ZäöüÄÖÜß\s]', '', all_text).lower()
words = all_text.split()

# Blacklist für häufige Wörter
blacklist = set(["und", "da", "die", "ich", "auch", "ist", "der", "wir", "e", "sie", "dass", "für", "mit", "zu", "nicht", "haben", "den", "aber", "eine", "hat", "ein", "hier", "dann", "sind", "auf", "werden", "un", "man", "als", "schon", "noch", "wenn", "im", "alle", "sich", "immer", "von", "unsere", "jetzt", "sehr", "ganz", "oder", "mich", "dafür", "wird", "wie", "kann", "er"])

# Wörter filtern basierend auf der Blacklist
filtered_words = [word for word in words if word not in blacklist]
word_freq = Counter(filtered_words)

# Die 1400 am wenigsten häufigen Wörter finden
least_common_words = word_freq.most_common()[:-2801:-1]

# Erzeugen der Wortwolke mit den am wenigsten häufigen Wörtern
wc = WordCloud(
    background_color=None,
    mode="RGBA",
    max_words=2800,
    mask=mask,
    scale=6,  # Erhöhung der internen Auflösung
    color_func=precise_color_func,
    font_path='/usr/share/fonts/truetype/dejavu/DejaVuSans-Bold.ttf',
    max_font_size=20
).generate_from_frequencies(dict(least_common_words))

# Anzeigen der Wortwolke
plt.figure(figsize=(60, 60))
plt.imshow(wc, interpolation="bilinear")
plt.axis("off")
plt.savefig("high_quality_wordcloud_less.png")  # Speichern der Wortwolke als PNG-Datei in hoher Qualität
plt.show()

___________

### einzellne Personen der Gesamtaktivität der AfD in 2024

Die folgene Zeile sortiert alle Personen der AfD die in 2024 im Bundestag aktiv waren. 

In [47]:
unique_afd_titles = afd_entries['titel'].unique()
df_unique_titles = pd.DataFrame(unique_afd_titles, columns=['titel'])
df_unique_titles

Unnamed: 0,titel
0,"Thomas Seitz, MdB, AfD"
1,"Mike Moncsek, MdB, AfD"
2,"Sebastian Münzenmaier, MdB, AfD"
3,"Klaus Stöber, MdB, AfD"
4,"Steffen Janich, MdB, AfD"
...,...
75,"Jochen Haug, MdB, AfD"
76,"Albrecht Glaser, MdB, AfD"
77,"Dr. Alice Weidel, MdB, AfD"
78,"Volker Münz, MdB, AfD"


___________



### automatisierte DuckDuckGo-API Anfragen

Wir nutzen `pandas`, um Daten zu bändigen, `duckduckgo_search`, um das Internet zu durchstöbern, und `logging`, um unsere Heldentaten zu dokumentieren.  Für jeden Eintrag aus einem Dataframe `df_unique_titels` wird eine Websuche durchgeführt, um bis zu drei relevante Links zu erhalten. Diese Links werden dann in einer Liste gespeichert, wobei `None` eingefügt wird, falls weniger als drei Ergebnisse vorliegen. Um die API-Richtlinien einzuhalten, wird zwischen den Suchanfragen eine Pause von zwei Sekunden eingelegt.

#### Tiktok-Kanal Links extrahieren

Mit der Methode werden die offiziellen Kanäle von Bundestagsabgeordneten der AfD automatisiert gesammelt.
Der Suchanfrage werden die Wörter `TikTok` , `Kanal` , `Bundestag` hinzugefügt.

In [15]:
import pandas as pd
from duckduckgo_search import DDGS
import time
import logging

# Logdatei konfigurieren
logging.basicConfig(filename='logfile_duck1.log', level=logging.INFO, format='%(asctime)s - %(message)s')

# Instanz für die DuckDuckGo-Suche erstellen
search_instance = DDGS()

# Liste zur Speicherung der Suchergebnisse
search_results = []

# Durchlaufen der einzigartigen Titel
for title in unique_afd_titles:
    logging.info(f"Verarbeite Titel: {title}")
    
    # Suchtext erstellen
    search_query = f"{title} tiktok kanal bundestag"
    
    # Ergebnisse abrufen (maximal 3)
    results = list(search_instance.text(search_query, region="wt-wt", safesearch="moderate", max_results=3))
    
    # URLs der Ergebnisse extrahieren
    links = [res['href'] for res in results[:3]]  # Extrahiere die Links der ersten drei Ergebnisse
    links += [None] * (3 - len(links))  # Falls weniger als drei Ergebnisse vorliegen, mit None auffüllen
    
    # Füge die Ergebnisse der Liste hinzu
    search_results.append({
        'titel': title,
        'First Link': links[0],
        'Second Link': links[1],
        'Third Link': links[2]
    })
    
    # Log-Ausgabe der Ergebnisse
    logging.info(f"Ergebnisse für {title}: {links}")
    
    # Wartezeit, um API-Richtlinien einzuhalten
    time.sleep(2)

# Ergebnisse in einen DataFrame umwandeln und in eine CSV-Datei speichern
df_results = pd.DataFrame(search_results)
df_results.to_csv('afd_tiktok_links.csv', index=False, encoding='utf-8')

print("Suche abgeschlossen und Ergebnisse gespeichert.")

Suche abgeschlossen und Ergebnisse gespeichert.


#### Logging zur Laufzeit des Skripts (ca 3 min)

```bash


tail -f logfile_duck1.log


```text
2025-01-08 14:12:31,686 - Verarbeite Titel: Jochen Haug, MdB, AfD
2025-01-08 14:12:33,322 - response: https://lite.duckduckgo.com/lite/ 200 17282
2025-01-08 14:12:33,323 - Ergebnisse für Jochen Haug, MdB, AfD: ['https://www.tiktok.com/@jochenhaug_mdb', 'https://www.bundestag.de/abgeordnete/biografien/H/haug_jochen-857388', 'https://www.youtube.com/@JochenHaugMdB']
2025-01-08 14:12:35,323 - Verarbeite Titel: Albrecht Glaser, MdB, AfD
2025-01-08 14:12:37,667 - response: https://lite.duckduckgo.com/lite/ 200 17485
2025-01-08 14:12:37,668 - Ergebnisse für Albrecht Glaser, MdB, AfD: ['https://www.tiktok.com/@albrecht_glaser_mdb/video/7418244008813530401', 'https://www.youtube.com/@AlbrechtGlaserMdB', 'https://www.tiktok.com/@albrecht_glaser_mdb/video/7299464131663465760']
2025-01-08 14:12:39,668 - Verarbeite Titel: Dr. Alice Weidel, MdB, AfD
2025-01-08 14:12:41,092 - response: https://html.duckduckgo.com/html 200 26006
2025-01-08 14:12:41,093 - Ergebnisse für Dr. Alice Weidel, MdB, AfD: ['https://www.tiktok.com/@alice_weidel_afd', 'https://www.tiktok.com/@aliceweideltiktok', 'https://www.tiktok.com/@aliceweidel_afd']
2025-01-08 14:12:43,093 - Verarbeite Titel: Volker Münz, MdB, AfD
2025-01-08 14:12:44,449 - response: https://html.duckduckgo.com/html 200 24733
2025-01-08 14:12:44,451 - Ergebnisse für Volker Münz, MdB, AfD: ['https://www.bundestag.de/abgeordnete/biografien/M/muenz_volker-857792', 'https://www.youtube.com/@VolkerMünzMdB', 'https://www.tiktok.com/@afdfraktionimbundestag']
2025-01-08 14:12:46,451 - Verarbeite Titel: Manfred Schiller, MdB, AfD
2025-01-08 14:12:47,839 - response: https://html.duckduckgo.com/html 200 25246
2025-01-08 14:12:47,841 - Ergebnisse für Manfred Schiller, MdB, AfD: ['https://en.wikipedia.org/wiki/Manfred_Schiller', 'https://www.bundestag.de/abgeordnete/biografien/S/schiller_manfred-861168', 'https://de.wikipedia.org/wiki/Manfred_Schiller']


___________

### Filtern der Einträge duch Ähnlichkeitsvergleich

In [49]:
import pandas as pd
import re
from difflib import SequenceMatcher

# CSV-Datei einlesen
df = pd.read_csv('afd_tiktok_links.csv')

# Funktion zur Überprüfung der Ähnlichkeit zwischen Titel und TikTok-Benutzernamen
def check_similarity(title, link):
    if link and "https://www.tiktok.com/@" in link:
        username = re.search(r"@([a-zA-Z0-9_]+)", link)
        if username:
            username = username.group(1).replace("_", " ").lower()
            title_normalized = title.lower().replace(",", "").replace(".", "").replace(" mdb", "")
            similarity = SequenceMatcher(None, title_normalized, username).ratio()
            return similarity >= 0.4
    return False

# Filtere die relevanten Einträge basierend auf der Ähnlichkeit
similar_entries = df[df.apply(
    lambda row: check_similarity(row['titel'], row['First Link']) or
                check_similarity(row['titel'], row['Second Link']) or
                check_similarity(row['titel'], row['Third Link']), axis=1)]

# Gefilterte Ergebnisse anzeigen
similar_entries

Unnamed: 0,titel,First Link,Second Link,Third Link
1,"Mike Moncsek, MdB, AfD",https://www.tiktok.com/@mikemoncsek.de,https://www.bundestag.de/abgeordnete/biografie...,https://www.facebook.com/mikemoncsek.de/
2,"Sebastian Münzenmaier, MdB, AfD",https://www.tiktok.com/@muenzenmaier,https://www.tiktok.com/@muenzenmaier/video/743...,https://www.tiktok.com/@muenzenmaier/video/743...
5,"Peter Felser, MdB, AfD",https://www.tiktok.com/@peterfelser_mdb,https://www.tiktok.com/@peterfelser_mdb/video/...,https://www.tiktok.com/@peterfelser_mdb/video/...
6,"Martin Sichert, MdB, AfD",https://www.tiktok.com/@sichertdeutschland,https://www.tiktok.com/@martin.sichert,https://www.tiktok.com/@sichertdeutschlland
8,"Bernd Schattner, MdB, AfD",https://www.tiktok.com/@bernd.schattner.mdb,https://www.tiktok.com/@bernd.schattner.mdb/vi...,https://www.tiktok.com/@bernd.schattner.mdb/vi...
9,"Kay-Uwe Ziegler, MdB, AfD",https://www.tiktok.com/@kayuweziegler71,https://www.tiktok.com/@kayuweziegler71/video/...,https://de.wikipedia.org/wiki/Kay-Uwe_Ziegler
10,"Frank Rinck, MdB, AfD",https://www.tiktok.com/@frank.rinck,https://www.tiktok.com/@frank.rinck/video/7151...,https://www.tiktok.com/@frank.rinck/video/7151...
11,"Dietmar Friedhoff, MdB, AfD",https://www.tiktok.com/@dietmar.friedhoff.mdb,https://www.tiktok.com/tag/dietmarfriedhoff,https://www.tiktok.com/@dietmar.friedhoff.mdb/...
13,"Dr. Christina Baum, MdB, AfD",https://www.tiktok.com/@dr.christinabaum,https://www.tiktok.com/@christinabaumafd/video...,https://www.youtube.com/watch?v=OR3yQ9YFPN0
14,"Stephan Protschka, MdB, AfD",https://www.tiktok.com/@protschkasposition,https://www.tiktok.com/@protschkasposition/vid...,https://www.tiktok.com/@protschkasposition/vid...


___________

#### alle Ergebnisse in eine `.txt` Datei

In [50]:
# Erstelle eine Liste, um alle Links zu speichern
all_links = []

# Iteriere über jede Zeile in similar_entries
for _, row in similar_entries.iterrows():
    # Füge die Links hinzu, falls sie existieren
    if pd.notna(row['First Link']):
        all_links.append(row['First Link'])
    if pd.notna(row['Second Link']):
        all_links.append(row['Second Link'])
    if pd.notna(row['Third Link']):
        all_links.append(row['Third Link'])

# Schreibe die gesammelten Links in eine Textdatei
with open('links.txt', 'w') as file:
    for link in all_links:
        file.write(f"{link}\n")

____________________


## Bundestags-API GET-Personenstammdaten-Endpunkt

Dieser Code sammelt Informationen über Personen vom Bundestag, speichert sie in einer Datenbank und hält die Daten aktuell. Er verbindet sich mit einer API, um neue oder geänderte Informationen zu erhalten, und aktualisiert die Datenbank entsprechend. 


Es werdden 5435 Einträge in der Datenbank gespeichet. Die Daten umfassen alle Personen die jemals in den Bundestag gewählt wurden.

In [7]:
import requests
import sqlite3
import datetime

API_KEY = 'I9FKdCn.hbfefNWCY336dL6x62vfwNKpoN2RZ1gp21'  # Bitte durch Ihren tatsächlichen API-Key ersetzen
API_URL = 'https://search.dip.bundestag.de/api/v1/person'

def create_database():
    conn = sqlite3.connect('personen.db')
    cursor = conn.cursor()
    cursor.execute('''
        CREATE TABLE IF NOT EXISTS personen (
            id INTEGER PRIMARY KEY,
            nachname TEXT,
            vorname TEXT,
            namenszusatz TEXT,
            typ TEXT,
            wahlperiode INTEGER,
            basisdatum TEXT,
            datum TEXT,
            aktualisiert TEXT,
            titel TEXT
        )
    ''')
    conn.commit()
    conn.close()

def get_last_update():
    try:
        with open('last_update.txt', 'r') as file:
            return file.read().strip()
    except FileNotFoundError:
        return '2000-01-01T00:00:00+00:00'  # Standarddatum

def save_last_update(timestamp):
    with open('last_update.txt', 'w') as file:
        file.write(timestamp)

def fetch_data():
    headers = {
        'Authorization': f'ApiKey {API_KEY}',
        'Accept': 'application/json'
    }

    params = {
        'format': 'json',
        'f.aktualisiert.start': get_last_update()
    }

    all_data = []
    cursor = None

    while True:
        if cursor:
            params['cursor'] = cursor

        response = requests.get(API_URL, headers=headers, params=params)
        if response.status_code != 200:
            print(f'Fehler {response.status_code}: {response.text}')
            break

        data = response.json()
        documents = data.get('documents', [])
        all_data.extend(documents)

        new_cursor = data.get('cursor')
        if not new_cursor or new_cursor == cursor:
            break
        cursor = new_cursor

    return all_data

def save_data(data):
    conn = sqlite3.connect('personen.db')
    cursor = conn.cursor()
    for person in data:
        try:
            cursor.execute('''
                INSERT OR REPLACE INTO personen (
                    id, nachname, vorname, namenszusatz, typ,
                    wahlperiode, basisdatum, datum, aktualisiert, titel
                ) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
            ''', (
                int(person['id']),
                person.get('nachname'),
                person.get('vorname'),
                person.get('namenszusatz'),
                person.get('typ'),
                person.get('wahlperiode'),
                person.get('basisdatum'),
                person.get('datum'),
                person.get('aktualisiert'),
                person.get('titel')
            ))
        except Exception as e:
            print(f'Fehler bei ID {person["id"]}: {e}')
    conn.commit()
    conn.close()

def main():
    create_database()
    data = fetch_data()
    if data:
        save_data(data)
        # Speichere aktuelles Datum als letzten Aktualisierungszeitpunkt
        now = datetime.datetime.utcnow().isoformat() + '+00:00'
        save_last_update(now)
        print(f'{len(data)} Datensätze aktualisiert.')
    else:
        print('Keine neuen Daten gefunden.')

if __name__ == '__main__':
    main()


Keine neuen Daten gefunden.


___________


#### Auszug aus dem Personenstamm des Bundestags



In [62]:
import sqlite3
import pandas as pd

# Verbindung zur Datenbank herstellen und Daten in einen DataFrame laden
def load_data_to_dataframe():
    conn = sqlite3.connect('personen.db')
    df = pd.read_sql_query("SELECT * FROM personen", conn)
    conn.close()
    return df

# Daten in DataFrame laden und anzeigen
df = load_data_to_dataframe()
df


Unnamed: 0,id,nachname,vorname,namenszusatz,typ,wahlperiode,basisdatum,datum,aktualisiert,titel
0,1,Gerhardt,Wolfgang,,Person,11.0,1987-07-10,2012-03-21,2022-07-26T19:57:10+02:00,"Dr. Wolfgang Gerhardt, MdB, FDP"
1,2,Beck,Volker,,Person,13.0,1994-11-23,2017-10-23,2022-07-26T19:57:10+02:00,"Volker Beck (Köln), MdB, BÜNDNIS 90/DIE GRÜNEN"
2,3,Enkelmann,Dagmar,,Person,11.0,1990-10-05,2013-10-11,2022-07-26T19:57:10+02:00,"Dr. Dagmar Enkelmann, MdB, DIE LINKE"
3,4,Essen,Jörg,van,Person,12.0,1991-04-18,2013-09-03,2022-07-26T19:57:10+02:00,"Jörg van Essen, MdB, FDP"
4,5,Röttgen,Norbert,,Person,13.0,1995-01-06,2024-06-11,2022-07-26T19:57:10+02:00,"Dr. Norbert Röttgen, MdB, CDU/CSU"
...,...,...,...,...,...,...,...,...,...,...
5430,7863,Rehlinger,Anke,,Person,17.0,2013-02-01,2024-12-16,2024-12-05T13:37:32+01:00,"Anke Rehlinger, Bundesratspräs., Saarland"
5431,7864,Bernhard,Claudia,,Person,20.0,2024-11-22,2024-11-22,2024-12-05T14:12:02+01:00,"Claudia Bernhard, Stellv. MdBR (Senatorin für ..."
5432,7865,Brandes,Ina,,Person,20.0,2022-04-08,2024-11-22,2024-12-05T15:11:44+01:00,"Ina Brandes, Stellv. MdBR (Ministerin für Kult..."
5433,7866,Kluttig,Bernhard,,Person,20.0,2024-11-29,2024-12-06,2024-12-09T10:21:05+01:00,"Bernhard Kluttig, Staatssekr., Bundesministeri..."


___________


#### alle Personen in der 20.Wahlperiode

In [65]:
# Filtern nach Wahlperiode 20
wahlperiode_20_entries = df[df['wahlperiode'] == 20.0]
print("Einträge für Wahlperiode 20:")
wahlperiode_20_entries


Einträge für Wahlperiode 20:


Unnamed: 0,id,nachname,vorname,namenszusatz,typ,wahlperiode,basisdatum,datum,aktualisiert,titel
4886,7220,Bollmann,Gereon,,Person,20.0,2021-11-12,2024-10-17,2022-07-26T19:57:10+02:00,"Gereon Bollmann, MdB, AfD"
4887,7222,Bachmann,Carolin,,Person,20.0,2021-11-10,2024-10-22,2022-07-26T19:57:10+02:00,"Carolin Bachmann, MdB, AfD"
4888,7223,Baldy,Daniel,,Person,20.0,2022-01-13,2024-10-11,2022-07-26T19:57:10+02:00,"Daniel Baldy, MdB, SPD"
4889,7224,Banaszak,Felix,,Person,20.0,2022-01-27,2024-09-13,2022-07-26T19:57:10+02:00,"Felix Banaszak, MdB, BÜNDNIS 90/DIE GRÜNEN"
4890,7225,Bär,Karl,,Person,20.0,2021-12-03,2024-10-18,2022-07-26T19:57:10+02:00,"Karl Bär, MdB, BÜNDNIS 90/DIE GRÜNEN"
...,...,...,...,...,...,...,...,...,...,...
5428,7861,Thoms,Heiko,,Person,20.0,2024-11-15,2024-11-15,2024-11-26T11:31:35+01:00,"Heiko Thoms, Staatssekr., Bundesministerium de..."
5429,7862,Philippi,Roland,,Person,20.0,2024-11-15,2024-11-15,2024-11-27T13:05:06+01:00,"Dr. Roland Philippi, Staatssekr., Bundesminist..."
5431,7864,Bernhard,Claudia,,Person,20.0,2024-11-22,2024-11-22,2024-12-05T14:12:02+01:00,"Claudia Bernhard, Stellv. MdBR (Senatorin für ..."
5432,7865,Brandes,Ina,,Person,20.0,2022-04-08,2024-11-22,2024-12-05T15:11:44+01:00,"Ina Brandes, Stellv. MdBR (Ministerin für Kult..."


In [4]:
mdb

{'ID': '11005306',
 'NAME': ['\n        '],
 'GEBURTSDATUM': '15.03.1994',
 'GEBURTSORT': 'Piatra Neamț',
 'GEBURTSLAND': 'Rumänien',
 'GESCHLECHT': 'weiblich',
 'FAMILIENSTAND': 'ledig',
 'RELIGION': None,
 'BERUF': 'Kulturwissenschaftlerin',
 'PARTEI_KURZ': 'SPD',
 'VITA_KURZ': None,
 'VEROEFFENTLICHUNGSPFLICHTIGES': None,
 'WAHLPERIODE': {'WP': '20',
  'MDBWP_VON': '16.05.2023',
  'MDBWP_BIS': '04.03.2024',
  'WKR_NUMMER': None,
  'WKR_NAME': None,
  'WKR_LAND': None,
  'LISTE': 'BE',
  'MANDATSART': 'Landesliste'}}

In [7]:
df_mdb

Unnamed: 0,ID,NAME,GEBURTSDATUM,GEBURTSORT,GEBURTSLAND,GESCHLECHT,FAMILIENSTAND,RELIGION,BERUF,PARTEI_KURZ,VITA_KURZ,VEROEFFENTLICHUNGSPFLICHTIGES,WAHLPERIODE
0,11000001,[\n ],20.10.1930,Stuttgart,,männlich,keine Angaben,katholisch,"Rechtsanwalt, Wirtschaftsprüfer, Universitätsp...",CDU,,,"{'WP': '5', 'MDBWP_VON': '19.10.1965', 'MDBWP_..."
1,11000001,[\n ],20.10.1930,Stuttgart,,männlich,keine Angaben,katholisch,"Rechtsanwalt, Wirtschaftsprüfer, Universitätsp...",CDU,,,"{'WP': '6', 'MDBWP_VON': '20.10.1969', 'MDBWP_..."
2,11000001,[\n ],20.10.1930,Stuttgart,,männlich,keine Angaben,katholisch,"Rechtsanwalt, Wirtschaftsprüfer, Universitätsp...",CDU,,,"{'WP': '7', 'MDBWP_VON': '13.12.1972', 'MDBWP_..."
3,11000001,[\n ],20.10.1930,Stuttgart,,männlich,keine Angaben,katholisch,"Rechtsanwalt, Wirtschaftsprüfer, Universitätsp...",CDU,,,"{'WP': '8', 'MDBWP_VON': '14.12.1976', 'MDBWP_..."
4,11000001,[\n ],20.10.1930,Stuttgart,,männlich,keine Angaben,katholisch,"Rechtsanwalt, Wirtschaftsprüfer, Universitätsp...",CDU,,,"{'WP': '9', 'MDBWP_VON': '04.11.1980', 'MDBWP_..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...
11667,11005179,[\n ],04.07.1965,Wehrda (jetzt Marburg),,männlich,"verheiratet, 2 Kinder",evangelisch,"Arzt, Facharzt für Chirurgie",SPD,,,"{'WP': '20', 'MDBWP_VON': '26.10.2021', 'MDBWP..."
11668,11005218,[\n ],03.06.1968,Arolsen,,männlich,"geschieden, 2 Kinder",evangelisch,Oberstudienrat,CDU,,,"{'WP': '20', 'MDBWP_VON': '26.10.2021', 'MDBWP..."
11669,11005227,[\n ],27.10.1982,Frankfurt am Main,,weiblich,"verheiratet, 3 Kinder",,Lehrerin,BÜNDNIS 90/DIE GRÜNEN,,,"{'WP': '20', 'MDBWP_VON': '26.10.2021', 'MDBWP..."
11670,11005233,[\n ],19.05.1970,Karlsruhe,,weiblich,1 Kind,evangelisch,Bürgermeisterin,CDU,,,"{'WP': '20', 'MDBWP_VON': '26.10.2021', 'MDBWP..."


In [5]:
import requests
import sqlite3
import datetime
import time
from tqdm import tqdm

API_KEY = 'I9FKdCn.hbfefNWCY336dL6x62vfwNKpoN2RZ1gp21'  # Bitte durch Ihren tatsächlichen API-Key ersetzen
API_URL = 'https://search.dip.bundestag.de/api/v1/plenarprotokoll'
YEAR = 2024  # Das Jahr, aus dem die Plenarprotokolle abgerufen werden sollen

def create_database():
    conn = sqlite3.connect('plenarprotokolle.db')
    cursor = conn.cursor()
    cursor.execute('''
        CREATE TABLE IF NOT EXISTS plenarprotokolle (
            id INTEGER PRIMARY KEY,
            dokumentart TEXT,
            typ TEXT,
            dokumentnummer TEXT,
            wahlperiode INTEGER,
            herausgeber TEXT,
            datum TEXT,
            aktualisiert TEXT,
            titel TEXT,
            pdf_url TEXT,
            pdf_hash TEXT,
            vorgangsbezug_anzahl INTEGER,
            sitzungsbemerkung TEXT
        )
    ''')
    conn.commit()
    conn.close()

def get_last_update():
    try:
        with open('last_update_plenarprotokoll.txt', 'r') as file:
            return file.read().strip()
    except FileNotFoundError:
        return f'{YEAR}-01-01'  # Anfang des Jahres

def save_last_update(timestamp):
    with open('last_update_plenarprotokoll.txt', 'w') as file:
        file.write(timestamp)

def fetch_data():
    headers = {
        'Authorization': f'ApiKey {API_KEY}',
        'Accept': 'application/json'
    }

    params = {
        'format': 'json',
        'f.datum.start': f'{YEAR}-01-01',
        'f.datum.end': f'{YEAR}-12-31',
        'f.zuordnung': 'BT'  # Bundestag
    }

    all_data = []
    cursor_param = None

    while True:
        if cursor_param:
            params['cursor'] = cursor_param

        response = requests.get(API_URL, headers=headers, params=params)
        if response.status_code != 200:
            print(f'Fehler {response.status_code}: {response.text}')
            break

        data = response.json()
        documents = data.get('documents', [])
        all_data.extend(documents)

        new_cursor = data.get('cursor')
        if not new_cursor or new_cursor == cursor_param:
            break
        cursor_param = new_cursor

        # Wartezeit zwischen den Anfragen, um die API nicht zu überlasten
        time.sleep(1)

    return all_data

def save_data(data):
    conn = sqlite3.connect('plenarprotokolle.db')
    cursor = conn.cursor()
    for protokoll in tqdm(data, desc='Speichere Plenarprotokolle'):
        fundstelle = protokoll.get('fundstelle', {})
        try:
            cursor.execute('''
                INSERT OR REPLACE INTO plenarprotokolle (
                    id, dokumentart, typ, dokumentnummer, wahlperiode,
                    herausgeber, datum, aktualisiert, titel, pdf_url, pdf_hash,
                    vorgangsbezug_anzahl, sitzungsbemerkung
                ) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
            ''', (
                int(protokoll['id']),
                protokoll.get('dokumentart'),
                protokoll.get('typ'),
                protokoll.get('dokumentnummer'),
                protokoll.get('wahlperiode'),
                protokoll.get('herausgeber'),
                protokoll.get('datum'),
                protokoll.get('aktualisiert'),
                protokoll.get('titel'),
                fundstelle.get('pdf_url'),
                protokoll.get('pdf_hash'),
                protokoll.get('vorgangsbezug_anzahl'),
                protokoll.get('sitzungsbemerkung')
            ))
        except Exception as e:
            print(f'Fehler bei ID {protokoll["id"]}: {e}')
    conn.commit()
    conn.close()

def main():
    create_database()
    data = fetch_data()
    if data:
        save_data(data)
        # Speichere aktuelles Datum als letzten Aktualisierungszeitpunkt
        now = datetime.datetime.utcnow().strftime('%Y-%m-%dT%H:%M:%SZ')
        save_last_update(now)
        print(f'{len(data)} Plenarprotokolle aus {YEAR} wurden aktualisiert.')
    else:
        print('Keine neuen Daten gefunden.')

if __name__ == '__main__':
    main()


Speichere Plenarprotokolle: 100%|██████████| 50/50 [00:00<00:00, 24739.32it/s]


50 Plenarprotokolle aus 2024 wurden aktualisiert.


In [6]:
import os

def download_pdfs():
    conn = sqlite3.connect('plenarprotokolle.db')
    cursor = conn.cursor()
    cursor.execute('SELECT id, pdf_url FROM plenarprotokolle WHERE pdf_url IS NOT NULL')
    rows = cursor.fetchall()
    conn.close()

    if not os.path.exists('pdfs'):
        os.makedirs('pdfs')

    for row in tqdm(rows, desc='Lade PDFs herunter'):
        id, pdf_url = row
        pdf_path = f'pdfs/{id}.pdf'
        if not os.path.exists(pdf_path):
            try:
                response = requests.get(pdf_url)
                if response.status_code == 200:
                    with open(pdf_path, 'wb') as f:
                        f.write(response.content)
                    # Wartezeit zwischen den Downloads
                    time.sleep(1)
                else:
                    print(f'Fehler beim Herunterladen von ID {id}: Status {response.status_code}')
            except Exception as e:
                print(f'Fehler beim Herunterladen von ID {id}: {e}')
        else:
            # Datei existiert bereits
            pass

if __name__ == '__main__':
    download_pdfs()


Lade PDFs herunter: 100%|██████████| 50/50 [01:00<00:00,  1.21s/it]


In [None]:
https://docs.llamaindex.ai/en/stable/examples/embeddings/huggingface/

In [None]:
pip install llama-index-embeddings-huggingface
pip install llama-index-embeddings-instructor
pip install llama-index

In [None]:
pip install --upgrade tensorflow

In [1]:
# Prüfen, ob eine GPU in der Umgebung verfügbar ist
import torch

torch.cuda.is_available()


False

In [2]:
# Abfragen des GPU-Namens und der Verfügbarkeit
if torch.cuda.is_available():
    gpu_name = torch.cuda.get_device_name(0)
    print("Verfügbare GPU:", gpu_name)
else:
    print("Keine GPU verfügbar.")


Keine GPU verfügbar.


In [3]:
# Auslesen der CUDA-Version
torch.version.cuda


'11.8'

In [4]:
# Überprüfen der installierten PyTorch-Version und der CUDA-Version von PyTorch
print("PyTorch Version:", torch.__version__)
print("CUDA Version in PyTorch:", torch.version.cuda)


PyTorch Version: 2.1.2+cu118
CUDA Version in PyTorch: 11.8


In [5]:
!nvidia-smi


Fri Nov  1 09:23:55 2024       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.256.02   Driver Version: 470.256.02   CUDA Version: 11.8     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla K80           Off  | 00000000:8A:00.0 Off |                    0 |
| N/A   33C    P8    25W / 149W |      0MiB / 11441MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [1]:
import torch

if torch.cuda.is_available():
    print("GPU verfügbar in PyTorch:", torch.cuda.get_device_name(0))
else:
    print("GPU nicht verfügbar in PyTorch.")


GPU nicht verfügbar in PyTorch.


In [12]:
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

# loads BAAI/bge-small-en
# embed_model = HuggingFaceEmbedding()

# loads BAAI/bge-small-en-v1.5
embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-small-en-v1.5")

In [14]:
embeddings = embed_model.get_text_embedding("Hello World!")
print(len(embeddings))
print(embeddings[:5])

384
[-0.003275706898421049, -0.011690730229020119, 0.04155920818448067, -0.03814810514450073, 0.024183087050914764]


In [24]:
# Initialisieren Sie das Instructor Embedding-Modell
embed_model = InstructorEmbedding(
    model_name="hkunlp/instructor-base",
    query_instruction="Represent the document for retrieval: "
)


TypeError: INSTRUCTOR._load_sbert_model() got an unexpected keyword argument 'token'

In [23]:
import os
import sqlite3
import numpy as np
from tqdm import tqdm
from pdfminer.high_level import extract_text
from llama_index.embeddings.instructor import InstructorEmbedding


## Schreiben Sie die Funktion zum Verarbeiten der PDFs

In [21]:
def process_pdfs():
    # Verbindung zur Datenbank herstellen
    conn = sqlite3.connect('plenarprotokolle.db')
    cursor = conn.cursor()
    
    # Tabelle zum Speichern der Embeddings erstellen
    cursor.execute('''
        CREATE TABLE IF NOT EXISTS embeddings (
            id INTEGER PRIMARY KEY,
            embedding BLOB
        )
    ''')
    conn.commit()
    
    pdf_folder = 'pdfs'
    pdf_files = [f for f in os.listdir(pdf_folder) if f.endswith('.pdf')]
    
    for pdf_file in tqdm(pdf_files, desc='Verarbeite PDFs'):
        pdf_path = os.path.join(pdf_folder, pdf_file)
        doc_id = int(os.path.splitext(pdf_file)[0])  # Annahme: Dateiname ist die ID
        
        # Text aus dem PDF extrahieren
        try:
            text = extract_text(pdf_path)
        except Exception as e:
            print(f'Fehler beim Extrahieren von Text aus {pdf_file}: {e}')
            continue
        
        # Text in kleinere Abschnitte aufteilen, falls nötig
        text_chunks = split_text(text, max_length=512)
        
        # Embeddings für jeden Abschnitt erstellen
        embeddings = []
        for chunk in text_chunks:
            embedding = embed_model.get_text_embedding(chunk)
            embeddings.append(embedding)
        
        # Durchschnittsbildung der Embeddings für das gesamte Dokument
        if embeddings:
            avg_embedding = np.mean(embeddings, axis=0)
            # Embedding in der Datenbank speichern
            cursor.execute('''
                INSERT OR REPLACE INTO embeddings (id, embedding) VALUES (?, ?)
            ''', (doc_id, avg_embedding.tobytes()))
            conn.commit()
        else:
            print(f'Keine Embeddings für {pdf_file} erzeugt.')
    
    conn.close()


##  Funktion zum Aufteilen des Textes

In [22]:
def split_text(text, max_length=512):
    # Text in Abschnitte aufteilen, die vom Modell verarbeitet werden können
    words = text.split()
    chunks = []
    current_chunk = []
    current_length = 0
    
    for word in words:
        current_chunk.append(word)
        current_length += 1
        if current_length >= max_length:
            chunks.append(' '.join(current_chunk))
            current_chunk = []
            current_length = 0
    
    if current_chunk:
        chunks.append(' '.join(current_chunk))
    
    return chunks
