## Alle Gepris Projekte in einer Liste

In [3]:
import json
import os
import requests

# Pfad zur JSON-Datei (relativ zum aktuellen Verzeichnis)
json_file_path = "GeprisJsonAndCsv/output_all_persons_names_projects_links.json"

# Menge zur Speicherung der Projekt-IDs
project_ids_list = []

# Vollständigen Pfad zur JSON-Datei erstellen
full_json_file_path = os.path.join(os.getcwd(), json_file_path)

# JSON-Datei einlesen und Daten laden
with open(full_json_file_path, 'r', encoding='utf-8') as json_file:
    data = json.load(json_file)

# Durchlaufe jeden Eintrag in der Liste
for entry in data:
    # Extrahiere die Projekte aus dem Eintrag
    projects = entry.get('Projekte', [])
    
    # Durchlaufe die Projekte und extrahiere die Projekt-IDs
    for project in projects:
        project_link = project.get('Projekt Link', '')
        
        # Extrahiere die Projekt-ID aus dem Projekt-Link
        if project_link:
            project_id = project_link.split('/')[-1]
            # Füge die Projekt-ID zur Liste hinzu (Vermeidung von Duplikaten durch Set)
            project_ids_list.append(project_id)

# Ausgabe der gesammelten Projekt-IDs
print("Liste der Projekt-IDs:")
print(project_ids_list)

Liste der Projekt-IDs:
['433110396', '492813820', '509313233', '460129525', '521476232', '520751609', '5095944', '5310710', '71821268', '40014398', '198305071', '218318381', '314772579', '431352836', '230488449', '505997786', '5365365', '224619622', '326552732', '460129525', '18572122', '5131248', '290363600', '24122740', '441914366', '460129525', '5413368', '453182863', '453229399', '513892404', '242504939', '316102599', '418004173', '445552570', '516780480', '418598556', '418603037', '424650015', '424795268', '460129525', '447603908', '456668568', '458957343', '319835486', '325443116', '221270173', '183605059', '284237345', '442032008', '460129525', '255821879', '507302435', '270041755', '491261247']


## Herausfinden welche Projekte bereits Wikidata einträge haben

In [4]:
for project in project_ids_list:
    # Definiere search_term als Projekt-ID
    search_term = project
    
    # Erstelle die API-URL für Wikidata
    api_url = f"https://www.wikidata.org/w/api.php?action=query&format=json&list=search&srsearch=P4870+{search_term}"

    # Sende die GET-Anfrage an die Wikidata-API
    response = requests.get(api_url)
    data = response.json()

    qids_list = []  # Liste zur Speicherung der QIDs

    # Überprüfe, ob die Antwort die erwarteten Daten enthält
    if "query" in data and "search" in data["query"]:
        for result in data["query"]["search"]:
            q_id = result["title"]
            qids_list.append(q_id)  # Füge die QID zur Liste hinzu
            print(f"Q-ID for {search_term}: {q_id}")

    # Ausgabe der Liste mit QIDs
    print("List of QIDs:")
    print(qids_list)

List of QIDs:
[]
List of QIDs:
[]
List of QIDs:
[]
Q-ID for 460129525: Q99534506
List of QIDs:
['Q99534506']
List of QIDs:
[]
List of QIDs:
[]
Q-ID for 5095944: Q116062070
List of QIDs:
['Q116062070']
List of QIDs:
[]
Q-ID for 71821268: Q116128332
List of QIDs:
['Q116128332']
Q-ID for 40014398: Q116121999
List of QIDs:
['Q116121999']
List of QIDs:
[]
List of QIDs:
[]
List of QIDs:
[]
List of QIDs:
[]
List of QIDs:
[]
List of QIDs:
[]
Q-ID for 5365365: Q116092079
List of QIDs:
['Q116092079']
List of QIDs:
[]
List of QIDs:
[]
Q-ID for 460129525: Q99534506
List of QIDs:
['Q99534506']
Q-ID for 18572122: Q116114558
List of QIDs:
['Q116114558']
Q-ID for 5131248: Q116063769
List of QIDs:
['Q116063769']
List of QIDs:
[]
List of QIDs:
[]
Q-ID for 441914366: Q98380337
List of QIDs:
['Q98380337']
Q-ID for 460129525: Q99534506
List of QIDs:
['Q99534506']
List of QIDs:
[]
List of QIDs:
[]
List of QIDs:
[]
List of QIDs:
[]
List of QIDs:
[]
List of QIDs:
[]
List of QIDs:
[]
List of QIDs:
[]
List of Q

##  Liste mit Projekten welche bereits Einträge haben. Diese mit QID und Namen (Label) Speichern

In [17]:
# Liste zur Speicherung der gefundenen Einträge
found_entries = []

for project in project_ids_list:
    api_url = f"https://www.wikidata.org/w/api.php?action=query&format=json&list=search&srsearch=P4870+{project}"

    response = requests.get(api_url)
    data = response.json()

    if "query" in data and "search" in data["query"]:
        for result in data["query"]["search"]:
            q_id = result["title"]
            label = result.get("label", "")  # Das Label des Suchergebnisses

            # Füge das gefundene Ergebnis der Liste hinzu
            found_entries.append({
                "project_id": project,
                "q_id": q_id,
                "label": label
            })

# Ausgabe der gefundenen Einträge
print("Gefundene Einträge:")
for entry in found_entries:
    print(f"Projekt-ID: {entry['project_id']}, Q-ID: {entry['q_id']}, Label: {entry['label']}")

print(found_entries)

Gefundene Einträge:
Projekt-ID: 460129525, Q-ID: Q99534506, Label: 
Projekt-ID: 5095944, Q-ID: Q116062070, Label: 
Projekt-ID: 71821268, Q-ID: Q116128332, Label: 
Projekt-ID: 40014398, Q-ID: Q116121999, Label: 
Projekt-ID: 5365365, Q-ID: Q116092079, Label: 
Projekt-ID: 460129525, Q-ID: Q99534506, Label: 
Projekt-ID: 18572122, Q-ID: Q116114558, Label: 
Projekt-ID: 5131248, Q-ID: Q116063769, Label: 
Projekt-ID: 441914366, Q-ID: Q98380337, Label: 
Projekt-ID: 460129525, Q-ID: Q99534506, Label: 
Projekt-ID: 460129525, Q-ID: Q99534506, Label: 
Projekt-ID: 442032008, Q-ID: Q98380341, Label: 
Projekt-ID: 460129525, Q-ID: Q99534506, Label: 
[{'project_id': '460129525', 'q_id': 'Q99534506', 'label': ''}, {'project_id': '5095944', 'q_id': 'Q116062070', 'label': ''}, {'project_id': '71821268', 'q_id': 'Q116128332', 'label': ''}, {'project_id': '40014398', 'q_id': 'Q116121999', 'label': ''}, {'project_id': '5365365', 'q_id': 'Q116092079', 'label': ''}, {'project_id': '460129525', 'q_id': 'Q9953450

In [5]:
found_entries = []

for project in project_ids_list:
    api_url = f"https://www.wikidata.org/w/api.php?action=query&format=json&list=search&srsearch=P4870+{project}"

    response = requests.get(api_url)
    data = response.json()

    if "query" in data and "search" in data["query"]:
        for result in data["query"]["search"]:
            q_id = result["title"]

            # Weitere Abfrage, um das Label des Wikidata-Eintrags abzurufen
            entity_url = f"https://www.wikidata.org/wiki/Special:EntityData/{q_id}.json"
            entity_response = requests.get(entity_url)
            entity_data = entity_response.json()

            if "entities" in entity_data and q_id in entity_data["entities"]:
                entity_info = entity_data["entities"][q_id]
                label = entity_info.get('labels', {}).get('en', {}).get('value', '')  # Das Label des Eintrags

                # Füge das gefundene Ergebnis der Liste hinzu
                found_entries.append({
                    "project_id": project,
                    "q_id": q_id,
                    "label": label
                })

# Ausgabe der gefundenen Einträge
print("Gefundene Einträge:")
for entry in found_entries:
    print(f"Projekt-ID: {entry['project_id']}, Q-ID: {entry['q_id']}, Label: {entry['label']}")
#print(found_entries)

Gefundene Einträge:
Projekt-ID: 460129525, Q-ID: Q99534506, Label: NFDI4Microbiota
Projekt-ID: 5095944, Q-ID: Q116062070, Label: 
Projekt-ID: 71821268, Q-ID: Q116128332, Label: 
Projekt-ID: 40014398, Q-ID: Q116121999, Label: 
Projekt-ID: 5365365, Q-ID: Q116092079, Label: 
Projekt-ID: 460129525, Q-ID: Q99534506, Label: NFDI4Microbiota
Projekt-ID: 18572122, Q-ID: Q116114558, Label: 
Projekt-ID: 5131248, Q-ID: Q116063769, Label: 
Projekt-ID: 441914366, Q-ID: Q98380337, Label: GHGA
Projekt-ID: 460129525, Q-ID: Q99534506, Label: NFDI4Microbiota
Projekt-ID: 460129525, Q-ID: Q99534506, Label: NFDI4Microbiota
Projekt-ID: 442032008, Q-ID: Q98380341, Label: NFDI4Biodiversity
Projekt-ID: 460129525, Q-ID: Q99534506, Label: NFDI4Microbiota


## Alle artikel ohne eintrag in einer Liste Speichern

In [7]:
# Extrahiere die Projekt-IDs aus den gefundenen Einträgen
found_project_ids = {entry['project_id'] for entry in found_entries}

# Erstelle eine neue Liste, die nur die Projekt-IDs enthält, die nicht in den gefundenen Einträgen sind
non_existing_entries = [project_id for project_id in project_ids_list if project_id not in found_project_ids]

# Ausgabe der gefilterten Liste
print("Gefilterte Projekt-IDs:")
print(non_existing_entries)

Gefilterte Projekt-IDs:
['433110396', '492813820', '509313233', '521476232', '520751609', '5310710', '198305071', '218318381', '314772579', '431352836', '230488449', '505997786', '224619622', '326552732', '290363600', '24122740', '5413368', '453182863', '453229399', '513892404', '242504939', '316102599', '418004173', '445552570', '516780480', '418598556', '418603037', '424650015', '424795268', '447603908', '456668568', '458957343', '319835486', '325443116', '221270173', '183605059', '284237345', '255821879', '507302435', '270041755', '491261247']
