Als dritte Alternative neben Scholar und Pubmed versuche ich hier, S2 zu nutzen.

Ergebnis: Das funktioniert, aber die DAtenqualität in Bezug auf die Abstracts und KEywords ist nicht so umfassend wie bei Pubmed! Das ist max. als Ergänzung zu denken! 

In [None]:
import requests
import pandas as pd
from typing import List, Dict

def get_author_id(author_name: str, api_key: str = None) -> str:
    
    url = "https://api.semanticscholar.org/graph/v1/author/search"
    headers = {"x-api-key": api_key} if api_key else {}
    
    response = requests.get(
        url,
        params={"query": author_name, "limit": 1},
        headers=headers
    )
    
    if response.status_code == 200:
        data = response.json().get("data", [])
        if data:
            return data[0]["authorId"]
    
    return None

# Beispiel
author_id = get_author_id("Marcus Hammann")
# Output: "2108028474" (oder ähnlich)

print(author_id)

2284991265


In [None]:
# Test um die Publikationen zu bekommen von der S2-API

import requests
import pandas as pd
from typing import List, Dict

def get_semantic_scholar_papers(author_id: str, api_key: str = None) -> pd.DataFrame:
    """Holt alle Papers eines Autors von Semantic Scholar über Author ID"""
    
    base_url = "https://api.semanticscholar.org/graph/v1"
    headers = {"x-api-key": api_key} if api_key else {}
    
    fields = "paperId,title,year,abstract,citationCount,authors,fieldsOfStudy"
    response = requests.get(
        f"{base_url}/author/{author_id}/papers",
        params={"fields": fields, "limit": 100},
        headers=headers
    )
    
    if response.status_code != 200:
        return pd.DataFrame()
    
    papers = response.json().get("data", [])
    
    processed = []
    for paper in papers:
        processed.append({
            "paper_id": paper.get("paperId"),
            "title": paper.get("title"),
            "year": paper.get("year"),
            "abstract": paper.get("abstract"),
            "citation_count": paper.get("citationCount", 0),
            "authors": [a["name"] for a in paper.get("authors", [])],
            "keywords": paper.get("fieldsOfStudy", []),
            "source": "semantic_scholar"
        })
    
    return pd.DataFrame(processed)

# Einen einzelnen Autoren fetchen mit der Author ID
papers = get_semantic_scholar_papers("2080244021")

papers.to_csv(r"/project/01_data/01_csv_data/99_pubmed/publications_Heuckmann_2015-3000.csv", sep=";", encoding="utf-8")

# Mehrere Autoren fetchen 
# author_ids = ["2108028474", "1234567890"]
# all_papers = pd.concat([
#     get_semantic_scholar_papers(aid) for aid in author_ids
# ], ignore_index=True)

In [17]:
def get_author_metrics(author_id: str, high_impact_threshold: int = 50, api_key: str = None):
    """
    Holt nur die Metriken eines Autors.
    high_impact_threshold: Ab wie vielen Zitationen gilt ein Paper als 'hochrangig'?
    """
    base_url = "https://api.semanticscholar.org/graph/v1"
    
    # 1. Wir bestellen nur die nackten Zahlen und für die Berechnung 
    # die Zitationen pro Paper. Keine Titel, keine Abstracts!
    fields = "hIndex,citationCount,paperCount,papers.citationCount"
    
    headers = {"x-api-key": api_key} if api_key else {}
    
    try:
        response = requests.get(
            f"{base_url}/author/{author_id}",
            params={"fields": fields},
            headers=headers
        )
        
        if response.status_code != 200:
            print(f"Fehler: {response.status_code}")
            return None

        data = response.json()
        
        # 2. Die direkten Metriken auslesen
        metrics = {
            "Name": data.get("name"),
            "h-Index": data.get("hIndex"),
            "Zitationen_Gesamt": data.get("citationCount"),
            "Publikationen_Gesamt": data.get("paperCount")
        }
        
    except Exception as e: 
        print(f"Fehler {e}")
        
    return metrics

test = get_author_metrics("3653894")

print(test)
        

{'Name': None, 'h-Index': 35, 'Zitationen_Gesamt': 5651, 'Publikationen_Gesamt': 117}


In [3]:
import pandas as pd

data =  {1692564: {'h_index': 23, 'zitationen_gesamt': 1705, 'publikationen_gesamt': 79}, 145491092: None, 144945538: {'h_index': 46, 'zitationen_gesamt': 7116, 'publikationen_gesamt': 215}, 3725749: None, 48411399: {'h_index': 30, 'zitationen_gesamt': 4474, 'publikationen_gesamt': 85}, 4296195: None, 6401561: {'h_index': 38, 'zitationen_gesamt': 7564, 'publikationen_gesamt': 115}, 1393698484: None, 5373662: {'h_index': 25, 'zitationen_gesamt': 2126, 'publikationen_gesamt': 53}, 3804059: {'h_index': 50, 'zitationen_gesamt': 7364, 'publikationen_gesamt': 146}, 5418704: {'h_index': 71, 'zitationen_gesamt': 23986, 'publikationen_gesamt': 154}, 3358527: {'h_index': 57, 'zitationen_gesamt': 13348, 'publikationen_gesamt': 218}, 46892632: {'h_index': 24, 'zitationen_gesamt': 2073, 'publikationen_gesamt': 77}, 6103758: {'h_index': 44, 'zitationen_gesamt': 6956, 'publikationen_gesamt': 146}, 144357511: None, 6214482: None, 3653894: None, 4690880: None, 40564829: {'h_index': 22, 'zitationen_gesamt': 4593, 'publikationen_gesamt': 56}, 8369839: None, 31574936: None, 4031956: {'h_index': 27, 'zitationen_gesamt': 5346, 'publikationen_gesamt': 47}, 5488888: None, 6220450: {'h_index': 33, 'zitationen_gesamt': 3172, 'publikationen_gesamt': 138}, 4731016: None, 4376355: {'h_index': 43, 'zitationen_gesamt': 7168, 'publikationen_gesamt': 81}, 34995473: {'h_index': 23, 'zitationen_gesamt': 1889, 'publikationen_gesamt': 62}, 4958172: None, 48863863: None, 49061847: None, 6880354: {'h_index': 33, 'zitationen_gesamt': 4488, 'publikationen_gesamt': 147}, 5750388: None, 4529999: {'h_index': 24, 'zitationen_gesamt': 2729, 'publikationen_gesamt': 41}, 2894309: None, 46786657: {'h_index': 11, 'zitationen_gesamt': 517, 'publikationen_gesamt': 23}, 3681289: None, 2080244021: {'h_index': 7, 'zitationen_gesamt': 133, 'publikationen_gesamt': 15}, 69869191: {'h_index': 15, 'zitationen_gesamt': 593, 'publikationen_gesamt': 57}, 12980976: {'h_index': 12, 'zitationen_gesamt': 327, 'publikationen_gesamt': 34}, 5312334: {'h_index': 21, 'zitationen_gesamt': 1216, 'publikationen_gesamt': 58}, 34496939: {'h_index': 24, 'zitationen_gesamt': 1654, 'publikationen_gesamt': 65}, 6650716: {'h_index': 96, 'zitationen_gesamt': 32974, 'publikationen_gesamt': 582}, 5381495: {'h_index': 33, 'zitationen_gesamt': 4091, 'publikationen_gesamt': 164}, 5517965: {'h_index': 17, 'zitationen_gesamt': 1056, 'publikationen_gesamt': 45}}


df1 = pd.DataFrame.from_dict(data).fillna(0).T.reset_index().rename(columns={"index": "author_id"})
print(df1)
#df2 = df1.reset_index().rename(columns={"index": "author_id"})
#print(df2)
#exit()

#df2.to_csv(r"/project/01_data/01_csv_data/00_pi_basics/02_pi_pub_metrics.csv", sep=";", encoding="utf-8", index=False)

     author_id  h_index  zitationen_gesamt  publikationen_gesamt
0      1692564       23               1705                    79
1    145491092        0                  0                     0
2    144945538       46               7116                   215
3      3725749        0                  0                     0
4     48411399       30               4474                    85
5      4296195        0                  0                     0
6      6401561       38               7564                   115
7   1393698484        0                  0                     0
8      5373662       25               2126                    53
9      3804059       50               7364                   146
10     5418704       71              23986                   154
11     3358527       57              13348                   218
12    46892632       24               2073                    77
13     6103758       44               6956                   146
14   144357511        0  

  df1 = pd.DataFrame.from_dict(data).fillna(0).T.reset_index().rename(columns={"index": "author_id"})


In [25]:
import time

all = {}

# Funktion zum Fetchen der Daten basierend auf der AutorenIDs 
def get_author_metrics(author_id, api_key = None):
    
    base_url = "https://api.semanticscholar.org/graph/v1"
    fields = "hIndex,citationCount,paperCount,papers.citationCount"
    headers = {"x-api-key": api_key} if api_key else {}
    
    try:
        response = requests.get(
            f"{base_url}/author/{author_id}",
            params={"fields": fields},
            headers=headers
        )
        
        if response.status_code != 200:
            print(f"Fehler bei {author_id}!")
            logging.error(f"Fehler bei {author_id}!")
            return None

        data = response.json()
        
        daten = {
            "h-Index": data.get("hIndex"),
            "Zitationen_Gesamt": data.get("citationCount"),
            "Publikationen_Gesamt": data.get("paperCount")
        }
        
        # logging.info(f"Autorendaten für {author_id} erfolgreich geholt!")
        print(f"Autorendaten für {author_id} erfolgreich geholt!")
        
    except Exception as e: 
        print(f"Fehler {e}")
        # logging.error(f"Fehler bei {author_id}!")
    
    finally: 
        time.sleep(1.5)
    
    return daten

# Daten einlesen und Funktion aufrufen 

df0 = pd.read_csv(r"/project/01_data/01_csv_data/00_pi_basics/01_pi_final_final.csv", sep=",", encoding="utf-8")

s2_ids = df0["s2_id"].tolist()

for x in s2_ids[:3]:
    daten = get_author_metrics(x)
    all[x] = daten

print("Gesamtes Dict:", "\n", all)
print(40*"=")

Autorendaten für 1692564 erfolgreich geholt!
Autorendaten für 145491092 erfolgreich geholt!
Autorendaten für 144945538 erfolgreich geholt!
Gesamtes Dict: 
 {1692564: {'h-Index': 23, 'Zitationen_Gesamt': 1705, 'Publikationen_Gesamt': 79}, 145491092: {'h-Index': 24, 'Zitationen_Gesamt': 2010, 'Publikationen_Gesamt': 71}, 144945538: {'h-Index': 46, 'Zitationen_Gesamt': 7116, 'Publikationen_Gesamt': 215}}


In [22]:
# Test für das mergen von zwei csv 
import os 
df = pd.read_csv(r'C:\Users\felix\OneDrive\Desktop\masterarbeit\01_data\01_csv_data\00_pi_basics\01_pi_final_final.csv', sep=",", encoding='utf-8')
df1 = pd.read_csv(r'C:\Users\felix\OneDrive\Desktop\masterarbeit\01_data\01_csv_data\00_pi_basics\02_pi_pub_metrics.csv', sep=";", encoding='utf-8')

#print(df.columns, "\t", df1.columns)

df2 = df.merge(df1, left_on='s2_id', right_on='author_id', how='left')

print(df2.columns)

df2.drop(['Unnamed: 0', 'author_id', 'zitationen_gesamt'], axis=1, inplace=True)

print(df2.columns)

df2 = df2[['pi_id', 'scholar_id', 's2_id', 'vorname', 'nachname', 'nach_und_vorname','start_date', 'end_date', 's2_citations', 'h_index',
       'publikationen_gesamt']]

print(df2.columns)

#print(df2)

#print(df2['publikationen_gesamt'].sum())

#df2.to_csv(r'C:\Users\felix\OneDrive\Desktop\test_merge.csv', sep=';', encoding='utf-8')

#os.startfile(r'C:\Users\felix\OneDrive\Desktop\test_merge.csv')

Index(['Unnamed: 0', 'pi_id', 'nach_und_vorname', 'scholar_id', 'vorname',
       'nachname', 'start_date', 'end_date', 's2_id', 's2_citations',
       'author_id', 'h_index', 'zitationen_gesamt', 'publikationen_gesamt'],
      dtype='object')
Index(['pi_id', 'nach_und_vorname', 'scholar_id', 'vorname', 'nachname',
       'start_date', 'end_date', 's2_id', 's2_citations', 'h_index',
       'publikationen_gesamt'],
      dtype='object')


KeyError: "['institute', 'drittmittel_gesamt'] not in index"