In [101]:
import requests
import json
import xmltodict
import urllib.parse
import opencitingpy
import datetime
import sqlite3
import os

# Setup sqlite Datenbank
Datenbank wird im Verzeichnis "C:\MA_Pethke_3992454" abgelegt

In [102]:
# Anlegen von Datenbankspeicherort, falls er nicht existiert
path = "C:\MA_Pethke_3992454"
if not os.path.exists(path):
    os.makedirs(path)

# Verbindung zu DB aufbauen, DB wird automatisch erstellt, wenn keine da ist
con = sqlite3.connect("C:\MA_Pethke_3992454\MA_3992454.db")
cur = con.cursor()

In [136]:
## Tabellen Schema erstellen
#------------------- Tabelle Dokument --------------------------------------#
cur.execute("CREATE TABLE IF NOT EXISTS Dokument(PMID INTEGER UNIQUE, titel TEXT, pubdate DATE)")

#------------------- Tabelle Zitationen --------------------------------------#
cur.execute("CREATE TABLE IF NOT EXISTS Zitationen(PMID INTEGER, jahr YEAR, citecount INTEGER)")

#------------------- Tabelle Mesh --------------------------------------#
cur.execute("CREATE TABLE IF NOT EXISTS Mesh(UI VARCHAR UNIQUE, name TEXT, datum DATE)")

#------------------- Tabelle Abfrage --------------------------------------#
cur.execute("CREATE TABLE IF NOT EXISTS Abfrage(QID INTEGER PRIMARY KEY AUTOINCREMENT, query TEXT, PMID INTEGER, ranking INTEGER, mesh VARCHAR)")
con.commit()

# PubMed
## Teil 1
### Query mit Stichworten --> Liste der relevanten Dokumente
queryPubMed: Stichwortartige Suche <br>
idList: Liste mit PMIDs <br>
countResult: Anzahl (maximal) zurückgegebener Dokumente <br>

### URL 
db: welche Datenbank wird durchsucht (pubmed) <br>
term: queryPubMed <br>
RetMax: countResult <br>
sort: Art der Sortierung (default: relevance) <br>
retmod: Format der zurückgelieferten Daten <br>



In [104]:
## Liste der "relevanten" Dokumente
queryPubMed = "head injury"
countResult = 10
responsePubMedID = requests.get('https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pubmed&term='+urllib.parse.quote(queryPubMed)+'&RetMax='+urllib.parse.quote(str(countResult))+'&sort=relevance&retmode=json')
responsePubMedID_json = json.loads(responsePubMedID.text)
idList = responsePubMedID_json["esearchresult"]["idlist"]
print(idList)

['25335757', '36637470', '22942365', '9279162', '9425562', '9339463', '3330962', '3931543', '27509653', '23431655']


## Teil 2
### Query mit PMID aus Teil 1 --> Liste der MeSH zu dem jeweiligen Dokument
Für jedes Dokument (Identifier: PMID) wird eine Detailsuche durchgeführt. <br>
Extrahierte Infos: <br>
Titel <br>
Liste der MeSH: [[PMID, [MeSH UI, MeSH Name], [MeSH UI, MeSH Name]] ,[PMID, [MeSH UI, MeSH Name], [MeSH UI, MeSH Name]] ,  ...] (beliebig viele MeSH pro Dokument)<br>
Datum Veröffentlichung: Wann wurde das Dokument veröffentlicht <br>

In [105]:
## Liste der MeSHs (zu allen Dokumenten)
def getMeSH():
    ranking = 0
    for pmid in idList:
        ranking = ranking + 1
        # Abfrage zu einer einzelnen PMID
        response_PubMedMesh = requests.get("https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id="+urllib.parse.quote(str(pmid)))

        # Formatierung
        xpars = xmltodict.parse(response_PubMedMesh.text)
        json_str = json.dumps(xpars, indent=4)
        json_data = json.loads(json_str)
        try:
            title = json_data["PubmedArticleSet"]["PubmedArticle"]["MedlineCitation"]["Article"]["ArticleTitle"]
        except:
            print(json_str)

        # Nicht alle Dokumente haben ein eigenes Veröffentlichungsdatum, dann wird sich auf das DateCompleted von PubMed berufen (TODO: recherchieren, was das genau ist)
        try:
            pubDateAll = json_data["PubmedArticleSet"]["PubmedArticle"]["MedlineCitation"]["Article"]["ArticleDate"]
            pubDate = datetime.datetime(int(pubDateAll["Year"]), int(pubDateAll["Month"]), int(pubDateAll["Day"]))
        except:
            pubDateAll = json_data["PubmedArticleSet"]["PubmedArticle"]["MedlineCitation"]["DateCompleted"]
            pubDate = datetime.datetime(int(pubDateAll["Year"]), int(pubDateAll["Month"]), int(pubDateAll["Day"]))

        # PMID wird folgend initial gelistet, wenn noch nicht geschehen
        cur.execute("SELECT * FROM Dokument WHERE PMID = '"+str(pmid)+"'")
        selection = cur.fetchall()
        if selection == []:
            cur.execute("INSERT INTO Dokument (PMID, titel, pubdate) VALUES ('"+str(pmid)+"', '"+str(title)+"', '"+str(pubDate)+"')")
            con.commit()

        meshAll = json_data["PubmedArticleSet"]["PubmedArticle"]["MedlineCitation"]["MeshHeadingList"]["MeshHeading"]
        for mesh in meshAll:
            # print(mesh)
            meshUI = mesh["DescriptorName"]["@UI"]

            # Abfrage wird inital gelistet, wenn schoneinmal abgefragt wird abgebrochen
            cur.execute("SELECT * FROM Abfrage WHERE (query = '"+str(queryPubMed)+"' AND PMID = '"+str(pmid)+"' AND ranking = '"+str(ranking)+"' AND mesh = '"+str(meshUI)+"')")
            selection = cur.fetchall()
            if selection == []:
                cur.execute("INSERT INTO Abfrage (query, PMID, ranking, mesh) VALUES ('"+str(queryPubMed)+"', '"+str(pmid)+"', '"+str(ranking)+"', '"+str(meshUI)+"')")
                con.commit()
            else:
                print("Die Ausführung wird hier abgebrochen, Anfragen können nicht mehrfach gestellt werden")
                return
            
            # Mesh wird folgend initial gelistet, wenn noch nicht geschehen
            cur.execute("SELECT * FROM Mesh WHERE UI = '"+str(meshUI)+"'")
            if cur.fetchall() == []:
                meshName = mesh["DescriptorName"]["#text"]
                cur.execute("INSERT INTO Mesh (UI, name) VALUES ('"+str(meshUI)+"', '"+str(meshName)+"')")
                con.commit()

getMeSH()
        

# MeSH
## Wann wurde das MeSH hinzugefügt?
Dies ist für jedes MeSH in allen Dokumenten zu ermitteln

In [127]:
def getMeSHUIs():
    cur.execute("SELECT DISTINCT mesh FROM Abfrage WHERE query = '"+str(queryPubMed)+"'")
    meshPerQuery = [x[0] for x in cur.fetchall()]
    return meshPerQuery

def checkEmptyDate():
    dateFormat = "%Y-%m-%d"
    isDate = True
    meshWithEmptyDate = []
    meshPerQuery = getMeSHUIs()
    for mesh in meshPerQuery:
        cur.execute("SELECT datum FROM Mesh WHERE UI = '" + str(mesh)+ "'")
        selection = cur.fetchall()[0][0]
        try:
            isDate = bool(datetime.datetime.strptime(selection, dateFormat))
        except:
            isDate = False
        if not isDate:
            meshWithEmptyDate.append(mesh)
    return meshWithEmptyDate

In [130]:
def insertMeshDate():
    meshWithEmptyDate = checkEmptyDate()
    for mesh in meshWithEmptyDate:
        response = requests.get('https://id.nlm.nih.gov/mesh/'+str(mesh)+'.json', headers={'Accept': 'application/json'})
        data = response.json()
        cur.execute("UPDATE Mesh SET datum = '"+data["dateCreated"]+"' WHERE UI = '"+str(mesh)+"'")
        con.commit()

In [129]:
insertMeshDate()

['D013124', 'D002649', 'D061906']


# Semantic Scholar
Zitationen pro Jahr

In [143]:
def getCitations(citations, citationsPerYear): # Funktion um Liste mit Zitationen pro Jahr zu füllen 
    for cite in citations:
        year = str(cite["citingPaper"]["year"])
        if year not in citationsPerYear:
            citationsPerYear[year] = 1
        else:
            citationsPerYear[year] = citationsPerYear[year] + 1
    return citationsPerYear

In [144]:
def getCitationCount(offset, pmid): # Funktion um eine Anfrage an Semantic Scholar zu stellen -> Antwort: Zitationen + Zurückgegebene Zitationsanzahl (maximal 1000)
    response = requests.get("https://api.semanticscholar.org/graph/v1/paper/PMID:"+str(pmid)+"/citations?fields=year&offset="+str(offset)+"&limit="+str(1000))
    json_str = json.loads(response.text)
    # print(json_str)
    citations = json_str["data"]
    citationCount = len(citations)
    return citations, citationCount

In [145]:
def getCitationsPerYearComplete(pmid): # Funktion um eine vollständige Liste der Zitationen pro Jahr zu einem Dokument zu erhalten
    citationsPerYear = {}
    offset = 0
    citationsTemp = getCitationCount(offset, pmid)
    while citationsTemp[1] != 0: # solange mehr als 1000 Zitationen als Antwort von Semantic Scholar kommen, muss eine erneute Anfrage mit einem erhöhten Offset gestellt werden 
        getCitations(citationsTemp[0], citationsPerYear) 
        offset = offset + 1000
        citationsTemp = getCitationCount(offset, pmid)
    return citationsPerYear

In [155]:
def fillCitationsPerYear(pmid, citationsPerYear):
    for year, citationcount in citationsPerYear.items():
        cur.execute("INSERT INTO Zitationen (PMID, jahr, citecount) VALUES ('"+str(pmid)+"', '"+str(year)+"', '"+str(citationcount)+"')")
        con.commit()

def updateCitationsPerYear(pmid, citationsPerYear):
    for year, citationcount in citationsPerYear.items():
        cur.execute("UPDATE Zitationen SET citecount = '" + str(citationcount) +"' WHERE PMID = '"+ str(pmid) +"' AND jahr = '"+str(year)+"'")
        con.commit()

In [157]:
def fillZitationen():
    for pmid in idList:
        cur.execute("SELECT * FROM Zitationen WHERE PMID = '"+ str(pmid) + "'")
        selection = cur.fetchall()
        # prüfung ob die Zitationsdaten für das Dokument schon erhoben wurden
        if selection == []:
            citationsPerYear = getCitationsPerYearComplete(pmid)
            if citationsPerYear == {}:
                cur.execute("INSERT INTO Zitationen (PMID, jahr, citecount) VALUES ('"+str(pmid)+"', '0', '0')")
                con.commit()
            else:
                fillCitationsPerYear(pmid, citationsPerYear)
            print(citationsPerYear)
        # else: wenn die Daten schon erhoben wurden, wird geprüft, ob diese noch aktuell sind, wenn nicht, werden sie geupdatet 
        else:
            # TODO Abfrage an den Nutzer ob er Daten geupdatet haben möchte (wenn nicht: Zeitersparnis, wenn doch: auch getCitationsPerYearComplete(pmid) und ansschließend updaten statt inserten)
            print("hier passiert noch nix")
            # updateCitationsPerYear(pmid, citationsPerYear)

fillZitationen()

hier passiert noch nix
hier passiert noch nix
hier passiert noch nix
hier passiert noch nix
hier passiert noch nix
hier passiert noch nix
hier passiert noch nix
hier passiert noch nix
hier passiert noch nix
hier passiert noch nix
