# Datenabfrage von Scopus


# Table of contents

1. [Abfrage Daten Scopus für Zeitscheibe 1: 2010 - 2013](#import_scopus_2010)
2. [Abfrage Daten Scopus für Zeitscheibe 2: 2020 - 2023](#import_scopus_2020)

In [1]:
import pybliometrics
import pandas as pd
from pybliometrics.scopus import ScopusSearch

pybliometrics.scopus.init()  # read API key

In [2]:
import jupyter_black

jupyter_black.load()

In [3]:
%load_ext watermark
%watermark -v --iversions

Python implementation: CPython
Python version       : 3.11.2
IPython version      : 8.5.0

jupyter_black: 0.4.0
pybliometrics: 4.1
pandas       : 1.5.3



## Abfrage Daten Scopus für Zeitscheibe 1: 2010 - 2013<a class="anchor" id="import_scopus_2010"></a>


In [4]:
# Datenabfrage fuer ALD Zeitscheibe 1: 2010 - 2013
query2010 = 'TITLE-ABS-Key("atomic layer deposition" OR ("ALD" AND "thin film*" AND NOT ("alcohol-related liver disease"))) AND PUBYEAR > 2009 AND PUBYEAR < 2014'
search2010 = ScopusSearch(query2010, verbose=True, download=True)

print(search2010.get_results_size())

4086


In [5]:
# Daten in DataFrame umwandeln
search2010_df = pd.DataFrame([doc._asdict() for doc in search2010.results])

In [6]:
# Alle Daten abspeichern
search2010_df.to_csv(f"../data/raw/data_scopus_2010.csv", encoding="utf-8", index=False)

### Analyse Daten Scopus für Zeitscheibe 1

In [7]:
# Publikationsarten
type_counts2010 = search2010_df["subtypeDescription"].value_counts()
print(type_counts2010)

Article              2695
Conference Paper     1203
Review                 57
Conference Review      56
Book Chapter           51
Erratum                10
Letter                  8
Short Survey            2
Editorial               2
Book                    2
Name: subtypeDescription, dtype: int64


In [None]:
conf_review2010 = search2010_df[
    search2010_df["subtypeDescription"] == "Conference Review"
]
pd.options.display.max_colwidth = 200

print(conf_review2010.iloc[54])
conf_review2010["publicationName"].value_counts()

In [None]:
search2010_df[search2010_df["subtypeDescription"] == "Editorial"]

In [None]:
search2010_df[search2010_df["subtypeDescription"] == "Short Survey"]

In [11]:
# keine DOI oder kein Abstract über alle Daten
total_count = search2010_df.shape[0]
print(total_count)
no_doi = search2010_df[search2010_df["doi"].isnull()].shape[0]
no_abstract = search2010_df[search2010_df["description"].isnull()].shape[0]
print(
    f"Keine DOI: {no_doi} ({no_doi/total_count*100:.2f} %) \nkein Abstract: {no_abstract} ({no_abstract/total_count*100:.2f} %)"
)

4086
Keine DOI: 243 (5.95 %) 
kein Abstract: 63 (1.54 %)


In [12]:
# Wieviele Einträge davon haben keine DOI bzw. keinen Abstract?

for type in [
    "Article",
    "Conference Paper",
    "Review",
    "Conference Review",
    "Book Chapter",
    "Erratum",
    "Letter",
    "Short Survey",
    "Editorial",
    "Book",
]:
    total_count = type_counts2010[type]
    search2010_type = search2010_df[search2010_df["subtypeDescription"] == type]
    no_doi = search2010_type[search2010_type["doi"].isnull()].shape[0]
    no_abstract = search2010_type[search2010_type["description"].isnull()].shape[0]
    print(
        f"Von {total_count} Einträgen vom Typ {type} haben {no_doi} ({no_doi/total_count*100:.2f} %) Einträge keine DOI und {no_abstract} ({no_abstract/total_count*100:.2f} %) keinen Abstract."
    )

Von 2695 Einträgen vom Typ Article haben 33 (1.22 %) Einträge keine DOI und 5 (0.19 %) keinen Abstract.
Von 1203 Einträgen vom Typ Conference Paper haben 146 (12.14 %) Einträge keine DOI und 26 (2.16 %) keinen Abstract.
Von 57 Einträgen vom Typ Review haben 2 (3.51 %) Einträge keine DOI und 0 (0.00 %) keinen Abstract.
Von 56 Einträgen vom Typ Conference Review haben 56 (100.00 %) Einträge keine DOI und 0 (0.00 %) keinen Abstract.
Von 51 Einträgen vom Typ Book Chapter haben 4 (7.84 %) Einträge keine DOI und 20 (39.22 %) keinen Abstract.
Von 10 Einträgen vom Typ Erratum haben 0 (0.00 %) Einträge keine DOI und 10 (100.00 %) keinen Abstract.
Von 8 Einträgen vom Typ Letter haben 0 (0.00 %) Einträge keine DOI und 0 (0.00 %) keinen Abstract.
Von 2 Einträgen vom Typ Short Survey haben 2 (100.00 %) Einträge keine DOI und 0 (0.00 %) keinen Abstract.
Von 2 Einträgen vom Typ Editorial haben 0 (0.00 %) Einträge keine DOI und 2 (100.00 %) keinen Abstract.
Von 2 Einträgen vom Typ Book haben 0 (0.00 %

## Abfrage Daten Scopus für Zeitscheibe 2: 2020 - 2023<a class="anchor" id="import_scopus_2020"></a>


In [13]:
# Datenabfrage für ALD
query2020 = 'TITLE-ABS-Key("atomic layer deposition" OR ("ALD" AND "thin film*" AND NOT ("alcohol-related liver disease"))) AND PUBYEAR > 2019 AND PUBYEAR < 2024'
search2020 = ScopusSearch(query2020, verbose=True, download=True)

print(search2020.get_results_size())

6505


In [14]:
# Daten in DataFrame umwandeln
search2020_df = pd.DataFrame([doc._asdict() for doc in search2020.results])
search2020_df.shape

(6505, 36)

In [15]:
# Alle Daten abspeichern
search2020_df.to_csv(f"../data/raw/data_scopus_2020.csv", encoding="utf-8", index=False)

### Analyse Zeitscheibe 2

In [16]:
# Publikationsarten
type_counts2020 = search2020_df["subtypeDescription"].value_counts()
print(type_counts2020)

Article              5470
Conference Paper      591
Review                289
Book Chapter           87
Erratum                25
Conference Review      18
Book                    7
Note                    5
Editorial               4
Letter                  4
Short Survey            3
Retracted               1
Data Paper              1
Name: subtypeDescription, dtype: int64


In [None]:
search2020_df[search2020_df["subtypeDescription"] == "Note"]

In [18]:
# keine DOI oder kein Abstract über alle Daten
total_count = search2020_df.shape[0]
no_doi = search2020_df[search2020_df["doi"].isnull()].shape[0]
no_abstract = search2020_df[search2020_df["description"].isnull()].shape[0]
print(
    f"Keine DOI: {no_doi} ({no_doi/total_count*100:.2f} %) \nkein Abstract: {no_abstract} ({no_abstract/total_count*100:.2f} %)"
)

Keine DOI: 113 (1.74 %) 
kein Abstract: 18 (0.28 %)


In [19]:
# Wieviele Einträge davon haben keine DOI bzw. keinen Abstract?

for type in [
    "Article",
    "Conference Paper",
    "Review",
    "Book Chapter",
    "Erratum",
    "Conference Review",
    "Book",
    "Note",
    "Editorial",
    "Letter",
    "Short Survey",
    "Retracted",
    "Data Paper",
]:
    total_count = type_counts2020[type]
    search2020_type = search2020_df[search2020_df["subtypeDescription"] == type]
    no_doi = search2020_type[search2020_type["doi"].isnull()].shape[0]
    no_abstract = search2020_type[search2020_type["description"].isnull()].shape[0]
    print(
        f"Von {total_count} Einträgen vom Typ {type} haben {no_doi} ({no_doi/total_count*100:.2f} %) Einträge keine DOI und {no_abstract} ({no_abstract/total_count*100:.2f} %) keinen Abstract."
    )

Von 5470 Einträgen vom Typ Article haben 14 (0.26 %) Einträge keine DOI und 1 (0.02 %) keinen Abstract.
Von 591 Einträgen vom Typ Conference Paper haben 75 (12.69 %) Einträge keine DOI und 4 (0.68 %) keinen Abstract.
Von 289 Einträgen vom Typ Review haben 0 (0.00 %) Einträge keine DOI und 0 (0.00 %) keinen Abstract.
Von 87 Einträgen vom Typ Book Chapter haben 6 (6.90 %) Einträge keine DOI und 3 (3.45 %) keinen Abstract.
Von 25 Einträgen vom Typ Erratum haben 0 (0.00 %) Einträge keine DOI und 1 (4.00 %) keinen Abstract.
Von 18 Einträgen vom Typ Conference Review haben 18 (100.00 %) Einträge keine DOI und 0 (0.00 %) keinen Abstract.
Von 7 Einträgen vom Typ Book haben 0 (0.00 %) Einträge keine DOI und 0 (0.00 %) keinen Abstract.
Von 5 Einträgen vom Typ Note haben 0 (0.00 %) Einträge keine DOI und 3 (60.00 %) keinen Abstract.
Von 4 Einträgen vom Typ Editorial haben 0 (0.00 %) Einträge keine DOI und 4 (100.00 %) keinen Abstract.
Von 4 Einträgen vom Typ Letter haben 0 (0.00 %) Einträge keine