# Analyse von Arxiv: Strukturierte und unstrukturierte Daten

Dieses Jupyter Notebook stellt die Prüfungsaufgabe des Moduls "Maschinelles Lernen" (ROB60) der Akad University dar.

## Einführung

Die Aufgabenstellung dieser Prüfung ist es Artikel zu einem selbstgewählten Thema der Webseite [Arxiv](https://arxiv.org/) zu analysieren.
Im ersten Schritt wird ein Histogramm der über die Anzahl der Artikel pro Autor erstellt. Im Weiteren wird eine deskriptive Analyse für die verschiedenen Jahr durchgeführt.
Das Ziel ist zu eruieren, ob sich über die Jahre gewisse Parameter oder Korrelationen verändert haben. Dies könnte beispielsweise die Anzahl der veröffentlichten Artikel pro Autor
oder die Anzahl an Autoren sein. Darüber hinaus wird eine Textanalyse durchgeführt. Diese Analyse wird anhand des Abstracts der Artikel durchgeführt.
Diese Aufgaben werden sich am CRISP DM Standard orientieren und die folgenden Punkte beinhalten:

1. Verstehen der Daten
2. Datenvorbereitung
3. Modellierung
4. Auswertung

## Extraktion der Daten von Arxiv

Für die Extraktion der Daten findet mittels der Web-API der Platform von Arxiv statt. Es wird das exemplarische Stichwort "Deep Reinforcement Learning" gewählt.
Um eine möglichst aussagekräftige Analyse durchführen zu können, werden Artikel für die Jahre 2017-2021 heruntergeladen. Pro Jahr sollen 200 Artikel heruntergeladen und in die
Analyse miteinbezogen werden.

In [None]:
import arxiv
import pandas as pd
from arxiv import SortCriterion, Search

# Define number of articles and search query
number_of_articles = 200
search_query = f"Deep Reinforcement Learning AND submittedDate:[{2018}01010000 TO {2018}12312359]"

# Generate the client
client = arxiv.Client()

# Search for the articles
search = Search(
    query=search_query,
    max_results=number_of_articles,
    sort_by=SortCriterion.SubmittedDate,
)

results = client.results(search)

# Save retrieved data in array
articles = []
for result in results:
    article = {
        "Title": result.title,
        "Authors": result.authors,
        "Abstract": result.summary,
        "PublishedDate": result.published,
    }
    articles.append(article)

# Save articles in data frame
df = pd.DataFrame(articles)
print(df.head())