# AO3 Web Scraper und Datenextraktor

## Ein suchurl-basiertes Skript zur systematischen Erfassung von Fanfiction-Metadaten und Textkorpora

Dieses Notebook sammelt AO3-Works in zwei klar getrennten Schritten. Zunächst werden über eine AO3 Suche alle relevanten Works identifiziert und deren eindeutige Work-IDs aus den Suchergebnissen extrahiert. In einem zweiten Schritt werden auf Basis dieser Work-IDs gezielt die zugehörigen Metadaten (z. B. Titel, Autor:in, Tags, Ratings, Statistiken) sowie – sofern erforderlich – die Volltexte der Werke abgerufen.

Da Archive of Our Own keine öffentliche Programmierschnittstelle (API) bereitstellt, erfolgt der Zugriff nicht direkt, sondern über die Python-Bibliothek ao3_api, die die AO3-Weboberfläche automatisiert ausliest. Der Einsatz dieser Bibliothek geschieht unter Berücksichtigung der Nutzungsbedingungen von AO3, insbesondere durch begrenzte Abruffrequenzen und einen ressourcenschonenden Zugriff.

### Initiales Setup
Sofern die folgenden Bibliotheken in der Umgebung noch nicht installiert wurden, können diese über nachfolgende Zelle installiert bzw. geupdatet werden.

In [3]:
!uv pip install --upgrade unidecode
!uv pip install --upgrade tqdm
!uv pip install --upgrade requests
!uv pip install --upgrade pandas
!uv pip install --upgrade beautifulsoup4

[2mResolved [1m1 package[0m [2min 49ms[0m[0m
[2mAudited [1m1 package[0m [2min 0.82ms[0m[0m
[2mResolved [1m2 packages[0m [2min 77ms[0m[0m
[2mPrepared [1m1 package[0m [2min 17ms[0m[0m
[2mInstalled [1m1 package[0m [2min 100ms[0m[0m
 [32m+[39m [1mtqdm[0m[2m==4.67.1[0m
[2mResolved [1m5 packages[0m [2min 76ms[0m[0m
[2mAudited [1m5 packages[0m [2min 1ms[0m[0m
[2mResolved [1m6 packages[0m [2min 115ms[0m[0m
[2mPrepared [1m2 packages[0m [2min 13ms[0m[0m
[2mInstalled [1m2 packages[0m [2min 1.81s[0m[0m
 [32m+[39m [1mpandas[0m[2m==2.3.3[0m
 [32m+[39m [1mpytz[0m[2m==2025.2[0m
[2mResolved [1m3 packages[0m [2min 60ms[0m[0m
[2mAudited [1m3 packages[0m [2min 0.73ms[0m[0m


### 1. Sammeln der WorkIds
Die nachfolgende Zelle startet den AO3-ID-Scraper und generiert eine Ausgabedatei mit den einschlägigen work_ids

#### Anpassungsmöglichkeiten:
- AO3 Such-URL: !python Scraper_IDs.py **"https://archiveofourown.org/...ago"**
- Name der Ausgabedatei: **--out_csv Titel.csv**
- Name der log-Datei: **--log_txt Titel.txt**
- Anzahl abzurufender IDs: **--num_to_retrieve 611**
- Header: **--header "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:131.0) Gecko/20100101 Firefox/131.0") ForschungsprojektDH**


In [6]:
#v3
!python HilfsDokumente/AO3-ID-Scraper.py \
"https://archiveofourown.org/works/search?work_search%5Bquery%5D=&work_search%5Btitle%5D=&work_search%5Bcreators%5D=&work_search%5Brevised_at%5D=3+month+ago&work_search%5Bcomplete%5D=&work_search%5Bcrossover%5D=F&work_search%5Bsingle_chapter%5D=0&work_search%5Bsingle_chapter%5D=1&work_search%5Bword_count%5D=&work_search%5Blanguage_id%5D=en&work_search%5Bfandom_names%5D=Harry+Potter+-+J.+K.+Rowling&work_search%5Brating_ids%5D=&work_search%5Barchive_warning_ids%5D%5B%5D=16&work_search%5Bcharacter_names%5D=&work_search%5Brelationship_names%5D=&work_search%5Bfreeform_names%5D=&work_search%5Bhits%5D=&work_search%5Bkudos_count%5D=&work_search%5Bcomments_count%5D=&work_search%5Bbookmarks_count%5D=&work_search%5Bsort_column%5D=_score&work_search%5Bsort_direction%5D=desc&commit=Search" \
--out_csv Ausgabedokumente/AO3_HP_IDs_10_2025.csv \
--log_dir Ausgabedokumente \
--log_name AO3_HP_IDs_10_2025.log \
--num_to_retrieve 2200 \
--delay 5 \
--header "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:131.0) Gecko/20100101 Firefox/131.0; UniProjektDH"



Log-Datei gespeichert unter: Ausgabedokumente\AO3_HP_IDs_10_2025.log
===== AO3 SCRAPER LOG =====
Script: ao3_ids
Startzeit: 2026-01-08T20:55:19
Parameter / Aufruf:
  out_csv: Ausgabedokumente/AO3_HP_IDs_10_2025.csv
  num_to_retrieve: 2200
  header: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:131.0) Gecko/20100101 Firefox/131.0; UniProjektDH
  delay: 5

Maximal abzurufende IDs: 2200
Seite 1 verarbeitet, 20 IDs gesammelt.
Seite 2 verarbeitet, 40 IDs gesammelt.
Seite 3 verarbeitet, 60 IDs gesammelt.
Seite 4 verarbeitet, 80 IDs gesammelt.
Seite 5 verarbeitet, 100 IDs gesammelt.
Seite 6 verarbeitet, 120 IDs gesammelt.
Seite 7 verarbeitet, 140 IDs gesammelt.
Seite 8 verarbeitet, 160 IDs gesammelt.
Seite 9 verarbeitet, 180 IDs gesammelt.
Seite 10 verarbeitet, 200 IDs gesammelt.
Seite 11 verarbeitet, 220 IDs gesammelt.
Seite 12 verarbeitet, 240 IDs gesammelt.
Seite 13 verarbeitet, 260 IDs gesammelt.
Seite 14 verarbeitet, 280 IDs gesammelt.
Seite 15 verarbeitet, 300 IDs gesammelt.
Seite 16 ver


IDs sammeln:   0%|                                               | 0/2200 [00:00<?, ?it/s]
IDs sammeln:   0%|                                     | 1/2200 [00:11<7:02:07, 11.52s/it]
IDs sammeln:   1%|3                                     | 21/2200 [00:23<34:49,  1.04it/s]
IDs sammeln:   2%|7                                     | 41/2200 [00:42<34:30,  1.04it/s]
IDs sammeln:   3%|#                                     | 61/2200 [00:51<25:42,  1.39it/s]
IDs sammeln:   4%|#3                                    | 81/2200 [01:02<22:59,  1.54it/s]
IDs sammeln:   5%|#6                                   | 101/2200 [01:10<19:36,  1.78it/s]
IDs sammeln:   6%|##                                   | 121/2200 [01:24<21:22,  1.62it/s]
IDs sammeln:   6%|##3                                  | 141/2200 [01:37<21:16,  1.61it/s]
IDs sammeln:   7%|##7                                  | 161/2200 [01:48<20:29,  1.66it/s]
IDs sammeln:   8%|###                                  | 181/2200 [01:57<18:56,  1.78it/s

### 2. Metadaten und Texte sammeln
Die nachfolgende Zelle startet den AO3-Fanfiction-Scraper und generiert zwei seperate CSV Dateien mit Metadaten bzw. Texten.

AO3 bietet den Vorteil, dass neben den Texten regelmäßig umfangreiche, von den Autor:innen vergebene Tags als Metadaten verfügbar sind. In diesem Skript werden Metadaten und Volltexte getrennt voneinander gescrapet. Diese Trennung erhöht die technische Effizienz und Stabilität des Scraping-Prozesses, da die HTML-Struktur von AO3 bei fehlenden oder variablen Werten andernfalls zu fehlerhaften Zuordnungen von Einträgen führen kann.


#### Anpassungsmöglichkeiten:
- Bezeichnung der Ursprungsdatei, in der die IDs gespeichert sind
- Bezeichnung der Ausgabedateien
- Zeit, die zwischen den Anfragen verstreichen soll; Standard: 5 Sekunden
- Header: --header "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:131.0) Gecko/20100101 Firefox/131.0; UniProjektDH (madh54@gmail.com)"

#### Ergebnis:
- CSV Datei mit work_id und Metadaten
- CSV mit work_id und Texten
- Log Datei mit Abfragedaten
- Error Datei zu fehlgeschlagenen Abfragen

In [7]:
#v3
!python HilfsDokumente/AO3-FanFic-Scraper.py \
--input_csv AO3_HP_IDs_10_2025.csv \
--text_csv AO3_HP_FanFic_10_2015_text.csv \
--meta_csv AO3_HP_FanFic_10_2015_meta.csv \
--error_csv AO3_HP_FanFic_10_2015_errors.csv \
--log_name AO3_HP_FanFic_10_2015.log \
--log_dir Ausgabedokumente \
--delay 5 \
--header "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:131.0) Gecko/20100101 Firefox/131.0; UniProjektDH (madh54@gmail.com)"


[1/2114] Work ID 76158526 verarbeitet.
[2/2114] Work ID 76147721 verarbeitet.
[3/2114] Work ID 75292571 verarbeitet.
[4/2114] Work ID 74128081 verarbeitet.
[5/2114] Work ID 73599016 verarbeitet.
[6/2114] Work ID 73513201 verarbeitet.
[7/2114] Work ID 73512871 verarbeitet.
[8/2114] Work ID 73511111 verarbeitet.
[9/2114] Work ID 73510111 verarbeitet.
[10/2114] Work ID 73509761 verarbeitet.
[11/2114] Work ID 73483876 verarbeitet.
[12/2114] Work ID 73474956 verarbeitet.
[13/2114] Work ID 73474871 verarbeitet.
[14/2114] Work ID 73470161 verarbeitet.
[15/2114] Work ID 73469221 verarbeitet.
[16/2114] Work ID 73467996 verarbeitet.
[17/2114] Work ID 73467906 verarbeitet.
[18/2114] Work ID 73467896 verarbeitet.
[19/2114] Work ID 73467861 verarbeitet.
[20/2114] Work ID 73467631 verarbeitet.
[21/2114] Work ID 73467091 verarbeitet.
[22/2114] Work ID 73467046 verarbeitet.
[23/2114] Work ID 73467011 verarbeitet.
[24/2114] Work ID 73466901 verarbeitet.
[25/2114] Work ID 73465916 verarbeitet.
[26/2114]