# AO3 Web Scraper und Datenextraktor

## Ein suchurl-basiertes Skript zur systematischen Erfassung von Fanfiction-Metadaten und Textkorpora

Dieses Notebook sammelt AO3-Works in zwei klar getrennten Schritten. Zunächst werden über eine AO3 Suche alle relevanten Works identifiziert und deren eindeutige Work-IDs aus den Suchergebnissen extrahiert. In einem zweiten Schritt werden auf Basis dieser Work-IDs gezielt die zugehörigen Metadaten (z. B. Titel, Autor:in, Tags, Ratings, Statistiken) sowie – sofern erforderlich – die Volltexte der Werke abgerufen.  

Da Archive of Our Own keine öffentliche Programmierschnittstelle (API) bereitstellt, erfolgt der Zugriff nicht direkt, sondern über die Python-Bibliothek ao3_api, die die AO3-Weboberfläche automatisiert ausliest. Der Einsatz dieser Bibliothek geschieht unter Berücksichtigung der Nutzungsbedingungen von AO3, insbesondere durch begrenzte Abruffrequenzen und einen ressourcenschonenden Zugriff.  

Dieses Notebook arbeitet grundsätzlich mit folgender Ordnerstruktur
**Ausführungort**: hier wird die Python Umgebung initialisiert.  
--> Notebook FanfictionScraper & FanfictionAnalyzer + Systemdateien  
**HilfsDokumente**: hier liegen Skripte und Dokumente, die im Rahmen der Notebooks aufgerufen werden.  
--> die Scraper-Skripte  

**Vorgehen:**  
Dieses Notbeook gliedert sich in folgende Abschnitte
**1. Initiales Setup:** Lokale Installation bzw. Update der verwendeten Bibliotheken - sofern erforderlich  
**2. Sammeln der Work IDs:** Sammeln der work_ids zu der über die AO3 Suche vordefinierten Vorgaben  
**3. Sammeln der Metadaten und Texte:** Sammeln der Metadaten und Texte zu der in 2. generierten Liste an work_ids

Zur Sammeln der IDs muss ***Code-Zelle 2*** ausgeführt werden. Zum Abruf der Daten muss ***Code-Zelle 3*** ausgeführt werden.  
Hinweise zu Einstellungsmöglichkeiten werden in den jeweiligen Abschnitten gegeben.


### 1. Initiales Setup
Die Installation dient nur der lokalen Ausführung; Versionsstände sind nicht fixiert.

In [1]:
# Sofern erforderlich: Installation/Upgrade der nachfolgenden Bibliotheken
!uv pip install --upgrade unidecode
!uv pip install --upgrade tqdm
!uv pip install --upgrade requests
!uv pip install --upgrade pandas
!uv pip install --upgrade beautifulsoup4

[2mResolved [1m1 package[0m [2min 111ms[0m[0m
[2mAudited [1m1 package[0m [2min 0.66ms[0m[0m
[2mResolved [1m2 packages[0m [2min 162ms[0m[0m
[2mAudited [1m2 packages[0m [2min 1ms[0m[0m
[2mResolved [1m5 packages[0m [2min 235ms[0m[0m
[2mPrepared [1m2 packages[0m [2min 20ms[0m[0m
[2mUninstalled [1m2 packages[0m [2min 60ms[0m[0m
[2mInstalled [1m2 packages[0m [2min 103ms[0m[0m
 [31m-[39m [1mcertifi[0m[2m==2025.11.12[0m
 [32m+[39m [1mcertifi[0m[2m==2026.1.4[0m
 [31m-[39m [1murllib3[0m[2m==2.6.2[0m
 [32m+[39m [1murllib3[0m[2m==2.6.3[0m
[2mResolved [1m6 packages[0m [2min 298ms[0m[0m
[2mAudited [1m6 packages[0m [2min 1ms[0m[0m
[2mResolved [1m3 packages[0m [2min 236ms[0m[0m
[2mAudited [1m3 packages[0m [2min 0.65ms[0m[0m


### 1. Sammeln der Work Ids
Die nachfolgende Zelle startet den AO3-ID-Scraper und generiert eine Ausgabedatei mit den einschlägigen work_ids.  

Grundlage ist eine AO3-Suche: 
Mit der Suche kann der Untersuchungsgegenstand näher bestimmt werden. Relevante Kriterien sind hier insbesondere das ***Fandom***, der ***Zeitraum***, der ***Sprache*** sowie die Frage, ob ***crossovers*** mit einbezogen werden sollen. Weitere Filtermöglichkeiten bieten sich insbesondere in dern Bereichen ***Archive warnings***, ***Completion status*** und ***Single Chapter*** an.   

Im Code muss die ***vollsätndige*** Such-URL angegeben werden!  
Sollte das Skript nicht im Ordner ***HilfsDokumente*** abgelegt worden sein, muss der Pfad (`!python HilfsDokumente/AO3-ID-Scraper.py`) entsprechend angepasst werden!  

#### Anpassungsmöglichkeiten:
- AO3 Such-URL: !python Scraper_IDs.py **"https://archiveofourown.org/...ago"**
- Name der Ausgabedatei `out_csv Titel.cs`
- Name der log-Datei `log_txt Titel.txt`
- Anzahl abzurufender IDs `num_to_retrieve 611`
- Header `header "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:131.0) Gecko/20100101 Firefox/131.0") ForschungsprojektDH (madh54@gmail.com)`


In [5]:
!python HilfsDokumente/AO3-ID-Scraper.py \
"https://archiveofourown.org/works/search?work_search%5Bquery%5D=&work_search%5Btitle%5D=&work_search%5Bcreators%5D=&work_search%5Brevised_at%5D=27+month+ago&work_search%5Bcomplete%5D=&work_search%5Bcrossover%5D=F&work_search%5Bsingle_chapter%5D=0&work_search%5Bsingle_chapter%5D=1&work_search%5Bword_count%5D=&work_search%5Blanguage_id%5D=en&work_search%5Bfandom_names%5D=Harry+Potter+-+J.+K.+Rowling&work_search%5Brating_ids%5D=&work_search%5Barchive_warning_ids%5D%5B%5D=16&work_search%5Bcharacter_names%5D=&work_search%5Brelationship_names%5D=&work_search%5Bfreeform_names%5D=&work_search%5Bhits%5D=&work_search%5Bkudos_count%5D=&work_search%5Bcomments_count%5D=&work_search%5Bbookmarks_count%5D=&work_search%5Bsort_column%5D=_score&work_search%5Bsort_direction%5D=desc&commit=Search" \
--out_csv Ausgabedokumente/AO3_HP_IDs_10_2024.csv \
--log_dir Ausgabedokumente \
--log_name AO3_HP_IDs_10_2024.log \
--num_to_retrieve 2000 \
--delay 5 \
--header "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:131.0) Gecko/20100101 Firefox/131.0; UniProjektDH (madh54@gmail.com)"



Log-Datei gespeichert unter: Ausgabedokumente\AO3_HP_IDs_10_2024.log
===== AO3 SCRAPER LOG =====
Script: ao3_ids
Startzeit: 2026-01-15T20:47:28
Parameter / Aufruf:
  out_csv: Ausgabedokumente/AO3_HP_IDs_10_2024.csv
  num_to_retrieve: 2000
  header: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:131.0) Gecko/20100101 Firefox/131.0; UniProjektDH (madh54@gmail.com)
  delay: 5

Maximal abzurufende IDs: 2000
Seite 1 verarbeitet, 20 IDs gesammelt.
Seite 2 verarbeitet, 40 IDs gesammelt.
Seite 3 verarbeitet, 60 IDs gesammelt.
Seite 4 verarbeitet, 80 IDs gesammelt.
Seite 5 verarbeitet, 100 IDs gesammelt.
Seite 6 verarbeitet, 120 IDs gesammelt.
Seite 7 verarbeitet, 140 IDs gesammelt.
Seite 8 verarbeitet, 160 IDs gesammelt.
Seite 9 verarbeitet, 180 IDs gesammelt.
Seite 10 verarbeitet, 200 IDs gesammelt.
Seite 11 verarbeitet, 220 IDs gesammelt.
Seite 12 verarbeitet, 240 IDs gesammelt.
Seite 13 verarbeitet, 260 IDs gesammelt.
Seite 14 verarbeitet, 280 IDs gesammelt.
Seite 15 verarbeitet, 300 IDs gesa


IDs sammeln:   0%|                                               | 0/2000 [00:00<?, ?it/s]
IDs sammeln:   0%|                                    | 1/2000 [00:46<26:01:37, 46.87s/it]
IDs sammeln:   1%|3                                   | 21/2000 [01:50<2:33:28,  4.65s/it]
IDs sammeln:   2%|7                                   | 41/2000 [02:10<1:23:04,  2.54s/it]
IDs sammeln:   3%|#1                                    | 61/2000 [02:30<59:20,  1.84s/it]
IDs sammeln:   4%|#5                                    | 81/2000 [02:46<45:57,  1.44s/it]
IDs sammeln:   5%|#8                                   | 101/2000 [03:00<36:57,  1.17s/it]
IDs sammeln:   6%|##2                                  | 121/2000 [03:16<32:41,  1.04s/it]
IDs sammeln:   7%|##6                                  | 141/2000 [03:27<27:09,  1.14it/s]
IDs sammeln:   8%|##9                                  | 161/2000 [04:04<36:44,  1.20s/it]
IDs sammeln:   9%|###3                                 | 181/2000 [04:39<41:13,  1.36s/it

### 2. Sammeln der Metadaten und Texte
Die nachfolgende Zelle startet den AO3-Fanfiction-Scraper und generiert zwei seperate CSV Dateien mit Metadaten bzw. Texten.

AO3 bietet den Vorteil, dass neben den Texten regelmäßig umfangreiche, von den Autor:innen vergebene Tags als Metadaten verfügbar sind. In diesem Skript werden Metadaten und Volltexte getrennt voneinander gescrapet. Diese Trennung erhöht die technische Effizienz und Stabilität des Scraping-Prozesses, da die HTML-Struktur von AO3 bei fehlenden oder variablen Werten andernfalls zu fehlerhaften Zuordnungen von Einträgen führen kann.

Sollte das Skript nicht im Ordner ***HilfsDokumente*** abgelegt worden sein, muss der Pfad (`!python HilfsDokumente/AO3-ID-Scraper.py`) entsprechend angepasst werden!  

#### Anpassungsmöglichkeiten:
- Bezeichnung der Ursprungsdatei, in der die IDs gespeichert sind `input_csv AO3_HP_IDs_10_2024`  
- Bezeichnung der Ausgabedateien `text_csv AO3_HP_FanFic_10_2024_text.csv`/ `meta_csv AO3_HP_FanFic_10_2024_meta.csv` / `error_csv AO3_HP_FanFic_10_2024_errors.csv`/ `log_name AO3_HP_FanFic_10_2024.log`
- Zeit, die zwischen den Anfragen verstreichen soll; Standard: 5 Sekunden `delay 5`
- Header: `--header "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:131.0) Gecko/20100101 Firefox/131.0; UniProjektDH (madh54@gmail.com)"`

#### Ergebnis:
- CSV Datei mit work_id und Metadaten
- CSV mit work_id und Texten
- Log Datei mit Abfragedaten
- Error Datei zu fehlgeschlagenen Abfragen

In [None]:
#v3
!python HilfsDokumente/AO3-FanFic-Scraper.py \
--input_csv AO3_HP_IDs_10_2024.csv \
--text_csv AO3_HP_FanFic_10_2024_text.csv \
--meta_csv AO3_HP_FanFic_10_2024_meta.csv \
--error_csv AO3_HP_FanFic_10_2024_errors.csv \
--log_name AO3_HP_FanFic_10_2024.log \
--log_dir Ausgabedokumente \
--delay 5 \
--header "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:131.0) Gecko/20100101 Firefox/131.0; UniProjektDH (madh54@gmail.com)"


[1/1803] Work ID 65610619 verarbeitet.
[2/1803] Work ID 58898008 verarbeitet.
[3/1803] Work ID 55072294 verarbeitet.
[4/1803] Work ID 55071994 verarbeitet.
[5/1803] Work ID 55069522 verarbeitet.
[6/1803] Work ID 55069138 verarbeitet.
[7/1803] Work ID 55068967 verarbeitet.
[8/1803] Work ID 55068466 verarbeitet.
[9/1803] Work ID 51472405 verarbeitet.
[10/1803] Work ID 51355108 verarbeitet.
[11/1803] Work ID 51329770 verarbeitet.
[12/1803] Work ID 51321706 verarbeitet.
[13/1803] Work ID 51321619 verarbeitet.
[14/1803] Work ID 51321550 verarbeitet.
[15/1803] Work ID 51321442 verarbeitet.
[16/1803] Work ID 51321367 verarbeitet.
[17/1803] Work ID 51321184 verarbeitet.
[18/1803] Work ID 51321061 verarbeitet.
[19/1803] Work ID 51320926 verarbeitet.
[20/1803] Work ID 51320314 verarbeitet.
[21/1803] Work ID 51320185 verarbeitet.
[22/1803] Work ID 51320074 verarbeitet.
[23/1803] Work ID 51319924 verarbeitet.
[24/1803] Work ID 51319738 verarbeitet.
[25/1803] Work ID 51296074 verarbeitet.
[26/1803]