# Accessing German Historical Newspapers using the Gemini Pro Model
## Example: Article Extraction

*Notebook created by Sarah Oberbichler (oberbichler@ieg-mainz.de)*

This notebook shows how LLMs can be used to support research with historical newspapers. In this example, the Gemini pro model is used to extract articles on earthquakes in OCR'd historical newspapers pages.

Article segmentation for historical newspapers can be based on layout information and graphical elements (image) as well as on textual context (data). While the former is very challenging due to the changing and complex layouts of historical newspapers, the latter seems to be especially promising for topic-specific corpus building. Qualitative research relies on correctly separated articles. An article, in this context, is defined as a coherent text covering a specific topic, no more and no less.



### 1.   Query the German Historical Newspaper Portal

German historical newspapers from the German Digital Library can be accessed via the DDB-API. This API is open access and allows to query the Historical Newspapers available in the German Newspaper Portal ([Deutsches Zeitungsportal](https://https://www.deutsche-digitale-bibliothek.de/newspaper)). An instruction, provided by the German Newspaper Portal, can be found [here](https://https://deepnote.com/app/karl-kragelin-b83c/Zeitungsportal-API-d9224dda-8e26-4b35-a6d7-40e9507b1151).

Python > 3.8 is required

In [1]:
# @markdown ####  Launch this cell and get access to the API of the Newspaper Portal from the German Digital Library
!pip install ddbapi

Collecting ddbapi
  Downloading ddbapi-0.1.2.tar.gz (5.2 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: ddbapi
  Building wheel for ddbapi (setup.py) ... [?25l[?25hdone
  Created wheel for ddbapi: filename=ddbapi-0.1.2-py3-none-any.whl size=5384 sha256=39306d23b1eb78ec32f3020cf6a1fe4112aab19fe0f85b88ea365bd273c6bdd9
  Stored in directory: /root/.cache/pip/wheels/0a/93/7e/69ec8f7396174c1532d0f9c5b9a343c6df0353071db93e4b2b
Successfully built ddbapi
Installing collected packages: ddbapi
Successfully installed ddbapi-0.1.2


In [2]:
# @markdown ####  Import the necessary packages
import pandas as pd
from ddbapi import zp_issues, zp_pages, list_column, filter

ModuleNotFoundError: No module named 'ddbapi'

In [3]:

# @markdown ### Possible kwargs for the functions are:
# @markdown - language: Use ISO Codes, currently ger, eng, fre, spa
# @markdown - place_of_distribution: Search inside "Verbreitungsort"
# @markdown - use a list for multiple search-words
# @markdown - publication_date: Get newspapers by publication date.
# @markdown - zdb_id: Search by ZDB-ID
# @markdown - provider: Search by Data Provider
# @markdown - paper_title: Search inside the title of the Newspaper
# @markdown - plainpagefulltex: search inside the OCR
# Get the data
df = zp_pages(
    publication_date='[1850-01-01T12:00:00Z TO 1851-12-31T12:00:00Z]',
    plainpagefulltext=["Erdbeben*"],
    #paper_title='Deutsche allgemeine Zeitung'
    )
df

https://api.deutsche-digitale-bibliothek.de/search/index/newspaper-issues/select?rows=1000&sort=id+ASC&q=type%3Apage+AND+publication_date%3A%22%5B1850-01-01T12%3A00%3A00Z%5C+TO%5C+1851-12-31T12%3A00%3A00Z%5D%22+AND+%28plainpagefulltext%3AErdbeben%2A%29&cursorMark=%2A
Got 767 items.


Unnamed: 0,page_id,pagenumber,paper_title,provider_ddb_id,provider,zdb_id,publication_date,place_of_distribution,language,thumbnail,pagefulltext,pagename,preview_reference,plainpagefulltext
0,22NYUNGOY64IXJJMTMPKYR7UADDF6GVH-ALTO8578354_D...,3,Kölnische Zeitung. 1803-1945,VKNQFFAKOR4XZWJJKUX3NGYSZ3QZAXCW,Universitäts- und Landesbibliothek der Rheinis...,2719361-5,1851-05-17 12:00:00,"[Köln, Kleve (Kreis Kleve), Jülich]",[ger],d9797b92-931d-4a4b-b99d-21a041a30d1d,[/data/altos/22/NY/22NYUNGOY64IXJJMTMPKYR7UADD...,ALTO8578354_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,piemontesisch = schweizerischen Telegraphen = ...
1,24I6NCIJKY6FXQ6WLXRZ642KPYXATVNO-ALTO2890815_D...,2,Neuwiedische Nachrichten,VKNQFFAKOR4XZWJJKUX3NGYSZ3QZAXCW,Universitäts- und Landesbibliothek der Rheinis...,2731244-6,1851-07-01 12:00:00,[Neuwied],[ger],480ccbcd-b912-40fe-aa7f-60c2b1c3fb31,[/data/altos/24/I6/24I6NCIJKY6FXQ6WLXRZ642KPYX...,ALTO2890815_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,"Stegen Haussuchung gehalten , und zwar , wie e..."
2,26JVYAU3S5GIKD2P6V4ZD6SPZRYVGH5J-ALTO3085102_D...,1,Täglicher Anzeiger für Berg und Mark,VKNQFFAKOR4XZWJJKUX3NGYSZ3QZAXCW,Universitäts- und Landesbibliothek der Rheinis...,2724665-6,1850-12-01 12:00:00,"[Wuppertal, Elberfeld, Wuppertal-Elberfeld]",[ger],cccc47ad-8958-470b-bedd-277b6cc43b82,[/data/altos/26/JV/26JVYAU3S5GIKD2P6V4ZD6SPZRY...,ALTO3085102_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,"# # # int & amp N . 286 Elberfeld , Sonntag de..."
3,26ZR5I7GWW3DAFUXMVRLMLBY3PJJHO6X-FILE_0003_DDB...,3,Staats- und gelehrte Zeitung des Hamburgischen...,BZVTR553HLJBDMQD5NCJ6YKP3HMBQRF4,Staats- und Universitätsbibliothek Hamburg Car...,2260914-3,1851-10-23 12:00:00,[Hamburg],[ger],0459305c-9a65-429b-8ccf-c36487f6d94c,[/data/altos/26/ZR/26ZR5I7GWW3DAFUXMVRLMLBY3PJ...,FILE_0003_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,»HP h* dis ^iatS- »iFcrä ’t'l'llfö sst'sspf UH...
4,27PZTJBLDL6AHEAFKPBUTAMHVVSGDVSM-FILE_0003_DDB...,3,Dresdner Journal und Anzeiger,265BI7NE7QBS4NQMZCCGIVLFR73OCOSL,Sächsische Landesbibliothek - Staats- und Univ...,2889118-1,1851-05-05 12:00:00,[Dresden],[ger],075be8b6-4850-4b88-876e-0725946cf523,[/data/altos/27/PZ/27PZTJBLDL6AHEAFKPBUTAMHVVS...,FILE_0003_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,991 worden sind. Der preußische General Brandt...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
762,ZTCTXNF7CGGRMPBQT7QPL3WU2KYNNF5Y-FILE_0004_DDB...,4,Riedlinger Zeitung : Tag- und Anzeigeblatt für...,VNHXUCEEKHOUSYH4NVOUBHJGSRMOGK7J,Württembergische Landesbibliothek,3123872-5,1851-07-09 12:00:00,[Riedlingen],[ger],d2219472-3416-4cd2-9601-62f1ff519203,[/data/altos/ZT/CT/ZTCTXNF7CGGRMPBQT7QPL3WU2KY...,FILE_0004_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,220 noch nicht entmuthigt. Diese standen ja ni...
763,ZWTKOXXZ777DIG2CQI4MNFRWDVRFK66Z-ALTO8577905_D...,10,Kölnische Zeitung. 1803-1945,VKNQFFAKOR4XZWJJKUX3NGYSZ3QZAXCW,Universitäts- und Landesbibliothek der Rheinis...,2719361-5,1851-03-25 12:00:00,"[Köln, Kleve (Kreis Kleve), Jülich]",[ger],9f5d0a66-99dd-4ca7-a83e-142b4a54a27e,[/data/altos/ZW/TK/ZWTKOXXZ777DIG2CQI4MNFRWDVR...,ALTO8577905_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,"erwarten , daß das neue Ministerium die Aufgab..."
764,ZXJYZGE3JVRSOM7QEL5PIZG64D34M4WD-FILE_0003_DDB...,3,Altonaer Mercur : Zeitung und Intelligenzblatt...,BZVTR553HLJBDMQD5NCJ6YKP3HMBQRF4,Staats- und Universitätsbibliothek Hamburg Car...,3033383-0,1851-03-16 12:00:00,"[Hamburg, Hamburg-Altona, Altona, Lauenburg/Elbe]",[ger],b51b1ede-d7b8-4417-a382-f77164a476ce,[/data/altos/ZX/JY/ZXJYZGE3JVRSOM7QEL5PIZG64D3...,FILE_0003_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,ftht Me Einrichtung einer Prüfungskommission f...
765,ZXOSMVED5EUTG2KPYNWXNWVJHPHSYVNK-ALTO8832491_D...,2,Düsseldorfer Journal und Kreisblatt,A5MCTVQDBFJTFJDZRTIZX5W6YKSHWOVC,Heinrich-Heine-Universität Düsseldorf. Univers...,2894809-9,1850-08-01 12:00:00,[Düsseldorf],[ger],5a601a80-472a-4e6f-86a1-079d2c5ec620,[/data/altos/ZX/OS/ZXOSMVED5EUTG2KPYNWXNWVJHPH...,ALTO8832491_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,Orten sich bedient haben . Hoffentlich wird de...


In [4]:
# @markdown #### We can narrow down the text surrounding the keyword in order to reduce the input tokens for the model. Choose the size of the context window here:

context_window = 5000 # @param {type:"number"}
def extract_context(keyword, text, window_size=context_window):
    index = text.find(keyword)
    if index == -1:
        return "Keyword not found in text."

    start_index = max(0, index - window_size)
    end_index = min(len(text), index + len(keyword) + window_size)

    context = text[start_index:end_index]

    return context


# Extract context for each row
contexts = []
for index, row in df.iterrows():
    text = row['plainpagefulltext']
    keyword = "Erdbeben"  # You can modify this
    context = extract_context(keyword, text)
    contexts.append(context)

# Add the context to the dataframe
df['context'] = contexts

# Print the dataframe with context
df.head()

Unnamed: 0,page_id,pagenumber,paper_title,provider_ddb_id,provider,zdb_id,publication_date,place_of_distribution,language,thumbnail,pagefulltext,pagename,preview_reference,plainpagefulltext,context
0,22NYUNGOY64IXJJMTMPKYR7UADDF6GVH-ALTO8578354_D...,3,Kölnische Zeitung. 1803-1945,VKNQFFAKOR4XZWJJKUX3NGYSZ3QZAXCW,Universitäts- und Landesbibliothek der Rheinis...,2719361-5,1851-05-17 12:00:00,"[Köln, Kleve (Kreis Kleve), Jülich]",[ger],d9797b92-931d-4a4b-b99d-21a041a30d1d,[/data/altos/22/NY/22NYUNGOY64IXJJMTMPKYR7UADD...,ALTO8578354_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,piemontesisch = schweizerischen Telegraphen = ...,fallenen Unweiters . — Die mininisterielle „ Z...
1,24I6NCIJKY6FXQ6WLXRZ642KPYXATVNO-ALTO2890815_D...,2,Neuwiedische Nachrichten,VKNQFFAKOR4XZWJJKUX3NGYSZ3QZAXCW,Universitäts- und Landesbibliothek der Rheinis...,2731244-6,1851-07-01 12:00:00,[Neuwied],[ger],480ccbcd-b912-40fe-aa7f-60c2b1c3fb31,[/data/altos/24/I6/24I6NCIJKY6FXQ6WLXRZ642KPYX...,ALTO2890815_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,"Stegen Haussuchung gehalten , und zwar , wie e...",ätig . Namentlich hat sie sich in den jüngsten...
2,26JVYAU3S5GIKD2P6V4ZD6SPZRYVGH5J-ALTO3085102_D...,1,Täglicher Anzeiger für Berg und Mark,VKNQFFAKOR4XZWJJKUX3NGYSZ3QZAXCW,Universitäts- und Landesbibliothek der Rheinis...,2724665-6,1850-12-01 12:00:00,"[Wuppertal, Elberfeld, Wuppertal-Elberfeld]",[ger],cccc47ad-8958-470b-bedd-277b6cc43b82,[/data/altos/26/JV/26JVYAU3S5GIKD2P6V4ZD6SPZRY...,ALTO3085102_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,"# # # int & amp N . 286 Elberfeld , Sonntag de...","kommen ; , lieber einen Kampf auf Tod und Lebe..."
3,26ZR5I7GWW3DAFUXMVRLMLBY3PJJHO6X-FILE_0003_DDB...,3,Staats- und gelehrte Zeitung des Hamburgischen...,BZVTR553HLJBDMQD5NCJ6YKP3HMBQRF4,Staats- und Universitätsbibliothek Hamburg Car...,2260914-3,1851-10-23 12:00:00,[Hamburg],[ger],0459305c-9a65-429b-8ccf-c36487f6d94c,[/data/altos/26/ZR/26ZR5I7GWW3DAFUXMVRLMLBY3PJ...,FILE_0003_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,»HP h* dis ^iatS- »iFcrä ’t'l'llfö sst'sspf UH...,"ber. Der Sü-ele, der von Allem, was Villault a..."
4,27PZTJBLDL6AHEAFKPBUTAMHVVSGDVSM-FILE_0003_DDB...,3,Dresdner Journal und Anzeiger,265BI7NE7QBS4NQMZCCGIVLFR73OCOSL,Sächsische Landesbibliothek - Staats- und Univ...,2889118-1,1851-05-05 12:00:00,[Dresden],[ger],075be8b6-4850-4b88-876e-0725946cf523,[/data/altos/27/PZ/27PZTJBLDL6AHEAFKPBUTAMHVVS...,FILE_0003_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,991 worden sind. Der preußische General Brandt...,"sein wir-, daß Alles, waS nicht gerade entschi..."


In [5]:
# @markdown #### Save the results as Excel file
df.to_excel('name.xlsx', index=False)


## Setting up the requirements for the Gemini model

Gemini is a family of generative AI models that helps generate content and solve problems. These models are designed and trained to handle both text and images as input.

In [3]:
!pip install -q -U google-generativeai

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/158.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━[0m [32m153.6/158.8 kB[0m [31m4.5 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m158.8/158.8 kB[0m [31m3.1 MB/s[0m eta [36m0:00:00[0m
[?25h

In [4]:
import google.generativeai as genai

In [6]:
# @markdown ##### Get an API key at https://aistudio.google.com/app/prompts/new_chat, activate the pay as you go mode, and add the key to the secrets in this colab notebook (right bar). Name the key in secrets GOOGLE_API_KEY and add the key under value.
from google.colab import userdata
userdata.get('GOOGLE_API_KEY')
GOOGLE_API_KEY=userdata.get('GOOGLE_API_KEY')
genai.configure(api_key=GOOGLE_API_KEY)

In [5]:
# @markdown ##### Set up the model. Find a list of the availabe GEMINI models here: https://ai.google.dev/gemini-api/docs/models/gemini. The safety settings can be blocked in order to have no restrictions with your data.
model = genai.GenerativeModel('gemini-1.5-pro')
safety_settings = [
    {
        "category": "HARM_CATEGORY_DANGEROUS",
        "threshold": "BLOCK_NONE",
    },
    {
        "category": "HARM_CATEGORY_HARASSMENT",
        "threshold": "BLOCK_NONE",
    },
    {
        "category": "HARM_CATEGORY_HATE_SPEECH",
        "threshold": "BLOCK_NONE",
    },
    {
        "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
        "threshold": "BLOCK_NONE",
    },
    {
        "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
        "threshold": "BLOCK_NONE",
    },
]

# Extract Articles

To extract articles on earthquakes, it is essential to formulate a precise prompt that specifies the articles should be extracted in their original form without translations or corrections. A guide on how to write effective prompts can be found also [here](https://https://support.google.com/a/users/answer/14200040?hl=en).

Depending on the size of the dataframe, it can take a while to load.

In [7]:
excel_file_path = 'article_corrected (4).xlsx'

# Read the Excel file into a DataFrame
df = pd.read_excel(excel_file_path)

# Display the DataFrame
df

Unnamed: 0,page_id,pagenumber,paper_title,provider_ddb_id,provider,zdb_id,publication_date,place_of_distribution,language,thumbnail,pagefulltext,pagename,preview_reference,plainpagefulltext,context,article_corrected
0,2452IP73L263T7EUP326MLDLWGMWA6PL-FILE_0009_DDB...,9,Hamburger Fremdenblatt,BZVTR553HLJBDMQD5NCJ6YKP3HMBQRF4,Staats- und Universitätsbibliothek Hamburg Car...,3024925-9,1906-09-11 12:00:00,['Hamburg'],['ger'],d13db2eb-59a1-494f-b6d1-4ec4f9ac647a,['/data/altos/24/52/2452IP73L263T7EUP326MLDLWG...,FILE_0009_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,Aweite Beilage z«« Hamöuvgev Fvemden-Blatt Ne....,m 2 Uhr 27 Minuten nachmittags. Die Gesamtstär...,Aus dem Hafen. Der dänische Dampfer „St. Thoma...
1,26ZENHX64GQFWANFKPXWMMDCLX7D5AV6-FILE_0009_DDB...,9,Schwäbischer Merkur : mit Schwäbischer Kronik ...,VNHXUCEEKHOUSYH4NVOUBHJGSRMOGK7J,Württembergische Landesbibliothek,2751625-8,1906-01-26 12:00:00,['Stuttgart'],['ger'],71d0491f-6a13-40e8-9c7f-14dcf47f719e,['/data/altos/26/ZE/26ZENHX64GQFWANFKPXWMMDCLX...,FILE_0009_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,«r. 4S. SVMVE MMW. ANMllM. Würdigung dteJtm.ql...,nd dr'irsie» diesem für die Autorität de- Sult...,In einem Brief des Vorsitzenden des esthländis...
2,2ETGNYUAPVHLLE4SVVD66TK345MM4ACR-FILE_0009_DDB...,9,Hamburger Fremdenblatt,BZVTR553HLJBDMQD5NCJ6YKP3HMBQRF4,Staats- und Universitätsbibliothek Hamburg Car...,3024925-9,1906-11-13 12:00:00,['Hamburg'],['ger'],0f18037d-34a3-4660-a20d-13baea8d26f9,['/data/altos/2E/TG/2ETGNYUAPVHLLE4SVVD66TK345...,FILE_0009_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,Zweite Beilage zum Hamburger Frem-en-Blatt Nr....,"m Hause Paralleelstraße 12 zum Ausvruch. Da, u...",Ans dem Terrain der Reiherstieg-Tchiffswerft w...
3,2KPSZQ2ZEXLY5EKLT36ZNXUNVXJPGUCD-ALTO6659890_D...,1,Aachener Anzeiger : politisches Tageblatt : be...,VKNQFFAKOR4XZWJJKUX3NGYSZ3QZAXCW,Universitäts- und Landesbibliothek der Rheinis...,2975858-0,1906-01-04 12:00:00,"['Aachen', 'Regierungsbezirk Aachen']",['ger'],51e77301-8216-489b-a90c-1a1972c57efe,['/data/altos/2K/PS/2KPSZQ2ZEXLY5EKLT36ZNXUNVX...,ALTO6659890_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,90 nd und Afrika berschrift und Herz erk “ . W...,"lig mittellosen Arbeitern und Handwerkern , di...","Zwei Kavaliere, die zu Fuß gekommen waren, und..."
4,2MWORD7UEUFHSGZOQZ6TQYPEIPKQGG73-FILE_0009_DDB...,9,Hamburger Fremdenblatt,BZVTR553HLJBDMQD5NCJ6YKP3HMBQRF4,Staats- und Universitätsbibliothek Hamburg Car...,3024925-9,1906-09-04 12:00:00,['Hamburg'],['ger'],b789cbd1-4d59-4575-aac6-803023299945,['/data/altos/2M/WO/2MWORD7UEUFHSGZOQZ6TQYPEIP...,FILE_0009_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,Zweite Beilage zum Hamburger Aremden-GLatt Nr....,"ranken hauses, Herr Pros. Dr. Lenhartz, hat am...","Aus dem Hafen. Der englische Dampfer „Anerost""..."
5,2NPFSEZPOTZEGAQS25MUACOX5LQCFZGU-FILE_0002_DDB...,2,Hamburger Echo ; [...] ; Abend-Ausgabe,BZVTR553HLJBDMQD5NCJ6YKP3HMBQRF4,Staats- und Universitätsbibliothek Hamburg Car...,3060377-8,1906-09-04 12:00:00,['Hamburg'],['ger'],f078d8fd-4c88-4ef6-b520-a3611087b995,['/data/altos/2N/PF/2NPFSEZPOTZEGAQS25MUACOX5L...,FILE_0002_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,"Reichen"" ihr Vermögen höchst unpraktisch festg...","die berühmte „Ouvertüre 1812"" von Tschai kowsk...",Hafen und von der Schifffahrt. Der Schiffsverk...
6,2R4XMGQPTR3CPNSIQAO3DWCJBS7PSPPH-ALTO953185_DD...,3,Dortmunder Zeitung. 1874-1939,4EV676FQPACNVNHFEJHGKUY55BXC3QMB,Westfälische Wilhelms-Universität Münster Univ...,2941861-6,1906-04-28 12:00:00,['Dortmund'],['ger'],7d09f4f2-c3a9-4140-a859-770f92b93473,['/data/altos/2R/4X/2R4XMGQPTR3CPNSIQAO3DWCJBS...,ALTO953185_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,* * * * * S a . * DEES * S9 # SS m Dage Spss —...,thers mit 335 000 Dollars . Die höchst versich...,Straßenbahn. Als im vorigen Jahre die Umlegung...
7,2YYFQNDWZ7HM4I7MFB54EECZ5STTDX2G-ALTO7267289_D...,8,Badische Schulzeitung : Vereinsbl. d. Badische...,INLVDM4I3AMZLTG6AE6C5GZRJKGOF75K,Badische Landesbibliothek,3108888-0,1906-09-01 12:00:00,,['ger'],34278dcb-93b2-4d75-9c23-2a183a33861c,['/data/altos/2Y/YF/2YYFQNDWZ7HM4I7MFB54EECZ5S...,ALTO7267289_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,604 Die Frage der Volksbildung in ihren versch...,"kreises , Bereicherung seines Geisteslebens , ...",III. Abteilung. Allgemeines Thema: Die Volksbi...
8,32ZFXGXIXPZ4WFNTDKNAEPTAKMYFWGUE-FILE_0002_DDB...,2,Hamburger Echo ; [...] ; Abend-Ausgabe,BZVTR553HLJBDMQD5NCJ6YKP3HMBQRF4,Staats- und Universitätsbibliothek Hamburg Car...,3060377-8,1906-05-22 12:00:00,['Hamburg'],['ger'],35765f3f-5d34-4004-bd9d-9620f50df70c,['/data/altos/32/ZF/32ZFXGXIXPZ4WFNTDKNAEPTAKM...,FILE_0002_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,Religionsgemeinschaften auf die Gestaltung des...,me ber Pflanze dient. Der Ausstellungsausschuß...,"Eine schwere Schiffskollision, wobei ein Dampf..."
9,3CI67FXNE3HNEOMBMO5D2WQDU23VAXEB-ALTO5776014_D...,9,Rhein- und Ruhrzeitung : Tageszeitung für das ...,VKNQFFAKOR4XZWJJKUX3NGYSZ3QZAXCW,Universitäts- und Landesbibliothek der Rheinis...,2971362-6,1906-10-11 12:00:00,"['Duisburg', 'Mülheim an der Ruhr', 'Ruhrort',...",['ger'],36e036ca-9d94-4620-85b6-1b0efbf22fb6,['/data/altos/3C/I6/3CI67FXNE3HNEOMBMO5D2WQDU2...,ALTO5776014_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,"Nr . 2337 . Duisburg a . Rhein . Donnerstag , ...",ramon tanen Herrschaft für unser kulturelles u...,Die Generalversammlung des Evangelischen Bunde...


In [9]:
import json
def separate_articles(newspaper_page):
    # Define the prompt for separating articles

    response = model.generate_content(
    [f"Bitte separiere NUR Berichte mit dem Begriff 'Rückwanderer' in ihrer ungeänderten deutschen Originalform, keine Änderungen, Zusätze oder zusätzliche Beschreibungen\n\n{newspaper_page}\n\n---\n\ ."],
    safety_settings=safety_settings, )
    articles=response.text
    return articles



# Create an empty list to store the separated articles
separated_articles = []

# Assuming `df` is your dataframe
# Loop through each row in the dataframe
for index, row in df.iterrows():
    # Extract the text of the newspaper page from the current row
    newspaper_page = row['context']

    # Separate articles for the current newspaper page
    articles = separate_articles(newspaper_page)


    # Append the articles to the list (assuming articles is a string; you might need to adjust if it's a list or another structure)
    separated_articles.append(articles)

# Add the list of separated articles as a new column 'article' in the dataframe
df['article'] = separated_articles

# Print the modified dataframe
df


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['article'] = separated_articles


Unnamed: 0,page_id,pagenumber,paper_title,provider_ddb_id,provider,zdb_id,publication_date,place_of_distribution,language,thumbnail,pagefulltext,pagename,preview_reference,plainpagefulltext,context,article_corrected,article
0,2452IP73L263T7EUP326MLDLWGMWA6PL-FILE_0009_DDB...,9,Hamburger Fremdenblatt,BZVTR553HLJBDMQD5NCJ6YKP3HMBQRF4,Staats- und Universitätsbibliothek Hamburg Car...,3024925-9,1906-09-11 12:00:00,['Hamburg'],['ger'],d13db2eb-59a1-494f-b6d1-4ec4f9ac647a,['/data/altos/24/52/2452IP73L263T7EUP326MLDLWG...,FILE_0009_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,Aweite Beilage z«« Hamöuvgev Fvemden-Blatt Ne....,m 2 Uhr 27 Minuten nachmittags. Die Gesamtstär...,Aus dem Hafen. Der dänische Dampfer „St. Thoma...,30 mittellose Rückwanderer trafen mit dem Damp...
1,26ZENHX64GQFWANFKPXWMMDCLX7D5AV6-FILE_0009_DDB...,9,Schwäbischer Merkur : mit Schwäbischer Kronik ...,VNHXUCEEKHOUSYH4NVOUBHJGSRMOGK7J,Württembergische Landesbibliothek,2751625-8,1906-01-26 12:00:00,['Stuttgart'],['ger'],71d0491f-6a13-40e8-9c7f-14dcf47f719e,['/data/altos/26/ZE/26ZENHX64GQFWANFKPXWMMDCLX...,FILE_0009_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,«r. 4S. SVMVE MMW. ANMllM. Würdigung dteJtm.ql...,nd dr'irsie» diesem für die Autorität de- Sult...,In einem Brief des Vorsitzenden des esthländis...,nd dr'irsie» diesem für die Autorität de- Sult...
2,2ETGNYUAPVHLLE4SVVD66TK345MM4ACR-FILE_0009_DDB...,9,Hamburger Fremdenblatt,BZVTR553HLJBDMQD5NCJ6YKP3HMBQRF4,Staats- und Universitätsbibliothek Hamburg Car...,3024925-9,1906-11-13 12:00:00,['Hamburg'],['ger'],0f18037d-34a3-4660-a20d-13baea8d26f9,['/data/altos/2E/TG/2ETGNYUAPVHLLE4SVVD66TK345...,FILE_0009_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,Zweite Beilage zum Hamburger Frem-en-Blatt Nr....,"m Hause Paralleelstraße 12 zum Ausvruch. Da, u...",Ans dem Terrain der Reiherstieg-Tchiffswerft w...,48 mittellose Rückwanderer kehrten mit dem Dai...
3,2KPSZQ2ZEXLY5EKLT36ZNXUNVXJPGUCD-ALTO6659890_D...,1,Aachener Anzeiger : politisches Tageblatt : be...,VKNQFFAKOR4XZWJJKUX3NGYSZ3QZAXCW,Universitäts- und Landesbibliothek der Rheinis...,2975858-0,1906-01-04 12:00:00,"['Aachen', 'Regierungsbezirk Aachen']",['ger'],51e77301-8216-489b-a90c-1a1972c57efe,['/data/altos/2K/PS/2KPSZQ2ZEXLY5EKLT36ZNXUNVX...,ALTO6659890_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,90 nd und Afrika berschrift und Herz erk “ . W...,"lig mittellosen Arbeitern und Handwerkern , di...","Zwei Kavaliere, die zu Fuß gekommen waren, und...",Da beim Hilfs komitee für die notleidenden Deu...
4,2MWORD7UEUFHSGZOQZ6TQYPEIPKQGG73-FILE_0009_DDB...,9,Hamburger Fremdenblatt,BZVTR553HLJBDMQD5NCJ6YKP3HMBQRF4,Staats- und Universitätsbibliothek Hamburg Car...,3024925-9,1906-09-04 12:00:00,['Hamburg'],['ger'],b789cbd1-4d59-4575-aac6-803023299945,['/data/altos/2M/WO/2MWORD7UEUFHSGZOQZ6TQYPEIP...,FILE_0009_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,Zweite Beilage zum Hamburger Aremden-GLatt Nr....,"ranken hauses, Herr Pros. Dr. Lenhartz, hat am...","Aus dem Hafen. Der englische Dampfer „Anerost""...",Mittellose Rückwanderer. Immer noch treffen mi...
5,2NPFSEZPOTZEGAQS25MUACOX5LQCFZGU-FILE_0002_DDB...,2,Hamburger Echo ; [...] ; Abend-Ausgabe,BZVTR553HLJBDMQD5NCJ6YKP3HMBQRF4,Staats- und Universitätsbibliothek Hamburg Car...,3060377-8,1906-09-04 12:00:00,['Hamburg'],['ger'],f078d8fd-4c88-4ef6-b520-a3611087b995,['/data/altos/2N/PF/2NPFSEZPOTZEGAQS25MUACOX5L...,FILE_0002_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,"Reichen"" ihr Vermögen höchst unpraktisch festg...","die berühmte „Ouvertüre 1812"" von Tschai kowsk...",Hafen und von der Schifffahrt. Der Schiffsverk...,- Mit dem englischen Dampfer „N 0 t t i n g h ...
6,2R4XMGQPTR3CPNSIQAO3DWCJBS7PSPPH-ALTO953185_DD...,3,Dortmunder Zeitung. 1874-1939,4EV676FQPACNVNHFEJHGKUY55BXC3QMB,Westfälische Wilhelms-Universität Münster Univ...,2941861-6,1906-04-28 12:00:00,['Dortmund'],['ger'],7d09f4f2-c3a9-4140-a859-770f92b93473,['/data/altos/2R/4X/2R4XMGQPTR3CPNSIQAO3DWCJBS...,ALTO953185_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,* * * * * S a . * DEES * S9 # SS m Dage Spss —...,thers mit 335 000 Dollars . Die höchst versich...,Straßenbahn. Als im vorigen Jahre die Umlegung...,Mehr noch als Königsberg i . Pr . ist die Stad...
7,2YYFQNDWZ7HM4I7MFB54EECZ5STTDX2G-ALTO7267289_D...,8,Badische Schulzeitung : Vereinsbl. d. Badische...,INLVDM4I3AMZLTG6AE6C5GZRJKGOF75K,Badische Landesbibliothek,3108888-0,1906-09-01 12:00:00,,['ger'],34278dcb-93b2-4d75-9c23-2a183a33861c,['/data/altos/2Y/YF/2YYFQNDWZ7HM4I7MFB54EECZ5S...,ALTO7267289_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,604 Die Frage der Volksbildung in ihren versch...,"kreises , Bereicherung seines Geisteslebens , ...",III. Abteilung. Allgemeines Thema: Die Volksbi...,Sonderschulen für Auswanderer und Rückwanderer...
8,32ZFXGXIXPZ4WFNTDKNAEPTAKMYFWGUE-FILE_0002_DDB...,2,Hamburger Echo ; [...] ; Abend-Ausgabe,BZVTR553HLJBDMQD5NCJ6YKP3HMBQRF4,Staats- und Universitätsbibliothek Hamburg Car...,3060377-8,1906-05-22 12:00:00,['Hamburg'],['ger'],35765f3f-5d34-4004-bd9d-9620f50df70c,['/data/altos/32/ZF/32ZFXGXIXPZ4WFNTDKNAEPTAKM...,FILE_0002_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,Religionsgemeinschaften auf die Gestaltung des...,me ber Pflanze dient. Der Ausstellungsausschuß...,"Eine schwere Schiffskollision, wobei ein Dampf...","Mit dem Dampfer „Vesta"" trafen hier 52 mittell..."
9,3CI67FXNE3HNEOMBMO5D2WQDU23VAXEB-ALTO5776014_D...,9,Rhein- und Ruhrzeitung : Tageszeitung für das ...,VKNQFFAKOR4XZWJJKUX3NGYSZ3QZAXCW,Universitäts- und Landesbibliothek der Rheinis...,2971362-6,1906-10-11 12:00:00,"['Duisburg', 'Mülheim an der Ruhr', 'Ruhrort',...",['ger'],36e036ca-9d94-4620-85b6-1b0efbf22fb6,['/data/altos/3C/I6/3CI67FXNE3HNEOMBMO5D2WQDU2...,ALTO5776014_DDB_FULLTEXT,https://api.deutsche-digitale-bibliothek.de/bi...,"Nr . 2337 . Duisburg a . Rhein . Donnerstag , ...",ramon tanen Herrschaft für unser kulturelles u...,Die Generalversammlung des Evangelischen Bunde...,Herr Pfarrer Rosenberg = Ostrowo hielt eine Re...


In [10]:
df.to_excel('rückwanderer.xlsx', index=False)