# Summer School: Digitale Methoden der Zeitungsanalyse

*Hinweis:* Dieses Notebook enthält nur den Python-Code. Über „Run -> Run All Cells“ kann die Zeitung „[La otra Alemania](https://www.deutsche-digitale-bibliothek.de/newspaper/2149754-0)“ heruntergeladen werden.

In [34]:
# benötigt Python-Bibliotheken installieren
%pip install -q pysolr pandas requests lxml

Note: you may need to restart the kernel to use updated packages.


## Suchindex `newspaper`

In [36]:
import pysolr

# Solr-Endpunkt-URL
solr_url = 'https://api.deutsche-digitale-bibliothek.de/2/search/index/newspaper'

# Solr-Client initialisieren
solr = pysolr.Solr(solr_url, timeout=10)

# Suchparameter
q = {
    'q': 'location:"buenos aires" AND hasLoadedIssues:true',
    'fl': 'id,title,location,frequency,progress',
    'rows': 10  # Anzahl der zurückzugebenden Ergebnisse
}

# Suche ausführen
results = solr.search(**q)

# Ergebnisse ausgeben
for result in results:
    print(f"ID: {result.get('id', 'N/A')}")
    print(f"Title: {result.get('title', 'N/A')}")
    print(f"Location: {result.get('location', 'N/A')}")
    print(f"Frequency: {result.get('frequency', 'N/A')}")
    print(f"Progress: {result.get('progress', 'N/A')}")
    print("-" * 40)

ID: 2232340-5
Title: ['Das andere Deutschland']
Location: ['Buenos Aires']
Frequency: ['http://id.loc.gov/vocabulary/frequencies/mon']
Progress: ['[1.]1937/38,Juli-Dez.=Nr. 3-8; 2.1939,Jan. - 5.1941,Dez. = Nr. 9-45; mehr nicht digitalisiert']
----------------------------------------
ID: 2149754-0
Title: ['La otra Alemania']
Location: ['Montevideo', 'Buenos Aires']
Frequency: ['http://id.loc.gov/vocabulary/frequencies/irr']
Progress: ['5.1942,Jan. - 6.1943,15.Dez. = Nr. 46-79; [N.F.] 1.1944,1/2(Febr.)-3/4(März); 7.1944/45,Apr.-15.Dez.=Nr. 80/81-108; 8.1946,1.Jan.-15.Aug.=Nr. 109-124; 1946,1.Sept. - 1949,Jan. = Nr. 125-175; damit Ersch. eingest.']
----------------------------------------


## Suchindex `newspaper-issues`

In [38]:
import pandas as pd

solr_url = 'https://api.deutsche-digitale-bibliothek.de/2/search/index/newspaper-issues'
solr = pysolr.Solr(solr_url, always_commit=True, timeout=10)

q = {
    'q': 'zdb_id:2149754-0 AND type:issue',
    'rows': 1000
}

response = solr.search(**q)
    
# Überführen der Ergebnisse in ein Pandas DataFrame
df = pd.DataFrame(response.docs)

# DataFrame anzeigen
df

Unnamed: 0,id,paper_title,provider_ddb_id,provider,zdb_id,ns_disclaimer_required,publication_date,place_of_distribution,language,thumbnail
0,ZYOWCJLQOY4U2C5DXWWX22WYDP5PQJT3,La otra Alemania : órgano de los alemanes demo...,UJVQP2TIF4YVCCJQXWZ2BNEECO7ZHYTW,Deutsches Exilarchiv,2149754-0,False,1945-06-15T12:00:00Z,"[Montevideo, Buenos Aires]","[spa, ger]",80cc1929-c89b-4bdf-854d-59b2cab45496
1,MMZANT7CHYIXHM2E63NLTPIQL5VWGIFX,La otra Alemania : órgano de los alemanes demo...,UJVQP2TIF4YVCCJQXWZ2BNEECO7ZHYTW,Deutsches Exilarchiv,2149754-0,False,1944-06-01T12:00:00Z,"[Montevideo, Buenos Aires]","[spa, ger]",fe845673-fd4f-4da4-975d-02c54743b76a
2,GCADKIMUKSSL23LL6BXHWRNP66KQR37R,La otra Alemania : órgano de los alemanes demo...,UJVQP2TIF4YVCCJQXWZ2BNEECO7ZHYTW,Deutsches Exilarchiv,2149754-0,False,1947-04-15T12:00:00Z,"[Montevideo, Buenos Aires]","[spa, ger]",cd7057bb-5d83-449d-a8c5-afa5c1769e8e
3,S3LEVONENQZ7BAICDWHE7L2LPJ6IJYD2,La otra Alemania : órgano de los alemanes demo...,UJVQP2TIF4YVCCJQXWZ2BNEECO7ZHYTW,Deutsches Exilarchiv,2149754-0,False,1944-04-25T12:00:00Z,"[Montevideo, Buenos Aires]","[spa, ger]",9e7862fc-e09a-49c5-999c-b7c5f45ec3b6
4,QC2SMVMRK67PTHDQW65FLNUCUOWUO2UV,La otra Alemania : órgano de los alemanes demo...,UJVQP2TIF4YVCCJQXWZ2BNEECO7ZHYTW,Deutsches Exilarchiv,2149754-0,False,1943-03-01T12:00:00Z,"[Montevideo, Buenos Aires]","[spa, ger]",415e6569-a480-4d25-a2b1-b61202f24f9f
...,...,...,...,...,...,...,...,...,...,...
124,HHJX6JF6XZXGNA22FSHKMDDVP5KATS4J,La otra Alemania : órgano de los alemanes demo...,UJVQP2TIF4YVCCJQXWZ2BNEECO7ZHYTW,Deutsches Exilarchiv,2149754-0,False,1947-07-01T12:00:00Z,"[Montevideo, Buenos Aires]","[spa, ger]",b7c6b3cc-1a27-4410-a0d7-c24f7c732d67
125,SZXP6GEGBOD42J5TKYQ64XNDTUJO2S77,La otra Alemania : órgano de los alemanes demo...,UJVQP2TIF4YVCCJQXWZ2BNEECO7ZHYTW,Deutsches Exilarchiv,2149754-0,False,1945-10-01T12:00:00Z,"[Montevideo, Buenos Aires]","[spa, ger]",9146f0e1-7d4c-473b-9876-056490e778c0
126,CAMRPRGLRHFMUJFGTVKX4RW5KJTRR5LT,La otra Alemania : órgano de los alemanes demo...,UJVQP2TIF4YVCCJQXWZ2BNEECO7ZHYTW,Deutsches Exilarchiv,2149754-0,False,1943-12-15T12:00:00Z,"[Montevideo, Buenos Aires]","[spa, ger]",6f77dacd-03c5-4160-b71d-4280f5493099
127,DGJVAWT6K23ZQ5TVOSAKADSDJSSYQV3V,La otra Alemania : órgano de los alemanes demo...,UJVQP2TIF4YVCCJQXWZ2BNEECO7ZHYTW,Deutsches Exilarchiv,2149754-0,False,1947-10-01T12:00:00Z,"[Montevideo, Buenos Aires]","[spa, ger]",1e6f3bf9-dcb7-42bd-8416-bafd35212352


### Erste Datenanalyse

In [40]:
# Sicherstellen, dass publication_date als Datumswerte formatiert sind
df['publication_date'] = pd.to_datetime(df['publication_date'])

# Frühestes und spätestes Datum ermitteln
earliest_date = df['publication_date'].min()
latest_date = df['publication_date'].max()

# Ergebnisse anzeigen
print(f"Frühestes Veröffentlichungsdatum: {earliest_date}")
print(f"Spätestes Veröffentlichungsdatum: {latest_date}")

Frühestes Veröffentlichungsdatum: 1942-01-01 12:00:00+00:00
Spätestes Veröffentlichungsdatum: 1949-01-01 12:00:00+00:00


## Download der METS/MODS-Daten

In [42]:
import os
import requests

# Verzeichnis für die XML-Dateien erstellen
directory = 'La_Otra_Alemania'
if not os.path.exists(directory):
    os.makedirs(directory)

# Durch jede Zeile des DataFrames iterieren
for index, row in df.iterrows():
    # Extrahiere den Wert der Spalte id
    item_id = row['id']
    
    # Formatiere den Wert der Spalte publication_date im Format YYYY-MM-DD
    publication_date = row['publication_date'].strftime('%Y-%m-%d')
    
    # Generiere die URL zur API-Abfrage
    url = f'https://api.deutsche-digitale-bibliothek.de/2/items/{item_id}/source/record'
    
    # Setze die HTTP-Header
    headers = {
        'Accept': 'application/xml'
    }
    
    # API-Anfrage senden
    response = requests.get(url, headers=headers)
    
    if response.status_code == 200:
        # Erstelle einen Dateipfad für die XML-Datei
        file_path = os.path.join(directory, f'{publication_date}_{item_id}.xml')
        
        # Speichere die XML-Datei im erstellten Verzeichnis
        with open(file_path, 'wb') as file:
            file.write(response.content)
        print(f'Datei gespeichert: {file_path}')
    else:
        print(f'Fehler beim Abrufen der Datei für ID {item_id}: {response.status_code}')

print('Fertig!')

Datei gespeichert: La_Otra_Alemania\1945-06-15_ZYOWCJLQOY4U2C5DXWWX22WYDP5PQJT3.xml
Datei gespeichert: La_Otra_Alemania\1944-06-01_MMZANT7CHYIXHM2E63NLTPIQL5VWGIFX.xml
Datei gespeichert: La_Otra_Alemania\1947-04-15_GCADKIMUKSSL23LL6BXHWRNP66KQR37R.xml
Datei gespeichert: La_Otra_Alemania\1944-04-25_S3LEVONENQZ7BAICDWHE7L2LPJ6IJYD2.xml
Datei gespeichert: La_Otra_Alemania\1943-03-01_QC2SMVMRK67PTHDQW65FLNUCUOWUO2UV.xml
Datei gespeichert: La_Otra_Alemania\1946-12-01_R447FYT3N4GHLXMZ57UMCK2J33IHLSKD.xml
Datei gespeichert: La_Otra_Alemania\1943-12-01_RESVDPWSQMDVMSCLT6BC2XO5FIO2CWP7.xml
Datei gespeichert: La_Otra_Alemania\1947-12-15_KYFSYF4D2OKSDBQJ2P56UKSTOOT74Q32.xml
Datei gespeichert: La_Otra_Alemania\1947-03-01_2ZEPATYNE5HIR3L2FLJMNA4G7PHJXJWT.xml
Datei gespeichert: La_Otra_Alemania\1948-01-01_QTWE5X2JKYKT2LOIZWKQQ536GUMZX7XT.xml
Datei gespeichert: La_Otra_Alemania\1943-08-01_SYPEUU7HVBAAZS6W3HCUQSJWSY4B5YAZ.xml
Datei gespeichert: La_Otra_Alemania\1944-03-01_UHYDLNVBLM2HINLPULBQRS3LN6KCU

## Download der Bild- und Volltextdaten

In [44]:
from lxml import etree

# Definiere die Namensräume
NAMESPACES = {
    'mets': 'http://www.loc.gov/METS/',
    'xlink': 'http://www.w3.org/1999/xlink'
}

# Verzeichnisse definieren
xml_directory = 'La_Otra_Alemania'
download_directory = 'La_Otra_Alemania'

# Erstelle das Download-Verzeichnis, falls es nicht existiert
if not os.path.exists(download_directory):
    os.makedirs(download_directory)

# Funktion, um URLs aus einer XML-Datei zu extrahieren und herunterzuladen
def download_files_from_xml(xml_file_path, xpath_expr, subfolder, extension):
    # Lade die XML-Datei ein
    with open(xml_file_path, 'rb') as xml_file:
        tree = etree.parse(xml_file)

    # Extrahiere die URLs mit dem gegebenen XPath-Ausdruck
    urls = tree.xpath(xpath_expr, namespaces=NAMESPACES)

    # Erstelle das Unterverzeichnis, benannt nach der XML-Datei
    xml_file_name = os.path.splitext(os.path.basename(xml_file_path))[0]
    destination_dir = os.path.join(download_directory, xml_file_name, subfolder)
    os.makedirs(destination_dir, exist_ok=True)

    # Lade jede URL herunter und speichere die Datei
    for i, url in enumerate(urls, start=1):
        try:
            response = requests.get(url)
            response.raise_for_status()  # Überprüfe auf HTTP-Fehler
            file_path = os.path.join(destination_dir, f'{i}.{extension}')
            with open(file_path, 'wb') as output_file:
                output_file.write(response.content)
            print(f'Downloaded {url} to {file_path}')
        except requests.RequestException as e:
            print(f'Failed to download {url}: {e}')

# Durchlaufe alle XML-Dateien im Verzeichnis
for xml_file in os.listdir(xml_directory):
    if xml_file.endswith('.xml'):
        xml_file_path = os.path.join(xml_directory, xml_file)
        # Lade und speichere Dateien mit dem ersten XPath-Ausdruck
        download_files_from_xml(xml_file_path, '//mets:mets/mets:fileSec/mets:fileGrp[@USE="DEFAULT"]/mets:file/mets:FLocat/@xlink:href', 'DEFAULT', 'jpeg')
        # Lade und speichere Dateien mit dem zweiten XPath-Ausdruck
        download_files_from_xml(xml_file_path, '//mets:mets/mets:fileSec/mets:fileGrp[@USE="DDB_FULLTEXT"]/mets:file/mets:FLocat/@xlink:href', 'DDB_FULLTEXT', 'xml')


Downloaded https://portal.dnb.de/bookviewer/view/1026552451/img/page/1/p.jpg?reduce=3 to La_Otra_Alemania\1942-01-01_BWSVNEKFTM7SPW4SQAWQQNGIHHTRFDS4\DEFAULT\1.jpeg
Downloaded https://portal.dnb.de/bookviewer/view/1026552451/img/page/2/p.jpg?reduce=3 to La_Otra_Alemania\1942-01-01_BWSVNEKFTM7SPW4SQAWQQNGIHHTRFDS4\DEFAULT\2.jpeg
Downloaded https://portal.dnb.de/bookviewer/view/1026552451/img/page/3/p.jpg?reduce=3 to La_Otra_Alemania\1942-01-01_BWSVNEKFTM7SPW4SQAWQQNGIHHTRFDS4\DEFAULT\3.jpeg
Downloaded https://portal.dnb.de/bookviewer/view/1026552451/img/page/4/p.jpg?reduce=3 to La_Otra_Alemania\1942-01-01_BWSVNEKFTM7SPW4SQAWQQNGIHHTRFDS4\DEFAULT\4.jpeg
Downloaded https://portal.dnb.de/bookviewer/view/1026552451/img/page/5/p.jpg?reduce=3 to La_Otra_Alemania\1942-01-01_BWSVNEKFTM7SPW4SQAWQQNGIHHTRFDS4\DEFAULT\5.jpeg
Downloaded https://portal.dnb.de/bookviewer/view/1026552451/img/page/6/p.jpg?reduce=3 to La_Otra_Alemania\1942-01-01_BWSVNEKFTM7SPW4SQAWQQNGIHHTRFDS4\DEFAULT\6.jpeg
Downloaded

FileNotFoundError: [Errno 2] No such file or directory: 'La_Otra_Alemania\\1945-08-01_YH4IRTDZ2YPXVONMNOEAQ3QGFEXUKVQI\\DEFAULT\\9.jpeg'