In [3]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

######################################################################################################################################################
#
#    Der Code extrahiert von den ersten 21000 Briefen die Metadaten und schreibt sie in eine CSV
#
######################################################################################################################################################

In [17]:
BASE_URL = "https://briefe-der-romantik.de/letters/search?query="

# Function to extract data from a single page
def extract_data_from_page(page_url):
    response = requests.get(page_url)
    if response.status_code != 200:
        print(f"Failed to fetch page: {response.status_code}")
        return []

    soup = BeautifulSoup(response.text, 'html.parser')
    letters = []

    # Find all letter entries
    letter_entries = soup.find_all("li", class_="list-group-item")

    for entry in letter_entries:
        try:
            # Extract title and link
            title_link_tag = entry.find("a", href=True)
            title = title_link_tag.text.strip()
            link = "https://briefe-der-romantik.de" + title_link_tag['href']

            # Extract metadata: date, sender location, receiver location
            metadata_div = entry.find("div", class_="rightside groesser")
            metadata_text = metadata_div.text.strip()

            # Defaults for metadata
            date = "ohne Datum"
            sender_location = "Unbekannt"
            receiver_location = "Unbekannt"

            # Extract date
            if "&#183;" in metadata_text:
                date = metadata_div.find("b").text.strip()

            # Extract sender and receiver locations
            if "Absendeort:" in metadata_text:
                sender_location = metadata_text.split("Absendeort:")[1].split("&#183;")[0].strip()
            if "Empfangsort:" in metadata_text:
                receiver_location = metadata_text.split("Empfangsort:")[1].strip()

            # Append the data for this letter
            letters.append({
                "title": title,
                "link": link,
                "date": date,
                "sender_location": sender_location,
                "receiver_location": receiver_location
            })
        except Exception as e:
            print(f"Error processing entry: {e}")

    return letters

# Function to scrape all pages
def scrape_all_pages():
    all_letters = []
    for page in range(1, 90):  # Adjust range for the actual number of pages
        print(f"Processing page {page}...")
        page_url = f"{BASE_URL}&page={page}"
        letters = extract_data_from_page(page_url)
        all_letters.extend(letters)
        time.sleep(1)  # Avoid overloading the server

    return all_letters

# Main function
def main():
    # Scrape all pages and create a DataFrame
    letters = scrape_all_pages()
    df = pd.DataFrame(letters)

    # Save the DataFrame to a CSV file
    df.to_csv("romantic_letters.csv", index=False)
    print("Data saved to romantic_letters.csv")

    return df  # Return the DataFrame for further use

# Main execution
if __name__ == "__main__":
    df = main()



Processing page 1...
Processing page 2...
Processing page 3...
Processing page 4...
Processing page 5...
Processing page 6...
Processing page 7...
Processing page 8...
Processing page 9...
Processing page 10...
Processing page 11...
Processing page 12...
Processing page 13...
Processing page 14...
Processing page 15...
Processing page 16...
Processing page 17...
Processing page 18...
Processing page 19...
Processing page 20...
Processing page 21...
Processing page 22...
Processing page 23...
Processing page 24...
Processing page 25...
Processing page 26...
Processing page 27...
Processing page 28...
Processing page 29...
Processing page 30...
Processing page 31...
Processing page 32...
Processing page 33...
Processing page 34...
Processing page 35...
Processing page 36...
Processing page 37...
Processing page 38...
Processing page 39...
Processing page 40...
Processing page 41...
Processing page 42...
Processing page 43...
Processing page 44...
Processing page 45...
Processing page 46.

In [19]:
# Display the DataFrame
df.head()

Unnamed: 0,title,link,date,sender_location,receiver_location
0,,https://briefe-der-romantik.de./view/16813?lef...,ohne Datum,Unbekannt,Unbekannt
1,,https://briefe-der-romantik.de./view/16816?lef...,ohne Datum,Unbekannt,Unbekannt
2,,https://briefe-der-romantik.de./view/18948?lef...,ohne Datum,Unbekannt,Unbekannt
3,,https://briefe-der-romantik.de./view/18522?lef...,ohne Datum,Unbekannt,Unbekannt
4,,https://briefe-der-romantik.de./view/15600?lef...,ohne Datum,Unbekannt,Unbekannt


In [21]:
# Display the DataFrame
display(df)

Unnamed: 0,title,link,date,sender_location,receiver_location
0,,https://briefe-der-romantik.de./view/16813?lef...,ohne Datum,Unbekannt,Unbekannt
1,,https://briefe-der-romantik.de./view/16816?lef...,ohne Datum,Unbekannt,Unbekannt
2,,https://briefe-der-romantik.de./view/18948?lef...,ohne Datum,Unbekannt,Unbekannt
3,,https://briefe-der-romantik.de./view/18522?lef...,ohne Datum,Unbekannt,Unbekannt
4,,https://briefe-der-romantik.de./view/15600?lef...,ohne Datum,Unbekannt,Unbekannt
...,...,...,...,...,...
4436,,https://briefe-der-romantik.de./view/1380?left...,ohne Datum,Unbekannt,Unbekannt
4437,,https://briefe-der-romantik.de./view/4879?left...,ohne Datum,Unbekannt,Unbekannt
4438,,https://briefe-der-romantik.de./view/15564?lef...,ohne Datum,Unbekannt,Unbekannt
4439,,https://briefe-der-romantik.de./view/15565?lef...,ohne Datum,Unbekannt,Unbekannt


In [5]:
# Replace 'your_file_name.csv' with the actual name of your CSV file
file_name = 'romantic_letters.csv'

# Load the CSV into a DataFrame
df_rom = pd.read_csv(file_name)

# Extract the number from the link column and store it in a new column 'letter_number'
df_rom['letter_number'] = df_rom['link'].str.extract(r'/view/(\d+)', expand=False)

# Display the updated DataFrame
df_rom.head()

# Get the number of rows
#row_count = len(df_rom)

# Print the number of rows
#print(f"The DataFrame has {row_count} rows.")

Unnamed: 0,title,link,date,sender_location,receiver_location
0,,https://briefe-der-romantik.de./view/16813?lef...,ohne Datum,Unbekannt,Unbekannt
1,,https://briefe-der-romantik.de./view/16816?lef...,ohne Datum,Unbekannt,Unbekannt
2,,https://briefe-der-romantik.de./view/18948?lef...,ohne Datum,Unbekannt,Unbekannt
3,,https://briefe-der-romantik.de./view/18522?lef...,ohne Datum,Unbekannt,Unbekannt
4,,https://briefe-der-romantik.de./view/15600?lef...,ohne Datum,Unbekannt,Unbekannt


In [15]:
# Ensure the 'letter_number' column is numeric
df_rom['letter_number'] = pd.to_numeric(df_rom['letter_number'], errors='coerce')

# Sort the DataFrame by 'letter_number' in ascending order
df_sorted = df_rom.sort_values(by='letter_number', ascending=True)

# Display the first 5 and the last 5 rows
first_5 = df_sorted.head(5)
last_5 = df_sorted.tail(5)

# Show the results
print("First 5 Numbers:")
print(first_5[['letter_number']])

print("\nLast 5 Numbers:")
print(last_5[['letter_number']])


First 5 Numbers:
      letter_number
141               1
1715              2
1961              3
2160              4
3815              5

Last 5 Numbers:
      letter_number
1057          19692
3965          20000
3995          20001
4001          20002
3984          20003


In [19]:
display(df_sorted)

Unnamed: 0,title,link,date,sender_location,receiver_location,letter_number
141,,https://briefe-der-romantik.de./view/1?left=dr...,ohne Datum,Unbekannt,Unbekannt,1
1715,,https://briefe-der-romantik.de./view/2?left=dr...,ohne Datum,Unbekannt,Unbekannt,2
1961,,https://briefe-der-romantik.de./view/3?left=dr...,ohne Datum,Unbekannt,Unbekannt,3
2160,,https://briefe-der-romantik.de./view/4?left=dr...,ohne Datum,Unbekannt,Unbekannt,4
3815,,https://briefe-der-romantik.de./view/5?left=ma...,ohne Datum,Unbekannt,Unbekannt,5
...,...,...,...,...,...,...
1057,,https://briefe-der-romantik.de./view/19692?lef...,ohne Datum,Unbekannt,Unbekannt,19692
3965,,https://briefe-der-romantik.de./view/20000?lef...,ohne Datum,Unbekannt,Unbekannt,20000
3995,,https://briefe-der-romantik.de./view/20001?lef...,ohne Datum,Unbekannt,Unbekannt,20001
4001,,https://briefe-der-romantik.de./view/20002?lef...,ohne Datum,Unbekannt,Unbekannt,20002


In [17]:
display(df_rom)

Unnamed: 0,title,link,date,sender_location,receiver_location,letter_number
0,,https://briefe-der-romantik.de./view/16813?lef...,ohne Datum,Unbekannt,Unbekannt,16813
1,,https://briefe-der-romantik.de./view/16816?lef...,ohne Datum,Unbekannt,Unbekannt,16816
2,,https://briefe-der-romantik.de./view/18948?lef...,ohne Datum,Unbekannt,Unbekannt,18948
3,,https://briefe-der-romantik.de./view/18522?lef...,ohne Datum,Unbekannt,Unbekannt,18522
4,,https://briefe-der-romantik.de./view/15600?lef...,ohne Datum,Unbekannt,Unbekannt,15600
...,...,...,...,...,...,...
4436,,https://briefe-der-romantik.de./view/1380?left...,ohne Datum,Unbekannt,Unbekannt,1380
4437,,https://briefe-der-romantik.de./view/4879?left...,ohne Datum,Unbekannt,Unbekannt,4879
4438,,https://briefe-der-romantik.de./view/15564?lef...,ohne Datum,Unbekannt,Unbekannt,15564
4439,,https://briefe-der-romantik.de./view/15565?lef...,ohne Datum,Unbekannt,Unbekannt,15565
