In [23]:
import couchdb
import pandas as pd 
import json 
import os 
import time 
import math 
import re 



Zweck: Den "Gesprächskanal" zwischen deinem Python-Code und dem CouchDB-Server im Docker-Container herstellen und sicherstellen, dass die Zieldatenbank existiert.

In [None]:
# --- VERBINDUNGS-PARAMETER ---
COUCHDB_URL = 'http://admin:fhdw@localhost:5984/'
DB_NAME = 'world_factbook' 

try:
    server = couchdb.Server(COUCHDB_URL)
    print(f"Erfolgreich mit CouchDB Server verbunden: {server}")

    if DB_NAME in server:
        db = server[DB_NAME]
        print(f"Datenbank '{DB_NAME}' existiert bereits.")
    else:
        db = server.create(DB_NAME)
        print(f"Datenbank '{DB_NAME}' wurde neu erstellt.")

except Exception as e:
    print(f"FEHLER bei der Verbindung oder Datenbankerstellung: {e}")
    raise e 

Erfolgreich mit CouchDB Server verbunden: <Server 'http://localhost:5984/'>
Datenbank 'world_factbook' existiert bereits.


Zweck: Die Rohdaten aus der countries.json-Datei von der Festplatte in den Arbeitsspeicher (RAM) des Computers laden und so aufbereiten.

In [None]:
json_path = 'data/countries.json' 

if not os.path.exists(json_path):
     print(f"FEHLER: JSON-Datei nicht gefunden unter: {json_path}")
     raise FileNotFoundError
else:
    print(f"JSON-Datei gefunden unter: {json_path}")

try:
    with open(json_path, 'r', encoding='utf-8') as f:
        loaded_data = json.load(f)

    if isinstance(loaded_data, dict):
        print("JSON-Datei erfolgreich als Dictionary geladen (Ländernamen als Keys).")
        countries_data = list(loaded_data.values()) 
        total_docs_to_load = len(countries_data)
        print(f"Die Länderdaten wurden in eine Liste umgewandelt. {total_docs_to_load} Länder-Objekte gefunden.")

except json.JSONDecodeError as e:
    print(f"FEHLER beim Parsen der JSON-Datei: {e}")
    raise e
except Exception as e:
    print(f"FEHLER beim Lesen oder Verarbeiten der JSON-Datei: {e}")
    raise e

JSON-Datei gefunden unter: data/countries.json
JSON-Datei erfolgreich als Dictionary geladen (Ländernamen als Keys).
Die Länderdaten wurden in eine Liste umgewandelt. 258 Länder-Objekte gefunden.

Schlüssel (Felder) des ersten Landes-Objekts in der Liste:
['url', 'Introduction: Background', 'Geography: Location', 'Geography: Geographic coordinates', 'Geography: Map references', 'Geography: Area - total', 'Geography: Area - land', 'Geography: Area - water', 'Geography: Area - comparative', 'Geography: Land boundaries - total', 'Geography: Land boundaries - border countries (6)', 'Geography: Coastline', 'Geography: Maritime claims', 'Geography: Climate', 'Geography: Terrain', 'Geography: Elevation - highest point', 'Geography: Elevation - lowest point', 'Geography: Elevation - mean elevation', 'Geography: Natural resources', 'Geography: Land use - agricultural land', 'Geography: Land use - forest', 'Geography: Land use - other', 'Geography: Irrigated land', 'Geography: Major lakes (area 

Zweck: Die im RAM vorbereiteten Länderdaten (aus countries_data) nehmen und dauerhaft als einzelne Dokumente in der CouchDB-Datenbank speichern.


In [None]:
docs_uploaded = 0
docs_failed = 0

if not 'countries_data' in locals() or not isinstance(countries_data, list):
    print("FEHLER: 'countries_data' nicht korrekt geladen.")
else:
    total_docs = len(countries_data)
    print(f"\nStarte das Speichern von {total_docs} Dokumenten in CouchDB ('{DB_NAME}')...")
    start_time = time.time()

    for i, country_doc in enumerate(countries_data):
        try:
            country_doc['type'] = 'country'
            country_doc.pop('_id', None)

            db.save(country_doc)
            docs_uploaded += 1

        except Exception as e:
            print(f"\nFEHLER beim Speichern von Dokument {i} ('{country_doc.get('Country', 'N/A')}') : {e}")
            docs_failed += 1

        if (i + 1) % 10 == 0 or (i + 1) == total_docs:
            elapsed_time = time.time() - start_time
            print(f"  Verarbeitet: {i + 1}/{total_docs} | Gespeichert: {docs_uploaded} | Fehler: {docs_failed} | Zeit: {elapsed_time:.2f}s")

    # Endmeldung
    end_time = time.time()
    print(f"\nSpeichern abgeschlossen.")
    print(f"Gesamtzeit: {end_time - start_time:.2f}s")
    print(f"Erfolgreich gespeicherte Dokumente: {docs_uploaded}")
    print(f"Fehlgeschlagene Dokumente: {docs_failed}")

    time.sleep(2)
    try:
        db_info = server.info() 
        db = server[DB_NAME]
        final_doc_count = len(db) 
        print(f"\nAnzahl Dokumente in DB '{DB_NAME}': {final_doc_count}")
    except Exception as e:
        print(f"Fehler beim Abrufen der finalen Dokumentenanzahl: {e}")


Starte das Speichern von 258 Dokumenten in CouchDB ('world_factbook')...
  Verarbeitet: 10/258 | Gespeichert: 10 | Fehler: 0 | Zeit: 0.20s
  Verarbeitet: 20/258 | Gespeichert: 20 | Fehler: 0 | Zeit: 0.28s
  Verarbeitet: 30/258 | Gespeichert: 30 | Fehler: 0 | Zeit: 0.33s
  Verarbeitet: 40/258 | Gespeichert: 40 | Fehler: 0 | Zeit: 0.39s
  Verarbeitet: 50/258 | Gespeichert: 50 | Fehler: 0 | Zeit: 0.47s
  Verarbeitet: 60/258 | Gespeichert: 60 | Fehler: 0 | Zeit: 0.54s
  Verarbeitet: 70/258 | Gespeichert: 70 | Fehler: 0 | Zeit: 0.59s
  Verarbeitet: 80/258 | Gespeichert: 80 | Fehler: 0 | Zeit: 0.65s
  Verarbeitet: 90/258 | Gespeichert: 90 | Fehler: 0 | Zeit: 0.70s
  Verarbeitet: 100/258 | Gespeichert: 100 | Fehler: 0 | Zeit: 0.76s
  Verarbeitet: 110/258 | Gespeichert: 110 | Fehler: 0 | Zeit: 0.82s
  Verarbeitet: 120/258 | Gespeichert: 120 | Fehler: 0 | Zeit: 0.87s
  Verarbeitet: 130/258 | Gespeichert: 130 | Fehler: 0 | Zeit: 0.92s
  Verarbeitet: 140/258 | Gespeichert: 140 | Fehler: 0 | Zeit