In [9]:
import requests

# Overpass API URL (nutze den öffentlichen Overpass-Server)
overpass_url = "https://overpass-api.de/api/interpreter"

# Overpass Query für Mülltrennungsanlagen (Recyclingstationen) in Frankfurt am Main
overpass_query = """
[out:json];
area["name"="Frankfurt am Main"]->.searchArea;
(
  node["amenity"="recycling"](area.searchArea);
  way["amenity"="recycling"](area.searchArea);
  relation["amenity"="recycling"](area.searchArea);
);
out body;
>;
out skel qt;
"""

# Anfrage an Overpass API
response = requests.get(overpass_url, params={'data': overpass_query})

# Überprüfen, ob die Anfrage erfolgreich war
if response.status_code == 200:
    data = response.json()

    # Ergebnisse auswerten
    for element in data['elements']:
        # Überprüfen, ob das Element Tags hat (Recyclingstationen haben Tags)
        if 'tags' in element:
            name = element['tags'].get('name', 'Unbenannt')
            address = element['tags'].get('addr:street', 'Keine Adresse verfügbar')
            opening_hours = element['tags'].get('opening_hours', 'Keine Öffnungszeiten verfügbar')
            phone = element['tags'].get('phone', 'Keine Telefonnummer verfügbar')
            lat = element.get('lat', 'Keine Koordinaten')
            lon = element.get('lon', 'Keine Koordinaten')

            # Ausgabe der Daten
            # Kombination aus mehreren Filtern
            # if name != 'Unbenannt' and address != 'Keine Adresse verfügbar' and opening_hours != 'Keine Öffnungszeiten verfügbar':
            # if address != 'Keine Adresse verfügbar':
            
            if address != 'Keine Adresse verfügbar' and opening_hours != 'Keine Öffnungszeiten verfügbar':
                print(f"Name: {name}")
                print(f"Adresse: {address}")
                print(f"Öffnungszeiten: {opening_hours}")
                print(f"Telefon: {phone}")
                print(f"Koordinaten: {lat}, {lon}")
                print("-" * 20)
else:
    print(f"Fehler bei der Anfrage: {response.status_code}")

Name: FES Betriebsststätte Frankfurt-Bornheim (Wertstoffhof Ost)
Adresse: Weidenbornstraße
Öffnungszeiten: Mo-Sa 08:00-14:30
Telefon: Keine Telefonnummer verfügbar
Koordinaten: 50.1323675, 8.7060329
--------------------
Name: FES-Abfallumladeanlage
Adresse: Uhlfelderstraße
Öffnungszeiten: Sa 07:00-13:00
Telefon: Keine Telefonnummer verfügbar
Koordinaten: 50.1189525, 8.7474959
--------------------
Name: Recyclingzentrum Frankfurt
Adresse: Lärchenstraße
Öffnungszeiten: Mo-Do 08:00-17:00; Fr 08:00-14:30
Telefon: +49 69 94 21 63 - 100
Koordinaten: 50.0961161, 8.5930766
--------------------
Name: FES Betriebsststätte Frankfurt-Bornheim (Wertstoffhof Ost)
Adresse: Weidenbornstraße
Öffnungszeiten: Mo-Sa 08:00-14:30
Telefon: +4980020080070
Koordinaten: 50.1314419, 8.7065637
--------------------
Name: FES Wertstoffhof Süd
Adresse: Seehofstraße
Öffnungszeiten: Mo-Sa 08:00-14:30
Telefon: Keine Telefonnummer verfügbar
Koordinaten: Keine Koordinaten, Keine Koordinaten
--------------------
Name: Wer

In [22]:
import requests
from langchain_core.documents import Document

# Overpass API URL (öffentlicher Overpass-Server)
overpass_url = "https://overpass-api.de/api/interpreter"

# Overpass Query für Mülltrennungsanlagen (Recyclingstationen) in Frankfurt am Main
overpass_query = """
[out:json];
area["name"="Frankfurt am Main"]->.searchArea;
(
  node["amenity"="recycling"](area.searchArea);
  way["amenity"="recycling"](area.searchArea);
  relation["amenity"="recycling"](area.searchArea);
);
out body;
>;
out skel qt;
"""

# Anfrage an Overpass API
response = requests.get(overpass_url, params={'data': overpass_query})

# Liste der Dokumente
documents = []

# Überprüfen, ob die Anfrage erfolgreich war
if response.status_code == 200:
    data = response.json()

    # Ergebnisse auswerten
    for element in data['elements']:
        if 'tags' in element:
            name = element['tags'].get('name', 'Unbenannt')
            address = element['tags'].get('addr:street', 'Keine Adresse verfügbar')
            opening_hours = element['tags'].get('opening_hours', 'Keine Öffnungszeiten verfügbar')
            phone = element['tags'].get('phone', 'Keine Telefonnummer verfügbar')
            lat = element.get('lat', 'Keine Koordinaten')
            lon = element.get('lon', 'Keine Koordinaten')

            # Filter: Nur Elemente mit Adresse und Öffnungszeiten
            if address != 'Keine Adresse verfügbar' and opening_hours != 'Keine Öffnungszeiten verfügbar':
                
                # Erstelle den Markdown-Text für jede Recyclingstation
                markdown_text = f"""
                {name}
                Adresse: {address}
                Öffnungszeiten: {opening_hours}
                Telefon: {phone}
                Koordinaten: {lat}, {lon}
                """

                # Erstelle ein Document-Objekt
                document = Document(
                    page_content=markdown_text.strip(),  # Der Markdown-Inhalt
                    metadata={  # Optional: Füge Metadaten hinzu, wenn nötig
                        "source": "Overpass API"
                    }
                )
                
                # Füge das Dokument der Liste hinzu
                documents.append(document)

# Gib die Dokumentenliste aus
print(f"{len(documents)} Dokumente erstellt.")
for doc in documents:
    print(doc.page_content)

6 Dokumente erstellt.
FES Betriebsststätte Frankfurt-Bornheim (Wertstoffhof Ost)
                Adresse: Weidenbornstraße
                Öffnungszeiten: Mo-Sa 08:00-14:30
                Telefon: Keine Telefonnummer verfügbar
                Koordinaten: 50.1323675, 8.7060329
FES-Abfallumladeanlage
                Adresse: Uhlfelderstraße
                Öffnungszeiten: Sa 07:00-13:00
                Telefon: Keine Telefonnummer verfügbar
                Koordinaten: 50.1189525, 8.7474959
Recyclingzentrum Frankfurt
                Adresse: Lärchenstraße
                Öffnungszeiten: Mo-Do 08:00-17:00; Fr 08:00-14:30
                Telefon: +49 69 94 21 63 - 100
                Koordinaten: 50.0961161, 8.5930766
FES Betriebsststätte Frankfurt-Bornheim (Wertstoffhof Ost)
                Adresse: Weidenbornstraße
                Öffnungszeiten: Mo-Sa 08:00-14:30
                Telefon: +4980020080070
                Koordinaten: 50.1314419, 8.7065637
FES Wertstoffhof Süd
           

In [23]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

def replace_t_with_space(list_of_documents):
    """
    Replaces all tab characters ('\t') with spaces in the page content of each document.

    Args:
        list_of_documents: A list of document objects, each with a 'page_content' attribute.

    Returns:
        The modified list of documents with tab characters replaced by spaces.
    """

    for doc in list_of_documents:
        doc.page_content = doc.page_content.replace('\t', ' ')  # Replace tabs with spaces
    return list_of_documents

def encode_api(path, chunk_size=500, chunk_overlap=100):
    """
    Encodes a Markdown file into a vector store using OpenAI embeddings.

    Args:
        path: The path to the Markdown file.
        chunk_size: The desired size of each text chunk.
        chunk_overlap: The amount of overlap between consecutive chunks.

    Returns:
        
    """

    # Split documents into chunks
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size, chunk_overlap=chunk_overlap, length_function=len
    )
    texts = text_splitter.split_documents(documents)
    cleaned_texts = replace_t_with_space(texts)

    
    # Gliederung der Dokumente
    for document in cleaned_texts:
        print(f"Quelle: {document.metadata['source']}")
        print("\nInhalt:")
        print(document.page_content)
        print("\n" + "-"*50 + "\n")
    
    return cleaned_texts


chunks_vector_store = encode_api(documents, chunk_size=500, chunk_overlap=100)

Quelle: Overpass API

Inhalt:
FES Betriebsststätte Frankfurt-Bornheim (Wertstoffhof Ost)
                Adresse: Weidenbornstraße
                Öffnungszeiten: Mo-Sa 08:00-14:30
                Telefon: Keine Telefonnummer verfügbar
                Koordinaten: 50.1323675, 8.7060329

--------------------------------------------------

Quelle: Overpass API

Inhalt:
FES-Abfallumladeanlage
                Adresse: Uhlfelderstraße
                Öffnungszeiten: Sa 07:00-13:00
                Telefon: Keine Telefonnummer verfügbar
                Koordinaten: 50.1189525, 8.7474959

--------------------------------------------------

Quelle: Overpass API

Inhalt:
Recyclingzentrum Frankfurt
                Adresse: Lärchenstraße
                Öffnungszeiten: Mo-Do 08:00-17:00; Fr 08:00-14:30
                Telefon: +49 69 94 21 63 - 100
                Koordinaten: 50.0961161, 8.5930766

--------------------------------------------------

Quelle: Overpass API

Inhalt:
FES Betriebsststä

In [None]:
from IPython.display import display, HTML

def print_corrections(original, corrected):
    display(HTML(f"""
    <div style="border: 1px solid black; padding: 10px; margin: 10px; max-height: 300px; overflow-y: auto;">
        <h3>Quelle:</h3>
        <p style="white-space: pre-wrap;">{original}</p>
        <h3>Inhalt Chunk:</h3>
        <p style="white-space: pre-wrap; color: green;">{corrected}</p>
    </div>
    """))
    
# Aufruf der Funktion für jedes Dokument

    
for document in chunks_vector_store:
    print_corrections({document.metadata['source']}, document.page_content)

In [None]:
from langchain_core.documents import Document

def combine_document_lists(old_documents, new_documents):
    """
    Kombiniert zwei Listen von Document-Objekten zu einer einzigen Liste.
    
    :param old_documents: Liste der alten Dokumente (z.B. vorhandene Liste)
    :param new_documents: Liste der neuen Dokumente (z.B. gefilterte Liste)
    :return: Kombinierte Liste von Dokumenten
    """
    # Kombiniere die beiden Listen
    combined_documents = old_documents + new_documents
    
    return combined_documents