<a href="https://colab.research.google.com/github/chabryl/AI-Redirect-Mapping/blob/main/redirect_mapping_final.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!pip install sentence-transformers
!pip install qdrant-client
from sentence_transformers import SentenceTransformer
import pandas as pd
import io
import time
from google.colab import files
from qdrant_client import QdrantClient
from qdrant_client.http import models

Collecting sentence-transformers
  Downloading sentence_transformers-3.1.1-py3-none-any.whl.metadata (10 kB)
Downloading sentence_transformers-3.1.1-py3-none-any.whl (245 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m245.3/245.3 kB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sentence-transformers
Successfully installed sentence-transformers-3.1.1
Collecting qdrant-client
  Downloading qdrant_client-1.11.3-py3-none-any.whl.metadata (10 kB)
Collecting grpcio-tools>=1.41.0 (from qdrant-client)
  Downloading grpcio_tools-1.66.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (5.3 kB)
Collecting httpx>=0.20.0 (from httpx[http2]>=0.20.0->qdrant-client)
  Downloading httpx-0.27.2-py3-none-any.whl.metadata (7.1 kB)
Collecting portalocker<3.0.0,>=2.7.0 (from qdrant-client)
  Downloading portalocker-2.10.1-py3-none-any.whl.metadata (8.5 kB)
Collecting protobuf<6.0dev,>=5.26.1 (from grpcio-tools>=1.41.0->qdrant-client)
  

  from tqdm.autonotebook import tqdm, trange


In [2]:
# Initialisierung des SentenceTransformer-Modells

model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

def encode_texts(df, selected_columns):
    """
    Kodiert die Texte im gegebenen DataFrame mit dem SentenceTransformer-Modell.
    """
    df['combined_text'] = df[selected_columns].apply(lambda row: ' '.join(row.values.astype(str)), axis=1)
    embeddings = model.encode(df['combined_text'].tolist(), show_progress_bar=True)
    return embeddings

    start_time = time.time()
    embeddings = model.encode(df['combined_text'].tolist(), show_progress_bar=True)
    end_time = time.time()

    print(f"Kodierungszeit: {end_time - start_time} Sekunden")



def detect_delimiter(file_content):
    """
    Versucht, das Trennzeichen in der CSV-Datei zu erkennen.
    """
    file_str = file_content.getvalue().decode('utf-8')
    first_line = file_str.splitlines()[0]

    if ',' in first_line:
        return ','
    elif ';' in first_line:
        return ';'
    else:
        raise ValueError("Unbekanntes Trennzeichen in der CSV-Datei.")

def upload_and_read_csv(file_name):
    """
    Lädt eine CSV-Datei hoch und versucht sie zu lesen.
    """
    print(f"Bitte laden Sie die {file_name} Datei hoch.")
    uploaded = files.upload()
    file_content = io.BytesIO(uploaded[list(uploaded.keys())[0]])

    delimiter = detect_delimiter(file_content)
    file_content.seek(0)

    try:
        df = pd.read_csv(file_content, sep=delimiter, skip_blank_lines=True, on_bad_lines='skip')
        print(f"CSV-Datei erfolgreich eingelesen mit Trennzeichen: '{delimiter}'")
    except pd.errors.ParserError:
        print(f"Fehler beim Einlesen der Datei {file_name}. Bitte überprüfe das Dateiformat.")
        return None

    print("Spaltennamen in der Datei:", df.columns)
    print("Erste Zeilen der Datei:")
    print(df.head())

    return df

def upsert_to_qdrant(client, collection_name, embeddings, ids):
    """
    Fügt Embeddings in die Qdrant-Kollektion ein.
    """
    batch_size = 100
    for i in range(0, len(embeddings), batch_size):
        batch_embeddings = embeddings[i:i+batch_size]
        batch_ids = ids[i:i+batch_size]
        points = [
            models.PointStruct(
                id=i + 1, # Use a simple integer ID. Increment for each point.
                vector=embedding.tolist(),
                payload={"url": id} # Store the URL in the payload instead
            ) for i, (id, embedding) in enumerate(zip(batch_ids, batch_embeddings))
        ]
        client.upsert(collection_name=collection_name, points=points)

def query_qdrant(client, collection_name, query_embeddings, top_k=1):
    """
    Führt eine Abfrage auf der Qdrant-Kollektion durch.
    """
    results = []
    for query in query_embeddings:
        search_result = client.search(
            collection_name=collection_name,
            query_vector=query.tolist(),
            limit=top_k
        )
        results.append(search_result)
    return results

def main():
    print("Willkommen zum KI-gestützten Redirect-Mapping-Tool!")

    # Datei-Upload
    origin_df = upload_and_read_csv("origin.csv")
    destination_df = upload_and_read_csv("destination.csv")

    if origin_df is None or destination_df is None:
        print("Fehler beim Einlesen der Dateien. Beenden des Programms.")
        return

    # Überprüfen, ob die Spalte 'url' existiert
    if 'url' not in origin_df.columns or 'url' not in destination_df.columns:
        print("Spalte 'url' nicht in den Daten gefunden. Bitte prüfe die Spaltennamen.")
        return

    print("Origin DataFrame columns:", origin_df.columns)
    print("Destination DataFrame columns:", destination_df.columns)

    common_columns = list(set(origin_df.columns) & set(destination_df.columns))
    print("Verfügbare Spalten:", common_columns)

    while True:
       selected_columns_input = input("Geben Sie die zu verwendenden Spalten ein (durch Komma getrennt): ").split(',')
       selected_columns = [col.strip() for col in selected_columns_input if col.strip() != 'language']

       if all(col in origin_df.columns and col in destination_df.columns for col in selected_columns):
           break
       else:
           print("Ungültige Spaltenauswahl. Bitte wählen Sie nur Spalten aus, die in beiden DataFrames vorhanden sind.")
           print("Verfügbare Spalten:", common_columns)

    # Kodierung der Texte
    print("Kodiere Ursprungs-Texte...")
    origin_embeddings = encode_texts(origin_df, selected_columns)
    print("Kodiere Ziel-Texte...")
    destination_embeddings = encode_texts(destination_df, selected_columns)

    print("Initialisiere Qdrant...")
    client = QdrantClient(
        url="https://b80e8e91-bbbe-4a9b-9b36-d2ab69344ba1.europe-west3-0.gcp.cloud.qdrant.io",
        api_key="Upi_Hx819u4hFYNKaUH5np9BNFFHd44Vsey3qS_WI_tHGjGnIP4ULw"  # Ersetzen Sie dies durch Ihren tatsächlichen API-Key
    )
    collection_name = "url-mapping"

    # Erstellen der Kollektion (falls sie noch nicht existiert)
    client.recreate_collection(
        collection_name=collection_name,
        vectors_config=models.VectorParams(size=len(destination_embeddings[0]), distance=models.Distance.COSINE),
    )

    # Einfügen der Ziel-Embeddings in Qdrant
    print("Füge Ziel-Embeddings in Qdrant ein...")
    upsert_to_qdrant(client, collection_name, destination_embeddings, destination_df['url'].tolist())

    # Abfrage der Qdrant-Datenbank
    print("Führe Ähnlichkeitssuche durch...")
    results = query_qdrant(client, collection_name, origin_embeddings)

    # Verarbeitung der Ergebnisse
    matched_urls = []
    similarity_scores = []
    for result in results:
        if result:
            matched_urls.append(result[0].payload['url'])
            similarity_scores.append(result[0].score)
        else:
            matched_urls.append(None)
            similarity_scores.append(0)

    # Erstellung des Ergebnisberichts
    report = pd.DataFrame({
        'origin_url': origin_df['url'],
        'matched_url': matched_urls,
        'similarity_score': similarity_scores,
    })


    # Anzeige der Ergebnisse
    print(report.head())

    # Speichern der Ergebnisse als CSV
    report.to_csv('redirect_mapping_results.csv')

if __name__ == "__main__":
    main()

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/4.12k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/645 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]



1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Willkommen zum KI-gestützten Redirect-Mapping-Tool!
Bitte laden Sie die origin.csv Datei hoch.


Saving origin.csv to origin.csv
CSV-Datei erfolgreich eingelesen mit Trennzeichen: ','
Spaltennamen in der Datei: Index(['url', 'Title', 'Meta Description', 'H1', 'Content'], dtype='object')
Erste Zeilen der Datei:
                                                 url  \
0            https://www.neumeisterhydraulik.de/home   
1  https://www.neumeisterhydraulik.de/home/doppel...   
2  https://www.neumeisterhydraulik.de/home/servic...   
3  https://www.neumeisterhydraulik.de/home/servic...   
4  https://www.neumeisterhydraulik.de/home/untern...   

                                            Title Meta Description  \
0                      Neumeister Hydraulik: Home              NaN   
1  Neumeister Hydraulik: DOPPELTWIRKENDE ZYLINDER              NaN   
2                   Neumeister Hydraulik: KONTAKT              NaN   
3                  Neumeister Hydraulik: VERTRIEB              NaN   
4               Neumeister Hydraulik: Unternehmen              NaN   

                           

Saving destination.csv to destination.csv
CSV-Datei erfolgreich eingelesen mit Trennzeichen: ','
Spaltennamen in der Datei: Index(['url', 'Title', 'Meta Description', 'H1', 'Content'], dtype='object')
Erste Zeilen der Datei:
                                                 url  \
0    https://neumeisterhydraulik.hotbytes.rocks/home   
1  https://neumeisterhydraulik.hotbytes.rocks/hom...   
2  https://neumeisterhydraulik.hotbytes.rocks/opt...   
3  https://neumeisterhydraulik.hotbytes.rocks/hom...   
4  https://neumeisterhydraulik.hotbytes.rocks/hom...   

                            Title Meta Description  \
0      Neumeister Hydraulik: Home              NaN   
1  Neumeister Hydraulik: Services              NaN   
2   Neumeister Hydraulik: Opt-Out              NaN   
3   Neumeister Hydraulik: VENTILE              NaN   
4  Neumeister Hydraulik: Produkte              NaN   

                                                  H1  Content  
0  Seit 1929 als Hydraulikhersteller erfolgreich 

Batches:   0%|          | 0/4 [00:00<?, ?it/s]

Kodiere Ziel-Texte...


Batches:   0%|          | 0/4 [00:00<?, ?it/s]

Initialisiere Qdrant...


  client.recreate_collection(


Füge Ziel-Embeddings in Qdrant ein...
Führe Ähnlichkeitssuche durch...
                                          origin_url  \
0            https://www.neumeisterhydraulik.de/home   
1  https://www.neumeisterhydraulik.de/home/doppel...   
2  https://www.neumeisterhydraulik.de/home/servic...   
3  https://www.neumeisterhydraulik.de/home/servic...   
4  https://www.neumeisterhydraulik.de/home/untern...   

                                         matched_url  similarity_score  
0  https://neumeisterhydraulik.hotbytes.rocks/hom...          0.785049  
1  https://neumeisterhydraulik.hotbytes.rocks/hom...          0.794319  
2  https://neumeisterhydraulik.hotbytes.rocks/hom...          0.885837  
3  https://neumeisterhydraulik.hotbytes.rocks/hom...          0.812627  
4  https://neumeisterhydraulik.hotbytes.rocks/hom...          0.944077  


In [3]:
import time
import io
import pandas as pd
from google.colab import files
from sentence_transformers import SentenceTransformer
from qdrant_client import QdrantClient
from qdrant_client.http import models

# Initialisierung des SentenceTransformer-Modells
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

def encode_texts(df, selected_columns):
    """
    Kodiert die Texte im gegebenen DataFrame mit dem SentenceTransformer-Modell.
    """
    df['combined_text'] = df[selected_columns].apply(lambda row: ' '.join(row.values.astype(str)), axis=1)
    start_time = time.time()
    embeddings = model.encode(df['combined_text'].tolist(), show_progress_bar=True)
    end_time = time.time()
    return embeddings, end_time - start_time

def detect_delimiter(file_content):
    """
    Versucht, das Trennzeichen in der CSV-Datei zu erkennen.
    """
    file_str = file_content.getvalue().decode('utf-8')
    first_line = file_str.splitlines()[0]
    if ',' in first_line:
        return ','
    elif ';' in first_line:
        return ';'
    else:
        raise ValueError("Unbekanntes Trennzeichen in der CSV-Datei.")

def upload_and_read_csv(file_name):
    """
    Lädt eine CSV-Datei hoch und versucht sie zu lesen.
    """
    uploaded = files.upload()
    file_content = io.BytesIO(uploaded[list(uploaded.keys())[0]])
    delimiter = detect_delimiter(file_content)
    file_content.seek(0)

    df = pd.read_csv(file_content, sep=delimiter, skip_blank_lines=True, on_bad_lines='skip')
    return df

def upsert_to_qdrant(client, collection_name, embeddings, ids):
    """
    Fügt Embeddings in die Qdrant-Kollektion ein.
    """
    batch_size = 100
    for i in range(0, len(embeddings), batch_size):
        batch_embeddings = embeddings[i:i+batch_size]
        batch_ids = ids[i:i+batch_size]
        points = [
            models.PointStruct(
                id=i + 1,
                vector=embedding.tolist(),
                payload={"url": id}
            ) for i, (id, embedding) in enumerate(zip(batch_ids, batch_embeddings))
        ]
        client.upsert(collection_name=collection_name, points=points)

def query_qdrant(client, collection_name, query_embeddings, top_k=1):
    """
    Führt eine Abfrage auf der Qdrant-Kollektion durch.
    """
    results = []
    for query in query_embeddings:
        search_result = client.search(
            collection_name=collection_name,
            query_vector=query.tolist(),
            limit=top_k
        )
        results.append(search_result)
    return results

def main():
    # Startzeit des gesamten Skripts
    total_start_time = time.time()

    # Datei zum Speichern der Berichte
    report_file = 'runtime_report.txt'
    with open(report_file, 'w') as f:

        f.write("### Laufzeitbericht ###\n\n")

        # Datei-Upload
        f.write("Modul 1: Datei-Upload und Einlesen\n")
        upload_start_time = time.time()
        origin_df = upload_and_read_csv("origin.csv")
        destination_df = upload_and_read_csv("destination.csv")
        upload_end_time = time.time()
        f.write(f"Zeit für Modul 1: {upload_end_time - upload_start_time:.2f} Sekunden\n\n")

        if origin_df is None or destination_df is None:
            f.write("Fehler beim Einlesen der Dateien. Beenden des Programms.\n")
            return

        selected_columns = ['url']  # Annahme, dass die Spalte 'url' verwendet wird

        # Kodierung der Texte
        f.write("Modul 2: Kodierung der Ursprungs- und Ziel-Texte\n")
        encoding_start_time = time.time()
        origin_embeddings, origin_encoding_time = encode_texts(origin_df, selected_columns)
        destination_embeddings, destination_encoding_time = encode_texts(destination_df, selected_columns)
        encoding_end_time = time.time()
        f.write(f"Zeit für Modul 2: {encoding_end_time - encoding_start_time:.2f} Sekunden\n")
        f.write(f"  - Kodierungszeit Ursprungs-Texte: {origin_encoding_time:.2f} Sekunden\n")
        f.write(f"  - Kodierungszeit Ziel-Texte: {destination_encoding_time:.2f} Sekunden\n\n")

        # Qdrant Initialisierung
        f.write("Modul 3: Qdrant Initialisierung\n")
        qdrant_start_time = time.time()
        client = QdrantClient(
            url="https://b80e8e91-bbbe-4a9b-9b36-d2ab69344ba1.europe-west3-0.gcp.cloud.qdrant.io",
            api_key="Upi_Hx819u4hFYNKaUH5np9BNFFHd44Vsey3qS_WI_tHGjGnIP4ULw"
        )
        collection_name = "url-mapping"
        client.recreate_collection(
            collection_name=collection_name,
            vectors_config=models.VectorParams(size=len(destination_embeddings[0]), distance=models.Distance.COSINE),
        )
        qdrant_end_time = time.time()
        f.write(f"Zeit für Modul 3: {qdrant_end_time - qdrant_start_time:.2f} Sekunden\n\n")

        # Einfügen der Ziel-Embeddings in Qdrant
        f.write("Modul 4: Einfügen der Ziel-Embeddings in Qdrant\n")
        upsert_start_time = time.time()
        upsert_to_qdrant(client, collection_name, destination_embeddings, destination_df['url'].tolist())
        upsert_end_time = time.time()
        f.write(f"Zeit für Modul 4: {upsert_end_time - upsert_start_time:.2f} Sekunden\n\n")

        # Abfrage der Qdrant-Datenbank
        f.write("Modul 5: Ähnlichkeitssuche in Qdrant\n")
        query_start_time = time.time()
        results = query_qdrant(client, collection_name, origin_embeddings)
        query_end_time = time.time()
        f.write(f"Zeit für Modul 5: {query_end_time - query_start_time:.2f} Sekunden\n\n")

        # Verarbeitung der Ergebnisse
        matched_urls = []
        similarity_scores = []
        for result in results:
            if result:
                matched_urls.append(result[0].payload['url'])
                similarity_scores.append(result[0].score)
            else:
                matched_urls.append(None)
                similarity_scores.append(0)

        report = pd.DataFrame({
            'origin_url': origin_df['url'],
            'matched_url': matched_urls,
            'similarity_score': similarity_scores,
        })

        # Speichern der Ergebnisse als CSV
        report.to_csv('redirect_mapping_results.csv')

        # Gesamtzeit messen
        total_end_time = time.time()
        f.write(f"Gesamtlaufzeit des Skripts: {total_end_time - total_start_time:.2f} Sekunden\n")

    print(f"Laufzeitbericht wurde in '{report_file}' gespeichert.")
    files.download(report_file)
    files.download('redirect_mapping_results.csv')

if __name__ == "__main__":
    main()




Saving origin.csv to origin (1).csv


Saving destination.csv to destination (1).csv


Batches:   0%|          | 0/4 [00:00<?, ?it/s]

Batches:   0%|          | 0/4 [00:00<?, ?it/s]

  client.recreate_collection(


Laufzeitbericht wurde in 'runtime_report.txt' gespeichert.


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>