# Retriever for relevant Documents

Let's see how well a simple vector store retriever fares in pulling documents based on keywords. We can use this later to build a RAG system

In [2]:
import pandas as pd
import langchain_core as lc

from langchain_community.document_loaders import DataFrameLoader

### Read in data, merge categories and drop uncoded entries

In [3]:
# read data
data = pd.read_csv("CAP_sample_coded.tsv", 
                   sep="\t", 
                     dtype={"_id": str} # _id column as string to avoid scientific notation
                     )

# we remove the categories "wirtschaft" (economy) and "haushalt_finanzen" (finance) in favor of the compound category "wirtschaft_finanzen"
data = data.drop(columns=["wirtschaft", "haushalt_finanzen"])
# rename "wirtschaft_finanzen_merge" to "wirtschaft_finanzen"
data = data.rename(columns={"wirtschaft_finanzen_merge": "wirtschaft_finanzen"})

# pivot data to long format
data_long = data.melt(id_vars=["_id", "intercoder_sample", "coder", "_source.text"], 
                      var_name="label")

data_long = data_long[data_long.value == True] # only keep tweets labeled as a certain category (drop False values)

# remove value and coder column
data_long = data_long.drop(columns=["value", "coder"])

data_long

Unnamed: 0,_id,intercoder_sample,_source.text,label
802,1623756907532910593,False,Das #Deutschlandticket ist ein richtiger Schri...,verkehr
806,1400799340021616640,False,Das Jobticket ist nun seit einem Monat am Star...,verkehr
825,1044258236663304193,False,Der Antrag zu einem Sozialticket für Bus und B...,verkehr
853,1483489042691940357,False,Die Stadt Leverkusen inkl. Oberbürgermeister u...,verkehr
866,1109875138516959234,False,Diese Kampagne bringt wohl mehr als die üblich...,verkehr
...,...,...,...,...
40770,1360263802294579201,True,Der #Unternehmerlohn für Kulturschaffende und ...,wirtschaft_finanzen
40774,1457645827078434818,True,"Schätzungen gehen davon aus, dass jedes Jahr m...",wirtschaft_finanzen
40778,1522118401937793033,True,Eil: Gericht erklärt #Wirecard-Bilanzen für ni...,wirtschaft_finanzen
40779,1567473763280719872,True,"Fraktionsvize @mueller_sepp stellt fest, für O...",wirtschaft_finanzen


In [4]:
# turn data_long into langchain documents
loader = DataFrameLoader(data_long, page_content_column="_source.text")

loader.load()

[Document(metadata={'_id': '1623756907532910593', 'intercoder_sample': False, 'label': 'verkehr'}, page_content='Das #Deutschlandticket ist ein richtiger Schritt zu einem modernen #ÖPNV. Auch für grenzüberschreitende Mobilität brauchen wir attraktive Angebote und keine Tarif-Hemmnisse. Mobilität darf nicht an der Grenze enden und muss für alle erschwinglich sein! \r\nhttps://t.co/MAsAq3ghPm https://t.co/6HJKoOMnAF'),
 Document(metadata={'_id': '1400799340021616640', 'intercoder_sample': False, 'label': 'verkehr'}, page_content='Das Jobticket ist nun seit einem Monat am Start und immer mehr Arbeitgeber und Arbeitgeberinnen in SH sind dabei!👍🚍🚈 https://t.co/LlPRFh6vAI'),
 Document(metadata={'_id': '1044258236663304193', 'intercoder_sample': False, 'label': 'verkehr'}, page_content='Der Antrag zu einem Sozialticket für Bus und Bahn ist zumindest in einer Lightversion durchgekommen. Wird in der nächsten Verhandlungsrunde des marego-Verbundes behandelt.'),
 Document(metadata={'_id': '148348

### OpenAI embeddings

In [5]:
from langchain_openai import OpenAIEmbeddings

vector_store = lc.vectorstores.InMemoryVectorStore(OpenAIEmbeddings())

vector_store.add_documents(documents=loader.load()) # Tweet IDs are preserved in the metadata. As we have duplicates (multiple labels on the same document), the vector store assigns a new, unqiue ID for each doc 

['930da4f2-fead-4b2e-b0db-4508cd1ee475',
 '0a62322f-e863-46e2-ad4d-679271f35e3b',
 '51b6d0eb-f27b-4916-9a50-7c67aceedcc6',
 'b0789e15-dc02-4a91-8681-6c3a92adc859',
 'e4ae7271-fe13-44a8-ad03-5dbaefd4f97a',
 'c72ad3b2-12d5-4ca7-8032-8a4645e6262e',
 'c0c0885c-6049-4d69-8570-4ab27bfddd87',
 '777ddd4e-c23c-457d-a9ae-51bd7919c8de',
 '79ea9c62-83d3-48b6-9e50-a52f7d02b376',
 '01c00aa0-9c0a-42fe-ac6e-cd12a520e451',
 '942ec950-e5a6-4e58-8501-41dc64b5a2d6',
 '7592443d-517d-4b52-918f-f29358bd0b4f',
 'acf73ba3-a9a9-4aa9-9dcf-4bcbf0784fb6',
 '97d1db28-3eda-4770-a970-4621058571ac',
 '8f9a9ff9-d82d-445c-ae92-f0bbe16b0634',
 'a6b4bfed-9f4e-40df-a68e-28d77acec195',
 '615beaae-515f-4c45-9634-81630292720f',
 '43a0e928-b0a7-4a83-a5e6-d123047752ab',
 '129aba15-361a-41df-9baf-985b8af9e0e6',
 '86fc93a6-10f9-4255-b64b-489d19c9f7ee',
 '8a2d0948-db15-4885-8910-cb823f003e5f',
 '75105d88-30ba-4534-9534-bab42debe81d',
 'd567b401-823a-449a-b211-f73e4bce632c',
 '38a9c2aa-568e-4c08-91d9-0cc71229d2a8',
 '9bea2afb-ab3d-

In [6]:
# a simple test

query = "Verkehrspolitik"

vector_store.similarity_search(query, top_k=5)

[Document(id='f183d4f1-0e86-4fde-a8c8-64a9da8f658e', metadata={'_id': '1023670997659131905', 'intercoder_sample': False, 'label': 'aeusseres'}, page_content='"Es ist eindeutig festzustellen, dass die Migrationspolitik einem Fahrplan bzw. einer festgeschriebenen Agenda folgt, in welcher den Nationalstaaten kaum noch eigener Spielraum eröffnet wird." https://t.co/7TaxkcvJFT'),
 Document(id='9e1f8b96-2987-47ef-8add-e9d9ac061b58', metadata={'_id': '1023670997659131905', 'intercoder_sample': False, 'label': 'europa'}, page_content='"Es ist eindeutig festzustellen, dass die Migrationspolitik einem Fahrplan bzw. einer festgeschriebenen Agenda folgt, in welcher den Nationalstaaten kaum noch eigener Spielraum eröffnet wird." https://t.co/7TaxkcvJFT'),
 Document(id='6c471bf8-888d-4502-b526-da4a341746cf', metadata={'_id': '1023670997659131905', 'intercoder_sample': False, 'label': 'gesellschaft'}, page_content='"Es ist eindeutig festzustellen, dass die Migrationspolitik einem Fahrplan bzw. einer 

In [10]:
# filter by policy field
from langchain_core.documents import Document

def policy_field_filter(doc: Document) -> bool:     # function to filter metadata
    return doc.metadata.get("label") == "verkehr"

vector_store.similarity_search(query, top_k=5, 
                               filter=policy_field_filter) 

[Document(id='c1e615b8-bd47-4ec3-8f5d-1a976425e8c3', metadata={'_id': '1233320231537430528', 'intercoder_sample': True, 'label': 'verkehr'}, page_content='Ich mag es ja kurz &amp; knackig. Diese Übersicht grüner Verkehrspolitik in Berlin ist sehr zu empfehlen. https://t.co/itr8plUfVe'),
 Document(id='b9131ed6-dbc1-497b-b593-ca9c55c0acba', metadata={'_id': '1623756907532910593', 'intercoder_sample': False, 'label': 'verkehr'}, page_content='Das #Deutschlandticket ist ein richtiger Schritt zu einem modernen #ÖPNV. Auch für grenzüberschreitende Mobilität brauchen wir attraktive Angebote und keine Tarif-Hemmnisse. Mobilität darf nicht an der Grenze enden und muss für alle erschwinglich sein! \r\nhttps://t.co/MAsAq3ghPm https://t.co/6HJKoOMnAF'),
 Document(id='c218ee9e-638c-4027-a730-6d4ba62dbe12', metadata={'_id': '1044258236663304193', 'intercoder_sample': False, 'label': 'verkehr'}, page_content='Der Antrag zu einem Sozialticket für Bus und Bahn ist zumindest in einer Lightversion durchg

In [14]:
policy_field_filter

<function __main__.policy_field_filter(doc: langchain_core.documents.base.Document) -> bool>

In [9]:
# another test (what do we get when we input a whole tweet as an example?)

query = data_long["_source.text"].iloc[0]

vector_store.similarity_search(query, top_k=5)

[Document(id='ede524a4-6869-4a78-b138-9775f46669e3', metadata={'_id': '1623756907532910593', 'intercoder_sample': False, 'label': 'verkehr'}, page_content='Das #Deutschlandticket ist ein richtiger Schritt zu einem modernen #ÖPNV. Auch für grenzüberschreitende Mobilität brauchen wir attraktive Angebote und keine Tarif-Hemmnisse. Mobilität darf nicht an der Grenze enden und muss für alle erschwinglich sein! \r\nhttps://t.co/MAsAq3ghPm https://t.co/6HJKoOMnAF'),
 Document(id='0349548a-517c-4764-b448-15135724907b', metadata={'_id': '1400799340021616640', 'intercoder_sample': False, 'label': 'arbeit'}, page_content='Das Jobticket ist nun seit einem Monat am Start und immer mehr Arbeitgeber und Arbeitgeberinnen in SH sind dabei!👍🚍🚈 https://t.co/LlPRFh6vAI'),
 Document(id='5c17d4cf-e65f-40ec-ae6f-4c3a5753b32c', metadata={'_id': '1400799340021616640', 'intercoder_sample': False, 'label': 'verkehr'}, page_content='Das Jobticket ist nun seit einem Monat am Start und immer mehr Arbeitgeber und Ar

In [None]:
# set up a retriever frontend with MMR search method
retriever = vector_store.as_retriever(
    search_type="mmr",
    search_kwargs={"k": 5, "fetch_k": 10, "lambda_mult": 0.5},
)

query = "verkehrspolitik"

retriever.invoke(query) # this actually retrieves reasonable results due to the MMR weighting (only 1 doc does not fit)
# MMR (Maximal Marginal Relevance) aims to diversify search results. the amount of diversification is set via the lambda_mult parameter

[Document(id='c19a44b0-4221-497c-a6a6-c788f0051be3', metadata={'_id': '1023670997659131905', 'intercoder_sample': False, 'label': 'aeusseres'}, page_content='"Es ist eindeutig festzustellen, dass die Migrationspolitik einem Fahrplan bzw. einer festgeschriebenen Agenda folgt, in welcher den Nationalstaaten kaum noch eigener Spielraum eröffnet wird." https://t.co/7TaxkcvJFT'),
 Document(id='0cf66986-a0ca-4271-8661-2701a2fda2f8', metadata={'_id': '1227619494987751430', 'intercoder_sample': False, 'label': 'gesundheit'}, page_content='Die Umwelt- und Verkehrspolitik von Bund, Ländern und Kommunen wirkt! Aktuelle Messdaten zeigen: In deutschen Städten hat sich die Luftqualität 2019 deutlich verbessert. Saubere Luft ist wichtig für Gesundheit und Lebensqualität. Mehr: https://t.co/kbY9uOnmEm @bmu @BMVI https://t.co/yZAniA7T6z'),
 Document(id='daa169bf-9dff-47b4-a5b0-9f89cf39756d', metadata={'_id': '1044258236663304193', 'intercoder_sample': False, 'label': 'soziales'}, page_content='Der Antr

In [16]:
query = data_long["_source.text"].iloc[0]

retriever.invoke(query) # partly OK resuluts, but this is an arbitrary example doc used as query

[Document(id='b9131ed6-dbc1-497b-b593-ca9c55c0acba', metadata={'_id': '1623756907532910593', 'intercoder_sample': False, 'label': 'verkehr'}, page_content='Das #Deutschlandticket ist ein richtiger Schritt zu einem modernen #ÖPNV. Auch für grenzüberschreitende Mobilität brauchen wir attraktive Angebote und keine Tarif-Hemmnisse. Mobilität darf nicht an der Grenze enden und muss für alle erschwinglich sein! \r\nhttps://t.co/MAsAq3ghPm https://t.co/6HJKoOMnAF'),
 Document(id='304ac06b-041e-4e7f-a0ed-7caee67e763c', metadata={'_id': '1400799340021616640', 'intercoder_sample': False, 'label': 'umwelt'}, page_content='Das Jobticket ist nun seit einem Monat am Start und immer mehr Arbeitgeber und Arbeitgeberinnen in SH sind dabei!👍🚍🚈 https://t.co/LlPRFh6vAI'),
 Document(id='3cf7b018-2856-4765-be69-0cfb2c8324e3', metadata={'_id': '1023670997659131905', 'intercoder_sample': False, 'label': 'europa'}, page_content='"Es ist eindeutig festzustellen, dass die Migrationspolitik einem Fahrplan bzw. ei