## Converting data to documents
This notebook is for using the data we obtained in the dataframe and representing it in a langchain Document object. This is a data structure very applicable to data science and nlp tasks, since it allows us to separate the actual text content we want to use for our embeddings from the metadata tags, such as source and url. 

### Part 1: Importing essential packages

In [16]:
import json
from dotenv import load_dotenv
from langchain.vectorstores import Chroma
from langchain.docstore.document import Document
import pandas as pd
from langchain.text_splitter import RecursiveCharacterTextSplitter

### Part 2 - Loading the df from memory

In [3]:
df = pd.read_json('data.json', orient='records', lines=True)

In [12]:

def df_to_langchain_documents(df):
    """
    Convert a pandas DataFrame into a list of LangChain Document objects.

    Parameters:
    df (pd.DataFrame): The DataFrame to convert.

    Returns:
    list: A list of LangChain Document objects.
    """
    documents = []
    for _, row in df.iterrows():
        doc = Document(
            page_content=row['text'],
            metadata={
                'key': row['key'],
                'url': row['url'],
                'category': row['category']
            }
        )
        documents.append(doc)
    return documents

In [13]:
documents = df_to_langchain_documents(df)

In [14]:
documents[0]

Document(page_content='Nyfiken På We Know IT? | Om Oss Våra kunder Våra tjänster Konsultuthyrning Webbutveckling Apputveckling UX/UI - Design Digital marknadsföring Hosting & förvaltning Om oss Karriär Kontakta oss Våra kunder Våra tjänster Konsultuthyrning Webbutveckling Apputveckling UX/UI - Design Digital Marknadsföring Hosting & Förvaltning Om oss Karriar Kontakta oss Varför We Know IT? Vi är IT-konsultbolaget som satsar på studerande och nyexade talanger med höga ambitioner och drivkrafter.\xa0Experter på utveckling, design och digital strategi, We Know IT helt enkelt. \u200bMål, vision & sådant gött Vårt mål är att vara det självklara valet för studenter att starta sin karriär på, och det självklara valet för företag som behöver motiverad och innovativ kompetens. Det är inte alla som får chansen att jobba med morgondagens skarpaste konsulter. Vi får det varje dag, och du som kund eller samarbetspartner får stora möjligheter genom att välja oss. Vi vill ha kul på vägen och leverer

In [17]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=512, chunk_overlap=30)
chunked_docs = text_splitter.split_documents(documents)

In [20]:
for i in chunked_docs:
    print(i.metadata.get("key"))

om-oss
om-oss
om-oss
om-oss
om-oss
karriar
karriar
karriar
karriar
karriar
karriar
karriar
karriar
konsultuthyrning
konsultuthyrning
konsultuthyrning
konsultuthyrning
konsultuthyrning
konsultuthyrning
konsultuthyrning
konsultuthyrning
konsultuthyrning
konsultuthyrning
konsultuthyrning
webbutveckling
webbutveckling
webbutveckling
webbutveckling
webbutveckling
webbutveckling
webbutveckling
webbutveckling
webbutveckling
webbutveckling
webbutveckling
webbutveckling
webbutveckling
webbutveckling
webbutveckling
webbutveckling
webbutveckling
webbutveckling
webbutveckling
webbutveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
apputveckling
design
design
design
design
design
d

In [21]:
current_key = None
counter = 0

for chunk in chunked_docs:
    key = chunk.metadata.get("key")
    if key != current_key:
        current_key = key
        counter = 0
    chunk.metadata["chunk_id"] = f"{key}_{counter}"
    counter += 1
