# **Exploring LangChain with texts written on [Neformat](https://www.neformat.com.ua/)**
## **Main ideas are from [DeepLearningAI](https://learn.deeplearning.ai/courses/langchain-chat-with-your-data/lesson/5/retrieval)**

## **Setup**

In [1]:
%%capture
!pip install openai
!pip install chromadb
!pip install tiktoken
!pip install lark

In [26]:
import warnings
warnings.filterwarnings("ignore", category=UserWarning)

In [2]:
import os
from google.colab import userdata
import openai
import sys
sys.path.append('../..')

openai.api_key  = userdata.get('OPENAI_API_KEY')

In [46]:
from langchain.document_loaders import WebBaseLoader
from langchain.text_splitter import CharacterTextSplitter, RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.llms import OpenAI
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor
from langchain.retrievers import SVMRetriever
from langchain.retrievers import TFIDFRetriever
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate
from langchain.chat_models import ChatOpenAI
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain
import re
import lark

## **Document Loading**

In [4]:
links = [
    "https://www.neformat.com.ua/articles/indastrial-ta-ukrayina-istoriya-shcho-trivaie.html",
    "https://www.neformat.com.ua/articles/darkfolk-in-ukraine.html",
    "https://www.neformat.com.ua/articles/istoriya-ukrayinskogo-neofolku-v-kilkokh-slovakh.html"
                           ]

loaders = [WebBaseLoader(link) for link in links]

docs = []
for loader in loaders:
    docs.extend(loader.load())

## **Document Splitting**

In [5]:
def receive_main_text(documents):
    doc_main_body = []
    for doc in documents:
        header_start = doc.page_content.split('Підтримати')[-1].split('Neformat.com.ua ©')[0]
        up_to_site_mention = re.sub(r'\xa0|&a|quot;|lt;|amp;', '\n', header_start).strip()
        up_to_site_mention = up_to_site_mention.replace("\n ", "").replace(" \n", "")
        up_to_site_mention = re.sub(r'[\t\r\f]+', ' ', up_to_site_mention)
        normalised = re.sub(r'\n{2,}', '\n\n', up_to_site_mention)
        doc.page_content = normalised
        doc_main_body.append(doc)
    return doc_main_body


main_body = receive_main_text(docs)

In [6]:
main_body[0].page_content[:500]

'Індастріал та Україна — історія, що триває\n\n31.05.2023\n\nВадим Олійников\n\nУсе про витоки індустріальної музики, її філософію та знакових закордонних і українських представників.\nВзаємопроникнення естетичних кліше та мистецьких практик, загальні уявлення про які має навіть пересічний меломан, створили дуже широкий музичний жанр, до якого можна віднести як гурти, що грають важку гітарну музику, так і музикантів з електронної клубної сцени, й авангардних артистів, що для створення музики взагалі не '

In [7]:
r_splitter = RecursiveCharacterTextSplitter(
    chunk_size=300,
    chunk_overlap=25,
    separators=["\n\n", "\n", "(?<=\. )", " ", ""],
    length_function=len
)

splits = r_splitter.split_documents(main_body)

len(splits)

262

In [8]:
for split in splits[:5]:
    print(split.page_content, end="\n\n")

Індастріал та Україна — історія, що триває

31.05.2023

Вадим Олійников

Усе про витоки індустріальної музики, її філософію та знакових закордонних і українських представників.

Взаємопроникнення естетичних кліше та мистецьких практик, загальні уявлення про які має навіть пересічний меломан, створили дуже широкий музичний жанр, до якого можна віднести як гурти, що грають важку гітарну музику, так і музикантів з електронної клубної сцени, й авангардних артистів, що для

артистів, що для створення музики взагалі не користуються інструментами, які прийнято називати музичними.

"Люди часто помиляються у тому, що таке індастріал насправді. Для мене індастріал — це нічого не робити зі звуком промислового процесу, брязкітливі ритми й ламані металеві звуки так само нудні, як і звичайна рок-музика", — Пітер Крістоферсон



## **Vectorstores and Embeddings**

In [9]:
persist_directory = 'docs/chroma/'
embedding = OpenAIEmbeddings(api_key=userdata.get('OPENAI_API_KEY'))

  warn_deprecated(


In [10]:
!rm -rf ./docs/chroma  # remove old database files if any

In [11]:
vectordb = Chroma.from_documents(
    documents=splits,
    embedding=embedding,
    persist_directory=persist_directory
)

print(vectordb._collection.count())

262


### **Similarity Search**

In [12]:
question = "гурти схожі на Death in June"

for result in vectordb.similarity_search(question, k=2):
    print(result.page_content, end="\n\n")

Найчастіше гурт Nекраїна згадують у контексті альбому 2002 року "Смерть у Серпні", що є в загальному сенсі збіркою українськомовних каверів на Death in June (реліз вийшов за особистої згоди Дугласа Пірса), але Чарський не просто переклав пісні Пірса, він їх інтерпретував, інтегрував в українську

Проект Nекраїна одесита Георгія Чарського знає, напевно, кожен любитель українського неофолку. З'явився він у 1996 році, а у 2009 році припинив своє існування. Nекраїна стала популярною завдяки своїм переспівам пісень Death in June. Чарський не просто перекладав, він обігравав тексти Пірса, додаючи



### **Q: When similarity search fails?**

A: It searches for similar documents but does not enforce diversity (e.g. when we have duplicatesi in our documents. In addition, is doest not takes into account the source

### **Maximum marginal relevance**

Q: Benefits?

A: strives to achieve both relevance to the query *and diversity* among the results.

In [13]:
question = "гурти схожі на Death in June"

for result in vectordb.max_marginal_relevance_search(question, k=3, fetch_k=5):
    print(result.page_content, end="\n\n")

Найчастіше гурт Nекраїна згадують у контексті альбому 2002 року "Смерть у Серпні", що є в загальному сенсі збіркою українськомовних каверів на Death in June (реліз вийшов за особистої згоди Дугласа Пірса), але Чарський не просто переклав пісні Пірса, він їх інтерпретував, інтегрував в українську

Значно цікавішими є два останні альбоми гурту — "Апокаліцтва" 2002 року, та "Страшные песни о страшном". На альбомі "Апокаліцтва" все ще присутні дарк фолк елементи, а головна пісня цього релізу — також омаж на пісню Death in June "He's Disabled". Але музично це вже суто індустріальний

Якщо Death in June — це пісні про актуальне, Current 93 — це пісні про головне, то Sol Invictus — це пісні про минуле. Якраз нашим Тоні Уейкфордом і став Сергій Гололобов із Миколаєва. Без мінімального знання історії слухач, імовірно, не зрозуміє приколу його пісень, а може й біля скроні покрутити



### **Metadata**

Q: How we can focus on specificity and not only on the relevance?

A: use `metadata` to provide context + `SelfQueryRetriever`

In [14]:
question = "Про що співає гурт Вій?"

docs = vectordb.similarity_search(
    question,
    k=3
)

for d in docs:
    print(d.metadata)

{'description': 'Онлайн медіа про українську сцену та музику, переважно андеграунд. Новини, анонси, рецензії та тематичні публікації, аналітика, ретроспективи, довідник по жанрах.', 'language': 'uk', 'source': 'https://www.neformat.com.ua/articles/darkfolk-in-ukraine.html', 'title': '10 знакових гуртів в українському дарк фолку  | neformat'}
{'description': 'Онлайн медіа про українську сцену та музику, переважно андеграунд. Новини, анонси, рецензії та тематичні публікації, аналітика, ретроспективи, довідник по жанрах.', 'language': 'uk', 'source': 'https://www.neformat.com.ua/articles/istoriya-ukrayinskogo-neofolku-v-kilkokh-slovakh.html', 'title': 'Історія українського неофолку в кількох словах  | neformat'}
{'description': 'Онлайн медіа про українську сцену та музику, переважно андеграунд. Новини, анонси, рецензії та тематичні публікації, аналітика, ретроспективи, довідник по жанрах.', 'language': 'uk', 'source': 'https://www.neformat.com.ua/articles/darkfolk-in-ukraine.html', 'title

In [15]:
question = "Про що співає гурт Вій?"

docs = vectordb.similarity_search(
    question,
    k=3,
    filter={"source":"https://www.neformat.com.ua/articles/darkfolk-in-ukraine.html"}
)

for d in docs:
    print(d.metadata)

{'description': 'Онлайн медіа про українську сцену та музику, переважно андеграунд. Новини, анонси, рецензії та тематичні публікації, аналітика, ретроспективи, довідник по жанрах.', 'language': 'uk', 'source': 'https://www.neformat.com.ua/articles/darkfolk-in-ukraine.html', 'title': '10 знакових гуртів в українському дарк фолку  | neformat'}
{'description': 'Онлайн медіа про українську сцену та музику, переважно андеграунд. Новини, анонси, рецензії та тематичні публікації, аналітика, ретроспективи, довідник по жанрах.', 'language': 'uk', 'source': 'https://www.neformat.com.ua/articles/darkfolk-in-ukraine.html', 'title': '10 знакових гуртів в українському дарк фолку  | neformat'}
{'description': 'Онлайн медіа про українську сцену та музику, переважно андеграунд. Новини, анонси, рецензії та тематичні публікації, аналітика, ретроспективи, довідник по жанрах.', 'language': 'uk', 'source': 'https://www.neformat.com.ua/articles/darkfolk-in-ukraine.html', 'title': '10 знакових гуртів в україн

### **Addressing Specificity: working with metadata using self-query retriever**

`SelfQueryRetriever`, which an LLM to extract:

1. The `query` string to use for vector search
2. A metadata filter to pass in as well

In [16]:
metadata_field_info = [
    AttributeInfo(
        name="source",
        description="Сайт, з якого повинен бути чанк, має бути або `https://www.neformat.com.ua/articles/darkfolk-in-ukraine.html` або `https://www.neformat.com.ua/articles/istoriya-ukrayinskogo-neofolku-v-kilkokh-slovakh.html`",
        type="string",
    )
]

In [17]:
document_content_description = "Neformat texts"

llm = OpenAI(api_key = userdata.get('OPENAI_API_KEY'),
             model='gpt-3.5-turbo-instruct',
             temperature=0)

retriever = SelfQueryRetriever.from_llm(
    llm,
    vectordb,
    document_content_description,
    metadata_field_info,
    verbose=True
)

  warn_deprecated(


In [20]:
question = "Хто такий Дмитро Добрий-Вечір?"

docs = retriever.get_relevant_documents(question)

for d in docs:
    print(d) # only two first documents have relevant information

page_content='1991 року учасник готичного гурту «Баніта Байда» Дмитро Добрий-Вечір створив культову команду «Вій». Їхня похмура етніка, наповнена образами української демонології, язичницьким світобаченням і навколохристиянською рефлексією, стала провісником майбутньої появи більш «концентрованого» та яскраво' metadata={'description': 'Онлайн медіа про українську сцену та музику, переважно андеграунд. Новини, анонси, рецензії та тематичні публікації, аналітика, ретроспективи, довідник по жанрах.', 'language': 'uk', 'source': 'https://www.neformat.com.ua/articles/istoriya-ukrayinskogo-neofolku-v-kilkokh-slovakh.html', 'title': 'Історія українського неофолку в кількох словах  | neformat'}
page_content='У 1991 році Дмитро Добрий-Вечір йде з Баніти Байди, щоби заснувати колектив Вій з Ігорем Лемешком і Олегом Козловим. До первинного складу входили: Дмитро Добрий-Вечір (бас-гітара, вокал), Ігор Лемешко (гітара), Олег Козлов (гітара), Юрій Мезенчук (ударні), Руслан Мелещенко (перкусія, конги

**Q: Any additional tricks for document retrieval?**

A: Compression: get most relevant info from the retrieved document (aves money when calling LLM)


In [22]:
def pretty_print_docs(docs):
    print(f"\n{'-' * 100}\n".join([f"Document {i+1}:\n\n" + d.page_content for i, d in enumerate(docs)]))

In [23]:
llm = OpenAI(api_key = userdata.get('OPENAI_API_KEY'),
             temperature=0,
             model="gpt-3.5-turbo-instruct")

compressor = LLMChainExtractor.from_llm(llm)

compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor,
    base_retriever=vectordb.as_retriever()
)

In [27]:
question = "Коли виник український фолк?"
compressed_docs = compression_retriever.get_relevant_documents(question)
pretty_print_docs(compressed_docs)

Document 1:

Український дарк-фолк — звір, який з'явився на наших землях пізніше, ніж його британський побратим, і не став за тривалий час існування популярним. Усього можна виділити три хвилі розвитку цього музичного жанру, кожна з яких відповідала, як не дивно, десятиріччю.
----------------------------------------------------------------------------------------------------
Document 2:

Одеський індустріальний даркфолк у кращих традиціях жанру Nекраїна є першою командою, яку згадують, коли мова заходить про український дарк фолк.
----------------------------------------------------------------------------------------------------
Document 3:

Дмитро Ходико був ініціатором створення компіляції українського дарк-фолку "Полинь квітне"
----------------------------------------------------------------------------------------------------
Document 4:

2005 року в житті українського неофолк-руху сталася знаменна подія. Вийшла збірка «Полин квітне».


### **Combining various techniques**

In [30]:
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor,
    base_retriever=vectordb.as_retriever(search_type = "mmr")
)

question = "З ким чи чим пов'язаний Чарський?"
compressed_docs = compression_retriever.get_relevant_documents(question)
pretty_print_docs(compressed_docs)

Document 1:

Чарський працював із Юрієм Шелеховим, Андрієм Чупруном і іншими запрошеними музикантами.
----------------------------------------------------------------------------------------------------
Document 2:

Великій Британії


## **Other types of retrieval**

In [42]:
svm_retriever = SVMRetriever.from_texts(r_splitter.split_text(main_body[0].page_content), embedding)
tfidf_retriever = TFIDFRetriever.from_texts(r_splitter.split_text(main_body[0].page_content))

In [44]:
question = "Що було сказано про неофолк?"
docs_svm=svm_retriever.get_relevant_documents(question) # not informative
docs_svm[0]

Document(page_content='Пі-Оррідж був вимушений переїхати до США.')

In [45]:
question = "Що було сказано про неофолк?"
docs_tfidf=tfidf_retriever.get_relevant_documents(question) # not informative
docs_tfidf[0]

Document(page_content='давно забутий (але якого насправді ніколи не було). Шумові екзерсиси Throbbing Gristle протиставлялися подібній "музиці вчора" як "звук сьогоднішнього дня", брязкіт механізму знищення та примусу, покликаний переломити уявлення слухачів про музику як про акомпанемент для хорошого проведення часу.')

## **RetrievalQA chain**

In [47]:
qa_chain = RetrievalQA.from_chain_type(
    llm,
    retriever=vectordb.as_retriever()
)

result = qa_chain({"query": "чим відомий український неофолк?"})

result["result"]

  warn_deprecated(


' Український неофолк відомий своїми експериментами зі звуком та поєднанням традиційних українських мелодій з сучасними жанрами. Також, він відомий своїми соціально-політичними та філософськими текстами, які часто висвітлюють проблеми сучасного українського суспільства.'

## **Prompt**

In [48]:
template = """Use the following pieces of context to answer the question at the end.
If you don't know the answer, just say that you don't know, don't try to make up an answer.
Use three sentences maximum. Keep the answer as concise as possible. At the end, encourage user
to exmplore more about Ukrainian underground music and use Ukrainian language for this.
{context}
Question: {question}
Helpful Answer:"""

QA_CHAIN_PROMPT = PromptTemplate.from_template(template)

qa_chain = RetrievalQA.from_chain_type(
    llm,
    retriever=vectordb.as_retriever(),
    return_source_documents=True,
    chain_type_kwargs={"prompt": QA_CHAIN_PROMPT}
)

In [50]:
question = "Чи згадується про індастріал як напрямок в музиці?"

result = qa_chain({"query": question})

print(result["result"], end="\n\n") #encourages to use Ukrainian

print(result["source_documents"][0])

 Так, у статті згадується про індастріал як напрямок в музиці, але сучасні індустріальні артисти можуть використовувати лише певні риси цього жанру і не враховувати його бекграунд. Для детальнішого вивчення індастріальної музики та її українських представників, рекомендуємо дослідити більше і використовувати українську мову.

page_content='Такий довгий історичний екскурс був необхідний для того, щоб ґрунтовно описати концепцію індустріальної музики та проілюструвати індастріал у його найчистішому прояві. Сучасні індустріальні артисти, як правило, використовують лише певні риси цього жанру і лише певні елементи концепції.' metadata={'description': 'Онлайн медіа про українську сцену та музику, переважно андеграунд. Новини, анонси, рецензії та тематичні публікації, аналітика, ретроспективи, довідник по жанрах.', 'language': 'uk', 'source': 'https://www.neformat.com.ua/articles/indastrial-ta-ukrayina-istoriya-shcho-trivaie.html', 'title': 'Індастріал та Україна — історія, що триває | nefor

## **RetrievalQA chain types**

In [51]:
qa_chain_mr = RetrievalQA.from_chain_type(
    llm,
    retriever=vectordb.as_retriever(),
    chain_type="map_reduce"
)

result = qa_chain_mr({"query": question})

result["result"]

' Так, у тексті згадується про індастріал як напрямок в музиці.'

In [52]:
qa_chain_mr = RetrievalQA.from_chain_type(
    llm,
    retriever=vectordb.as_retriever(),
    chain_type="refine"
)
result = qa_chain_mr({"query": question})
result["result"]

"\n\nТак, індастріал є одним з напрямків в музиці, який характеризується використанням промислових звуків та елементів, таких як машинні ритми, шуми та ефекти. Цей напрямок з'явився в кінці 1970-х років і до сьогодні залишається популярним серед шанувальників експериментальної та альтернативної музики. Індустріальна музика має свої витоки в експериментальній та авангардній музиці, а також в культурі промислового суспільства т"

## **Limitations**

In [53]:
llm = ChatOpenAI(api_key = userdata.get('OPENAI_API_KEY'),
                 model_name="gpt-3.5-turbo",
                 temperature=0)

template = """Use the following pieces of context to answer the question at the end.
If you don't know the answer, just say that you don't know, don't try to make up an answer.
Use three sentences maximum. Keep the answer as concise as possible. At the end, encourage user
to exmplore more about Ukrainian underground music and use Ukrainian language for this.
{context}
Question: {question}
Helpful Answer:"""

QA_CHAIN_PROMPT = PromptTemplate(input_variables=["context", "question"],template=template,)

  warn_deprecated(


In [54]:
question = "Які гурти згадуються з Одеси?"

qa_chain = RetrievalQA.from_chain_type(llm,
                                       retriever=vectordb.as_retriever(),
                                       return_source_documents=True,
                                       chain_type_kwargs={"prompt": QA_CHAIN_PROMPT})


result = qa_chain({"query": question})
result["result"]

'У піснях розповідаються історії про козаків, відьом, нещасливе кохання сільської дівчини та інших звичних архетипів. Гурт Вій та The Litz згадуються з Одеси. Шукайте більше української андеграундної музики та використовуйте українську мову для цього!'

In [56]:
question = "З якого міста гурти Вій та The Litz?"

result = qa_chain({"query": question})
result["result"] ## should be from Odesa based on the previous answer

'Гурти Вій та The Litz походять з міста Львів.'

## **Memory**

In [58]:
retriever=vectordb.as_retriever()

memory = ConversationBufferMemory(
    memory_key="chat_history",
    return_messages=True
)

qa = ConversationalRetrievalChain.from_llm(
    llm,
    retriever=retriever,
    memory=memory
)

In [59]:
question = "Які гурти згадуються з Одеси?"
result = qa({"question": question})
result["answer"]

'У наданих відомостях не згадується жоден конкретний гурт з Одеси. Тому, на жаль, я не можу вказати жодного гурту з Одеси, який був би згаданий у цьому контексті.'

In [60]:
question = "Тобто, з Одеси немає жодного гурту?"
result = qa({"question": question})
result["answer"]

'Так, гурт "Nekраїна" з Одеси був згаданий у цьому контексті як один із найвідоміших проектів першої хвилі українського дарк-фолку.'

Such a contradiction)))

<img src="images/py33ke03f8241.png" width="500" height="250">