<a href="https://colab.research.google.com/github/fibleep/adam-mickiewicz-ai/blob/main/LLaMa_Dataset_Enrichment.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Enriching and formatting the dataset with LLaMa 70b

We will load the Adam Mickiewicz dataset to clean it, enrich it and upload it to hugging face hub

Load the repository with the data

In [1]:
!git clone https://github.com/fibleep/adam-mickiewicz-ai.git

fatal: destination path 'adam-mickiewicz-ai' already exists and is not an empty directory.


In [2]:
!pip install pandas



In [3]:
import sys
sys.path.insert(0,'/content/adam-mickiewicz-ai/data_extraction')


In [4]:
import pandas as pd
df = pd.read_csv("/content/adam-mickiewicz-ai/data_extraction/books.csv")
df

Unnamed: 0,Book,Text
0,Adomas Mickevičius Krymo sonetai Ajudagas tłu...,Adomas Mickevičius\n\nKrymo sonetai\nAjudagas\...
1,Adam Mickiewicz Do D. D.,Adam Mickiewicz\n\nDo D. D.\n\n\n\nElegia\n\n ...
2,Adam Mickiewicz Zaloty,Adam Mickiewicz\n\nZaloty\n\n\n\nPóki córeczki...
3,Mickiewicz Adam Ballady i romanse Tukaj albo ...,Mickiewicz Adam\n\nBallady i romanse\nTukaj al...
4,Adam Mickiewicz Pieśń filaretów,Adam Mickiewicz\n\nPieśń filaretów\n\n\n\n He...
...,...,...
149,Adam Mickiewicz Do D… D…,Adam Mickiewicz\n\nDo D… D…\n\n\n\nMoja pieszc...
150,Adam Mickiewicz Dziadów części III Ustęp Oles...,Adam Mickiewicz\n\nDziadów części III Ustęp\nO...
151,"Adam Mickiewicz Dziady. Poema Dziady, część IV","Adam Mickiewicz\n\nDziady. Poema\nDziady, częś..."
152,Adam Mickiewicz Sonety odeskie Sonet II. Do L...,Adam Mickiewicz\n\nSonety odeskie\nSonet II. D...


For each book, we will split each verse and annotate it with the title, later on we will feed it to the model and ask to create a question and answer based on it

In [5]:
# Remove the first 5 lines from the text column, theyre the same as the book column
def remove_first_five_lines(text):
    return '\n'.join(text.split('\n')[5:])

# Apply the function to the 'Text' column
df['Text'] = df['Text'].apply(remove_first_five_lines)

df.head()

Unnamed: 0,Book,Text
0,Adomas Mickevičius Krymo sonetai Ajudagas tłu...,"\n\n\nMėgstu ant Ajudago rymodams matyti,\nKai..."
1,Adam Mickiewicz Do D. D.,\nElegia\n\n Gdybyś ty na dzień jeden była w ...
2,Adam Mickiewicz Zaloty,\nPóki córeczki opiewałem wdzięki:\nMamunia sł...
3,Mickiewicz Adam Ballady i romanse Tukaj albo ...,\n\n\n(we czterech częściach)\n\n\n\n\nI\n\n ...
4,Adam Mickiewicz Pieśń filaretów,\n Hej użyjmy żywota!\nWszak żyjem tylko raz:...


In [6]:
# Check the text
df.Text[0]

'\n\n\nMėgstu ant Ajudago rymodams matyti,\nKaip putojančios bangos verpetais puškuoja,\nBei sidabro vainikais juosia marių srytį,\nIr tarsi vaivorykštės aplinkui ratuoja,\n\nAtsimuša į seklių, sekliaus išblaškyti,\nLyg didžiažuvių būriai krantus atakuoja,\nPaveldėtų sausumą, tečiaus nuvaryti,\nVėl kiaukerus, koralus ir perlus tebšluoja.\n\nJaunasis dainiau! Lygiai ir tavo širdyje\nKensmas dažnai sujudin vėsulas grumzdingas,\nBet sveikamjam pakėlus bard’ną įkvėpimo,\n\nAnas be blėdies žūva gelmėj užmiršimo,\nIr už save palieka giesmes nemirtingas,\nTavo garbei vainiką nupint ateityje.\n\n\n\n\n'

Most of the poems the poems/books are in verses, by splitting each per verse we can perform some pretty efficient chunking without losing much of the context. Later on we will perform some extra cleaning.

In [7]:
exploded_df = pd.DataFrame(columns=df.columns)

verse_series_list = []

for row in df.iterrows():

  # Split the verse in each row
  split_text = row[1].Text.split("\n\n")

  for idx,verse in enumerate(split_text):
    verse = verse.replace("\n", "")


    if (not verse) | (len(verse)<10):
      continue

    verse = verse

    verse_series_list.append(pd.Series([row[1].Book, verse], index=df.columns))

print(len(verse_series_list))

4924


In [8]:
exploded_df = exploded_df.append(verse_series_list, ignore_index=True)
exploded_df.head()

  exploded_df = exploded_df.append(verse_series_list, ignore_index=True)


Unnamed: 0,Book,Text
0,Adomas Mickevičius Krymo sonetai Ajudagas tłu...,"Mėgstu ant Ajudago rymodams matyti,Kaip putoja..."
1,Adomas Mickevičius Krymo sonetai Ajudagas tłu...,"Atsimuša į seklių, sekliaus išblaškyti,Lyg did..."
2,Adomas Mickevičius Krymo sonetai Ajudagas tłu...,Jaunasis dainiau! Lygiai ir tavo širdyjeKensma...
3,Adomas Mickevičius Krymo sonetai Ajudagas tłu...,"Anas be blėdies žūva gelmėj užmiršimo,Ir už sa..."
4,Adam Mickiewicz Do D. D.,Gdybyś ty na dzień jeden była w mojej duszy…...


In [9]:
result = pd.DataFrame([[]])
result['result'] = exploded_df['Text'].apply(len).mean()
result

Unnamed: 0,result
0,246.628554


# Enriching the data
We're going to load in a llama model to enrich the dataset and prepare it for finetuning

# Important!

llama is a gated model, request it at https://huggingface.co/meta-llama/Llama-2-70b-chat-hf and add your api key

In [10]:
!huggingface-cli login --token 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

Token will not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /root/.cache/huggingface/token
Login successful


In [11]:
!pip install light-the-torch torchvision torchaudio sentencepiece accelerate bitsandbytes



In [12]:
# import torch
# from transformers import AutoTokenizer, AutoModelForCausalLM

# model_name = "HuggingFaceH4/zephyr-7b-beta"
# model = AutoModelForCausalLM.from_pretrained(
#     model_name, load_in_4bit=True
# )
# tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False, add_bos_token=False)

In [13]:
# import transformers

# pipe = transformers.pipeline(
#     "text-generation",
#     model=model,
#     tokenizer=tokenizer,
# )

In [14]:
# sequences = pipe(
#    "Who is adam mickiewicz?",
#     max_length=400,
#     do_sample=True,
#     top_k=10,
#     num_return_sequences=1,
#     eos_token_id=tokenizer.eos_token_id,
# )
# for seq in sequences:
#     print(f"Result: {seq['generated_text']}")

After trying Llama 70b (couldn't get it to load properly) and zephyr-7b (not enough polish), let's try gpt-3 for this:

In [15]:
exploded_df

Unnamed: 0,Book,Text
0,Adomas Mickevičius Krymo sonetai Ajudagas tłu...,"Mėgstu ant Ajudago rymodams matyti,Kaip putoja..."
1,Adomas Mickevičius Krymo sonetai Ajudagas tłu...,"Atsimuša į seklių, sekliaus išblaškyti,Lyg did..."
2,Adomas Mickevičius Krymo sonetai Ajudagas tłu...,Jaunasis dainiau! Lygiai ir tavo širdyjeKensma...
3,Adomas Mickevičius Krymo sonetai Ajudagas tłu...,"Anas be blėdies žūva gelmėj užmiršimo,Ir už sa..."
4,Adam Mickiewicz Do D. D.,Gdybyś ty na dzień jeden była w mojej duszy…...
...,...,...
4919,Adam Mickiewicz Sonety odeskie Sonet II. Do L...,O luba! niech twe oczy przyznać się nie boją;J...
4920,Adam Mickiewicz Sonety odeskie Sonet II. Do L...,Że uciekać i kochać bez nadziei muszę.Niech śl...
4921,Adam Mickiewicz Liryki lozańskie Widzenie,"Dźwięk mię uderzył… Nagle moje ciało,Jak ó..."
4922,Adam Mickiewicz Liryki lozańskie Widzenie,"Przeszedłem ludzkie ciała, jak przebiegaPr..."


In [18]:
!pip install langchain

Collecting langchain
  Downloading langchain-0.0.338-py3-none-any.whl (2.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m27.4 MB/s[0m eta [36m0:00:00[0m
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain)
  Downloading dataclasses_json-0.6.2-py3-none-any.whl (28 kB)
Collecting jsonpatch<2.0,>=1.33 (from langchain)
  Downloading jsonpatch-1.33-py2.py3-none-any.whl (12 kB)
Collecting langsmith<0.1.0,>=0.0.63 (from langchain)
  Downloading langsmith-0.0.65-py3-none-any.whl (46 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m46.1/46.1 kB[0m [31m6.5 MB/s[0m eta [36m0:00:00[0m
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain)
  Downloading marshmallow-3.20.1-py3-none-any.whl (49 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.4/49.4 kB[0m [31m6.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting typing-inspect<1,>=0.4.0 (from dataclasses-json<0.7,>=0.5.7->langch

In [78]:
# Create a model

from langchain.pydantic_v1 import BaseModel, Field


class Conversation(BaseModel):
    """Identifying information about a person."""

    question: str = Field(..., description="Zadaj pytanie Adamowi Mickiewiczowi")
    answer: str = Field(..., description="Odpowiedź Adama Mickiewicza, zawsze pisana wierszem i po polsku, minimum 50 słów")

In [159]:
from google.colab import userdata
from langchain.chains.openai_functions import (
    create_openai_fn_chain,
    create_openai_fn_runnable,
    create_structured_output_chain,
    create_structured_output_runnable,
)
from langchain.chat_models import ChatOpenAI
from langchain.prompts import ChatPromptTemplate



llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0.7, openai_api_key=userdata.get('OPENAI_API_KEY'))
prompt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            "Nazywasz się Adam Mickiewicz, jesteś polskim poetą i mówisz wierszem. Przetłumacz wszystkie utwory na polski.",
        ),
        (
            "human",
            "Zbuduj pytanie (skierowane do adama mickiewicza, w formie krotkiego generalnego pytania) i odpowiedź, MUSZA BYC PO POLSKU i musi mieć max 50 słów: {input}",
        ),
        ("human", "ZAWSZE ODPOWIADAJ WIERSZEM I MAKSYMALNIE 50 SŁÓW,PYTANIE I ODPOWIEDŹ MUSZĄ BYĆ PO POLSKU! ODPOWIEDŹ TO MUSI BYĆ WIERSZ W STYLU ADAMA MICKIEWICZA (NA PODSTAWIE TEKSTU POWYŻEJ). Użyj poprawnego formatu!!!!"),
    ]
)


In [160]:
import asyncio
import threading
from queue import Queue

def generate_conversation_threaded(row, output_queue):
    """
    Generate a conversation using threading.
    """
    try:
        runnable = create_structured_output_runnable(Conversation, llm, prompt)
        conversation = runnable.invoke({"input": row[1]})
        print(conversation)
        output_queue.put(pd.Series([conversation.question, conversation.answer], index=['Question', 'Answer']))
    except Exception as e:
        print(f"Error occurred: {e}")
        output_queue.put(pd.Series([row[0],row[1]], index=['Question', 'Answer']))

def process_dataframe(df):
    """
    Process each row of the DataFrame using threading.
    """
    output_queue = Queue()
    threads = []
    for _, row in df.iterrows():
        thread = threading.Thread(target=generate_conversation_threaded, args=(row, output_queue))
        threads.append(thread)
        thread.start()

    for thread in threads:
        thread.join()

    results = [output_queue.get() for _ in range(len(df))]
    return pd.concat(results, axis=1)

In [None]:
updated_df = process_dataframe(exploded_df)

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
question='Czy Sędzia z bernardynem grał w mariasza? Co Sędzia powiedział o obyczajach na Litwie?' answer='«Niech tam sobie kto chce chwali Niemców cywilizcją, porządek Moskali; Niechaj Wielkopolanie uczą się od Szwabów Prawować się o lisa i przyzywać drabów, By wziąć w areszt ogara, że wpadł w cudze gaje: Na Litwie, chwała Bogu, stare obyczaje.»'
question='Jak brzmiał tytuł księgi trzeciej w twórczości Adama Mickiewicza?' answer='W księgi trzeciej dusza Matejki rozkwitła, nadzieję i miłość w sercu nabrała.'
question='Jakie dary przyniosli Rejent i Asesor dla Sędziego?' answer='Rejent z pierścieniem, a Asesor z obrożą złotą\nI smyczą jedwabną, wspaniałą jak kamień świecącą\nAsesor chciał zostawić w dziedzictwie dla dzieci\nDar księcia Dominika, z polowania z Kanią w Kupisku\nTam Napoleon daje wodzom swoim księstwa\nOd miejsc zwycięstw, wielkich jak te polowanie sztuka'
question='Co widzi kogut, gdy patrzy w niebo?' answer=

In [136]:
updated_df.T

'Ant Ajudago rymodams patrząc, wzdycham do morza, jak do pięknej damy. Złote korony fal oplatają je jak tęczowe wstążki. Takie widoki rozweselają moje serce i robią na mnie wrażenie.'