In [1]:
import requests 
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor, as_completed

import regex as re

import pandas as pd
import json

from collections import Counter

In [2]:
pd.set_option("display.max_colwidth", None)

In [3]:
def scrap_haiku(url):
    page = requests.get(url)
    soup = BeautifulSoup(page.content, "html.parser")
    haiku_class = soup.find("h1")
    haiku = haiku_class.get_text(strip=True)
    return haiku

In [4]:
def create_haiku_list(num, max_workers=10):
    haiku_list = []
    url = "https://haikudatabase.com/haikus/"
    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        futures = [executor.submit(scrap_haiku, url + str(i)) for i in range(1, num)]
        for future in as_completed(futures):
            result = future.result()
            haiku_list.append(result)
    return haiku_list

In [None]:
dataset = create_haiku_list(12226, max_workers=20)

In [None]:
dataset[:10]

In [6]:
df = pd.DataFrame(dataset, columns=['japanese haiku'])

In [7]:
df.head()

Unnamed: 0,japanese haiku
0,春立つや昼の灯くらき山社
1,筆を噛んでいまだ書かざる妹の春
2,寝ごゝろやいづちともなく春は来ぬ
3,オリヲンの真下春立つ雪の宿
4,元日の酔詫に来る二月かな


In [5]:
df.to_csv("haiku_dataset.csv", index=False)

NameError: name 'df' is not defined

In [13]:
df = pd.read_csv("haiku_dataset.csv")

In [18]:
#df.loc[df["japanese haiku"] == "蛼が髭をかつぎて鳴きにけり"]
df = df.iloc[3783:, :]

In [19]:
df

Unnamed: 0,japanese haiku
3783,海士の屋は小海老にまじるいとどかな
3784,城内に踏まぬ庭あり轡虫
3785,草ひばり月にかざして買ひにけり
3786,真夜中に目覚めて宜し鉦叩
3787,むざんやな甲の下のきりぎりす
...,...
12220,芽柳のおのれを包みはじめたる
12221,春空に鞠とゞまるは落つるとき
12222,春の夜のねむさ押へて髪梳けり
12223,春空に露びつしりとあるごとし


In [20]:
df.to_csv("haiku_dataset1.csv", index=False)

In [74]:
df2 = pd.read_csv("deepseek_csv_20251025_8e8eab.txt")
df2 = df2.iloc[:, :]
df2

Unnamed: 0,PROMPT,JAPANESE HAIKU,RUSSIAN TRANSLATION
0,Напиши хайку про листья,散りしきし柿の落葉や裏表,Осыпавшиеся густо — опавшие листья хурмы — изнанка и лицо
1,Создай хайку про природу,物いふが如き枯葉を顧みる,Словно говорящие — сухие листья — оглядываюсь
2,Придумай хайку про жилище,住めばまた住みよきところ隙間張る,Поживёшь — снова хорошее место — щели заделываю
3,Сочини хайку про работу,役にして木の葉拾ふや寺の山,В качестве работы — листья собираю — храмовая гора
4,Напиши хайку про путешествия,北窓を塞ぎつゝある旅の宿,Северное окно — закрывая — есть — постоялый двор
...,...,...,...
188,Напиши хайку про поэзию,水洟や一念うつす古俳諧,Сопли — одну мысль — передаю — старое хайкай
189,Создай хайку про одиночество,咳をしても一人,Кашляну — и один
190,Придумай хайку про болезни,縁談や巷に風邪の猛りつゝ,Сватовство — в городе — простуда свирепствует
191,Сочини хайку про звуки,嚔また嚔や合の米ひかる,Чих — снова чих — рис аи — сверкает


In [78]:
df1 = pd.read_csv("b1.csv")

In [79]:
df1

Unnamed: 0,PROMPT,JAPANESE HAIKU,RUSSIAN TRANSLATION
0,Напиши хайку о весне,春立つや昼の灯くらき山社,Пришла весна — \и днём огонёк светильника \в горном святилище тускл
1,Создай хайку о времени,筆を噛んでいまだ書かざる妹の春,Грызу кисть — \и всё ещё не написано \о весне сестры
2,Сочини хайку о природе,寝ごゝろやいづちともなく春は来ぬ,На сердце лёгкость — \неведомо откуда \приходит весна
3,Напиши хайку о снеге,オリヲンの真下春立つ雪の宿,Под Орионом \наступает весна — \в снежном приюте
4,Создай хайку о временах года,元日の酔詫に来る二月かな,После новогоднего \пьяного извинения приходит — \февраль
...,...,...,...
4826,Напиши хайку про поэзию,水洟や一念うつす古俳諧,Сопли — одну мысль — передаю — старое хайкай
4827,Создай хайку про одиночество,咳をしても一人,Кашляну — и один
4828,Придумай хайку про болезни,縁談や巷に風邪の猛りつゝ,Сватовство — в городе — простуда свирепствует
4829,Сочини хайку про звуки,嚔また嚔や合の米ひかる,Чих — снова чих — рис аи — сверкает


In [26]:
df1["RUSSIAN TRANSLATION"] = df1["RUSSIAN TRANSLATION"].astype(str).apply(lambda x: re.sub(r"[\\/]+", "\n", re.sub(r"\s+", " ", x)).strip())

In [77]:
df = pd.concat([df1, df2], ignore_index=True)
df.to_csv("b1.csv", index=False)

In [8]:
df["OUTPUT"] = df["JAPANESE HAIKU"] + "\n\n" + df["RUSSIAN TRANSLATION"]

In [9]:
df = df[["PROMPT", "OUTPUT"]]
df

Unnamed: 0,PROMPT,OUTPUT
0,Напиши хайку о весне,春立つや昼の灯くらき山社\n\nПришла весна — \nи днём огонёк светильника \nв горном святилище тускл
1,Создай хайку о времени,筆を噛んでいまだ書かざる妹の春\n\nГрызу кисть — \nи всё ещё не написано \nо весне сестры
2,Сочини хайку о природе,寝ごゝろやいづちともなく春は来ぬ\n\nНа сердце лёгкость — \nневедомо откуда \nприходит весна
3,Напиши хайку о снеге,オリヲンの真下春立つ雪の宿\n\nПод Орионом \nнаступает весна — \nв снежном приюте
4,Создай хайку о временах года,元日の酔詫に来る二月かな\n\nПосле новогоднего \nпьяного извинения приходит — \nфевраль
...,...,...
3860,Напиши хайку о насекомых,虫売や行燈の絵の轡虫\n\nПродавец насекомых! \n На светильнике нарисованный \n Сверчок-булавоусец.
3861,Создай хайку о смерти,飼ひ置きし鈴虫死で庵淋し\n\nВыращенный мной \n Сверчок-булавоусец умер — \n В хижине пусто.
3862,Напиши хайку о ночи,松虫のなくや夜食の茶碗五器\n\nСверчки-мацумуси поют. \n Для ночной трапезы \n Пять чаш для чая.
3863,Создай хайку о темноте,すいつちよや闇に人ゐて立去れり\n\nПрилипни к земле! \n В темноте кто-то есть — \n И ушел прочь.


In [11]:
with open("mistral_haiku_dataset.jsonl", "w", encoding="utf-8") as f:
    for idx, row in df.iterrows():
        prompt = str(row["PROMPT"].strip())
        output = str(row["OUTPUT"].strip())
        item = {"messages":[
            {"role":"system", "content":"You're a multilinguall haiku-poetician who writes haiku in Japanese and provides Russian translation."},
            {"role":"user", "content":prompt},
            {"role":"assistant", "content":output}
        ]}
        f.write(json.dumps(item, ensure_ascii=False) + "\n")

In [5]:
df = pd.read_csv("haiku_ja_ru_dataset.csv")

In [6]:
df["RUSSIAN TRANSLATION"] = df["RUSSIAN TRANSLATION"].astype(str).apply(lambda x: re.sub(r"[\\/]+", "\n", re.sub(r"\s+", " ", x)).strip())

In [7]:
df

Unnamed: 0,PROMPT,JAPANESE HAIKU,RUSSIAN TRANSLATION
0,Напиши хайку о весне,春立つや昼の灯くらき山社,Пришла весна — \nи днём огонёк светильника \nв горном святилище тускл
1,Создай хайку о времени,筆を噛んでいまだ書かざる妹の春,Грызу кисть — \nи всё ещё не написано \nо весне сестры
2,Сочини хайку о природе,寝ごゝろやいづちともなく春は来ぬ,На сердце лёгкость — \nневедомо откуда \nприходит весна
3,Напиши хайку о снеге,オリヲンの真下春立つ雪の宿,Под Орионом \nнаступает весна — \nв снежном приюте
4,Создай хайку о временах года,元日の酔詫に来る二月かな,После новогоднего \nпьяного извинения приходит — \nфевраль
...,...,...,...
3860,Напиши хайку о насекомых,虫売や行燈の絵の轡虫,Продавец насекомых! \n На светильнике нарисованный \n Сверчок-булавоусец.
3861,Создай хайку о смерти,飼ひ置きし鈴虫死で庵淋し,Выращенный мной \n Сверчок-булавоусец умер — \n В хижине пусто.
3862,Напиши хайку о ночи,松虫のなくや夜食の茶碗五器,Сверчки-мацумуси поют. \n Для ночной трапезы \n Пять чаш для чая.
3863,Создай хайку о темноте,すいつちよや闇に人ゐて立去れり,Прилипни к земле! \n В темноте кто-то есть — \n И ушел прочь.


In [8]:
data = []
for idx, row in df.iterrows():
    ja = str(row["JAPANESE HAIKU"])
    ru = str(row["RUSSIAN TRANSLATION"])
    user_prompt = str(row["PROMPT"])
    item = {
        "messages": [
            {"role": "system", "content": "You are a japanese-russian billingual haiku poetician who writes a haiku in japanese and provides its russian translation." },
            {"role": "user", "content": f"{row['PROMPT']}"},
            {"role": "assistant", "content": f"{ja}\n\n{ru}"}
        ]
    }
    data.append(item)

In [9]:
data[:3]

[{'messages': [{'role': 'system',
    'content': 'You are a japanese-russian billingual haiku poetician who writes a haiku in japanese and provides its russian translation.'},
   {'role': 'user', 'content': 'Напиши хайку о весне'},
   {'role': 'assistant',
    'content': '春立つや昼の灯くらき山社\n\nПришла весна — \nи днём огонёк светильника \nв горном святилище тускл'}]},
 {'messages': [{'role': 'system',
    'content': 'You are a japanese-russian billingual haiku poetician who writes a haiku in japanese and provides its russian translation.'},
   {'role': 'user', 'content': 'Создай хайку о времени'},
   {'role': 'assistant',
    'content': '筆を噛んでいまだ書かざる妹の春\n\nГрызу кисть — \nи всё ещё не написано \nо весне сестры'}]},
 {'messages': [{'role': 'system',
    'content': 'You are a japanese-russian billingual haiku poetician who writes a haiku in japanese and provides its russian translation.'},
   {'role': 'user', 'content': 'Сочини хайку о природе'},
   {'role': 'assistant',
    'content': '寝ごゝろやいづ

In [10]:
with open("ja_ru_haiku_dataset.jsonl", "w", encoding="utf-8") as f:
    for d in data:
        json.dump(d, f, ensure_ascii=False)
        f.write("\n")