In [1]:
from ftlangdetect import detect

def filter_dataset(dataset):
    # Detect language of responses
    dataset = dataset.map(
        lambda x: {
            "lang_detected": detect(
                text=x["responses"]["gen_prompts"].replace("\n", " "), low_memory=False
            ) if x["responses"] is not None and x["responses"]["gen_prompts"] is not None else None
        }, num_proc=12
    )
    # Remove instances where the text is None
    filtered_dataset = dataset.filter(
        lambda x: x["lang_detected"] is not None,
        num_proc=12
    )
    # Remove instances where the response did not finish
    filtered_dataset = filtered_dataset.filter(
        lambda x: x["responses"]["finish_reason"] == "stop",
        num_proc=12
    )
    # Remove instances where the detected language was English with confidence >0.8 but the original language was not English
    filtered_dataset = filtered_dataset.filter(
        lambda x: "English" in x["language"] or x["lang_detected"]["lang"] != "en" or x["lang_detected"]["score"] < 0.8,
        num_proc=12
    )
    return filtered_dataset

In [2]:
def make_dataset_training(dataset):
    return dataset.map(lambda x: {
        "conversations": [
            {"from": "human", "value": x["prompt_list"]},
            {"from": "gpt", "value": x["responses"]["gen_prompts"]},
        ]}, num_proc=12).select_columns(["conversations"])

In [3]:
from datasets import load_dataset
yagi_296_dataset = load_dataset(f"lightblue/yagi_297", split="train")
yagi_296_dataset = filter_dataset(yagi_296_dataset)
yagi_296_dataset = make_dataset_training(yagi_296_dataset)

In [28]:
yagi_296_dataset.push_to_hub("lightblue/tansei_yagi_296", private=True)

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/27 [00:00<?, ?ba/s]

CommitInfo(commit_url='https://huggingface.co/datasets/lightblue/tansei_yagi_296/commit/7598e1bf967981c60c66ee73bce6d3d10fe6734e', commit_message='Upload dataset', commit_description='', oid='7598e1bf967981c60c66ee73bce6d3d10fe6734e', pr_url=None, pr_revision=None, pr_num=None)

In [19]:
yagi_296_dataset

Dataset({
    features: ['conversations'],
    num_rows: 26914
})

In [27]:
yagi_296_dataset.shuffle()[0]

{'conversations': [{'from': 'human',
   'value': 'Como poddo imparà a sonare su launeddu?'},
  {'from': 'gpt',
   'value': "Imparare a suonare **su launeddu** (o **le launeddas**), uno strumento a fiato tradizionale della Sardegna, può essere una sfida ma anche un'esperienza molto gratificante. Segui questi passi per iniziare:\n\n### 1. **Acquisto dello strumento**\n- Acquista una launeddas di buona qualità. È opportuno iniziare con uno strumento per principianti che non sia troppo complicato da suonare.\n\n### 2. **Studio della teoria**\n- Familiarizza con la teoria musicale di base se non ne hai già conoscenza, poiché capire il solfeggio e le note ti aiuterà molto nel tuo apprendimento.\n\n### 3. **Trovare un maestro**\n- Se possibile, cerca un maestro che possa insegnarti in persona. La tradizione delle launeddas è spesso trasmessa oralmente e attraverso l'imitazione, quindi avere qualcuno che ti possa mostrare i passaggi può essere estremamente utile.\n\n### 4. **Sviluppare la resp

In [6]:
from datasets import load_dataset
yagi_59_dataset = load_dataset(f"lightblue/yagi_59", split="train")
yagi_59_dataset = filter_dataset(yagi_59_dataset)
yagi_59_dataset = make_dataset_training(yagi_59_dataset)

Map (num_proc=12):   0%|          | 0/236287 [00:00<?, ? examples/s]

Filter (num_proc=12):   0%|          | 0/236287 [00:00<?, ? examples/s]

Filter (num_proc=12):   0%|          | 0/226558 [00:00<?, ? examples/s]

Filter (num_proc=12):   0%|          | 0/225929 [00:00<?, ? examples/s]

Map (num_proc=12):   0%|          | 0/218840 [00:00<?, ? examples/s]

In [29]:
yagi_59_dataset.push_to_hub("lightblue/tansei_yagi_59", private=True)

Uploading the dataset shards:   0%|          | 0/2 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/110 [00:00<?, ?ba/s]

Creating parquet from Arrow format:   0%|          | 0/110 [00:00<?, ?ba/s]

CommitInfo(commit_url='https://huggingface.co/datasets/lightblue/tansei_yagi_59/commit/6c933c8434eb45e07bb409d5bc25295f61293689', commit_message='Upload dataset', commit_description='', oid='6c933c8434eb45e07bb409d5bc25295f61293689', pr_url=None, pr_revision=None, pr_num=None)

In [21]:
yagi_59_dataset

Dataset({
    features: ['conversations'],
    num_rows: 218840
})

In [23]:
yagi_59_dataset.shuffle()[0]

{'conversations': [{'from': 'human',
   'value': 'Explique-moi le modèle fractale utilisé dans la finance actuelle'},
  {'from': 'gpt',
   'value': "Le modèle fractal en finance est une méthode d'analyse qui utilise des concepts de géométrie fractale pour étudier les marchés financiers. Contrairement aux modèles traditionnels qui souvent supposent que les prix des actifs suivent une distribution normale avec des variations prévisibles, les modèles fractals tiennent compte de la nature erratique et complexe des marchés.\n\n### Principes de Base des Fractals\n\n1. **Auto-similarité**: Les fractals sont des structures répétitives à différentes échelles. En finance, cela signifie que les comportements des prix peuvent être similaires sur différentes périodes de temps, que ce soit sur des minutes, des heures, des jours, ou des années.\n\n2. **Complexité et Irrégularité**: Les modèles fractals reconnaissent que les mouvements de prix sont irréguliers et souvent imprévisibles, contredisant l'