# <center> Готовим данные для файнтюнинга LLM 🦙 </center> 

## 🧑‍🎓 В этом уроке:
<img src='../images/lama_docs.webp' align="right" width="500" height="428" >

Разберем как подготовить датасет для файнтюнинга LLM и загрузим его на `HuggingFace`. <br>

В качестве источника данных скачаем все посты из Telegram-канала [Datafeeling](https://t.me/datafeeling), через который многие нашли этот курс. В дальнейшем, с помощью этого датасета зафайнтюним модель писать посты в стиле Алерона. <br>

**Чтобы скачать все посты любого публичного TG-канала:**
* в десктоп приложении Telegram переходим к канал
* нажимаем три точки
* выбираем - "Экспорт истории чата"
* там выбираем формат (HTML или json), путь куда сохраняем и какой контент канала хотим скачать
* получаем все посты в одном файле (в нашем случае json)

In [9]:
!pip install datasets langchain langchain-openai openai -q

In [None]:
# Для работы в Colab загрузите необходимые файлы!
!mkdir ../data/
!wget -P ../data https://raw.githubusercontent.com/a-milenkin/LLM_practical_course/main/data/result.json

In [2]:
import os
from getpass import getpass
import pandas as pd
import json
import warnings
warnings.filterwarnings('ignore')

## <center> 📥 Скачиваем и чистим датасет 🔄

In [3]:
# указываем путь к файлу, скаченному из телеграма
js_path = '../data/result.json'

# Load the JSON file
with open(js_path, 'r') as file:
    data = json.load(file)

# посмотрим на первое сообщение
data['messages'][2]

{'id': 3,
 'type': 'message',
 'date': '2021-03-21T20:26:01',
 'date_unixtime': '1616343961',
 'edited': '2021-04-11T00:37:28',
 'edited_unixtime': '1618087048',
 'from': '🏆 Data Feeling 🤹',
 'from_id': 'channel1457597091',
 'text': 'Всем привет!\n\nРешил запустить свой канал. Буду рассказывать здесь про свой опыт в Data Science и лайфхаки',
 'text_entities': [{'type': 'plain',
   'text': 'Всем привет!\n\nРешил запустить свой канал. Буду рассказывать здесь про свой опыт в Data Science и лайфхаки'}]}

<div class="alert alert-success">
    
Видим, что помимо текста поста в сообщениях содержится ещё много дополнительной информации. Для наших целей извлечём только тексты.

In [11]:
txt = []
for message in data['messages']:
    if isinstance(message['text'], str):
        txt.append(message['text'])
    else:
        temp_txt = ''
        for m in message['text']:
            if isinstance(m, str):
                temp_txt += m
            else:
                if isinstance(m, dict) and 'text' in m.keys():
                    temp_txt += m['text']
        txt.append(temp_txt)

In [16]:
df = pd.DataFrame({"text": txt})
df.head()

Unnamed: 0,text
0,
1,
2,Всем привет!\n\nРешил запустить свой канал. Бу...
3,Когда начинаешь погружаться в DS - начинаешь р...
4,#лайфхаки\nПоймал себя на периодическом подгля...


<div class="alert alert-success">
    
Видим, что есть посты без текстов - видео или картинки. <br>
Преобразуем датасет в нужный формат и почистим от пропусков.

In [18]:
df = pd.DataFrame({
    'Instruction': 'Write a post on the following topic', # Инструкция будет везде одинаковая
    'Input': '',                                # поле с темой поста пока оставим пустым
    'Response': [t for t in txt if len(t) != 0] # в Response записываем текст поста и убираем пустые строки
})

df.head()

Unnamed: 0,Instruction,Input,Response
0,Write a post on the following topic,,Всем привет!\n\nРешил запустить свой канал. Бу...
1,Write a post on the following topic,,Когда начинаешь погружаться в DS - начинаешь р...
2,Write a post on the following topic,,#лайфхаки\nПоймал себя на периодическом подгля...
3,Write a post on the following topic,,"Speed up'ал, speed up'аю и буду speed up'ать с..."
4,Write a post on the following topic,,"За этот месяц раз 5 услышал слово ""экстраполяц..."


In [19]:
# Получилось 587 постов с текстом.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 587 entries, 0 to 586
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Instruction  587 non-null    object
 1   Input        587 non-null    object
 2   Response     587 non-null    object
dtypes: object(3)
memory usage: 13.9+ KB


## <center> 🎭 Определяем тематику поста с помощью ChatGPT 🤖

Чтобы самим не заполнять поле input и не читать все 580 сообщений, определяя тему - попросим ЛЛМ сделать это за нас.

In [5]:
# Если используете ключ от OpenAI, запустите эту ячейку
from langchain_openai import ChatOpenAI

# os.environ['OPENAI_API_KEY'] = "Введите ваш OpenAI API ключ"
os.environ['OPENAI_API_KEY'] = getpass(prompt='Введите ваш OpenAI API ключ')

# инициализируем языковую модель
llm = ChatOpenAI(temperature=0.0)

In [15]:
# Если используете ключ из курса, запустите эту ячейку
from langchain_openai import ChatOpenAI

# course_api_key= "Введите ваш ключ, полученный в боте курса"
course_api_key = getpass(prompt="Введите ваш ключ, полученный в боте курса:")

# инициализируем языковую модель
llm = ChatOpenAI(api_key=course_api_key, model='gpt-4o-mini', 
                 base_url="https://aleron-llm.neuraldeep.tech/")

Введите ваш ключ, полученный в боте курса: ········


In [35]:
from tqdm import tqdm
tqdm.pandas()

# Функция для определения тематики поста. Примени её ко всему датасету.
def topic_extractor(text):
 
    answer = llm.invoke(f'Extract a phrase that best describes the topic of the following post. \n Post: {text}')
    return str(answer.content)

df['Input'] = df['Response'].progress_apply(topic_extractor)

100%|██████████| 587/587 [07:25<00:00,  1.32it/s]


In [20]:
df.head()

Unnamed: 0,Instruction,Input,Response
0,Write a post on the following topic,Запуск канала о Data Science,Всем привет!\n\nРешил запустить свой канал. Бу...
1,Write a post on the following topic,Простые примеры кода для новых методов/алгоритмов,Когда начинаешь погружаться в DS - начинаешь р...
2,Write a post on the following topic,Полезные расширения для работы с табличными да...,#лайфхаки\nПоймал себя на периодическом подгля...
3,Write a post on the following topic,Ways to speed up Pytorch training on Kaggle,"Speed up'ал, speed up'аю и буду speed up'ать с..."
4,Write a post on the following topic,Интерпретация моделей в машинном обучении,"За этот месяц раз 5 услышал слово ""экстраполяц..."


<div class="alert alert-success">
    
Видим, что модель отлично справилась с задачей - тематика хорошо определена.

In [36]:
# Сохраняем датасет
df.to_csv('../data/prepared_dataset.csv', index=False)

# <center> 📤 Загружаем датасет на HuggingFace 🤗

<div class="alert alert-success">
    
Теперь переходим на [HuggingFace](https://huggingface.co) и создаем новый датасет, затем в него подгружаем получившийся файл. <br>
Теперь датасет доступен всем по ссылке: https://huggingface.co/datasets/Ivanich/datafeeling_posts

In [12]:
# Попробуем его подгрузить прямо с HuggingFace
from datasets import load_dataset

dataset = load_dataset("Ivanich/datafeeling_posts")

In [13]:
dataset

DatasetDict({
    train: Dataset({
        features: ['Instruction', 'Input', 'Response'],
        num_rows: 587
    })
})

In [8]:
dataset['train'][0]

{'Instruction': 'Write a post on the following topic',
 'Input': 'Запуск канала о Data Science',
 'Response': 'Всем привет!\n\nРешил запустить свой канал. Буду рассказывать здесь про свой опыт в Data Science и лайфхаки'}

### <center> В следующем ноутбуке c помощью этого датасета будем файнтюнить Llama 3.1