## Exploratory Data Analysis
In this notebook we will perform an exploratory data analysis on the dataset. We will load the data from the yaml and look at the distribution of the data.
Let's think, that only last message in the dialog is important for the task.

In [1]:
import yaml
import pandas as pd

# Let's define some functions to load and process the data
def load_data_from_yaml(file_path: str) -> list[dict]:
    """
    Load data from yaml file
    """
    with open(file_path, 'r', encoding='utf-8') as f:
        data = yaml.safe_load(f)
    return data

def history_to_string(history_list: list[dict]) -> str:
    """
    Convert a list of conversation dictionaries to a single string containing only the content and role.
    """
    return history_list[-1]['content']

def yaml_to_df(file_path: str) -> pd.DataFrame:
    """
    Convert yaml data to pandas dataframe.
    """
    data = load_data_from_yaml(file_path)
    df = pd.DataFrame(data)
    return df


In [2]:
df = yaml_to_df('../data/conversations.yaml')
df['history'] = df['history'].apply(history_to_string)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 116 entries, 0 to 115
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   history          116 non-null    object
 1   inquire_product  116 non-null    bool  
 2   messages_uuid    116 non-null    object
dtypes: bool(1), object(2)
memory usage: 2.1+ KB


Now we see, that we have only 116 conversations. It's not a lot, but I can use it for generating synthetic data.

In [3]:
df['inquire_product'].value_counts()

inquire_product
False    109
True       7
Name: count, dtype: int64

Also, we can see, that we have only 7 examples of "True" class. It's very low, so we need to generate more data for this class.

In [4]:
print(df[df['inquire_product'] == True]['history'])

21            какой процент жирности у сыра лёгкий?
22                    нужен с минимальной жирностью
40                    он точно без сахара? добавляй
49                        салфетки для машины есть?
56     найди мне вкусный фруктовый торт с маракуйей
83                             яйца есть подешевле?
90    Есть шоколад с низким гликемическим индексом?
Name: history, dtype: object


In [6]:
df['history']

0                    привет, добавь мне сок яблочный 1 л
1                              ещё добавь твикс батончик
2       добавь стиральный порошок ушастый нянь подешевле
3                                           добавь укроп
4                     перечисли всё что сейчас в корзине
                             ...                        
111    ну килограмм наверно не знаю трещина небольшая...
112                            да предложи варианты плиз
113                       давай закажем всё для шашлыков
114         Найди томатный сок и средство для мытья окон
115              давай сок добрый а для мытья окон спрей
Name: history, Length: 116, dtype: object