# Данные

In [1]:
import pandas as pd
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go


corp_col = '#40ba21'

df = pd.read_csv("Never Trust Summary Statistics.tsv", delimiter="\t")
df

Unnamed: 0,dataset,x,y
0,dino,55.384600,97.179500
1,dino,51.538500,96.025600
2,dino,46.153800,94.487200
3,dino,42.820500,91.410300
4,dino,40.769200,88.333300
...,...,...,...
1841,wide_lines,33.674442,26.090490
1842,wide_lines,75.627255,37.128752
1843,wide_lines,40.610125,89.136240
1844,wide_lines,39.114366,96.481751


# Домашнее задание 2

## Столбичная диаграма

In [2]:
# Подсчитайте количество вхождений каждого значения
df_counts = df['dataset'].value_counts().reset_index()
df_counts.columns = ['dataset', 'Количество']

# Создайте столбчатую диаграмму
fig = px.bar(df_counts, x='dataset', y='Количество', color_discrete_sequence=[ corp_col ])

# Настройте фон
fig.update_layout(plot_bgcolor='white')

# Покажите диаграмму
fig.show()


**Выводы**: Массив данных состоит из подгрупп равного размера по 140 значений. Всего 13 групп.

## Гистограмма распределений по переменной X

In [3]:
# Гистограмма
fig = px.histogram(df, x='x', color_discrete_sequence=[corp_col])

# Фон и подписи
fig.update_layout(
    plot_bgcolor='white',
    xaxis_title='Вещественная переменная X',
    yaxis_title='Количество'
)

fig.show()


**Выводы**: переменная X меняется в пределах от 0 до 100. Распределение неравномерное, мультимодальное, но есть одна ярковыраженная мода в диапазоне 50-52.

In [4]:
# Найти все категории
unique_datasets = df['dataset'].unique()

# Создать сетку для графиков
fig = make_subplots(rows=1, cols=len(unique_datasets), subplot_titles=unique_datasets)

# Добавить гистограму для каждой категории
for i, dataset in enumerate(unique_datasets):
    df_group = df[df['dataset'] == dataset]
    fig.add_trace(go.Histogram(x=df_group['x'], name=dataset, marker_color = corp_col), row=1, col=i+1)

fig.update_layout(showlegend=False)

fig.show()

**Выводы**: форма распределения переменной X сильно варьируется от категории к категории. В одних случаях распределения близки к нормальным (dino, h_lines, slant_down), в ряде случаев выглядят дискретными (v_lines, dots) или имеют сложную форму.

## Гистограмма распределений по переменной Y

In [5]:
# Гистограмма
fig = px.histogram(df, x='y', color_discrete_sequence=[corp_col])

# Фон и подписи
fig.update_layout(
    plot_bgcolor='white',
    xaxis_title='Вещественная переменная Y',
    yaxis_title='Количество'
)

fig.show()


**Выводы**: переменная Y меняется в пределах от 0 до 100. Распределение неравномерное, мультимодальное, но есть две ярковыраженных моды: в диапазоне 12.5-17.5 и в диапазоне 47.5-52.5.

In [6]:
# Найти все категории
unique_datasets = df['dataset'].unique()

# Создать сетку для графиков
fig = make_subplots(rows=1, cols=len(unique_datasets), subplot_titles=unique_datasets)

# Добавить гистограму для каждой категории
for i, dataset in enumerate(unique_datasets):
    df_group = df[df['dataset'] == dataset]
    fig.add_trace(go.Histogram(x=df_group['y'], name=dataset, marker_color = corp_col), row=1, col=i+1)

fig.update_layout(showlegend=False)

fig.show()

**Выводы**: форма распределения переменной Y сильно варьируется от категории к категории. В одних слуаях распределения близки к дискретными (h_lines, dots), в большинстве случаев имеют сложную форму.

## Точечная диаграмма 

In [7]:
# График разброса
fig = px.scatter(df, x='x', y='y', color_discrete_sequence=[corp_col], size_max=10)

# Фон и подписи
fig.update_layout(
    plot_bgcolor='white',
    xaxis_title='Вещественная переменная X',
    yaxis_title='Вещественная переменная Y'
)

fig.show()

**Выводы**: В целом значения по X и Y выглядят некоррелированными, неоднородными (наблюдается кластеризация).

## Тепловая карта

In [8]:
# Тепловая карта
fig = px.density_heatmap(
    df,
    x='x',
    y='y',
    nbinsx=10,  # Дискретизация по x
    nbinsy=10,  # Дискретизация по y
    color_continuous_scale=[(0, '#f0f8f0'), (1, corp_col)],  # Градиент к #40ba21
    title='Тепловая карта'
)

# Настраиваем макет
fig.update_layout(
    xaxis_title='X',
    yaxis_title='Y',
    coloraxis_colorbar=dict(title='Плотность')
)

fig.show()

**Выводы**: Наболее значимые кластеры значений наблюдаются в диапазоне:
1. $x\in[50,60],\ y\in[5,25]$
2. $x\in[50,60],\ y\in[75,95]$

# Общие выводы

Для корректного анализа значений X и Y необходимо учитывать категории, смешение всех значений в одну категорию может привести ошибочным результатам анализа.

In [9]:
# График разброса
fig = px.scatter(df, x='x', y='y', color='dataset', size_max=10)

# Фон и подписи
fig.update_layout(
    plot_bgcolor='white',
    xaxis_title='Вещественная переменная X',
    yaxis_title='Вещественная переменная Y'
)

fig.show()