# Практика 6

## Визуализация в seaborne

### Шаг 1. Импорт библиотек

```python
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
```

### Шаг 2. Загрузка набора данных
Загрузите набор данных `RuMedBench`$^1$ и поместите файл в ту же папку, что и файл с заданиями. Ссылка - [https://zenodo.org/record/5765873#.Ys7cNBNBziU]("https://zenodo.org/record/5765873#.Ys7cNBNBziU")

Структура набора данных:

    - `new_patient_id` – идентификатор пациента
    - `new_event_id` – идентификатор посещения
    - `new_event_time` – дата и время посещения
    - `symptoms` – жалобы пациента, внесённые врачём
    - `anamnesis` – анамнез пациента
    - `ICD10` – присвоенный диагноз по МКБ-10

---
$^1$ https://arxiv.org/abs/2201.06499

### Шаг 3. Загрузить набор данных в переменную `rmb`

Т.к. набор данных хранится в TSV-формате, то в методе `pd.read_csv()` помимо пути к файлу необходимо указать аргумент `sep='\t'` для указания использования символа табуляции вместо запятой при чтении структуры таблицы.

Пример:
```python
df = pd.read_csv("путь/к/файлу.tsv", sep="\t")
```

### Шаг 4. Получить информацию о наборе данных

### Шаг 5. Вывести случайные 10 значений

Пример:
```python
df.sample(10)
```

### Шаг 6. Привести типы данных к корректным

Пример:
```python
# Попытка автоматического приведения типов данных
df = df.convert_dtypes()
# Для дат и времени необходимо использовать специальную функцию
df["колонка_с_датами"] = pd.to_datetime(df["колонка_с_датами"])
```

### Шаг 7. Удостовериться, что все колонки имеют корректный тип данных

Пример: `df.dtypes`

### Шаг 8. Найти 10 самых частых диагнозов по МКБ-10 с симптомом 'головная боль'

Пример:
```python
df_icd10 = df.query("symptoms.str.lower().str.find('озноб') != -1").loc[:, "icd10"].value_counts().head(10).reset_index()
df_icd10
```

### Шаг 9. Построить столбчатую диаграмму по найденным на прошлом шаге данным

Метод `catplot()` является обёрткой над специализированными методами построения различных типов диаграмм. 
Тип диаграммы указывается в аргументе `kind` и может принимать значения: "strip", "swarm", "box", "violin", "boxen", "point", "bar", "count"/

Аргументы `x`, `y`, `hue` определяют какие из колонок датафрейма будут использоваться как отсчёты по соответствующим осям или в роли цветового индикатора группы/кластера на диаграмме. 

Пример:

```python
sns.catplot(
    data=df_icd10,
    x = "icd10",
    y = "count",
    kind = "bar"
)
```

### Шаг 10. Изменить внешний вид диаграммы

#### 10.1. Цветовая палитра
Светлые палитры начинаются с `light:`, тёмные палитры начинаются с `dark:`. Чтобы обратить порядок цветов, необходимо указать суффикс `_r`.

Пример:
1. Светло-зелёная палитра

```python
sns.catplot(
    data=df_icd10,
    x = "icd10",
    y = "count",
    kind = "bar",
    palette = "light:green"
)
```


2. Тёмно-синяя палитра
```python
sns.catplot(
    data=df_icd10,
    x = "icd10",
    y = "count",
    kind = "bar",
    palette = "dark:blue"
)
```


3. Тёмно-красная палитра с обратным порядком цветов
```python
sns.catplot(
    data=df_icd10,
    x = "icd10",
    y = "count",
    kind = "bar",
    palette = "dark:red_r"
)
```

#### 10.2. Изменить подпись осей

**По оси абсцисс:** нет подписи

**По оси ординат:** `"Случаев, ед."`

Пример:
```python
g = sns.catplot(
    data=df_icd10,
    x = "icd10",
    y = "count",
    kind="bar"
)

g.set_axis_labels("Подпись_по_оси_x", "Подпись_по_оси_y")

plt.show()
```

#### 10.3. Указать заголовок графика

**Текст заголовка:** "Наиболее частые диагнозы с симптомом головной боли"

Пример:
```python
g = sns.catplot(
    data=df_icd10,
    x = "icd10",
    y = "count",
    kind="bar"
)

g.set_axis_labels("", "Случаев, ед.")

plt.title("Наиболее частые диагнозы с симптомом 'озноб'")

plt.show()
```

#### 10.4. Изменить физический размер графика

По-умолчанию размеры задаются в дюймах aka [retard units](https://tononretard.com/), поэтому, для установки размеров изображения в сантиметрах, длины необходимо делить на 2.54.

Размеры задаются для объекта `Figure`, путём вызова методов `set_figheight()` для высоты, и, `set_figwidth()` для ширины.

**Примеры:**
1. Имперская система
```python
g = sns.catplot(
    data=df_icd10,
    x = "icd10",
    y = "count",
    kind="bar"
)

g.set_axis_labels("", "Случаев, ед.")

plt.title("Наиболее частые диагнозы с симптомом головной боли")
plt.gcf().set_figheight(5)
plt.gcf().set_figwidth(10)

plt.show()
```


2. Система СИ
```python
g = sns.catplot(
    data=df_icd10,
    x = "icd10",
    y = "count",
    kind="bar"
)

g.set_axis_labels("", "Случаев, ед.")

plt.title("Наиболее частые диагнозы с симптомом головной боли")
plt.gcf().set_figheight(12 / 2.54)
plt.gcf().set_figwidth(25 / 2.54)

plt.show()
```

### Шаг 11. Итоговый вид диаграммы

Постройте диаграмму 10 наиболее частых диагнозов по МКБ-10, в которых фигурирует симптом головной боли.
Используйте тёмно-красную цветовую палитру. Диаграмма должна иметь информативный заголовок и подписанные оси.
Размер диаграммы должен быть 15см х 32см