# Введение в Pandas

In [None]:
import numpy as np  
import pandas as pd  
import seaborn as sns
import matplotlib.pyplot as plt

sns.set_theme()

## Загрузка данных
Загрузим набор данных Titanic

In [None]:
!wget https://github.com/epidersis/moodle_data_analysis_repo/raw/main/2.6.1_viz/Titanic-Dataset.csv

In [None]:
titanic_df = pd.read_csv("Titanic-Dataset.csv")
titanic_df.head()

## Графики распределения
### Гистограмма
Гистограмма - это тип графика, отображающего распределение числовой переменной. Она делит данные на диапазоны или интервалы и подсчитывает, сколько наблюдений попадает в каждый диапазон. Например, если мы хотим представить распределение возраста всех пассажиров, мы можем использовать гистограмму, чтобы увидеть, сколько пассажиров попадает в каждую корзину. Гистограмма может помочь нам понять форму, центр и разброс данных, а также выявить любые провалы и пропуски. Допустим, вы хотите получить распределение `total_rooms`, тогда вы можете использовать его график.

In [None]:
sns.histplot(titanic_df["Age"])

plt.show()

Можно заметить, что большинство пассажиров - это молодые люди, а пожилых людей очень мало.

Вы также можете задать желаемое количество контейнеров:

In [None]:
sns.histplot(titanic_df["Age"], bins=10)

plt.show()

Видно, что теперь здесь всего 10 контейнеров, и каждый из них разделен с интервалом в 10. Таким образом, можно заметить, что большинство пассажиров относится к возрастной группе 20-40 лет.

В дальнейшем будем использовать California Housing Dataset, поскольку Titanic Dataset не очень подходит для некоторых графиков, которые мы будем строить далее.

In [None]:
!wget https://github.com/epidersis/moodle_data_analysis_repo/raw/main/2.6.1_viz/housing.csv

In [None]:
df = pd.read_csv("housing.csv")

In [None]:
df.head()

## Совместный график
Совместная диаграмма - это тип диаграммы, показывающей взаимосвязь между двумя переменными. Он объединяет диаграмму рассеяния и гистограмму для каждой переменной.

Например, можно использовать совместную диаграмму для визуализации взаимосвязи между общим количеством спален и количеством домохозяйств в наборе данных Калифорнии. Диаграмма рассеяния показывает, как коррелируют эти две переменные, а гистограммы - распределение каждой переменной. Создать совместную диаграмму можно с помощью библиотеки seaborn в Python. Ниже приведен пример кода:

In [None]:
sns.jointplot(x="total_bedrooms", y="households", data=df)
plt.show()

Видно, что чем больше общее количество спален, тем больше количество домохозяйств.

Можно также изменить вид совместного графика. Допустим, вы хотите получить линию регрессии, а не просто диаграмму рассеяния, тогда используйте параметр `kind`.

In [None]:
sns.jointplot(x="total_bedrooms", y="households", data=df, kind='reg')

## Парный график
Парная диаграмма - это способ визуализации взаимосвязей между несколькими переменными в наборе данных. Она представляет собой диаграмму рассеяния для каждой пары переменных и гистограмму для каждой переменной по диагонали. С помощью парных диаграмм можно исследовать закономерности и корреляции в данных.

Например, с помощью парной диаграммы можно проанализировать набор данных по жилью в Калифорнии, который содержит информацию о медианной стоимости дома, медианном доходе, численности населения и других характеристиках для различных районов Калифорнии. Парная диаграмма может показать, как эти переменные связаны друг с другом и какие из них наиболее важны для прогнозирования стоимости дома.

In [None]:
sns.pairplot(df)

## Категориальные графики
## Гистограммы
Гистограмма - это тип графического изображения, отображающий связь между числовой и категориальной переменными. Каждая категория представлена прямоугольной полосой, высота или длина которой пропорциональна числовому значению. Гистограмма может также показывать распределение значений внутри каждой категории, используя различные цвета или узоры для обозначения подгрупп.

Предположим, мы хотим сравнить медианную стоимость дома в разных категориях близости к океану. Мы можем создать гистограмму, используя следующий код:

In [None]:
sns.barplot(x='ocean_proximity', y='median_house_value', data=df)

plt.show()

Мы видим, что в районах, расположенных вблизи океана, медианная стоимость домов выше, чем в районах, расположенных в глубине материка (не на острове). Мы также видим полосы ошибок, которые указывают на доверительные интервалы для каждой категории. Доверительные интервалы рассчитаны с помощью бутстрапинга - статистического метода, позволяющего оценить изменчивость выборочной статистики.

## График подсчета
График подсчета - это тип столбчатого графика, который показывает количество наблюдений в каждой категориальной ячейке. Она может быть полезна для визуализации распределения категориальной переменной или сравнения частот различных групп.

Например, с помощью Countplot можно показать, сколько домов в наборе данных по жилью в Калифорнии имеют различные значения близости к океану. Для этого необходимо импортировать библиотеки seaborn и matplotlib, загрузить набор данных и использовать функцию `sns.countplot()` с параметрами `data` и `x`. Ниже приведен код, позволяющий это сделать:

In [None]:
sns.countplot(data=df, x="ocean_proximity")
plt.show()

Мы видим, что большинство домов расположено на внутренней территории, далее следуют <1H OCEAN, NEAR OCEAN и NEAR BAY. В категории ISLAND находится очень мало домов.

## Box plot
Box plot - это способ отображения распределения числовой переменной. В нем используется прямоугольная рамка, представляющая средние 50% данных, и "усы", показывающие диапазон остальных данных. Линия внутри рамки - это медиана, или среднее значение данных. Графическая диаграмма может помочь сравнить различные группы данных и выявить провалы. Например, если у вас есть набор данных о ценах на жилье в Калифорнии, вы можете использовать боксплот, чтобы увидеть, как цены различаются по регионам или по типам домов.

In [None]:
sns.boxplot(data=df, x="ocean_proximity", y="median_house_value")

- Линия внутри прямоугольника представляет собой медиану или `50-й процентиль`, что означает, что 50% данных лежит ниже этого значения и 50% данных лежит выше этого значения.

- Верхний конец прямоугольника на графике представляет собой `75-й процентиль` или третий квартиль, что означает, что 25% данных находится выше этого значения и 75% данных находится ниже этого значения.

- Нижний конец прямоугольника представляет собой `25-й процентиль` или `первый квартиль`, что означает, что 25% данных находится ниже этого значения и 75% данных находится выше этого значения.

## Скрипичный график
Скрипичный график - это тип диаграммы, показывающей распределение числовой переменной для различных категорий. Он сочетает в себе бокс-график и график плотности ядра, который показывает форму данных с помощью плавной кривой. График скрипки может помочь нам сравнить, как изменяются значения переменной в разных группах.

Например, мы можем использовать график скрипки для сравнения медианной стоимости домов в различных регионах Калифорнии, используя набор данных по жилью в Калифорнии. Этот набор данных содержит информацию о 20 640 переписных блоках Калифорнии, такую как численность населения, доходы и стоимость домов. Мы можем использовать библиотеку seaborn в Python для создания скрипичного графика с помощью следующего кода:

In [None]:
sns.violinplot(x="ocean_proximity", y="median_house_value", data=df)

Мы видим, что медианная стоимость дома выше для кварталов, расположенных вблизи океана или залива, чем для кварталов, расположенных в глубине материка или на острове. Мы также видим, что стоимость домов в кварталах, расположенных вблизи залива, варьируется в большей степени, чем в других категориях.

## Матричные графики
## Тепловые карты
Тепловые карты - это отличный способ визуализации корреляций между переменными. Они представляют собой графическое изображение данных, в котором отдельные значения, содержащиеся в матрице, представлены в виде цветов. Тепловые карты полезны для визуализации сложных наборов данных и выявления закономерностей, которые могут быть не сразу заметны в таблице или электронной таблице.

In [None]:
plt.figure(figsize=(12,8))

# избавляемся от ocean_proximity, так как это не числа, а категории
# хорошей корреляции / зависимости между ними не построить
df_corr = df.drop(columns='ocean_proximity').corr()

sns.heatmap(df_corr, annot=True)

- Для изменения размера фигуры мы используем `plt.figure()`, это то же самое, что мы делали в учебнике matplotlib 101.

- Затем для построения тепловой карты необходимо создать кадр данных, состоящий из корреляции каждой пары столбцов. Для поиска корреляции используется функция `.corr()`.

- `.heatmap()` берет кадр данных и строит тепловую карту.

- Использовался параметр `annot`, чтобы увидеть значение корреляции для каждой пары внутри тепловой карты.

## Стилизация фигур Seaborn
В этом разделе мы снова будем использовать набор данных titanic.

## Импорт данных

In [None]:
!wget https://github.com/epidersis/moodle_data_analysis_repo/raw/main/2.6.1_viz/Titanic-Dataset.csv

In [None]:
df = pd.read_csv("Titanic-Dataset.csv")

## Окрас
Одним из параметров, принимаемых seaborn, является hue, который можно использовать для группировки данных по категориальной переменной и присвоения каждой группе различных цветов. Например, если у нас есть набор данных о ценах на жилье в Калифорнии, мы можем использовать hue для отображения медианной стоимости дома в зависимости от близости к океану.

Чтобы использовать hue в seaborn, в качестве аргумента hue необходимо указать имя столбца, содержащего категориальную переменную. Также необходимо указать столбец, содержащий числовую переменную, в качестве аргумента x или y, в зависимости от типа графика, который мы хотим создать. Например, если мы хотим создать гистограмму медианной стоимости домов в зависимости от близости океана, то можно использовать следующий код:

In [None]:
# Создать гистограмму "Пол", используя "Выжившие" в качестве оттенка
sns.countplot(x='Sex', hue='Survived', data=df)

На этом графике видно, что выжило больше самок, чем самцов, а умерло больше самцов, чем самок. Параметр hue добавляет цветовое измерение к графику на основе столбца survived, который имеет два значения: 0 (умер) и 1 (выжил).

С помощью параметра hue можно также показать распределение непрерывной переменной по категориальной переменной. Например, построим график скрипки, показывающий распределение возраста по полу и статусу выживания:

In [None]:
sns.violinplot(x='Sex', y='Age', hue='Survived', data=df)

На этом графике видно, что выживаемость молодых самок выше, чем выживаемость старых самок, а выживаемость старых самцов ниже, чем выживаемость молодых самцов. Параметр hue разделяет график скрипки по столбцу выживших, создавая две скрипки для каждого пола.

Наконец, с помощью параметра hue можно показать связь между двумя категориальными переменными с помощью третьей категориальной переменной. Например, построим гистограмму, показывающую долю выживших пассажиров в зависимости от пола и класса:

In [None]:
sns.barplot(x='Sex', y='Survived', hue='Pclass', data=titanic_df)

На этом графике видно, что выживаемость женщин выше, чем выживаемость мужчин во всех классах, а выживаемость пассажиров первого класса выше, чем пассажиров второго и третьего классов. Параметр hue добавляет к гистограмме третье измерение, основанное на столбце class, который имеет три значения: First, Second и Third.

Таким образом, параметр hue - это полезный параметр, который может добавить цвет и глубину графику, построенному на основе другой категориальной переменной. Он может использоваться с различными типами графиков, такими как графики подсчета, графики скрипок и столбчатые графики. Он может помочь нам лучше изучить и понять данные, выделяя закономерности и различия между группами.

## Стили рисунков
Существует пять предустановленных тем seaborn: `darkgrid`, `whitegrid`, `dark`, `white` и `ticks`. Каждая из них подходит для различных приложений и личных предпочтений. По умолчанию используется тема `darkgrid`. Я предпочитаю `darkgrid`, так как она создает ощущение темного режима.

In [None]:
sns.set_style("darkgrid")

sns.violinplot(x='Sex', y='Age', hue='Survived', data=titanic_df)

## Subplots
Одной из особенностей seaborn является возможность создания subplots, представляющих собой несколько графиков на одном рисунке. Подплоты могут быть полезны при сравнении различных аспектов набора данных или для отображения различных уровней категориальной переменной.

С помощью seaborn мы создадим две подплощадки: одну, показывающую распределение возраста по статусу выживания, и другую, показывающую количество пассажиров по классу и полу.

Для создания подплотов в seaborn необходимо использовать класс FacetGrid, который создает сетку осей для построения условных зависимостей. Конструктор FacetGrid принимает кадр данных и один или несколько аргументов, задающих способ разбиения данных на различные подплощадки. Например, с помощью аргумента col можно создать подплощадки, основанные на категориальной переменной, такой как пол. Затем с помощью метода map мы можем применить функцию построения к каждой подплощадке. Например, мы можем использовать sns.distplot для построения графика распределения возраста.

В приведенном ниже коде показано, как создать FacetGrid с двумя подплощадками на основе пола и построить график распределения возраста по статусу выживания с помощью sns.distplot:

In [None]:
# Создать фасетную сетку с двумя столбцами по признаку пола
g = sns.FacetGrid(data=titanic_df, col='Sex')
# Сопоставление sns.distplot с каждой подплощадкой с возрастом в качестве x и выжившими в качестве оттенка
g.map(sns.histplot, 'Age', kde=False, palette='Set1')
# Добавление легенды и настройка макета
g.add_legend()
g.tight_layout()

Мы видим, что как в мужской, так и в женской категории большинство пассажиров - молодые люди, среди них нет женщин старше 60 лет, но есть пассажиры-мужчины старше 60 лет.

# Погружаемся глубже в Seaborn

In [None]:
# Импорт seaborn
import seaborn as sns

# Применить тему по умолчанию
sns.set_theme()

# Загрузить набор данных для примера
tips = sns.load_dataset("tips")

# Создать визуализацию
sns.relplot(
    data=tips,
    x="total_bill", y="tip", col="time",
    hue="smoker", style="smoker", size="size",
)

Этот график показывает взаимосвязь между пятью переменными в наборе данных tips с помощью одного вызова функции seaborn `relplot()`. Обратите внимание, что мы указали только имена переменных и их роли в графике. В отличие от прямого использования matplotlib, не было необходимости указывать атрибуты элементов графика в виде значений цвета или кодов маркеров. За кулисами seaborn выполнил трансляцию значений в датафрейме в аргументы, понятные matplotlib. Такой декларативный подход позволяет сосредоточиться на вопросах, на которые вы хотите получить ответы, а не на деталях управления matplotlib.

Функция `relplot()` названа так потому, что она предназначена для визуализации множества различных статистических зависимостей. Хотя диаграммы рассеяния часто бывают эффективными, отношения, в которых одна из переменных представляет собой меру времени, лучше изображать линией. Функция `relplot()` имеет удобный параметр `kind`, позволяющий легко переключиться на это альтернативное представление:


In [None]:
dots = sns.load_dataset("dots")
sns.relplot(
    data=dots, kind="line",
    x="time", y="firing_rate", col="align",
    hue="choice", size="coherence", style="choice",
    facet_kws=dict(sharex=False),
)

Обратите внимание, что параметры `size` и `style` используются как в диаграммах рассеяния, так и в линейных диаграммах, но влияют на эти две визуализации по-разному: изменяют площадь маркера и символ в диаграмме рассеяния и ширину линии и штрих в линейной диаграмме. Нам не нужно помнить об этих деталях, что позволяет сосредоточиться на общей структуре графика и той информации, которую мы хотим передать с его помощью.

### Статистическая оценка

Часто нас интересует среднее значение одной переменной в зависимости от других переменных. Многие функции seaborn автоматически выполняют статистические оценки, необходимые для ответа на эти вопросы:

In [None]:
fmri = sns.load_dataset("fmri")
sns.relplot(
    data=fmri, kind="line",
    x="timepoint", y="signal", col="region",
    hue="event", style="event",
)

При оценке статистических величин seaborn использует бутстреппинг для вычисления доверительных интервалов и построения полос ошибок, отражающих неопределенность оценки.

Статистические оценки в seaborn выходят за рамки описательной статистики. Например, с помощью функции `lmplot()` можно улучшить диаграмму рассеяния, включив в нее модель линейной регрессии (и ее неопределенность):

In [None]:
sns.lmplot(data=tips, x="total_bill", y="tip", col="time", hue="smoker")

## Представления распределений
Статистический анализ требует знаний о распределении переменных в наборе данных. Функция seaborn `displot()` поддерживает несколько подходов к визуализации распределений. Это и классические методы, такие как гистограммы, и вычислительно трудоемкие подходы, такие как оценка плотности ядра:

In [None]:
sns.displot(data=tips, x="total_bill", col="time", kde=True)

Seaborn также старается популяризировать такие мощные, но менее привычные методы, как вычисление и построение эмпирической кумулятивной функции распределения данных:

In [None]:
sns.displot(data=tips, kind="ecdf", x="total_bill", col="time", hue="smoker", rug=True)

## Графики для категориальных данных
Несколько специализированных типов графиков в seaborn ориентированы на визуализацию категориальных данных. Доступ к ним можно получить с помощью функции `catplot()`. Эти графики предлагают различные уровни детализации. На самом мелком уровне вы можете увидеть каждое наблюдение, построив график "роя": диаграмму рассеяния, в которой положение точек вдоль категориальной оси регулируется таким образом, чтобы они не перекрывались:

In [None]:
sns.catplot(data=tips, kind="swarm", x="day", y="total_bill", hue="smoker")

В качестве альтернативы можно использовать оценку плотности ядра для представления базового распределения, из которого отбираются точки:

In [None]:
sns.catplot(data=tips, kind="violin", x="day", y="total_bill", hue="smoker", split=True)

Или можно показать только среднее значение и его доверительный интервал в каждой вложенной категории:

In [None]:
sns.catplot(data=tips, kind="bar", x="day", y="total_bill", hue="smoker")

## Многомерные представления сложных наборов данных
Некоторые функции seaborn объединяют несколько видов графиков для быстрого получения информативной сводки по набору данных. Одна из них, `jointplot()`, фокусируется на одной взаимосвязи. Она строит график совместного распределения двух переменных вместе с маргинальным распределением каждой переменной:

In [None]:
penguins = sns.load_dataset("penguins")
sns.jointplot(data=penguins, x="flipper_length_mm", y="bill_length_mm", hue="species")

Другая функция, `pairplot()`, использует более широкий подход: она показывает совместные и маргинальные распределения для всех парных связей и для каждой переменной соответственно:

In [None]:
sns.pairplot(data=penguins, hue="species")

## Инструменты нижнего уровня для построения фигур
Эти инструменты работают путем объединения функций черчения на уровне осей с объектами, которые управляют компоновкой фигуры, связывая структуру набора данных с сеткой осей. Оба элемента являются частью общедоступного API, и вы можете использовать их напрямую для создания сложных фигур с помощью всего нескольких строк кода:

In [None]:
g = sns.PairGrid(penguins, hue="species", corner=True)
g.map_lower(sns.kdeplot, hue=None, levels=5, color=".2")
g.map_lower(sns.scatterplot, marker="+")
g.map_diag(sns.histplot, element="step", linewidth=0, kde=True)
g.add_legend(frameon=True)
g.legend.set_bbox_to_anchor((.61, .6))

## Гибкая настройка
Seaborn создает полноценные графики с помощью одного вызова функции: когда это возможно, его функции автоматически добавляют информативные метки осей и легенды, поясняющие смысловые отображения на графике.

Во многих случаях Seaborn также выбирает значения по умолчанию для своих параметров, основываясь на характеристиках данных. Например, в рассмотренных нами цветовых отображениях используются различные оттенки (синий, оранжевый, иногда зеленый) для представления различных уровней категориальных переменных, которым присвоен `hue` (оттенок). При отображении числовой переменной некоторые функции переходят на непрерывный градиент:

In [None]:
sns.relplot(
    data=penguins,
    x="bill_length_mm", y="bill_depth_mm", hue="body_mass_g"
)

Когда вы будете готовы поделиться своей работой или опубликовать ее, вам, вероятно, захочется отполировать ее до блеска, не ограничиваясь тем, что задано по умолчанию. Seaborn допускает несколько уровней настройки. Он определяет несколько встроенных тем, которые применяются ко всем фигурам, его функции имеют стандартные параметры, которые могут изменять семантическое отображение для каждого графика, а дополнительные аргументы в виде ключевых слов передаются нижележащим исполнителям matplotlib, что дает еще больше возможностей для управления. После создания графика его свойства могут быть изменены как с помощью API seaborn, так и путем спуска на уровень matplotlib для более тонкой настройки:

In [None]:
sns.set_theme(style="ticks", font_scale=1.25)
g = sns.relplot(
    data=penguins,
    x="bill_length_mm", y="bill_depth_mm", hue="body_mass_g",
    palette="crest", marker="x", s=100,
)
g.set_axis_labels("Bill length (mm)", "Bill depth (mm)", labelpad=10)
g.legend.set_title("Body mass (g)")
g.figure.set_size_inches(6.5, 4.5)
g.ax.margins(.15)
g.despine(trim=True)

# Самостоятельное исследование

Далее приведены ссылки на датасеты на сайте Kaggle. Вы можете использовать эти ссылки для ознакомления с назначением приведенных датасетов. На страницах приведены описания каждого датасета.

Скачивать датасеты не требуется - датасеты можно загрузить с помощью трех команд ниже.

---

Набор данных по диабету

https://www.kaggle.com/datasets/akshaydattatraykhare/diabetes-dataset/data

Самые транслируемые песни Spotify в 2023 году

https://www.kaggle.com/datasets/nelgiriyewithana/top-spotify-songs-2023/data

Последние данные Covid-19 по штатам Индии

https://www.kaggle.com/datasets/anandhuh/latest-covid19-india-statewise-data

In [None]:
# Covid-19
!wget https://github.com/epidersis/moodle_data_analysis_repo/raw/main/2.6.1_viz/seaborn_datasets/Latest%20Covid-19%20India%20Status.csv

In [None]:
# Диабет
!wget https://github.com/epidersis/moodle_data_analysis_repo/raw/main/2.6.1_viz/seaborn_datasets/diabetes.csv

In [None]:
# Spotify
!wget https://github.com/epidersis/moodle_data_analysis_repo/raw/main/2.6.1_viz/seaborn_datasets/spotify-2023.csv

In [None]:
# пример открытия
df = pd.read_csv('spotify-2023.csv', encoding='cp1251')
df.head()

## Небольшой момент относительно датасетов

Чаще всего в наборах данных есть один признак(иногда несколько), понятие которого вам известно просто как колонка или столбец в датасете, который является `выходным`. То есть его можно предсказывать на основе всех других признаков (колонок), представленных в наборе данных.

Например, на основе возраста и времени, проведенного в тренажерном зале, можно пытаться предсказывать уровень физической силы человека. Здесь возраст и время - это своего рода "входные" признаки, а "сила" - выходной. Как зависимость в функциях типа z = x ^ 2 + y, только позаковыристее.

Конечно, на деле целевой переменной может стать любой признак, приведенный в датасете. Цель всегда определяется контекстом задачи.

## Боевая задача

В вашем распоряжении имеется 3 набора данных. Выберете один из них. Вам необходимо:
- разобраться в том, что представляют собой данные. Используйте pandas или ссылки выше для получения информации о датасете. Опишите ваши наблюдения на тему назначения датасета и особенностей приведенных в них данных. Например:
    - Данные о чем?
    - Какие там есть колонки?
    - Могут ли одни колонки коррелировать (иметь зависимость) с другими?
    - Какая у датасета может быть выходная (целевая) переменная?
    - Как на целевую переменную влияют другие признаки?
    - Есть ли пропущенные данные в наборе данных?
    - Есть ли какие-то подозрительно выбивающиеся значения в колонках? Например, в колонке возраст вдруг встречается значение 254
    - и другие вопросы, которые вы посчитаете значимыми

- построить на их основе визуализации. Постарайтесь найти применение большинству типов графиков, что приведены выше в данном блокноте:
    - построить визуализации
    - сопроводить их комментариями
- сделать вывод на тему того, как проведенные построения помогают в понимании данных, а также зачем это может понадобиться

---

По возможности возьмите еще один набор данных на рассмотрение. Перед тем, как переходить к следующему, проконсультируйтесь с преподавателем по поводу корректности и достоверности проведения построений и сделанных выводов.