In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Matplotlib. Построение графиков 

1. Постройте график функции $y=\dfrac{1}{1+e^{-x}}$ при $x\in [-6; 6]$.
2. Оформите предыдущий график: добавьте подписи к осям, название рисунка (в виде $\LaTeX$-формулы).
3. Попробуйте изменить некоторые основные параметры: цвет, тип линии, толщину линии, тип и размер маркера.
4. Постройте два графика в одной системе координат: 
    - $y=\dfrac{1}{1+e^{-x}}$; 
    - $y=\dfrac{x}{\sqrt{1+x^2}}$. 
    
    Отрезок построения $x\in[-2.5; 2.5]$. Параметры линий и рисунка задайте самостоятельно. Легенду расположите в правом нижнем углу.
5. Постройте два графика из предыдущего пункта в разных системах координат, расположив их 
    - рядом по горизонтали с общей осью $Oy$ (параметр **sharey=True**); 
    - один под другим с общей осью $Ox$ (параметр **sharex=True**).
    
    Настройте параметры рисунка: шрифты, размер, подписи, легенду.
6. Постройте график функции
$$
f(x)=\left\{\begin{array}{l} \sin (-2x), \quad x\in [-2\pi; 0],\\
x^2-x, \quad x\in[0; 5].\end{array}\right.
$$
7. Постройте график процесса **случайного блуждания**: начальное состояние $x_0=0$, далее для каждого $i=\overline{1, 100}$: $x_i=x_{i-1}+N(0, \sigma)$, где $N(0, \sigma)$ --- некоторое случайное число, взятое из нормального распределения со средним $\mu=0$ и стандартным отклонением $\sigma$. Значение $\sigma$ выбрать произвольно.
8. Постройте графики случайного процесса
    - $x_0=0$;
    - $x_{i}=\alpha x_{i-1}+N(0, 1)$, $i=\overline{1, 100}$
    
    при различных $\alpha: 1, 0.8, 0.6, 0.4, 0.2$. Графики отобразите в одной системе координат различными цветами. В легенде укажите значение $\alpha$.

In [None]:
# lineplot? scatterplot? barplot? boxplot? countplot?
x = np.linspace(-6, 6, 100)
y = 1 / (1 + np.exp(-x))
plt.plot(x, y)
plt.xlabel('x')
plt.ylabel('y')
plt.title(r'$y=\frac{1}{1+e^{-x}}$')
plt.show()

In [None]:
# цвет, тип линии, толщину линии, тип и размер маркера
x = np.linspace(-6, 6, 100)
y = 1 / (1 + np.exp(-x))
plt.plot(x, y, color='DarkSlateBlue', linestyle='--', linewidth=3, marker='v', markersize=10.5)
plt.xlabel('x')
plt.ylabel('y')
plt.title(r'$y=\frac{1}{1+e^{-x}}$')
plt.show()

In [None]:
x = np.linspace(-2.5, 2.5, 100)
y1 = 1 / (1 + np.exp(-x))
y2 = x / np.sqrt(1 + x**2)
plt.plot(x, y1, color='blue', label=r'$1/(1+e^{-x})$')
plt.plot(x, y2, color='green', linestyle='dotted', label=r'$x/\sqrt{1+x^2}$')

plt.xlabel('x')
plt.ylabel('y')
plt.legend(loc=4)
plt.show()

In [None]:
# по горизонтали
fig, ax = plt.subplots(1, 2, sharey=True, figsize=(10, 5))
ax[0].plot(x, y1, color='blue')
ax[1].plot(x, y2, color='green', linestyle='dotted')
ax[0].set_xlabel('x')
ax[0].set_ylabel('y')
ax[1].set_xlabel('x')
ax[1].set_ylabel('y')
ax[0].set_title(r'$y=1/(1+e^{-x})$')
ax[1].set_title(r'$y=x/\sqrt{1+x^2}$')
plt.show()

In [None]:
# по вертикали
fig, ax = plt.subplots(2, 1, sharex=True)
ax[0].plot(x, y1, color='blue')
ax[1].plot(x, y2, color='green', linestyle='dotted')
ax[0].set_xlabel('x')
ax[0].set_ylabel('y')
ax[1].set_xlabel('x')
ax[1].set_ylabel('y')
ax[0].set_title(r'$y=1/(1+e^{-x})$')
ax[1].set_title(r'$y=x/\sqrt{1+x^2}$')
plt.show()

In [None]:
x1 = np.linspace(-2*np.pi, 0, 100)
x2 = np.linspace(0, 5, 100)
y1 = np.sin(-2*x1)
y2 = x2**2 - x2
plt.plot(x1, y1, color='black')
plt.plot(x2, y2, color='black')
plt.xlabel('x')
plt.ylabel('y')
plt.show()

# Matplotlib. Визуализация числовых данных

In [None]:
import os
os.listdir('../input')

1. Загрузите набор данных **Cardiovascular Disease**. Обратите внимание, что при чтении в массив NumPy нужно пропустить строку-заголовок. 

2. Проверьте тип данных в массиве (атрибут **dtype**).

3. Визуализируйте распределение признака **age** наиболее подходящим образом. Что можно сказать об этом распределении?

4. Визуализируйте распределение признака **weight** наиболее подходящим образом. Много ли аномальных значений веса в датасете?

5. Визуализируйте пару признаков "рост" и "вес" в виде **scatter plot**. Настройте параметры.

6. Как отличается средний вес здоровых и больных пациентов? Визуализируйте ответ в виде **bar plot**.

7. Каково соотношение больных и здоровых в трёх различных группах по уровню холестерина? Визуализируйте ответ в виде **bar plot**.


In [None]:
df = pd.read_csv('../input/cardiovascular-disease-dataset/cardio_train.csv', sep=';')
df.head()

In [None]:
df.info()

In [None]:
df['age_years'] = np.floor(df['age'] / 365.25)
# lineplot? scatterplot? barplot? boxplot? countplot? hist? distplot?
sns.distplot(df['age_years'])
plt.show()

In [None]:
sns.boxplot(df['age_years'])
plt.show()

Визуализация показывает, что в выборке большинство людей в возрасте от 47 до 57 лет. Люди в возрасте около 30 лет встречаются крайне редко и считаются выбросами.

In [None]:
sns.boxplot(df['weight'])
plt.show()

Визуализация веса показала, что у нас много выбросов как в сторону аномально больших значений, так и в сторону малых. При этом многие выбросы, вероятнее всего, являются ошибками заполнения.

In [None]:
sns.boxplot(y='weight', data=df, x='cardio')
plt.show()

Здесь мы видим, что средний вес людей с заболеваниями немного выше, чем у здоровых. Косвенно может служить свидетельством (но не доказательством) тому, что лишний вес ведёт к склонности к сердечно-сосудистым заболеваниям.

In [None]:
sns.scatterplot(x='height', y='weight', data=df, alpha=0.5)
plt.show()

Визуализация показывает, что между ростом и весом, скорее всего, нет чётко выраженной корреляции. Также мы видим, что большинство значений роста и веса находятся около средних. Разброс по весу больше, чем разброс по росту.

In [None]:
sns.scatterplot(x='height', y='weight', data=df, alpha=0.5, hue='cardio')
plt.show()

Мы попытались отделить здоровых людей от больных, но визуализация плохо читаема. Лучше разделить на две картинки.

In [None]:
sns.relplot(x='height', y='weight', data=df, col='cardio', kind='scatter')
plt.show()

После разделения на два отдельных графика видно, что отличий между двумя группами по соотношению роста и веса не наблюдается.

In [None]:
mean_weight_0 = df[ df['cardio']==0 ]['weight'].mean()
mean_weight_1 = df[ df['cardio']==1 ]['weight'].mean()
plt.bar(height=[mean_weight_0, mean_weight_1], x=[0, 1])
plt.xticks(ticks=[0, 1], labels=['cardio=0', 'cardio=1'])
plt.ylabel('Average weight')
plt.show()

Столбчатая диаграмма показывает, что средний вес людей с СС-заболеваниями выше, чем у здоровых (это мы видели и ранее на boxplot'е).

In [None]:
sns.countplot(x="cholesterol", data=df, hue="cardio")
plt.show()

Визуализация показывает значимые различия в группах 1, 2 и 3 (уровень холестерина): соотношение количества здоровых и больных в группе с низким уровнем холестерина в пользу здоровых, в двух остальных группах --- в пользу больных (самое худшее соотношение наблюдается с группе 3 с высоким уровнем холестерина). 