<a href="https://colab.research.google.com/github/A-l-E-v/ML-Engineer/blob/main/Lesson_3_5_(Statistics).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme(style="darkgrid")

## 1. Координатная функция (regplot)

*   Новый пункт
*   Новый пункт



In [None]:
data_auto = sns.load_dataset('mpg')

In [None]:
data_auto.head()

In [None]:
fig, ax = plt.subplots()
sns.regplot(data=data_auto, x="horsepower", y="acceleration", ax=ax)
ax.set_title('Acceleration vs. horsepower', size=15)
plt.show()

In [None]:
# можем попробовать восстановить нелинейную зависимость
fig, ax = plt.subplots()
sns.regplot(data=data_auto, x="horsepower", y="acceleration", order=1.5, ax=ax)
ax.set_title('Acceleration vs. horsepower (quadratic order regression)', size=15)
plt.show()

In [None]:
# можем попробовать использовать регрессию на логарифм феличины
fig, ax = plt.subplots()
sns.regplot(data=data_auto, x="horsepower", y="acceleration", logx=True, ax=ax)
ax.set_title('Acceleration vs. horsepower (regression of log x)', size=15)
plt.show()

In [None]:
!pip install statsmodels

In [None]:
# можно использовать локальное сглаживание
fig, ax = plt.subplots()
sns.regplot(data=data_auto, x="horsepower", y="acceleration", lowess=True, ax=ax)
ax.set_title('Acceleration vs. horsepower (smoothed)', size=15)
plt.show()

In [None]:
# можно также производить логистическую регрессию
fig, ax = plt.subplots()
sns.regplot(x=data_auto["mpg"], y=data_auto["origin"].eq("europe").rename("probability"), logistic=True)
ax.set_title('Probability of auto being from Europe (log regression)', size=15)
plt.show()

In [None]:
# можем строить регрессию, устойчивую к выбросам
fig, ax = plt.subplots()
sns.regplot(data=data_auto, x="horsepower", y="acceleration", line_kws={'label': 'regression'},
            ax=ax, label='ordinary')
sns.regplot(data=data_auto, x="horsepower", y="acceleration", robust=True, scatter=False,
            ax=ax, label='robust')
handles, labels = ax.get_legend_handles_labels()
print(handles)
print(labels)
ax.set_title('Acceleration vs. horsepower (robust regression)', size=15)
ax.legend(handles=[tuple(handles[:2]), handles[2]], labels=[labels[0], labels[2]])
plt.show()

In [None]:
# можем убрать доверительный интервал (станет быстрее)
fig, ax = plt.subplots()
sns.regplot(data=data_auto, x="horsepower", y="acceleration", ci=None, ax=ax)
ax.set_title('Acceleration vs. horsepower', size=15)
plt.show()

In [None]:
# можем делать регрессию на категориальные величины
fig, ax = plt.subplots()
sns.regplot(data=data_auto, x="model_year", y="acceleration", x_jitter=.15, ax=ax)
ax.set_title('Acceleration vs. model year release', size=15)
plt.show()

In [None]:
# можем делать регрессию на агрегированные категориальные величины
fig, ax = plt.subplots()
sns.regplot(data=data_auto, x="model_year", y="acceleration", x_estimator=np.median, ax=ax)
ax.set_title('Acceleration vs. model year release', size=15)
plt.show()

In [None]:
# можем делать регрессию на агрегированные непрерывные величины, предварительно разбив по бинам
fig, ax = plt.subplots()
sns.regplot(data=data_auto, x="horsepower", y="acceleration", x_bins=np.arange(50, 225, 15), x_ci=90,
            robust=True, ax=ax)
ax.set_title('Acceleration vs. horsepower (robust, aggregated)', size=15)
plt.show()

In [None]:
# можем кастомизировать внешний вид графика
fig, ax = plt.subplots()
sns.regplot(data=data_auto, x="horsepower", y="acceleration", ci=99.7, marker="x", color="r",
            scatter_kws={'s': 12.5},
            line_kws={'color': "g", 'lw': 2},
           )
ax.set_title('Acceleration vs. horsepower (stylized)', size=15)
plt.setp(ax.collections[1], alpha=0.5)
plt.show()

## 2. Рисуночная функция (lmplot)

In [None]:
# lmplot по умолчанию
lp = sns.lmplot(data=data_auto, x="horsepower", y="acceleration", aspect=1.25)
lp.fig.suptitle('Acceleration vs. horsepower', fontsize=15, x=0.55)
lp.fig.subplots_adjust(top=0.9)
plt.show()

In [None]:
# разделение по цветам
lp = sns.lmplot(data=data_auto, x="horsepower", y="acceleration", hue='origin',
                scatter_kws={'alpha': .3},
                aspect=1.25)
lp.fig.suptitle('Acceleration vs. horsepower by origin', fontsize=15)
lp.fig.subplots_adjust(top=0.9)
plt.setp(lp.fig.axes[0].collections[1::2], alpha=.4)
plt.show()

In [None]:
# разделение по цветам
lp = sns.lmplot(data=data_auto, x="horsepower", y="acceleration", hue='origin',
                markers=['*', 'o', 'd'], palette=['b', 'r', 'g'], scatter_kws={'alpha': .3},
                aspect=1.25)
lp.fig.suptitle('Acceleration vs. horsepower by origin', fontsize=15)
lp.fig.subplots_adjust(top=0.9)
plt.setp(lp.fig.axes[0].collections[1::2], alpha=.4)
plt.show()

In [None]:
# разделение по колонкам
lp = sns.lmplot(data=data_auto, x="horsepower", y="acceleration", col='cylinders', aspect=0.85)
lp.fig.suptitle('Acceleration vs. horsepower by the number of cylinders', fontsize=15)
lp.fig.subplots_adjust(top=0.85)
plt.show()

In [None]:
# разделение по колонкам с ограниченным количеством в каждой строке
lp = sns.lmplot(data=data_auto, x="horsepower", y="acceleration", col='model_year', col_wrap=3)
lp.fig.suptitle('Acceleration vs. horsepower by release year', fontsize=15)
lp.fig.subplots_adjust(top=0.95)
plt.show()

In [None]:
# разделение по колонкам и столбцам
lp = sns.lmplot(data=data_auto, x="horsepower", y="acceleration", col='cylinders', row='origin', aspect=0.85)
lp.fig.suptitle('Acceleration vs. horsepower by the number of cylinders and origin', fontsize=15)
lp.fig.subplots_adjust(top=0.9)
plt.show()

In [None]:
# разделение по колонкам и столбцам c разным масштабом осей
lp = sns.lmplot(data=data_auto, x="horsepower", y="acceleration", col='cylinders', row='origin',
                facet_kws={'sharex': False, 'sharey': False},
                aspect=0.85)
lp.fig.suptitle('Acceleration vs. horsepower by the number of cylinders and origin', fontsize=15)
lp.fig.subplots_adjust(top=0.9)
plt.show()

In [None]:
# можно использовать в jointplot
jp = sns.jointplot(data=data_auto, x='horsepower', y='acceleration', kind='reg')
jp.fig.suptitle('Acceleration vs. horsepower', fontsize=15)
jp.fig.subplots_adjust(top=0.9)
plt.show()

In [None]:
# можно использовать в pairplot
pp = sns.pairplot(data_auto, kind='reg')
pp.fig.suptitle('Pairwise relationships between values', fontsize=15)
pp.fig.subplots_adjust(top=0.95)
plt.show()