# <center>Дескриптивная статистика</center>

Предоставляет сводные данные, такие как среднее значение, медиана, мода и стандартное отклонение.

Помогает определить общие характеристики и распределение данных.

Получить описательную статистику можно с помощью библиотеки *pandas*. Для этого можно использовать уже знакомый нам метод `describe()`.

# <center>Корреляционный анализ</center>

Определяет силу и направление связи между двумя или более переменными.

Позволяет выявить возможные зависимости и причинно-следственные связи.

Один из самых быстрых и самых простых способов определить наличие корреляции между двумя переменными состоит в том, чтобы рассмотреть их на графике рассеяния. Для этого можно использовать *scatterplot*.

В случае наличия зависимости мы увидим подобный график.

![image.png](https://lms.skillfactory.ru/asset-v1:Skillfactory+DSMED+2023+type@asset+block@DSMED_PRAC_3_3_1.png)

Использование *pandas*:
```python
  import pandas as pd
  df = pd.DataFrame({'x': [1, 3, 3, 4, 5, 7, 9, 12, 13, 15],
   'y': [5, 7, 9, 7, 6, 12, 14, 18, 15, 22]})
  df.plot.scatter (x=”x”, y=”y”)
```

Использование *matplotlib*:
```python
import pandas as pd import matplotlib.pyplot as plt df = pd.DataFrame({“x”: [1, 3, 3, 4, 5, 7, 9, 12, 13, 15], “y”: [5, 7, 9, 7, 6, 12, 14, 18, 15, 22]}) plt.scatter (df.x, df.y)
```

Использование *seaborn*:
```python
  import seaborn as sns
  sns.scatterplot(data=flights_data, x="year", y="passengers")
```

## <center>Расчет коэффициентов корреляции</center>

Существует несколько коэффициентов корреляции, каждый из которых применяется в различных ситуациях в зависимости от типа данных и характера их распределения.

1) **Коэффициент Пирсона** (Pearson’s r)

Измеряет линейную связь между двумя числовыми переменными, которые распределены нормально или близко к нормальному распределению.

2) **Коэффициент Спирмена** (Spearman’s rho)

Измеряет монотонную связь между двумя переменными, которые могут быть как числовыми, так и порядковыми. Монотонная связь означает, что значения одной переменной увеличиваются или уменьшаются вместе со значениями другой переменной.

3) **Коэффициент Кендалла** (Kendall’s tau)

Также измеряет монотонную связь между двумя переменными, но является более устойчивым к выбросам (резким отклонениям от общей тенденции) и подходит для работы с небольшими выборками.

4) **Коэффициент точечной бисериальной корреляции** (Point Biserial Correlation Coefficient)

Измеряет связь между бинарной переменной (которая имеет только два возможных значения) и числовой переменной.

Модуль `stats` библиотеки `SciPy` содержит несколько встроенных функций для вычисления коэффициентов корреляции между признаками различной природы, а также проверки их на статистическую значимость.

Импортируем библиотеку:
```python
from scipy.stats import pearsonr, spearmanr
```
Воспользуемся коэффициентом корреляции Пирсона и Спирмана:
```python
r = pearsonr(df['height'], df['weight'])
print('Pearson correlation:', r[0], 'p-value:', r[1])
# Pearson correlation: 0.3142873661362631 p-value: 0.0

r = spearmanr(df['cholesterol'], df['weight'])
print('Spearman correlation:', r[0], 'p-value:', r[1])
# Spearman correlation: 0.13230579095093412 p-value: 2.1550632494593984e-263
```
Так как *p-value < 0.05* (типичное пороговое значение), то делаем вывод о том, что взаимосвязь (корреляция) между ростом и весом статистически значима.

Корреляция между категориальными переменными не может быть измерена с помощью коэффициентов Пирсона, Спирмена и др. Для них используется **коэффициент корреляции Крамера** (V Крамера).

Он находится в диапазоне от 0 до 1, где:
* 0 указывает на отсутствие связи между двумя переменными.
* 1 указывает на идеальную связь между двумя переменными.

Он рассчитывается как: `V Крамера = √ (X2 /n) / min (c-1, r-1)`
* *X2*: cтатистика хи-квадрат
* *n*: общий размер выборки
* *р*: количество рядов
* *c*: количество столбцов

Код показывает, как вычислить *V Крамера* для таблицы 2×2:
```python
import scipy. stats as stats
import numpy as np

data = np.array([[7,12], [9,8]])
#Статистика теста хи-квадрат, размер выборки и минимум строк и столбцов
X2 = stats.chi2_contingency(data, correction= False )[0]
n = np.sum(data)
minDim = min(data.shape)-1
V = np.sqrt((X2/n) / minDim)
print(V)
# 0.1617
```

*V Крамера* оказывается равным 0,1617 , что указывает на довольно слабую связь между двумя переменными в таблице. Таким же образом можно вычислять *критерий Крамера* и для бОльших таблиц.

# <center>Регрессионный анализ</center>

Строит математическую модель для прогнозирования значения одной переменной (зависимой переменной) на основе значений других переменных (независимых переменных).

Мы хотели бы вывести уравнение, связывающее конкретную величину одной переменной, так называемой независимой переменной, с ожидаемым значением другой, зависимой переменной. Например, если наше линейное уравнение предсказывает вес при заданном росте, то рост является нашей независимой переменной, а вес — зависимой.

## <center>Линейная регрессия<center>

```python
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X, y)
# Predict the response for a new data point
y_pred = model.predict(X_new)
```

## <center>Полиномиальная регрессия</center>

Это расширение линейной регрессии, оно используется для моделирования нелинейной взаимосвязи между зависимой переменной и независимыми переменными. Линейная регрессия смогла подогнать только линейную модель к имеющимся данным, но с полиномиальными функциями мы можем легко подогнать некоторые нелинейные отношения между целевыми и входными функциями.
```python
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

poly = PolynomialFeatures(degree=3)
```

`degree` это степень полинома. Более высокая степень позволяет модели более точно соответствовать обучающим данным, но это также может привести к переобучению, особенно если степень слишком высока. Следовательно, степень следует выбирать в зависимости от сложности лежащих в основе отношений в данных.
```python
poly_features = poly.fit_transform(x.reshape(-1, 1))
poly_reg_model = LinearRegression()
poly_reg_model.fit(poly_features, y)
print(poly_reg_model.intercept_, poly_reg_model.coef_)
```

## <center>Дерево решений</center>

Дерево решений представляет собой древовидную структуру, подобную блок-схеме, где каждый внутренний узел обозначает проверку атрибута, каждая ветвь представляет результат теста, и каждый конечный узел содержит метку класса. Существует непараметрический метод, используемый для моделирования дерева решений для прогнозирования непрерывного результата.
```python
from sklearn.tree import DecisionTreeRegressor

model = DecisionTreeRegressor()
model.fit(X, y)
y_pred = model.predict(X_new)
```

## <center>Случайный лес</center>

Случайный лес - это метод ансамбля, способный выполнять как задачи регрессии, так и классификации с использованием нескольких деревьев решений и техники, называемой начальной загрузкой и агрегацией, широко известной как пакетирование. Основная идея, стоящая за этим, заключается в объединении нескольких деревьев решений для определения конечного результата, а не в том, чтобы полагаться на отдельные деревья решений.
```python
from sklearn.ensemble import RandomForestRegressor

model = RandomForestRegressor(n_estimators=100)
model.fit(X, y)
y_pred = model.predict(X_new)
```

# <center>Кластеризация</center>

Разделяет данные на группы (кластеры) с похожими характеристиками. Помогает идентифицировать сегменты рынка, клиентские базы и другие категории.

## <center>Метод k-средних</center>

Цель алгоритма — минимизировать сумму квадратов внутрикластерных расстояний до центра кластера **WCSS** (within-cluster sum of squares).

![image.png](https://www.dmitrymakarov.ru/wp-content/uploads/2021/07/wcss-3-1-2048x1114.jpg)

Расположим несколько точек. Их количество будет равно количеству кластеров. Эти точки называются центроидами. Посчитаем расстояние от наших данных до каждого из центроидов. Логично отнести наблюдение к тому центроиду, который находится ближе.

![image.png](https://lms.skillfactory.ru/asset-v1:Skillfactory+DSMED+2023+type@asset+block@DSMED_PRAC_3_5_1.png)

В частности, T1 будет отнесена к C2.

Таким образом, каждая точка будет отнесена к определенному центроиду (кластеру).

Далее сместим центроиды в центр получившихся кластеров. Снова отнесем точки к каждому из центроидов. Некоторые точки могут перейти к другому центроиду.

![image.png](https://lms.skillfactory.ru/asset-v1:Skillfactory+DSMED+2023+type@asset+block@DSMED_PRAC_3_5_2.png)

Последние два шага будут повторятся до тех пор, пока точки не перестанут переходить из одного кластера в другой.

Существует два способа выбрать количество кластеров:

1) **Экспертный метод**

Выбор количества кластера будет зависеть от знания о предметной области (domain knowledge).

2) **Метод локтя**

Можно использовать несколько вариантов количества кластеров, измерить сумму квадрата внутрикластерных расстояний и выбрать вариант, при котором сумма перестанет уменьшаться (elbow method).
```python
from sklearn.cluster import KMeans

# Создадим пустой список для записи показателя WCSS (нашей ошибки)
wcss = []
for i in range(1, 11):
# Настроим параметры модели
kmeans = KMeans(n_clusters = i, init = 'k-means++', max_iter = 300, n_init = 10, random_state = 42)
# Обучим модель на наших данных с разным количеством кластеров
kmeans.fit(X)
# Для каждого кластера рассчитаем ошибку (атрибут inertia_) и поместим в список
wcss.append(kmeans.inertia_)

plt.figure(figsize = (10,6))
plt.plot(range(1, 11), wcss)
plt.title('Выбор количества кластеров методом локтя')
plt.xlabel('Количество кластеров')
plt.ylabel('WCSS')
```

![image.png](https://lms.skillfactory.ru/asset-v1:Skillfactory+DSMED+2023+type@asset+block@DSMED_PRAC_3_5_3.png)

Как видно на графике, когда мы перешли от трех до четырех кластеров, ошибка перестала существенно уменьшаться.

Давайте создадим объект класса нашей модели, используя три кластера в качестве гипепараметра модели.
```python
kmeans = KMeans(n_clusters = 3, init = 'k-means++', max_iter = 300, n_init = 10, random_state = 42)
```

* `n_clusters`: это количество кластеров, на которые мы хотим разбить наши наблюдения.

* `init`: определяет, как мы выберем первоначальное расположение (инициализацию) центроидов; есть два варианта, (1) выбрать центроиды случайно `init = 'random'` или (2) выбрать их так, чтобы центроиды с самого начала располагались максимально далеко друг от друга `init = 'k-means++'`; второй вариант оптимальнее.

* `n_init`: сколько раз алгоритм будет инициализирован, т.е. сколько раз будут выбраны центроиды до начала оптимизации; на выходе будет выбран тот вариант, где ошибка была минимальна.

* `max_iter`: максимальное количество итераций алгоритма после первоначального выбора центроидов.

* `random_state`: воспроизводимость результата; используется в качестве начального числа для генератора псевдослучайных чисел.

Обучение и прогноз в данном случае можно сделать одним методом `.fit_predict()`.
```python
y_pred = kmeans.fit_predict(X)
```

# <center>Выявление аномалий</center>

Самым простым способом выявления аномалий в данных является построение *boxplot*, с помощью которого можно увидеть “выбросы”, но будьте осторожны, в медицинских данных часто вы можете увидеть сильно отличающиеся значения, которые на первый взгляд можно интерпретировать как аномалию или выброс, однако таковыми не являющимися. К сожалению, в таких случаях необходимо вручную рассматривать каждое подобное значение.

# <center>Анализ временных рядов</center>

Основные концепции временных рядов:

1) **Тенденция**

Тренд представляет собой общее направление, в котором временной ряд движется в течение длительного периода. Указывает, увеличиваются ли значения, уменьшаются или остаются относительно постоянными. Например, уровень холестерина в крови пациента может постепенно увеличиваться или уменьшаться в течение долгого периода времени.

2) **Сезонность**

Сезонность относится к повторяющимся шаблонам или циклам, которые происходят с регулярными интервалами внутри временного ряда, часто соответствующим определенным единицам времени, таким как дни, недели, месяцы или сезоны. Например, количество заболеваний гриппом может повышаться в зимние месяцы, что указывает на сезонность этого заболевания.

3) **Скользящее среднее**

Метод скользящего среднего является распространенным приемом, используемым при анализе временных рядов для сглаживания краткосрочных колебаний и выделения долгосрочных тенденций или закономерностей в данных. Это включает в себя вычисление среднего значения набора последовательных точек данных, называемого “окном” или “скользящим окном”, по мере перемещения по временному ряду. Например, использование скользящего среднего для сглаживания ежедневных колебаний в уровне сахара в крови у пациента с диабетом для выявления общего тренда.

4) **Шум**

Шум, или случайные флуктуации, представляет собой нерегулярные и непредсказуемые компоненты временных рядов, которые не следуют заметному шаблону. Он вводит изменчивость, которая не связана с основным трендом или сезонностью. Например, непредсказуемые изменения в частоте сердечных сокращений пациента, которые не связаны с основным состоянием здоровья.

5) **Дифференцирование**

Дифференцирование используется для определения разницы в значениях указанного интервала. По умолчанию оно равно единице, мы можем указать разные значения для графиков. Это самый популярный метод удаления тенденций в данных. Например, дифференцирование данных о температуре, чтобы определить разницу в температуре между днем и ночью или между разными сезонами.

# <center>Подбор гиперпараметров моделей</center>

Важно понять в чём отличие параметров модели от гиперпараметров:

* **Параметры** настраиваются в процессе обучения модели на данных.

* **Гиперпараметры** — это характеристики модели, которые фиксируются до начала обучения.

Необходимо подобрать оптимальные гиперпараметры для каждой модели, а затем сравнить модели с наилучшими параметрами. Для этого обычно используются два основных подхода:

## <center>Решетчатый поиск (Grid Search)</center>

Перебор гиперпараметров по сетке — интуитивно понятный подход к их оптимизации.

```python
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier

# Определение параметров и их значений для перебора
param_grid = {
    'n_estimators': [50, 100, 150],
    'max_depth': [None, 10, 20],
    'min_samples_leaf': [1, 2, 4]
}

# Создание модели и настройка с использованием решетчатого поиска
rf_model = RandomForestClassifier()
grid_search = GridSearchCV(rf_model, param_grid, cv=5)
grid_search.fit(X_train, y_train)

# Вывод наилучших гиперпараметров и оценки
print("Best Hyperparameters:", grid_search.best_params_)
print("Best Cross-Validation Score:", grid_search.best_score_)
```

## <center>Случайный поиск (Random Search)</center>

Метод случайного поиска может рассмотреть более разнообразные значения гиперпараметров за то же количество итераций, что и перебор по сетке. Таким образом, случайный поиск с большей вероятностью найдет значения, которые сильнее всего влияют на качество модели. Следовательно, он также с большей вероятностью найдет наилучшую комбинацию значений гиперпараметров. Зачастую этот метод более эффективен по времени, так как проходит меньше итераций для нахождения хорошего значения.
```python
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestClassifier
from scipy.stats import randint

# Определение диапазонов значений для случайного поиска
param_dist = {
    'n_estimators': randint(50, 200),
    'max_depth': [None, 10, 20, 30, 40, 50],
    'min_samples_leaf': [1, 2, 4]
}

# Создание модели и настройка с использованием случайного поиска
rf_model = RandomForestClassifier()
random_search = RandomizedSearchCV(rf_model, param_distributions=param_dist, n_iter=100, cv=5)
random_search.fit(X_train, y_train)

# Вывод наилучших гиперпараметров и оценки
print("Best Hyperparameters:", random_search.best_params_)
print("Best Cross-Validation Score:", random_search.best_score_)
```