<a href="https://colab.research.google.com/github/CodeHunterOfficial/A_PythonLibraries/blob/main/%D0%91%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B0_Statsmodels.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Библиотека Statsmodels
**Statsmodels** — это мощная библиотека Python для статистического моделирования и эконометрического анализа данных. Она предоставляет широкий спектр классов и функций для оценки различных статистических моделей, проведения статистических тестов и исследования данных. В отличие от библиотек, таких как scikit-learn, которые ориентированы на предсказательное моделирование и машинное обучение, Statsmodels фокусируется на объяснительном анализе и предоставляет детальные статистические результаты, включая стандартные ошибки, статистики t-критерия, значения p-уровней и многое другое.

В этой лекции мы подробно рассмотрим возможности Statsmodels, основы теории статистического моделирования, и приведем множество примеров с объяснениями


## 1. Установка и импорт библиотек

Прежде чем начать, нам нужно убедиться, что библиотека **Statsmodels** установлена в нашей среде Python. Вы можете сделать это с помощью команды `pip install statsmodels`. После установки мы будем импортировать несколько библиотек, которые понадобятся для анализа данных:

- **numpy** и **pandas** — библиотеки для работы с массивами и табличными данными;
- **statsmodels.api** — основной модуль для статистического моделирования;
- **statsmodels.formula.api** — позволяет строить модели с использованием формул, аналогичных тому, как это делается в языке R;
- **matplotlib** — для визуализации результатов.

Теперь давайте напишем код для импорта библиотек:

```python
import numpy as np
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf
import matplotlib.pyplot as plt
```

Этот код импортирует библиотеки, необходимые для анализа данных с использованием **Statsmodels**.



## 2. Обзор статистического моделирования

Прежде чем углубиться в примеры, давайте коротко обсудим, что такое статистическое моделирование. Модели позволяют нам делать выводы о данных, устанавливать взаимосвязи между переменными, предсказывать будущие значения и проверять гипотезы.

В библиотеке **Statsmodels** доступны следующие виды моделей:

1. **Линейная регрессия**: оценивает линейную зависимость между зависимой переменной (например, ценой товара) и одной или несколькими независимыми переменными (например, возраст, регион).
2. **Общие линейные модели (GLM)**: обобщают линейную регрессию, позволяя зависимой переменной следовать другим распределениям, таким как биномиальное или пуассоновское.
3. **Модели дискретного выбора**: применяются, когда зависимая переменная категориальная (например, выбор "купить" или "не купить").
4. **Анализ временных рядов**: позволяет моделировать временные данные с учетом трендов, сезонности и автокорреляции.

### 2.1 Линейная регрессия

Линейная регрессия — это один из наиболее распространенных методов анализа данных. Она оценивает зависимость одной переменной (например, цены дома) от одной или нескольких независимых переменных (например, площади дома, количества комнат и т.д.). Модель описывается следующим уравнением:

$$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n + \varepsilon$$

Здесь:
- $Y$ — это зависимая переменная;
- $X_1, X_2, \dots, X_n$ — независимые переменные;
- $\beta_0, \beta_1, \dots, \beta_n$ — коэффициенты регрессии, которые мы оцениваем;
- $\varepsilon$ — случайная ошибка.

### 2.2 Общие линейные модели (GLM)

GLM расширяет линейную регрессию, позволяя зависимой переменной быть не только непрерывной (как в линейной регрессии), но и дискретной или следовать другим распределениям (биномиальному, пуассоновскому и др.). Это позволяет использовать линейные модели в случаях, когда распределение зависимой переменной отличается от нормального.

### 2.3 Модели дискретного выбора

Модели дискретного выбора полезны, когда зависимая переменная является категориальной (например, "да"/"нет" или "купить"/"не купить"). Одним из примеров является логистическая регрессия, которая оценивает вероятность того, что событие произойдет на основе набора независимых переменных.

### 2.4 Анализ временных рядов

Временные ряды — это данные, которые наблюдаются в последовательные моменты времени (например, ежемесячные продажи или ежедневные температуры). **Statsmodels** предлагает мощные инструменты для анализа временных рядов, включая такие модели, как ARIMA (авторегрессионные интегрированные модели скользящего среднего).



## 3. Линейная регрессия с Statsmodels

### 3.1 Теория линейной регрессии

Как уже упоминалось, линейная регрессия используется для оценки зависимой переменной $Y$ на основе одной или нескольких независимых переменных $X$. Например, мы можем использовать линейную регрессию, чтобы предсказать цену дома на основе таких факторов, как площадь дома, количество комнат и т.д.

Основные предположения линейной регрессии:
1. **Линейная связь** между зависимой и независимыми переменными.
2. **Независимость остатков** (ошибок) — остатки не должны быть коррелированы.
3. **Гомоскедастичность** — постоянная дисперсия остатков.
4. **Нормальность распределения остатков** — остатки должны следовать нормальному распределению.

### 3.2 Пример: Простая линейная регрессия

Теперь давайте рассмотрим простой пример линейной регрессии, где у нас есть одна независимая переменная. Мы создадим синтетические данные, которые будут соответствовать линейной модели с некоторым случайным шумом, и применим линейную регрессию для оценки параметров.

**Генерация данных:**

Здесь мы сгенерируем 100 случайных точек, где зависимая переменная $Y$ будет линейной функцией от независимой переменной $X$, плюс случайный шум. Константа и коэффициент наклона будут равны 5 и 2 соответственно.

```python
np.random.seed(42)
X = np.linspace(0, 10, 100)  # Независимая переменная
beta_0 = 5                    # Константа
beta_1 = 2                    # Коэффициент при X
epsilon = np.random.normal(0, 1, 100)  # Случайный шум
Y = beta_0 + beta_1 * X + epsilon      # Зависимая переменная
```

В этом коде:
- Мы используем `np.linspace` для создания 100 значений переменной $X$, равномерно распределенных от 0 до 10.
- $Y$ рассчитывается как линейная функция от $X$ с добавлением случайного шума $\epsilon$.

**Построение модели:**

Теперь мы можем построить модель линейной регрессии с помощью библиотеки **Statsmodels**. Для этого необходимо добавить константу (столбец единиц) в наши данные $X$, чтобы включить свободный член (константу $\beta_0$) в модель.

```python
X = sm.add_constant(X)  # Добавляем константу (столбец с единицами)
model = sm.OLS(Y, X)    # Создаем модель OLS (метод наименьших квадратов)
results = model.fit()   # Оцениваем параметры модели
```

Здесь:
- `sm.add_constant(X)` добавляет столбец единиц к независимой переменной $X$, что необходимо для оценки константы $\beta_0$.
- `sm.OLS(Y, X)` создает объект линейной регрессии (Ordinary Least Squares — метод наименьших квадратов).
- `results = model.fit()` оценивает параметры модели.

**Анализ результатов:**

Теперь мы можем посмотреть на результаты оценки модели:

```python
print(results.summary())
```

Этот вывод включает:
- `R-squared`: Коэффициент детерминации, который показывает, насколько хорошо модель объясняет вариацию зависимой переменной.
- `Coefficients`: Оцененные значения коэффициентов $\beta_0$ и $\beta_1$.
- `P>|t|`: Значения p-уровней для проверки гипотезы о значимости каждого коэффициента.
- `Standard Error`: Оценка стандартной ошибки для каждого коэффициента, которая показывает, насколько точно оценены коэффициенты.

**Графическое отображение:**

Давайте построим график, чтобы наглядно увидеть, как наша модель объясняет данные:

```python
plt.scatter(X[:, 1], Y, label='Данные')  # Построение исходных данных
plt.plot(X[:, 1], results.fittedvalues, color='red', label='Модель')  # Построение линии регрессии
plt.xlabel('X')
plt.ylabel('Y')
plt.legend()
plt.show()
```

На графике:
- Точки представляют исходные данные.
- Красная линия — это линейная регрессионная модель, которая была построена с использованием данных.



## 3.3 Пример: Множественная линейная регрессия

### Теория множественной линейной регрессии

Множественная линейная регрессия используется для моделирования зависимости одной зависимой переменной от нескольких независимых переменных. Общее уравнение модели выглядит так:

$$
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_n X_n + \varepsilon
$$

где:
- $Y$ — зависимая переменная;
- $X_1, X_2, ..., X_n$ — независимые переменные;
- $\beta_0$ — свободный член (константа);
- $\beta_1, \beta_2, ..., \beta_n$ — коэффициенты при независимых переменных;
- $\varepsilon$ — случайная ошибка.

### Пример: Предсказание цен на жилье

Предположим, у нас есть данные о ценах на жилье, которые зависят от площади (в квадратных метрах) и количества комнат. Мы создадим синтетические данные для этой задачи.

**Генерация данных:**

Создадим синтетические данные с использованием площади и количества комнат для предсказания цены:

```python
# Устанавливаем сид для воспроизводимости
np.random.seed(42)

# Генерация данных
n = 100  # количество наблюдений
area = np.random.randint(50, 200, n)  # Площадь дома в квадратных метрах
rooms = np.random.randint(1, 6, n)     # Количество комнат
price = 50000 + area * 300 + rooms * 10000 + np.random.normal(0, 5000, n)  # Цены на жилье с шумом

# Создание DataFrame
data = pd.DataFrame({'Area': area, 'Rooms': rooms, 'Price': price})
```

Здесь:
- Мы генерируем 100 наблюдений с случайными значениями площади и количества комнат.
- Цены на жилье рассчитываются на основе линейной зависимости от площади и количества комнат с добавлением случайного шума.

**Построение модели:**

Теперь мы можем построить модель множественной линейной регрессии, используя библиотеку **Statsmodels**:

```python
# Строим модель множественной линейной регрессии
model = smf.ols(formula='Price ~ Area + Rooms', data=data)
results = model.fit()  # Оцениваем параметры модели
```

Здесь:
- `smf.ols` позволяет указать формулу для нашей модели в виде строки, где зависимая переменная идет перед `~`, а независимые переменные — после.
- Мы передаем наши данные в модель и вызываем `fit()` для оценки параметров.

**Анализ результатов:**

Посмотрим на результаты:

```python
print(results.summary())
```

Это даст нам информацию о модели, включая коэффициенты, значение $R^2$, стандартные ошибки и p-значения.

**Графическое отображение:**

Так как у нас две независимые переменные, графическое отображение модели будет немного сложнее. Мы можем построить 3D-график для визуализации:

```python
from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.scatter(data['Area'], data['Rooms'], data['Price'], color='b', label='Данные')

# Создаем сетку для прогнозов
area_grid, rooms_grid = np.meshgrid(
    np.linspace(data['Area'].min(), data['Area'].max(), 20),
    np.linspace(data['Rooms'].min(), data['Rooms'].max(), 20)
)

# Прогнозируем цены на основе модели
price_grid = results.predict(exog=dict(Area=area_grid.ravel(), Rooms=rooms_grid.ravel())).reshape(area_grid.shape)

# Отображаем поверхность регрессии
ax.plot_surface(area_grid, rooms_grid, price_grid, color='r', alpha=0.5, label='Модель')
ax.set_xlabel('Площадь (кв.м.)')
ax.set_ylabel('Количество комнат')
ax.set_zlabel('Цена')
plt.legend()
plt.show()
```

На графике:
- Синие точки представляют реальные данные о ценах на жилье.
- Красная поверхность — это предсказанная моделью поверхность цен на жилье в зависимости от площади и количества комнат.



## 4. Общие линейные модели (GLM)

### Теория GLM

Общие линейные модели (GLM) позволяют использовать различные распределения для зависимой переменной, что делает их более универсальными по сравнению с линейной регрессией. GLM состоит из трех основных компонентов:

1. **Семейство распределений**: Например, нормальное, биномиальное, пуассоновское и т.д.
2. **Линейная предсказательная функция**: Это линейная комбинация независимых переменных.
3. **Ссылка**: Функция, которая связывает ожидаемое значение зависимой переменной с линейной предсказательной функцией.

### Пример: Модель логистической регрессии

Рассмотрим пример логистической регрессии, которая используется для предсказания вероятности бинарного исхода (например, "да"/"нет"). Мы создадим синтетические данные для этой задачи.

**Генерация данных:**

Предположим, у нас есть информация о возрасте и доходе, и мы хотим предсказать, будет ли человек покупать продукт (1 - да, 0 - нет):

```python
np.random.seed(42)
n = 200  # количество наблюдений
age = np.random.randint(18, 70, n)  # Возраст
income = np.random.randint(20000, 120000, n)  # Доход
purchase = (np.random.rand(n) < (0.5 + 0.3 * (income - 50000) / 70000 - 0.005 * (age - 40))).astype(int)  # Покупка (0 или 1)

# Создание DataFrame
data_glm = pd.DataFrame({'Age': age, 'Income': income, 'Purchase': purchase})
```

Здесь:
- Мы создаем 200 наблюдений с случайными значениями возраста и дохода.
- Вероятность покупки рассчитывается на основе возраста и дохода.

**Построение модели:**

Теперь мы можем построить модель логистической регрессии:

```python
# Строим модель логистической регрессии
model_glm = smf.logit(formula='Purchase ~ Age + Income', data=data_glm)
results_glm = model_glm.fit()  # Оцениваем параметры модели
```

**Анализ результатов:**

Посмотрим на результаты:

```python
print(results_glm.summary())
```

### Прогнозирование и визуализация

Теперь мы можем прогнозировать вероятность покупки на основе нашей модели и визуализировать результаты.

```python
# Создание сетки для прогнозирования
age_grid = np.linspace(data_glm['Age'].min(), data_glm['Age'].max(), 100)
income_grid = np.linspace(data_glm['Income'].min(), data_glm['Income'].max(), 100)
age_grid, income_grid = np.meshgrid(age_grid, income_grid)

# Прогнозирование вероятности
predicted_prob = results_glm.predict(exog=dict(Age=age_grid.ravel(), Income=income_grid.ravel())).reshape(age_grid.shape)

# Визуализация
plt.figure(figsize=(10, 6))
plt.scatter(data_glm['Age'], data_glm['Income'], c=data_glm['Purchase'], cmap='bwr', alpha=0.5, label='Данные')
plt.contourf(age_grid, income_grid, predicted_prob, alpha=0.3, cmap='coolwarm')
plt.colorbar(label='Вероятность покупки')
plt.xlabel('Возраст')
plt.ylabel('Доход')
plt.title('Вероятность покупки в зависимости от возраста и дохода')
plt.legend()
plt.show()
```

На графике:
- Точки представляют реальные данные о покупках.
- Контуры показывают вероятности покупки, которые предсказывает модель, в зависимости от возраста и дохода.



## 5. Анализ временных рядов

### Теория анализа временных рядов

Анализ временных рядов используется для моделирования и прогнозирования данных, собранных в последовательные моменты времени. Временные ряды могут иметь тренды, сезонность и автокорреляцию, что необходимо учитывать при построении модели.

### Пример: Модель ARIMA

Модель ARIMA (авторегрессионная интегрированная модель скользящего среднего) — один из самых популярных методов анализа временных рядов. ARIMA имеет три параметра:

- **p**: порядок авторегрессии (количество лагов);
- **d**: степень интегрирования (количество различий);
- **q**: порядок скользящего среднего.

**Генерация данных:**

Для примера создадим временной ряд с искусственными данными

:

```python
np.random.seed(42)
n = 100  # количество наблюдений
time = np.arange(n)
trend = 0.5 * time  # линейный тренд
seasonal = 10 * np.sin(2 * np.pi * time / 12)  # сезонный компонент
noise = np.random.normal(0, 5, n)  # случайный шум
data_time_series = trend + seasonal + noise  # конечный временной ряд

# Создание DataFrame
time_series_data = pd.DataFrame({'Time': time, 'Value': data_time_series})
```

**Визуализация временного ряда:**

Давайте визуализируем наш временной ряд:

```python
plt.figure(figsize=(10, 6))
plt.plot(time_series_data['Time'], time_series_data['Value'], label='Временной ряд', color='b')
plt.title('Сгенерированный временной ряд')
plt.xlabel('Время')
plt.ylabel('Значение')
plt.legend()
plt.show()
```

### Построение модели ARIMA

Теперь мы можем построить модель ARIMA для нашего временного ряда. Для этого мы будем использовать функцию `ARIMA` из библиотеки **Statsmodels**.

```python
from statsmodels.tsa.arima.model import ARIMA

# Определяем параметры ARIMA (p, d, q)
p = 2  # Порядок авторегрессии
d = 1  # Степень интегрирования
q = 1  # Порядок скользящего среднего

# Строим модель ARIMA
model_arima = ARIMA(time_series_data['Value'], order=(p, d, q))
results_arima = model_arima.fit()  # Оцениваем параметры модели
```

**Анализ результатов:**

Посмотрим на результаты оценки модели:

```python
print(results_arima.summary())
```

### Прогнозирование и визуализация

Теперь мы можем прогнозировать значения временного ряда на следующие 10 периодов:

```python
# Прогнозируем следующие 10 значений
forecast = results_arima.forecast(steps=10)

# Визуализация
plt.figure(figsize=(10, 6))
plt.plot(time_series_data['Time'], time_series_data['Value'], label='Исходный временной ряд', color='b')
plt.plot(np.arange(n, n + 10), forecast, label='Прогноз', color='r', marker='o')
plt.title('Прогнозирование временного ряда с помощью ARIMA')
plt.xlabel('Время')
plt.ylabel('Значение')
plt.legend()
plt.show()
```

На графике:
- Синяя линия представляет исходный временной ряд.
- Красные точки — это прогнозируемые значения на следующие 10 периодов.



## Заключение

В этом руководстве мы рассмотрели библиотеку **Statsmodels** и основные методы статистического моделирования, включая линейную регрессию, общие линейные модели и анализ временных рядов.

**Ключевые моменты:**
1. **Statsmodels** предоставляет мощные инструменты для статистического моделирования и анализа.
2. Линейная регрессия и GLM позволяют анализировать зависимость между переменными, в то время как модели временных рядов помогают предсказывать будущие значения на основе исторических данных.
3. Визуализация результатов помогает лучше понять данные и модели.





## 6. Статистические тесты и диагностика моделей

При работе с регрессионными моделями важно проводить диагностику, чтобы удостовериться, что модель соответствует необходимым предположениям. Это поможет избежать неверных выводов и ошибок в интерпретации.

### 6.1 Тесты на гетероскедастичность

**Гетероскедастичность** означает, что дисперсия ошибок не является постоянной по всем уровням независимых переменных. Это может привести к неверным стандартным ошибкам, что, в свою очередь, влияет на тесты значимости коэффициентов.

#### Пример теста Бреуша-Пагана

Тест Бреуша-Пагана является одним из методов проверки гетероскедастичности.

**Шаги:**

1. Построим модель линейной регрессии.
2. Проведем тест на гетероскедастичность.

```python
import statsmodels.api as sm
from statsmodels.stats.diagnostic import het_breuschpagan

# Создадим линейную модель (например, на данных о жилье)
model = smf.ols('Price ~ Area + Rooms', data=data).fit()

# Получим остатки и предсказанные значения
residuals = model.resid
predicted = model.predict()

# Выполним тест Бреуша-Пагана
bp_test = het_breuschpagan(residuals, model.model.exog)
bp_test_result = dict(zip(['LM Statistic', 'LM-Test p-value', 'F-Statistic', 'F-Test p-value'], bp_test))
print(bp_test_result)
```

#### Интерпретация результатов:

- Если p-значение меньше уровня значимости (обычно 0.05), это указывает на наличие гетероскедастичности. В этом случае можно рассмотреть использование методов, устойчивых к гетероскедастичности, таких как робастные стандартные ошибки.



### 6.2 Тесты на автокорреляцию

**Автокорреляция** означает, что ошибки модели не независимы друг от друга. Это часто наблюдается в временных рядах.

#### Пример теста Дарбина-Уотсона

Тест Дарбина-Уотсона используется для проверки автокорреляции остатков.

**Шаги:**

1. Построим модель линейной регрессии.
2. Проведем тест на автокорреляцию.

```python
from statsmodels.stats.stattools import durbin_watson

# Выполним тест Дарбина-Уотсона
dw_statistic = durbin_watson(model.resid)
print(f'Durbin-Watson statistic: {dw_statistic}')
```

#### Интерпретация результатов:

- Значение теста варьируется от 0 до 4:
  - 2 указывает на отсутствие автокорреляции.
  - Значения меньше 2 указывают на положительную автокорреляцию.
  - Значения больше 2 указывают на отрицательную автокорреляцию.
- В общем, значения около 0 и 4 указывают на наличие проблемы с автокорреляцией.



### 6.3 Тесты на нормальность остатков

Для многих статистических методов предполагается, что остатки имеют нормальное распределение. Нарушение этого предположения может привести к неверной интерпретации результатов.

#### Пример теста Шапиро-Уилка

Тест Шапиро-Уилка проверяет гипотезу о том, что данные имеют нормальное распределение.

**Шаги:**

1. Построим модель линейной регрессии.
2. Проведем тест на нормальность остатков.

```python
from scipy import stats

# Выполним тест Шапиро-Уилка
shapiro_test = stats.shapiro(model.resid)
print(f'Shapiro-Wilk statistic: {shapiro_test.statistic}, p-value: {shapiro_test.pvalue}')
```

#### Интерпретация результатов:

- Если p-значение меньше 0.05, это указывает на то, что остатки не имеют нормального распределения.
- В таком случае можно использовать методы, не требующие нормальности остатков, или трансформации зависимой переменной, чтобы улучшить нормальность.





### 6.4. Тесты на мультиколлинеарность

**Мультиколлинеарность** возникает, когда две или более независимые переменные в модели сильно коррелированы друг с другом. Это может привести к нестабильности оценок коэффициентов и затруднить интерпретацию модели.

#### Тест на мультиколлинеарность:

- **Индекс терпимости (Tolerance)**: Это мера, которая показывает, насколько сильно коррелирует независимая переменная с другими независимыми переменными. Значения ниже 0.1 указывают на сильную мультиколлинеарность.

- **VIF (Variance Inflation Factor)**: Это популярный способ измерения мультиколлинеарности. Если VIF > 10, это обычно указывает на проблему.

##### Пример вычисления VIF:

```python
from statsmodels.stats.outliers_influence import variance_inflation_factor

# Создаем DataFrame для независимых переменных
X = data[['Area', 'Rooms']]

# Вычисляем VIF для каждой переменной
vif = pd.DataFrame()
vif['Variable'] = X.columns
vif['VIF'] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
print(vif)
```

### 6.5. Тесты на линейность

Проверка линейности между зависимой и независимыми переменными — важное предположение для линейной регрессии.

#### Тест на линейность:

- **Тест Левенберга (Levene's Test)**: Проверяет равенство дисперсий для различных групп.

##### Пример теста Левенберга:

```python
from statsmodels.stats import anova

# Проверка на равенство дисперсий
levene_test = stats.levene(data['Price'][data['Rooms'] == 1],
                            data['Price'][data['Rooms'] == 2],
                            data['Price'][data['Rooms'] == 3])
print(f'Levene statistic: {levene_test.statistic}, p-value: {levene_test.pvalue}')
```

### 6.6. Тесты на стационарность

Для анализа временных рядов важно, чтобы данные были стационарными. Это означает, что статистические свойства (среднее, дисперсия и автокорреляция) не меняются во времени.

#### Тесты на стационарность:

- **Тест Дикки-Фуллера (Dickey-Fuller Test)**: Это статистический тест для проверки стационарности временного ряда.

##### Пример теста Дикки-Фуллера:

```python
from statsmodels.tsa.stattools import adfuller

# Выполним тест Дикки-Фуллера
adf_test = adfuller(time_series_data['Value'])
print(f'ADF Statistic: {adf_test[0]}, p-value: {adf_test[1]}')
```

### 6.7. Тесты на независимость остатков

- **Тест Бартлетта (Bartlett's Test)**: Используется для проверки равенства дисперсий, что также может быть признаком проблем в модели.

##### Пример теста Бартлетта:

```python
# Выполним тест Бартлетта
bartlett_test = stats.bartlett(data['Price'][data['Rooms'] == 1],
                                data['Price'][data['Rooms'] == 2],
                                data['Price'][data['Rooms'] == 3])
print(f'Bartlett statistic: {bartlett_test.statistic}, p-value: {bartlett_test.pvalue}')
```

### 6.8. Тесты на некорректность спецификации модели

- **Тест Линк (Link Test)**: Этот тест используется для проверки правильности спецификации модели, выявляя, являются ли значимые предсказатели значимыми после включения в модель.

##### Пример теста Линк:

```python
# Создаем новую переменную, которая является квадратом предсказанного значения
data['fitted'] = model.predict()
data['fitted_sq'] = data['fitted']**2

# Оцениваем новую модель с добавлением этих переменных
link_model = smf.ols('Purchase ~ fitted + fitted_sq', data=data).fit()
print(link_model.summary())
```




## Вопросы для самопроверки


1. Что такое линейная регрессия и как она работает?
2. Как интерпретировать коэффициенты в модели линейной регрессии?
3. Что такое мультиколлинеарность и как её можно проверить?
4. Каковы основные предположения линейной регрессии?
5. Что такое гетероскедастичность и как её выявить?
6. Как проводить тест на нормальность остатков?
7. Что такое логистическая регрессия и в каких случаях её используют?
8. Каковы основные виды вероятностных распределений?
9. Что такое p-значение и как его интерпретировать?
10. Какова роль R-квадрат в оценке модели регрессии?
11. Что такое временной ряд и как его анализировать?
12. Каковы основные этапы построения модели ARIMA?
13. Что такое тест Дикки-Фуллера и для чего он нужен?
14. Как интерпретировать результаты теста Шапиро-Уилка?
15. Что такое автокорреляция и как её можно проверить?
16. Каковы основные методы визуализации данных?
17. Что такое GLM и как он отличается от линейной регрессии?
18. Как проводить тест Бартлетта на равенство дисперсий?
19. Каковы основные шаги в очистке и подготовке данных для анализа?
20. Как интерпретировать графики остатков модели регрессии?

## Задачи для самостоятельной работы


1. Постройте простую линейную регрессию на синтетических данных и проанализируйте результаты.
2. Создайте множественную линейную регрессию, используя реальные данные (например, о ценах на жилье).
3. Проведите тест на гетероскедастичность для модели линейной регрессии.
4. Проверьте нормальность остатков модели линейной регрессии с помощью теста Шапиро-Уилка.
5. Постройте график остатков для проверки предположений линейной регрессии.
6. Постройте модель логистической регрессии на синтетических данных и проанализируйте вероятность бинарного исхода.
7. Используйте GLM для анализа данных о количестве продаж в зависимости от различных факторов.
8. Проведите тест на мультиколлинеарность в модели GLM.
9. Сгенерируйте временной ряд с трендом и сезонностью и визуализируйте его.
10. Постройте модель ARIMA для временного ряда и проанализируйте результаты.
11. Прогнозируйте значения временного ряда на 10 шагов вперед с помощью модели ARIMA.
12. Проведите тест Дикки-Фуллера на стационарность временного ряда.
13. Постройте 3D-график для множественной линейной регрессии с двумя независимыми переменными.
14. Создайте график, показывающий предсказанные значения модели линейной регрессии на исходных данных.
15. Визуализируйте вероятности бинарного исхода с помощью контурного графика.
16. Проведите тест Дарбина-Уотсона для проверки автокорреляции остатков.
17. Выполните тест Бреуша-Пагана для проверки гетероскедастичности.
18. Проверьте спецификацию модели с помощью теста Линк.
19. Примените тест на равенство дисперсий (тест Левенберга) для сравнения двух групп.
20. Проведите тест на нормальность остатков с помощью теста Колмогорова-Смирнова.
21. Используйте тест Бартлетта для проверки равенства дисперсий в нескольких группах.
22. Проанализируйте значения p-уровней и коэффициентов в модели линейной регрессии.
23. Объясните, как интерпретировать коэффициенты в модели логистической регрессии.
24. Сравните результаты моделей с различными параметрами ARIMA.
25. Постройте модель предсказания цен на акции на основе исторических данных.
26. Используйте GLM для анализа влияния различных факторов на вероятность заболевания.
27. Проанализируйте временные ряды данных о продажах и постройте прогноз на следующий год.
28. Создайте функцию для автоматизации процесса построения и анализа линейной регрессии.
29. Проанализируйте данные о погоде и постройте модель для предсказания температуры.
30. Исследуйте влияние экономических показателей на уровень безработицы, используя статистические модели.
