# **Практика 8. Линейная регрессия.**

Работаем с датасетом по игрокам FIFA23.

Данные содержат следующие признаки: 

| Признак | Описание |
|------|----------|
| `Full name`  |  полное имя |
| `Value(in Euro)`  |  стоимость игрока (млн. евро) |
| `Overall`  |  общий рейтинг игрока |
| `Reactions`  |  оценка реакции игрока |
| `Dribbling Total`  | оценка владения мячом |
| `Passing Total`  |  оценка количества и точности передач |
| `Positions Played`  |  позиция на которой чаще всего играет футболист (фактическая) |
| `Best Position ` |  позиция на которой у игрока наилучшие показатели |
| `Nationality`  |  национальность игрока |
| `Club Name`  | клуб за который играет футболист |
| `Position check`  |  если P`ositions Played` совпадает с `Best Position`, то 1, иначе 0  |

In [2]:
import pandas as pd
df = pd.read_csv('data/FIFA2023_el.csv')

## **Задание 1**

>*Мы хотим построить линейную регрессиию, которая будет предсказывать как различные факторы влияют на стоимость игрока:*
>$$\text{Value} = w_1 \cdot \text{Position Check} + w_2 \cdot \text{Overall} + w_3 \cdot \text{Dribbling Total} + w_0  $$
>
>*Соотносите составляющие модели и термины регрессии:*
>* `Value` - Целевая / зависимая переменная
>* `Overall`, `PositionCheck`, `Dribbling Total` - Предикторы / независимые переменные
>* $w_0$, $w_1$, $w_2$, $w_3$ - Параметры регрессии
>* Футболист - Наблюдение


---

## **Задание 2**

>*Обучите модель из прошлого задания и заполните пустые поля в уравнении регрессии по получившимся результатам. Ответы округлите до двух знаков. Разделитель точка.*
>
>$$ \text{Value} = w_1 \cdot \text{PositionCheck} + w_2 \cdot \text{Overall} + w_3 \cdot \text{DribblingTotal} + w_0$$

<div style="background-color: rgba(0, 123, 255, 0.1); padding: 16px; border-radius: 8px;">

**АЛГОРИТМ РЕШЕНИЯ**

1. *Импортируйте библиотеку для построения регрессии:*  

```python
import statsmodels.api as sm
```

2. *Сохраните в отдельную переменную предикторы модели*  
3. *Сохраните в отдельную переменную целевой показатель*
4. *Добавьте константный признак к предикторам модели:*

```python
предикторы = sm.add_constant(предикторы)
```

5. *Обучите модель:*
```python
модель = sm.OLS(целевая, предикторы).fit()
```

6. *Выведите коэффициенты/параметры модели:*

```python
модель.params
```

7. *Округлите параметры до двух знаков после точки с помощью функции `round()`*
</div>

In [3]:
import statsmodels.api as sm

In [6]:
# предикторы
X = df[['Position check', 'Overall', 'Dribbling Total']]

# таргет
y = df['Value(in Euro)']

# добавляем константу
X = sm.add_constant(X)

# 4. обучаем линрег
model = sm.OLS(y, X).fit()

# 5. получаем коэф модели + округление
model.params.round(2)

const              3.38
Position check    -0.14
Overall            0.15
Dribbling Total    0.01
dtype: float64

## **Задание 3**

>*Интерпретируйте полученную модель. Количественные ответы округлите до двух знаков.*

>**`Position_Check`**
>
>- Если фактическая позиция игрока совпадает с лучшей, то это `уменьшит` его стоимость ``на` `0.14` млн евро

>**`Overall`**
>
>- Если общий рейтинг игрока увеличится на 1 пункт, то это `увеличит`  его стоимость `на` `0.15` млн евро.
 >- Если общий рейтинг игрока снизится на 2 пункта, то это  `снизит?`  его стоимость `на` `0.3` млн евро.

>**`Dribbling Total`**
>
>- Если общий рейтинг игрока увеличится на 1 пункт, то это `уменьшит`  его стоимость `на` `0.1` млн евро.

>**`Предсказания модели`**
>
>- Если фактическая позиция игрока **не совпадает** с лучшей, а общий рейтинг и уровень владения мячом равны 0, то стоимость такого игрока будет составлять `3.38` млн евро
>- Если фактическая позиция игрока **совпадает** с лучшей, а общий рейтинг равен 50, а уровень владения мячом 99, то стоимость такого игрока будет составлять  `11.73` млн евро


---

## **Задание 4**

>*Посчитайте среднеабсолютную ошибку. Ответ округлите до двух знаков.*
>
>$$\text{MAE} = \frac{\sum |y - \hat{y}|}{n}$$

In [7]:
y_pred = model.predict(X)

In [8]:
(y - y_pred).abs().mean().round(2)

np.float64(0.43)

---

## **Задание 5**

>*среднеквадратичную среднеабсолютную ошибку. Ответ округлите до двух знаков.*
>
>$$\text{MDE} = \frac{\sum (y - \hat{y})^2}{n}$$

In [9]:
((y - y_pred)**2).mean().round(2)

np.float64(0.32)

---

## **Задание 6**

>*Рассчитайте коэффициент детерминации модели. Ответ округлите до двух знаков. Используйте:*
>
>```python
>модель.rsquared
>```

In [11]:
model.rsquared.round(2)

np.float64(0.79)

---

## **Задание 7**

>Интерпретируйте метрики качества модели. Количественные ответы округлите до двух знаков.
>- Модель описывает вариацию `79.19` % данных.
>- В среднем модель ошибается на `0.43` млн евро.
>- Усредненный квадрат ошибки модели составляет  `0.32` млн евро$^2$.
>- Наименьший модуль ошибки модели на игроке  `Joel Mumbongo`  (**`Full Name`**).

In [15]:
(y - y_pred).abs().sort_values()

15471    0.000114
5067     0.000168
5070     0.000168
1930     0.000274
8239     0.000304
           ...   
14304    2.597371
17058    2.619976
16834    2.619976
14759    2.752713
15072    2.752713
Length: 18435, dtype: float64

In [17]:
df.iloc[15471]['Full Name']

'Joel Mumbongo'

### **Выводы**