In [2]:
import numpy as np
import pandas as pd
import random 
from sklearn.linear_model import LinearRegression

Предположим, что имеется датасет с данными о школах, и мы хотим рассчитать рейтинг каждого учебного заведения, используя информацию о результатах ЕГЭ

In [270]:
 # Создадим датасет
    
n_samples = 300
students = list(range(150, 200))
year = list(range(1990, 2019))
age = list(range(20, 65))
total_stud = np.random.choice(students, n_samples)  # общее число выпускников школы в 2020 году
highest_mark_stud = np.random.choice(150, n_samples)  # число учеников, сдавших ЕГЭ на 90-100 баллов
ege_of_teacher = np.random.choice(age, n_samples)  # средний возраст учителей школы
renov_year = np.random.choice(year, n_samples) #np.random.randint(0, 10)  # год капитального ремонта

# Рассчитаем рейтинг по формуле
range_school = highest_mark_stud / total_stud * 100 

data = pd.DataFrame({'total_stud': total_stud, 'highest_mark_stud': highest_mark_stud, 'ege_of_teacher': ege_of_teacher, 'renov_year': renov_year,'range_school': range_school})
data.head()

Unnamed: 0,total_stud,highest_mark_stud,ege_of_teacher,renov_year,range_school
0,184,29,50,1991,15.76087
1,199,33,53,2006,16.582915
2,184,5,60,1990,2.717391
3,177,3,61,2004,1.694915
4,169,53,33,1998,31.360947


In [271]:
# Тренируем модель с помощью линейной регрессии, находим коэффициенты и сдвиг, а также просчитываем ошибку

from sklearn.metrics import mean_absolute_error

X = data[['total_stud', 'highest_mark_stud', 'ege_of_teacher', 'renov_year']]
y = data['range_school']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['total_stud', 'highest_mark_stud', 'ege_of_teacher', 'renov_year']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [-0.24143602  0.57066767  0.01577106  0.01029638]
Bias: 21.487167817166508
Error: 1.6029700246066445


In [272]:
y.median()

39.88636363636364

Пример не очень показательный, тут и так все не очень плохо получилось. Тем не менее, проверим, как будет вести себя модель, если сократить количество переменных-признаков в ней

In [273]:
X = data[['total_stud', 'highest_mark_stud']]
y = data['range_school']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['total_stud', 'highest_mark_stud']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [-0.24161959  0.57055155]
Bias: 42.82401990447168
Error: 1.6112945697896812


In [274]:
# Создаем новый признак - это коэффициент 
data['coeff'] = data['highest_mark_stud'] / data['total_stud']
data.head(5)

Unnamed: 0,total_stud,highest_mark_stud,ege_of_teacher,renov_year,range_school,coeff
0,184,29,50,1991,15.76087,0.157609
1,199,33,53,2006,16.582915,0.165829
2,184,5,60,1990,2.717391,0.027174
3,177,3,61,2004,1.694915,0.016949
4,169,53,33,1998,31.360947,0.313609


In [275]:
#  и потренируем модель 
X = data[['coeff']]
y = data['range_school']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['coeff']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [100.]
Bias: 0.0
Error: 0.0
