# Задача регрессии

In [166]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn import linear_model

## Первичный анализ данных

In [167]:
df = pd.DataFrame([
    dict(weight=80, age=42, height=182),
    dict(weight=71, age=25, height=176),
    dict(weight=44, age=30, height=165),
    dict(weight=40, age=14, height=159),
    dict(weight=45, age=22, height=164),
])
df

Unnamed: 0,age,height,weight
0,42,182,80
1,25,176,71
2,30,165,44
3,14,159,40
4,22,164,45


In [168]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
age       5 non-null int64
height    5 non-null int64
weight    5 non-null int64
dtypes: int64(3)
memory usage: 200.0 bytes


In [169]:
# Первичный анализ данных и формирование признаков рекомендуется проводить на обучающей выборке.
df.describe()

Unnamed: 0,age,height,weight
count,5.0,5.0,5.0
mean,26.6,169.2,56.0
std,10.382678,9.471008,18.179659
min,14.0,159.0,40.0
25%,22.0,164.0,44.0
50%,25.0,165.0,45.0
75%,30.0,176.0,71.0
max,42.0,182.0,80.0


## Подготовка данных

In [170]:
# Удаление записей с пропущенными значениями NaN.
df = df.dropna()

In [171]:
# Разделение выборки на тестовую и обучающую
X_train, X_test, y_train, y_test = train_test_split(df[['weight', 'age']], df['height'], test_size=0.33, random_state=42)
X_train

Unnamed: 0,weight,age
2,44,30
0,80,42
3,40,14


## Обучение модели

In [175]:
reg = linear_model.LinearRegression()
reg.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [176]:
# Коэф. уравнения, свободный коэф
reg.coef_, reg.intercept_

(array([0.37878788, 0.28030303]), 139.9242424242424)

In [177]:
reg.intercept_

139.9242424242424

## Оценка качества обучения

In [178]:
# Точность на обучающей выборке.
train_r2 = r2_score(y_train, reg.predict(X_train))
train_r2

1.0

In [179]:
# Точность на тестовой выборке.
test_r2 = r2_score(y_test, reg.predict(X_test))
test_r2

0.9239833626670738