In [5]:
import numpy as np
import pandas as pd

from sklearn.linear_model import LinearRegression

In [105]:
from sklearn.datasets import load_boston
import pandas as pd
data = pd.read_csv(load_boston()['filename'], skiprows=1)

In [49]:
data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2


* **CRIM:** это уровень преступности на душу населения по городу
* **ZN:** это доля жилой земли, зонированной для участков более 25 000 кв. Футов.
* **INDUS:** Это доля не торговых площадей в каждом городе.
* **CHAS:** это фиктивная переменная реки Чарльз (она равна 1, если тракт ограничивает реку; в противном случае 0)
* **NOX:** это концентрация оксидов азота (частей на 10 миллионов)
* **RM:** это среднее количество комнат на одно жилище
* **AGE:** Это доля занятых владельцем единиц, построенных до 1940 г.
* **DIS:** это взвешенные расстояния до пяти бостонских центров занятости
* **RAD:** это индекс доступности радиальных магистралей
* **TAX:** это полная стоимость налога на имущество на 10000 долларов
* **PTRATIO:** Это соотношение учеников и учителей по городам.
* **B:** Это рассчитывается как 1000 (Bk - 0,63) ², где Bk - это доля людей афроамериканского происхождения по городам.
* **LSTAT:** это процент населения c низким статусом
* **MEDV:** это средняя стоимость домов, занимаемых владельцами, в 1000 долларов.

In [11]:
print(load_boston()['DESCR'])


.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

посмотрим какие типы данных содержит датасет, почистим от пропусков и избавимся от обьектов при необходимости

In [10]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     506 non-null    float64
 1   ZN       506 non-null    float64
 2   INDUS    506 non-null    float64
 3   CHAS     506 non-null    int64  
 4   NOX      506 non-null    float64
 5   RM       506 non-null    float64
 6   AGE      506 non-null    float64
 7   DIS      506 non-null    float64
 8   RAD      506 non-null    int64  
 9   TAX      506 non-null    int64  
 10  PTRATIO  506 non-null    float64
 11  B        506 non-null    float64
 12  LSTAT    506 non-null    float64
 13  MEDV     506 non-null    float64
dtypes: float64(11), int64(3)
memory usage: 55.5 KB


данные хорошие, без пропусков, все имеет числовые значения
теперь разберемся по порядку какие данные нам нужны, а от каких можно избавиться
medv это средняя стоимость дома, тк нам нужно предсказать данную переменную, подумаем что на нее влияет

In [35]:
X = data[['CRIM','ZN','INDUS','CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']]
y = data['MEDV']

In [36]:
# from sklearn.model_selection import train_test_split
# train_test_split(X, y, test_size=0.2, random_state=30)

In [38]:
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(X)
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [-1.08011358e-01  4.64204584e-02  2.05586264e-02  2.68673382e+00
 -1.77666112e+01  3.80986521e+00  6.92224640e-04 -1.47556685e+00
  3.06049479e-01 -1.23345939e-02 -9.52747232e-01  9.31168327e-03
 -5.24758378e-01]
Bias: 36.459488385090005
Error: 3.270862810900314


0    471
1     35
Name: CHAS, dtype: int64

In [43]:
data.corr()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
CRIM,1.0,-0.200469,0.406583,-0.055892,0.420972,-0.219247,0.352734,-0.37967,0.625505,0.582764,0.289946,-0.385064,0.455621,-0.388305
ZN,-0.200469,1.0,-0.533828,-0.042697,-0.516604,0.311991,-0.569537,0.664408,-0.311948,-0.314563,-0.391679,0.17552,-0.412995,0.360445
INDUS,0.406583,-0.533828,1.0,0.062938,0.763651,-0.391676,0.644779,-0.708027,0.595129,0.72076,0.383248,-0.356977,0.6038,-0.483725
CHAS,-0.055892,-0.042697,0.062938,1.0,0.091203,0.091251,0.086518,-0.099176,-0.007368,-0.035587,-0.121515,0.048788,-0.053929,0.17526
NOX,0.420972,-0.516604,0.763651,0.091203,1.0,-0.302188,0.73147,-0.76923,0.611441,0.668023,0.188933,-0.380051,0.590879,-0.427321
RM,-0.219247,0.311991,-0.391676,0.091251,-0.302188,1.0,-0.240265,0.205246,-0.209847,-0.292048,-0.355501,0.128069,-0.613808,0.69536
AGE,0.352734,-0.569537,0.644779,0.086518,0.73147,-0.240265,1.0,-0.747881,0.456022,0.506456,0.261515,-0.273534,0.602339,-0.376955
DIS,-0.37967,0.664408,-0.708027,-0.099176,-0.76923,0.205246,-0.747881,1.0,-0.494588,-0.534432,-0.232471,0.291512,-0.496996,0.249929
RAD,0.625505,-0.311948,0.595129,-0.007368,0.611441,-0.209847,0.456022,-0.494588,1.0,0.910228,0.464741,-0.444413,0.488676,-0.381626
TAX,0.582764,-0.314563,0.72076,-0.035587,0.668023,-0.292048,0.506456,-0.534432,0.910228,1.0,0.460853,-0.441808,0.543993,-0.468536


посмотрим на модель исключив малокоррелирующие значения с переменной MEDV

In [44]:
data.drop(['CHAS', 'CRIM', 'ZN', 'AGE',  'DIS', 'RAD', 'B'], axis=1, inplace=True)

In [45]:
data.head()

Unnamed: 0,INDUS,NOX,RM,TAX,PTRATIO,LSTAT,MEDV
0,2.31,0.538,6.575,296,15.3,4.98,24.0
1,7.07,0.469,6.421,242,17.8,9.14,21.6
2,7.07,0.469,7.185,242,17.8,4.03,34.7
3,2.18,0.458,6.998,222,18.7,2.94,33.4
4,2.18,0.458,7.147,222,18.7,5.33,36.2


In [46]:
X = data[['INDUS', 'NOX', 'RM','TAX', 'PTRATIO', 'LSTAT']]
y = data['MEDV']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(X)
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [ 8.71873392e-02 -3.40311735e+00  4.65592779e+00 -2.90110504e-03
 -9.13819473e-01 -5.45934588e-01]
Bias: 19.145818460578578
Error: 3.6089437030962395


ничего особо не поменялось ((
посмотрим на признаки отдельно 


In [50]:
data['CHAS'].value_counts() #ybiraem

0    471
1     35
Name: CHAS, dtype: int64

In [53]:
data['CRIM'].median()

0.25651

In [66]:
data[data['CRIM']>0.25]['MEDV'].mean()

20.087890625000007

In [67]:
data[data['CRIM']<0.25]['MEDV'].mean()

25.03640000000001

можно сделать вывод что уровень криминала влияет на цену чем меньше криминал тем больше цена

In [106]:
data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2


In [107]:
data.ZN.value_counts()

0.0      372
20.0      21
80.0      15
12.5      10
22.0      10
25.0      10
40.0       7
45.0       6
30.0       6
90.0       5
21.0       4
95.0       4
60.0       4
33.0       4
75.0       3
35.0       3
28.0       3
55.0       3
52.5       3
70.0       3
34.0       3
85.0       2
82.5       2
17.5       1
100.0      1
18.0       1
Name: ZN, dtype: int64

нулевые значения заменим на среднее

In [111]:
data['ZN'] = data['ZN'].replace( 0, data['ZN'].mean())
data.ZN.value_counts()

11.363636     372
20.000000      21
80.000000      15
12.500000      10
25.000000      10
22.000000      10
40.000000       7
30.000000       6
45.000000       6
90.000000       5
95.000000       4
21.000000       4
60.000000       4
33.000000       4
35.000000       3
28.000000       3
55.000000       3
52.500000       3
70.000000       3
34.000000       3
75.000000       3
82.500000       2
85.000000       2
17.500000       1
100.000000      1
18.000000       1
Name: ZN, dtype: int64

много дублирующих значений, думаю этот показатель неинформативный, лучше исключить

In [123]:
data.INDUS.median()

9.69

In [143]:
data[data['INDUS']>9.69]['MEDV'].mean() #da

18.604032258064525

In [140]:
data[data['CHAS']==0]['MEDV'].mean() #net

22.093842887473482

In [139]:
data[data['AGE']>77.5]['MEDV'].mean() #оставим

19.25889328063241

In [144]:
data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
1,0.02731,11.363636,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
2,0.02729,11.363636,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,11.363636,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,11.363636,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2


In [145]:
data.NOX.median()

0.5379999999999999

In [147]:
data[data['NOX']<0.53]['MEDV'].mean() #da,чем меньше азота тем больше цена

26.397540983606564

In [148]:
data.RM.median()

6.208499999999999

In [153]:
data[data['RM']<6.2]['MEDV'].mean() #da

18.243426294820736

In [154]:
data.DIS.median()

3.2074499999999997

In [156]:
data[data['DIS']>3.2]['MEDV'].mean() #da

25.037944664031638

In [160]:
data.RAD.median()

5.0

In [165]:
data[data['RAD']>5]['MEDV'].mean() #net

19.598492462311558

In [166]:
data.B.value_counts()

396.90    121
395.24      3
393.74      3
393.23      2
394.72      2
         ... 
394.46      1
288.99      1
390.30      1
248.31      1
390.50      1
Name: B, Length: 357, dtype: int64

In [168]:
data['PTRATIO'].value_counts()

20.2    140
14.7     34
21.0     27
17.8     23
19.2     19
17.4     18
18.6     17
19.1     17
16.6     16
18.4     16
21.2     15
15.2     13
13.0     12
20.9     11
17.9     11
18.7      9
19.7      8
19.6      8
17.6      7
16.4      6
18.0      5
16.0      5
20.1      5
16.1      5
16.9      5
16.8      4
14.9      4
19.0      4
18.5      4
17.0      4
18.2      4
18.3      4
12.6      3
14.8      3
18.9      3
15.3      3
15.9      2
22.0      2
15.6      2
18.8      2
15.5      1
17.3      1
15.1      1
21.1      1
13.6      1
14.4      1
Name: PTRATIO, dtype: int64

In [169]:
data.drop(['CHAS', 'RAD','B','PTRATIO'], axis=1, inplace=True)

In [170]:
X = data[['CRIM','ZN','INDUS', 'NOX', 'RM', 'AGE', 'DIS', 'TAX', 'LSTAT']]
y = data['MEDV']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(X)
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [-9.00396090e-02  7.55073168e-02 -8.45325094e-02 -7.11497585e+00
  4.50235112e+00 -5.15226733e-03 -1.56339939e+00 -6.15671960e-03
 -5.69702179e-01]
Bias: 13.970112688818325
Error: 3.645538246368788


не понимаю почему но ошибка стала еще больше, я в недоумении...

ошибку уменьшить нельзя, может нехватает наоборот какого то показателя