In [1]:
from sklearn.datasets import load_boston
import pandas as pd
import numpy as np
data = pd.read_csv(load_boston()['filename'], skiprows=1)

In [2]:
data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2


In [3]:
print(load_boston()['DESCR'])

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

Создадим функции для просмотря результатов

In [4]:
#из склерна импортируем линейную регрессию  и метод для постройки модели
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

In [5]:
def get_score(X,y, random_seed=42, model=None):
    '''Функция возвращает % качества работы модели'''
    if model is None:
        model = LinearRegression()
        X_train, X_test, y_train, y_test=train_test_split(X, y, test_size=0.3, random_state=random_seed)
        model.fit(X_train, y_train)
        return model.score(X_test, y_test)

Проверим есть ли в нашем ДатаСете пропущенные значения

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     506 non-null    float64
 1   ZN       506 non-null    float64
 2   INDUS    506 non-null    float64
 3   CHAS     506 non-null    int64  
 4   NOX      506 non-null    float64
 5   RM       506 non-null    float64
 6   AGE      506 non-null    float64
 7   DIS      506 non-null    float64
 8   RAD      506 non-null    int64  
 9   TAX      506 non-null    int64  
 10  PTRATIO  506 non-null    float64
 11  B        506 non-null    float64
 12  LSTAT    506 non-null    float64
 13  MEDV     506 non-null    float64
dtypes: float64(11), int64(3)
memory usage: 55.5 KB


In [7]:
data[data['MEDV'] == None]

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV


Так как пропущенных значений нет, то функцию длоя заполнения пропусков мы создавать не будем

Также мы видим, что все наши данные количественные, давайте попробуем применить модель регрессии на всех признаках и посмотрим на результат

In [8]:
data.columns

Index(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX',
       'PTRATIO', 'B', 'LSTAT', 'MEDV'],
      dtype='object')

In [9]:
columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX',
       'PTRATIO', 'B', 'LSTAT']

In [10]:
get_score(data[columns], data['MEDV'])

0.7112260057484923

Исключим маловажные признаки для нашей целевой переменной, чтобы работать только со значимыми значениями

In [11]:
columns2 = ['CHAS',  'RM', 'RAD', 'TAX', 'LSTAT', 'PTRATIO', 'NOX',  'DIS',  'ZN']

In [12]:
get_score(data[columns2], data['MEDV'])

0.7183142507178619

Видим, что после исключения ненужных нам признаков, мы чуть улучшили работу нашей модели

Попробуем стандантизировать наши данные и привести их к единому масштабу

In [13]:
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()

In [14]:
data_st = pd.DataFrame(sc.fit_transform(data))
data_st

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,-0.419782,0.284830,-1.287909,-0.272599,-0.144217,0.413672,-0.120013,0.140214,-0.982843,-0.666608,-1.459000,0.441052,-1.075562,0.159686
1,-0.417339,-0.487722,-0.593381,-0.272599,-0.740262,0.194274,0.367166,0.557160,-0.867883,-0.987329,-0.303094,0.441052,-0.492439,-0.101524
2,-0.417342,-0.487722,-0.593381,-0.272599,-0.740262,1.282714,-0.265812,0.557160,-0.867883,-0.987329,-0.303094,0.396427,-1.208727,1.324247
3,-0.416750,-0.487722,-1.306878,-0.272599,-0.835284,1.016303,-0.809889,1.077737,-0.752922,-1.106115,0.113032,0.416163,-1.361517,1.182758
4,-0.412482,-0.487722,-1.306878,-0.272599,-0.835284,1.228577,-0.511180,1.077737,-0.752922,-1.106115,0.113032,0.441052,-1.026501,1.487503
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
501,-0.413229,-0.487722,0.115738,-0.272599,0.158124,0.439316,0.018673,-0.625796,-0.982843,-0.803212,1.176466,0.387217,-0.418147,-0.014454
502,-0.415249,-0.487722,0.115738,-0.272599,0.158124,-0.234548,0.288933,-0.716639,-0.982843,-0.803212,1.176466,0.441052,-0.500850,-0.210362
503,-0.413447,-0.487722,0.115738,-0.272599,0.158124,0.984960,0.797449,-0.773684,-0.982843,-0.803212,1.176466,0.441052,-0.983048,0.148802
504,-0.407764,-0.487722,0.115738,-0.272599,0.158124,0.725672,0.736996,-0.668437,-0.982843,-0.803212,1.176466,0.403225,-0.865302,-0.057989


In [15]:
get_score(data_st[[1,3,4,5,7,8,9,12]], data_st[13])

0.6846432623027774

Cтандартизация, только ухудшила нашу модель

Попробуем разделить нашу переменую PTRATIO на диапозон и посмотрим, как изменится качество нашей модели

In [16]:
data.PTRATIO.unique()

array([15.3, 17.8, 18.7, 15.2, 21. , 19.2, 18.3, 17.9, 16.8, 21.1, 17.3,
       15.1, 19.7, 18.6, 16.1, 18.9, 19. , 18.5, 18.2, 18. , 20.9, 19.1,
       21.2, 14.7, 16.6, 15.6, 14.4, 12.6, 17. , 16.4, 17.4, 15.9, 13. ,
       17.6, 14.9, 13.6, 16. , 14.8, 18.4, 19.6, 16.9, 20.2, 15.5, 18.8,
       22. , 20.1])

Значения варьируются от 12 до 22, разделим на 13-17 и 18-22

In [17]:
for ptratio in data['PTRATIO']:
    if ptratio > 12 and ptratio < 17:
        data['ptratio'] = 12
    elif ptratio > 17 and ptratio < 23:
        data['ptratio'] = 18

In [18]:
columns3 = ['CHAS',  'RM', 'RAD', 'TAX', 'LSTAT', 'ptratio', 'NOX',  'DIS',  'ZN']

In [19]:
get_score(data[columns3], data['MEDV'])

0.6846432623027771

Видим, что это тоже не помогло улучшить нашу модель

Создадим новую переменную, которая будет зависеть от стоимости налога и количества комнат

In [21]:
data['taxrm'] = data['TAX'] * data['RM']

In [27]:
columns4 = ['CHAS',  'RM', 'RAD', 'TAX', 'LSTAT', 'PTRATIO', 'NOX',  'DIS',  'ZN', 'taxrm']

In [28]:
get_score(data[columns4], data['MEDV'])

0.7694344346143375

Создадим аналогичну переменную с % населения низкого статуса населения

In [46]:
data['taxdis'] = data['TAX'] * data['LSTAT']

In [47]:
columns5 = ['CHAS',  'RM', 'RAD', 'TAX', 'LSTAT', 'PTRATIO', 'NOX',  'DIS',  'ZN', 'taxdis', 'taxrm']

In [48]:
get_score(data[columns5], data['MEDV'])

0.784408960154806

In [49]:
data.PTRATIO.unique()

array([15.3, 17.8, 18.7, 15.2, 21. , 19.2, 18.3, 17.9, 16.8, 21.1, 17.3,
       15.1, 19.7, 18.6, 16.1, 18.9, 19. , 18.5, 18.2, 18. , 20.9, 19.1,
       21.2, 14.7, 16.6, 15.6, 14.4, 12.6, 17. , 16.4, 17.4, 15.9, 13. ,
       17.6, 14.9, 13.6, 16. , 14.8, 18.4, 19.6, 16.9, 20.2, 15.5, 18.8,
       22. , 20.1])

Я бы еще хотела кластеризовать какую-нибудь переменную и посмотреть на результат модели, но этого у меня сделать не получилось

In [64]:
from sklearn.cluster import KMeans

In [76]:
kmeans = KMeans(n_clusters=3, random_state=0).fit(data[columns5])

In [67]:
kmeans

KMeans(n_clusters=3, random_state=0)