In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv('datasets/diamonds.csv', index_col=0)
df.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [6]:
# мы будем предсказывать цену с помощью машинного обучения
# для этого нам надо конвертнуть все столбцы в числа
df['color'].unique()

array(['E', 'I', 'J', 'H', 'F', 'G', 'D'], dtype=object)

In [8]:
# создаем словари, чтобы потом заменить значения колонок на значения из словарей
cut_class_dict = {'Fair' : 1, 'Good' : 2, 'Very Good' : 3, 'Premium' : 4, 'Ideal' : 5}
clarity_dict = {'I3' : 1, 'I2' : 2, 'I1' : 3, 'SI2' : 4, 'SI1' :5, 'VS2' : 6, 'VS1' : 7, 'VVS2' : 8, 'VVS1' : 9, 'IF' : 10}
color_dict = {'J' : 1, 'I' : 2, 'H' : 3, 'G' : 4,  'F' : 5, 'E' : 6, 'D' : 7}

df['cut'] = df['cut'].map(cut_class_dict)
df['clarity'] = df['clarity'].map(clarity_dict)
df['color'] = df['color'].map(color_dict)

In [9]:
df.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
1,0.23,5,6,4,61.5,55.0,326,3.95,3.98,2.43
2,0.21,4,6,5,59.8,61.0,326,3.89,3.84,2.31
3,0.23,2,6,7,56.9,65.0,327,4.05,4.07,2.31
4,0.29,4,2,6,62.4,58.0,334,4.2,4.23,2.63
5,0.31,2,1,4,63.3,58.0,335,4.34,4.35,2.75


In [17]:
import sklearn
from sklearn import svm, preprocessing

# мы мешаем наши данные, т.к они отсортированны, а нам это не подходит для регрессивной модели
df = sklearn.utils.shuffle(df)

# список характеристик благодаря которым мы будем предугадывать цену алмазов
X = df.drop('price', axis=1).values
X = preprocessing.scale(X)
# то, что мы предугадываем, в нашем случае - цена
y = df['price'].values

# размер подаваемых данных
test_size = 200

X_train = X[:-test_size]
y_train = y[:-test_size]

X_test = X[-test_size:]
y_test = y[-test_size:]

clf = svm.SVR(kernel='linear')
clf.fit(X_train, y_train)

SVR(C=1.0, cache_size=200, coef0=0.0, degree=3, epsilon=0.1,
    gamma='auto_deprecated', kernel='linear', max_iter=-1, shrinking=True,
    tol=0.001, verbose=False)

In [18]:
# 0 - плохо, чем ближе к 1, тем лучше
clf.score(X_test, y_test)

0.9117500862865238

In [19]:
# посмотрим насколько наша модель близка к правде
for X, y in zip(X_test, y_test):
    print(f'Model: {clf.predict([X])[0]}, Actual: {y}')

Model: -50.039012074013044, Actual: 698
Model: 392.4327567794908, Actual: 870
Model: -259.2404646296168, Actual: 512
Model: 14649.837098077598, Actual: 14975
Model: 4123.874606403973, Actual: 4193
Model: 8998.413896534128, Actual: 10275
Model: 6097.737637385368, Actual: 5436
Model: 8284.819917259396, Actual: 6112
Model: 2967.549049405099, Actual: 2911
Model: 3223.1758952511123, Actual: 3251
Model: 6147.699453292389, Actual: 4986
Model: 8285.24732927369, Actual: 12467
Model: 343.4965977046295, Actual: 658
Model: 4395.153071621195, Actual: 4228
Model: -555.2711332043336, Actual: 394
Model: 5091.534603288474, Actual: 4366
Model: 2729.6328794947663, Actual: 2406
Model: 11689.696614474182, Actual: 12271
Model: 9174.583973743755, Actual: 13828
Model: 1382.1575666803656, Actual: 1192
Model: 3238.9312654906676, Actual: 2954
Model: 307.6938766867502, Actual: 571
Model: -89.52195407752788, Actual: 475
Model: 424.41912408170674, Actual: 906
Model: 835.5218971414765, Actual: 969
Model: 1514.906336

In [20]:
# возьмем новую модель 
clf = svm.SVR(kernel='rbf')
clf.fit(X_train, y_train)



SVR(C=1.0, cache_size=200, coef0=0.0, degree=3, epsilon=0.1,
    gamma='auto_deprecated', kernel='rbf', max_iter=-1, shrinking=True,
    tol=0.001, verbose=False)

In [21]:
# 0 - плохо, чем ближе к 1, тем лучше
clf.score(X_test, y_test)

0.5546348320147707

In [22]:
# посмотрим насколько наша модель близка к правде
for X, y in zip(X_test, y_test):
    print(f'Model: {clf.predict([X])[0]}, Actual: {y}')

Model: 763.5055076365497, Actual: 698
Model: 1041.9694089504965, Actual: 870
Model: 905.9241278483692, Actual: 512
Model: 4406.719438570532, Actual: 14975
Model: 3884.9881051755897, Actual: 4193
Model: 5971.622317385223, Actual: 10275
Model: 5559.119996790382, Actual: 5436
Model: 4598.5798476830405, Actual: 6112
Model: 2866.865218490419, Actual: 2911
Model: 3160.445596920941, Actual: 3251
Model: 5410.560628722709, Actual: 4986
Model: 5852.532582915834, Actual: 12467
Model: 712.9067110223386, Actual: 658
Model: 4163.699849165615, Actual: 4228
Model: 863.965572759098, Actual: 394
Model: 5123.895884209435, Actual: 4366
Model: 2450.6813843737896, Actual: 2406
Model: 5895.488163511433, Actual: 12271
Model: 6917.124908098669, Actual: 13828
Model: 973.4527146376231, Actual: 1192
Model: 3121.4229516050355, Actual: 2954
Model: 982.1878716049214, Actual: 571
Model: 576.803112767293, Actual: 475
Model: 511.28092476359507, Actual: 906
Model: 998.4124309387475, Actual: 969
Model: 1302.9157474072142