# Цены на женские золотые кольца с бриллиантами

### 1. Импорт библиотек и чтение данных из файла

In [77]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import scipy.stats as stats
import statsmodels.api as sm
import statsmodels
import matplotlib.pyplot as plt
import pandas as pd

df = pd.read_csv("diamond.dat", sep='\s+', names=['carat', 'price'])
df.head()

Unnamed: 0,carat,price
0,0.17,355
1,0.16,328
2,0.17,350
3,0.18,325
4,0.25,642


### 2. Создание переменных для регрессии: 
 - ### независимых: $X$, $X^2$,  вместе $X$ и $X^2$
 - ### и засимой: $Y$

In [14]:
# Вес бриллианта в каратах
X = df['carat'].values.reshape((-1, 1))

# Создаем новый признак, возведя вес в квадрат
X_squared = X**2

# Объединяем исходный вес и его квадрат в одну матрицу признаков
X_combined = np.hstack([X, X_squared])

# Цена кольца в сингапурских долларах
Y = df['price'].values

### 3. Создание линейной регрессионной модеди 
#### 3.1 регрессия между $X$ и $Y$
      

In [100]:
x = sm.add_constant(X)
olsmod = sm.OLS(Y, x)
olsres = olsmod.fit()
predicted_value = olsres.predict(np.array([[1, 0.31]]))
print(f'Предсказанное значение для {[1, 0.31]}, равно {predicted_value[0]:.1f}')

summary = olsres.summary()
print(f'Коэф. детерминации = {summary.tables[0][0].data[3].lstrip(" ")}')
print(f'Коэф. детерминации с поправкой = {summary.tables[0][1].data[3].lstrip(" ")}')
summary.tables = summary.tables[1:]
summary

Предсказанное значение для [1, 0.31], равно 893.9
Коэф. детерминации = 0.978
Коэф. детерминации с поправкой = 0.978


0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,-259.6259,17.319,-14.991,0.000,-294.487,-224.765
x1,3721.0249,81.786,45.497,0.000,3556.398,3885.651

0,1,2,3
Omnibus:,0.739,Durbin-Watson:,1.994
Prob(Omnibus):,0.691,Jarque-Bera (JB):,0.181
Skew:,0.056,Prob(JB):,0.913
Kurtosis:,3.28,Cond. No.,18.5


#### 3.2 регрессия между $X^2$ и $Y$

In [94]:
x = sm.add_constant(X_squared)
olsmod = sm.OLS(Y, x)
olsres = olsmod.fit()
predicted_value = olsres.predict(np.array([[1, 0.31**2]]))
print(f'Предсказанное значение для {[1, 0.31**2]}^2, равно {predicted_value[0]:.1f}')

summary = olsres.summary()
print(f'Коэф. детерминации = {summary.tables[0][0].data[3].lstrip(" ")}')
print(f'Коэф. детерминации с поправкой = {summary.tables[0][1].data[3].lstrip(" ")}')
summary.tables = summary.tables[1:]
summary

Предсказанное значение для [1, 0.0961]^2, равно 909.8
Коэф. детерминации = 0.970


0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,141.6590,10.691,13.250,0.000,120.139,163.179
x1,7993.1081,206.149,38.774,0.000,7578.152,8408.064

0,1,2,3
Omnibus:,3.754,Durbin-Watson:,1.888
Prob(Omnibus):,0.153,Jarque-Bera (JB):,2.765
Skew:,0.559,Prob(JB):,0.251
Kurtosis:,3.361,Cond. No.,38.5


#### 3.3 регрессия между $(X, X^2)$ и $Y$

In [101]:
x = sm.add_constant(X_combined)
olsmod = sm.OLS(Y, x)
olsres = olsmod.fit()
predicted_value = olsres.predict(np.array([[1, 0.31, 0.31**2]]))
print(f'Предсказанное значение для {[1, 0.31, 0.31**2]}, равно {predicted_value[0]:.1f}')

summary = olsres.summary()
print(f'Коэф. детерминации = {summary.tables[0][0].data[3].lstrip(" ")}')
print(f'Коэф. детерминации с поправкой = {summary.tables[0][1].data[3].lstrip(" ")}')
summary.tables = summary.tables[1:]
summary

Предсказанное значение для [1, 0.31, 0.0961], равно 898.3
Коэф. детерминации = 0.979
Коэф. детерминации с поправкой = 0.978


0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,-174.1301,74.238,-2.346,0.023,-323.653,-24.607
x1,2920.1306,681.297,4.286,0.000,1547.928,4292.333
x2,1739.9016,1469.472,1.184,0.243,-1219.767,4699.570

0,1,2,3
Omnibus:,1.961,Durbin-Watson:,1.945
Prob(Omnibus):,0.375,Jarque-Bera (JB):,1.075
Skew:,0.215,Prob(JB):,0.584
Kurtosis:,3.593,Cond. No.,362.0


### 4. Интерпретация результатов

Модель регрессии между $(X, X^2)$ и $Y$ и модель регрессии между $X$ и $Y$ показали одинаковый коэффициент детерминации со штрафом за кол-во независимых переменных, равный 0,978. Однако первая модель имеет коэффициент детерминации 0,979, а вторая - 0,978.  
Третья же модель - между $X^2$ и $Y$, показала наихудший результат (коэф. детерминации 0,970)

Наиболее качественной моделью является модель регрессии между $X$ и $Y$, т.к. метрика Omnibus более близка к <b>1</b>, что характеризует близость распределения остатков к нормальному.

Модель предсказывает, что цена кольца с бриллиантом весом 0,31 карата составит примерно 894 сингапурских долларов.