In [1]:
import pandas as pd
from statsmodels.formula.api import ols
import seaborn as sns

In [2]:
dia = sns.load_dataset('diamonds')
dia.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [3]:
dia_org = dia.copy(deep=True)

In [4]:
dia_org.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [5]:
dia.cut.unique()

['Ideal', 'Premium', 'Good', 'Very Good', 'Fair']
Categories (5, object): ['Ideal', 'Premium', 'Very Good', 'Good', 'Fair']


다이아몬드 데이터셋에서 'cut' 열은 다이아몬드의 컷(엣지의 형태)을 나타냅니다. 다이아몬드의 컷은 다이아몬드가 광을 얼마나 잘 반사하는지에 대한 중요한 특성 중 하나입니다. 이 'cut' 열은 다섯 가지 범주로 나뉘어 있습니다.

- Fair: 컷이 균등하지 않고 보통 다이아몬드의 가격이 저렴합니다.
- Good: 컷이 괜찮고 가격대도 저렴합니다.
- Very Good: 좋은 컷을 가진 다이아몬드로, 높은 광택을 가지며 가격도 높습니다.
- Premium: 더욱 우수한 컷을 가지며, 높은 광택과 높은 가격을 가지는 다이아몬드입니다.
- Ideal: 가장 뛰어난 컷을 가지며, 최상의 광택과 가장 높은 가격을 가지는 다이아몬드입니다.


이러한 컷 범주들은 다이아몬드의 품질과 가격에 중요한 영향을 미칩니다. 일반적으로 'Ideal'과 'Premium' 컷을 가진 다이아몬드가 높은 품질과 가격을 가지며, 'Fair'나 'Good' 컷을 가진 다이아몬드는 일반적으로 더 저렴합니다. Seaborn을 사용하여 시각화할 때 'cut' 열을 활용하면 다이아몬드의 컷에 따른 데이터의 분포를 확인할 수 있습니다.

In [6]:
dia.shape

(53940, 10)

In [7]:
cut_mapping = {
    'Ideal': 5,
    'Premium': 4,
    'Very Good': 3,
    'Good': 2,
    'Fair': 1
}

# 데이터 프레임의 범주형 데이터를 사용자가 지정한 레이블로 매핑합니다.
dia['cut'] = dia['cut'].map(cut_mapping)
dia.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,5,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,4,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,2,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,4,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,2,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [9]:
dia.cut.unique()

[5, 4, 2, 3, 1]
Categories (5, int64): [5, 4, 3, 2, 1]

In [10]:
dia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53940 entries, 0 to 53939
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   carat    53940 non-null  float64 
 1   cut      53940 non-null  category
 2   color    53940 non-null  category
 3   clarity  53940 non-null  category
 4   depth    53940 non-null  float64 
 5   table    53940 non-null  float64 
 6   price    53940 non-null  int64   
 7   x        53940 non-null  float64 
 8   y        53940 non-null  float64 
 9   z        53940 non-null  float64 
dtypes: category(3), float64(6), int64(1)
memory usage: 3.0 MB


In [11]:
dia['cut'] = dia['cut'].astype(int)

In [12]:
dia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53940 entries, 0 to 53939
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   carat    53940 non-null  float64 
 1   cut      53940 non-null  int32   
 2   color    53940 non-null  category
 3   clarity  53940 non-null  category
 4   depth    53940 non-null  float64 
 5   table    53940 non-null  float64 
 6   price    53940 non-null  int64   
 7   x        53940 non-null  float64 
 8   y        53940 non-null  float64 
 9   z        53940 non-null  float64 
dtypes: category(2), float64(6), int32(1), int64(1)
memory usage: 3.2 MB


In [13]:
dia.color.unique()

['E', 'I', 'J', 'H', 'F', 'G', 'D']
Categories (7, object): ['D', 'E', 'F', 'G', 'H', 'I', 'J']

다이아몬드의 색상은 귀금속의 순도를 나타내며, 일반적으로 다음과 같이 등급이 매겨집니다.

- D: 가장 높은 등급으로, 완벽하게 투명하고 무색한 다이아몬드입니다.  - E: 눈으로 구별하기 매우 어려운 투명한 다이아몬드입니다  .
- 
F: 눈으로 구별하기 어려운 투명한 다이아몬드입 .
- 
G: 보통의 투명도를 가지며 무색에 가까운 다이아몬 - 다- .
H: 조금 노란 빛이 도는 다이드입- 니- 다.
I: 약간의 노란 빛을 띄는 아 드- 입- 니다.
J: 노란 빛이 도다이아  .드입니다.

In [14]:
color_mapping = {
    'D': 7,
    'E': 6,
    'F': 5,
    'G': 4,
    'H': 3,
    'I': 2,
    'J': 1
}

# 데이터 프레임의 범주형 데이터를 사용자가 지정한 레이블로 매핑합니다.
dia['color'] = dia['color'].map(color_mapping)
dia.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,5,6,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,4,6,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,2,6,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,4,2,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,2,1,SI2,63.3,58.0,335,4.34,4.35,2.75


In [15]:
dia.color.unique()

[6, 2, 1, 3, 5, 4, 7]
Categories (7, int64): [7, 6, 5, 4, 3, 2, 1]

In [16]:
dia['color'] = dia['color'].astype(int)

In [17]:
dia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53940 entries, 0 to 53939
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   carat    53940 non-null  float64 
 1   cut      53940 non-null  int32   
 2   color    53940 non-null  int32   
 3   clarity  53940 non-null  category
 4   depth    53940 non-null  float64 
 5   table    53940 non-null  float64 
 6   price    53940 non-null  int64   
 7   x        53940 non-null  float64 
 8   y        53940 non-null  float64 
 9   z        53940 non-null  float64 
dtypes: category(1), float64(6), int32(2), int64(1)
memory usage: 3.3 MB


In [18]:
dia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53940 entries, 0 to 53939
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   carat    53940 non-null  float64 
 1   cut      53940 non-null  int32   
 2   color    53940 non-null  int32   
 3   clarity  53940 non-null  category
 4   depth    53940 non-null  float64 
 5   table    53940 non-null  float64 
 6   price    53940 non-null  int64   
 7   x        53940 non-null  float64 
 8   y        53940 non-null  float64 
 9   z        53940 non-null  float64 
dtypes: category(1), float64(6), int32(2), int64(1)
memory usage: 3.3 MB


In [19]:
dia.clarity.unique()

['SI2', 'SI1', 'VS1', 'VS2', 'VVS2', 'VVS1', 'I1', 'IF']
Categories (8, object): ['IF', 'VVS1', 'VVS2', 'VS1', 'VS2', 'SI1', 'SI2', 'I1']

In [20]:
clarity_mapping = {
    'IF':8,
    'VVS1': 7,
    'VVS2': 6,
    'VS1': 5,
    'VS2': 4,
    'SI1': 3,
    'SI2': 2,
    'I1': 1
}

# 데이터 프레임의 범주형 데이터를 사용자가 지정한 레이블로 매핑합니다.
dia['clarity'] = dia['clarity'].map(clarity_mapping)
dia.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,5,6,2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,4,6,3,59.8,61.0,326,3.89,3.84,2.31
2,0.23,2,6,5,56.9,65.0,327,4.05,4.07,2.31
3,0.29,4,2,4,62.4,58.0,334,4.2,4.23,2.63
4,0.31,2,1,2,63.3,58.0,335,4.34,4.35,2.75


In [21]:
dia.clarity.unique()

[2, 3, 5, 4, 6, 7, 1, 8]
Categories (8, int64): [8, 7, 6, 5, 4, 3, 2, 1]

In [23]:
dia['clarity'] = dia['clarity'].astype(int)

In [24]:
dia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53940 entries, 0 to 53939
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   carat    53940 non-null  float64
 1   cut      53940 non-null  int32  
 2   color    53940 non-null  int32  
 3   clarity  53940 non-null  int32  
 4   depth    53940 non-null  float64
 5   table    53940 non-null  float64
 6   price    53940 non-null  int64  
 7   x        53940 non-null  float64
 8   y        53940 non-null  float64
 9   z        53940 non-null  float64
dtypes: float64(6), int32(3), int64(1)
memory usage: 3.5 MB


In [27]:
dia.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,5,6,2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,4,6,3,59.8,61.0,326,3.89,3.84,2.31
2,0.23,2,6,5,56.9,65.0,327,4.05,4.07,2.31
3,0.29,4,2,4,62.4,58.0,334,4.2,4.23,2.63
4,0.31,2,1,2,63.3,58.0,335,4.34,4.35,2.75


In [31]:
independent_variable_columns =  dia.columns.difference(['price']).tolist()
independent_variable_columns

['carat', 'clarity', 'color', 'cut', 'depth', 'table', 'x', 'y', 'z']

In [33]:
formula = 'price ~ ' + '+'.join(independent_variable_columns)
formula

'price ~ carat+clarity+color+cut+depth+table+x+y+z'

In [34]:
lm = ols(formula, data=dia).fit()

In [36]:
dependent_variable = dia['price']
dependent_variable.head()

0    326
1    326
2    327
3    334
4    335
Name: price, dtype: int64

In [38]:
# quality와 type을 제외한 나머지 열을 독립변수로 활용
independent_variables = dia[dia.columns.difference(['price'])]
independent_variables.head()

Unnamed: 0,carat,clarity,color,cut,depth,table,x,y,z
0,0.23,2,6,5,61.5,55.0,3.95,3.98,2.43
1,0.21,3,6,4,59.8,61.0,3.89,3.84,2.31
2,0.23,5,6,2,56.9,65.0,4.05,4.07,2.31
3,0.29,4,2,4,62.4,58.0,4.2,4.23,2.63
4,0.31,2,1,2,63.3,58.0,4.34,4.35,2.75


In [39]:
y_predicted = lm.predict(independent_variables)
y_predicted.head()

0    -946.994882
1    -755.622247
2     215.465535
3   -1076.617606
4   -2622.602014
dtype: float64

In [40]:
y_predicted = y_predicted.apply(lambda x: 0 if x < 0 else x)
y_predicted.head()

0      0.000000
1      0.000000
2    215.465535
3      0.000000
4      0.000000
dtype: float64

In [None]:
# import numpy as np
# y_predicted = np.maximum(0, y_predicted)

In [41]:
total_count = 0
index = 0
total_number = len(y_predicted)
total_correct = 0
delta = 0.3
print("인덱스\t|예측값\t|실제값")
while index < total_number:
    if index<10:
        print(f'{index+1}\t|{y_predicted[index]}\t|{dependent_variable[index]}')

    diff = abs(y_predicted[index] - dependent_variable.values[index])

    if (diff / dependent_variable.values[index]) < delta:
        total_correct+=1
    index+=1

print(f'\n전체 관찰 계수: {total_number}')
print(f'정답수: {total_correct}')
print(f'정답률: {(total_correct/total_number)*100} %')

인덱스	|예측값	|실제값
1	|0.0	|326
2	|0.0	|326
3	|215.46553545582776	|327
4	|0.0	|334
5	|0.0	|335
6	|0.0	|336
7	|18.910068965568826	|336
8	|0.0	|337
9	|0.0	|337
10	|0.0	|338

전체 관찰 계수: 53940
정답수: 33793
정답률: 62.649239896180944 %
