In [None]:
# https://www.kaggle.com/code/nimapourmoradi/red-wine-quality/input?select=winequality-red.csv

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("data/winequality-red.csv")
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [None]:
# | 컬럼명                      | 설명                                                              
# | ------------------------ | -----------------------------------------------------------------
# | **fixed acidity**        | 고정산도: 와인의 주요 산 성분 (주로 타르타르산, 구연산 등). 증류 과정에서도 휘발되지 않음
# | **volatile acidity**     | 휘발산도: 와인 속에서 쉽게 휘발되는 산(주로 아세트산) 함량. 너무 많으면 식초 냄새가 날 수 있어 품질에 악영향
# | **citric acid**          | 구연산: 약간의 신맛과 신선함을 더해주는 성분. 와인의 산미 밸런스를 향상시킴
# | **residual sugar**       | 잔당(남은 설탕): 발효 후 남아있는 당분. 값이 높을수록 단맛이 남음
# | **chlorides**            | 염화물: 와인에 들어있는 소금 성분. 너무 높으면 짠맛이나 불쾌한 맛을 줄 수 있음
# | **free sulfur dioxide**  | 자유 이산화황: 살균/보존제로 사용되며, 박테리아를 억제함. 이 수치가 낮으면 와인이 빨리 상할 수 있음
# | **total sulfur dioxide** | 총 이산화황: 자유 + 결합된 이산화황 총량. 보존력과 연관됨. 너무 많으면 향과 맛에 악영향
# | **density**              | 밀도: 와인의 밀도(무게). 알코올, 당분, 기타 성분의 양에 영향을 받음
# | **pH**                   | 산도: 산성/알칼리성 정도. 낮을수록 산성. 일반적으로 2.9\~4.0 사이의 값을 가짐.
# | **sulphates**            | 황산염: 방부제 역할을 하며 와인의 향과 보존에 기여함. 적절한 수준이면 긍정적, 과도하면 안 좋음
# | **alcohol**              | 알코올 도수: 와인의 알코올 함량 (%). 일반적으로 높을수록 바디감, 풍미 증가
# | **quality**              | 와인 품질 점수: 전문가의 감각 평가로 0~10 사이의 정수 점수 (대부분 3~8 범위)

In [None]:
# quality - 점수 : 정답(레이블)
# 가격에 영향을 미치는것?
# 회귀 분석 -> 점수(quality) 예측

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1599 entries, 0 to 1598
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   fixed acidity         1599 non-null   float64
 1   volatile acidity      1599 non-null   float64
 2   citric acid           1599 non-null   float64
 3   residual sugar        1599 non-null   float64
 4   chlorides             1599 non-null   float64
 5   free sulfur dioxide   1599 non-null   float64
 6   total sulfur dioxide  1599 non-null   float64
 7   density               1599 non-null   float64
 8   pH                    1599 non-null   float64
 9   sulphates             1599 non-null   float64
 10  alcohol               1599 non-null   float64
 11  quality               1599 non-null   int64  
dtypes: float64(11), int64(1)
memory usage: 150.0 KB


In [4]:
df.isnull().sum()

fixed acidity           0
volatile acidity        0
citric acid             0
residual sugar          0
chlorides               0
free sulfur dioxide     0
total sulfur dioxide    0
density                 0
pH                      0
sulphates               0
alcohol                 0
quality                 0
dtype: int64

In [None]:
# 인코딩 필요없음

In [10]:
from sklearn.model_selection import train_test_split

X = df.drop("quality", axis=1)
y = df.quality

In [13]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [14]:
from sklearn.linear_model import LinearRegression

In [15]:
model = LinearRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
y_pred

array([5.34666441, 5.05631345, 5.66446972, 5.46451484, 5.72518476,
       5.27928659, 5.03421667, 5.12623347, 5.74534288, 5.68665032,
       6.13959677, 5.23386892, 5.54991474, 5.25825299, 5.44810502,
       6.46828999, 5.15018088, 5.59105157, 6.5560658 , 5.32255751,
       5.3918385 , 5.19610791, 5.94475739, 6.36197631, 5.35484893,
       5.41907575, 6.36483321, 5.35121573, 5.172392  , 6.16987311,
       5.25263058, 5.50657406, 5.75422105, 5.39101712, 5.45331031,
       5.02757499, 6.16173243, 5.68661555, 5.6486077 , 6.165471  ,
       5.52872593, 5.24414488, 6.17724727, 5.16500868, 5.87598332,
       5.81317121, 6.41982782, 5.6059474 , 5.15232137, 5.55634632,
       5.16044852, 5.10449459, 5.58371721, 6.33425313, 4.95134985,
       4.98364804, 6.01041999, 5.40809804, 5.83802638, 5.2486897 ,
       5.60717482, 5.96630957, 5.27619063, 5.30380113, 6.4949309 ,
       5.42033967, 6.34273471, 5.24618531, 6.41317317, 5.31237924,
       6.41746963, 4.74315748, 5.79362039, 5.8283184 , 6.17598