# Thống kê mô tả trên tập dữ liệu về phân loại chất lượng rượu đỏ

## 1. Giới thiệu chung

Bộ dữ liệu **Red Wine Quality** được lấy từ nghiên cứu của **Cortez et al. (2009)**, thuộc Đại học Minho (Bồ Đào Nha).  
Dữ liệu mô tả các **đặc tính hóa học** của rượu vang đỏ vùng **Vinho Verde**, và chất lượng cảm quan của chúng (được đánh giá bởi chuyên gia nếm rượu).

## 2. Mục tiêu 


- Thực hiện **thống kê mô tả (Exploratory Data Analysis)** để hiểu cấu trúc dữ liệu.  


## 3. Thông tin về dữ liệu

- **1599 mẫu** rượu vang đỏ  
- **12 biến (features)**: 11 biến độc lập (đặc tính hóa lý) + 1 biến phụ thuộc (quality)

| Biến | Mô tả | Đơn vị | 
|------|--------|---------|
| fixed acidity | Lượng axit cố định (tartaric acid) | g/dm³ | 
| volatile acidity | Lượng axit bay hơi (acetic acid) | g/dm³ | 
| citric acid | Lượng axit citric | g/dm³ | 
| residual sugar | Đường dư sau khi lên men | g/dm³ | 
| chlorides | Lượng muối (clorua) | g/dm³ | 
| free sulfur dioxide | SO₂ ở dạng tự do | mg/dm³ | 
| total sulfur dioxide | Tổng lượng SO₂ | mg/dm³ | 
| density | Mật độ chất lỏng | g/cm³ | 
| pH | Độ pH | - |
| sulphates | Lượng sunphat (kali sunphat) | g/dm³ | 
| alcohol | Nồng độ cồn | % (v/v) |
| quality | Điểm đánh giá chất lượng (0–10) | - |


## 4. Nạp và xem trước dữ liệu

### Import thư viện

In [30]:
import numpy as np
import pandas as pd
from scipy import stats
from scipy.stats import skew, kurtosis

### Đọc dữ liệu

In [5]:
data = pd.read_csv("winequality-red.csv")
data.head(5)

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


### Một số thông tin cơ bản của dữ liệu

In [7]:
print("5 dòng đầu: ")
display(data.head(5))

5 dòng đầu: 


Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [8]:
print("5 dòng cuối: ")
display(data.tail(5))

5 dòng cuối: 


Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
1594,6.2,0.6,0.08,2.0,0.09,32.0,44.0,0.9949,3.45,0.58,10.5,5
1595,5.9,0.55,0.1,2.2,0.062,39.0,51.0,0.99512,3.52,0.76,11.2,6
1596,6.3,0.51,0.13,2.3,0.076,29.0,40.0,0.99574,3.42,0.75,11.0,6
1597,5.9,0.645,0.12,2.0,0.075,32.0,44.0,0.99547,3.57,0.71,10.2,5
1598,6.0,0.31,0.47,3.6,0.067,18.0,42.0,0.99549,3.39,0.66,11.0,6


In [10]:
print("Kiểu dữ liệu của mỗi biến: ")
display(data.dtypes)

Kiểu dữ liệu của mỗi biến: 


fixed acidity           float64
volatile acidity        float64
citric acid             float64
residual sugar          float64
chlorides               float64
free sulfur dioxide     float64
total sulfur dioxide    float64
density                 float64
pH                      float64
sulphates               float64
alcohol                 float64
quality                   int64
dtype: object

In [12]:
print("Số dòng, số cột của dữ liệu: ")
display(data.shape)

Số dòng, số cột của dữ liệu: 


(1599, 12)

In [14]:
print("Kiểm tra dữ liệu và giá trị thiếu: ")
data.info()

Kiểm tra dữ liệu và giá trị thiếu: 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1599 entries, 0 to 1598
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   fixed acidity         1599 non-null   float64
 1   volatile acidity      1599 non-null   float64
 2   citric acid           1599 non-null   float64
 3   residual sugar        1599 non-null   float64
 4   chlorides             1599 non-null   float64
 5   free sulfur dioxide   1599 non-null   float64
 6   total sulfur dioxide  1599 non-null   float64
 7   density               1599 non-null   float64
 8   pH                    1599 non-null   float64
 9   sulphates             1599 non-null   float64
 10  alcohol               1599 non-null   float64
 11  quality               1599 non-null   int64  
dtypes: float64(11), int64(1)
memory usage: 150.0 KB


In [15]:
print("Kiểm tra giá trị null: ")
data.isnull().sum()

Kiểm tra giá trị null: 


fixed acidity           0
volatile acidity        0
citric acid             0
residual sugar          0
chlorides               0
free sulfur dioxide     0
total sulfur dioxide    0
density                 0
pH                      0
sulphates               0
alcohol                 0
quality                 0
dtype: int64

**Nhận xét:** 
Kết quả cho thấy:
- Dữ liệu gồm 12 cột (11 đặc tính + 1 biến mục tiêu `quality`).
- Không có giá trị thiếu (NaN).
- Tất cả biến đều là dạng số (numeric).

## 5. Thống kê mô tả

In [18]:
data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
fixed acidity,1599.0,8.319637,1.741096,4.6,7.1,7.9,9.2,15.9
volatile acidity,1599.0,0.527821,0.17906,0.12,0.39,0.52,0.64,1.58
citric acid,1599.0,0.270976,0.194801,0.0,0.09,0.26,0.42,1.0
residual sugar,1599.0,2.538806,1.409928,0.9,1.9,2.2,2.6,15.5
chlorides,1599.0,0.087467,0.047065,0.012,0.07,0.079,0.09,0.611
free sulfur dioxide,1599.0,15.874922,10.460157,1.0,7.0,14.0,21.0,72.0
total sulfur dioxide,1599.0,46.467792,32.895324,6.0,22.0,38.0,62.0,289.0
density,1599.0,0.996747,0.001887,0.99007,0.9956,0.99675,0.997835,1.00369
pH,1599.0,3.311113,0.154386,2.74,3.21,3.31,3.4,4.01
sulphates,1599.0,0.658149,0.169507,0.33,0.55,0.62,0.73,2.0


**Nhận xét chi tiết theo từng nhóm biến:**
- Nhóm acid
| Biến | Trung bình | Độ lệch chuẩn | Nhận xét |
|------|--------------------|----------------|------------------------------------|
| fixed acidity | 8.32 | 1.74 | Phần lớn rượu có độ acid cố định trung bình, một số mẫu có giá trị cao (~15). |
| volatile acidity | 0.53 | 0.18 | Dao động khá lớn, cho thấy ảnh hưởng đến mùi vị rất khác nhau giữa các mẫu. |
| citric acid | 0.27 | 0.19 | Nhiều mẫu có citric acid thấp, nhưng vài mẫu có giá trị cao tới 1.0. |

- Nhóm chất bảo quản và thành phần:
| Biến | Trung bình | Nhận xét |
|------|--------------------|---------------------------------------------------------|
| residual sugar | 2.54 | Hầu hết rượu khô (ít đường), chỉ vài mẫu có đường cao. |
| chlorides | 0.09 | Hàm lượng muối nhỏ, nhưng nếu vượt 0.2 có thể ảnh hưởng xấu đến vị. |
| free sulfur dioxide | 15.9 | Giá trị dao động rất mạnh (1–72), do kỹ thuật bảo quản khác nhau. |
| total sulfur dioxide | 46.5 | Có mẫu đạt 289, thể hiện mức độ sử dụng SO₂ cao ở vài rượu. |

- Nhóm đặc trưng vật lý:
| Biến | Trung bình | Nhận xét |
|------|--------------------|--------------------------------------------------------------------|
| density | 0.9967| Mật độ tăng khi đường hoặc acid cao → cần xem tương quan với các biến khác. |
| pH |3.31 |Rượu vang đỏ thường chua nhẹ, pH quanh 3.3 là hợp lý. |
| sulphates | 0.66 |Có tác dụng như chất ổn định → có thể ảnh hưởng tích cực đến chất lượng. |
| alcohol | 10.42 |Dao động từ 8.4 đến 14.9, yếu tố quan trọng ảnh hưởng đến cảm nhận. |

- Biến mục tiêu:
| Biến | Trung bình | Ghi chú |
|------|--------------------|--------------------------------------------------------------------|
| quality | 5.64 | Điểm số thường tập trung quanh 5–6, hiếm mẫu cực cao hoặc cực thấp. |

In [29]:
skewness = data.apply(lambda x: skew(x))
kurt = data.apply(lambda x: kurtosis(x))

summary_shape = pd.DataFrame({'Skewness': skewness, 'Kurtosis': kurt})
summary_shape

Unnamed: 0,Skewness,Kurtosis
fixed acidity,0.981829,1.124856
volatile acidity,0.670962,1.217963
citric acid,0.318039,-0.790283
residual sugar,4.536395,28.524438
chlorides,5.675017,41.581708
free sulfur dioxide,1.249394,2.01349
total sulfur dioxide,1.514109,3.794172
density,0.071221,0.927411
pH,0.193502,0.800671
sulphates,2.426393,11.679884


**Nhận xét**

| Biến | Nhận xét |
|------|--------------------|
| fixed acidity | Lệch phải nhẹ, phân phối hơi nhọn. |
| volatile acidity | Lệch phải nhẹ, khá gần chuẩn. |
| citric acid | Lệch phải rõ rệt — nhiều mẫu có acid citric thấp. |
| residual sugar | Rất lệch phải, có vài mẫu chứa đường rất cao (outliers). |
| chlorides | Cực lệch phải → nhiều giá trị thấp, ít mẫu muối cao. |
| free sulfur dioxide | Lệch phải nhẹ, có một số ngoại lệ cao. |
| total sulfur dioxide | Lệch phải nhẹ, hơi nhọn. |
| density | Gần chuẩn, ít lệch. |
| pH | Gần chuẩn, phân bố cân đối. |
| sulphates | Lệch phải, có vài mẫu rất cao. |
| alcohol | Lệch phải nhẹ, ổn định. |
| quality | Gần như chuẩn, vì điểm chất lượng rời rạc từ 3–8. |