# Thống kê mô tả trên tập dữ liệu về phân loại chất lượng rượu đỏ

## 1. Chuẩn bị dữ liệu

In [None]:
import pandas as pd 
wine_data = pd.read_csv("winequality-red.csv")
wine_data = wine_data[['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol', 'quality']]
display(wine_data.head())


## 2. Loại bỏ dữ liệu trùng lặp

Trước hết, chúng ta cần kiểm tra xem có dữ liệu trùng lặp hay không

In [9]:
duplicate_count = wine_data.duplicated().sum()
duplicate_count


240

Sau khi kiểm tra, ta nhận thấy có rất nhiều dòng dữ liệu trùng lặp, nên chúng ta sẽ thực hiện loại bỏ (ở đây có 240 dòng dữ liệu trùng lặp)

In [10]:
wine_data.head()
wine_data = wine_data.drop_duplicates()


## 3. Thay thế dữ liệu thiếu, thay đổi định dạng của dữ liệu

Trước hết, cần kiểm tra định dạng của bộ dữ liệu 

In [None]:
wine_data_info = wine_data.dtypes
wine_data_info


fixed acidity           float64
volatile acidity        float64
citric acid             float64
residual sugar          float64
chlorides               float64
free sulfur dioxide     float64
total sulfur dioxide    float64
density                 float64
pH                      float64
sulphates               float64
alcohol                 float64
quality                   int64
dtype: object

Sau khi kiểm tra, ta nhận thấy các định dạng đều đồng nhất, và không có vấn đề gì, nên ta bỏ qua bước này. Tiếp theo chúng ta sẽ kiểm tra xem bộ dữ liệu này có bị thiếu hay không (kiêm tra xem bộ nào không có dữ liệu từng cột, hoặc dữ liệu = 0)

In [14]:
missing_info = wine_data.isnull().sum()
missing_info


fixed acidity           0
volatile acidity        0
citric acid             0
residual sugar          0
chlorides               0
free sulfur dioxide     0
total sulfur dioxide    0
density                 0
pH                      0
sulphates               0
alcohol                 0
quality                 0
dtype: int64

Dựa vào kết quả kiểm tra này, ta kết luận bộ dữ liệu này đã đồng nhất về định dạng, và không có dữ liệu bị thiếu.

## 4. Tính toán và thống kê mô tả 

Tới đây, ta sẽ thống kê mô tả bộ dữ liệu này.

In [None]:
import numpy as np
from scipy import stats

# Tính toán các thống kê mô tả cho từng cột số liệu
desc_stats = {}

for col in wine_data.columns:
    if wine_data[col].dtype in [np.float64, np.int64]:
        data = wine_data[col].values
        
        mean = np.mean(data)
        median = np.median(data)
        mode = stats.mode(data, keepdims=True)[0][0]
        var = np.var(data, ddof=1)
        std = np.std(data, ddof=1)
        data_range = np.ptp(data)
        percentile_25 = np.percentile(data, 25)
        percentile_50 = np.percentile(data, 50)
        percentile_75 = np.percentile(data, 75)
        iqr = stats.iqr(data)
        
        desc_stats[col] = {
            'mean': mean,
            'median': median,
            'mode': mode,
            'variance': var,
            'std_dev': std,
            'range': data_range,
            'percentile_25': percentile_25,
            'percentile_50': percentile_50,
            'percentile_75': percentile_75,
            'iqr': iqr
        }

desc_stats_df = pd.DataFrame(desc_stats).T
desc_stats_df


Unnamed: 0,mean,median,mode,variance,std_dev,range,percentile_25,percentile_50,percentile_75,iqr
fixed acidity,8.310596,7.9,7.2,3.017134,1.73699,11.3,7.1,7.9,9.2,2.1
volatile acidity,0.529478,0.52,0.5,0.0335,0.183031,1.46,0.39,0.52,0.64,0.25
citric acid,0.272333,0.26,0.0,0.038235,0.195537,1.0,0.09,0.26,0.43,0.34
residual sugar,2.5234,2.2,2.0,1.828752,1.352314,14.6,1.9,2.2,2.6,0.7
chlorides,0.088124,0.079,0.08,0.002438,0.049377,0.599,0.07,0.079,0.091,0.021
free sulfur dioxide,15.893304,14.0,6.0,109.145456,10.44727,71.0,7.0,14.0,21.0,14.0
total sulfur dioxide,46.825975,38.0,28.0,1116.157653,33.408946,283.0,22.0,38.0,63.0,41.0
density,0.996709,0.9967,0.9968,3e-06,0.001869,0.01362,0.9956,0.9967,0.99782,0.00222
pH,3.309787,3.31,3.3,0.024036,0.155036,1.27,3.21,3.31,3.4,0.19
sulphates,0.658705,0.62,0.54,0.029127,0.170667,1.67,0.55,0.62,0.73,0.18


Tư kết quả này, ta có thể sử dụng chúng để thực các công việc tiếp theo (như trực quan hóa dữ liệu, xử lý ngoại lai, ...)

## 5. Trực quan hóa dữ liệu