In [2]:
# 导入常用第三方库
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
# 读取数据
data=pd.read_csv("winequality-white.csv")
print(data)

In [3]:
# 特征数据的描述性统计分析
describe_data=data.iloc[:,:-1].describe()
print(describe_data)

In [4]:
# 删除重复记录
print("原始数据形状：",data.shape)
data=data.drop_duplicates()
print("处理后数据的形状：",data.shape)

In [5]:
# 该部分代码用于检测异常值

# 定义一个集合，用于保存异常值记录的标签
index=set()
# 遍历原始数据的特征
for i in data.columns[:-1]:
#     计算下四分位数
    q_l=describe_data.loc['25%',i]
#     计算上四分位数
    q_u=describe_data.loc['75%',i]
#     计算四分位差
    iqr=q_u-q_l
#     利用列表推导式保存所有大于上界，小于下界的异常值
    fliers=[j for j in data[i] if j>q_u+1.5*iqr or j<q_l-1.5*iqr]
#     保存异常值记录的标签
    index.update({m for m,n in zip(data[i].index,data[i]) if n>q_u+1.5*iqr or n<q_l-1.5*iqr})
print("异常值记录：",len(index),"条")

In [None]:
# 绘制特征的箱线图，检测特征中是否存在异常值
for i in data.columns[:-1]:
#     捕捉异常，只绘制定量数据的箱线图
    try:
        plt.boxplot(data[i],labels=[i])
        plt.show()
    except:
        pass

In [6]:
# 删除包含异常值的记录（行数据）
data=data.drop(index=index)

In [7]:
# 该部分代码对异常值进行替换

for i in data.columns[:-1]:
#     计算下四分位数
    q_l=describe_data.loc['25%',i]
#     计算上四分位数
    q_u=describe_data.loc['75%',i]
#     计算四分位差
    iqr=q_u-q_l
#     寻找特征中的异常值
    for m,n in zip(data[i].index,data[i]):
        if n>q_u+1.5*iqr or n<q_l-1.5*iqr:
#             利用中位数替换异常值
            data.loc[m,i]=np.median(data[i])     

In [8]:
for i in data.columns[:-1]:
    try:
        plt.boxplot(data[i],labels=[i])
        plt.show()
    except:
        pass

In [10]:
# 绘制定性数据的柱状图，并设置不同颜色
plt.rcParams['font.family']='Simhei'
plt.rcParams['axes.unicode_minus']=False
plt.bar(data['quality'].value_counts().index,data['quality'].value_counts(),
       color=random.choices(list(colors.cnames.keys()),k=data['quality'].shape[0]))
# 为每一个类别添加注释（个数）
for i,j in zip(data['quality'].value_counts().index,data['quality'].value_counts()):
#     plt.text(x,y,text) x,y表示添加注释的数据点，text表示添加的注释
    plt.text(i-0.2,j,j)
# 添加标题
plt.title("葡萄酒质量分布")
# 添加X轴标签
plt.xlabel("葡萄酒质量")
# 添加Y轴标签
plt.ylabel("频数")
plt.show()

Text(137.64444444444445, 0.5, '频数')

In [None]:
# 绘制定量数据的直方图
plt.hist(data['fixed acidity'],5,edgecolor='w')
# 为每一个区间添加注释（个数）
for i,j in zip(df[1],df[0]):
    plt.text((i+i+1)/2,j,int(j))
# 添加标题
plt.title("固定酸度分布")
# 添加X轴标签
plt.xlabel("固定酸度")
# 添加Y轴标签
plt.ylabel("频数")
plt.show()

In [12]:
from matplotlib import colors
import random
# 创建画布，设置画布大小
plt.figure(figsize=(10,20))
# 遍历目标变量所有类别取值
for i in data["quality"].value_counts().sort_index().index:
#     创建子图
    plt.subplot(4,2,i-2)
#     绘制不同类别下某个定量数据的直方图
    re=plt.hist(data['fixed acidity'][data['quality']==i],bins=5,edgecolor='w')
#     设置X轴刻度，使得刻度对齐
    plt.xticks(re[1])
#     添加X轴标签
    plt.xlabel("固定酸度")
#     添加Y轴标签
    plt.ylabel("质量：%d"%i)
plt.show()

         fixed acidity
quality               
3             6.922222
4             7.026744
5             6.848650
6             6.792347
7             6.719014
8             6.711404
9             7.000000


Text(0, 0.5, '固定酸度')

In [13]:
plt.figure(figsize=(10,20))
for i in data["quality"].value_counts().sort_index().index:
    plt.subplot(4,2,i-2)
    re=plt.hist(data['alcohol'][data['quality']==i],bins=5,edgecolor='w')
    plt.xticks(re[1])
    plt.xlabel("酒精含量")
    plt.ylabel("质量：%d"%i)
plt.show()

           alcohol
quality           
3        11.033333
4        10.371512
5         9.926993
6        10.684062
7        11.513563
8        11.828070
9        12.625000


Text(0, 0.5, '酒精')

In [14]:
import seaborn as sns
plt.figure(figsize=(8,6))
# 绘制Spearman相关系数热力图，通过annot参数显示相关系数取值
sns.heatmap(data.corr(method="spearman"),annot=True)
plt.show()

<AxesSubplot:>

In [15]:
plt.figure(figsize=(8,6))
# 绘制Pearson相关系数热力图
sns.heatmap(data.corr(),annot=True)
plt.show()

<AxesSubplot:>

In [3]:
from sklearn import preprocessing
# 标准化处理
data.iloc[:,:-1]=preprocessing.scale(data.iloc[:,:-1])
print(data)

      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0          0.172097         -0.081770     0.213280        2.821349  -0.035355   
1         -0.657501          0.215896     0.048001       -0.944765   0.147747   
2          1.475751          0.017452     0.543838        0.100282   0.193523   
3          0.409125         -0.478657    -0.117278        0.415768   0.559727   
4          0.409125         -0.478657    -0.117278        0.415768   0.559727   
...             ...               ...          ...             ...        ...   
4893      -0.776015         -0.677101    -0.365197       -0.944765  -0.310008   
4894      -0.301959          0.414339     0.213280        0.317179   0.056196   
4895      -0.420473         -0.379435    -1.191592       -1.023637  -0.218457   
4896      -1.605613          0.116674    -0.282557       -1.043355  -1.088192   
4897      -1.013043         -0.677101     0.378559       -1.102508  -1.179743   

      free sulfur dioxide  