# 一、基本信息

1. 实验名称：葡萄酒品质分析
2. 实验学时：2
3. 实验类别：综合性
4. 课程名称：数据分析基础（Python）
5. 课程编号：12002CC019


# 二、实验目的（预期学习效果）


本实验应符合课程总体学习要求，促进以下预期效果的达成：
* 掌握NumPy数组的创建、索引和切片、运算、读写以及数据统计和分析等知识；
* 能够能够综合应用NumPy基础知识解决问题，具备基本的编程能力。

涉及主要KT点包括：
* KT6_NumPy多维数组
* KT7_NumPy数组的索引和切片
* KT8_NumPy数组的运算
* KT9_NumPy数组的读写
* KT10_NumPy中的数据统计与分析



# 三、实验任务及原理

实验任务说明：众所周知，葡萄酒的价格与其品质密切相关，本实验提供了某公司生产的某个批次的白葡萄酒的检测指标数据，这些数据保存在文件white_wine.csv中，共有3431条数据。

要求读取数据文件，并对葡萄酒品质进行分析。

本实验主要应用NumPy的相关知识完成，具体包括：
* NumPy数组创建：通过NumPy库的array函数可以创建ndarray数组，通常来说，ndarray是一个通用的同构数据容器，即其中的所有元素都需要相同的类型。创建数据的函数语法格式如下：  
&emsp; np.array(object, dtype, ndmin)  
* NumPy数组的索引和切片：NumPy数组的索引和切片与list相似，NumPy数组的访问具有更灵活的方式，可以采用整数函数和布尔值索引。
* NumPy数组的运算：Numpy数组可以不需要通过循环就完成批量的计算。当两个数组的形状相同时，Numpy中的基本运算（算术运算、比较运算等）都是元素级别的，也就是每个元素都参与运算。当运算中两个数组的形状不同使时,numpy将会自动触发广播机制。  
* 数据统计与分析：NumPy数组常用的统计函数。


# 四、实验环境

实验仪器设备：计算机。

实验软件：Jupyter Notebook。

工具耗材：无。

# 五、实验预习任务

实验前，应复习本实验涉及的KT点，并完成前次布置的相关练习题目，并阅读相关参考性资料，做好实验前准备。

# 六、实验过程（实验方案）


## 葡萄酒品质分析

1. 引入包，读取数据，显示前5行

In [1]:
import csv
import numpy as np

f = open("data/white_wine.csv", "r")
reader = csv.reader(f)
wine_list = []
for row in reader:
    wine_list.append(row)
f.close()

for i in range(5):
    print(wine_list[i])

['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol', 'quality']
['7', '0.27', '0.36', '20.7', '0.045', '45', '170', '1.001', '3', '0.45', '8.8', '6']
['8.1', '0.28', '0.4', '6.9', '0.05', '30', '97', '0.9951', '3.26', '0.44', '10.1', '6']
['7.2', '0.23', '0.32', '8.5', '0.058', '47', '186', '0.9956', '3.19', '0.4', '9.9', '6']
['7.2', '0.23', '0.32', '8.5', '0.058', '47', '186', '0.9956', '3.19', '0.4', '9.9', '6']


2. 去掉第一行标题数据，将数据转换为float类型，显示“fixed acidity”列数据  
提示：使用astype

In [2]:
wine_data = np.array(wine_list[1:])
wine_data = wine_data.astype(float)
print(wine_data[:,0])

[7.  8.1 7.2 ... 6.6 6.5 6. ]


3. 查看白葡萄酒总共分为几种品质等级，都是哪些等级  
提示：采用unique函数

In [3]:
quality_count = np.unique(wine_data[:,11])
count = len(quality_count)
print("白葡萄酒共有{0}种等级，分别是:{1}".format(count,quality_count))

白葡萄酒共有7种等级，分别是:[3. 4. 5. 6. 7. 8. 9.]


4. 统计每种等级葡萄酒的数量  
提示：可以使用for循环遍历数组，进行累加；也可以采用更为简练的列表推导式实现

In [4]:
count_all = [  sum(wine_data[:,11] == lmx)  for lmx in quality_count ]

# quality_count, count_all = np.unique(wine_data[:,11],return_counts=True)
print("白葡萄酒等级分别是:{0}，分别有{1}种。".format(quality_count,count_all))

白葡萄酒等级分别是:[3. 4. 5. 6. 7. 8. 9.]，分别有[14, 115, 1020, 1539, 616, 123, 4]种。


5. 计算每个等级中，fixed acidity的和、均值、标准差、方差、最小值及最大值  
提示：可以使用布尔值索引访问数组

In [5]:
for q in quality_count:
    mask = (wine_data[:,11] == q)
    data = wine_data[:,0][mask]
    print("等级{0}的和为{1:.2f}、均值为{2:.2f}、标准差为{3:.2f}、方差为{4:.2f}、最小值为{5:.2f}、最大值为{6:.2f}"
          .format(q,np.sum(data),np.mean(data),
                  np.std(data),np.var(data),np.min(data),np.max(data)))

等级3.0的和为105.50、均值为7.54、标准差为1.51、方差为2.27、最小值为5.80、最大值为11.80
等级4.0的和为811.00、均值为7.05、标准差为1.02、方差为1.03、最小值为4.80、最大值为10.20
等级5.0的和为7046.00、均值为6.91、标准差为0.83、方差为0.69、最小值为4.50、最大值为10.30
等级6.0的和为10483.80、均值为6.81、标准差为0.86、方差为0.74、最小值为3.80、最大值为14.20
等级7.0的和为4161.60、均值为6.76、标准差为0.76、方差为0.58、最小值为4.20、最大值为9.20
等级8.0的和为825.10、均值为6.71、标准差为0.74、方差为0.55、最小值为4.90、最大值为8.20
等级9.0的和为30.00、均值为7.50、标准差为0.97、方差为0.93、最小值为6.60、最大值为9.10


## 拓展

6. 查询“quality”为6的所有数据  
提示：试一试argwhere函数

In [6]:
wine_data[np.argwhere(wine_data[:,11] == 6),:]

array([[[ 7.  ,  0.27,  0.36, ...,  0.45,  8.8 ,  6.  ]],

       [[ 8.1 ,  0.28,  0.4 , ...,  0.44, 10.1 ,  6.  ]],

       [[ 7.2 ,  0.23,  0.32, ...,  0.4 ,  9.9 ,  6.  ]],

       ...,

       [[ 6.2 ,  0.21,  0.29, ...,  0.5 , 11.2 ,  6.  ]],

       [[ 6.5 ,  0.24,  0.19, ...,  0.46,  9.4 ,  6.  ]],

       [[ 6.  ,  0.21,  0.38, ...,  0.32, 11.8 ,  6.  ]]])

7. 按照“quality”列对数据从小到大进行排序，显示排序结果  
提示：试一试argsort函数

In [7]:
wine_data[wine_data[:,11].argsort()]

array([[ 9.4 ,  0.24,  0.29, ...,  0.38, 11.  ,  3.  ],
       [ 6.9 ,  0.39,  0.4 , ...,  0.37, 12.6 ,  3.  ],
       [ 7.5 ,  0.32,  0.24, ...,  0.5 ,  9.1 ,  3.  ],
       ...,
       [ 9.1 ,  0.27,  0.45, ...,  0.46, 10.4 ,  9.  ],
       [ 7.4 ,  0.24,  0.36, ...,  0.48, 12.5 ,  9.  ],
       [ 6.9 ,  0.36,  0.34, ...,  0.36, 12.7 ,  9.  ]])

# 七、实验课后任务

学生应当完成本次实验涉及相关任务，完成本次Jupyter Notebook实验报告以后，应将本实验报告文件（.ipynb）按照授课教师指定方式进行上传。


# 八、实验考核

实验满分100分，共7个任务，其中拓展任务2个，任务1-任务5每个20分，并且根据任务6和任务7完成情况进行酌情加分。按照学生完成任务的程度、代码运行结果、分析结果等质量标准酌情给出对应分数。

# 九、实验资源
本实验提供实验用数据文件：
* 
白葡萄酒数据文件：white_wine.csv