# 重构：葡萄酒品质分析
在本次练习中，你将重构分析葡萄酒品质数据集的代码，该数据来自 [UCI 机器学习库](https://archive.ics.uci.edu/ml/datasets/wine+quality)。数据中每一行对应一个葡萄酒样品，其中包括测试中收集的几种物理化学性质，以及葡萄酒专家评估的质量等级。

这个 Notebook 中的代码，首先重命名了数据集的列名，然后计算某些可能与质量等级相关的统计信息。你能重构以下代码，使其更整洁、更模块化吗？

In [None]:
import pandas as pd
df = pd.read_csv('winequality-red.csv', sep=';')
df.head()

### 重命名列名
你想要使用下划线替换列标签中的空格，以便能够使用点表示法引用列。以下是一种实现方法：

In [None]:
new_df = df.rename(columns={'fixed acidity': 'fixed_acidity',
                             'volatile acidity': 'volatile_acidity',
                             'citric acid': 'citric_acid',
                             'residual sugar': 'residual_sugar',
                             'free sulfur dioxide': 'free_sulfur_dioxide',
                             'total sulfur dioxide': 'total_sulfur_dioxide'
                            })
new_df.head()

下面是一个更优的做法，可以避免由于手动输入引起的拼写错误，但是这些代码看起来比较重复，你可以优化一下吗？

In [None]:
labels = list(df.columns)
labels[0] = labels[0].replace(' ', '_')
labels[1] = labels[1].replace(' ', '_')
labels[2] = labels[2].replace(' ', '_')
labels[3] = labels[3].replace(' ', '_')
labels[5] = labels[5].replace(' ', '_')
labels[6] = labels[6].replace(' ', '_')
df.columns = labels

df.head()

### 分析特征
现在各列已准备就绪，你希望了解此数据集的不同特征与葡萄酒的质量等级之间的关系。一种非常简单的方法是观察每个特征的上半部分和下半部分的平均质量等级。下面的代码针对四个特征执行此操作，现在看起来很重复，你能让这段代码更简洁吗？

你也可以挑战自己，看看如何使代码更有效！不过现在还不需要过多担心效率 - 我们将在下一节中详细介绍这一点。

In [None]:
median_alcohol = df.alcohol.median()
for i, alcohol in enumerate(df.alcohol):
    if alcohol >= median_alcohol:
        df.loc[i, 'alcohol'] = 'high'
    else:
        df.loc[i, 'alcohol'] = 'low'
df.groupby('alcohol').quality.mean()

In [None]:
median_pH = df.pH.median()
for i, pH in enumerate(df.pH):
    if pH >= median_pH:
        df.loc[i, 'pH'] = 'high'
    else:
        df.loc[i, 'pH'] = 'low'
df.groupby('pH').quality.mean()

In [None]:
median_sugar = df.residual_sugar.median()
for i, sugar in enumerate(df.residual_sugar):
    if sugar >= median_sugar:
        df.loc[i, 'residual_sugar'] = 'high'
    else:
        df.loc[i, 'residual_sugar'] = 'low'
df.groupby('residual_sugar').quality.mean()

In [None]:
median_citric_acid = df.citric_acid.median()
for i, citric_acid in enumerate(df.citric_acid):
    if citric_acid >= median_citric_acid:
        df.loc[i, 'citric_acid'] = 'high'
    else:
        df.loc[i, 'citric_acid'] = 'low'
df.groupby('citric_acid').quality.mean()