# 项目：评估和清理全球巧克力评级数据

## 分析目标

此数据分析的目的是，通过研究巧克力的专业评级数据，探索影响巧克力品质的关键因素（如可可含量、原产地、制造商等），以帮助巧克力爱好者、零售商或生产商识别高品质巧克力的特征，并为产品开发和采购决策提供数据支持。

**本实战项目的目的在于** 练习评估数据干净和整洁度，并且基于评估结果，对数据进行清洗，从而得到可供下一步分析的数据。

## 简介

原始数据集包含了超过1700款巧克力的专业评级信息，以及其详细的成分和产地信息。数据涵盖了从可可豆品种到最终制造商所在地的全链条信息，是研究精品巧克力的宝贵资料。

## 数据每列的含义如下：

- `Company (Maker-if known)`: 巧克力生产公司名称
- `Specific Bean Origin or Bar Name`: 巧克力起源的特定区域
- `REF`: 一个参考编号，代表了该评价被录入数据库的时间点。**数值越高，代表录入时间越近**
- `Review Date`: 评论发表日期
- `Cocoa Percent`: 巧克力的可可含量百分比（例如 "70%"）
- `Company Location (Country)`: 巧克力制造商所在的国家
- `Rating`: 巧克力的专业评分
- `Bean Type`: 所使用的可可豆的品种
- `Broad Bean Origin`: 可可豆的广义原产地（国家或地区）

## 读取数据

导入数据分析所需要的库，并通过Pandas的read_csv函数，将原始数据文件`flavors_of_cacao.csv`里的数据内容，解析为DataFrame，并赋值给变量original_data。

In [1]:
import pandas as pd

In [2]:
original_data = pd.read_csv("flavors_of_cacao.csv")

In [3]:
original_data.head(10)

Unnamed: 0,Company \n(Maker-if known),Specific Bean Origin\nor Bar Name,REF,Review\nDate,Cocoa\nPercent,Company\nLocation,Rating,Bean\nType,Broad Bean\nOrigin
0,A. Morin,Agua Grande,1876,2016,63%,France,3.75,,Sao Tome
1,A. Morin,Kpime,1676,2015,70%,France,2.75,,Togo
2,A. Morin,Atsane,1676,2015,70%,France,3.0,,Togo
3,A. Morin,Akata,1680,2015,70%,France,3.5,,Togo
4,A. Morin,Quilla,1704,2015,70%,France,3.5,,Peru
5,A. Morin,Carenero,1315,2014,70%,France,2.75,Criollo,Venezuela
6,A. Morin,Cuba,1315,2014,70%,France,3.5,,Cuba
7,A. Morin,Sur del Lago,1315,2014,70%,France,3.5,Criollo,Venezuela
8,A. Morin,Puerto Cabello,1319,2014,70%,France,3.75,Criollo,Venezuela
9,A. Morin,Pablino,1319,2014,70%,France,4.0,,Peru


## 评估数据

在这一部分，我将对在上一部分建立的`original_data`这个DataFrame所包含的数据进行评估。

评估主要从两个方面进行：结构和内容，即整齐度和干净度。数据的结构性问题指不符合“每列是一个变量，每行是一个观察值，每个单元格是一个值”这三个标准，数据的内容性问题包括存在丢失数据、重复数据、无效数据等。

### 评估数据的整齐度（结构）

In [4]:
original_data.sample(10)

Unnamed: 0,Company \n(Maker-if known),Specific Bean Origin\nor Bar Name,REF,Review\nDate,Cocoa\nPercent,Company\nLocation,Rating,Bean\nType,Broad Bean\nOrigin
629,Escazu,"Carenero, Guapiles, Ocumare blend",431,2009,74%,U.S.A.,2.75,,"Cost Rica, Ven"
580,Dormouse,"Madagascar, Batch 8",1676,2015,77%,U.K.,2.75,"Criollo, Trinitario",Madagascar
1557,Soul,Madagascar,1936,2017,70%,Canada,3.5,,Madagascar
1180,Nibble,Elvesia P.,1526,2015,72%,U.S.A.,2.75,Trinitario,Dominican Republic
1253,Palette de Bine,Lachua,1720,2016,70%,Canada,2.75,,Guatemala
89,AMMA,"Monte Alegre, 3 diff. plantations",572,2010,85%,Brazil,2.75,Forastero (Parazinho),Brazil
1149,Monarque,Oko Caribe,1812,2016,72%,Canada,3.5,,Dominican Republic
1436,Scharffen Berger,Nibby,135,2007,62%,U.S.A.,3.0,,
812,Hoja Verde (Tulicorp),Manabi,414,2009,80%,Ecuador,2.5,Forastero (Arriba) ASS,Ecuador
234,Bonnat,Jamaique,761,2011,75%,France,3.25,Trinitario,Jamaica


从抽样的10行数据数据来看，数据符合“每列是一个变量，每行是一个观察值，每个单元格是一个值”，具体来看每行是关于某款巧克力的一次评级以及相关的内容，每列是巧克力相关的各个变量，因此不存在结构性问题。

为了试图美观并且方便数据清洗，我将改变以下列的名字：

- `Company (Maker-if known)`: Company
- `Specific Bean Origin or Bar Name`: Bean&BarName
- `Cocoa Percent`: Cocoa %
- `Company Location (Country)`: Location
- `Broad Bean Origin`: Origin

In [5]:
original_data = original_data.rename(columns={
    "Company \n(Maker-if known)": "Company", 
    "Specific Bean Origin\nor Bar Name": "Bean&BarName", 
    "Cocoa\nPercent": "Cocoa %", 
    "Company\nLocation": "Location", 
    "Broad Bean\nOrigin": "Origin",
    "Review\nDate": "Review Date",
    "Bean\nType": "Bean Type"
})
original_data

Unnamed: 0,Company \n(Maker-if known),Bean&BarName,REF,Review Date,Cocoa %,Location,Rating,Bean Type,Origin
0,A. Morin,Agua Grande,1876,2016,63%,France,3.75,,Sao Tome
1,A. Morin,Kpime,1676,2015,70%,France,2.75,,Togo
2,A. Morin,Atsane,1676,2015,70%,France,3.00,,Togo
3,A. Morin,Akata,1680,2015,70%,France,3.50,,Togo
4,A. Morin,Quilla,1704,2015,70%,France,3.50,,Peru
...,...,...,...,...,...,...,...,...,...
1790,Zotter,Peru,647,2011,70%,Austria,3.75,,Peru
1791,Zotter,Congo,749,2011,65%,Austria,3.00,Forastero,Congo
1792,Zotter,Kerala State,749,2011,65%,Austria,3.50,Forastero,India
1793,Zotter,Kerala State,781,2011,62%,Austria,3.25,,India


### 评估数据的干净度（内容）

In [6]:
original_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1795 entries, 0 to 1794
Data columns (total 9 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Company 
(Maker-if known)  1795 non-null   object 
 1   Bean&BarName               1795 non-null   object 
 2   REF                        1795 non-null   int64  
 3   Review Date                1795 non-null   int64  
 4   Cocoa %                    1795 non-null   object 
 5   Location                   1795 non-null   object 
 6   Rating                     1795 non-null   float64
 7   Bean Type                  1794 non-null   object 
 8   Origin                     1794 non-null   object 
dtypes: float64(1), int64(2), object(6)
memory usage: 126.3+ KB


从输出结果来看，数据共有1795条数据，而`Bean Type`，`Broad Bean Origin`变量存在缺失值。

此外`Review Date`应该是datetime格式，需要转换格式。

而`Broad Bean Origin`，`country`可能会有命名不一致的问题，需要进一步评估。

列名有点过长，不便于数据可视化时的排列可以进行调整。

### 评估缺失数据

现在对`Bean Type`的缺失值进行评估，根据条件提取确实观察值。

In [7]:
original_data[original_data['Bean Type'] == ' ']

Unnamed: 0,Company \n(Maker-if known),Bean&BarName,REF,Review Date,Cocoa %,Location,Rating,Bean Type,Origin
0,A. Morin,Agua Grande,1876,2016,63%,France,3.75,,Sao Tome
1,A. Morin,Kpime,1676,2015,70%,France,2.75,,Togo
2,A. Morin,Atsane,1676,2015,70%,France,3.00,,Togo
3,A. Morin,Akata,1680,2015,70%,France,3.50,,Togo
4,A. Morin,Quilla,1704,2015,70%,France,3.50,,Peru
...,...,...,...,...,...,...,...,...,...
1787,Zotter,Santo Domingo,879,2012,70%,Austria,3.75,,Dominican Republic
1789,Zotter,"Indianer, Raw",883,2012,58%,Austria,3.50,,
1790,Zotter,Peru,647,2011,70%,Austria,3.75,,Peru
1793,Zotter,Kerala State,781,2011,62%,Austria,3.25,,India


由于我们要分析影响巧克力品质的关键因素（如可可含量、原产地、制造商等），这里豆子种类Bean Type很重要，所以为空的观察值我们不要。

【任务】：删除`Bean Type`原厂地为空的观察值。同时这里有一个特殊的空格，通过进入CSV文件同时问了Ai才知道。我们要将其替换成NaN空值，然后进行删除。

In [8]:
blank_bean_type = original_data[original_data['Origin'].str.strip() == '']
print(f"所有空白值的数量: {len(blank_bean_type)}")

所有空白值的数量: 73


由于我们要分析影响巧克力品质的关键因素（如可可含量、原产地、制造商等），这里原产地Origin很重要，所以为空的观察值我们可以先不要。

【任务】：删除`Origin`原厂地为空的观察值。

### 评估重复数据

根据变量的含义来看，所有变量都可以重复出现，针对此数据集，我们无需评估重复数据。

### 评估不一致数据

不一致的数据可能会出现在`Origin`和`Location`这种地名上，可以检查一下。

In [9]:
original_data["Origin"].value_counts()

Origin
Venezuela                 214
Ecuador                   193
Peru                      165
Madagascar                145
Dominican Republic        141
                         ... 
Suriname                    1
Peru, Ecuador               1
Ecuador, Mad., PNG          1
Ghana, Panama, Ecuador      1
Venezuela, Carribean        1
Name: count, Length: 100, dtype: int64

这里我们可以看到，有一些原产地包含多个值，这个环节应该在结构评估环节被查出来，那后续应该安排多个值拆分成列表。获取所有唯一的地区。（这里我不会，只能让Ai代劳了）

In [10]:
original_data["Location"].value_counts()

Location
U.S.A.               764
France               156
Canada               125
U.K.                  96
Italy                 63
Ecuador               54
Australia             49
Belgium               40
Switzerland           38
Germany               35
Austria               26
Spain                 25
Colombia              23
Hungary               22
Venezuela             20
Peru                  17
New Zealand           17
Madagascar            17
Japan                 17
Brazil                17
Denmark               15
Vietnam               11
Guatemala             10
Scotland              10
Argentina              9
Israel                 9
Costa Rica             9
Poland                 8
Honduras               6
Lithuania              6
South Korea            5
Nicaragua              5
Sweden                 5
Domincan Republic      5
Netherlands            4
Mexico                 4
Puerto Rico            4
Fiji                   4
Sao Tome               4
Amsterdam       

这里一定有部分国家是重复的，我们让Ai帮我们检查一下。

结果如下：
1. Niacragua 和 Nicaragua

    - 很明显，“Niacragua” 是 “Nicaragua” 的拼写错误。正确的名称应该是 Nicaragua。这两个条目（Niacragua 1次，Nicaragua 5次）应该合并。

2. Eucador 和 Ecuador

    - “Eucador” 是 “Ecuador” 的拼写错误。正确的名称应该是 Ecuador。这两个条目（Eucador 1次，Ecuador 54次）应该合并。

3. Domincan Republic 和 Dominican Republic

    - “Domincan Republic” 少了一个字母 “a”，是 “Dominican Republic” 的拼写错误。正确的名称应该是 Dominican Republic。
4. Amsterdam 和 Netherlands：

- 阿姆斯特丹是荷兰的城市。从数据一致性的角度看，如果其他条目都是国家级别，那么 “Amsterdam” 或许也应该归入 “Netherlands”。但这取决于数据收集的初衷，有时城市也会被单独列出。这是一个需要你根据数据来源判断的地方。

5. Scotland, Wales 和 U.K.：

- 苏格兰和威尔士都是英国的一部分。和上面的情况类似，这里存在国家（U.K.）和其构成国（Scotland, Wales）并列的情况。为了数据一致性，通常建议统一到国家层面，即全部归为 “U.K.”。但这同样取决于你的分析目的。

6. Puerto Rico：

- 波多黎各是美国的一个自由邦，在政治地位上比较特殊。它经常被单独列出，所以这不一定是个错误，但需要你注意。

为了数据的准确性，建议进行以下修正：
拼写错误修正：
1. "Niacragua": "Nicaragua",
2. "Eucador": "Ecuador",
3. "Domincan Republic": "Dominican Republic",
    
地区与国家统一 (建议)
1. "Scotland": "U.K.",
2. "Wales": "U.K.",
3. "Amsterdam": "Netherlands", # 将城市归入国家
4. "Puerto Rico": "U.S.A." # 波多黎各是美国的自由邦

### 评估无效或者错误数据

可以通过DataFrame的`describe`方法，对数值统计信息进行快速了解。

In [11]:
original_data.describe()

Unnamed: 0,REF,Review Date,Rating
count,1795.0,1795.0,1795.0
mean,1035.904735,2012.325348,3.185933
std,552.886365,2.92721,0.478062
min,5.0,2006.0,1.0
25%,576.0,2010.0,2.875
50%,1069.0,2013.0,3.25
75%,1502.0,2015.0,3.5
max,1952.0,2017.0,5.0


这里我们可以看到，没有负数，可以不用处理

## 清洗数据

根据前面评估部分得到的结论，我们需要进行的数据清理包括：
- `Review Date`应该是datetime格式，需要转换格式。
- 删除`Bean Type`豆子种类为空的观察值。
- 删除`Origin`原产地为空的观察值。
- 拼写错误修正：
    1. "Niacragua": "Nicaragua",
    2. "Eucador": "Ecuador",
    3. "Domincan Republic": "Dominican Republic",
- 地区与国家统一：
    1. "Scotland": "U.K.",
    2. "Wales": "U.K.",
    3. "Amsterdam": "Netherlands", # 将城市归入国家
    4. "Puerto Rico": "U.S.A." # 波多黎各是美国的自由邦
- `Origin`产地多个值拆分成列表。获取所有唯一的地区

为了区分开经过清理的数据和原始的数据，我们创建新的变量`cleaned_data`，让它为`original_data`复制出的副本。我们之后的清理步骤都将被运用在`cleaned_data`上。

In [12]:
cleaned_data = original_data.copy()
cleaned_data.head()

Unnamed: 0,Company \n(Maker-if known),Bean&BarName,REF,Review Date,Cocoa %,Location,Rating,Bean Type,Origin
0,A. Morin,Agua Grande,1876,2016,63%,France,3.75,,Sao Tome
1,A. Morin,Kpime,1676,2015,70%,France,2.75,,Togo
2,A. Morin,Atsane,1676,2015,70%,France,3.0,,Togo
3,A. Morin,Akata,1680,2015,70%,France,3.5,,Togo
4,A. Morin,Quilla,1704,2015,70%,France,3.5,,Peru


【转换格式】：`Review Date`应该是`datetime`格式，需要转换格式。

In [13]:
cleaned_data["Review Date"] = pd.to_datetime(cleaned_data["Review Date"])
cleaned_data["Review Date"]

0      1970-01-01 00:00:00.000002016
1      1970-01-01 00:00:00.000002015
2      1970-01-01 00:00:00.000002015
3      1970-01-01 00:00:00.000002015
4      1970-01-01 00:00:00.000002015
                    ...             
1790   1970-01-01 00:00:00.000002011
1791   1970-01-01 00:00:00.000002011
1792   1970-01-01 00:00:00.000002011
1793   1970-01-01 00:00:00.000002011
1794   1970-01-01 00:00:00.000002010
Name: Review Date, Length: 1795, dtype: datetime64[ns]

替换`Bean Type`和`Origin`的特殊空格

最后是Ai来处理的：使用了更彻底的方法：先去除所有空白，然后空字符串转为NaN

In [14]:
cleaned_data["Bean Type"] = cleaned_data["Bean Type"].str.strip().replace("", pd.NA)

In [15]:
cleaned_data["Origin"] = cleaned_data["Origin"].str.strip().replace("", pd.NA)

检查是否有替换成功

In [16]:
cleaned_data[cleaned_data['Bean Type'] == ' ']

Unnamed: 0,Company \n(Maker-if known),Bean&BarName,REF,Review Date,Cocoa %,Location,Rating,Bean Type,Origin


In [17]:
cleaned_data[cleaned_data['Origin'] == ' ']

Unnamed: 0,Company \n(Maker-if known),Bean&BarName,REF,Review Date,Cocoa %,Location,Rating,Bean Type,Origin


删除`Bean Type`和`Origin`原产地值为空的观察值

In [18]:
cleaned_data.dropna(subset=["Bean Type"], inplace=True)

In [19]:
cleaned_data.dropna(subset=["Origin"], inplace=True)

检查`Bean Type`和`Origin`变量值个数

In [20]:
cleaned_data["Bean Type"].isnull().sum()

np.int64(0)

In [21]:
cleaned_data["Origin"].isnull().sum()

np.int64(0)

- Location拼写错误修正：
    1. "Niacragua": "Nicaragua",
    2. "Eucador": "Ecuador",
    3. "Domincan Republic": "Dominican Republic"

In [22]:
cleaned_data["Location"] = cleaned_data["Location"].replace({
    "Niacragua": "Nicaragua", 
    "Eucador": "Ecuador",
    "Domincan Republic": "Dominican Republic"
})

检查替换是否成功

In [23]:
print("替换后的Location值分布:")
print(cleaned_data["Location"].value_counts().head(10))

替换后的Location值分布:
Location
U.S.A.         308
France          78
Canada          63
U.K.            54
Italy           38
Ecuador         34
Germany         32
Belgium         30
Switzerland     25
Australia       24
Name: count, dtype: int64


- 地区与国家统一：
    1. "Scotland": "U.K.",
    2. "Wales": "U.K.",
    3. "Amsterdam": "Netherlands", # 将城市归入国家
    4. "Puerto Rico": "U.S.A." # 波多黎各是美国的自由邦

In [25]:
cleaned_data["Origin"] = cleaned_data["Origin"].replace({
    "Scotland": "U.K.",
    "Wales": "U.K.",
    "Amsterdam": "Netherlands",
    "Puerto Rico": "U.S.A."
})

In [27]:
cleaned_data["Origin"].value_counts()

Origin
Venezuela                 139
Madagascar                131
Ecuador                    85
Peru                       73
Belize                     45
                         ... 
Ecuador, Mad., PNG          1
Ghana, Panama, Ecuador      1
Tobago                      1
Venezuela, Carribean        1
India                       1
Name: count, Length: 66, dtype: int64

`Origin`产地多个值拆分成列表。获取所有唯一的地区

In [28]:
# 将包含多个地区的值拆分成列表
cleaned_data['Origin_Split'] = cleaned_data['Origin'].str.split(', ')

# 获取所有唯一的地区（包括单个和多个的）
all_origins = set()
for origins in cleaned_data['Origin_Split'].dropna():
    if isinstance(origins, list):
        all_origins.update(origins)
    else:
        all_origins.add(origins)

print(f"总共有 {len(all_origins)} 个不同的原产地")

# 为每个地区创建虚拟变量
for origin in all_origins:
    cleaned_data[f'Origin_{origin}'] = cleaned_data['Origin'].apply(
        lambda x: 1 if origin in str(x).split(', ') else 0
    )

# 查看结果
print("创建的虚拟变量列:")
origin_columns = [col for col in cleaned_data.columns if col.startswith('Origin_')]
print(f"前10个虚拟变量列: {origin_columns[:10]}")
print(f"总共创建了 {len(origin_columns)} 个虚拟变量列")

总共有 61 个不同的原产地
创建的虚拟变量列:
前10个虚拟变量列: ['Origin_Split', 'Origin_Belize', 'Origin_Madagascar & Ecuador', 'Origin_Suriname', 'Origin_Honduras', 'Origin_Carribean', 'Origin_Papua New Guinea', 'Origin_Tobago', 'Origin_Ecuador', 'Origin_Vietnam']
总共创建了 62 个虚拟变量列


In [31]:
cleaned_data.sample(10)

Unnamed: 0,Company \n(Maker-if known),Bean&BarName,REF,Review Date,Cocoa %,Location,Rating,Bean Type,Origin,Origin_Split,...,Origin_Dominican Rep.,Origin_Domincan Republic,Origin_West Africa,Origin_DR,Origin_Principe,Origin_Uganda,Origin_Ecuad.,Origin_Dom. Rep.,Origin_Congo,Origin_Malaysia
674,French Broad,Tumbes Coop,883,1970-01-01 00:00:00.000002012,70%,U.S.A.,2.5,Criollo,Peru,[Peru],...,0,0,0,0,0,0,0,0,0,0
814,Hoja Verde (Tulicorp),Arriba,414,1970-01-01 00:00:00.000002009,58%,Ecuador,3.25,Forastero (Arriba) ASS,Ecuador,[Ecuador],...,0,0,0,0,0,0,0,0,0,0
1460,Silvio Bessone,"Trintade, Sao Tome",725,1970-01-01 00:00:00.000002011,65%,Italy,3.25,Forastero,Sao Tome,[Sao Tome],...,0,0,0,0,0,0,0,0,0,0
1193,Nuance,"Ghana, 2013",1454,1970-01-01 00:00:00.000002015,70%,U.S.A.,3.75,Forastero,Ghana,[Ghana],...,0,0,0,0,0,0,0,0,0,0
1538,Soma,Carenero Superior,951,1970-01-01 00:00:00.000002012,70%,Canada,3.75,Trinitario,Venezuela,[Venezuela],...,0,0,0,0,0,0,0,0,0,0
832,Hotel Chocolat (Coppeneur),"Somia Plantation, Akesson, 2012",1065,1970-01-01 00:00:00.000002013,72%,U.K.,3.0,Trinitario,Madagascar,[Madagascar],...,0,0,0,0,0,0,0,0,0,0
1496,Sol Cacao,Madagascar,1518,1970-01-01 00:00:00.000002015,72%,U.S.A.,3.0,Trinitario,Madagascar,[Madagascar],...,0,0,0,0,0,0,0,0,0,0
443,Compania de Chocolate (Salgado),Ocumare,292,1970-01-01 00:00:00.000002008,70%,Argentina,3.75,Criollo,Venezuela,[Venezuela],...,0,0,0,0,0,0,0,0,0,0
781,Hacienda El Castillo,Don Homero- Cerecita Valley,1327,1970-01-01 00:00:00.000002014,55%,Ecuador,2.75,Trinitario,Ecuador,[Ecuador],...,0,0,0,0,0,0,0,0,0,0
843,Hotel Chocolat (Coppeneur),Chuao,600,1970-01-01 00:00:00.000002010,70%,U.K.,2.75,Trinitario,Venezuela,[Venezuela],...,0,0,0,0,0,0,0,0,0,0


## 保存清洗后的数据

In [33]:
cleaned_data.to_csv("flavors_of_cacao_cleaned.csv", index=False)