# 🍫巧克力🍫工艺/口味/评分数据集探索  


## 数据背景  

自2007年以来，曼哈顿巧克力协会的成员一直聚会，唯一的目的是品尝和评判高品质巧克力，以教育消费者并激励巧克力制造商生产更高品质的巧克力。从那时起，他们已经编制了一个包含超过2200个巧克力条的数据集，由他们的成员根据以下等级评分：  

4.0–5.00 = 杰出  
3.5–3.99 = 强烈推荐  
3.0–3.49 = 推荐  
2.0–2.99 = 令人失望  
1.0–1.99 = 不愉快  
这些评分来自于一个考虑到香气、外观、质地、风味、余味和整体意见的评分标准，评分的巧克力条大多是较深的巧克力条，因为目的是欣赏可可的风味。除了评分，曼哈顿巧克力协会的数据集还包括许多特征，如可可豆种植的国家、巧克力条含有的成分数量、是否包含盐，以及用来描述它的词语。  
## 数据解释  

company: 分类；巧克力条的制造商（超过500个不同的制造商）  
company_location: 分类；制造商的国家（66个不同的国家）  
review_date: 连续；巧克力条被评审的年份（从2006年到2020年）  
country_of_bean_origin: 分类；可可豆采集的国家（62个不同的国家）  
cocoa_percent: 分类；巧克力条中可可的百分比  
rating: 连续；由曼哈顿巧克力协会给出的评分（可能的值：1-5）  
counts_of_ingredients: 连续；巧克力条中的成分数量  
cocoa_butter: 二进制；是否使用可可脂制作  
vanilla: 二进制；是否使用香草制作  
lecithin: 二进制；是否使用卵磷脂制作  
salt: 二进制；是否使用盐制作  
sugar: 二进制；是否使用糖制作  
sweetener_without_sugar: 二进制；是否使用无糖甜味剂制作  
first_taste: 文本；用来描述第一口味道的词（语）  
second_taste: 文本；用来描述第二口味道的（语）  
third_taste: 文本；用来描述第三口味道的词（语）  
fourth_taste: 文本；用来描述第四口味道的词（语）  
## 数据来源  
http://flavorsofcacao.com/mcs_index.html

## 任务概述  
根据给出的数据，重点分析下什么样的巧克力可以拿到高分，高分巧克力是否有明显的地域性  

### 一、数据处理

In [1]:
# 导入库文件
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# 导入数据集
df=pd.read_csv('/home/mw/input/chocolate1075/chocolate_v2.csv')

In [3]:
# 查看数据集概况
df.sample(5)

Unnamed: 0,company,company_location,review_date,country_of_bean_origin,specific_bean_origin_or_bar_name,cocoa_percent,rating,counts_of_ingredients,cocoa_butter,vanilla,lecithin,salt,sugar,sweetener_without_sugar,first_taste,second_taste,third_taste,fourth_taste
604,Darcis,Belgium,2019,Vietnam,Mekong Delta,70.0,3.25,4,1,0,1,0,1,0,muted,creamy,basic,
332,Bullion,U.k.,2018,Bolivia,"Alto Beni, No.2, Batch 17, 2016",70.0,2.5,3,1,0,0,0,1,0,dirt,earthy,floral,
1628,Piety and Desire,U.S.A,2020,Tanzania,"Kokoa Kamili, Kilombero Valley, batch 304",70.0,3.5,3,1,0,0,0,1,0,sweet,cream,cherry,rich
91,Amedei,Italy,2007,Trinidad,Trinidad,70.0,3.5,4,1,1,0,0,1,0,coffee,fruit,woodsy,
2105,Valrhona,France,2007,Venezuela,Chuao 2002 P.,65.0,3.75,5,1,1,1,0,1,0,sandy,vegetal,cocoa,


In [4]:
# 查看数据集信息
df.info()# 有空值

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2224 entries, 0 to 2223
Data columns (total 18 columns):
company                             2224 non-null object
company_location                    2224 non-null object
review_date                         2224 non-null int64
country_of_bean_origin              2224 non-null object
specific_bean_origin_or_bar_name    2224 non-null object
cocoa_percent                       2224 non-null float64
rating                              2224 non-null float64
counts_of_ingredients               2224 non-null int64
cocoa_butter                        2224 non-null int64
vanilla                             2224 non-null int64
lecithin                            2224 non-null int64
salt                                2224 non-null int64
sugar                               2224 non-null int64
sweetener_without_sugar             2224 non-null int64
first_taste                         2219 non-null object
second_taste                        2142 non

In [5]:
# 处理空值 分析taste需要
df_nona=df.fillna('')# 需要处理空值的列都是字符串类型的，直接填充‘’

In [6]:
df_nona[df_nona.isna().get_values()]# 查看数据集已经没有空值

Unnamed: 0,company,company_location,review_date,country_of_bean_origin,specific_bean_origin_or_bar_name,cocoa_percent,rating,counts_of_ingredients,cocoa_butter,vanilla,lecithin,salt,sugar,sweetener_without_sugar,first_taste,second_taste,third_taste,fourth_taste


In [7]:
#增加一列，将四列taste相关数据合并 分析taste需要
df_nona['taste']=df_nona.iloc[:,14:18].apply(lambda x: ' '.join(x), axis=1)
df_nona.iloc[:,14:].head()

Unnamed: 0,first_taste,second_taste,third_taste,fourth_taste,taste
0,cocoa,blackberry,robust,,cocoa blackberry robust
1,cocoa,vegetal,savory,,cocoa vegetal savory
2,rich,fatty,bready,,rich fatty bready
3,fruity,melon,roasty,,fruity melon roasty
4,vegetal,nutty,,,vegetal nutty


In [8]:
#增加一列 content 将各个成分组合成字符串表示
df_nona.iloc[:,8:14]=df_nona.iloc[:,8:14].astype(str)
df_nona['content'] =df_nona.iloc[:,8:14].apply(lambda x: ''.join(x), axis=1)
df_nona.head()

Unnamed: 0,company,company_location,review_date,country_of_bean_origin,specific_bean_origin_or_bar_name,cocoa_percent,rating,counts_of_ingredients,cocoa_butter,vanilla,lecithin,salt,sugar,sweetener_without_sugar,first_taste,second_taste,third_taste,fourth_taste,taste,content
0,5150,U.S.A,2019,Madagascar,"Bejofo Estate, batch 1",76.0,3.75,3,1,0,0,0,1,0,cocoa,blackberry,robust,,cocoa blackberry robust,100010
1,5150,U.S.A,2019,Dominican republic,"Zorzal, batch 1",76.0,3.5,3,1,0,0,0,1,0,cocoa,vegetal,savory,,cocoa vegetal savory,100010
2,5150,U.S.A,2019,Tanzania,"Kokoa Kamili, batch 1",76.0,3.25,3,1,0,0,0,1,0,rich,fatty,bready,,rich fatty bready,100010
3,A. Morin,France,2012,Peru,Peru,63.0,3.75,4,1,0,1,0,1,0,fruity,melon,roasty,,fruity melon roasty,101010
4,A. Morin,France,2012,Bolivia,Bolivia,70.0,3.5,4,1,0,1,0,1,0,vegetal,nutty,,,vegetal nutty,101010


### 二、查看随时间相关的数据变化

In [9]:
date_group=df_nona.groupby('review_date')#按照时间分组
date_group['rating'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
review_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2006,60.0,3.0625,0.660035,1.5,2.75,3.0,3.75,4.0
2007,69.0,3.166667,0.5982,1.0,3.0,3.0,3.5,4.0
2008,84.0,3.03869,0.494692,1.5,2.75,3.0,3.5,4.0
2009,113.0,3.088496,0.439308,1.75,2.75,3.0,3.5,4.0
2010,94.0,3.18883,0.431748,2.0,2.75,3.25,3.5,4.0
2011,153.0,3.271242,0.475508,1.5,3.0,3.25,3.5,4.0
2012,180.0,3.206944,0.464396,1.5,3.0,3.25,3.5,4.0
2013,178.0,3.214888,0.43076,2.25,2.8125,3.25,3.5,4.0
2014,243.0,3.197531,0.409184,2.25,3.0,3.25,3.5,4.0
2015,280.0,3.24375,0.382416,2.0,3.0,3.25,3.5,4.0


#### 分析 1  
1. 2020年的数据与其它年份相比，参赛总数爆冷，评分最高也只到3.5  
2. 除该年外，其它年份的数据中，参赛总数整体呈现上升趋势，说明对巧克力越来越热衷  
3. 方差逐渐变小，说明数据更集中了  
4. 最小值和中位数呈现上升趋势，说明巧克力的整体品质有提升

In [10]:
df_date=df_nona['review_date'].value_counts().reset_index()

#创建柱状图
fig, ax = plt.subplots(figsize=(10,6))
ax.bar(df_date['index'], df_date['review_date'])


<BarContainer object of 15 artists>

#### 分析 2  
1. 参赛产品数量整体攀升，在2015年达到顶峰

### 三、分析“冠军”和“不及格”巧克力有哪些口感特征

In [11]:
#新建两个函数，分别获取当年中评分最高的“冠军”巧克力产品，和不及格的产品，用于分别分析
def top(df, column='rating'):
    return df[df['rating']==df['rating'].max()]

def floor(df, column='rating'):
    return df[df['rating']<3]

df_top=date_group.apply(top)#查看每年的冠军数据
df_floor=date_group.apply(floor)#查看每年不及格数据（小于3分）
df_floor.head(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,company,company_location,review_date,country_of_bean_origin,specific_bean_origin_or_bar_name,cocoa_percent,rating,counts_of_ingredients,cocoa_butter,vanilla,lecithin,salt,sugar,sweetener_without_sugar,first_taste,second_taste,third_taste,fourth_taste,taste,content
review_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2006,660,Dolfin (Belcolade),Belgium,2006,Blend,Noir,70.0,1.5,3,0,0,1,0,1,0,acidic,astringent,unpleasant,,acidic astringent unpleasant,1010
2006,727,El Rey,Venezuela,2006,Venezuela,"Carenero Superior, Gran Saman",70.0,2.75,5,1,1,1,0,1,0,gritty,chalky,earthy,sour,gritty chalky earthy sour,111010
2006,775,Felchlin,Switzerland,2006,Blend,Supremo- SF,62.0,2.0,5,1,1,1,0,1,0,malitol,cocoa,,,malitol cocoa,111010
2006,938,Green & Black's (ICAM),U.k.,2006,Blend,Dark,70.0,2.5,5,1,1,1,0,1,0,mildly rich,basic,roasty,,mildly rich basic roasty,111010
2006,955,Guittard,U.S.A,2006,Venezuela,Sur del Lago,65.0,2.5,5,1,1,1,0,1,0,sweet,creamy,vanilla,,sweet creamy vanilla,111010


In [12]:
#查看在“冠军”巧克力里，哪些提到的口味相关的词语最多
concat_df=pd.concat([df_top['first_taste'],df_top['second_taste'],df_top['third_taste'],df_top['fourth_taste']])
concat_df=(concat_df).value_counts().head(20)
concat_df=concat_df[concat_df.index!='']
#绘制折线图
plt.figure(figsize=(20,5))
plt.plot(concat_df)


[<matplotlib.lines.Line2D at 0x7f8ec4f52f28>]

#### 分析 3  
1. 在每年拿到最高分的巧克力中，taste描述中出现次数最多的三个词语明显高于其它词语，分别是creamy、cocoa、nutty

In [13]:
from wordcloud import WordCloud
text=' '.join(df_top['taste'])

wordcloud = WordCloud().generate(text)
plt.figure(figsize=(10,6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

In [14]:
#分别查看三个词语在所有参赛数据中的出现次数，以及相关占比
df_good=df_nona[df_nona['taste'].str.contains('creamy')]['rating'].value_counts().sort_index('index',ascending=False).reset_index()
df_good['cum_percent']=df_good['rating'].cumsum()/df_good['rating'].sum()*100
df_good['percent']=df_good['rating']/df_good['rating'].sum()*100
df_good

Unnamed: 0,index,rating,cum_percent,percent
0,4.0,36,19.565217,19.565217
1,3.75,44,43.478261,23.913043
2,3.5,39,64.673913,21.195652
3,3.25,23,77.173913,12.5
4,3.0,27,91.847826,14.673913
5,2.75,12,98.369565,6.521739
6,2.5,1,98.913043,0.543478
7,2.0,1,99.456522,0.543478
8,1.5,1,100.0,0.543478


In [15]:
df_good=df_nona[df_nona['taste'].str.contains('cocoa')]['rating'].value_counts().sort_index('index',ascending=False).reset_index()
df_good['cum_percent']=df_good['rating'].cumsum()/df_good['rating'].sum()*100
df_good['percent']=df_good['rating']/df_good['rating'].sum()*100
df_good

Unnamed: 0,index,rating,cum_percent,percent
0,4.0,26,10.116732,10.116732
1,3.75,46,28.015564,17.898833
2,3.5,73,56.420233,28.404669
3,3.25,43,73.151751,16.731518
4,3.0,45,90.661479,17.509728
5,2.75,19,98.054475,7.392996
6,2.5,2,98.832685,0.77821
7,2.0,2,99.610895,0.77821
8,1.75,1,100.0,0.389105


In [16]:
df_good=df_nona[df_nona['taste'].str.contains('nutty')]['rating'].value_counts().sort_index('index',ascending=False).reset_index()
df_good['cum_percent']=df_good['rating'].cumsum()/df_good['rating'].sum()*100
df_good['percent']=df_good['rating']/df_good['rating'].sum()*100
df_good

Unnamed: 0,index,rating,cum_percent,percent
0,4.0,17,6.719368,6.719368
1,3.75,35,20.55336,13.833992
2,3.5,61,44.664032,24.110672
3,3.25,47,63.241107,18.577075
4,3.0,54,84.58498,21.343874
5,2.75,31,96.837945,12.252964
6,2.5,7,99.604743,2.766798
7,2.25,1,100.0,0.395257


#### 分析 4  
1. 分别查看三个词语出现的参赛数据，rating的分布情况，大部分的评分都集中在3到3.75之间  
2. 从累计百分比也可以看到80%-90%的数据都是在及格分（3分）以上的  
3. 如果评委给出这样的评价，几乎代表着属于高品质的巧克力，有望冲击冠军巧克力了，这是评委喜爱的口感

#### 同上，分析下不及格的taste频次

In [17]:
concat_df=pd.concat([df_floor['first_taste'],df_floor['second_taste'],df_floor['third_taste'],df_floor['fourth_taste']])
concat_df=(concat_df).value_counts().head(20)
concat_df=concat_df[concat_df.index!='']
plt.figure(figsize=(20,5))
plt.plot(concat_df)
plt.ylim(0,)


(0, 86.2)

#### 分析 5  
1. 在不及格的巧克力中排名前三的taste描述，出现频次明显高于其它词语，分别是sweet、earthy、sour

In [18]:
from wordcloud import WordCloud
text=' '.join(df_floor['taste'])

wordcloud = WordCloud().generate(text)
plt.figure(figsize=(10,6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

In [19]:
#分别查看三个词语在分数上的分布并绘制折线图观察
df_bad=df_nona[df_nona['taste'].str.contains('sweet')]['rating'].value_counts().sort_index('index').reset_index()
df_bad['percent']=df_bad['rating']/df_bad['rating'].sum()*100
plt.plot(df_bad['index'],df_bad['rating'])


[<matplotlib.lines.Line2D at 0x7f8ebb2ba198>]

In [20]:
df_bad=df_nona[df_nona['taste'].str.contains('earthy')]['rating'].value_counts().sort_index('index').reset_index()
df_bad['percent']=df_bad['rating']/df_bad['rating'].sum()*100
plt.plot(df_bad['index'],df_bad['rating'])


[<matplotlib.lines.Line2D at 0x7f8ebb1b2748>]

In [21]:
df_bad=df_nona[df_nona['taste'].str.contains('sour')]['rating'].value_counts().sort_index('index').reset_index()
df_bad['percent']=df_bad['rating']/df_bad['rating'].sum()*100
plt.plot(df_bad['index'],df_bad['rating'])


[<matplotlib.lines.Line2D at 0x7f8ebb1945f8>]

#### 分析 6  
1. 分别查看三个词语出现的参赛数据，rating的分布情况，大部分的评分都集中在2.75到3.25之间，及格分上下  
2. 如果评委给出这样的评价，可能代表着几乎无缘冲击高品质巧克力了，这并非是评委喜爱的口感

### 四、分析company字段

In [22]:
df_com=df.groupby(['company'])['rating'].count().sort_values(ascending=False)
df_com=df_com.head(10)
plt.figure(figsize=(10,5))
plt.plot(df_com)
plt.text('Soma',df_com['Soma'],('Soma',df_com['Soma']))
plt.ylim(0,60)


(0, 60)

#### 分析 7  
1. Soma公司参赛数量遥遥领先，参赛热情很高涨

In [23]:
#分析Soma公司
df_Soma=df[df['company']=='Soma']
df_Soma.groupby('review_date')['rating'].describe()


Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
review_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2009,6.0,3.416667,0.341565,3.0,3.125,3.5,3.6875,3.75
2010,1.0,3.75,,3.75,3.75,3.75,3.75,3.75
2011,6.0,3.583333,0.465475,2.75,3.5,3.625,3.9375,4.0
2012,8.0,3.65625,0.265165,3.25,3.5,3.625,3.8125,4.0
2013,11.0,3.613636,0.423728,2.75,3.25,3.75,4.0,4.0
2014,6.0,3.5,0.223607,3.25,3.3125,3.5,3.6875,3.75
2015,2.0,3.75,0.353553,3.5,3.625,3.75,3.875,4.0
2016,7.0,3.607143,0.243975,3.25,3.5,3.5,3.75,4.0
2017,2.0,3.625,0.53033,3.25,3.4375,3.625,3.8125,4.0
2018,3.0,3.666667,0.57735,3.0,3.5,4.0,4.0,4.0


#### 分析 8  
1. Soma公司从2009到2018年一直参加比赛，参与的数量从1-11不等  
2. 从最大值看出，几乎年年都有4分（当年最高分）巧克力，除了2009、2010、2014年是3.75，分数也很高

In [24]:
df_top['company'].value_counts().head(10)


Soma                 13
Bonnat                8
Arete                 6
Idilio (Felchlin)     4
Domori                4
Valrhona              4
Fresco                4
Pierre Marcolini      3
A. Morin              3
Cacao Sampaka         3
Name: company, dtype: int64

#### 分析 9  
1. 曾经拿过当年巧克力最高分的公司有53个，Soma依然是数量最多的  
2. Soma公司参赛的巧克力品类多，且高品质巧克力产品也多

### 五、分析company_location字段

In [25]:
#从参赛产品数量分析
df_top['company_location'].value_counts()


U.S.A             41
France            16
Canada            16
Switzerland        6
Belgium            5
Australia          4
U.k.               4
Italy              4
Spain              3
Ecuador            3
Denmark            2
Brazil             1
Madagascar         1
Scotland           1
Germany            1
Czech republic     1
Guatemala          1
Name: company_location, dtype: int64

#### 分析 10  
1. 冠军巧克力中，来自美国公司的产品居多，其次是法国和加拿大（Soma是加拿大的公司），瑞士和比利时巧克力竟然没在前三

In [26]:
#从参赛公司的维度分析
df[['company','company_location']].drop_duplicates().groupby('company_location').count().sort_values('company',ascending=False).reset_index().head(10)


Unnamed: 0,company_location,company
0,U.S.A,211
1,Canada,29
2,U.k.,25
3,France,19
4,Ecuador,13
5,Belgium,12
6,Peru,11
7,Italy,10
8,Switzerland,10
9,Japan,10


#### 分析 11  
1. 参赛的公司中，来自美国的公司最多

In [27]:
#从曾经获得过冠军的公司的维度分析
df_top[['company','company_location']].drop_duplicates().groupby('company_location').count().sort_values('company',ascending=False).reset_index().head(10)


Unnamed: 0,company_location,company
0,U.S.A,24
1,U.k.,4
2,France,4
3,Canada,4
4,Switzerland,3
5,Belgium,2
6,Australia,2
7,Ecuador,1
8,Denmark,1
9,Guatemala,1


#### 分析 12  
1. 产生冠军巧克力的公司中，来自美国的也最多  


所有冠军巧克力中，来自美国的制造商生产的产品数量最多；  
所有生产过冠军巧克力的制造商中，来自美国的制造商最多；  
整体参赛的制造商中，来自美国的制造商也是最多的

### 六、分析country_of_bean_origin字段

In [28]:
df_top['country_of_bean_origin'].value_counts().head(10)
  

Peru                19
Venezuela           18
Madagascar          10
Ecuador              8
Blend                8
Colombia             5
Bolivia              5
Brazil               4
Papua new guinea     4
Haiti                3
Name: country_of_bean_origin, dtype: int64

#### 分析 13  
1. 冠军巧克力中，原产地来自Peru的最多，其次是Venezuela、Madagascar

In [29]:
######插播一个分析
#查看分数最低的数据
df[df['rating']==df['rating'].min()]


Unnamed: 0,company,company_location,review_date,country_of_bean_origin,specific_bean_origin_or_bar_name,cocoa_percent,rating,counts_of_ingredients,cocoa_butter,vanilla,lecithin,salt,sugar,sweetener_without_sugar,first_taste,second_taste,third_taste,fourth_taste
1479,Neuhaus (Callebaut),Belgium,2007,Blend,Dark,73.0,1.0,5,1,1,1,0,1,0,pastey,strong flavor,,


#### 分析 14  
1. 史低的参赛数据是2007年来自Belgium的Neuhaus (Callebaut)的Dark巧克力，分数只有一分

In [30]:
#分析该公司
df[df['company']=='Neuhaus (Callebaut)']


Unnamed: 0,company,company_location,review_date,country_of_bean_origin,specific_bean_origin_or_bar_name,cocoa_percent,rating,counts_of_ingredients,cocoa_butter,vanilla,lecithin,salt,sugar,sweetener_without_sugar,first_taste,second_taste,third_taste,fourth_taste
1476,Neuhaus (Callebaut),Belgium,2006,Venezuela,Ocumare,71.0,3.0,5,1,1,1,0,1,0,pastey,complex,coffee,vanilla
1477,Neuhaus (Callebaut),Belgium,2006,Sao tome,Sao Tome,75.0,2.75,5,1,1,1,0,1,0,grassy,earthy,burnt,
1478,Neuhaus (Callebaut),Belgium,2006,Blend,West Africa,73.0,2.0,5,1,1,1,0,1,0,non descript,poor aftertaste,,
1479,Neuhaus (Callebaut),Belgium,2007,Blend,Dark,73.0,1.0,5,1,1,1,0,1,0,pastey,strong flavor,,
1480,Neuhaus (Callebaut),Belgium,2008,Trinidad,Manickchand Estate,67.0,3.75,5,1,1,1,0,1,0,complex,intense banana,,
1481,Neuhaus (Callebaut),Belgium,2010,Papua new guinea,Papua New Guinea,70.0,2.5,5,1,1,1,0,1,0,gritty,vanilla,non descript,


#### 分析 15  
1. 该公司在2006、2008、2009、2010共参赛6款产品  
2. 06年的三款产品只有一款达到3分，07年拿到史低，但是08年拿到3.75的高分！虽然自10年以后都没有参赛，但是数据依然保留这个高光时刻  
3. 该公司的参赛产品counts_of_ingredients都是5，似乎喜欢添加很多的成分在里面

### 七、分析cocoa_percent字段

In [31]:

df_coco = df.pivot_table(index='rating', columns='cocoa_percent', values='company', aggfunc='count') 

plt.figure(figsize = (15, 5)) 
sns.heatmap(data=df_coco, cmap='YlOrBr')


<matplotlib.axes._subplots.AxesSubplot at 0x7f8ebb0b09b0>

#### 分析 16  
coco百分比在70%时，巧克力数量最多

In [32]:
c1=df.groupby('cocoa_percent')['company'].count().sort_values(ascending=False)
c2=df_top.groupby('cocoa_percent')['company'].count().sort_values(ascending=False)
c3=pd.merge(c1,c2,on='cocoa_percent',how='outer')
c3.rename(columns={'company_x': 'count', 'company_y': 'top_count'}, inplace=True)
c3['percent']=(c3['top_count']/c3['count']*100).round(2)
c3.dropna()



Unnamed: 0_level_0,count,top_count,percent
cocoa_percent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
70.0,904,58.0,6.42
75.0,284,15.0,5.28
72.0,251,12.0,4.78
65.0,80,1.0,1.25
74.0,62,5.0,8.06
68.0,59,2.0,3.39
73.0,59,3.0,5.08
60.0,44,1.0,2.27
71.0,42,1.0,2.38
64.0,31,3.0,9.68


#### 分析 17  
1. 70%的coco_percent的产品，无论是参赛数量和获得冠军巧克力的数量都是远远高于其它percent的  
2. 但是从产生冠军巧克力的百分比中，没有明显优势  
3. 所以制造商更热衷于用此比例制作巧克力，但是不代表该比例更容易产生冠军巧克力  


In [33]:
d1=df[df['cocoa_percent']==70].groupby('review_date')['company'].count()
d2=df.groupby('review_date')['company'].count()
# 水平合并Series到DataFrame
d3=pd.concat([d1, d2], axis=1,keys=('70_count','count'))
d3['percent']=d3['70_count']/d3['count']*100
d3

Unnamed: 0_level_0,70_count,count,percent
review_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2006,11,60,18.333333
2007,19,69,27.536232
2008,27,84,32.142857
2009,30,113,26.548673
2010,19,94,20.212766
2011,44,153,28.75817
2012,74,180,41.111111
2013,74,178,41.573034
2014,96,243,39.506173
2015,135,280,48.214286


In [34]:
plt.plot(d3.index,d3['percent'])
plt.ylim(0,100)


(0, 100)

#### 分析 18  
使用70%coco_percent的参赛产品的比例整体逐年上升，进一步验证制造商越来越倾向于使用这个比例研制巧克力

### 八、分析不同配方组合

In [35]:

c4 = df_nona.pivot_table(index='content', columns='cocoa_percent', values='rating', aggfunc='count') 
c5 = df_top.pivot_table(index='content', columns='cocoa_percent', values='rating', aggfunc='count') 
c6=c5/c4*100

plt.figure(figsize = (25, 10)) 
sns.heatmap(data=c4, cmap='YlOrBr', annot=True, fmt='.0f')
plt.figure(figsize = (10, 4)) 
sns.heatmap(data=c5, cmap='YlOrBr', annot=True)
plt.figure(figsize = (25, 10)) 
sns.heatmap(data=c6, cmap='YlOrBr', annot=True, fmt='.0f')


<matplotlib.axes._subplots.AxesSubplot at 0x7f8ebb3192b0>

#### 分析 19  
1. 使用70%可可、000010，100010（使用糖，且不使用香草、软磷脂、盐、甜味剂，最好添加可可脂），这两种配方的参赛产品最多了，称之为大众配方也不为过  
2. 同样是上述配方，在冠军巧克力中，这种配方的巧克力数量也是最多的  
3. 但是从冠参比（冠军数/参赛数*100%）上看，63%或69%的可可、111010（使用可可脂、香草、软磷脂、糖且不使用盐、甜味剂），这种配方的占比极高

In [36]:
df_nona[(df_nona['cocoa_percent'].isin([63,69])) & (df_nona['content']=='111010')]


Unnamed: 0,company,company_location,review_date,country_of_bean_origin,specific_bean_origin_or_bar_name,cocoa_percent,rating,counts_of_ingredients,cocoa_butter,vanilla,lecithin,salt,sugar,sweetener_without_sugar,first_taste,second_taste,third_taste,fourth_taste,taste,content
1250,Madecasse (Cinagra),Madagascar,2008,Madagascar,Madagascar,63.0,4.0,5,1,1,1,0,1,0,intense,nutty,cocoa,,intense nutty cocoa,111010
2116,Valrhona,France,2012,Venezuela,"Otucan, Grand Cru",69.0,4.0,5,1,1,1,0,1,0,green,unripened fruit,banana,,green unripened fruit banana,111010
2119,Valrhona,France,2015,Peru,"Piura, Illanka, Quemazon",63.0,4.0,5,1,1,1,0,1,0,intense,dark berry,grapes,,intense dark berry grapes,111010


#### 分析 20  
进一步查看发现两种配方下的参赛数一共只有3个，但是都拿到了4分的好成绩，虽然参考数较少，但是不免是一种新的研发道路

### 九、分析counts_of_ingredients字段

In [37]:
df_coco_count=df_top.groupby('counts_of_ingredients')['rating'].count()
df_coco_count.sort_values(ascending=False)


counts_of_ingredients
3    59
2    25
4    15
5    11
Name: rating, dtype: int64

#### 分析 21  
参赛产品中，使用三种成分的产品最多，制造商倾向于使用三种成分

## 总结

1. 随着时间趋势，参赛数量整体呈现上升趋势，赛事热度不减。巧克力分数向上集中，产品质量逐年提升。  
2. 比较受喜爱的口感是**creamy、cocoa、nutty**，不容易受喜爱的口感是sweet、earthy、sour  
3. **Soma**公司参赛的巧克力产品最多，且冠军巧克力产品也最多  
4. 所有冠军巧克力中，来自**美国**的制造商生产的产品数量最多；  
		所有生产过冠军巧克力的制造商中，来自**美国**的制造商最多；  
		整体参赛的制造商中，来自**美国**的制造商也是最多的  
5. 冠军巧克力中，**原产地来自Peru**的最多，其次是Venezuela、Madagascar  
6. 制造商更热衷于用**70**%的coco，再加上另外**两种**成分制作巧克力  
7. 使用**70%可可**、000010或100010（**使用糖，且不使用香草、软磷脂、盐、甜味剂，最好添加可可脂**），这两种配方的参赛产品最多了，获得冠军巧克力的产品也最多（大众配方）  
8. **63%或69%的可可**、111010（**使用可可脂、香草、软磷脂、糖且不使用盐、甜味剂**），这两种配方所有的参赛产品都拿到了冠军（潜力配方）  
