# 초콜릿 데이터 분석하기


*   초콜릿 데이터 소개
  - 초콜릿 데이터(chocolate_ratings.csv)는 초콜릿에 대한 특징 데이터가 10개 속성으로 저장되어 있습니다.

  
  - 각 속성은 다음과 같습니다.
     - REF : 참고번호
     - Company (Manufacturer) : 회사(제조사)
     - Company Location : 회사 지역
     - Review Date : 후기 날짜
     - Country of Bean Origin : 원두 원산지
     - Specific Bean Origin or Bar Name : 상세 원두 원산지
     - Cocoa Percent : 코코아 비율
     - Ingredients : 재료
     - Most Memorable Characteristics : 가장 기억에 남는 특징
     - Rating : 평점


## 라이브러리 추가하기

In [None]:
# 데이터 분석에 사용할 라이브러리 불러오기
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

- Pandas : 데이터 분석, 특히 숫자 데이터 관리를 위한 라이브러리
- matplotlib.pyplot 함수를 활용하여 그래프를 만들기 위한 라이브러리
- seaborn : 다양한 색상 테마와 통계용 차트 등의 기능을 가진 라이브러리

## 데이터셋 읽고 이해하기


In [None]:
df = pd.read_csv('./content/chocolate_ratings.csv')

In [None]:
df.head(5)

In [None]:
df.info()

In [None]:
# 데이터 프레임의 행과 열 개수 확인하기
print(df.shape)

In [None]:
# 각종 통곗값 확인하기
df.describe(include='all')

**[코드 설명]** 
- 초콜릿 데이터프레임 이름은 df_rt로 지정했습니다.
- df 요약정보(info)결과, df.shape 결과를 보니 총 2,530개 행과 10개의 열로 구성되어 있습니다. 즉, 2,530개의 펭귄 데이터가 있고, 범주형(object), 수치-정수형(int64), 수치-실수형(float64)로 구성되어 있습니다.  
- 각 속성별 데이터의 구성을 확인할 수 있습니다. 대표적으로 평균(mean), 최소(min), 최댓(max)값을 확인합니다.

## 결측치 처리


In [None]:
# df의 각 속성별 결측치(null)의 개수 확인하기
df.isnull().sum()

In [None]:
# 결측치 제거하여 df2에 저장하기
df2 = df.dropna(axis=0)

In [None]:
# df2의 각 속성별 결측치(null)의 개수 확인하기
df2.isnull().sum()

**[코드 설명]** 
- df.isnull().sum()로 각 속성별 결측치의 개수를 확인합니다.
- df.dropna(axis=0)을 통해 결측치가 있는 행을 제거합니다.  

## 데이터 다듬기

In [None]:
# 데이터 살펴보기
df2.head()

### [실습] '평점(rating)'을 5개의 클래스로 정하기

- 4.0 - 5.0 = 매우 추천 = '5'
- 3.5 - 3.9 = 추천= '4'
- 3.0 - 3.4 = 보통= '3'
- 2.0 - 2.9 = 비추천 ='2'
- 1.0 - 1.9 = 매우 비추천 ='1'

In [None]:
# 평점 분류 함수 정의하기
def Rating_rank(ex):
    if ex >= 4:
        return 5
    elif 3.5 <= ex < 4:
        return 4
    elif 3.0 <= ex < 3.5:
        return 3
    elif 2.0 <= ex < 3.0:
        return 2
    else:
        return 1

In [None]:
# Rating_rank 추가하기
df2.loc[:, 'Rating_rank'] = df2.loc[:, 'Rating'].apply(Rating_rank)
df2.head()

### [실습] 회사(Company(Manufacturer)) 6개의 클래스로 정하기
- 50개 이상 : 5
- 40개 이상 50개 미만 : 4
- 30개 이상 40개 미만 : 3
- 20개 이상 30개 미만 : 2
- 10개 이상 20개 미만 : 1
- 10개 미만 : 0

In [None]:
# 회사 클래스 정하는 함수 정의하기
for ex in df2['Company (Manufacturer)'].value_counts().iteritems():
    def company_freq(ex):
        if ex >= 50:
            return 5
        elif 40 <= ex < 50:
            return 4
        elif 30 <= ex < 40:
            return 3
        elif 20 <= ex < 30:
            return 2
        elif 10 <= ex < 20:
            return 1
        else:
            return 0

In [None]:
# Company_score 데이터 프레임 만들기
df3 = pd.DataFrame(df2['Company (Manufacturer)'].value_counts())
df3.loc[:, 'Company_score'] = df3.loc[:, 'Company (Manufacturer)'].apply(company_freq)
df3 = df3.reset_index()
df3 = df3.drop('Company (Manufacturer)', axis=1)
df3.head()

In [None]:
# 기존 데이터 프레임에 합치기
df2 = pd.merge(df2, df3, left_on=['Company (Manufacturer)'], right_on=['index'], how='outer')
df2

### [실습] 상세 원두 원산지(Specific Bean Origin or Bar Name) 6개의 클래스로 정하기
- 50개 이상 : 5
- 40개 이상 50개 미만 : 4
- 30개 이상 40개 미만 : 3
- 20개 이상 30개 미만 : 2
- 10개 이상 20개 미만 : 1
- 10개 미만 : 0

In [None]:
# 상세 원두 원산지 클래스 정하는 함수 정의하기
for ex in df2['Specific Bean Origin or Bar Name'].value_counts().iteritems():
    def Bean_freq(ex):
        if ex >= 50:
            return 5
        elif 40 <= ex < 50:
            return 4
        elif 30 <= ex < 40:
            return 3
        elif 20 <= ex < 30:
            return 2
        elif 10 <= ex < 20:
            return 1
        else:
            return 0

In [None]:
# Bean_score 데이터 프레임 만들기
df3 = pd.DataFrame(df2['Specific Bean Origin or Bar Name'].value_counts())
df3.loc[:, 'Bean_score'] = df3.loc[:, 'Specific Bean Origin or Bar Name'].apply(Bean_freq)
df3 = df3.reset_index()
df3 = df3.drop('Specific Bean Origin or Bar Name', axis=1)
df3.head()

In [None]:
# 기존 데이터 프레임에 합치기
df2 = pd.merge(df2, df3, left_on=['Specific Bean Origin or Bar Name'], right_on=['index'], how='outer')
df2

### [실습] 재료(Ingredients) 6개의 클래스로 정하기
- 800개 이상 : 5
- 700개 이상 800개 미만 : 4
- 600개 이상 700개 미만 : 3
- 100개 이상 600개 미만 : 2
- 50개 이상 100개 미만 : 1
- 50개 미만 : 0


In [None]:
# 재료 클래스 정하는 함수 정의하기
for ex in df2['Ingredients'].value_counts().iteritems():
    def Ingredient_freq(ex):
        if ex >= 800:
            return 5
        elif 700 <= ex < 800:
            return 4
        elif 600 <= ex < 700:
            return 3
        elif 100 <= ex < 600:
            return 2
        elif 50 <= ex < 100:
            return 1
        else:
            return 0

In [None]:
# Ingredients_score 데이터 프레임 만들기
df3 = pd.DataFrame(df2['Ingredients'].value_counts())
df3.loc[:, 'Ingredients_score'] = df3.loc[:,'Ingredients'].apply(Ingredient_freq)
df3 = df3.reset_index()
df3 = df3.drop('Ingredients', axis=1)
df3.head()

In [None]:
# 기존 데이터 프레임에 합치기
df2 = pd.merge(df2, df3, left_on=['Ingredients'], right_on=['index'], how='outer')
df2

### [실습] 코코아 비율(Cocoa Percent) 실수형으로 만들기

In [None]:
df2['Cocoa Percent'] = df2['Cocoa Percent'].str.replace('%', '')
df2['Cocoa Percent'] = df2['Cocoa Percent'].astype(float)
df2

## 데이터 시각화 및 분석



In [None]:
# 세로 막대 그래프 작성하기(원두 원산지에 따른 회사수)
df2.groupby('Country of Bean Origin')['Company (Manufacturer)'].count().sort_values(ascending=False).head(50).plot.bar(figsize=(20, 5))


**[코드 설명]** 
- 원두 원산지에 따른 회사 수를 세로 막대그래프로 확인합니다.
- 세로 막대 그래프는 내림차순으로 표현하도록 합니다.
- Venezuela, Pelu, Dominican, Ecuador 순서로 회사들이 사용하는 원두의 원산지가 많음을 확인할 수 있습니다.  

In [None]:
# 상관관계 분석을 위한 데이터프레임 만들기
df_corr=df2.loc[:,['Rating_rank','Cocoa Percent','Company_score','Bean_score','Ingredients_score']]

In [None]:
# 상관관계 분석하기
sns.heatmap(df_corr.corr(), annot=True, fmt="1.1f")

**[코드 설명]** 
- df2의 Rating_rank, Cocoa Percent, Company_score, Bean_score, Ingredients_score 속성 간의 상관관계를 분석합니다.
- 상관관계 분석 결과를 heatmap으로 표현하도록 합니다.
- Rating_rank는 Company_score, Ingredients_score와 약간의 상관관계가 있음을 확인할 수 있습니다.