# 4. 파이차트 그리기
## 4.1 파이차트
- 각 범주(Category)가 데이터에서 차지하는 비율을 나타내는데 사용
- `pie(x, labels)` 이용
    - x: 값 (값들을 100을 기준으로 비율을 계산해 크기 설정)
    - labels : 값들의 label
    - autopct: 조각내에 표시될 비율의 문자열 형식. '%fmt문자' 
        - fmt문자: f(실수), d(정수), %% (%)
            

In [None]:
import matplotlib.pyplot as plt

fruits = ['apple', 'banana', 'watermelon', 'mango']
amounts = [200, 1000, 500, 60]

plt.figure(figsize=(5, 5))
plt.pie(amounts, labels=fruits, autopct='%.2f%%', explode=[0.1, 0.2, 0.1, 0.1], shadow=True)

plt.show()

In [None]:
plt.figure(figsize=(5, 5))
wedge, texts, autotexts = plt.pie(amounts, autopct='%.2f%%', explode=[0, 0.2, 0, 0.1], shadow=True)


# print(wedge)
# print(texts)				# label
# print(autotexts)			# 비율값
plt.legend(wedge, fruits, bbox_to_anchor=(1, 1), loc='upper left')
plt.show()

## 4.2 파이차트 활용
- 한국 웹브라우저 점유율을 파이차트로 작성
    - https://www.koreahtml5.kr/front/stats/browser/browserUseStats.do

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# converters={columns_name : 변환할 type}
browser = pd.read_excel('./data/webbrowser_share.xls', converters={'date' : str}, index_col=0)	
browser

In [None]:
browser[browser.columns[6:]].sum(axis=1)

In [None]:
# 점유율이 낮은(0.0xxx)인 브라우져들을 묶어서 기타로 처리
wb_df = browser[browser.columns[:6]].copy()
wb_df['etc'] = browser[browser.columns[6:]].sum(axis=1)
wb_df

In [None]:
# 2018.08의 브라우저 점유율을 pie 차트로 확인
plt.figure(figsize=(7, 7))
wedge, texts, aututexts = plt.pie(wb_df.loc['2018.08'], 
		# labels=wb_df.columns, 
		autopct='%.2f%%', 
		shadow=True, 
		# textprops={'fontsize':10},
		pctdistance=1.1,
		# labeldistance=1.3
		)
plt.legend(wedge, wb_df.columns, bbox_to_anchor=(1, 1), loc='upper left')
plt.show()

In [None]:
plt.figure(figsize=(15, 5))
plt.plot(wb_df['Chrome'], label='chrome')
plt.plot(wb_df['IE'], label='IE')

plt.show()

In [None]:
wb_df.plot(figsize=(15, 5))
plt.legend(bbox_to_anchor=(1, 1), loc='upper left')
plt.show()

# 5 히스토그램(Histogram) 그리기
## 5.1 히스토그램

- 도수 분포표를 그래프로 나타낸 것.
    - 도수분포표: 연속형 자료를 특정 구간(bin)으로 나눠 그 빈도를 나타낸 표
        - 빈도 확인이나 **분포**를 볼때 사용한다.
    - X축: 계급(변수구간)의 대표값, Y축: 빈도수
- `hist(data [, bins=계급개수)` 메소드를 사용
    - data: 리스트형의 객체를 전달한다.
    - bins: 등분 (default=10)

In [None]:
import matplotlib.pyplot as plt
import numpy as np

np.random.seed(0)
# 평균: 100, 표준편차: 10인 정규분포를 따르는 난수를 1000개 생성
data = np.random.normal(100, 10, 1000)
data

In [None]:
print(np.mean(data), np.std(data))

In [None]:
# data를 구성하는 고유값들과 개수
n, cnt = np.unique(data, return_counts=True)
np.max(cnt), np.min(cnt)

In [None]:
plt.bar(n, cnt)
plt.show()

In [None]:
plt.hist(data)
plt.show()

In [None]:
# bins=나누는 등분 -> 분포를 세분화해서 볼 때 사용
plt.hist(data, bins=30)
plt.show()

In [None]:
# histogram: 연속형 feature -> 도수분포표 -> 막대그래프(도수분포표의 시각화)

# 도수분포표 -> pandas의 cut() function를 이용
levels = pd.cut(data, bins=50)
levels

In [None]:
levels[:5]
# (117.144, 118.305) : 117.144 < value <= 118.305 / [ : 포함, ( : 미포함

In [None]:
d = pd.DataFrame({'Level':levels, 'value':data})
d

In [None]:
result = d['Level'].value_counts().sort_index()			# 도수분포표
result

In [None]:
# 도수분포표 시각화
plt.bar([str(a) for a in list(result.index)], result)

## 5.2 히스토그램 활용
- tips.csv
    - 식당에서 팁을 지불한 손님의 정보를 모아둔 데이터 셋    

In [None]:
tips = pd.read_csv('./data/tips.csv')
tips.shape

In [None]:
tips.head(10)

### total_bill 의 분포를 시각화

In [None]:
tips['total_bill'].value_counts()

In [None]:
plt.hist(tips.total_bill, bins=30)
plt.title('Total bill 분포')
plt.xlabel('Total bill')
plt.ylabel('개수')

plt.show()

In [None]:
plt.hist(tips.tip, bins=30)
plt.title('Tip의 분포')
plt.xlabel('tip 액수')
plt.ylabel('수량')

plt.show()

In [None]:
# total bill과 tip간의 상관관계
plt.scatter(tips.total_bill, tips.tip)
plt.title('Total bill과 Tip간의 상관관계')
plt.xlabel('total bill')
plt.ylabel('tip')

plt.show()

In [None]:
tips[['total_bill', 'tip']].corr()

# 6. 상자그래프(Boxplot) 그리기
## 6.1 상자그래프란
- 연속형 값들의 사분위수, 극단값들을 이용해 값들의 분포를 시각화한다.
- boxplot(x, whis=1.5)
    - x: 데이터셋
    - whis: 극단치 계산시 사용할 값(기본 1.5)
        - IQR을 이용해 극단치 계산하기
            - IQR(Inter Quatile Range): $3분위수 - 1분위수$ 로 중간 50%값의 범위
            - 극단적으로 작은값: 1분위 - $IQR(3분위수-1분위수) * whis$   보다 작은 값들
            - 극단적으로 큰값: 3분위 + $IQR(3분위수-1분위수) * whis$  보다 큰 값들

In [None]:
np.random.seed(0)
data = np.random.randint(1, 100, 1000)			# 1 ~ 100사이의 int_type의 난수 1000개를  생성
data[:5] = [-300, 350, 200, 300, -150]
data

In [None]:
plt.boxplot(data)

plt.show()

## 상자그래프 활용
- tips_df 에서 tip의 분포를 상자그래프로 확인

In [None]:
plt.boxplot(tips.tip)
plt.title('Tip의 분포')
plt.ylabel('Tip 금액')
plt.xticks([1], ['Tip'])
plt.yticks(range(11))

plt.show()

- 남녀별 tip의 분포를 하나의 boxplot에서 그려 비교
- 한 그래프에서 여러 데이터셋의 boxplot을 그리기.
    - 2차원 배열형태의 구조로로 데이터를 제공
    - 행(axis=0) 별로 그래프를 그린다.

In [None]:
male_tip = tips.loc[tips.sex == 'Male', 'tip']
female_tip = tips.loc[tips.sex == 'Female', 'tip']

plt.boxplot([male_tip, female_tip])
plt.title('성별 Tip 분포')
plt.xlabel('성별')
plt.xticks([1, 2], labels=['Male', 'Female'])
plt.ylabel('Tip 액수')

plt.show()