# 국가별 알콜 섭취량 데이터 분석
- 데이터 읽기
- 데이터 정보 확인
- 컬럼명 한글로 변경
    - 원본 데이터 컬럼 정보
    - country : 국가명
    - beer_servings : 맥주 소비량
    - spirit_servings : 증류주 소비량(독주, 알코올 함량 20% 이상의 설탕을 첨가하지 않은 증류주)
    - wine_servings : 와인 소비량
    - total_litres_of_pure_alcohol : 순수 알코올
    - continent : 대륙
- 결측치 확인
    - `대륙`에 대한 정보가 부족한 것을 확인할 수 있다.
    - drinks.csv 파일을 열어 원인을 확인한다.
    - 대륙의 종류
        - 아시아, 유럽, 아프리카, 북아메리카, 남아메리카, 오세아니아
        - AS, EU, AF, NA, SA, OC
- 결측치 해결
    - 'NA'를 NaN(결측치)로 읽는 것을 방지
    - pd.read_csv 함수의 na_filter=False 파라메터 : 결측치를 읽어올지 여부 지정
    - 옵션 확인 : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html 
- 통계값 구하기
    - 전세계 맥주, 증류주, 와인, 알코올의 소비에 대한 '평균', '최대값', '최소값' 구하기
- 주류 소비량 비교
    - 와인 소비량이 맥주 + 증류주 소비량보다 큰 나라를 검색해,'대륙'을 기준으로 정렬
    - 맥주 소비량이 230 초과이면서, 와인 소비량이 230 초과인 나라를 검색
    - 전체 평균보다 많은 알코올을 섭취하는 대륙과 알코올 평균 소비량 검색
    - 맥주를 가장 많이 소비하는 국가 확인
    - 증류주를 가장 많이 소비하는 국가 확인
    - 평균 맥주 소비량이 가장 많은 대륙 확인
- 데이터 프레임 조작
    - 국가별 주류 소비량 합계를 구해 새로운 컬럼 ('주류소비량') 추가
    - 주류 소비량 대비 알코올 소비량 비율을 구해 새로운 컬럼 ('알코올비율') 추가
        - 알코올비율 = '알코올' / '주류소비량'
        - 알코올비율'이 NaN인 것에 대해 0으로 채우기
    - 알코올비율이 높은 국가(술을 독하게 마시는 국가) TOP5의 ['국가', '주류소비량', '알코올비율'] 정보 조회
    - DataFrame의 index를 ['대륙', '국가'] 로 지정하고, 대륙별, 국가명으로  정렬하여 df로 저장
    - 전세계 평균 소비량과 한국의 소비량을 비교하는 DataFrame 만들기
        <pre>
               맥주	    증류주	     와인	      알코올	  주류소비량	알코올비율
     국가						
South Korea	140.000000	16.000000	9.000000	9.800000	165.000000	0.059394
World Wide	106.160622	80.994819	49.450777	4.717098	236.606218	0.026115
</pre>
    - pivot_table을 사용하여 대륙별(index), '맥주'와 '와인'의 mean, median, max 값을 구한다.

## 데이터 읽기
csv 파일 가져오기 
- csv 파일은 컬럼 구분이 콤마(,) 로 이루어진 파일
- df = pd.read_csv(파일이름) : csv 형식의 파일을 읽어 DataFrame 객체로 가져옴
- DataFrame.to_csv(파일이름, index=True) : DataFrame을 csv 파일로 저장, index는 제외하고 저장하기 위해서는 index=False로 지정

In [83]:
import pandas as pd
import numpy as np

# 데이터 읽기 (0~3행 skip)
df = pd.read_csv("drinks.csv")

# DataFrame.to_csv("drinks.csv")
df.drop(['Unnamed: 0.8','Unnamed: 0.7','Unnamed: 0.6','Unnamed: 0.5','Unnamed: 0.4','Unnamed: 0.3','Unnamed: 0.2','Unnamed: 0.1','Unnamed: 0'], axis=1, inplace=True)
df.drop([0], axis=0, inplace=True)
df

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF
3,Andorra,245,138,312,12.4,EU
4,Angola,217,57,45,5.9,AF
5,Antigua & Barbuda,102,128,45,4.9,
...,...,...,...,...,...,...
188,Venezuela,333,100,3,7.7,SA
189,Vietnam,111,2,1,2.0,AS
190,Yemen,6,0,0,0.1,AS
191,Zambia,32,19,4,2.5,AF


## 컬럼명 한글로 변경

In [84]:
df.columns = ['국가명', '맥주 소비량','증류주 소비량','와인 소비량','순수 알코올','대륙']

## 결측치 확인

In [None]:
# 결측치 확인
# 대륙에 대한 정보가 부족한 것을 확인할 수 있다.
# drinks.csv 파일을 열어 원인을 확인한다.
# 대륙의 종류
# 아시아, 유럽, 아프리카, 북아메리카, 남아메리카, 오세아니아
# AS, EU, AF, NA, SA, OC

## 결측치 해결

- 'NA'를 NaN(결측치)로 읽는 것을 방지
    - pd.read_csv(파일이름, na_filter=False) : 결측치를 읽어올지 여부 지정
    - 옵션 확인 : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html 


- 결측치를 다른 값으로 채우기 함
    - DataFrame.fillna(값) 또는 Series.fillna(값) : 결측값을 특정 값으로 채우기 
    - 연속형 데이터 : 0으로 채우기, 평균값으로 채우기, 범주별 평균값 채우기 등
    - 범주형 데이터 : 다른 범주로 만들어 채우기 

In [90]:
check_na = df.isna()
df = df.fillna('North_America')

## 통계값 구하기
- DataFrame.describe() : 컬럼별 count, mean, std, min, max, Q1, Q2, Q3 등의 통계값 구하기

In [102]:
# 전세계 맥주, 증류주, 와인, 알코올의 소비에 대한 '평균', '최대값', '최소값' 구하기

d1 = df.describe()['맥주 소비량']
d2 = df.describe()['와인 소비량']
d3 = df.describe()['증류주 소비량']
d4 = df.describe()['순수 알코올']
print(d1,d2,d3,d4)
print(df.info())

count    192.000000
mean     106.713542
std      101.114658
min        0.000000
25%       20.750000
50%       76.000000
75%      189.000000
max      376.000000
Name: 맥주 소비량, dtype: float64 count    192.000000
mean      49.708333
std       79.825388
min        0.000000
25%        1.000000
50%        8.500000
75%       59.750000
max      370.000000
Name: 와인 소비량, dtype: float64 count    192.000000
mean      81.416667
std       88.319881
min        0.000000
25%        4.000000
50%       56.500000
75%      128.750000
max      438.000000
Name: 증류주 소비량, dtype: float64 count    192.000000
mean       4.741667
std        3.767654
min        0.000000
25%        1.300000
50%        4.250000
75%        7.200000
max       14.400000
Name: 순수 알코올, dtype: float64
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 192 entries, 1 to 192
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   국가명      192 non-null    object 
 1   맥주 소비량   192 non-nul

## 주류 소비량 비교



In [109]:
# 와인 소비량이 맥주 + 증류주 소비량보다 큰 나라를 검색해,'대륙'을 기준으로 정렬
df3 = df[df['와인 소비량'] >= df['맥주 소비량'] + df['증류주 소비량']]
df3 = df3[df3['맥주 소비량'] != 0]
df3_sorted = df3.sort_values(by='대륙')

# 맥주 소비량이 230 초과이면서, 와인 소비량이 230 초과인 나라를 검색
x = df['맥주 소비량'] > 230
y = df['와인 소비량'] > 230
df1 = df[np.logical_and(x,y)] 
conti_mean
# 전체 평균보다 많은 알코올을 섭취하는 대륙과 알코올 평균 소비량 검색
# 맥주를 가장 많이 소비하는 국가 확인
# 증류주를 가장 많이 소비하는 국가 확인
# 평균 맥주 소비량이 가장 많은 대륙 확인
conti_mean_over = count_mean[count1_mean > total_mean]

# 맥주를 가장 많이 소비하는 국가 확인
result = df[df['맥주'].max() == df['맥주'][['국가','맥주']]
# 증류주를 가장 많이 소비하는 국가 확인
result = df[df['증류주'].max() == df['증류주'][['국가','증류주']]

# 국가가 여러개 나오는 경우 
result = df.sort_values('맥주',ascending=False.head(5))[['국가','맥주']]

# 평균 맥주 소비량이 가장 많은 대륙 확인
beer_avg_conti = df.groupby('대륙')['맥주'].mean().sort_values(ascending=False).head(1)


SyntaxError: invalid syntax. Perhaps you forgot a comma? (1471646805.py, line 18)

## 데이터 프레임 조작

In [None]:
# 국가별 주류 소비량 합계를 구해 새로운 컬럼 추가
df['주류소비량'] = df['맥주'] + df['증류주'] + df['와인']
df['주류소비량'] = df[df.columns[1:4]].sum(axis=1)

In [None]:
    # - 주류 소비량 대비 알코올 소비량 비율을 구해 새로운 컬럼 ('알코올비율') 추가
    #     - 알코올비율 = '알코올' / '주류소비량'
    #     - 알코올비율'이 NaN인 것에 대해 0으로 채우기
df['알코올비율'] = df['알코올'] / df['주류소비']
df['알코올비율'] = df['알코올비율'].fillna(0)
print(df.head(3))

# - 알코올비율이 높은 국가(술을 독하게 마시는 국가) TOP5의 ['국가', '주류소비량', '알코올비율'] 정보 조회

result = df[['국가','주류소비량','알코올비율']].sort_values('알코올비율', ascending=False).head()
result.index = np.arange(1,6)
print(result)



## 맥주 소비량