# 국가별 알콜 섭취량 데이터 분석
- 데이터 읽기
- 데이터 정보 확인
- 컬럼명 한글로 변경
    - 원본 데이터 컬럼 정보
    - country : 국가명
    - beer_servings : 맥주 소비량
    - spirit_servings : 증류주 소비량(독주, 알코올 함량 20% 이상의 설탕을 첨가하지 않은 증류주)
    - wine_servings : 와인 소비량
    - total_litres_of_pure_alcohol : 순수 알코올
    - continent : 대륙
- 결측치 확인
    - `대륙`에 대한 정보가 부족한 것을 확인할 수 있다.
    - drinks.csv 파일을 열어 원인을 확인한다.
    - 대륙의 종류
        - 아시아, 유럽, 아프리카, 북아메리카, 남아메리카, 오세아니아
        - AS, EU, AF, NA, SA, OC
- 결측치 해결
    - 'NA'를 NaN(결측치)로 읽는 것을 방지
    - pd.read_csv 함수의 na_filter=False 파라메터 : 결측치를 읽어올지 여부 지정
    - 옵션 확인 : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html 
- 통계값 구하기
    - 전세계 맥주, 증류주, 와인, 알코올의 소비에 대한 '평균', '최대값', '최소값' 구하기
- 주류 소비량 비교
    - 와인 소비량이 맥주 + 증류주 소비량보다 큰 나라를 검색해,'대륙'을 기준으로 정렬
    - 맥주 소비량이 230 초과이면서, 와인 소비량이 230 초과인 나라를 검색
    - 전체 평균보다 많은 알코올을 섭취하는 대륙과 알코올 평균 소비량 검색
    - 맥주를 가장 많이 소비하는 국가 확인
    - 증류주를 가장 많이 소비하는 국가 확인
    - 평균 맥주 소비량이 가장 많은 대륙 확인
- 데이터 프레임 조작
    - 국가별 주류 소비량 합계를 구해 새로운 컬럼 ('주류소비량') 추가
    - 주류 소비량 대비 알코올 소비량 비율을 구해 새로운 컬럼 ('알코올비율') 추가
        - 알코올비율 = '알코올' / '주류소비량'
        - 알코올비율'이 NaN인 것에 대해 0으로 채우기
    - 알코올비율이 높은 국가(술을 독하게 마시는 국가) TOP5의 ['국가', '주류소비량', '알코올비율'] 정보 조회
    - DataFrame의 index를 ['대륙', '국가'] 로 지정하고, 대륙별, 국가명으로  정렬하여 df로 저장
    - 전세계 평균 소비량과 한국의 소비량을 비교하는 DataFrame 만들기
        <pre>
               맥주	    증류주	     와인	      알코올	  주류소비량	알코올비율
     국가						
South Korea	140.000000	16.000000	9.000000	9.800000	165.000000	0.059394
World Wide	106.160622	80.994819	49.450777	4.717098	236.606218	0.026115
</pre>
    - pivot_table을 사용하여 대륙별(index), '맥주'와 '와인'의 mean, median, max 값을 구한다.

## 데이터 읽기
csv 파일 가져오기 
- csv 파일은 컬럼 구분이 콤마(,) 로 이루어진 파일
- df = pd.read_csv(파일이름) : csv 형식의 파일을 읽어 DataFrame 객체로 가져옴
- DataFrame.to_csv(파일이름, index=True) : DataFrame을 csv 파일로 저장, index는 제외하고 저장하기 위해서는 index=False로 지정

In [71]:
import numpy as np
import pandas as pd

df = pd.read_csv("drinks.csv")
display(df.head())
print(df.shape)

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF
3,Andorra,245,138,312,12.4,EU
4,Angola,217,57,45,5.9,AF


(193, 6)


In [43]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193 entries, 0 to 192
Data columns (total 6 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   country                       193 non-null    object 
 1   beer_servings                 193 non-null    int64  
 2   spirit_servings               193 non-null    int64  
 3   wine_servings                 193 non-null    int64  
 4   total_litres_of_pure_alcohol  193 non-null    float64
 5   continent                     170 non-null    object 
dtypes: float64(1), int64(3), object(2)
memory usage: 9.2+ KB
None


## 컬럼명 한글로 변경

In [None]:
# - 원본 데이터 컬럼 정보
df.columns = []  # 전체 컬럼 변경

#     - country : 국가명
#     - beer_servings : 맥주 소비량
#    - spirit_servings : 증류주 소비량(독주, 알코올 함량 20% 이상의 설탕을 첨가하지 않은 증류주)
#    - wine_servings : 와인 소비량
#    - total_litres_of_pure_alcohol : 순수 알코올
#    - continent : 대륙

In [44]:
# 일부 컬럼명 변경
df.rename({'country':'국가'}, axis=1, inplace=True)

In [82]:
# 전체 컬럼명 변경
df.rename(columns={'country':'국가', 'beer_servings':'맥주 소비량', 'spirit_servings':'증류주 소비량', 'wine_servings':'와인 소비량',
                  'total_litres_of_pure_alcohol':'순수 알코올','continent':'대륙'}, inplace=True)
df

Unnamed: 0,국가,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF
3,Andorra,245,138,312,12.4,EU
4,Angola,217,57,45,5.9,AF
...,...,...,...,...,...,...
188,Venezuela,333,100,3,7.7,SA
189,Vietnam,111,2,1,2.0,AS
190,Yemen,6,0,0,0.1,AS
191,Zambia,32,19,4,2.5,AF


## 결측치 확인

In [46]:
# 컬럼별 결측치 확인
print(df.isna().sum())

국가          0
맥주 소비량      0
증류주 소비량     0
와인 소비량      0
순수 알코올      0
대륙         23
dtype: int64


In [47]:
# 결측치 가진 것의 unique 값 목록
print(df['대륙'].unique())

['AS' 'EU' 'AF' nan 'SA' 'OC']


In [48]:
print(df[df['대륙'].isna()]['국가'])

5                 Antigua & Barbuda
11                          Bahamas
14                         Barbados
17                           Belize
32                           Canada
41                       Costa Rica
43                             Cuba
50                         Dominica
51               Dominican Republic
54                      El Salvador
68                          Grenada
69                        Guatemala
73                            Haiti
74                         Honduras
84                          Jamaica
109                          Mexico
122                       Nicaragua
130                          Panama
143               St. Kitts & Nevis
144                       St. Lucia
145    St. Vincent & the Grenadines
174               Trinidad & Tobago
184                             USA
Name: 국가, dtype: object


## 결측치 해결
- 결측치를 다른 값으로 채우기 함
    - DataFrame.fillna(값) 또는 Series.fillna(값) : 결측값을 특정 값으로 채우기 
    - 연속형 데이터 : 0으로 채우기, 평균값으로 채우기, 범주별 평균값 채우기 등
    - 범주형 데이터 : 다른 범주로 만들어 채우기

In [49]:
# 결측치 포함 X 불러오기
temp = pd.read_csv('drinks.csv', na_filter=False)
print(temp.isna().sum())

country                         0
beer_servings                   0
spirit_servings                 0
wine_servings                   0
total_litres_of_pure_alcohol    0
continent                       0
dtype: int64


In [50]:
# 모든 결측치 값 대체
df = df.fillna('NA')

In [51]:
print(df['대륙'].value_counts())

대륙
AF    53
EU    45
AS    44
NA    23
OC    16
SA    12
Name: count, dtype: int64


## 통계값 구하기
- DataFrame.describe() : 컬럼별 count, mean, std, min, max, Q1, Q2, Q3 등의 통계값 구하기

In [52]:
# describe() 함수는 기본적으로 연속형(수치형) 데이터에 대한 통계 보여 줌
df.describe()

Unnamed: 0,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올
count,193.0,193.0,193.0,193.0
mean,106.160622,80.994819,49.450777,4.717098
std,101.143103,88.284312,79.697598,3.773298
min,0.0,0.0,0.0,0.0
25%,20.0,4.0,1.0,1.3
50%,76.0,56.0,8.0,4.2
75%,188.0,128.0,59.0,7.2
max,376.0,438.0,370.0,14.4


In [53]:
# 데이터 타입에 상관없이 모든 컬럼에 대한 통계값 확인
display(df.describe(include='all'))

Unnamed: 0,국가,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙
count,193,193.0,193.0,193.0,193.0,193
unique,193,,,,,6
top,Afghanistan,,,,,AF
freq,1,,,,,53
mean,,106.160622,80.994819,49.450777,4.717098,
std,,101.143103,88.284312,79.697598,3.773298,
min,,0.0,0.0,0.0,0.0,
25%,,20.0,4.0,1.0,1.3,
50%,,76.0,56.0,8.0,4.2,
75%,,188.0,128.0,59.0,7.2,


In [54]:
# 확인하고자 하는 통계값만 빼 확인 
df2 = df[['맥주 소비량','증류주 소비량','와인 소비량','순수 알코올']]
display(df2.agg(['min','max','mean']))

Unnamed: 0,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올
min,0.0,0.0,0.0,0.0
max,376.0,438.0,370.0,14.4
mean,106.160622,80.994819,49.450777,4.717098


## 주류 소비량 비교

In [55]:
# 와인 소비량이 맥주 + 증류주 소비량보다 큰 나라를 검색해,'대륙'을 기준으로 정렬
wine = df[df['와인 소비량'] > (df['증류주 소비량'] + df['맥주 소비량'])].sort_values('대륙')
display(wine)

Unnamed: 0,국가,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙
55,Equatorial Guinea,92,0,233,5.8,AF
148,Sao Tome & Principe,56,38,140,4.2,AF
92,Laos,62,0,123,6.2,AS
171,Timor-Leste,1,1,4,0.1,AS
61,France,127,151,370,11.8,EU
83,Italy,85,42,237,6.5,EU
136,Portugal,194,67,339,11.0,EU
6,Argentina,193,25,221,8.3,SA
185,Uruguay,115,35,220,6.6,SA


In [56]:
# 맥주 소비량이 230 초과이면서, 와인 소비량이 230 초과인 나라를 검색
result = df[np.logical_and(df['맥주 소비량'] > 230, df['와인 소비량'] > 230)]
display(result)

Unnamed: 0,국가,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙
3,Andorra,245,138,312,12.4,EU
99,Luxembourg,236,133,271,11.4,EU
156,Slovenia,270,51,276,10.6,EU


In [57]:
# 전체 평균보다 많은 알코올을 섭취하는 대륙과 알코올 평균 소비량 검색 
total_mean = df['순수 알코올'].mean()
print('전체 알코올 평균 섭취량', total_mean)

print()
print('대륙별 알코올 평균 섭취량')
conti_mean = grouped = df.groupby('대륙')['순수 알코올'].mean()
print(conti_mean)

print()
print('전체 평균보다 많은 알코올을 섭취하는 대륙')
conti_mean_over = conti_mean[conti_mean > total_mean]
print(conti_mean_over)

전체 알코올 평균 섭취량 4.717098445595855

대륙별 알코올 평균 섭취량
대륙
AF    3.007547
AS    2.170455
EU    8.617778
NA    5.995652
OC    3.381250
SA    6.308333
Name: 순수 알코올, dtype: float64

전체 평균보다 많은 알코올을 섭취하는 대륙
대륙
EU    8.617778
NA    5.995652
SA    6.308333
Name: 순수 알코올, dtype: float64


In [58]:
# 맥주를 가장 많이 소비하는 국가 확인
result = df[df['맥주 소비량'].max() == df['맥주 소비량']][['국가','맥주 소비량']]
display(result)

Unnamed: 0,국가,맥주 소비량
117,Namibia,376


In [56]:
# 증류주를 가장 많이 소비하는 국가 확인
result = df[df['증류주 소비량'].max() == df['증류주 소비량']][['국가','증류주 소비량']]
display(result)

Unnamed: 0,국가,증류주 소비량
68,Grenada,438


In [59]:
result = df.sort_values('맥주 소비량', ascending=False).head(5)[['국가','맥주 소비량']]
display(result)

Unnamed: 0,국가,맥주 소비량
117,Namibia,376
45,Czech Republic,361
62,Gabon,347
65,Germany,346
98,Lithuania,343


In [60]:
# 평균 맥주 소비량이 가장 많은 대륙 확인
beer_avg_conti = df.groupby('대륙')['맥주 소비량'].mean().sort_values(ascending=False).head(1)
print(beer_avg_conti)

대륙
EU    193.777778
Name: 맥주 소비량, dtype: float64


## 데이터 프레임 조작

    - DataFrame의 index를 ['대륙', '국가'] 로 지정하고, 대륙별, 국가명으로  정렬하여 df로 저장
    - 전세계 평균 소비량과 한국의 소비량을 비교하는 DataFrame 만들기

In [61]:
# 국가별 주류 소비량 합계를 구해 새로운 컬럼 ('주류소비량') 추가
df['주류소비량'] = df['맥주 소비량'] + df['증류주 소비량'] + df['와인 소비량']

# df['주류소비량'] = df[['맥주 소비량','증류주 소비량','와인 소비량']].sum(axis=1)
# df['주류소비량'] = df[df.columns[1:4]].sum(axis=1)

In [62]:
# 주류 소비량 대비 알코올 소비량 비율을 구해 새로운 컬럼 ('알코올비율') 추가
df['알코올비율'] = df['순수 알코올'] / df['주류소비량']
df['알코올비율'] = df['알코올비율'].fillna(0)
display(df.head(3))

Unnamed: 0,국가,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙,주류소비량,알코올비율
0,Afghanistan,0,0,0,0.0,AS,0,0.0
1,Albania,89,132,54,4.9,EU,275,0.017818
2,Algeria,25,0,14,0.7,AF,39,0.017949


In [63]:
# 알코올비율이 높은 국가(술을 독하게 마시는 국가) TOP5의 ['국가', '주류소비량', '알코올비율'] 정보 조회
result = df[['국가','주류소비량','알코올비율']].sort_values('알코올비율', ascending=False).head(5)
result.index = np.arange(1,6)
print(result)

             국가  주류소비량     알코올비율
1        Gambia      9  0.266667
2  Sierra Leone     30  0.223333
3       Nigeria     49  0.185714
4        Uganda     54  0.153704
5        Rwanda     45  0.151111


In [64]:
# DataFrame의 index를 ['대륙', '국가'] 로 지정하고, 대륙별, 국가명으로  정렬하여 df로 저장
df2 = df.set_index(['대륙','국가']).sort_index()
print(df2.head(10))

                             맥주 소비량  증류주 소비량  와인 소비량  순수 알코올  주류소비량     알코올비율
대륙 국가                                                                        
AF Algeria                       25        0      14     0.7     39  0.017949
   Angola                       217       57      45     5.9    319  0.018495
   Benin                         34        4      13     1.1     51  0.021569
   Botswana                     173       35      35     5.4    243  0.022222
   Burkina Faso                  25        7       7     4.3     39  0.110256
   Burundi                       88        0       0     6.3     88  0.071591
   Cabo Verde                   144       56      16     4.0    216  0.018519
   Cameroon                     147        1       4     5.8    152  0.038158
   Central African Republic      17        2       1     1.8     20  0.090000
   Chad                          15        1       1     0.4     17  0.023529


In [65]:
## 전세계 평균 소비량과 한국의 소비량을 비교하는 DataFrame 만들기
result = df[df['국가'].str.contains('korea', case=False)]
print(result)
korea =df[df['국가']=='South Korea']
korea.drop('대륙',axis=1,inplace=True)
print(korea)

              국가  맥주 소비량  증류주 소비량  와인 소비량  순수 알코올  대륙  주류소비량     알코올비율
46   North Korea       0        0       0     0.0  AS      0  0.000000
138  South Korea     140       16       9     9.8  AS    165  0.059394
              국가  맥주 소비량  증류주 소비량  와인 소비량  순수 알코올  주류소비량     알코올비율
138  South Korea     140       16       9     9.8    165  0.059394


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  korea.drop('대륙',axis=1,inplace=True)


In [66]:
world_wide = pd.DataFrame(df[df.columns[[1,2,3,4,6,7]]].mean())
world_wide=world_wide.T

world_wide.insert(0,'국가', 'World Wide')
print(world_wide)

       맥주 소비량    증류주 소비량     와인 소비량    순수 알코올       주류소비량     알코올비율
0  106.160622  80.994819  49.450777  4.717098  236.606218  0.026115


In [75]:
compare = pd.concat([korea,world_wide])
compare = compare.set_index('국가')
print(compare)

                 맥주 소비량    증류주 소비량     와인 소비량    순수 알코올       주류소비량     알코올비율
국가                                                                           
South Korea  140.000000  16.000000   9.000000  9.800000  165.000000  0.059394
World Wide   106.160622  80.994819  49.450777  4.717098  236.606218  0.026115


In [86]:
# pivot_table을 사용하여 대륙별(index), '맥주'와 '와인'의 mean, median, max 값을 구한다
result = pd.pivot_table(data=df,index='대륙',values=['맥주 소비량','와인 소비량'],aggfunc=['mean','median','max'])