## Groupby 함수의 특성

In [1]:
import pandas as pd

df = pd.read_csv('./weather_concated.csv', encoding='utf-8')
df.head()

Unnamed: 0,지점,일시,평균기온(°C),최저기온(°C),최저기온 시각(hhmi),최고기온(°C),최고기온 시각(hhmi),강수 계속시간(hr),10분 최다 강수량(mm),10분 최다강수량 시각(hhmi),...,평균 30cm 지중온도(°C),0.5m 지중온도(°C),1.0m 지중온도(°C),1.5m 지중온도(°C),3.0m 지중온도(°C),5.0m 지중온도(°C),합계 대형증발량(mm),합계 소형증발량(mm),9-9강수(mm),안개 계속시간(hr)
0,108,2021-01-01,-4.2,-9.8,511,1.6,1447,,,,...,1.4,2.9,6.8,9.7,15.9,17.5,1.1,1.6,,
1,108,2021-01-02,-5.0,-8.4,805,-1.4,1346,,,,...,1.2,2.6,6.6,9.6,15.8,17.5,1.4,2.0,,
2,108,2021-01-03,-5.6,-9.1,536,-2.0,1238,,,,...,1.0,2.5,6.5,9.5,15.7,17.4,1.0,1.5,,
3,108,2021-01-04,-3.5,-8.4,656,0.3,1535,2.33,,,...,0.8,2.3,6.3,9.4,15.6,17.4,0.9,1.3,0.0,
4,108,2021-01-05,-5.5,-9.9,2356,-2.1,1,5.42,,,...,0.8,2.2,6.2,9.3,15.5,17.3,1.2,1.7,,


In [2]:
#일단 이전에 하였던대로 전처리를 하도록 한다.

new_columns = ['지점', '일시', '평균기온(°C)', '최저기온(°C)', '최저기온 시각(hhmi)', '최고기온(°C)',
               '최고기온 시각(hhmi)', '1시간 최다강수량(mm)', '일강수량(mm)', '평균 풍속(m/s)', '평균 현지기압(hPa)', 
               '합계 일조시간(hr)','평균 지면온도(°C)']

df = df[new_columns]

new_name=['지점', '일시', '평균기온', '최저기온', '최저기온시각', '최고기온','최고기온시각', 
          '1시간최다강수량', '일강수량', '평균풍속','평균기압', '합계일조시간', '평균지면온도']

df.columns = new_name

df.fillna(0, inplace=True)

df.head()

Unnamed: 0,지점,일시,평균기온,최저기온,최저기온시각,최고기온,최고기온시각,1시간최다강수량,일강수량,평균풍속,평균기압,합계일조시간,평균지면온도
0,108,2021-01-01,-4.2,-9.8,511,1.6,1447,0.0,0.0,2.0,1014.9,6.5,-3.4
1,108,2021-01-02,-5.0,-8.4,805,-1.4,1346,0.0,0.0,2.6,1018.5,9.0,-3.9
2,108,2021-01-03,-5.6,-9.1,536,-2.0,1238,0.0,0.0,2.0,1023.0,5.5,-4.9
3,108,2021-01-04,-3.5,-8.4,656,0.3,1535,0.0,0.0,1.7,1020.3,4.6,-3.3
4,108,2021-01-05,-5.5,-9.9,2356,-2.1,1,0.0,0.0,2.9,1019.2,8.6,-3.2


In [3]:
# 이것을 진짜 weather_final.csv로 저장해 놓자.

df.to_csv('./weather_final.csv', index = False, encoding ='utf-8')

In [4]:
len(df)

1095

In [5]:
## 만약 서울, 부산, 제주의 일평균기온의 평균을 얻으려면?
# 방법 1: 지점에서 108은 서울, 159는 부산, 189는 제주임을 이용

seoul_temp = df[df['지점'] ==108]['평균기온'].mean()

busan_temp = df[df['지점'] ==159]['평균기온'].mean()

jeju_temp = df[df['지점'] ==189]['평균기온'].mean()

print(f'서울의 평균기온: {seoul_temp}, 부산의 평균기온: {busan_temp}, 제주의 평균기온: {jeju_temp}')

서울의 평균기온: 13.752054794520548, 부산의 평균기온: 15.77123287671233, 제주의 평균기온: 17.476712328767125


In [6]:
# 위와 같은 방법이 있지만 더 간단한 방법은 groupby 함수를 이용하는 것이다.
# 특정한 칼럼으로 groupby 함수를 적용하는 것만으로 결과를 얻을 수 없다.
# 단순히 그룹 별로 데이터를 분할하는 것에 불과하기 때문이다

#df['평균기온'].groupby(df['지점'])
df.groupby(df['지점'])['평균기온']

<pandas.core.groupby.generic.SeriesGroupBy object at 0x13499f8d0>

In [7]:
# groupby() 의 결과에 집계함수(여기서는 .mean())을 적용해야 결과를 얻을 수 있다.

df['평균기온'].groupby(df['지점']).mean()

지점
108    13.752055
159    15.771233
189    17.476712
Name: 평균기온, dtype: float64

In [8]:
# 즉, 서울, 부산, 제주의 다양한 기상 데이터를 그룹별로 얻을 수 있다.

# 각 지역별로 연 강수량을 얻어보자. 현재 연강수량이 없으니
# 지역별 일 강수량을 모두 더한 값이 연강수량이 될 것이다.

tmp = df['일강수량'].groupby(df['지점']).sum()
tmp.index = ["서울", "부산", "제주"]
tmp

서울    1186.5
부산    1807.8
제주    2136.2
Name: 일강수량, dtype: float64

In [9]:
# 지금 rain_year는 하나의 씨리즈 구조

rain_year = df['일강수량'].groupby(df['지점']).sum()
rain_year

지점
108    1186.5
159    1807.8
189    2136.2
Name: 일강수량, dtype: float64

In [10]:
print(f'서울의 연강수량 : {rain_year.iloc[0]}')
print(f'부산의 연강수량 : {rain_year.iloc[1]}')
print(f'제주의 연강수량 : {rain_year.iloc[2]}')

서울의 연강수량 : 1186.5
부산의 연강수량 : 1807.8
제주의 연강수량 : 2136.2


In [11]:
# 지역별 최고기온을 25도 이상 고온, 10이상 온난, 10 이하를 저온 으로 구분하기로 해보자

def temperature(x):
    if x > 25:
        return '고온'
    elif x > 10:
        return '온난'
    else:
        return '저온'

df['고온온난저온'] = df['최고기온'].map(temperature)
df.head()

Unnamed: 0,지점,일시,평균기온,최저기온,최저기온시각,최고기온,최고기온시각,1시간최다강수량,일강수량,평균풍속,평균기압,합계일조시간,평균지면온도,고온온난저온
0,108,2021-01-01,-4.2,-9.8,511,1.6,1447,0.0,0.0,2.0,1014.9,6.5,-3.4,저온
1,108,2021-01-02,-5.0,-8.4,805,-1.4,1346,0.0,0.0,2.6,1018.5,9.0,-3.9,저온
2,108,2021-01-03,-5.6,-9.1,536,-2.0,1238,0.0,0.0,2.0,1023.0,5.5,-4.9,저온
3,108,2021-01-04,-3.5,-8.4,656,0.3,1535,0.0,0.0,1.7,1020.3,4.6,-3.3,저온
4,108,2021-01-05,-5.5,-9.9,2356,-2.1,1,0.0,0.0,2.9,1019.2,8.6,-3.2,저온


In [12]:
# 각 지역별 고온/온난/저온한 날이 얼마나 되는지 살펴보자
# 즉 이 경우, groupby의 조건이 지점과 고온온난저온..두개가 되는 셈이다

df['고온온난저온'].groupby([df['지점'],df['고온온난저온']]).count()

지점   고온온난저온
108  고온        121
     온난        158
     저온         86
159  고온        119
     온난        204
     저온         42
189  고온        125
     온난        217
     저온         23
Name: 고온온난저온, dtype: int64

In [13]:
# 만약 지역(지점)/고온온난저온 별로...평균 기온과 평균일강수량을 알고 싶다면??

df[['평균기온','일강수량']].groupby([df['지점'],df['고온온난저온']]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,평균기온,일강수량
지점,고온온난저온,Unnamed: 2_level_1,Unnamed: 3_level_1
108,고온,24.966942,3.945455
108,온난,12.991139,3.648734
108,저온,-0.62907,1.54186
159,고온,24.598319,6.689076
159,온난,13.679902,4.82549
159,저온,0.919048,0.652381
189,고온,25.1248,8.9552
189,온난,14.559908,4.637327
189,저온,3.430435,0.456522


In [16]:
## agg 함수를 통해 복수의 함수를 복수의 칼럼에 적용할 수 있다.

df[['평균기온','일강수량']].groupby([df['지점'],df['고온온난저온']]).agg([('평균','mean'),('총계','sum')]).unstack()

Unnamed: 0_level_0,평균기온,평균기온,평균기온,평균기온,평균기온,평균기온,일강수량,일강수량,일강수량,일강수량,일강수량,일강수량
Unnamed: 0_level_1,평균,평균,평균,총계,총계,총계,평균,평균,평균,총계,총계,총계
고온온난저온,고온,온난,저온,고온,온난,저온,고온,온난,저온,고온,온난,저온
지점,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
108,24.966942,12.991139,-0.62907,3021.0,2052.6,-54.1,3.945455,3.648734,1.54186,477.4,576.5,132.6
159,24.598319,13.679902,0.919048,2927.2,2790.7,38.6,6.689076,4.82549,0.652381,796.0,984.4,27.4
189,25.1248,14.559908,3.430435,3140.6,3159.5,78.9,8.9552,4.637327,0.456522,1119.4,1006.3,10.5


### 참고 : 
* unstack() 은 횡으로 데이터를 눕혀 보여주는 것
* stack()은 종으로 데이터를 세워 보이는 것

In [25]:
# groupby 함수의 또다른 장점은 자신이 직접 만든 사용자 정의 함수도 사용할 수 있다는 것이다.

# 가장 추운날('최저기온') 3일을 지역별로 뽑아, 
# 그 날의 통계치를 비교하기 위한 함수를 만들어보자

def coldest(df, n = 3, column ='최저기온'):
    return df.sort_values(by=column)[:n]

result = df.groupby('지점').apply(coldest)
#result.index = ['서울','부산', '제주']

a = result.unstack()
a.index = ['서울']