# 데이터프레임 실습 1: 정리와 요약

앞서 파이썬에서 기본적인 **자료의 입력**과 **데이터프레임의 생성, 정리, 요약**에 대해 배우고 예제 데이터로 실습하였다. 이번 시간에는 실제 데이터로 지난 시간에 배운 내용을 실습해보자.


## 화재출동 데이터

데이터는 2017년부터 2021년의 5년간 서울시 모든 구의 화재출동 데이터 (`fire_calling_summary.csv`)입니다.

**1. 데이터 불러오기**

- `pandas`패키지의 `read_csv`함수를 사용하여 csv파일을 데이터프레임으로 불러온다.

In [1]:
import pandas as pd

In [2]:
url = "https://raw.githubusercontent.com/UOS-Bigdata/lab_fire_seoul/main/data/fire_calling.csv"

df = pd.read_csv(url, encoding='cp949')
df


Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
0,2017,강남구,,11,1565258,502,129,120
1,2017,강동구,,12,418593,269,63,73
2,2017,강북구,,6,339146,186,51,41
3,2017,강서구,3.0,22,706871,364,89,81
4,2017,관악구,3.0,20,654690,286,82,69
...,...,...,...,...,...,...,...,...
120,2021,용산구,,5,296793,176,47,36
121,2021,은평구,3.0,8,875722,160,57,42
122,2021,종로구,,12,465499,192,48,54
123,2021,중구,,16,2780374,171,41,49


**2. 데이터 확인**

- 데이터가 한 페이지에 담기지 않아 약간 잘리게 나온다. 데이터를 조금씩 확인하고 싶다면 `head` 혹은 `tail` 메소드를 사용한다.
- 데이터의 가장 처음 5개를 보고 싶으면 `df.head(5)`, 데이터의 가장 마지막 5개를 보고 싶다면 `df.tail(5)` 로 입력해주면 된다.

In [None]:
df.head(5)

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
0,2017,강남구,,11,1565258,502,129,120
1,2017,강동구,,12,418593,269,63,73
2,2017,강북구,,6,339146,186,51,41
3,2017,강서구,3.0,22,706871,364,89,81
4,2017,관악구,3.0,20,654690,286,82,69


In [None]:
df.tail(5)

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
120,2021,용산구,,5,296793,176,47,36
121,2021,은평구,3.0,8,875722,160,57,42
122,2021,종로구,,12,465499,192,48,54
123,2021,중구,,16,2780374,171,41,49
124,2021,중랑구,1.0,12,345257,213,63,59


- 데이터에 보면 `NaN`이라는 값이 있다.
- `NaN`은 'Not a Number'을 의미한다. 즉, 숫자가 아니라는 것이다. 연산의 결과가 숫자로 표현될 수 없거나 값이 부재하는 경우(결측값, missing data)에 나타나는 표현이다.

- 이 경우 `사망자수`가 0인 값이라고 생각하고 `NaN`을 0으로 대체한다. 이때, `fillna` 메소드를 이용한다.

In [4]:
df = df.fillna(0)
df

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
0,2017,강남구,0.0,11,1565258,502,129,120
1,2017,강동구,0.0,12,418593,269,63,73
2,2017,강북구,0.0,6,339146,186,51,41
3,2017,강서구,3.0,22,706871,364,89,81
4,2017,관악구,3.0,20,654690,286,82,69
...,...,...,...,...,...,...,...,...
120,2021,용산구,0.0,5,296793,176,47,36
121,2021,은평구,3.0,8,875722,160,57,42
122,2021,종로구,0.0,12,465499,192,48,54
123,2021,중구,0.0,16,2780374,171,41,49


- 데이터를 연도별, 시군구별, 재산피해금액을 기준으로 각각 정렬시켜보자. 정렬을 할 때에는 `sort_values()`메소드 사용한다.

In [7]:
df.sort_values(by = '화재발생연도')

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
0,2017,강남구,0.0,11,1565258,502,129,120
24,2017,중랑구,2.0,5,332366,196,53,38
23,2017,중구,5.0,14,485392,198,48,47
22,2017,종로구,1.0,3,1077665,234,55,69
21,2017,은평구,0.0,3,218200,159,51,32
...,...,...,...,...,...,...,...,...
101,2021,강동구,1.0,12,346741,211,56,45
100,2021,강남구,2.0,15,1354949,391,112,91
123,2021,중구,0.0,16,2780374,171,41,49
111,2021,동작구,3.0,9,307365,129,42,27


In [8]:
df.sort_values(by = '시군구')

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
0,2017,강남구,0.0,11,1565258,502,129,120
100,2021,강남구,2.0,15,1354949,391,112,91
25,2018,강남구,0.0,23,1624983,436,134,111
75,2020,강남구,1.0,18,1451556,387,100,98
50,2019,강남구,1.0,23,1677681,456,120,125
...,...,...,...,...,...,...,...,...
74,2019,중랑구,1.0,9,322650,210,54,49
49,2018,중랑구,2.0,8,201421,254,72,55
24,2017,중랑구,2.0,5,332366,196,53,38
99,2020,중랑구,2.0,12,229566,225,54,57


In [9]:
df.sort_values(by = '재산피해금액')

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
61,2019,동작구,2.0,10,179243,208,52,53
58,2019,노원구,0.0,6,185642,203,49,46
86,2020,동작구,0.0,7,194251,151,39,37
78,2020,강서구,3.0,5,200966,212,42,53
49,2018,중랑구,2.0,8,201421,254,72,55
...,...,...,...,...,...,...,...,...
123,2021,중구,0.0,16,2780374,171,41,49
69,2019,영등포구,1.0,48,3099954,265,64,63
85,2020,동대문구,6.0,17,3392558,152,43,34
38,2018,서대문구,4.0,9,7877501,229,50,69


- `재산피해금액`이 가장 큰 순으로 확인하고 싶으면 내림차순 정렬을 위한 선택문 `ascending=False`을 지정해주면 된다.

In [10]:
df.sort_values(by = '재산피해금액', ascending=False)

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
73,2019,중구,3.0,17,74077097,213,51,39
38,2018,서대문구,4.0,9,7877501,229,50,69
85,2020,동대문구,6.0,17,3392558,152,43,34
69,2019,영등포구,1.0,48,3099954,265,64,63
123,2021,중구,0.0,16,2780374,171,41,49
...,...,...,...,...,...,...,...,...
49,2018,중랑구,2.0,8,201421,254,72,55
78,2020,강서구,3.0,5,200966,212,42,53
86,2020,동작구,0.0,7,194251,151,39,37
58,2019,노원구,0.0,6,185642,203,49,46


- 정렬 기준은 두 개 이상으로 줄 수도 있다. `시군구, 연도` 그리고 `연도, 시군구`로 각각 정렬시켜보고 두 결과의 차이를 확인해보자.

In [11]:
df.sort_values(by = ['시군구', '화재발생연도'])

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
0,2017,강남구,0.0,11,1565258,502,129,120
25,2018,강남구,0.0,23,1624983,436,134,111
50,2019,강남구,1.0,23,1677681,456,120,125
75,2020,강남구,1.0,18,1451556,387,100,98
100,2021,강남구,2.0,15,1354949,391,112,91
...,...,...,...,...,...,...,...,...
24,2017,중랑구,2.0,5,332366,196,53,38
49,2018,중랑구,2.0,8,201421,254,72,55
74,2019,중랑구,1.0,9,322650,210,54,49
99,2020,중랑구,2.0,12,229566,225,54,57


In [12]:
df.sort_values(by = ['화재발생연도', '시군구'])

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
0,2017,강남구,0.0,11,1565258,502,129,120
1,2017,강동구,0.0,12,418593,269,63,73
2,2017,강북구,0.0,6,339146,186,51,41
3,2017,강서구,3.0,22,706871,364,89,81
4,2017,관악구,3.0,20,654690,286,82,69
...,...,...,...,...,...,...,...,...
120,2021,용산구,0.0,5,296793,176,47,36
121,2021,은평구,3.0,8,875722,160,57,42
122,2021,종로구,0.0,12,465499,192,48,54
123,2021,중구,0.0,16,2780374,171,41,49


- 정렬을 해도 원자료는 변하지 않는 것을 확인할 수 있다. 이는 메소드는 함수를 적용만 할 뿐이지, 저장하지 않기 때문이다. 또한, 인덱스가 변하지 않는 것으로 확인할 수 있다.

In [13]:
df.head(10)

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
0,2017,강남구,0.0,11,1565258,502,129,120
1,2017,강동구,0.0,12,418593,269,63,73
2,2017,강북구,0.0,6,339146,186,51,41
3,2017,강서구,3.0,22,706871,364,89,81
4,2017,관악구,3.0,20,654690,286,82,69
5,2017,광진구,1.0,6,433742,200,37,44
6,2017,구로구,1.0,5,460568,260,54,71
7,2017,금천구,2.0,7,605549,174,33,49
8,2017,노원구,3.0,18,566821,279,80,75
9,2017,도봉구,2.0,6,288836,192,37,59


- 만약 정렬된 자료를 새로 저장하고 싶으면 다음과 같이 새로운 데이터프레임으로 저장해보자.

In [14]:
df_copy = df.sort_values(by = '재산피해금액', ascending=False)
df_copy

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
73,2019,중구,3.0,17,74077097,213,51,39
38,2018,서대문구,4.0,9,7877501,229,50,69
85,2020,동대문구,6.0,17,3392558,152,43,34
69,2019,영등포구,1.0,48,3099954,265,64,63
123,2021,중구,0.0,16,2780374,171,41,49
...,...,...,...,...,...,...,...,...
49,2018,중랑구,2.0,8,201421,254,72,55
78,2020,강서구,3.0,5,200966,212,42,53
86,2020,동작구,0.0,7,194251,151,39,37
58,2019,노원구,0.0,6,185642,203,49,46


- 또는 정렬된 자료를 옵션을 이용하여 원자료에 덮어씌우는 방법도 있다. 선택문 `inplace = True`을 입력해주면 된다.

In [15]:
df.sort_values(by = '재산피해금액', ascending=False, inplace=True)
df

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
73,2019,중구,3.0,17,74077097,213,51,39
38,2018,서대문구,4.0,9,7877501,229,50,69
85,2020,동대문구,6.0,17,3392558,152,43,34
69,2019,영등포구,1.0,48,3099954,265,64,63
123,2021,중구,0.0,16,2780374,171,41,49
...,...,...,...,...,...,...,...,...
49,2018,중랑구,2.0,8,201421,254,72,55
78,2020,강서구,3.0,5,200966,212,42,53
86,2020,동작구,0.0,7,194251,151,39,37
58,2019,노원구,0.0,6,185642,203,49,46


- 하지만, 이렇게 하게 되면, 원데이터(raw data)를 없애기 때문에, 추천하지 않는다.

**3. 행과 열 지우기**

- 데이터를 정리하다 보면 특정 행과 열을 지우는 과정을 많이 하게된다. 우리의 데이터 `df`에서 `출동횟수`를 지워보자. 이 때 선택문 `inplace = True`으로 인하여 결과가 덮어씌운다.

In [16]:
df.drop(columns = ["출동횟수"], inplace= True)
df

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수_겨울,출동횟수_여름
73,2019,중구,3.0,17,74077097,51,39
38,2018,서대문구,4.0,9,7877501,50,69
85,2020,동대문구,6.0,17,3392558,43,34
69,2019,영등포구,1.0,48,3099954,64,63
123,2021,중구,0.0,16,2780374,41,49
...,...,...,...,...,...,...,...
49,2018,중랑구,2.0,8,201421,72,55
78,2020,강서구,3.0,5,200966,42,53
86,2020,동작구,0.0,7,194251,39,37
58,2019,노원구,0.0,6,185642,49,46


- 이번에는 행을 지워보자. `강동구`에 해당하는 자료를 지우기 위해 원자료에 `강동구`에 해당하는 인덱스를 추출 하였다.
- 인덱스를 추출하는 메소드는 `index`이다.

In [18]:
index_for_delete = df[df["시군구"] == '강동구'].index
index_for_delete

Index([60, 61, 77, 90, 92], dtype='int64')

- 결과에 나타난 행에 `강동구` 자료가 있음을 알 수 있다.
- 인덱스로 행을 제거하기 위하여 `drop` 메소드를 사용한다. 마찬가지로 선택문 `inplace = True`로 원자료에 결과를 바로 반영하였다.

In [19]:
df.drop( index = index_for_delete, inplace= True )
df

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수_겨울,출동횟수_여름
0,2019,중구,3.0,17,74077097,51,39
1,2018,서대문구,4.0,9,7877501,50,69
2,2020,동대문구,6.0,17,3392558,43,34
3,2019,영등포구,1.0,48,3099954,64,63
4,2021,중구,0.0,16,2780374,41,49
...,...,...,...,...,...,...,...
120,2018,중랑구,2.0,8,201421,72,55
121,2020,강서구,3.0,5,200966,42,53
122,2020,동작구,0.0,7,194251,39,37
123,2019,노원구,0.0,6,185642,49,46


- 행 삭제 결과는 `rows` 갯수가 바뀐 것으로 확인할 수 있다.
- 5개의 행이 제거됨으로써 인덱스가 행의 갯수와 달라졌다. 따라서 인덱스를 다시 구성하기 위해보자.

- 인덱스를 재구성하기 위해서는 `reset_index` 메소드를 사용한다. 이 때 선택문 `inplace = True`로 원자료에 결과를 바로 반영하였다.

In [20]:
df.reset_index(drop=True, inplace=True)
df

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수_겨울,출동횟수_여름
0,2019,중구,3.0,17,74077097,51,39
1,2018,서대문구,4.0,9,7877501,50,69
2,2020,동대문구,6.0,17,3392558,43,34
3,2019,영등포구,1.0,48,3099954,64,63
4,2021,중구,0.0,16,2780374,41,49
...,...,...,...,...,...,...,...
115,2018,중랑구,2.0,8,201421,72,55
116,2020,강서구,3.0,5,200966,42,53
117,2020,동작구,0.0,7,194251,39,37
118,2019,노원구,0.0,6,185642,49,46


**4. 열 이름 바꾸기**

- 자료를 정리할 때 열이름을 바꾸는 과정도 매우 흔하다. 열이름의 길이를 줄이거나, 열이름에 대한 새로운 규칙을 적용하는 등 열이름을 변경해야할 일이 자주 일어난다.

- 먼저 데이터프레임 `df`의 열이름을 확인해보자. `columns`메소드를 사용하면 된다.

In [21]:
df.columns

Index(['화재발생연도', '시군구', '사망자수', '부상자수', '재산피해금액', '출동횟수_겨울', '출동횟수_여름'], dtype='object')

- 열 이름을 영문으로 변경해보자. `rename`메소드를 사용하면 된다.

In [22]:
df.rename( columns={
	"화재발생연도" : "year", "시군구" : "region",
	"사망자수" : "samang_n", "부상자수" : "busang_n", "재산피해금액" : "money",
 	"출동횟수_겨울" : "win","출동횟수_여름" : "sum"},
	inplace=True)
df

Unnamed: 0,year,region,samang_n,busang_n,money,win,sum
0,2019,중구,3.0,17,74077097,51,39
1,2018,서대문구,4.0,9,7877501,50,69
2,2020,동대문구,6.0,17,3392558,43,34
3,2019,영등포구,1.0,48,3099954,64,63
4,2021,중구,0.0,16,2780374,41,49
...,...,...,...,...,...,...,...
115,2018,중랑구,2.0,8,201421,72,55
116,2020,강서구,3.0,5,200966,42,53
117,2020,동작구,0.0,7,194251,39,37
118,2019,노원구,0.0,6,185642,49,46


- `columns`메소드를 통해 열 이름이 영문으로 바뀐 것을 확인할 수 있다.

In [23]:
df.columns

Index(['year', 'region', 'samang_n', 'busang_n', 'money', 'win', 'sum'], dtype='object')

- 열 이름을 바꾸는 또 다른 방법으로 리스트(list)를 사용할 수 있다. 위에서 영문으로 변경한 마지막 열의 이름을 `win` 에서 `winter` 로, `sum`에서 `summer`로 바꾸어보자.

In [24]:
df.columns = ['year', 'region', 'samang_n', 'busang_n', 'money', 'winter', 'summer']
df

Unnamed: 0,year,region,samang_n,busang_n,money,winter,summer
0,2019,중구,3.0,17,74077097,51,39
1,2018,서대문구,4.0,9,7877501,50,69
2,2020,동대문구,6.0,17,3392558,43,34
3,2019,영등포구,1.0,48,3099954,64,63
4,2021,중구,0.0,16,2780374,41,49
...,...,...,...,...,...,...,...
115,2018,중랑구,2.0,8,201421,72,55
116,2020,강서구,3.0,5,200966,42,53
117,2020,동작구,0.0,7,194251,39,37
118,2019,노원구,0.0,6,185642,49,46


**5. 데이터 프레임 요약하기**

- 지금까지는 데이터 프레임을 정리하는 과정이었다. 이제부터는 잘 정리된 데이터를 요약해보자.

In [25]:
df.describe()

Unnamed: 0,year,samang_n,busang_n,money,winter,summer
count,120.0,120.0,120.0,120.0,120.0,120.0
mean,2019.0,1.6,11.35,1353972.0,58.1,56.225
std,1.420143,1.830645,8.068665,6750182.0,19.903718,18.615284
min,2017.0,0.0,2.0,179243.0,27.0,27.0
25%,2018.0,0.0,6.0,337451.0,46.0,44.75
50%,2019.0,1.0,9.0,528817.0,54.0,53.0
75%,2020.0,2.0,15.0,818735.2,64.25,63.25
max,2021.0,14.0,48.0,74077100.0,134.0,125.0


- 출력된 값을 편하게 보기 위해 단위와 반올림 등의 과정을 거친다.

In [26]:
df_summ = df.describe()
df_summ['samang_n'] = df_summ['samang_n'].round(2)
df_summ['busang_n'] = df_summ['busang_n'].round(2)
df_summ

Unnamed: 0,year,samang_n,busang_n,money,winter,summer
count,120.0,120.0,120.0,120.0,120.0,120.0
mean,2019.0,1.6,11.35,1353972.0,58.1,56.225
std,1.420143,1.83,8.07,6750182.0,19.903718,18.615284
min,2017.0,0.0,2.0,179243.0,27.0,27.0
25%,2018.0,0.0,6.0,337451.0,46.0,44.75
50%,2019.0,1.0,9.0,528817.0,54.0,53.0
75%,2020.0,2.0,15.0,818735.2,64.25,63.25
max,2021.0,14.0,48.0,74077100.0,134.0,125.0


In [27]:
df_summ['winter'] = df_summ['winter'].round(2)
df_summ['summer'] = df_summ['summer'].round(2)
df_summ

Unnamed: 0,year,samang_n,busang_n,money,winter,summer
count,120.0,120.0,120.0,120.0,120.0,120.0
mean,2019.0,1.6,11.35,1353972.0,58.1,56.22
std,1.420143,1.83,8.07,6750182.0,19.9,18.62
min,2017.0,0.0,2.0,179243.0,27.0,27.0
25%,2018.0,0.0,6.0,337451.0,46.0,44.75
50%,2019.0,1.0,9.0,528817.0,54.0,53.0
75%,2020.0,2.0,15.0,818735.2,64.25,63.25
max,2021.0,14.0,48.0,74077100.0,134.0,125.0


In [28]:
df_summ['money'] = df_summ['money'] / 10000
df_summ['money'] = df_summ['money'].round(4)
df_summ

Unnamed: 0,year,samang_n,busang_n,money,winter,summer
count,120.0,120.0,120.0,0.012,120.0,120.0
mean,2019.0,1.6,11.35,135.3972,58.1,56.22
std,1.420143,1.83,8.07,675.0182,19.9,18.62
min,2017.0,0.0,2.0,17.9243,27.0,27.0
25%,2018.0,0.0,6.0,33.7451,46.0,44.75
50%,2019.0,1.0,9.0,52.8817,54.0,53.0
75%,2020.0,2.0,15.0,81.8735,64.25,63.25
max,2021.0,14.0,48.0,7407.7097,134.0,125.0


In [29]:
df_summ.columns = ['화재발생연도', '사망자수', '부상자수', '재산피해금액(만원)', '출동횟수(겨울)', '출동횟수(여름)']
df_summ

Unnamed: 0,화재발생연도,사망자수,부상자수,재산피해금액(만원),출동횟수(겨울),출동횟수(여름)
count,120.0,120.0,120.0,0.012,120.0,120.0
mean,2019.0,1.6,11.35,135.3972,58.1,56.22
std,1.420143,1.83,8.07,675.0182,19.9,18.62
min,2017.0,0.0,2.0,17.9243,27.0,27.0
25%,2018.0,0.0,6.0,33.7451,46.0,44.75
50%,2019.0,1.0,9.0,52.8817,54.0,53.0
75%,2020.0,2.0,15.0,81.8735,64.25,63.25
max,2021.0,14.0,48.0,7407.7097,134.0,125.0


In [30]:
df_summ = df_summ.drop(columns = '화재발생연도')
df_summ

Unnamed: 0,사망자수,부상자수,재산피해금액(만원),출동횟수(겨울),출동횟수(여름)
count,120.0,120.0,0.012,120.0,120.0
mean,1.6,11.35,135.3972,58.1,56.22
std,1.83,8.07,675.0182,19.9,18.62
min,0.0,2.0,17.9243,27.0,27.0
25%,0.0,6.0,33.7451,46.0,44.75
50%,1.0,9.0,52.8817,54.0,53.0
75%,2.0,15.0,81.8735,64.25,63.25
max,14.0,48.0,7407.7097,134.0,125.0


- 이번에는 특정 범주를 기준으로 자료를 요약해보자. 이 때 기준은 `연도`와 '시군구`로 한다.

- 먼저 2021년도의 데이터를 추출해보자.

In [31]:
df_2021 = df[df['year']==2021]
df_2021

Unnamed: 0,year,region,samang_n,busang_n,money,winter,summer
4,2021,중구,0.0,16,2780374,41,49
7,2021,구로구,1.0,7,1765589,52,33
13,2021,강남구,2.0,15,1354949,112,91
16,2021,동대문구,3.0,15,1209541,51,40
24,2021,영등포구,0.0,8,913698,50,53
25,2021,광진구,2.0,10,889681,46,56
26,2021,은평구,3.0,8,875722,57,42
29,2021,금천구,2.0,8,825255,37,28
32,2021,송파구,1.0,5,788289,64,59
52,2021,마포구,2.0,7,591687,64,53


In [32]:
df_2021.describe()

Unnamed: 0,year,samang_n,busang_n,money,winter,summer
count,24.0,24.0,24.0,24.0,24.0,24.0
mean,2021.0,1.5,11.166667,746733.5,54.625,47.541667
std,0.0,1.414214,8.370064,571471.3,17.337601,13.354625
min,2021.0,0.0,3.0,219916.0,29.0,27.0
25%,2021.0,0.0,7.0,427005.0,45.0,37.75
50%,2021.0,1.5,9.0,560954.0,50.5,49.5
75%,2021.0,2.0,12.5,879211.8,63.25,54.0
max,2021.0,5.0,46.0,2780374.0,112.0,91.0


- `describe`메소드로 자료를 앞의 과정과 동일하게 진행해 보자. (실습)


<details>
<summary>접기/펼치기</summary>

> df2021_summ = df_2021.describe()
>
> df2021_summ['samang_n'] = df2021_summ['samang_n'].round(2)
>
> df2021_summ['busang_n'] = df2021_summ['busang_n'].round(2)
>
> df2021_summ['winter'] = df2021_summ['winter'].round(2)
>
> df2021_summ['summer'] = df2021_summ['summer'].round(2)
>
> df2021_summ['money'] = df2021_summ['money'] / 10000
>
> df2021_summ['money'] = df2021_summ['money'].round(4)
>
> df2021_summ.columns = ['화재발생연도', '사망자수', '부상자수', '재산피해금액(만원)', '출동횟수(겨울)', '출동횟수(여름)']
>
> df2021_summ = df2021_summ.drop(columns = '화재발생연도')
>
</details>




- 2021년 중에 여름과 겨울의 `출동 횟수`가 많은 지역구대로 정렬 해보자. (실습)

<details>
<summary>접기/펼치기</summary>

> df_2021.sort_values(by="winter")
>
> df_2021.sort_values(by="summer")
</details>


- 이어서 `강남구` 기준으로 자료를 살펴보자.

In [33]:
df_강남구 = df[df['region']=="강남구"]
df_강남구

Unnamed: 0,year,region,samang_n,busang_n,money,winter,summer
8,2019,강남구,1.0,23,1677681,120,125
9,2018,강남구,0.0,23,1624983,134,111
10,2017,강남구,0.0,11,1565258,129,120
11,2020,강남구,1.0,18,1451556,100,98
13,2021,강남구,2.0,15,1354949,112,91


- 강남구의 기초 통계량을 확인해보자.

In [None]:
df_강남구.describe()

Unnamed: 0,year,samang_n,busang_n,money,winter,summer
count,5.0,5.0,5.0,5.0,5.0,5.0
mean,2019.0,0.8,18.0,1534885.0,119.0,109.0
std,1.581139,0.83666,5.196152,131102.6,13.56466,14.370108
min,2017.0,0.0,11.0,1354949.0,100.0,91.0
25%,2018.0,0.0,15.0,1451556.0,112.0,98.0
50%,2019.0,1.0,18.0,1565258.0,120.0,111.0
75%,2020.0,1.0,23.0,1624983.0,129.0,120.0
max,2021.0,2.0,23.0,1677681.0,134.0,125.0


- 강남구에서 `여름과 겨울의 총 출동`이 많았던 연도 순으로 정렬해보자. (실습)
  - 총출동_수 = 여름출동_수 + 겨울출동_수


<details>
<summary>접기/펼치기</summary>

> df_강남구['총 출동'] = df_강남구['winter'] + df_강남구['summer']
>
> df_강남구.sort_values(by = '총 출동', ascending=False)
</details>


- `df_강남구` 데이터에 대해 추가적으로 다음의 작업을 해보자 (실습)

  - 인덱싱 재정리 (`reset_index`)
  - 열 이름 변경: `['연도', '시군구', '사망자수', '부상자수', '피해금액', '겨울출동건수', '여름출동건수', '총출동']`
  - csv 파일로 저장

<details>
<summary>접기/펼치기</summary>

> df_강남구.columns = ['연도', '시군구', '사망자수', '부상자수', '피해금액', '겨울출동건수', '여름출동건수', '총출동']
>
> df_강남구.reset_index(drop = True, inplace = True)
>
>df_강남구.to_csv("강남구요약.csv", encoding = 'cp949')
</details>


--------------------------------------------------------------------------------

# 데이터프레임의 그룹화
앞서 **데이터프레임의 요약**에서는 전체 데이터를 요약(count, mean, 분위수 등)했었다. 예를 들어, 2021년의 강남구 데이터의 데이터를 요약하려면 전체 데이터에서 해당 데이터를 추출하여 사용했다. 이 절에서는 그룹별로 한번에 요약하는 방법에 대해 알아보고자 한다. 살펴볼 내용은 다음과 같다.

* 그룹별 요약
* 여러 개의 그룹
* 다양한 집계들

## 간단한 예제

- 먼저 예제 데이터로 실습해보자.

- 다음과 같은 간단한 데이터프레임 `df` 을 고려해 보자. 열 `school` 은 학교, `sex`는 성, `score` 는  점수를 나타낸다고 하자.

In [34]:
import pandas as pd

In [35]:
test = pd.DataFrame( {
    "school" : ["A", "A", "A", "A", "B", "B", "B"],
    "sex" : ["M", "M", "F", "F", "M", "F", "F"],
    "score" : [100, 98, 34, 83, 56, 90, 65]
})
test

Unnamed: 0,school,sex,score
0,A,M,100
1,A,M,98
2,A,F,34
3,A,F,83
4,B,M,56
5,B,F,90
6,B,F,65


- 이제 데이터프레임 `df` 에서 학교별, 성별로 성적의 평균을 구해보자.

- 앞의 배운 내용을 기반으로 이를 계산하려면, 성별, 성적별로 데이터를 구분하고, 계산하는 과정을 거쳐야 한다.

- 이를 쉽고 한번에 할수 있게 만드는 메소드가 `groupby` 메소드 이다.

- 먼저 데이터프레임 `df` 을 학교별, 성별로 나누어 그룹회된 데이터프레임을 만들고 각 그룹에 대한 성적의 평균을 구해보자.

In [36]:
test.groupby( by =["school", "sex"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,score
school,sex,Unnamed: 2_level_1
A,F,58.5
A,M,99.0
B,F,77.5
B,M,56.0


- 이렇게 데이터프레임은 `groupby()` 메소드를 이용하여 여러 개의 그룹으로 나누어 요약할 수 있다.

- 만약 그룹으로 나누는데 사용하는 열의 자료형식이 숫자면 어떤 일이 벌어질까. 자료의 범주가 숫자로 나타나는 경우가 많은데 이 경우 그룹화에 대하여 알아보자.

- 먼저 위에서 데이터프레임 `df` 과 동일한 자료를 가지지만 `df2` 는 여자는 1, 남자는 0 으로 자료가 저장되어 있다고 하자.

In [37]:
test2 = pd.DataFrame( {
    "school" : ["A", "A", "A", "A", "B", "B", "B"],
    "sex" : [0, 0, 1, 1, 0, 0, 1],
    "score" : [100, 98, 34, 83, 56, 90, 65]
})
test2

Unnamed: 0,school,sex,score
0,A,0,100
1,A,0,98
2,A,1,34
3,A,1,83
4,B,0,56
5,B,0,90
6,B,1,65





- 메소드 `groupby()` 는 숫자로 구성된 열도 나타난 숫자에 따라서 그룹화를 해준다.

In [38]:
test2.groupby( by =["school", "sex"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,score
school,sex,Unnamed: 2_level_1
A,0,99.0
A,1,58.5
B,0,73.0
B,1,65.0


- 그룹화에 사용된 열들을 인덱스에서 다시 열로 바꾸고 싶으면 `reset_index()`를 적용하자.

In [39]:
test2.groupby( by =["school", "sex"]).mean().reset_index()

Unnamed: 0,school,sex,score
0,A,0,99.0
1,A,1,58.5
2,B,0,73.0
3,B,1,65.0


- 위 과정들 또한 메소드로 얻어진 결과이기 때문에, 저장이 되지 않는다. 만약 저장하고 싶다면 다른 데이터 셋으로 저장해야 한다.

## 화재출동 데이터

화재출동 데이터(`fire_calling_summary.csv`)을 이용해 간단한 화재출동 현황을 요약하려 한다.
2017년부터 2021년의 5년간 서울시 모든 구의 화재출동 데이터이다.


In [40]:
import pandas as pd

In [41]:
url = "https://raw.githubusercontent.com/UOS-Bigdata/lab_fire_seoul/main/data/fire_calling.csv"

df = pd.read_csv(url, encoding='cp949')
df

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
0,2017,강남구,,11,1565258,502,129,120
1,2017,강동구,,12,418593,269,63,73
2,2017,강북구,,6,339146,186,51,41
3,2017,강서구,3.0,22,706871,364,89,81
4,2017,관악구,3.0,20,654690,286,82,69
...,...,...,...,...,...,...,...,...
120,2021,용산구,,5,296793,176,47,36
121,2021,은평구,3.0,8,875722,160,57,42
122,2021,종로구,,12,465499,192,48,54
123,2021,중구,,16,2780374,171,41,49


- 먼저 `Nan`값을 0으로 대체해준다.

In [43]:
df = df.fillna(0)
df

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
0,2017,강남구,0.0,11,1565258,502,129,120
1,2017,강동구,0.0,12,418593,269,63,73
2,2017,강북구,0.0,6,339146,186,51,41
3,2017,강서구,3.0,22,706871,364,89,81
4,2017,관악구,3.0,20,654690,286,82,69
...,...,...,...,...,...,...,...,...
120,2021,용산구,0.0,5,296793,176,47,36
121,2021,은평구,3.0,8,875722,160,57,42
122,2021,종로구,0.0,12,465499,192,48,54
123,2021,중구,0.0,16,2780374,171,41,49


- 먼저 연도별 5개 의 화재로 인한 출동횟수를 계산해 보자. 연도별 출동횟수를 계산하려면

  1. 전체 자료를 연도별로 나누고
  2. 각 연도에서 모든 시군구의 출동횟수를 더해야한다.

- 즉, 데이터프레임을 지정된 열(화재발생연도)의 값(2017, 2018, ..)에 따라서 그룹으로 나누어 전국 가구수를 계산해야 한다.

- `groupby( by=...)`메소드는  지정된 열의 값으로 데이터프레임을 그룹(group)으로 나누어 준다. 이 메소드는 **데이터프레임을  물리적으로 그룹을 나누어 주는 것은 아니고 메소드에서 지정된 그룹을 데이터프레임에 적용하는 기능을 한다.**

   - `by=` 는 그룹을 나눌 때 사용되는 열을 리스트 형식으로 지정한다.
   - `groupby( by=...)`메소드로 만들어진 데이터프레임의 자료 형식은 `DataFrameGroupBy`이다. 따라서 보통 데이터프레임에 적용되는 메소드들을 사용할 수 없는 경우가 있다.

- 이제 데이터프레임 `df` 를 연도 `화재발생연도`를 이용하여 그룹화된 데이터프레임 `df_grp`을 만들어 보자.

In [44]:
df_grp = df.groupby( by=["화재발생연도"] )

- 그룹화된 데이터프레임 `fire_grp` 은 보통 데이터프레임과 다르게 출력해주는 내용이 없다. 그 이유는 그룹화된 데이터프레임은 그룹에 대한 정보만 가진 특별한 자료의 형식을 가진다.  

In [45]:
df_grp

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7ad2d0400fd0>

In [46]:
type(df_grp)

## 그룹별 요약

- 이제, 그룹별로 합을 계산하는 것을 구현해보자.
- 위에서 `화재발생연도` 변수에 대해 `group`을 지정해 주었다.
- 이 데이터 셋에 `sum`이라는 함수를 적용하게 되면, 그룹으로 지정된 연도별로 모든 출동횟수를 더해서 연도별 출동횟수를 계산해준다.

- 주의할 점은, 그룹화된 데이터프레임의 `sum()` 메소드는 언제나 그룹에 속한 모든 자료를 더해준다. 하지만, 이 데이터에는 `시군구`라는 문자형이 존재한다.
- 그러므로, `numeric_only` 옵션을 이용하여 숫자형 변수들에 대해 `sum()`을 적용한다.

In [47]:
df_grp.sum(numeric_only = True)

Unnamed: 0_level_0,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
화재발생연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2017,37.0,246,15323890,5978,1465,1496
2018,53.0,307,21239984,6368,1748,1657
2019,37.0,361,92409010,5881,1476,1478
2020,37.0,236,17438606,5088,1244,1274
2021,37.0,280,18268346,4951,1367,1186


- 위의 결과를 보면 만들어진 데이터 프레임에서 다음과 같은 특성이 보인다.

  - 열이름이  한 칸 위로 올라가 있다. 이는 문자로 된 열이름(column name)이 비어있다는 것이다.
  - 행인덱스가 화재발생연도로 되어있으며 숫자로 된 행인덱스가 없는 것을 알 수 있다.

- 우리가 사용할 수 있는 유용한 데이터프레임을 만들기 위해서는 인덱스의 재구성이 필요하다. 메소드 `reset_index()`를 사용해 보자.

In [48]:
df_grp.sum(numeric_only = True).reset_index()

Unnamed: 0,화재발생연도,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
0,2017,37.0,246,15323890,5978,1465,1496
1,2018,53.0,307,21239984,6368,1748,1657
2,2019,37.0,361,92409010,5881,1476,1478
3,2020,37.0,236,17438606,5088,1244,1274
4,2021,37.0,280,18268346,4951,1367,1186


- 이제 연도별로 출동횟수 정보를 가진 새로운 데이터프레임 `df_year`를 만들어 보자.

In [65]:
df_year = df_grp.sum(numeric_only = True).reset_index()
df_year

Unnamed: 0,화재발생연도,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
0,2017,37.0,246,15323890,5978,1465,1496
1,2018,53.0,307,21239984,6368,1748,1657
2,2019,37.0,361,92409010,5881,1476,1478
3,2020,37.0,236,17438606,5088,1244,1274
4,2021,37.0,280,18268346,4951,1367,1186


- 이번에는 `여름겨울출동횟수`를 `출동횟수_겨울`과 `출동횟수_여름`을 더하여 계산해보자.
- 이때, 두 가지 방법이 있는데, 이번에는 `sum`메소드를 이용하여 진행한다. 여기서 사용하는 옵션은 `axis = 1`을 이용하는데, 이는 행의 합을 진행한다는 의미이다.
- 그러므로 `출동횟수_겨울`과 `출동횟수_여름`을 추출하여 `sum`메소드를 적용한다.

In [66]:
df_year["여름겨울출동횟수"] = df_year[ ["출동횟수_겨울", "출동횟수_여름"] ].sum(axis=1)
df_year

Unnamed: 0,화재발생연도,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름,여름겨울출동횟수
0,2017,37.0,246,15323890,5978,1465,1496,2961
1,2018,53.0,307,21239984,6368,1748,1657,3405
2,2019,37.0,361,92409010,5881,1476,1478,2954
3,2020,37.0,236,17438606,5088,1244,1274,2518
4,2021,37.0,280,18268346,4951,1367,1186,2553


> **!잠깐**
>
> 위에서 사용한 메소드 `sum(axis=1)` 는 모든 열 들을 더해주는 작업을 수행하는데 주의사항이 있다.
>
> 이 예시에서는 변수 두 개를 정확하게 지정하여 코드를 구현하였지만, 만약 실수로
```
df_year = df_year.sum(axis = 1)
```
을 실행하더라도, 에러가 발생하지 않고 계산이 된다.
>
> 코드의 문제없이 진행하게 되지만, raw data도 바뀌면서 최종 결과에서 데이터가 망가지게 된다. 따라서, 어디서 틀렷는지 찾기 힘들어지는 문제가 발생하게 된다.
>
> 그렇기에 항상 메소드를 적용하는 대상, 메소드의 결과를 항상 확인해 가며 안전한 프로그래밍을 진행해야 한다.
>


- 이제 출동횟수에 대한 백분율(percentage)를 새롭게 만들어 보자.

In [67]:
df_year['percent'] = df_year['여름겨울출동횟수'] / df_year['출동횟수'] *100
df_year

Unnamed: 0,화재발생연도,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름,여름겨울출동횟수,percent
0,2017,37.0,246,15323890,5978,1465,1496,2961,49.531616
1,2018,53.0,307,21239984,6368,1748,1657,3405,53.470477
2,2019,37.0,361,92409010,5881,1476,1478,2954,50.229553
3,2020,37.0,236,17438606,5088,1244,1274,2518,49.488994
4,2021,37.0,280,18268346,4951,1367,1186,2553,51.56534


- 편의상 `percent` 열을 소수점 2째 자리에서 반올림해보자 (실습)

<details>
<summary>접기/펼치기</summary>

> df_year['percent'] = df_year['percent'].round(2)
</details>



## 여러 개의 그룹

- 화재출동 데이터의 그룹화 기준을 `시군구`, `화재발생연도`로 적용해보자.

- 먼저 데이터를 나누어보자. 그룹화에 사용할 5개 구를 선택해서 `df5`으로 저장한다. 이 경우 은평구를 기준으로 나머지 구들을 추출하였다.

In [68]:
df5 = df[df['시군구'] >= '은평구']
df5

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
21,2017,은평구,0.0,3,218200,159,51,32
22,2017,종로구,1.0,3,1077665,234,55,69
23,2017,중구,5.0,14,485392,198,48,47
24,2017,중랑구,2.0,5,332366,196,53,38
46,2018,은평구,5.0,10,419503,214,58,47
47,2018,종로구,14.0,22,574300,254,71,70
48,2018,중구,0.0,23,1257005,275,76,74
49,2018,중랑구,2.0,8,201421,254,72,55
71,2019,은평구,3.0,20,2412769,196,62,34
72,2019,종로구,4.0,16,801094,232,60,63


인덱스를 초기화해준다.

In [69]:
df5.reset_index(drop = True, inplace = True)
df5

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
0,2017,은평구,0.0,3,218200,159,51,32
1,2017,종로구,1.0,3,1077665,234,55,69
2,2017,중구,5.0,14,485392,198,48,47
3,2017,중랑구,2.0,5,332366,196,53,38
4,2018,은평구,5.0,10,419503,214,58,47
5,2018,종로구,14.0,22,574300,254,71,70
6,2018,중구,0.0,23,1257005,275,76,74
7,2018,중랑구,2.0,8,201421,254,72,55
8,2019,은평구,3.0,20,2412769,196,62,34
9,2019,종로구,4.0,16,801094,232,60,63


`시군구`를 기준으로 각 열의 평균 (mean)과 합계 (sum)를 구해보자.

In [70]:
df5.groupby( by =["시군구"]).mean()

Unnamed: 0_level_0,화재발생연도,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
시군구,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
은평구,2019.0,2.6,9.4,886196.4,184.2,55.2,40.2
종로구,2019.0,4.2,11.6,711661.8,225.8,56.8,61.0
중구,2019.0,1.6,16.0,15976858.0,208.4,51.4,52.6
중랑구,2019.0,1.6,9.2,286252.0,219.6,59.2,51.6


In [71]:
df5.groupby( by =["시군구"]).sum()

Unnamed: 0_level_0,화재발생연도,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
시군구,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
은평구,10095,13.0,47,4430982,921,276,201
종로구,10095,21.0,58,3558309,1129,284,305
중구,10095,8.0,80,79884290,1042,257,263
중랑구,10095,8.0,46,1431260,1098,296,258


`화재발생연도`를 기준으로 각 열의 평균 (mean)과 합계 (sum)를 구해보자.

In [72]:
df5.groupby(by =["화재발생연도"]).mean(numeric_only = True)

Unnamed: 0_level_0,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
화재발생연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2017,2.0,6.25,528405.75,196.75,51.75,46.5
2018,5.25,15.75,613057.25,249.25,69.25,61.5
2019,2.75,15.5,19403402.5,212.75,56.75,46.25
2020,1.5,8.25,664631.75,204.75,48.25,51.5
2021,1.0,12.0,1116713.0,184.0,52.25,51.0


In [73]:
df5.groupby( by =["화재발생연도"]).sum(numeric_only = True)

Unnamed: 0_level_0,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
화재발생연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2017,8.0,25,2113623,787,207,186
2018,21.0,63,2452229,997,277,246
2019,11.0,62,77613610,851,227,185
2020,6.0,33,2658527,819,193,206
2021,4.0,48,4466852,736,209,204


- 그룹화 기준을 2개 이상으로 줄 수도 있다. 이 경우 `시군구`와 `화재발생연도`로 해보자.

In [74]:
df5.groupby( by =["시군구", "화재발생연도"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
시군구,화재발생연도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
은평구,2017,0.0,3.0,218200.0,159.0,51.0,32.0
은평구,2018,5.0,10.0,419503.0,214.0,58.0,47.0
은평구,2019,3.0,20.0,2412769.0,196.0,62.0,34.0
은평구,2020,2.0,6.0,504788.0,192.0,48.0,46.0
은평구,2021,3.0,8.0,875722.0,160.0,57.0,42.0
종로구,2017,1.0,3.0,1077665.0,234.0,55.0,69.0
종로구,2018,14.0,22.0,574300.0,254.0,71.0,70.0
종로구,2019,4.0,16.0,801094.0,232.0,60.0,63.0
종로구,2020,2.0,5.0,639751.0,217.0,50.0,49.0
종로구,2021,0.0,12.0,465499.0,192.0,48.0,54.0


그룹화 기준을 `화재발생연도`, `시군구`로 바꾸어보자.

In [75]:
df5.groupby( by =["화재발생연도", "시군구"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
화재발생연도,시군구,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2017,은평구,0.0,3.0,218200.0,159.0,51.0,32.0
2017,종로구,1.0,3.0,1077665.0,234.0,55.0,69.0
2017,중구,5.0,14.0,485392.0,198.0,48.0,47.0
2017,중랑구,2.0,5.0,332366.0,196.0,53.0,38.0
2018,은평구,5.0,10.0,419503.0,214.0,58.0,47.0
2018,종로구,14.0,22.0,574300.0,254.0,71.0,70.0
2018,중구,0.0,23.0,1257005.0,275.0,76.0,74.0
2018,중랑구,2.0,8.0,201421.0,254.0,72.0,55.0
2019,은평구,3.0,20.0,2412769.0,196.0,62.0,34.0
2019,종로구,4.0,16.0,801094.0,232.0,60.0,63.0


## 다양한 집계들

- 실제로 데이터를 이용하여 여러가지 척도들을 계산할 수 있는데, 가장 대표적인 척도는 다음과 같다.
  * **셈 척도**: 갯수 (count), 합산 (sum)
  * **중심척도**: 평균 (mean), 중위수 (median)
  * **산포척도**: 최댓값/최솟값 (max/min), 분산/표준편차 (var, std), 백분위 (quantile)
  * 기초통계량 (describe)

- 위와 같이 여러 집계들이 있는데, 자료가 범주형인지 수치형인지에 따라 그 쓰임이 나뉜다.
  * **범주형 자료**: 셈 (count, percent)
  * **수치형 자료**: 셈 (sum), 중심 (mean, median), 산포 (man, min, var, std, quantile)


- 예를 들어, 화재출동 데이터의 경우 자료의 형태에 따라 다음과 같이 열을 나눌 수 있다.
  * **범주형 자료**: `화재발생연도`와 `시군구`
  * **수치형 자료**: `화재발생연도`와 `시군구`를 제외한 나머지 열

- 그러면 그룹화와 집계를 위해 다음과 같은 문제를 고려하자

  * **문제**: 시군구별 평균 재산피해금액과 총 출동횟수

- 이 문제를 해결하기 위해 다음과 같이 설계할 수 있다.

  * **그룹화**: 시군구
  * **계산하고 싶은 열**: 재산피해금액, 출동횟수
  * **집계함수**: sum, mean


- 그러면 `df5`를 다시 집계해보자. 방금 전에 했던 방법과 같은 방법으로 각 집계를 구하면 제대로 집계가 이루어지지 않거나 불필요한 정보가 생긴다는 문제가 있었다.

In [76]:
df5.groupby(['시군구']).sum()

Unnamed: 0_level_0,화재발생연도,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
시군구,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
은평구,10095,13.0,47,4430982,921,276,201
종로구,10095,21.0,58,3558309,1129,284,305
중구,10095,8.0,80,79884290,1042,257,263
중랑구,10095,8.0,46,1431260,1098,296,258


In [77]:
df5.groupby(['시군구']).mean()

Unnamed: 0_level_0,화재발생연도,사망자수,부상자수,재산피해금액,출동횟수,출동횟수_겨울,출동횟수_여름
시군구,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
은평구,2019.0,2.6,9.4,886196.4,184.2,55.2,40.2
종로구,2019.0,4.2,11.6,711661.8,225.8,56.8,61.0
중구,2019.0,1.6,16.0,15976858.0,208.4,51.4,52.6
중랑구,2019.0,1.6,9.2,286252.0,219.6,59.2,51.6


- 이처럼 한번에 여러 컬럼을 다르게 연산해야 할 때가 있다.
- 이런 경우, `agg`메소드를 사용하면 가능하다. 이 때 `{계산하고 싶은 열 이름: 집계함수}`와 같이 입력한다.

In [78]:
df5.groupby(['시군구']).agg({"재산피해금액" : "mean", "출동횟수" : "sum"})

Unnamed: 0_level_0,재산피해금액,출동횟수
시군구,Unnamed: 1_level_1,Unnamed: 2_level_1
은평구,886196.4,921
종로구,711661.8,1129
중구,15976858.0,1042
중랑구,286252.0,1098


-
이번에는 **연도와 시군구별 평균 재산피해금액과 총 출동횟수**를 계산해보자.

In [79]:
df5.groupby(['화재발생연도', '시군구']).agg({"재산피해금액" : "mean", "출동횟수" : "sum"})

Unnamed: 0_level_0,Unnamed: 1_level_0,재산피해금액,출동횟수
화재발생연도,시군구,Unnamed: 2_level_1,Unnamed: 3_level_1
2017,은평구,218200.0,159
2017,종로구,1077665.0,234
2017,중구,485392.0,198
2017,중랑구,332366.0,196
2018,은평구,419503.0,214
2018,종로구,574300.0,254
2018,중구,1257005.0,275
2018,중랑구,201421.0,254
2019,은평구,2412769.0,196
2019,종로구,801094.0,232


- 이렇게 만들어진 집계데이터를 활용해보자.
- 집계를 하면서 열 이름이 행의 인덱스로 들어갔다. 이를 `reset_index`로 인덱스 초기화를 해서 다시 열 이름으로 만들어 활용한다.

In [80]:
df_summ = df5.groupby(['화재발생연도', '시군구']).agg({"재산피해금액" : "mean", "출동횟수" : "sum"})

In [81]:
df_summ = df_summ.reset_index()
df_summ

Unnamed: 0,화재발생연도,시군구,재산피해금액,출동횟수
0,2017,은평구,218200.0,159
1,2017,종로구,1077665.0,234
2,2017,중구,485392.0,198
3,2017,중랑구,332366.0,196
4,2018,은평구,419503.0,214
5,2018,종로구,574300.0,254
6,2018,중구,1257005.0,275
7,2018,중랑구,201421.0,254
8,2019,은평구,2412769.0,196
9,2019,종로구,801094.0,232


## 요약

- 여러 개의 열을 이용하여 새로운 열을 만드는 방법은 열을 선택하고 산술적인 연산을 적용해 준다.
- 열에 대한 요약 통계는 다양한 메소드(예를 들어 `sum()`, `mean()` 등)을 적용하며 선택문 `axis=0` 을 이용한다.
- 자료의 그룹화는 `groupby()` 를 사용하며 이를 통해 그룹별로 요약할 수 있다.

**함께해봅시다**

`df`자료에 대해 다음의 문제를 해결해보자.

1. 5년간 `재산피해금액`의 `총합`이 가장 많은 `시군구`와 `재산피해금액`의 `평균`이 가장 큰 `시군구`는 어디인가요? 동일한 시군구인가요?

<details>
<summary>접기/펼치기</summary>

> df.groupby(["시군구"]).sum().sort_values("재산피해금액")
>
> df.groupby(["시군구"]).mean().sort_values("재산피해금액")

</details>

2. 5년간 `여름`과 `겨울`을 합산하여 가장 출동이 많았던 때는 어느 구인가요?


<details>
<summary>접기/펼치기</summary>

> df["여름겨울출동횟수"] = df[ ["출동횟수_겨울", "출동횟수_여름"] ].sum(axis=1)
>
> df.groupby("시군구").sum().sort_values("여름겨울출동횟수")

</details>