# 데이터프레임의 결합
데이터를 이용하여 분석을 하는 경우 사용할 자료가 두 개 이상이 경우는 매우 흔한 일이다. 실제로 데이터 분석에서 하나의 자료만 가지고 수행하는 일은 매우 드물다. 이 절에서는 여러 개의 자료를 사용하는 경우 두 개의 자료를 서로 결합하여 새로운 자료를 만드는 것을 실습한다. 살펴 볼 내용은 다음과 같다.

* 데이터의 결합
* 식별자의 불일치

In [1]:
import pandas as pd
import numpy as np

## 간단한 예제

- 두 개의 데이터프레임 `df1` 과 `df2` 가 다음과 같이 주어졌다고 하자.

In [2]:
df1 = pd.DataFrame({
    "name" : ["철수", "영이", "John"],
    "age"  : [23, 34, 19]
})
df1

Unnamed: 0,name,age
0,철수,23
1,영이,34
2,John,19


In [3]:
df2 = pd.DataFrame({
    "name" : ["철수", "영이", "John"],
    "sex"  : ["M", "F", "M"]
})
df2

Unnamed: 0,name,sex
0,철수,M
1,영이,F
2,John,M


- 데이터프레임 `df1` 과 `df2` 에는 같은 이름을 가지는 열 `name` 이 있다. 우리는 두 개의 데이터프레임을 합쳐서 나이(`age`)와 성(`sex`) 이 모두 포함된 새로운 데이터프레임을 만들려고 한다.

- 이렇게 공통으로 포함된 열의 정보를 이용하여 두 개의 데이터프레임을 결합하려면  pandas 라이브러리의 `merge()` 함수 를 이용한다.

  1. `merge()` 함수의 첫 번째(**왼쪽**)와 두 번째 인자(**오른쪽**)에는 결합할 데이터프레임의 이름을 넣어준다.

  2. 앞에 `pd.` 를 붙여서 `pd.merge()` 로 사용하는 것은 함수 `merge()` 가 pandas 라이브러리에 있다는 것을 알려준다.

  3. 선택문 `on=` 에 두 데이터프레임에 **결합의 기준이 되는 열이름**을 문자열로 지정해준다. 결합의 기준으로 사용되는 열이름은 두 개의 데이터프레임에 모두 존재해야 한다.

  4. 자료의 결합에 사용되는 공통으로 포함된 열의 내용을 **식별자(key, identifier,..)** 라고 부른다. 이 예제에서 식별자는 사람의 이름이다.   

- 다음 코드의 결과를 먼저 보자.

In [4]:
pd.merge(df1, df2, on="name")

Unnamed: 0,name,age,sex
0,철수,23,M
1,영이,34,F
2,John,19,M


- 두 개의 데이터프레임이 지정된 열 `name` 에 의하여 결합되어 나이(`age`)와 성(`sex`)이 같이 나타나게 된다.

## 식별자의 불일치

- 만약 두 개의 데이터프레임에 있는 식별자에 포함된 자료가 다르면 어떻게 될까?

- 다음과 같이 `John` 의 자료가 빠져 있는 데이터프레임 `df3`을  `df1` 과 결합해 보자.

In [5]:
df3 = pd.DataFrame({
    "name" : ["철수", "영이"],
    "weight"  : [55, 44]
})
df3

Unnamed: 0,name,weight
0,철수,55
1,영이,44


In [6]:
pd.merge(df1, df3, on="name")

Unnamed: 0,name,age,weight
0,철수,23,55
1,영이,34,44


- 위의 결과에서 `John` 의 자료가 사라져 버렸다. 물론 몸무게 값이 없는 `John` 의 자료가 필요없을 수도 있지만 많은 경우 자료를 유지해야 한다.

- 이렇게 식별자의 항목이 다른 경우, 결합의 기준이 되는 식별자를 데이터프레임의 위치로 지정할 수 있다. 위에서 함수 `merge()`를 설명할 때 사용되는 데이터프레임의 위치에 따라서 **왼쪽** (첫 번째 인자) 과  **오른쪽** (두 번째 인자)으로 나타냈다.

```
pd.merge(left_df, right_df, on="name", how="inner")
```

- `how='left'` : 식별자는 왼쪽 데이터프레임에만 있는 것으로 선택
- `how='right'` : 식별자는 오른쪽 데이터프레임에만 있는 것으로 선택
- `how='inner'` : 식별자는 두 데이터프레임에 공통인 것으로 선택
- `how='outer'` : 식별자는 두 데이터프레임에 나타난 모든 것으로 선택

- 식별자를 선택하는 선택명령문 `how=` 을 지정하지 않으면 자동으로 `how='inner'` 이 지정된다.

![merge](https://github.com/UOS-Bigdata/lab_fire_seoul/blob/main/images/merge.png?raw=true)

- 이제 결합시 기준이 되는 식별자가 왼쪽에 있는 데이터프레임 `df1` 에 있다는 것을 선택명령문 `how='left'` 로 알려주자.

In [7]:
pd.merge(df1, df3, on="name", how='left')

Unnamed: 0,name,age,weight
0,철수,23,55.0
1,영이,34,44.0
2,John,19,


- 이제 `John` 의 자료가 나타나고 `John` 의 키는 결측값(`NaN`) 으로 표시된다.
- 만약 두 개의 식별자에 서로 다른 내용이 나타나면 어떻게 될까?

- 이제 새로운 사람 `흥민`의 자료를 가진 데이터프레임 `df4`를 `df1` 과 결합하는 예를 살펴보자. 아래 코드에서 선택명령문 `how=` 에 지정된 문자열에 따라서 결합의 결과가 어떻게 다른지 보자.

In [8]:
df4 = pd.DataFrame({
    "name" : ["철수", "영이", "흥민"],
    "height"  : [167, 175, 183]
})
df4

Unnamed: 0,name,height
0,철수,167
1,영이,175
2,흥민,183


In [9]:
pd.merge(df1, df4, on="name", how='left')

Unnamed: 0,name,age,height
0,철수,23,167.0
1,영이,34,175.0
2,John,19,


In [10]:
pd.merge(df1, df4, on="name", how='right')

Unnamed: 0,name,age,height
0,철수,23.0,167
1,영이,34.0,175
2,흥민,,183


In [11]:
pd.merge(df1, df4, on="name", how='inner')

Unnamed: 0,name,age,height
0,철수,23,167
1,영이,34,175


In [12]:
pd.merge(df1, df4, on="name", how='outer')

Unnamed: 0,name,age,height
0,철수,23.0,167.0
1,영이,34.0,175.0
2,John,19.0,
3,흥민,,183.0


- 만약 데이터 셋에 저장된 값은 같지만, 변수 명이 다를 경우 어떻게 merge를 진행할까??
- 이런 경우, 왼쪽 데이터셋에서의 변수명 `left_on`, 오른쪽 데이터셋에서의 변수명 `right_on`으로 변수명들을 각각 지정하여 진행한다.
- 이때, 중요한 것은 각 변수들의 위치를 동일하게 할당해야 합니다.
- 이 예시는 다음 예제에서 다룹니다.

## 화재출동 데이터와 화재원인 데이터의 결합

- 이번에는 화재출동 데이터 (`fire_calling_summary.csv`)와 화재원인 데이터 (`fire_reason_summary.csv`) 을 결합하는 작업을 해보려고 한다. 2017년부터 2021년의 5년간 서울시 5개 구별 (강동구, 강서구, 강남구, 강북구, 관악구) 정보가 있습니다.

In [13]:
df1 = pd.read_csv("https://raw.githubusercontent.com/UOS-Bigdata/lab_fire_seoul/main/data/fire_calling_summary.csv", encoding = 'cp949')
df1

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액,출동횟수
0,2017,강남구,0.0,1565258,502
1,2017,강동구,0.0,418593,269
2,2017,강북구,0.0,339146,186
3,2017,강서구,3.0,706871,364
4,2017,관악구,3.0,654690,286
5,2018,강남구,0.0,1624983,436
6,2018,강동구,4.0,540625,324
7,2018,강북구,4.0,216838,203
8,2018,강서구,2.0,393401,383
9,2018,관악구,1.0,816562,337


In [14]:
df2 = pd.read_csv("https://raw.githubusercontent.com/UOS-Bigdata/lab_fire_seoul/main/data/fire_reason_summary.csv", encoding = 'cp949')
df2

Unnamed: 0,연도,시군구명,작동기기,미상(발화원인),불꽃/ 불티,담뱃불/ 라이터불,마찰/ 전도/ 복사
0,2017,강남구,185,35,39,150,80
1,2017,강서구,144,26,22,88,80
2,2017,강동구,113,24,14,71,32
3,2017,강북구,100,11,9,42,23
4,2017,관악구,111,37,14,68,51
5,2018,강남구,216,32,24,131,29
6,2018,강서구,231,24,17,89,19
7,2018,강동구,174,14,15,87,32
8,2018,강북구,123,14,7,46,7
9,2018,관악구,209,30,21,71,3


- 먼저 결합의 기준으로 삼을 열을 결정해야 한다. 우리의 데이터로는 `연도`와 `시군구`가 있다.

- 그런데 첫 번째 데이터에는 열 이름이 `화재발생연도`, `시군구`라고 되어있고, 두 번째 데이터에는 `연도`와 `시군구명`으로 저장되어 있다.
- 이를 `left_on`, `right_on` 옵션을 이용하여 지정한다.

- 두 개의 데이터프레임을 합쳐 출동현황과 화재원인이 모두 포함된 새로운 데이터프레임을 만드는 과정은 다음과 같다.

In [15]:
pd.merge(df1, df2, left_on=["화재발생연도","시군구"], right_on = ["연도", "시군구명"])

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액,출동횟수,연도,시군구명,작동기기,미상(발화원인),불꽃/ 불티,담뱃불/ 라이터불,마찰/ 전도/ 복사
0,2017,강남구,0.0,1565258,502,2017,강남구,185,35,39,150,80
1,2017,강동구,0.0,418593,269,2017,강동구,113,24,14,71,32
2,2017,강북구,0.0,339146,186,2017,강북구,100,11,9,42,23
3,2017,강서구,3.0,706871,364,2017,강서구,144,26,22,88,80
4,2017,관악구,3.0,654690,286,2017,관악구,111,37,14,68,51
5,2018,강남구,0.0,1624983,436,2018,강남구,216,32,24,131,29
6,2018,강동구,4.0,540625,324,2018,강동구,174,14,15,87,32
7,2018,강북구,4.0,216838,203,2018,강북구,123,14,7,46,7
8,2018,강서구,2.0,393401,383,2018,강서구,231,24,17,89,19
9,2018,관악구,1.0,816562,337,2018,관악구,209,30,21,71,3


- 두 개의 데이터프레임이 지정된 열 `화재발생연도`, `시군구` 와`연도`와 `시군구명` 에 의하여 결합되어 나타나게 된다.
- 만약 두 개의 데이터프레임에 있는 식별자에 포함된 자료가 다르면 어떻게 될까? 다음 상황을 고려해보자.

  * `2017년도` 의 자료가 빠져 있는 데이터프레임 `df1_no2017`을 새로 만들자.
  * `df2` 과 결합해 보자.

In [17]:
df1_no2017 = df1[df1['화재발생연도'] != 2017]
df1_no2017

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액,출동횟수
5,2018,강남구,0.0,1624983,436
6,2018,강동구,4.0,540625,324
7,2018,강북구,4.0,216838,203
8,2018,강서구,2.0,393401,383
9,2018,관악구,1.0,816562,337
10,2019,강남구,1.0,1677681,456
11,2019,강동구,1.0,533359,254
12,2019,강북구,1.0,217805,167
13,2019,강서구,0.0,666297,331
14,2019,관악구,3.0,654586,311


In [18]:
pd.merge(df1_no2017, df2, left_on=["화재발생연도","시군구"], right_on = ["연도", "시군구명"])

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액,출동횟수,연도,시군구명,작동기기,미상(발화원인),불꽃/ 불티,담뱃불/ 라이터불,마찰/ 전도/ 복사
0,2018,강남구,0.0,1624983,436,2018,강남구,216,32,24,131,29
1,2018,강동구,4.0,540625,324,2018,강동구,174,14,15,87,32
2,2018,강북구,4.0,216838,203,2018,강북구,123,14,7,46,7
3,2018,강서구,2.0,393401,383,2018,강서구,231,24,17,89,19
4,2018,관악구,1.0,816562,337,2018,관악구,209,30,21,71,3
5,2019,강남구,1.0,1677681,456,2019,강남구,202,20,20,158,52
6,2019,강동구,1.0,533359,254,2019,강동구,132,17,8,73,24
7,2019,강북구,1.0,217805,167,2019,강북구,100,15,6,38,5
8,2019,강서구,0.0,666297,331,2019,강서구,147,22,19,81,38
9,2019,관악구,3.0,654586,311,2019,관악구,187,34,12,60,16


- 위의 결과에서 `2017년도` 의 자료가 사라져 버린 것을 확인할 수 있다. 물론 `2017년도`의 자료가 필요없을 수도 있지만 많은 경우 자료를 유지해야 한다.

- 이제 `how` 옵션을 바꾸어 결합 시 기준이 되는 식별자에 조건을 바꾸어보자. 먼저 결합시 기준이 되는 식별자가 오른쪽에 있는 데이터프레임 `df1` 에 있다는 것을 선택명령문 `how='right'` 로 알려주자.

In [19]:
pd.merge(df1_no2017, df2, left_on=["화재발생연도","시군구"], right_on = ["연도", "시군구명"], how='right')

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액,출동횟수,연도,시군구명,작동기기,미상(발화원인),불꽃/ 불티,담뱃불/ 라이터불,마찰/ 전도/ 복사
0,,,,,,2017,강남구,185,35,39,150,80
1,,,,,,2017,강서구,144,26,22,88,80
2,,,,,,2017,강동구,113,24,14,71,32
3,,,,,,2017,강북구,100,11,9,42,23
4,,,,,,2017,관악구,111,37,14,68,51
5,2018.0,강남구,0.0,1624983.0,436.0,2018,강남구,216,32,24,131,29
6,2018.0,강서구,2.0,393401.0,383.0,2018,강서구,231,24,17,89,19
7,2018.0,강동구,4.0,540625.0,324.0,2018,강동구,174,14,15,87,32
8,2018.0,강북구,4.0,216838.0,203.0,2018,강북구,123,14,7,46,7
9,2018.0,관악구,1.0,816562.0,337.0,2018,관악구,209,30,21,71,3


-  이제 `2017년도` 의 자료가 나타나고 `2017년도`의 연도와 화재 원인 부분이 결측값(`NaN`) 으로 표시된다.
- 만약 두 개의 식별자에 서로 다른 내용이 나타나면 어떻게 될까? 다음과 같이 서로 다른 연도를 가진 데이터를 결합해보자.

  * `2017~2020년도`의 자료를 가진 데이터프레임 `df2_no2021`를 새로 만든다.
  * `2018~2021년도`의 자료를 가진 데이터프레임`df1_no2017`과 결합한다.

- 아래 코드에서 선택명령문 `how=` 에 지정된 문자열에 따라서 결합의 결과가 어떻게 다른지 확인한다.

In [20]:
df2_no2021 = df2[df2['연도'] != 2021]
df2_no2021

Unnamed: 0,연도,시군구명,작동기기,미상(발화원인),불꽃/ 불티,담뱃불/ 라이터불,마찰/ 전도/ 복사
0,2017,강남구,185,35,39,150,80
1,2017,강서구,144,26,22,88,80
2,2017,강동구,113,24,14,71,32
3,2017,강북구,100,11,9,42,23
4,2017,관악구,111,37,14,68,51
5,2018,강남구,216,32,24,131,29
6,2018,강서구,231,24,17,89,19
7,2018,강동구,174,14,15,87,32
8,2018,강북구,123,14,7,46,7
9,2018,관악구,209,30,21,71,3


In [21]:
pd.merge(df1_no2017, df2_no2021, left_on=["화재발생연도","시군구"], right_on = ["연도", "시군구명"], how='left')

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액,출동횟수,연도,시군구명,작동기기,미상(발화원인),불꽃/ 불티,담뱃불/ 라이터불,마찰/ 전도/ 복사
0,2018,강남구,0.0,1624983,436,2018.0,강남구,216.0,32.0,24.0,131.0,29.0
1,2018,강동구,4.0,540625,324,2018.0,강동구,174.0,14.0,15.0,87.0,32.0
2,2018,강북구,4.0,216838,203,2018.0,강북구,123.0,14.0,7.0,46.0,7.0
3,2018,강서구,2.0,393401,383,2018.0,강서구,231.0,24.0,17.0,89.0,19.0
4,2018,관악구,1.0,816562,337,2018.0,관악구,209.0,30.0,21.0,71.0,3.0
5,2019,강남구,1.0,1677681,456,2019.0,강남구,202.0,20.0,20.0,158.0,52.0
6,2019,강동구,1.0,533359,254,2019.0,강동구,132.0,17.0,8.0,73.0,24.0
7,2019,강북구,1.0,217805,167,2019.0,강북구,100.0,15.0,6.0,38.0,5.0
8,2019,강서구,0.0,666297,331,2019.0,강서구,147.0,22.0,19.0,81.0,38.0
9,2019,관악구,3.0,654586,311,2019.0,관악구,187.0,34.0,12.0,60.0,16.0


In [22]:
pd.merge(df1_no2017, df2_no2021, left_on=["화재발생연도","시군구"], right_on = ["연도", "시군구명"], how='right')

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액,출동횟수,연도,시군구명,작동기기,미상(발화원인),불꽃/ 불티,담뱃불/ 라이터불,마찰/ 전도/ 복사
0,,,,,,2017,강남구,185,35,39,150,80
1,,,,,,2017,강서구,144,26,22,88,80
2,,,,,,2017,강동구,113,24,14,71,32
3,,,,,,2017,강북구,100,11,9,42,23
4,,,,,,2017,관악구,111,37,14,68,51
5,2018.0,강남구,0.0,1624983.0,436.0,2018,강남구,216,32,24,131,29
6,2018.0,강서구,2.0,393401.0,383.0,2018,강서구,231,24,17,89,19
7,2018.0,강동구,4.0,540625.0,324.0,2018,강동구,174,14,15,87,32
8,2018.0,강북구,4.0,216838.0,203.0,2018,강북구,123,14,7,46,7
9,2018.0,관악구,1.0,816562.0,337.0,2018,관악구,209,30,21,71,3


In [None]:
pd.merge(df1_no2017, df2_no2021, left_on=["화재발생연도","시군구"], right_on = ["연도", "시군구명"], how='inner')

Unnamed: 0,연도,시군구명,사망자수,재산피해금액,출동횟수,작동기기,미상(발화원인),불꽃/ 불티,담뱃불/ 라이터불,마찰/ 전도/ 복사
0,2018,강남구,0.0,1624983,436,216,32,24,131,29
1,2018,강동구,4.0,540625,324,174,14,15,87,32
2,2018,강북구,4.0,216838,203,123,14,7,46,7
3,2018,강서구,2.0,393401,383,231,24,17,89,19
4,2018,관악구,1.0,816562,337,209,30,21,71,3
5,2019,강남구,1.0,1677681,456,202,20,20,158,52
6,2019,강동구,1.0,533359,254,132,17,8,73,24
7,2019,강북구,1.0,217805,167,100,15,6,38,5
8,2019,강서구,0.0,666297,331,147,22,19,81,38
9,2019,관악구,3.0,654586,311,187,34,12,60,16


In [23]:
pd.merge(df1_no2017, df2_no2021, left_on=["화재발생연도","시군구"], right_on = ["연도", "시군구명"], how='outer')

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액,출동횟수,연도,시군구명,작동기기,미상(발화원인),불꽃/ 불티,담뱃불/ 라이터불,마찰/ 전도/ 복사
0,2018.0,강남구,0.0,1624983.0,436.0,2018.0,강남구,216.0,32.0,24.0,131.0,29.0
1,2018.0,강동구,4.0,540625.0,324.0,2018.0,강동구,174.0,14.0,15.0,87.0,32.0
2,2018.0,강북구,4.0,216838.0,203.0,2018.0,강북구,123.0,14.0,7.0,46.0,7.0
3,2018.0,강서구,2.0,393401.0,383.0,2018.0,강서구,231.0,24.0,17.0,89.0,19.0
4,2018.0,관악구,1.0,816562.0,337.0,2018.0,관악구,209.0,30.0,21.0,71.0,3.0
5,2019.0,강남구,1.0,1677681.0,456.0,2019.0,강남구,202.0,20.0,20.0,158.0,52.0
6,2019.0,강동구,1.0,533359.0,254.0,2019.0,강동구,132.0,17.0,8.0,73.0,24.0
7,2019.0,강북구,1.0,217805.0,167.0,2019.0,강북구,100.0,15.0,6.0,38.0,5.0
8,2019.0,강서구,0.0,666297.0,331.0,2019.0,강서구,147.0,22.0,19.0,81.0,38.0
9,2019.0,관악구,3.0,654586.0,311.0,2019.0,관악구,187.0,34.0,12.0,60.0,16.0


## 요약

- 두 개의 데이터프레임을 결합하는 경우 pandas 라이브러리의 함수 `merge()` 를 사용하며 식별자가 포함된 공통의 열은 `on=` 으로 지정한다. 결합의 방향을 `how=`로 지정한다.
- 이때, 변수명이 다르다면, `left_on`, `right_on`을 지정할 수 있다.
- 즉, `merge`이용시, 데이터의 변수명보다 데이터의 저장된 형태가 가장 중요하다는 것을 알 수 있다.

**함께해봅시다**

* `df1`에서 사망자수가 0보다 큰 경우만 추출해서 `sub_df1`으로 저장하세요.

<details>
<summary>접기/펼치기</summary>

> sub_df1 = df1[df1.사망자수 > 0]

</details>

* `df2`에 `sub_df1`을 연도와 시군구 기준으로 결합하세요.

<details>
<summary>접기/펼치기</summary>

> pd.merge(df2, sub_df1, left_on=["화재발생연도","시군구"], right_on = ["연도", "시군구명"], how = "left")

</details>

* 이 데이터 셋에서 `NaN`이 무엇을 의미하는지 생각해보세요.

-----------------------------------------------------------------------------

# 데이터프레임 실습 2: 그룹화와 결합

앞에서 `pandas`패키지의 dataframe형태의 데이터에 대해 `merge` 및 `group`함수를 이용하여 데이터를 조작하는 법을 설명했다. 이때, 실제 데이터가 아닌 완성된 데이터의 일부를 이용하여 진행했는데, 이번 시간에는 raw data(아무것도 하지 않은 데이터)를 이용하여 원하는 결과를 확인하는 과정을 가지고자 한다.

이번 시간의 목표는 위에서 사용한 데이터를 화재출동 현황 데이터를 이용하여 생성하는 것이다. 목표는 다음과 같다.

1. 연도별, 시군구별 사망자수, 부상자수, 재산피해금액, 총 출동횟수
2. 연도별, 시군구별 계절(여름, 겨울)에 대한 출동횟수
3. (1.), (2.)에서 생성한 데이터 합쳐서 전체 데이터 생성

In [None]:
import pandas as pd

## 화재출동 현황 데이터

1. 화재출동 현황.csv 파일을 보면, 모든 변수가 영어로 입력되어 있다.
2. 그리고 화재출동 현황_sample.xls 파일을 보면, 이 영어 변수들에 대한 한국어 변수명이 같이 저장되어 있다.
3. csv파일과 xlsx파일을 같이 읽어, 변수들을 모두 한국어로 바꾸는 작업을 진행해본다.

In [None]:
fire_dat = pd.read_csv("https://raw.githubusercontent.com/UOS-Bigdata/lab_fire_seoul/main/data/fire.csv")
sample_dat = pd.read_csv("https://raw.githubusercontent.com/UOS-Bigdata/lab_fire_seoul/main/data/fire_sample.csv")

In [None]:
fire_dat.head()

Unnamed: 0,wrinvstg_no,fire_type_nm,buld_srtfrm,buld_strctr,buld_srtrf,buld_strct_dong_cnt,ground_nof,bstory_cnt,totar,bottom_area,...,vhcle_ign_bhf,fld_fire_se,fld_fire_ign_bhf,time_unit_tmprt,time_unit_rainqty,time_unit_ws,time_unit_wd,time_unit_humidity,time_unit_msnf,time_unit
0,170101044118025,건축/구조물,양식(옥),철근콘크리트조,슬라브가,1.0,6.0,1.0,1133.0,168.0,...,,,,0.2,,2.2,20.0,79.0,,491
1,170101044947860,건축/구조물,양식(옥),치장벽돌조,슬라브가,1.0,2.0,1.0,248.0,81.0,...,,,,-0.7,,2.0,50.0,84.0,,436
2,170102110954553,건축/구조물,양식(옥),철근콘크리트조,슬라브가,1.0,3.0,1.0,1175.0,490.0,...,,,,-0.7,,2.0,50.0,84.0,,436
3,170101162928231,건축/구조물,양식(옥),철근콘크리트조,슬라브가,1.0,12.0,1.0,8989.0,816.0,...,,,,4.0,,1.3,50.0,69.0,,433
4,170101140310046,기타(쓰레기 화재등),,,,,,,,,...,,,,4.0,,1.3,50.0,69.0,,433


In [None]:
sample_dat.head()

Unnamed: 0,조사서번호,화재유형명,건물구조식,건물구조조,건물구조즙,건물구조동수,지상층수,지하층수,연면적,바닥면적,...,차량발화지점,임야화재구분,임야화재발화지점,시간단위기온,시간단위강수량,시간단위풍속,시간단위풍향,시간단위습도,시간단위적설량,시간단위가시거리
0,﻿wrinvstg_no,fire_type_nm,buld_srtfrm,buld_strctr,buld_srtrf,buld_strct_dong_cnt,ground_nof,bstory_cnt,totar,bottom_area,...,vhcle_ign_bhf,fld_fire_se,fld_fire_ign_bhf,time_unit_tmprt,time_unit_rainqty,time_unit_ws,time_unit_wd,time_unit_humidity,time_unit_msnf,time_unit
1,170101044118025,건축/구조물,양식(옥),철근콘크리트조,슬라브가,1,6,1,1133.000000,168.000000,...,,,,0.2,,2.2,20,79,,491
2,170101044947860,건축/구조물,양식(옥),치장벽돌조,슬라브가,1,2,1,248.000000,81.000000,...,,,,-0.7,,2.0,50,84,,436
3,170102110954553,건축/구조물,양식(옥),철근콘크리트조,슬라브가,1,3,1,1175.000000,490.000000,...,,,,-0.7,,2.0,50,84,,436
4,170101162928231,건축/구조물,양식(옥),철근콘크리트조,슬라브가,1,12,1,8989.000000,816.000000,...,,,,4.0,,1.3,50,69,,433


- sample_dat을 살펴보면, 변수명들이 한국어로 되어 있고, 그에 대응되는 영문명들이 1번째 row에 저장되있음을 알 수 있다.
그러므로, 변수명과 1번째 row를 가져와서 데이터로 생성하여 연결하는 것을 진행한다.

In [None]:
col_name = sample_dat.loc[0, :].reset_index()
col_name.columns = ["han_name", 'eng_name']

col_name

Unnamed: 0,han_name,eng_name
0,조사서번호,﻿wrinvstg_no
1,화재유형명,fire_type_nm
2,건물구조식,buld_srtfrm
3,건물구조조,buld_strctr
4,건물구조즙,buld_srtrf
...,...,...
67,시간단위풍속,time_unit_ws
68,시간단위풍향,time_unit_wd
69,시간단위습도,time_unit_humidity
70,시간단위적설량,time_unit_msnf


- han_name 변수는 한국어 변수명, eng_name 변수는 영문 변수명으로 지정하였다. 이 순서는 fire_dat에 있는 변수명과 같은 순서를 가진다. 그러므로 그대로 han_name을 가져와 fire_dat의 변수로 지정해주면 된다.

In [None]:
print(fire_dat.columns)
fire_dat.columns = col_name.iloc[:, 0]

Index(['wrinvstg_no', 'fire_type_nm', 'buld_srtfrm', 'buld_strctr',
       'buld_srtrf', 'buld_strct_dong_cnt', 'ground_nof', 'bstory_cnt',
       'totar', 'bottom_area', 'buld_sttus_nm', 'dth_cnt', 'injpsn_cnt',
       'dth_hnl_dmge_cnt', 'prprty_dmge_amt', 'fire_ocrn_yr', 'season_se_nm',
       'qtr_se', 'fire_ocrn_ymd', 'fire_ocrn_tm', 'fire_ocrn_mnth',
       'fire_ocrn_day', 'fire_ocrn_hour', 'fire_ocrn_min', 'daywk', 'frstt_nm',
       'ward_nm', 'lfdau_nm', 'dsp_reqre_time', 'fire_supesn_time', 'sido_nm',
       'sigungu_nm', 'emd_nm', 'cty_frmvl_se_nm', 'emd_se_nm', 'gis_x_axis',
       'gis_y_axis', 'longitude', 'la', 'spt_frstt_dist',
       'spt_safe_cnter_dist', 'spt_lfdau_dist', 'ign_htsrc_nm',
       'ign_htsrc_sclas_nm', 'ign_fctr_lclas_nm', 'ign_fctr_sclas_nm',
       'frst_igobj_lclas_nm', 'frst_igobj_sclas_nm', 'ign_mhrls_lclas_nm',
       'ign_mhrls_sclas_nm', 'cmbs_expobj_lclas_nm', 'cmbs_expobj_sclas_nm',
       'fclty_place_lclas_nm', 'fclty_place_mclas_nm', 'fclt

In [None]:
fire_dat.head()

han_name,조사서번호,화재유형명,건물구조식,건물구조조,건물구조즙,건물구조동수,지상층수,지하층수,연면적,바닥면적,...,차량발화지점,임야화재구분,임야화재발화지점,시간단위기온,시간단위강수량,시간단위풍속,시간단위풍향,시간단위습도,시간단위적설량,시간단위가시거리
0,170101044118025,건축/구조물,양식(옥),철근콘크리트조,슬라브가,1.0,6.0,1.0,1133.0,168.0,...,,,,0.2,,2.2,20.0,79.0,,491
1,170101044947860,건축/구조물,양식(옥),치장벽돌조,슬라브가,1.0,2.0,1.0,248.0,81.0,...,,,,-0.7,,2.0,50.0,84.0,,436
2,170102110954553,건축/구조물,양식(옥),철근콘크리트조,슬라브가,1.0,3.0,1.0,1175.0,490.0,...,,,,-0.7,,2.0,50.0,84.0,,436
3,170101162928231,건축/구조물,양식(옥),철근콘크리트조,슬라브가,1.0,12.0,1.0,8989.0,816.0,...,,,,4.0,,1.3,50.0,69.0,,433
4,170101140310046,기타(쓰레기 화재등),,,,,,,,,...,,,,4.0,,1.3,50.0,69.0,,433


- fire_dat의 변수들이 모두 한국어로 변경되었음을 확인 할 수 있다.

## 시군구, 연도별 사망자수, 부상자수, 재산피해금액, 출동횟수 계산

- 일부 시군구, 연도에 대해 groupby를 이용하여 변수에 대한 계산하는 법을 설명했다. 이를 화재출동 현황 데이터에 접목하여 시군구, 연도별로 사망자수, 부상자수, 재산피해금액, 출동횟수를 계산해보자. 이를 위한 순서는 다음과 같다.

1. 먼저 계산할 변수들을 추출한다.

In [None]:
sub_fire_dat = fire_dat.loc[:, ["화재발생연도", "시군구명", "사망수", "부상자수", "재산피해금액"]]

2. 추가적으로 출동횟수를 계산하기 위해, count변수에 1이라는 값을 저장한다. 그 이뉴는 `agg` method를 이용하여 `sum`함수를 한꺼번에 적용하기 위함이다.

In [None]:
sub_fire_dat["count"] = 1

3. `groupby`와 `sum` method들을 이용하여 연도별, 시군구별로 합을 계산한다.

In [None]:
agg_dat = sub_fire_dat.groupby(["화재발생연도", "시군구명"]).sum()
agg_dat

Unnamed: 0_level_0,han_name,사망수,부상자수,재산피해금액,count
화재발생연도,시군구명,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2017,강남구,0,11,1565258,502
2017,강동구,0,12,418593,269
2017,강북구,0,6,339146,186
2017,강서구,3,22,706871,364
2017,관악구,3,20,654690,286
...,...,...,...,...,...
2021,용산구,0,5,296793,176
2021,은평구,3,8,875722,160
2021,종로구,0,12,465499,192
2021,중구,0,16,2780374,171


4. `reset_index()` method를 이용하여 화재발생연도 및 시군구명을 인덱스에서 가져온다.

In [None]:
agg_dat = agg_dat.reset_index()
agg_dat

han_name,화재발생연도,시군구명,사망수,부상자수,재산피해금액,count
0,2017,강남구,0,11,1565258,502
1,2017,강동구,0,12,418593,269
2,2017,강북구,0,6,339146,186
3,2017,강서구,3,22,706871,364
4,2017,관악구,3,20,654690,286
...,...,...,...,...,...,...
120,2021,용산구,0,5,296793,176
121,2021,은평구,3,8,875722,160
122,2021,종로구,0,12,465499,192
123,2021,중구,0,16,2780374,171


5. 변수명들을 지정해주어 마무리해준다.

In [None]:
agg_dat.columns = ["화재발생연도", "시군구", "사망자수", "부상자수", "재산피해금액", "총출동횟수"]
agg_dat

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,총출동횟수
0,2017,강남구,0,11,1565258,502
1,2017,강동구,0,12,418593,269
2,2017,강북구,0,6,339146,186
3,2017,강서구,3,22,706871,364
4,2017,관악구,3,20,654690,286
...,...,...,...,...,...,...
120,2021,용산구,0,5,296793,176
121,2021,은평구,3,8,875722,160
122,2021,종로구,0,12,465499,192
123,2021,중구,0,16,2780374,171


## 계절별 출동횟수 생성

1. 먼저 계산에 필요한 변수들을 추출 및 생성한다.

In [None]:
sub_fire_dat = fire_dat.loc[:, ["화재발생연도", "시군구명", "계절구분명"]]
sub_fire_dat["count"] = 1
sub_fire_dat

han_name,화재발생연도,시군구명,계절구분명,count
0,2017,강남구,겨울,1
1,2017,마포구,겨울,1
2,2017,강서구,겨울,1
3,2017,강동구,겨울,1
4,2017,강북구,겨울,1
...,...,...,...,...
28261,2021,서대문구,겨울,1
28262,2021,마포구,겨울,1
28263,2021,성북구,겨울,1
28264,2021,은평구,겨울,1


2. `groupby`와 `sum`메소드들을 이용하여 화재발생연도, 시군구, 계절별로 출동 횟수를 계산한다.

In [None]:
ss_dat = sub_fire_dat.groupby(["화재발생연도", "시군구명", "계절구분명"]).sum()
ss_dat

Unnamed: 0_level_0,Unnamed: 1_level_0,han_name,count
화재발생연도,시군구명,계절구분명,Unnamed: 3_level_1
2017,강남구,가을,113
2017,강남구,겨울,129
2017,강남구,봄,140
2017,강남구,여름,120
2017,강동구,가을,65
...,...,...,...
2021,중구,여름,49
2021,중랑구,가을,45
2021,중랑구,겨울,63
2021,중랑구,봄,46


3. `reset_index()` method를 이용하여 화재발생연도 및 시군구명을 인덱스에서 가져온다.

In [None]:
ss_dat = ss_dat.reset_index()
ss_dat

han_name,화재발생연도,시군구명,계절구분명,count
0,2017,강남구,가을,113
1,2017,강남구,겨울,129
2,2017,강남구,봄,140
3,2017,강남구,여름,120
4,2017,강동구,가을,65
...,...,...,...,...
495,2021,중구,여름,49
496,2021,중랑구,가을,45
497,2021,중랑구,겨울,63
498,2021,중랑구,봄,46


4. 변수명을 할당하여 마무리한다.

In [None]:
ss_dat.columns = ["화재발생연도", "시군구", "계절", "출동횟수"]
ss_dat

Unnamed: 0,화재발생연도,시군구,계절,출동횟수
0,2017,강남구,가을,113
1,2017,강남구,겨울,129
2,2017,강남구,봄,140
3,2017,강남구,여름,120
4,2017,강동구,가을,65
...,...,...,...,...
495,2021,중구,여름,49
496,2021,중랑구,가을,45
497,2021,중랑구,겨울,63
498,2021,중랑구,봄,46


5. 이제, 계절별로 데이터가 생성 되었다. 이 데이터 셋에서 계절이 여름, 겨울인 데이터만 추출해 보자. 계절 변수가 "여름" 또는 "겨울"의 값을 가지는 데이터만 추출한다.


In [None]:
tmp_ind = (ss_dat["계절"] == "여름") | (ss_dat["계절"] == "겨울")
sub_ss_dat = ss_dat.loc[tmp_ind, :]
sub_ss_dat

Unnamed: 0,화재발생연도,시군구,계절,출동횟수
1,2017,강남구,겨울,129
3,2017,강남구,여름,120
5,2017,강동구,겨울,63
7,2017,강동구,여름,73
9,2017,강북구,겨울,51
...,...,...,...,...
491,2021,종로구,여름,54
493,2021,중구,겨울,41
495,2021,중구,여름,49
497,2021,중랑구,겨울,63


6. 데이터의 형태를 보면, 계절이란 변수에 "여름", "겨울"로써 값이 들어가 있음을 알 수 있다. 그러므로 이를 변수의 형태로 변환하기 위해 다음과 같은 작업을 진행한다. 계절이 "여름"인 데이터들만 가져오고, 이 데이터의 출동횟수를 "출동횟수_여름"으로 할당한다.


In [None]:
tmp_ind = sub_ss_dat["계절"] == "여름"
sum_dat = sub_ss_dat.loc[tmp_ind, :].drop(["계절"], axis = 1)
sum_dat.columns = ["화재발생연도", "시군구", "출동횟수_여름"]

sum_dat

Unnamed: 0,화재발생연도,시군구,출동횟수_여름
3,2017,강남구,120
7,2017,강동구,73
11,2017,강북구,41
15,2017,강서구,81
19,2017,관악구,69
...,...,...,...
483,2021,용산구,36
487,2021,은평구,42
491,2021,종로구,54
495,2021,중구,49


7. 계절이 "겨울"인 데이터들만 가져오고, 이 데이터의 출동횟수를 "출동횟수_겨울"으로 할당한다.

In [None]:
tmp_ind = sub_ss_dat["계절"] == "겨울"
win_dat = sub_ss_dat.loc[tmp_ind, :].drop(["계절"], axis = 1)
win_dat.columns = ["화재발생연도", "시군구", "출동횟수_겨울"]

win_dat

Unnamed: 0,화재발생연도,시군구,출동횟수_겨울
1,2017,강남구,129
5,2017,강동구,63
9,2017,강북구,51
13,2017,강서구,89
17,2017,관악구,82
...,...,...,...
481,2021,용산구,47
485,2021,은평구,57
489,2021,종로구,48
493,2021,중구,41


## 두 개의 데이터 셋 결합

8. `pandas`패키지의 `merge`함수를 이용하여 화재발생연도, 시군구 기준으로 조인을 진행한다.

In [None]:
sum_win_dat = pd.merge(sum_dat, win_dat, on = ["화재발생연도", "시군구"])
sum_win_dat

Unnamed: 0,화재발생연도,시군구,출동횟수_여름,출동횟수_겨울
0,2017,강남구,120,129
1,2017,강동구,73,63
2,2017,강북구,41,51
3,2017,강서구,81,89
4,2017,관악구,69,82
...,...,...,...,...
120,2021,용산구,36,47
121,2021,은평구,42,57
122,2021,종로구,54,48
123,2021,중구,49,41


9. 마지막으로, 처음에 생성시킨 화재발생연도, 시군구 별 사망자수, 부상자수, 재산피해금액, 총출동횟수에 대한 데이터와 똑같은 변수(화재발생연도, 시군구)를 기준으로 `pandas`패키지의 `merge` 함수를 이용하여 결합한다.

In [None]:
final_dat = pd.merge(agg_dat, sum_win_dat, on = ["화재발생연도", "시군구"])
final_dat

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,총출동횟수,출동횟수_여름,출동횟수_겨울
0,2017,강남구,0,11,1565258,502,120,129
1,2017,강동구,0,12,418593,269,73,63
2,2017,강북구,0,6,339146,186,41,51
3,2017,강서구,3,22,706871,364,81,89
4,2017,관악구,3,20,654690,286,69,82
...,...,...,...,...,...,...,...,...
120,2021,용산구,0,5,296793,176,36,47
121,2021,은평구,3,8,875722,160,42,57
122,2021,종로구,0,12,465499,192,54,48
123,2021,중구,0,16,2780374,171,49,41


- 앞에서 연습으로 사용한 데이터는 이렇게 생성됩니다. 그리고, 최종으로 엑셀로 저장은 다음과 같다.

In [None]:
final_dat.to_csv("practice_dat.csv", index = False)

## 추가적인 내용

- 일반적으로 위 `final_dat`의 데이터를 얻으면 다음과 같은 사항에 대해 궁금증을 가질 수 있다.

  1. 2021연도에 시군구별 사망자수, 부상자수, 재산피해금액 각 변수들에 대해 가장 높은지역은 어딜까??
  2. 여름은 겨울보다 습하다. 그러므로, 화재 사건에 대해서는 겨울에 더 많이 발생할 가능성이 높다고 생각 할 수 있다. 이를 실제로 확인하기 위해 연도별로 여름, 겨울의 출동횟수의 차이를 계산해보자.

- 1.)을 확인하기 위해, 연도에 대한 데이터 셋을 생성하자.

In [None]:
year_ind = final_dat["화재발생연도"] == 2021
year_dat = final_dat.loc[year_ind, :]

- 먼저, 사망자수가 가장 높은 지역이다. 이는 `year_dat`에서 사망자수의 최댓값과 사망자수가 같은 index를 찾아 추출하면된다.

In [None]:
max_ind = year_dat["사망자수"] == year_dat['사망자수'].max()
year_dat.loc[max_ind, :]

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,총출동횟수,출동횟수_여름,출동횟수_겨울
102,2021,강북구,5,14,410205,146,38,29


- 같은 방법으로 부상자수, 재산피해금액, 총출동횟수는 각각 다음과 같다.

In [None]:
max_ind = year_dat["부상자수"] == year_dat['부상자수'].max()
year_dat.loc[max_ind, :]

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,총출동횟수,출동횟수_여름,출동횟수_겨울
116,2021,성북구,4,46,493231,168,37,56


In [None]:
max_ind = year_dat["재산피해금액"] == year_dat['재산피해금액'].max()
year_dat.loc[max_ind, :]

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,총출동횟수,출동횟수_여름,출동횟수_겨울
123,2021,중구,0,16,2780374,171,49,41


In [None]:
max_ind = year_dat["총출동횟수"] == year_dat['총출동횟수'].max()
year_dat.loc[max_ind, :]

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,총출동횟수,출동횟수_여름,출동횟수_겨울
100,2021,강남구,2,15,1354949,391,91,112


- 2.)를 확인하기 위해 여름의 출동횟수와 겨울의 출동횟수를 계산해보자.

In [None]:
final_dat["출동횟수_차이"] = final_dat["출동횟수_겨울"] - final_dat["출동횟수_여름"]
final_dat

Unnamed: 0,화재발생연도,시군구,사망자수,부상자수,재산피해금액,총출동횟수,출동횟수_여름,출동횟수_겨울,출동횟수_차이
0,2017,강남구,0,11,1565258,502,120,129,9
1,2017,강동구,0,12,418593,269,73,63,-10
2,2017,강북구,0,6,339146,186,41,51,10
3,2017,강서구,3,22,706871,364,81,89,8
4,2017,관악구,3,20,654690,286,69,82,13
...,...,...,...,...,...,...,...,...,...
120,2021,용산구,0,5,296793,176,36,47,11
121,2021,은평구,3,8,875722,160,42,57,15
122,2021,종로구,0,12,465499,192,54,48,-6
123,2021,중구,0,16,2780374,171,49,41,-8


- `출동횟수_차이`의 의미는 이 값이 0보다 크다면 겨울의 출동횟수가 많다는 것이고, 0보다 작으면 여름의 출동횟수가 많다는 것이다. 그러므로, 0보다 큰것의 횟수를 계산하면 된다.

In [None]:
final_dat["count"] = final_dat["출동횟수_차이"] > 0
final_dat.groupby("화재발생연도")["count"].sum()

Unnamed: 0_level_0,count
화재발생연도,Unnamed: 1_level_1
2017,15
2018,15
2019,14
2020,14
2021,16


서울은 25개 시군구이고, 모두 13보다 큰 값을 가진다. 이 결과로써 실제로, 여름보다 겨울의 출동횟수가 더 큰 지역이 절반 이상의 지역임을 알 수 있다.