# 데이터프레임의 정리

이 절에서는 데이터프레임을 정리할 떄 지주 사용되는 다음과 같은 내용을 살펴본다.

- 정렬(sorting)
- 열 지우기
- 행 지우기
- 행 인덱스 재구성
- 열이름 바꾸기
- 외부화일로 저장하기

## 자료의 정리

앞 절에서 살펴본 내용은 데이터의 일부분을 조건에 맞게 열과 행을 선택하여 필요한 데이터만 선택하는 작업이었다.

컴퓨터에서 사용할 수 있도록 데이터를 읽은 후에, 데이터프레임을 정렬하거나 열이름을 바꾸어 새로운 자료를 만들기 위한  전처리 작업을 한다.

자료를 주어진 규칙에 따라서 정렬하는(sorting) 작업은 분석 단계에서도 많이 사용하지만 자료를 처음 받고 살펴볼 때도 자주 사용한다. 초기 자료는 대부분 우리가 예상하지 못하는 오류나 결함을 가지고 있을 가능성이 있다. 빅데이터 시대에 자료를 눈으로 살펴보는 것이 자주 있는 일은 아니지만 자료의 일부분을 보면서 원하는 자료가 제대로 입력이 되있는지 간단하게 살펴보는 버릇은 매우 좋은 버릇이다.

최근에는 컴퓨터 프로그램에서 한글을 자유롭게 사용할 수 있게 되었지만 아직도 자료를 여러 개의 다른 프로그램으로 바꾸어 작업하는 경우 한글 때문에 호환이 자유롭게 안돼는 경우가  많다. 특히 순수한 자료가 아닌 프로그램 언어의 표현식, 인덱스, 열이름 등에 한글을 사용하면 문제를 일으킬 수 있다. 데이터프레임에서는 열이름이나 행인덱스에 한글을 사용할 수 있지만 영문으로 바꾸어야 하는 경우도 많다.

이제 데이터프레임을 원하는대로 정렬하고, 열과 행을 지우고, 열의 이름을 바꾸는 작업에 대하여 알아보자.

먼저, 예제로 사용될 자료를 살펴보자

## 화재출동 데이터

2017년부터 2021년의 5년간 서울시 5개 구별 (강동구, 강서구, 강남구, 강북구, 금천구) 화재출동 데이터입니다.
  
  
데이터를 외부 CSV 화일에서 데이터프레임으로 읽어 오려면 다음과 같은 `read_csv()` 함수를 사용한다.
    
- `encoding="cp949"` 은 화일의 언어형식을 지정하는 선택 명령이다. `cp949` 는 MS Windows 에서 사용하는 한글의 언어형식이다.
- 만약  `cp949` 를 사용하였을 때 한글이 깨져보이면 `utf-8` 또는 `utf-8-sig` 을 사용해 보자.
- 언어형식은 컴퓨터(운영체제; MS Window, MacOS, Linux) 에 따라서 다를 수 있으므로  `cp949`, `utf-8`, `utf-8-sig` 중 잘 작동하는 하나를 선택한다.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("data/fire_calling_summary.csv", encoding='cp949')
df

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액,출동횟수
0,2017,강남구,0.0,1565258,502
1,2017,강동구,0.0,418593,269
2,2017,강북구,0.0,339146,186
3,2017,강서구,3.0,706871,364
4,2017,관악구,3.0,654690,286
5,2018,강남구,0.0,1624983,436
6,2018,강동구,4.0,540625,324
7,2018,강북구,4.0,216838,203
8,2018,강서구,2.0,393401,383
9,2018,관악구,1.0,816562,337


아래 `df.head(10)` 은 데이터프레임 `df`의 처음 10개 행만을 출력하는 메소드이다. 아주 은 행을 가진 데이터프레임의 앞부부만 볼 때 유용하다. 유사한  방법으로 `df.tail(5)` 를 실행하면 어떤 결과가 나올까?

In [3]:
df.head(10)

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액,출동횟수
0,2017,강남구,0.0,1565258,502
1,2017,강동구,0.0,418593,269
2,2017,강북구,0.0,339146,186
3,2017,강서구,3.0,706871,364
4,2017,관악구,3.0,654690,286
5,2018,강남구,0.0,1624983,436
6,2018,강동구,4.0,540625,324
7,2018,강북구,4.0,216838,203
8,2018,강서구,2.0,393401,383
9,2018,관악구,1.0,816562,337


## 정렬

먼저 데이터프레임의 행들을 지정된 열에 있는 자료의 순서대로 정렬하는 방법을 알아보자.

- 정렬은 `sort_values()` 메소드를 사용한다. 괄호 안에 `by=` 을 사용하여 정렬항 열이름이나 열이름으로 구성된 리스트를 지정한다.

- 정렬의 순서는 선택문 `ascending=` 을 사용하며 오름차순은 `ascending=True` 으로, 내림차순은 `ascending=False` 로 지정한다. 순서를 지정하지 않으면 오름차순이 적용된다.

이제 데이터프레임을 `행정구역별(읍면동)`으로 정렬해보자. 강남구가 처음으로, 강북구가 마지막으로 나타나는 것을 알 수 있다.

In [4]:
df.sort_values(by = '시군구')

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액,출동횟수
0,2017,강남구,0.0,1565258,502
20,2021,강남구,2.0,1354949,391
5,2018,강남구,0.0,1624983,436
15,2020,강남구,1.0,1451556,387
10,2019,강남구,1.0,1677681,456
1,2017,강동구,0.0,418593,269
21,2021,강동구,1.0,346741,211
6,2018,강동구,4.0,540625,324
16,2020,강동구,3.0,363839,221
11,2019,강동구,1.0,533359,254


이제 `시군구명`별로, `연도` 별로, 두 개의 열에 대하여 정렬해 보자

In [5]:
df.sort_values(by = ['시군구', '화재발생연도'])

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액,출동횟수
0,2017,강남구,0.0,1565258,502
5,2018,강남구,0.0,1624983,436
10,2019,강남구,1.0,1677681,456
15,2020,강남구,1.0,1451556,387
20,2021,강남구,2.0,1354949,391
1,2017,강동구,0.0,418593,269
6,2018,강동구,4.0,540625,324
11,2019,강동구,1.0,533359,254
16,2020,강동구,3.0,363839,221
21,2021,강동구,1.0,346741,211


2020년 원인들만 볼 수 있을까? 다음 표현식의 결과를 보자. 앞 절에서 배운 조건식을 이용한 슬라이싱을 사용하였다.

2020년만 선택한 후, 재산피해금액을 이용하여 내림차순으로 정렬해 보자. 강남구가 가장 많은 재산피해금액의 수를 가진 구이다.

In [6]:
df[df['화재발생연도'] == 2020 ].sort_values(by = ['재산피해금액'], ascending=False)

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액,출동횟수
15,2020,강남구,1.0,1451556,387
19,2020,관악구,2.0,646149,219
16,2020,강동구,3.0,363839,221
17,2020,강북구,1.0,208380,186
18,2020,강서구,3.0,200966,212


지금까지 여러 조합을 이용하여 데이터프레임 `df` 를 정렬을 했는데 원자료는 변했을까?

데이터프레임을 위와 같이 정렬해도 출력으로만 결과를 보여주고 원자료는 실제로 정렬되지 않는다.

In [7]:
df.head(10)

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액,출동횟수
0,2017,강남구,0.0,1565258,502
1,2017,강동구,0.0,418593,269
2,2017,강북구,0.0,339146,186
3,2017,강서구,3.0,706871,364
4,2017,관악구,3.0,654690,286
5,2018,강남구,0.0,1624983,436
6,2018,강동구,4.0,540625,324
7,2018,강북구,4.0,216838,203
8,2018,강서구,2.0,393401,383
9,2018,관악구,1.0,816562,337


만약 정렬된 결과를 다른 이름으로 데이터프레임에 저장하면 어떻게 될까?  
다른 데이터프레임으로 지정하면 정렬로 변한 결과가 적용되어 저장된다.

In [8]:
df_copy = df.sort_values(by = ['사망자수', '시군구'], ascending = False)
df_copy

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액,출동횟수
22,2021,강북구,5.0,410205,146
7,2018,강북구,4.0,216838,203
6,2018,강동구,4.0,540625,324
4,2017,관악구,3.0,654690,286
14,2019,관악구,3.0,654586,311
3,2017,강서구,3.0,706871,364
18,2020,강서구,3.0,200966,212
16,2020,강동구,3.0,363839,221
19,2020,관악구,2.0,646149,219
24,2021,관악구,2.0,562294,259


정렬한 자료를 유지하여 데이터프레임을 바꾸고 싶다면 메소드  `sort_values()` 의 선택문으로 `inplace = True` 라고 지정해주면 된다.

물론 지정하지 않는 경우 `inplace = False` 가 자동적으로 적용된다.

이제 데이터프레임 `df_sorted`를 년도로 정렬하고 그 결과를 유지하게 해보자.

In [9]:
df_copy.sort_values(by = ['화재발생연도'], inplace= True)
df_copy

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액,출동횟수
1,2017,강동구,0.0,418593,269
0,2017,강남구,0.0,1565258,502
4,2017,관악구,3.0,654690,286
2,2017,강북구,0.0,339146,186
3,2017,강서구,3.0,706871,364
9,2018,관악구,1.0,816562,337
8,2018,강서구,2.0,393401,383
5,2018,강남구,0.0,1624983,436
6,2018,강동구,4.0,540625,324
7,2018,강북구,4.0,216838,203


## 행과 열 지우기

처음 자료를 데이터프레임으로 만든 후에 특정한 행 또는 열을 제거해야 할 떄가 많다. 이제 행과 열을 지우는 방법을 알아보자.

행과 열을 지우는 작업은 슬라이싱과 다르다. 물론 슬라이싱으로 열과 행을 선택한 후에 새로운 데이터프레임에 저장하면 원하는 행과 열을 지운 결과를 얻는다.
이 절에서는 새로운 데이터프레임을 만들지 않고 주어진 데이터프레임에서 행과 열을 제거하는  방법을 배운다.  

### 열 지우기

열을 지우는 일이 행을 지우는 것보다 쉬우니 먼저 열을 지우는 방법부터 알아보자.  

이제  데이터프레임 `df` 에서 열 `출동횟수` 를 지워보자.  

(자료를 정리할 때 다른 행과 열들로 만들 수 있는 자료는 지워도 되지만  
고유의 값을 가진 자료를 지워서는 안된다.  
만약 특정 행을 제거하면 어떻게 될까?)

열을 지우는 방법은 `drop` 메소드로 쉽게 할 수 있다.

- `columns =` 에 삭제할 열이름을 리스트 형식으로 지정해 준다.

- 선택문 `inplace= True` 는 데이터프레임 `df`의 내용을 변경한다.

**주의**: 선택문 `inplace= True` 를 사용할 떄 실수하면  데이터프레임을 복구할 수없으니 조심해서 사용하자. 이제 왜 선택문 `inplace` 가 있는지 생각해 보자. 변경된 내용을 새로운 데이터프레임에 저장하면 원래 자료는 그냥 변하지 않고 있으니 자료를 잃을 위험은 없다.  하지만 빅데이터를 다루는 경우 자료의 복사본을 계속 만들면 어떻게 될지 생각헤 보자.

In [10]:
df.drop(columns = ["출동횟수"], inplace= True)
df

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액
0,2017,강남구,0.0,1565258
1,2017,강동구,0.0,418593
2,2017,강북구,0.0,339146
3,2017,강서구,3.0,706871
4,2017,관악구,3.0,654690
5,2018,강남구,0.0,1624983
6,2018,강동구,4.0,540625
7,2018,강북구,4.0,216838
8,2018,강서구,2.0,393401
9,2018,관악구,1.0,816562


### 행 지우기

데이터프레임 `df` 는 행정구역이 시도별로 자료가 구성되어 있다.

그런데 열 `시군구`에 `강동구` 를 포함하고 있다. 강동구 데이터를 특별히 다루지 않는다면 해당 데이터를 삭제해보자. 특히, 자료를 만드는 경우 열의 구성요소가 아닌 내용이 포함되면 분석할 떄 문제가 생길 수 있다.

이제 열 `시군구`의 값으로  `강동구` 을 가지는 행을 지워보자.

**다시 주의**: 앞 절에서 배운대로 `시군구`가 `강동구`가 아닌 행들만 **슬라이싱** 할 수 있다. 선택된 행들을 다른 이름의 데이터프레임으로 저정하면 되지만 슬라이싱은 선택만 할 뿐 데이터프레임 자체를 바꾸진 않는다.


조건에 따라서 행을 지우는 경우 `drop`  메소드를 사용할 수 있다.

이제 `시군구`가 `강동구`인 행을 `drop` 메소드로 지우고 데이터프레임에 적용되게 해보자. 다음과 같은 순서로 처리할 수 있다.

먼저, `시군구`가 `강동구`인 데이터프레임을 만들고 해당하는 행의 위치(index,인덱스)를 추출한다. 아래와 같이 메소드 `.index` 를 사용하면 데이터프레임의 행의 위치를 나타내는 인덱스를 추출할 수 있다. 추출한 인덱스의 자료 형식은 `Int64Index` 이며 이는 행의 위치를 나타내는 형식이다.


In [11]:
index_for_delete = df[df["시군구"] == '강동구'].index

In [12]:
index_for_delete

Int64Index([1, 6, 11, 16, 21], dtype='int64')

이제 `drop` 메소드를 사용하여 `시군구`기 `강동구`인 행을 지워보자.

-   `index = ` 은 행에 대한 인덱스를 지정한다. 위에서 조건으로 만든 `index_for_delete`를 지정하면 해당하는 행이 제거된다.
-  선택문 `inplace= True` 는 데이터프레임 `house`의 내용을 변경한다.

In [13]:
df.drop( index = index_for_delete, inplace= True )
df

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액
0,2017,강남구,0.0,1565258
2,2017,강북구,0.0,339146
3,2017,강서구,3.0,706871
4,2017,관악구,3.0,654690
5,2018,강남구,0.0,1624983
7,2018,강북구,4.0,216838
8,2018,강서구,2.0,393401
9,2018,관악구,1.0,816562
10,2019,강남구,1.0,1677681
12,2019,강북구,1.0,217805


이제 우리는 연도별, 시군구명별 자료를 특정 행과 열을 삭제하여 정리하였다.

그런데 바로 위에 나타난 데이터프레임 `df`를 보면 행을 나타나는 인덱스에 `1`과 `13` 이 나타나지 않는다. 이러한 이유는
지워진 행에 대한 인덱스가 같이 없어진 것이다. 즉, 행을 지우는 경우(그리고 정령을 하는 경우도) 자동적으로 행의 인덱스가 0부터 다시 구성되지 않는다.


이제 완성된 데이터프레임의 행 인덱스를 0부터 시작에서 빠진 수없이 다시 구성해 보자.

`reset_index` 메소드를 다음과 같이 적용하면 행 인덱스가 0부터 차례대로 구성된다.

- `drop=True`는 행 인덱스를 재구성 할 때 인덱스를 나타내는 새로운 열을 만들지 말라는 명령이다. 만약 `drop=Fase` 로 하면
열이름이 `index`인 새로운 열이 추가된다.

In [14]:
df.reset_index(drop=True, inplace=True)
df

Unnamed: 0,화재발생연도,시군구,사망자수,재산피해금액
0,2017,강남구,0.0,1565258
1,2017,강북구,0.0,339146
2,2017,강서구,3.0,706871
3,2017,관악구,3.0,654690
4,2018,강남구,0.0,1624983
5,2018,강북구,4.0,216838
6,2018,강서구,2.0,393401
7,2018,관악구,1.0,816562
8,2019,강남구,1.0,1677681
9,2019,강북구,1.0,217805


## 열이름 바꾸기

자료를 정리할 때  열이름을 바꾸는 경우가 매우 흔하다.

열이름의 길이를 줄이거나, 열이름에 대한 새로운 규칙을 적용하거나, 개인의 취향을 사용하거나... 열이름을 변경해야할 일이 자주 일어난다.

데이터프레임 `df`의 열이름을 영문으로 바꾸어 보자.

먼저 데이터프레임 뒤에 `.columns` 를 붙이면 열이름을 볼 수 있다. 형식은 행의 위치를 나타내내는 인덱스(Index) 형식이다.

In [15]:
df.columns

Index(['화재발생연도', '시군구', '사망자수', '재산피해금액'], dtype='object')

열이름을 바꿀 떄는 `rename()` 메소드를 사용한다. 다음과 같이 열이름을 바꾸어 보자.

- `columns =` 에 사전 형식((Dictionary type)으로 새로운 열의 이름을 지정한다.

- 열이름은 앞에서 잠깐 나온 사전(Dictionary) 형식이다. 다음과 같은 규칙을 가진다.
    + 내용은 `{...}` 안에 넣는다.
    + 원래 열이름과 새로운 열이름의 문자열을 각각 `:` 의 왼쪽과 오른쪽에 놓는다.
    + 다른 열이름을 컴마 `,` 로 구분한다.

- `inplace=True` 를 선택해여 열이름 변경이 데이터프레임에 적용된다.


In [16]:
df.rename( columns={
	"화재발생연도" : "year", "시군구" : "region",
	"사망자수" : "samang_n", "재산피해금액" : "money"},
	inplace=True)
df

Unnamed: 0,year,region,samang_n,money
0,2017,강남구,0.0,1565258
1,2017,강북구,0.0,339146
2,2017,강서구,3.0,706871
3,2017,관악구,3.0,654690
4,2018,강남구,0.0,1624983
5,2018,강북구,4.0,216838
6,2018,강서구,2.0,393401
7,2018,관악구,1.0,816562
8,2019,강남구,1.0,1677681
9,2019,강북구,1.0,217805


In [17]:
df.columns

Index(['year', 'region', 'samang_n', 'money'], dtype='object')

위에서 열이름을 모두 바꾸는 코드와 동일한 작업을 새로운 이름을 가진 리스트로 다음과 같이 할 수 있다.

예를 들어 위에서 영문으로 변경한 `사망자수`를 `samang_n` 에서 `death_n`로 바꾸어보자.

In [18]:
df.columns = ['year', 'region', 'death_n', 'money']
df

Unnamed: 0,year,region,death_n,money
0,2017,강남구,0.0,1565258
1,2017,강북구,0.0,339146
2,2017,강서구,3.0,706871
3,2017,관악구,3.0,654690
4,2018,강남구,0.0,1624983
5,2018,강북구,4.0,216838
6,2018,강서구,2.0,393401
7,2018,관악구,1.0,816562
8,2019,강남구,1.0,1677681
9,2019,강북구,1.0,217805


## 요약

데이터프레임을...

- 정렬할 때는 `sort_values()` 메소드를 사용한다.
- 열 또는 행을 제거할 때 `drop()` 메소드를 사용한다.
- 열이름을 바꿀 때는 `rename()` 메소드를 사용한다.
- 행의 인덱스를 재구성하는 경우 `reset_index()` 를 이용한다.
- 변경된 내용을 데이터프레임에 적용하려면 `inplace = True` 선택문을 사용한다.

**함께해봅시다**

* `df`의 열이름을 다시 한글로 바꾸기 ['연도', '시군구' , '사망자수', '피해금액']
* 관악구를 제외한 최근 4개년의 자료를 `df_new`이름으로 저장하기
* `df_new`의 인덱스를 재구성하기
* `df_new`의 새로운 열 `연도별시군구`를 만들어 `연도`+`시군구`값을 저장하기 (예: `2017 강남구`)
* `df_new`의 `연도`와 `시군구` 열 제거하기

<details>
<summary>접기/펼치기</summary>

`df['year2'] = df['year'].astype(str)`

`df['year_region'] = df['year2']+ ' ' + df['region']`
</details>
