# **Mapping city name to city code**

### Data

* The data is based on the actual prescirption of national health insurance.

    **[Columns]**
    * 처방내역일련번호: Serial number
    * 성별코드: Gender code
    * 연령대코드(5세단위): Age code(in 5 years)
    * 시도코드: City code
    * 요양개시일자: Start date
    * 약품일반성분명코드: Component code
    * 1회투약량: Single dose
    * 1일투약량: Daily dose
    * 총투여일수: Days of dose

### Code

``` Python
# import module 
import pandas as pd

# load data
df = pd.read_csv('medicine_2011_2018.csv',low_memory=False)
df.head()
```

### Quiz

It's hard to recognize city because it's represented as a code, not a city name.
Using variable 'city', create a column of city name that matches the city code.

**[Hint]**<br>
* The variable city is a string that contains the city code and name.
* The code and name are separated by Space.
* Each [code, name] is separated by Enter

**※ Do not edit variable city**
<br>

### Task

1. Eliminate useless columns
<br>

*** Caution ***
1. Save only city name and code in the order of name - code in csv.
2. Save without index, encoding must be 'cp949'.

``` Python
# example of saving csv 
df.to_csv('change_code2name.csv')
```

### Example of Output

* Show 5 rows of the csv 

|  | 시도명 | 시도코드 |
| --- | --- | ---- |
| 0 | 경기도 | 41 |
| 1 | 경기도 | 41 |
| 2 | 전라남도 | 46 |
| 3 | 전라남도 | 46 |
| 4 | 경상남도 | 48 |

In [1]:
# import modules anything you want.
# Before you start, please execute below cells.
import pandas as pd
import numpy as np

In [2]:
# Before you start, please execute below cells.
data = pd.read_csv('medicine_2011_2018.csv')
data.head(5)

Unnamed: 0,처방내역일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회투약량,1일투약량,총투여일수
0,301,1,12,41,20111109,246501ATB,1.0,3,3
1,310,1,14,41,20111125,246501ATB,1.0,3,7
2,1013,2,9,46,20111203,246502ATB,1.0,3,14
3,1014,2,9,46,20111219,246502ATB,1.0,3,14
4,2563,1,10,48,20111205,246501ATB,1.0,1,30


In [3]:
data.shape

(423471, 9)

In [4]:
data.drop(data.iloc[:, 0:3], inplace=True, axis=1)

In [5]:
data

Unnamed: 0,시도코드,요양개시일자,약품일반성분명코드,1회투약량,1일투약량,총투여일수
0,41,20111109,246501ATB,1.0,3,3
1,41,20111125,246501ATB,1.0,3,7
2,46,20111203,246502ATB,1.0,3,14
3,46,20111219,246502ATB,1.0,3,14
4,48,20111205,246501ATB,1.0,1,30
...,...,...,...,...,...,...
423466,41,20180501,246501ATB,1.0,2,30
423467,41,20180605,246501ATB,1.0,2,30
423468,41,20180102,246501ATB,1.0,2,30
423469,41,20180123,246501ATB,1.0,2,30


In [6]:
data.drop(data.iloc[:, 1:], inplace=True, axis=1)

In [7]:
data

Unnamed: 0,시도코드
0,41
1,41
2,46
3,46
4,48
...,...
423466,41
423467,41
423468,41
423469,41


In [8]:
# Before you start, please execute below cells.
city = """11 서울특별시
42 강원도
26 부산광역시
43 충청북도
27 대구광역시
44 충청남도
28 인천광역시
45 전라북도
29 광주광역시
46 전라남도
30 대전광역시
47 경상북도
31 울산광역시
48 경상남도
36 세종특별자치시
49 제주특별자치도
41 경기도
50 기타"""
city

'11 서울특별시\n42 강원도\n26 부산광역시\n43 충청북도\n27 대구광역시\n44 충청남도\n28 인천광역시\n45 전라북도\n29 광주광역시\n46 전라남도\n30 대전광역시\n47 경상북도\n31 울산광역시\n48 경상남도\n36 세종특별자치시\n49 제주특별자치도\n41 경기도\n50 기타'

In [9]:
# Match city name and code using variable city.
#data['시도명'] = data['']
city = {11:'서울특별시',
        42:'강원도',
        26:'부산광역시',
        43:'충청북도',
        27:'대구광역시',
        44:'충청남도',
        28:'인천광역시',
        45:'전라북도',
        29:'광주광역시',
        46:'전라남도',
        30:'대전광역시',
        47:'경상북도',
        31:'울산광역시',
        48:'경상남도',
        36:'세종특별자치시',
        49:'제주특별자치도',
        41:'경기도',
        50:'기타'
       }

In [10]:
data['시도코드']

0         41
1         41
2         46
3         46
4         48
          ..
423466    41
423467    41
423468    41
423469    41
423470    41
Name: 시도코드, Length: 423471, dtype: int64

In [134]:
data['시도코드'].map(city)

0          경기도
1          경기도
2         전라남도
3         전라남도
4         경상남도
          ... 
423466     경기도
423467     경기도
423468     경기도
423469     경기도
423470     경기도
Name: 시도코드, Length: 423471, dtype: object

In [11]:
data.insert(0, '시도명', data['시도코드'].map(city))

In [12]:
data

Unnamed: 0,시도명,시도코드
0,경기도,41
1,경기도,41
2,전라남도,46
3,전라남도,46
4,경상남도,48
...,...,...
423466,경기도,41
423467,경기도,41
423468,경기도,41
423469,경기도,41


In [13]:
data.head()

Unnamed: 0,시도명,시도코드
0,경기도,41
1,경기도,41
2,전라남도,46
3,전라남도,46
4,경상남도,48


In [14]:
# Save data as csv file, encoding must be 'cp949', without index
data.to_csv("change_code2name.csv", index=False, encoding='cp949')

In [15]:
data = pd.read_csv('change_code2name.csv', encoding='cp949')
data.head(5)

Unnamed: 0,시도명,시도코드
0,경기도,41
1,경기도,41
2,전라남도,46
3,전라남도,46
4,경상남도,48
