KOSIS에서는 국내, 국제, 북한등의 주요 통계를 한 곳에 모아 이용자가 원하는 통계를 한번에 찾을 수 있도록 통계청이 제공하는 서비스입니다.  
경제, 사회, 환경 등 30개분야의 데이터를 제공해줍니다.
* https://kosis.kr/index/index.do

사용하는 데이터는 KOSIS에서 제공해주는 연령, 성별 암검진 대상 및 수검현황에 관한 데이터 입니다.  
데이터에는 연령과 성별별로 검진시 발병되는 암에 관한 데이터가 정리되어 있습니다.

아래의 URL에서 건강검진 통계 -> 암검진 -> 연령별 성별 암검진 대상 및 수검인원 현황에 들어가면 데이터를 받을 수 있습니다.
* https://kosis.kr/statHtml/statHtml.do?orgId=350&tblId=DT_35007_N010&conn_path=I2

## pandas

In [1]:
# pandas 를 불러옵니다.
import pandas as pd
import numpy as np

## pandas로 파일 불러오고 확인해보기

<img src = 'https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [33]:
# pandas에서는 read_csv파일로 csv파일을 불러올 수 있습니다.
# csv파일은 ,(쉼표)로 구분하여 저장한 데이터파일입니다.
# read_csv()로 csv파일을 불러올 때 한글 인코딩 문제로 에러가 발생될 수 있습니다.
# 에러가 발생할때는 encoding 속성값을 'euc-kr', 'cp949', 'ms949'로 변경해서 실행합니다.
# DataFrame을 변수에 지정할때는 보통 약자인 df나 가공전에는 row를 사용합니다.
# kosis-cancer-raw.csv
# df

df = pd.read_csv('data/kosis-cancer-raw.csv', encoding='cp949')
print('df.shape :',df.shape)
df.head()

df.shape : (2428, 6)


Unnamed: 0,연령별(1),시점,암검진별(1),성별(1),대상인원 (명),수검인원 (명)
0,계,2010,계,합계,12945756,6184804
1,계,2010,계,남자,6071884,2522586
2,계,2010,계,여자,6873872,3662218
3,계,2010,위암,합계,10997959,4915858
4,계,2010,위암,남자,5553666,2202416


## DataFrame의 columns의 이름 바꿔주기

In [34]:
# rename(index={}, columns={}, inplace=)함수를 통해 DataFrame의 행과 열의 이름을 바꿔줄 수 있다.
# df.rename(columns={'연령별(1)' : '연령별', '암검진별(1)' : '암검진별', '성별(1)' : '성별'}, inplace=True)
df.rename(columns={'연령별(1)' : '연령별', '암검진별(1)' : '암검진별', '성별(1)' : '성별'}, inplace=True)
df.head()

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명)
0,계,2010,계,합계,12945756,6184804
1,계,2010,계,남자,6071884,2522586
2,계,2010,계,여자,6873872,3662218
3,계,2010,위암,합계,10997959,4915858
4,계,2010,위암,남자,5553666,2202416


## DataFrame의 내용 바꾸기

In [35]:
# replace함수로 DataFrame안에 있는 내용을 바꿔줄 수 있습니다.
# 데이터 안의 '-'(하이픈)을 0으로 바꿔줍니다.
# 이후 '데이터' column의 dtype을 int로 바꾸기 위해 내용을 바꿔줘야 합니다.
df = df.replace('-',0)
df.iloc[:,-1] = df.iloc[:,-1].astype('int')
df.iloc[:,-2] = df.iloc[:,-2].astype('int')
df.head()

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명)
0,계,2010,계,합계,12945756,6184804
1,계,2010,계,남자,6071884,2522586
2,계,2010,계,여자,6873872,3662218
3,계,2010,위암,합계,10997959,4915858
4,계,2010,위암,남자,5553666,2202416


## 사용하지 않는 데이터 제거

In [36]:
# drop함수를 통해 DataFrame안에 있는 행을 제거해줄 수 있습니다.
# 데이터안의 '연령별' column안에 있는 '계'는 사용하지 않을 예정이기 때문에 제거합니다.
# 데이터안의 '암검진별' column안에 있는 '계'는 사용하지 않을 예정이기 때문에 제거합니다.
# 데이터안의 '성별' column안에 있는 '합계'는 사용하지 않을 예정이기 때문에 제거합니다.
# 이후 index를  다시 재지정해 준 뒤 기존의 index column을 제거합니다.
# df
df = df[df['연령별'] != '계']
df = df[df['암검진별'] != '계']
df = df[df['성별'] != '합계']
df.reset_index(drop=True, inplace=True)

print('df.shape :',df.shape)
df.head()

df.shape : (1238, 6)


Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명)
0,20 ~ 24세,2016,위암,남자,0,0
1,20 ~ 24세,2016,위암,여자,0,0
2,20 ~ 24세,2016,대장암,남자,0,0
3,20 ~ 24세,2016,대장암,여자,0,0
4,20 ~ 24세,2016,간암,남자,0,0


## 일부 데이터 확인하기

In [37]:
# 판다스의 head() 함수로 DataFrame의 앞쪽 데이터를 괄호 안에 지정한 개수만큼 얻어올 수 있습니다.
# 지정하지 않으면 기본값인 5개를 얻어오게 됩니다.
df.head()

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명)
0,20 ~ 24세,2016,위암,남자,0,0
1,20 ~ 24세,2016,위암,여자,0,0
2,20 ~ 24세,2016,대장암,남자,0,0
3,20 ~ 24세,2016,대장암,여자,0,0
4,20 ~ 24세,2016,간암,남자,0,0


In [39]:
# 판다스의 tail() 함수로 DataFrame의 뒤쪽 데이터를 괄호 안에 지정한 개수만큼 얻어올 수 있습니다.
# 지정하지 않으면 기본값인 5개를 얻어오게 됩니다.
df.tail(5)
# df.tail()

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명)
1233,85세 이상,2019,간암,여자,3592,914
1234,85세 이상,2019,유방암,남자,0,0
1235,85세 이상,2019,유방암,여자,171274,22476
1236,85세 이상,2019,자궁경부암,남자,0,0
1237,85세 이상,2019,자궁경부암,여자,165503,9123


In [41]:
# sample() 함수로 DataFrame의 랜덤 데이터를 괄호 안에 지정한 개수만큼 얻어올 수 있습니다.
# 지정하지 않으면 기본값인 1개를 얻어오게 됩니다.
df.sample(5)

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명)
238,35 ~ 39세,2017,유방암,남자,0,0
130,30 ~ 34세,2015,자궁경부암,여자,934426,441708
672,60 ~ 64세,2012,대장암,남자,998034,346644
427,45 ~ 49세,2017,대장암,여자,0,0
439,45 ~ 49세,2018,간암,여자,59967,44543


## 데이터 요약하기

In [42]:
# info() 함수를 사용하면 DataFrame을 구성하고있는 데이터 자료형의 자세한 내용을 확인할 수 있습니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1238 entries, 0 to 1237
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   연령별       1238 non-null   object
 1   시점        1238 non-null   int64 
 2   암검진별      1238 non-null   object
 3   성별        1238 non-null   object
 4   대상인원 (명)  1238 non-null   int32 
 5   수검인원 (명)  1238 non-null   int32 
dtypes: int32(2), int64(1), object(3)
memory usage: 48.5+ KB


In [43]:
# describe() 함수로 DataFrame에 저장된 숫자 데이터의 요약 통계량을 확인 할 수 있습니다.
# df에 숫자데이터는 '시점' column만 존재하기 때문에 '시점' column만 요약 통계량이 나오게 됩니다.
df.describe()

Unnamed: 0,시점,대상인원 (명),수검인원 (명)
count,1238.0,1238.0,1238.0
mean,2014.676898,320590.8,155581.409532
std,2.93706,433542.2,214726.83933
min,2010.0,0.0,0.0
25%,2012.0,0.0,0.0
50%,2015.0,63451.0,25318.0
75%,2017.0,601529.2,300887.25
max,2019.0,1859394.0,768088.0


In [45]:
# nunique() 함수로 DataFrame에 고유값의 개수를 확인할 수 있습니다.
df.nunique()

연령별          14
시점           10
암검진별          5
성별            2
대상인원 (명)    788
수검인원 (명)    788
dtype: int64

In [46]:
# index속성은 DataFrame의 인덱스를 얻어올 수 있습니다.
df.index

RangeIndex(start=0, stop=1238, step=1)

In [47]:
# columns속성을 통해 DataFrame을 구성하는 열 이름과 속성을 확인할 수 있습니다.
df.columns

Index(['연령별', '시점', '암검진별', '성별', '대상인원 (명)', '수검인원 (명)'], dtype='object')

In [48]:
# values속성을 통해 시리즈의 데이터를 얻어올 수 있습니다.
df.values

array([['20 ~ 24세', 2016, '위암', '남자', 0, 0],
       ['20 ~ 24세', 2016, '위암', '여자', 0, 0],
       ['20 ~ 24세', 2016, '대장암', '남자', 0, 0],
       ...,
       ['85세 이상', 2019, '유방암', '여자', 171274, 22476],
       ['85세 이상', 2019, '자궁경부암', '남자', 0, 0],
       ['85세 이상', 2019, '자궁경부암', '여자', 165503, 9123]], dtype=object)

## 데이터 타입 변경

In [51]:
# astype함수를 통해 dtype을 변경할 수 있습니다.
# df['대상인원']
# df['수검인원']
df['대상인원 (명)'].astype('float')
df['수검인원 (명)'].astype('float')

0           0.0
1           0.0
2           0.0
3           0.0
4           0.0
         ...   
1233      914.0
1234        0.0
1235    22476.0
1236        0.0
1237     9123.0
Name: 수검인원 (명), Length: 1238, dtype: float64

## 데이터 색인하기

### Series
<img src="https://pandas.pydata.org/docs/_images/01_table_series.svg">

In [54]:
# 컬럼 하나를 색인합니다.
df['암검진별'][:4]

0     위암
1     위암
2    대장암
3    대장암
Name: 암검진별, dtype: object

In [55]:
# df['암검진별']의 type을 확인해 봅니다.
type(df['암검진별'])

pandas.core.series.Series

In [58]:
# 0번째 행만 가져옵니다. 행 인덱스를 가져올 때는 .loc를 이용합니다.
# loc는 위치(locate)를 의미합니다.
df.loc[0]

연령별         20 ~ 24세
시점              2016
암검진별              위암
성별                남자
대상인원 (명)           0
수검인원 (명)           0
Name: 0, dtype: object

In [57]:
# df.loc[0]의 type을 확인해 봅니다.
type(df.loc[0])

pandas.core.series.Series

### DataFrame
<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg" width="400">

In [60]:
df.head()

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명)
0,20 ~ 24세,2016,위암,남자,0,0
1,20 ~ 24세,2016,위암,여자,0,0
2,20 ~ 24세,2016,대장암,남자,0,0
3,20 ~ 24세,2016,대장암,여자,0,0
4,20 ~ 24세,2016,간암,남자,0,0


In [59]:
# df 변수의 type을 확인해 봅니다.
type(df)

pandas.core.frame.DataFrame

In [67]:
# 여러 컬럼을 지정할 때는 리스트 형태로 묶어주어야 합니다.
# 2차원 행렬은 [](대괄호)가 2개가 있습니다..
df[['연령별','암검진별','성별']].head()

Unnamed: 0,연령별,암검진별,성별
0,20 ~ 24세,위암,남자
1,20 ~ 24세,위암,여자
2,20 ~ 24세,대장암,남자
3,20 ~ 24세,대장암,여자
4,20 ~ 24세,간암,남자


In [69]:
# 여러 개의 행을 가져올 때도 [](대괄호)를 통해 리스트 형태로 묶어주어야 합니다.
df[0:10].head()

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명)
0,20 ~ 24세,2016,위암,남자,0,0
1,20 ~ 24세,2016,위암,여자,0,0
2,20 ~ 24세,2016,대장암,남자,0,0
3,20 ~ 24세,2016,대장암,여자,0,0
4,20 ~ 24세,2016,간암,남자,0,0


In [71]:
# 1개의 column을 가져올 때도 [](대괄호) 2개를 써서 리스트 형태로 묶어주게 되면 데이터프레임 형태로 반환됩니다.
# '암검진별'을 데이터프레임으로 가져옵니다.
df[['암검진별']].head()

Unnamed: 0,암검진별
0,위암
1,위암
2,대장암
3,대장암
4,간암


### loc를 통한 서브셋 가져오기
<img src = 'https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg' width="600">

In [72]:
# 행과 열 함께 가져오기
# .loc[행, 열]
df.loc[2,'암검진별']

'대장암'

In [76]:
# .loc[행], [열]
df.loc[3]['연령별']

'20 ~ 24세'

In [None]:
# 행과 열을 다른 리스트로 분리할 때와 같은 리스트로 묶어줄 때는 실행속도의 차이가 있습니다.

In [77]:
%timeit df.loc[10, '암검진별']

9.83 µs ± 274 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [78]:
%timeit df.loc[10], ['암검진별']

156 µs ± 4.55 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [81]:
# 여러 개의 행과 하나의 column 가져오기
# .loc[행, 열]
df.loc[:4,'암검진별']

0     위암
1     위암
2    대장암
3    대장암
4     간암
Name: 암검진별, dtype: object

In [83]:
# 여러개의 행과 여러개의 컬럼 가져오기
# .loc[행, 열]
df.loc[:5]['암검진별']

0     위암
1     위암
2    대장암
3    대장암
4     간암
5     간암
Name: 암검진별, dtype: object

### Boolean Indexing
* 결과값이 True, False bool형태로 반환되기 대문에 boolean indexing이라고 부른다.
* boolean indexing을 사용해 특정 조건식을 만족하는 데이터를 서브셋으로 가져온다.

In [84]:
# DataFrame에서 폐암과 자궁경부암에 관한 내용 찾아보기
df[df['암검진별'] == '폐암']
# 폐암 국가검진은 2019년 7월부터 추가되었기 때문에 폐암에 관한 데이터는 없습니다.

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명)


In [86]:
# 자궁경부암
df[df['암검진별'] == '자궁경부암'].head()

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명)
8,20 ~ 24세,2016,자궁경부암,남자,0,0
9,20 ~ 24세,2016,자궁경부암,여자,736010,138829
18,20 ~ 24세,2017,자궁경부암,남자,0,0
19,20 ~ 24세,2017,자궁경부암,여자,746162,166205
28,20 ~ 24세,2018,자궁경부암,남자,0,0


## 파생변수 만들기

<img src = 'https://pandas.pydata.org/docs/_images/05_newcolumn_1.svg' width="600">

In [88]:
# 연령별 unique 값을 확인합니다.
df['연령별'].unique()

array(['20 ~ 24세', '25 ~ 29세', '30 ~ 34세', '35 ~ 39세', '40 ~ 44세',
       '45 ~ 49세', '50 ~ 54세', '55 ~ 59세', '60 ~ 64세', '65 ~ 69세',
       '70 ~ 74세', '75 ~ 79세', '80 ~ 84세', '85세 이상'], dtype=object)

In [91]:
# 연령대 파생변수를 생성합니다.
# df["연령대"]
def age_cat(age):
    if age in ['20 ~ 24세', '25 ~ 29세']: return '20대'
    elif age in ['30 ~ 34세', '35 ~ 39세']: return '30대'
    elif age in ['40 ~ 44세', '45 ~ 49세']: return '40대'
    elif age in ['50 ~ 54세', '55 ~ 59세']: return '50대'
    elif age in ['60 ~ 64세', '65 ~ 69세']: return '60대'
    elif age in ['70 ~ 74세', '75 ~ 79세']: return '70대'
    else: return '80대'
    
df['연령대'] = df['연령별'].apply(lambda x : age_cat(x))
df.head()

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),연령대
0,20 ~ 24세,2016,위암,남자,0,0,20대
1,20 ~ 24세,2016,위암,여자,0,0,20대
2,20 ~ 24세,2016,대장암,남자,0,0,20대
3,20 ~ 24세,2016,대장암,여자,0,0,20대
4,20 ~ 24세,2016,간암,남자,0,0,20대


## 여러 조건 검색하기
* and => &
* or => | 

In [95]:
# 2010년에 간암에 관한 데이터를 확인해 봅니다.
# .loc[행, 열]
# .loc[조건식, 열]
# df.loc[(df['시점'] == 2010) & (df['암검진별'] == '간암')] 
# 시점의 type은 int64이기 때문에 int형식으로 지정해 주어야 합니다.
# 시점을 "2010" 과 같이 문자열로 지정하면 원하는 데이터를 얻을 수 없습니다.
df['시점'] = df['시점'].astype(int)
df.loc[(df['시점'] == 2010) & (df['암검진별'] == '간암')].head()

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),연령대
84,30 ~ 34세,2010,간암,남자,0,0,30대
85,30 ~ 34세,2010,간암,여자,0,0,30대
175,35 ~ 39세,2010,간암,남자,0,0,30대
176,35 ~ 39세,2010,간암,여자,0,0,30대
266,40 ~ 44세,2010,간암,남자,77087,29894,40대


## 사용하지 않는 컬럼 제거

In [97]:
# "대상인원 (명)", "수검인원 (명)" 은 사용하지 않을 예정이라 제거합니다.
# df
df.drop(["대상인원 (명)", "수검인원 (명)"], axis=1).head()

Unnamed: 0,연령별,시점,암검진별,성별,연령대
0,20 ~ 24세,2016,위암,남자,20대
1,20 ~ 24세,2016,위암,여자,20대
2,20 ~ 24세,2016,대장암,남자,20대
3,20 ~ 24세,2016,대장암,여자,20대
4,20 ~ 24세,2016,간암,남자,20대


## 데이터 저장하기

<img src = 'https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [None]:
# 데이터를 저장할 때 index를 False로 저장하면 index번호는 같이 저장되지 않습니다.
# DataFrame은 excel형식으로도 저장이 가능합니다.
# df.to_excel('kosis-cancer.xlsx', index=False)
df.to_excel('kosis-cancer.xlsx', index=False)

In [None]:
pd.read_csv('kosis-cancer.xlsx')