KOSIS에서는 국내, 국제, 북한등의 주요 통계를 한 곳에 모아 이용자가 원하는 통계를 한번에 찾을 수 있도록 통계청이 제공하는 서비스입니다.  
경제, 사회, 환경 등 30개분야의 데이터를 제공해줍니다.
* https://kosis.kr/index/index.do

사용하는 데이터는 KOSIS에서 제공해주는 연령, 성별 암검진 대상 및 수검현황에 관한 데이터 입니다.  
데이터에는 연령과 성별별로 검진시 발병되는 암에 관한 데이터가 정리되어 있습니다.

아래의 URL에서 건강검진 통계 -> 암검진 -> 연령별 성별 암검진 대상 및 수검인원 현황에 들어가면 데이터를 받을 수 있습니다.
* https://kosis.kr/statHtml/statHtml.do?orgId=350&tblId=DT_35007_N010&conn_path=I2

## pandas

In [1]:
# pandas 를 불러옵니다.
import pandas as pd
import numpy as np

## pandas로 파일 불러오고 확인해보기

<img src = 'https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [3]:
import glob

glob.glob('data/*')

['data\\kosis-cancer-raw.csv',
 'data\\seoul-covid19-2021-12-18.csv',
 'data\\seoul-covid19-2021-12-26.csv',
 'data\\전국 평균 분양가격(2013년 9월부터 2015년 8월까지).csv',
 'data\\주택도시보증공사_전국 신규 민간아파트 분양가격 동향_20210930.csv']

In [4]:
# pandas에서는 read_csv파일로 csv파일을 불러올 수 있습니다.
# csv파일은 ,(쉼표)로 구분하여 저장한 데이터파일입니다.
# read_csv()로 csv파일을 불러올 때 한글 인코딩 문제로 에러가 발생될 수 있습니다.
# 에러가 발생할때는 encoding 속성값을 'euc-kr', 'cp949', 'ms949'로 변경해서 실행합니다.
# DataFrame을 변수에 지정할때는 보통 약자인 df나 가공전에는 row를 사용합니다.
# kosis-cancer-raw.csv
df = pd.read_csv("data/kosis-cancer-raw.csv", encoding="cp949")

In [5]:
# shape속성을 통해 DataFrame의 행과 열에 대한 정보를 확인할 수 있습니다.

df.shape

(2428, 6)

In [6]:
df.head()

Unnamed: 0,연령별(1),시점,암검진별(1),성별(1),대상인원 (명),수검인원 (명)
0,계,2010,계,합계,12945756,6184804
1,계,2010,계,남자,6071884,2522586
2,계,2010,계,여자,6873872,3662218
3,계,2010,위암,합계,10997959,4915858
4,계,2010,위암,남자,5553666,2202416


## DataFrame의 columns의 이름 바꿔주기

In [7]:
# rename(index={}, columns={}, inplace=)함수를 통해 DataFrame의 행과 열의 이름을 바꿔줄 수 있다.
# df.rename(columns={'연령별(1)' : '연령별', '암검진별(1)' : '암검진별', '성별(1)' : '성별'}, inplace=True)
df = df.rename(columns = {'연령별(1)' : '연령별', '암검진별(1)' : '암검진별', '성별(1)' : '성별'})
df.head(2)

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명)
0,계,2010,계,합계,12945756,6184804
1,계,2010,계,남자,6071884,2522586


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2428 entries, 0 to 2427
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   연령별       2428 non-null   object
 1   시점        2428 non-null   int64 
 2   암검진별      2428 non-null   object
 3   성별        2428 non-null   object
 4   대상인원 (명)  2428 non-null   object
 5   수검인원 (명)  2428 non-null   object
dtypes: int64(1), object(5)
memory usage: 113.9+ KB


## DataFrame의 내용 바꾸기

In [9]:
# replace함수로 DataFrame안에 있는 내용을 바꿔줄 수 있습니다.
# 데이터 안의 '-'(하이픈)을 0으로 바꿔줍니다.
# 이후 '데이터' column의 dtype을 int로 바꾸기 위해 내용을 바꿔줘야 합니다.
# pd.to_numeric(df["대상인원 (명)"], errors="coerce")
df["대상인원"] = df["대상인원 (명)"].replace("-", 0).astype(int)
df["수검인원"] = df["수검인원 (명)"].replace("-", 0).astype(int)
df.head(2)

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원
0,계,2010,계,합계,12945756,6184804,12945756,6184804
1,계,2010,계,남자,6071884,2522586,6071884,2522586


## 사용하지 않는 데이터 제거

In [10]:
# drop함수를 통해 DataFrame안에 있는 행을 제거해줄 수 있습니다.
# 데이터안의 '연령별' column안에 있는 '계'는 사용하지 않을 예정이기 때문에 제거합니다.
# 데이터안의 '암검진별' column안에 있는 '계'는 사용하지 않을 예정이기 때문에 제거합니다.
# 데이터안의 '성별' column안에 있는 '합계'는 사용하지 않을 예정이기 때문에 제거합니다.
# 이후 index를  다시 재지정해 준 뒤 기존의 index column을 제거합니다.
# df

df = df[df["연령별"] != "계"]
df = df[df["암검진별"] != "계"]
df = df[df["성별"] != "합계"].copy()
df.shape

(1238, 8)

## 일부 데이터 확인하기

In [11]:
# 판다스의 head() 함수로 DataFrame의 앞쪽 데이터를 괄호 안에 지정한 개수만큼 얻어올 수 있습니다.
# 지정하지 않으면 기본값인 5개를 얻어오게 됩니다.
df.head()

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원
182,20 ~ 24세,2016,위암,남자,-,-,0,0
183,20 ~ 24세,2016,위암,여자,-,-,0,0
185,20 ~ 24세,2016,대장암,남자,-,-,0,0
186,20 ~ 24세,2016,대장암,여자,-,-,0,0
188,20 ~ 24세,2016,간암,남자,-,-,0,0


In [12]:
# 판다스의 tail() 함수로 DataFrame의 뒤쪽 데이터를 괄호 안에 지정한 개수만큼 얻어올 수 있습니다.
# 지정하지 않으면 기본값인 5개를 얻어오게 됩니다.
df.tail(10)
# df.tail()

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원
2414,85세 이상,2019,위암,남자,69158,19475,69158,19475
2415,85세 이상,2019,위암,여자,172662,26355,172662,26355
2417,85세 이상,2019,대장암,남자,150244,28315,150244,28315
2418,85세 이상,2019,대장암,여자,369494,37486,369494,37486
2420,85세 이상,2019,간암,남자,2011,661,2011,661
2421,85세 이상,2019,간암,여자,3592,914,3592,914
2423,85세 이상,2019,유방암,남자,-,-,0,0
2424,85세 이상,2019,유방암,여자,171274,22476,171274,22476
2426,85세 이상,2019,자궁경부암,남자,-,-,0,0
2427,85세 이상,2019,자궁경부암,여자,165503,9123,165503,9123


In [13]:
# sample() 함수로 DataFrame의 랜덤 데이터를 괄호 안에 지정한 개수만큼 얻어올 수 있습니다.
# 지정하지 않으면 기본값인 1개를 얻어오게 됩니다.
df.sample(5)

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원
1654,65 ~ 69세,2016,간암,남자,29127,19521,29127,19521
644,35 ~ 39세,2019,대장암,여자,-,-,0,0
1676,65 ~ 69세,2017,유방암,여자,415933,307594,415933,307594
2406,85세 이상,2018,유방암,여자,155678,18981,155678,18981
1283,55 ~ 59세,2015,간암,여자,66365,39811,66365,39811


## 데이터 요약하기

In [14]:
# info() 함수를 사용하면 DataFrame을 구성하고있는 데이터 자료형의 자세한 내용을 확인할 수 있습니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1238 entries, 182 to 2427
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   연령별       1238 non-null   object
 1   시점        1238 non-null   int64 
 2   암검진별      1238 non-null   object
 3   성별        1238 non-null   object
 4   대상인원 (명)  1238 non-null   object
 5   수검인원 (명)  1238 non-null   object
 6   대상인원      1238 non-null   int32 
 7   수검인원      1238 non-null   int32 
dtypes: int32(2), int64(1), object(5)
memory usage: 77.4+ KB


In [18]:
# describe() 함수로 DataFrame에 저장된 숫자 데이터의 요약 통계량을 확인 할 수 있습니다.
# df에 숫자데이터는 '시점' column만 존재하기 때문에 '시점' column만 요약 통계량이 나오게 됩니다.
df.describe()

Unnamed: 0,시점,대상인원,수검인원
count,1238.0,1238.0,1238.0
mean,2014.676898,320590.8,155581.409532
std,2.93706,433542.2,214726.83933
min,2010.0,0.0,0.0
25%,2012.0,0.0,0.0
50%,2015.0,63451.0,25318.0
75%,2017.0,601529.2,300887.25
max,2019.0,1859394.0,768088.0


In [19]:
# nunique() 함수로 DataFrame에 고유값의 개수를 확인할 수 있습니다.
df.nunique()

연령별          14
시점           10
암검진별          5
성별            2
대상인원 (명)    789
수검인원 (명)    789
대상인원        788
수검인원        788
dtype: int64

In [20]:
# index속성은 DataFrame의 인덱스를 얻어올 수 있습니다.
df.index

Int64Index([ 182,  183,  185,  186,  188,  189,  191,  192,  194,  195,
            ...
            2414, 2415, 2417, 2418, 2420, 2421, 2423, 2424, 2426, 2427],
           dtype='int64', length=1238)

In [21]:
# columns속성을 통해 DataFrame을 구성하는 열 이름과 속성을 확인할 수 있습니다.
df.columns

Index(['연령별', '시점', '암검진별', '성별', '대상인원 (명)', '수검인원 (명)', '대상인원', '수검인원'], dtype='object')

In [22]:
# values속성을 통해 시리즈의 데이터를 얻어올 수 있습니다.
df.values

array([['20 ~ 24세', 2016, '위암', ..., '-', 0, 0],
       ['20 ~ 24세', 2016, '위암', ..., '-', 0, 0],
       ['20 ~ 24세', 2016, '대장암', ..., '-', 0, 0],
       ...,
       ['85세 이상', 2019, '유방암', ..., '22476', 171274, 22476],
       ['85세 이상', 2019, '자궁경부암', ..., '-', 0, 0],
       ['85세 이상', 2019, '자궁경부암', ..., '9123', 165503, 9123]], dtype=object)

## 데이터 타입 변경

In [None]:
# astype함수를 통해 dtype을 변경할 수 있습니다.
# df['대상인원']
# df['수검인원']

## 데이터 색인하기

### Series
<img src="https://pandas.pydata.org/docs/_images/01_table_series.svg">

In [23]:
# 컬럼 하나를 색인합니다.
df["성별"]

182     남자
183     여자
185     남자
186     여자
188     남자
        ..
2421    여자
2423    남자
2424    여자
2426    남자
2427    여자
Name: 성별, Length: 1238, dtype: object

In [24]:
# df['암검진별']의 type을 확인해 봅니다.
type(df["암검진별"])

pandas.core.series.Series

In [25]:
# 0번째 행만 가져옵니다. 행 인덱스를 가져올 때는 .loc를 이용합니다.
# loc는 위치(locate)를 의미합니다.
df.loc[182]

연령별         20 ~ 24세
시점              2016
암검진별              위암
성별                남자
대상인원 (명)           -
수검인원 (명)           -
대상인원               0
수검인원               0
Name: 182, dtype: object

In [26]:
# df.loc[0]의 type을 확인해 봅니다.
type(df.loc[182])

pandas.core.series.Series

### DataFrame
<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg" width="400">

In [27]:
# df 변수의 type을 확인해 봅니다.
type(df)

pandas.core.frame.DataFrame

In [28]:
# 여러 컬럼을 지정할 때는 리스트 형태로 묶어주어야 합니다.
# 2차원 행렬은 [](대괄호)가 2개가 있습니다..
df[["암검진별", "성별"]]

Unnamed: 0,암검진별,성별
182,위암,남자
183,위암,여자
185,대장암,남자
186,대장암,여자
188,간암,남자
...,...,...
2421,간암,여자
2423,유방암,남자
2424,유방암,여자
2426,자궁경부암,남자


In [29]:
# 여러 개의 행을 가져올 때도 [](대괄호)를 통해 리스트 형태로 묶어주어야 합니다.
df.loc[[182, 183]]

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원
182,20 ~ 24세,2016,위암,남자,-,-,0,0
183,20 ~ 24세,2016,위암,여자,-,-,0,0


In [30]:
# 1개의 column을 가져올 때도 [](대괄호) 2개를 써서 리스트 형태로 묶어주게 되면 데이터프레임 형태로 반환됩니다.
# '암검진별'을 데이터프레임으로 가져옵니다.
df[["암검진별"]]

Unnamed: 0,암검진별
182,위암
183,위암
185,대장암
186,대장암
188,간암
...,...
2421,간암
2423,유방암
2424,유방암
2426,자궁경부암


### loc를 통한 서브셋 가져오기
<img src = 'https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg' width="600">

In [31]:
# 행과 열 함께 가져오기
# .loc[행, 열]
df.loc[182, "성별"]

'남자'

In [32]:
# .loc[행][열]
df.loc[182]["성별"]

'남자'

In [None]:
# 행과 열을 다른 리스트로 분리할 때와 같은 리스트로 묶어줄 때는 실행속도의 차이가 있습니다.

In [33]:
%timeit df.loc[182, '암검진별']

8.13 µs ± 1.14 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [34]:
%timeit df.loc[182]['암검진별']

115 µs ± 9.48 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [35]:
# 여러 개의 행과 하나의 column 가져오기
# .loc[행, 열]
df.loc[182, ["암검진별", "성별"]]

암검진별    위암
성별      남자
Name: 182, dtype: object

In [36]:
# 여러개의 행과 여러개의 컬럼 가져오기
# .loc[행, 열]

df.loc[[182, 183], ["암검진별", "성별"]]

Unnamed: 0,암검진별,성별
182,위암,남자
183,위암,여자


### Boolean Indexing
* 결과값이 True, False bool형태로 반환되기 대문에 boolean indexing이라고 부른다.
* boolean indexing을 사용해 특정 조건식을 만족하는 데이터를 서브셋으로 가져온다.

In [37]:
# DataFrame에서 폐암과 자궁경부암에 관한 내용 찾아보기
df[df['암검진별'] == '폐암']
# 폐암 국가검진은 2019년 7월부터 추가되었기 때문에 폐암에 관한 데이터는 없습니다.

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원


In [38]:
# 자궁경부암
df[df["암검진별"] == "자궁경부암"]

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원
194,20 ~ 24세,2016,자궁경부암,남자,-,-,0,0
195,20 ~ 24세,2016,자궁경부암,여자,736010,138829,736010,138829
212,20 ~ 24세,2017,자궁경부암,남자,-,-,0,0
213,20 ~ 24세,2017,자궁경부암,여자,746162,166205,746162,166205
230,20 ~ 24세,2018,자궁경부암,남자,-,-,0,0
...,...,...,...,...,...,...,...,...
2391,85세 이상,2017,자궁경부암,여자,135881,6977,135881,6977
2408,85세 이상,2018,자궁경부암,남자,-,-,0,0
2409,85세 이상,2018,자궁경부암,여자,150812,7694,150812,7694
2426,85세 이상,2019,자궁경부암,남자,-,-,0,0


## 파생변수 만들기

<img src = 'https://pandas.pydata.org/docs/_images/05_newcolumn_1.svg' width="600">

In [39]:
# 연령별 unique 값을 확인합니다.
df["연령별"].unique()

array(['20 ~ 24세', '25 ~ 29세', '30 ~ 34세', '35 ~ 39세', '40 ~ 44세',
       '45 ~ 49세', '50 ~ 54세', '55 ~ 59세', '60 ~ 64세', '65 ~ 69세',
       '70 ~ 74세', '75 ~ 79세', '80 ~ 84세', '85세 이상'], dtype=object)

In [40]:
df["연령별"].str[0] + "0대"

182     20대
183     20대
185     20대
186     20대
188     20대
       ... 
2421    80대
2423    80대
2424    80대
2426    80대
2427    80대
Name: 연령별, Length: 1238, dtype: object

In [41]:
"20대"
"30대"

'30대'

In [42]:
# 연령대 파생변수를 생성합니다.
df["연령대"] = df["연령별"].str[0] + "0대"
df.head(2)

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원,연령대
182,20 ~ 24세,2016,위암,남자,-,-,0,0,20대
183,20 ~ 24세,2016,위암,여자,-,-,0,0,20대


## 여러 조건 검색하기
* and => &
* or => | 

In [43]:
# 2010년에 간암에 관한 데이터를 확인해 봅니다.
# .loc[행, 열]
# .loc[조건식, 열]
# df.loc[(df['시점'] == 2010) & (df['암검진별'] == '간암')] 
# 시점의 type은 int64이기 때문에 int형식으로 지정해 주어야 합니다.
# 시점을 "2010" 과 같이 문자열로 지정하면 원하는 데이터를 얻을 수 없습니다.
# year
# cancer

df[(df["시점"] == 2010) & (df["암검진별"] == "간암")]

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원,연령대
332,30 ~ 34세,2010,간암,남자,-,-,0,0,30대
333,30 ~ 34세,2010,간암,여자,-,-,0,0,30대
498,35 ~ 39세,2010,간암,남자,-,-,0,0,30대
499,35 ~ 39세,2010,간암,여자,-,-,0,0,30대
664,40 ~ 44세,2010,간암,남자,77087,29894,77087,29894,40대
665,40 ~ 44세,2010,간암,여자,29728,15744,29728,15744,40대
839,45 ~ 49세,2010,간암,남자,74462,27359,74462,27359,40대
840,45 ~ 49세,2010,간암,여자,24101,12453,24101,12453,40대
1014,50 ~ 54세,2010,간암,남자,86437,35548,86437,35548,50대
1015,50 ~ 54세,2010,간암,여자,36843,20854,36843,20854,50대


## 사용하지 않는 컬럼 제거

In [44]:
# "대상인원 (명)", "수검인원 (명)" 은 사용하지 않을 예정이라 제거합니다.
df = df.drop(columns=["대상인원 (명)", "수검인원 (명)"])
df

Unnamed: 0,연령별,시점,암검진별,성별,대상인원,수검인원,연령대
182,20 ~ 24세,2016,위암,남자,0,0,20대
183,20 ~ 24세,2016,위암,여자,0,0,20대
185,20 ~ 24세,2016,대장암,남자,0,0,20대
186,20 ~ 24세,2016,대장암,여자,0,0,20대
188,20 ~ 24세,2016,간암,남자,0,0,20대
...,...,...,...,...,...,...,...
2421,85세 이상,2019,간암,여자,3592,914,80대
2423,85세 이상,2019,유방암,남자,0,0,80대
2424,85세 이상,2019,유방암,여자,171274,22476,80대
2426,85세 이상,2019,자궁경부암,남자,0,0,80대


## 데이터 저장하기

<img src = 'https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [45]:
# 데이터를 저장할 때 index를 False로 저장하면 index번호는 같이 저장되지 않습니다.
# DataFrame은 excel형식으로도 저장이 가능합니다.
# df.to_excel('kosis-cancer.xlsx', index=False)
df.to_csv("kosis-cancer.csv", index=False)

In [46]:
pd.read_csv("kosis-cancer.csv")

Unnamed: 0,연령별,시점,암검진별,성별,대상인원,수검인원,연령대
0,20 ~ 24세,2016,위암,남자,0,0,20대
1,20 ~ 24세,2016,위암,여자,0,0,20대
2,20 ~ 24세,2016,대장암,남자,0,0,20대
3,20 ~ 24세,2016,대장암,여자,0,0,20대
4,20 ~ 24세,2016,간암,남자,0,0,20대
...,...,...,...,...,...,...,...
1233,85세 이상,2019,간암,여자,3592,914,80대
1234,85세 이상,2019,유방암,남자,0,0,80대
1235,85세 이상,2019,유방암,여자,171274,22476,80대
1236,85세 이상,2019,자궁경부암,남자,0,0,80대
