KOSIS에서는 국내, 국제, 북한등의 주요 통계를 한 곳에 모아 이용자가 원하는 통계를 한번에 찾을 수 있도록 통계청이 제공하는 서비스입니다.  
경제, 사회, 환경 등 30개분야의 데이터를 제공해줍니다.
* https://kosis.kr/index/index.do

사용하는 데이터는 KOSIS에서 제공해주는 연령, 성별 암검진 대상 및 수검현황에 관한 데이터 입니다.  
데이터에는 연령과 성별별로 검진시 발병되는 암에 관한 데이터가 정리되어 있습니다.

아래의 URL에서 건강검진 통계 -> 암검진 -> 연령별 성별 암검진 대상 및 수검인원 현황에 들어가면 데이터를 받을 수 있습니다.
* https://kosis.kr/statHtml/statHtml.do?orgId=350&tblId=DT_35007_N010&conn_path=I2

## pandas

### DataFrame
<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg" width="400">

### Series
<img src="https://pandas.pydata.org/docs/_images/01_table_series.svg">

In [None]:
# pandas, numpy 를 불러옵니다.


## pandas로 파일 불러오고 확인해보기

<img src = 'https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [None]:
# pandas에서는 read_csv파일로 csv파일을 불러올 수 있습니다.
# csv파일은 ,(쉼표)로 구분하여 저장한 데이터파일입니다.
# read_csv()로 csv파일을 불러올 때 한글 인코딩 문제로 에러가 발생될 수 있습니다.
# 에러가 발생할때는 encoding 속성값을 'euc-kr', 'cp949', 'ms949'로 변경해서 실행합니다.
# DataFrame을 변수에 지정할때는 보통 약자인 df나 가공전에는 row를 사용합니다.
# kosis-cancer-raw.csv


In [None]:
# shape속성을 통해 DataFrame의 행과 열에 대한 정보를 확인할 수 있습니다.


## DataFrame의 columns의 이름 바꿔주기

In [None]:
# rename(index={}, columns={}, inplace=)함수를 통해 DataFrame의 행과 열의 이름을 바꿔줄 수 있다.
# df.rename(columns={'연령별(1)' : '연령별', '암검진별(1)' : '암검진별', '성별(1)' : '성별'}, inplace=True)
col_rename = {'연령별(1)' : '연령별', '암검진별(1)' : '암검진별', '성별(1)' : '성별'}


## 데이터 전처리 및 타입 변경하기
* astype 으로 데이터 타입 변경

In [None]:
# replace함수로 DataFrame안에 있는 내용을 바꿔줄 수 있습니다.
# 데이터 안의 '-'(하이픈)을 0으로 바꿔줍니다.
# 이후 '데이터' column의 dtype을 int로 바꾸기 위해 내용을 바꿔줘야 합니다.
# pd.to_numeric(df["대상인원 (명)"], errors="coerce")
# df["대상인원"]
# df["수검인원"]


## 사용하지 않는 데이터 제거

In [None]:
# drop함수를 통해 DataFrame안에 있는 행을 제거해줄 수 있습니다.
# 데이터안의 '연령별' column안에 있는 '계'는 사용하지 않을 예정이기 때문에 제거합니다.
# 데이터안의 '암검진별' column안에 있는 '계'는 사용하지 않을 예정이기 때문에 제거합니다.
# 데이터안의 '성별' column안에 있는 '합계'는 사용하지 않을 예정이기 때문에 제거합니다.
# 이후 index를  다시 재지정해 준 뒤 기존의 index column을 제거합니다.
# df

# df = df[df["연령별"] != "계"]


## 일부 데이터 확인하기

In [None]:
# 판다스의 head() 함수로 DataFrame의 앞쪽 데이터를 괄호 안에 지정한 개수만큼 얻어올 수 있습니다.
# 지정하지 않으면 기본값인 5개를 얻어오게 됩니다.


In [None]:
# 판다스의 tail() 함수로 DataFrame의 뒤쪽 데이터를 괄호 안에 지정한 개수만큼 얻어올 수 있습니다.
# 지정하지 않으면 기본값인 5개를 얻어오게 됩니다.


In [None]:
# sample() 함수로 DataFrame의 랜덤 데이터를 괄호 안에 지정한 개수만큼 얻어올 수 있습니다.
# 지정하지 않으면 기본값인 1개를 얻어오게 됩니다.


## 데이터 요약하기

In [None]:
# info() 함수를 사용하면 DataFrame을 구성하고있는 데이터 자료형의 자세한 내용을 확인할 수 있습니다.


In [None]:
# describe() 함수로 DataFrame에 저장된 숫자 데이터의 요약 통계량을 확인 할 수 있습니다.
# df에 숫자데이터는 '시점' column만 존재하기 때문에 '시점' column만 요약 통계량이 나오게 됩니다.


In [None]:
# nunique() 함수로 DataFrame에 고유값의 개수를 확인할 수 있습니다.


## 데이터 색인하기

### Boolean Indexing
* 결과값이 True, False bool형태로 반환되기 대문에 boolean indexing이라고 부른다.
* boolean indexing을 사용해 특정 조건식을 만족하는 데이터를 서브셋으로 가져온다.

In [None]:
# DataFrame에서 폐암과 자궁경부암에 관한 내용 찾아보기
# 폐암 국가검진은 2019년 7월부터 추가되었기 때문에 폐암에 관한 데이터는 없습니다.

In [None]:
# 자궁경부암


## 파생변수 만들기

<img src = 'https://pandas.pydata.org/docs/_images/05_newcolumn_1.svg' width="600">

* 연령을 다음과 같이 만들기
"20대"
"30대"

In [None]:
# 연령별 unique 값을 확인합니다.


In [None]:
# 연령대 파생변수를 생성합니다.
# df["연령대"]

## 여러 조건 검색하기
* and => &
* or => | 

In [None]:
# 2010년에 간암에 관한 데이터를 확인해 봅니다.
# .loc[행, 열]
# .loc[조건식, 열]
# df.loc[(df['시점'] == 2010) & (df['암검진별'] == '간암')] 
# 시점의 type은 int64이기 때문에 int형식으로 지정해 주어야 합니다.
# 시점을 "2010" 과 같이 문자열로 지정하면 원하는 데이터를 얻을 수 없습니다.
# year
# cancer


## 사용하지 않는 컬럼 제거

In [None]:
# "대상인원 (명)", "수검인원 (명)" 은 사용하지 않을 예정이라 제거합니다.
# df

## 데이터 저장하기

<img src = 'https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [None]:
# 데이터를 저장할 때 index를 False로 저장하면 index번호는 같이 저장되지 않습니다.
# DataFrame은 excel형식으로도 저장이 가능합니다.
# df.to_excel('data/kosis-cancer.xlsx', index=False)
