<a href="https://colab.research.google.com/github/Stacy067/Data-Analysis-for-Python/blob/main/4_1_kosis_pandas_input_ipynb%EC%9D%98_%EC%82%AC%EB%B3%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

KOSIS에서는 국내, 국제, 북한등의 주요 통계를 한 곳에 모아 이용자가 원하는 통계를 한번에 찾을 수 있도록 통계청이 제공하는 서비스입니다.  
경제, 사회, 환경 등 30개분야의 데이터를 제공해줍니다.
* https://kosis.kr/index/index.do

사용하는 데이터는 KOSIS에서 제공해주는 연령, 성별 암검진 대상 및 수검현황에 관한 데이터 입니다.  
데이터에는 연령과 성별별로 검진시 발병되는 암에 관한 데이터가 정리되어 있습니다.

아래의 URL에서 건강검진 통계 -> 암검진 -> 연령별 성별 암검진 대상 및 수검인원 현황에 들어가면 데이터를 받을 수 있습니다.
* https://kosis.kr/statHtml/statHtml.do?orgId=350&tblId=DT_35007_N010&conn_path=I2

## pandas

### DataFrame
<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg" width="400">

### Series
<img src="https://pandas.pydata.org/docs/_images/01_table_series.svg">

In [None]:
#경로 찾기

import os 

os.getcwd()

'/content'

In [None]:
# pandas, numpy 를 불러옵니다.
import pandas as pd
import numpy as np

In [None]:
import glob
glob.glob("*.csv")

['kosis-cancer-raw.csv']

## pandas로 파일 불러오고 확인해보기

<img src = 'https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [None]:
# pandas에서는 read_csv파일로 csv파일을 불러올 수 있습니다.
# csv파일은 ,(쉼표)로 구분하여 저장한 데이터파일입니다.
# read_csv()로 csv파일을 불러올 때 한글 인코딩 문제로 에러가 발생될 수 있습니다.
# 에러가 발생할때는 encoding 속성값을 'euc-kr', 'cp949', 'ms949'로 변경해서 실행합니다.
# DataFrame을 변수에 지정할때는 보통 약자인 df나 가공전에는 row를 사용합니다.
# kosis-cancer-raw.csv
df = pd.read_csv("kosis-cancer-raw.csv", encoding="cp949")

In [None]:
# shape속성을 통해 DataFrame의 행과 열에 대한 정보를 확인할 수 있습니다.
df.shape

(2428, 6)

In [None]:
df.head(2)

Unnamed: 0,연령별(1),시점,암검진별(1),성별(1),대상인원 (명),수검인원 (명)
0,계,2010,계,합계,12945756,6184804
1,계,2010,계,남자,6071884,2522586


## DataFrame의 columns의 이름 바꿔주기

In [None]:
# rename(index={}, columns={}, inplace=)함수를 통해 DataFrame의 행과 열의 이름을 바꿔줄 수 있다.
# df.rename(columns={'연령별(1)' : '연령별', '암검진별(1)' : '암검진별', '성별(1)' : '성별'}, inplace=True)
col_rename = {'연령별(1)' : '연령별', '암검진별(1)' : '암검진별', '성별(1)' : '성별'}
df = df.rename(columns=col_rename)
df

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명)
0,계,2010,계,합계,12945756,6184804
1,계,2010,계,남자,6071884,2522586
2,계,2010,계,여자,6873872,3662218
3,계,2010,위암,합계,10997959,4915858
4,계,2010,위암,남자,5553666,2202416
...,...,...,...,...,...,...
2423,85세 이상,2019,유방암,남자,-,-
2424,85세 이상,2019,유방암,여자,171274,22476
2425,85세 이상,2019,자궁경부암,합계,165503,9123
2426,85세 이상,2019,자궁경부암,남자,-,-


In [None]:
df.columns = ['연령별', '시점', '암검진별', '성별', '대상인원 (명)', '수검인원 (명)']
df.head(2)

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명)
0,계,2010,계,합계,12945756,6184804
1,계,2010,계,남자,6071884,2522586


## 데이터 전처리 및 타입 변경하기
* astype 으로 데이터 타입 변경

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2428 entries, 0 to 2427
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   연령별       2428 non-null   object
 1   시점        2428 non-null   int64 
 2   암검진별      2428 non-null   object
 3   성별        2428 non-null   object
 4   대상인원 (명)  2428 non-null   object
 5   수검인원 (명)  2428 non-null   object
dtypes: int64(1), object(5)
memory usage: 113.9+ KB


In [None]:
df.describe(include="object")

Unnamed: 0,연령별,암검진별,성별,대상인원 (명),수검인원 (명)
count,2428,2428,2428,2428,2428
unique,15,6,3,1487,1508
top,계,계,합계,-,-
freq,178,412,818,560,560


In [None]:
# replace함수로 DataFrame안에 있는 내용을 바꿔줄 수 있습니다.
# 데이터 안의 '-'(하이픈)을 0으로 바꿔줍니다.
# 이후 '데이터' column의 dtype을 int로 바꾸기 위해 내용을 바꿔줘야 합니다.
# pd.to_numeric(df["대상인원 (명)"], errors="coerce")
# df["대상인원"]
# df["수검인원"]
df["대상인원"] = pd.to_numeric(df["대상인원 (명)"], errors="coerce")

In [None]:
df["수검인원"] = pd.to_numeric(df["수검인원 (명)"], errors="coerce")

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2428 entries, 0 to 2427
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   연령별       2428 non-null   object 
 1   시점        2428 non-null   int64  
 2   암검진별      2428 non-null   object 
 3   성별        2428 non-null   object 
 4   대상인원 (명)  2428 non-null   object 
 5   수검인원 (명)  2428 non-null   object 
 6   대상인원      1868 non-null   float64
 7   수검인원      1868 non-null   float64
dtypes: float64(2), int64(1), object(5)
memory usage: 151.9+ KB


In [None]:
df.describe().round(2)

Unnamed: 0,시점,대상인원,수검인원
count,2428.0,1868.0,1868.0
mean,2014.67,1269765.42,616611.16
std,2.92,2469693.33,1210899.87
min,2010.0,0.0,0.0
25%,2012.0,173115.75,49850.0
50%,2015.0,638385.0,302317.5
75%,2017.0,1106556.0,592512.25
max,2019.0,23122600.0,12891329.0


## 사용하지 않는 데이터 제거

In [None]:
df.describe(include="object")

Unnamed: 0,연령별,암검진별,성별,대상인원 (명),수검인원 (명)
count,2428,2428,2428,2428,2428
unique,15,6,3,1487,1508
top,계,계,합계,-,-
freq,178,412,818,560,560


In [None]:
df = df[df["연령별"] != "계"]
df = df[df["암검진별"] != "계"]
df = df[df["성별"] != "합계"].copy()
df.shape

(1238, 8)

In [None]:
de.descr

In [None]:
df[(df["연령별"] != "계") & (df["암검진별"] != "계") & (df["성별"] != "합계")].reset_index().drop("index", axis=1)

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원
0,20 ~ 24세,2016,위암,남자,-,-,,
1,20 ~ 24세,2016,위암,여자,-,-,,
2,20 ~ 24세,2016,대장암,남자,-,-,,
3,20 ~ 24세,2016,대장암,여자,-,-,,
4,20 ~ 24세,2016,간암,남자,-,-,,
...,...,...,...,...,...,...,...,...
1233,85세 이상,2019,간암,여자,3592,914,3592.0,914.0
1234,85세 이상,2019,유방암,남자,-,-,,
1235,85세 이상,2019,유방암,여자,171274,22476,171274.0,22476.0
1236,85세 이상,2019,자궁경부암,남자,-,-,,


In [None]:
# drop함수를 통해 DataFrame안에 있는 행을 제거해줄 수 있습니다.
# 데이터안의 '연령별' column안에 있는 '계'는 사용하지 않을 예정이기 때문에 제거합니다.
# 데이터안의 '암검진별' column안에 있는 '계'는 사용하지 않을 예정이기 때문에 제거합니다.
# 데이터안의 '성별' column안에 있는 '합계'는 사용하지 않을 예정이기 때문에 제거합니다.
# 이후 index를  다시 재지정해 준 뒤 기존의 index column을 제거합니다.
# df

# df = df[df["연령별"] != "계"]


## 일부 데이터 확인하기

In [None]:
# 판다스의 head() 함수로 DataFrame의 앞쪽 데이터를 괄호 안에 지정한 개수만큼 얻어올 수 있습니다.
# 지정하지 않으면 기본값인 5개를 얻어오게 됩니다.
df.head(2)

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원
182,20 ~ 24세,2016,위암,남자,-,-,,
183,20 ~ 24세,2016,위암,여자,-,-,,


In [None]:
# 판다스의 tail() 함수로 DataFrame의 뒤쪽 데이터를 괄호 안에 지정한 개수만큼 얻어올 수 있습니다.
# 지정하지 않으면 기본값인 5개를 얻어오게 됩니다.
df.tail(2)

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원
2426,85세 이상,2019,자궁경부암,남자,-,-,,
2427,85세 이상,2019,자궁경부암,여자,165503,9123,165503.0,9123.0


In [None]:
# sample() 함수로 DataFrame의 랜덤 데이터를 괄호 안에 지정한 개수만큼 얻어올 수 있습니다.
# 지정하지 않으면 기본값인 1개를 얻어오게 됩니다.
df.sample(3)

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원
191,20 ~ 24세,2016,유방암,남자,-,-,,
937,45 ~ 49세,2016,위암,여자,826197,496859,826197.0,496859.0
2031,75 ~ 79세,2017,유방암,남자,-,-,,


## 데이터 요약하기

In [None]:
# info() 함수를 사용하면 DataFrame을 구성하고있는 데이터 자료형의 자세한 내용을 확인할 수 있습니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1238 entries, 182 to 2427
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   연령별       1238 non-null   object 
 1   시점        1238 non-null   int64  
 2   암검진별      1238 non-null   object 
 3   성별        1238 non-null   object 
 4   대상인원 (명)  1238 non-null   object 
 5   수검인원 (명)  1238 non-null   object 
 6   대상인원      830 non-null    float64
 7   수검인원      830 non-null    float64
dtypes: float64(2), int64(1), object(5)
memory usage: 87.0+ KB


In [None]:
# describe() 함수로 DataFrame에 저장된 숫자 데이터의 요약 통계량을 확인 할 수 있습니다.
# df에 숫자데이터는 '시점' column만 존재하기 때문에 '시점' column만 요약 통계량이 나오게 됩니다.
# 소수점 둘째자리까지 보기
df.describe().round(2)

Unnamed: 0,시점,대상인원,수검인원
count,1238.0,830.0,830.0
mean,2014.68,478182.4,232059.98
std,2.94,452786.98,225900.15
min,2010.0,0.0,0.0
25%,2012.0,61805.75,24431.75
50%,2015.0,376829.0,167017.0
75%,2017.0,785360.25,413684.0
max,2019.0,1859394.0,768088.0


In [None]:
# 정수로 표현
df.describe().round(0).astype(int)

Unnamed: 0,시점,대상인원,수검인원
count,1238,830,830
mean,2015,478182,232060
std,3,452787,225900
min,2010,0,0
25%,2012,61806,24432
50%,2015,376829,167017
75%,2017,785360,413684
max,2019,1859394,768088


In [None]:
# nunique() 함수로 DataFrame에 고유값(==유일값)의 개수를 확인할 수 있습니다.
df.nunique()

연령별          14
시점           10
암검진별          5
성별            2
대상인원 (명)    789
수검인원 (명)    789
대상인원        788
수검인원        788
dtype: int64

## 데이터 색인하기

### Boolean Indexing
* 결과값이 True, False bool형태로 반환되기 대문에 boolean indexing이라고 부른다.
* boolean indexing을 사용해 특정 조건식을 만족하는 데이터를 서브셋으로 가져온다.

In [None]:
# DataFrame에서 폐암과 자궁경부암에 관한 내용 찾아보기
# 폐암 국가검진은 2019년 7월부터 추가되었기 때문에 폐암에 관한 데이터는 없습니다.

df[df["암검진별"] =="폐암"]

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원


In [None]:
# 자궁경부암 True False
df["암검진별"] =="자궁경부암"

182     False
183     False
185     False
186     False
188     False
        ...  
2421    False
2423    False
2424    False
2426     True
2427     True
Name: 암검진별, Length: 1238, dtype: bool

In [None]:
# 자궁경부암
df[df["암검진별"] =="자궁경부암"]

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원
194,20 ~ 24세,2016,자궁경부암,남자,-,-,,
195,20 ~ 24세,2016,자궁경부암,여자,736010,138829,736010.0,138829.0
212,20 ~ 24세,2017,자궁경부암,남자,-,-,,
213,20 ~ 24세,2017,자궁경부암,여자,746162,166205,746162.0,166205.0
230,20 ~ 24세,2018,자궁경부암,남자,-,-,,
...,...,...,...,...,...,...,...,...
2391,85세 이상,2017,자궁경부암,여자,135881,6977,135881.0,6977.0
2408,85세 이상,2018,자궁경부암,남자,-,-,,
2409,85세 이상,2018,자궁경부암,여자,150812,7694,150812.0,7694.0
2426,85세 이상,2019,자궁경부암,남자,-,-,,


## 파생변수 만들기

<img src = 'https://pandas.pydata.org/docs/_images/05_newcolumn_1.svg' width="600">

* 연령을 다음과 같이 만들기
"20대"
"30대"

In [None]:
# 연령별 unique 값을 확인합니다.
df["연령별"].unique()

array(['20 ~ 24세', '25 ~ 29세', '30 ~ 34세', '35 ~ 39세', '40 ~ 44세',
       '45 ~ 49세', '50 ~ 54세', '55 ~ 59세', '60 ~ 64세', '65 ~ 69세',
       '70 ~ 74세', '75 ~ 79세', '80 ~ 84세', '85세 이상'], dtype=object)

In [None]:
# 연령대 파생변수를 생성합니다.
df["연령대"] = df["연령별"].str[0] +"0대"
df.head()

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원,연령대
182,20 ~ 24세,2016,위암,남자,-,-,,,20대
183,20 ~ 24세,2016,위암,여자,-,-,,,20대
185,20 ~ 24세,2016,대장암,남자,-,-,,,20대
186,20 ~ 24세,2016,대장암,여자,-,-,,,20대
188,20 ~ 24세,2016,간암,남자,-,-,,,20대


## 여러 조건 검색하기
* and => &
* or => | 

In [None]:
# 2010년에 간암에 관한 데이터를 확인해 봅니다.
# .loc[행, 열]
# .loc[조건식, 열]
# df.loc[(df['시점'] == 2010) & (df['암검진별'] == '간암')] 
# 시점의 type은 int64이기 때문에 int형식으로 지정해 주어야 합니다.
# 시점을 "2010" 과 같이 문자열로 지정하면 원하는 데이터를 얻을 수 없습니다.
df[(df["시점"] == 2010) & (df["암검진별"] == "간암")]

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원,연령대
332,30 ~ 34세,2010,간암,남자,-,-,,,30대
333,30 ~ 34세,2010,간암,여자,-,-,,,30대
498,35 ~ 39세,2010,간암,남자,-,-,,,30대
499,35 ~ 39세,2010,간암,여자,-,-,,,30대
664,40 ~ 44세,2010,간암,남자,77087,29894,77087.0,29894.0,40대
665,40 ~ 44세,2010,간암,여자,29728,15744,29728.0,15744.0,40대
839,45 ~ 49세,2010,간암,남자,74462,27359,74462.0,27359.0,40대
840,45 ~ 49세,2010,간암,여자,24101,12453,24101.0,12453.0,40대
1014,50 ~ 54세,2010,간암,남자,86437,35548,86437.0,35548.0,50대
1015,50 ~ 54세,2010,간암,여자,36843,20854,36843.0,20854.0,50대


In [None]:
year = (df["시점"] == 2010) 
cancer = (df["암검진별"] == "간암")
df[year & cancer]

Unnamed: 0,연령별,시점,암검진별,성별,대상인원 (명),수검인원 (명),대상인원,수검인원,연령대
332,30 ~ 34세,2010,간암,남자,-,-,,,30대
333,30 ~ 34세,2010,간암,여자,-,-,,,30대
498,35 ~ 39세,2010,간암,남자,-,-,,,30대
499,35 ~ 39세,2010,간암,여자,-,-,,,30대
664,40 ~ 44세,2010,간암,남자,77087,29894,77087.0,29894.0,40대
665,40 ~ 44세,2010,간암,여자,29728,15744,29728.0,15744.0,40대
839,45 ~ 49세,2010,간암,남자,74462,27359,74462.0,27359.0,40대
840,45 ~ 49세,2010,간암,여자,24101,12453,24101.0,12453.0,40대
1014,50 ~ 54세,2010,간암,남자,86437,35548,86437.0,35548.0,50대
1015,50 ~ 54세,2010,간암,여자,36843,20854,36843.0,20854.0,50대


## 사용하지 않는 컬럼 제거

In [None]:
# "대상인원 (명)", "수검인원 (명)" 은 사용하지 않을 예정이라 제거합니다.
df = df.drop(columns=["대상인원 (명)", "수검인원 (명)"]).copy()

KeyError: ignored

In [None]:
df

Unnamed: 0,연령별,시점,암검진별,성별,대상인원,수검인원,연령대
182,20 ~ 24세,2016,위암,남자,,,20대
183,20 ~ 24세,2016,위암,여자,,,20대
185,20 ~ 24세,2016,대장암,남자,,,20대
186,20 ~ 24세,2016,대장암,여자,,,20대
188,20 ~ 24세,2016,간암,남자,,,20대
...,...,...,...,...,...,...,...
2421,85세 이상,2019,간암,여자,3592.0,914.0,80대
2423,85세 이상,2019,유방암,남자,,,80대
2424,85세 이상,2019,유방암,여자,171274.0,22476.0,80대
2426,85세 이상,2019,자궁경부암,남자,,,80대


## 데이터 저장하기

<img src = 'https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [None]:
# 데이터를 저장할 때 index를 False로 저장하면 index번호는 같이 저장되지 않습니다.
# DataFrame은 excel형식으로도 저장이 가능합니다.
# df.to_excel('data/kosis-cancer.xlsx', index=False)
df.to_csv('kosis-cancer.csv', index=False)

In [None]:
pd.read_csv('kosis-cancer.csv')

Unnamed: 0,연령별,시점,암검진별,성별,대상인원,수검인원,연령대
0,20 ~ 24세,2016,위암,남자,,,20대
1,20 ~ 24세,2016,위암,여자,,,20대
2,20 ~ 24세,2016,대장암,남자,,,20대
3,20 ~ 24세,2016,대장암,여자,,,20대
4,20 ~ 24세,2016,간암,남자,,,20대
...,...,...,...,...,...,...,...
1233,85세 이상,2019,간암,여자,3592.0,914.0,80대
1234,85세 이상,2019,유방암,남자,,,80대
1235,85세 이상,2019,유방암,여자,171274.0,22476.0,80대
1236,85세 이상,2019,자궁경부암,남자,,,80대
