### 확증적 데이터 분석(Confirmatory Data Analysis)
1. 목표변수 : 심결요양급여비용총액(ED_RC_TOT_AMT)
2. 설명변수
    - 연속형 : MDCARE_DD_CNT(요양일수), 입내원일수(VSHSP_DD_CNT), TOT_PRSC_DD_CNT(총처방일수)
    - 범주형 : 수술여부(OPRTN_YN), 공상 등 구분(OFIJ_TYPE)

In [1]:
import matplotlib.pyplot as plt
# 한글처리
import matplotlib as mpl
mpl.rc('font',family='Malgun Gothic')
import seaborn as sns
import pandas as pd
import scipy.stats as stats

In [6]:
df_NBM = pd.read_csv('../../dataset/df_NBM.csv')
df_NBM.head(2)

Unnamed: 0.1,Unnamed: 0,OFIJ_TYPE,OPRTN_YN,MDCARE_DD_CNT,VSHSP_DD_CNT,TOT_PRSC_DD_CNT,ED_RC_TOT_AMT
0,0,0,0,1,1,30,7570
1,1,0,0,2,2,60,18160


In [7]:
df_NBM.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4629 entries, 0 to 4628
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Unnamed: 0       4629 non-null   int64 
 1   OFIJ_TYPE        4522 non-null   object
 2   OPRTN_YN         4629 non-null   int64 
 3   MDCARE_DD_CNT    4629 non-null   int64 
 4   VSHSP_DD_CNT     4629 non-null   int64 
 5   TOT_PRSC_DD_CNT  4629 non-null   int64 
 6   ED_RC_TOT_AMT    4629 non-null   int64 
dtypes: int64(6), object(1)
memory usage: 253.3+ KB


In [None]:
# 결측치 처리
df_NBM = df_NBM.dropna()
df_NBM.info()

In [10]:
# 데이터타입 변환
df_NBM['OPRTN_YN'] = df_NBM['OPRTN_YN'].astype(str)
df_NBM.dtypes

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_NBM['OPRTN_YN'] = df_NBM['OPRTN_YN'].astype(str)


Unnamed: 0          int64
OFIJ_TYPE          object
OPRTN_YN           object
MDCARE_DD_CNT       int64
VSHSP_DD_CNT        int64
TOT_PRSC_DD_CNT     int64
ED_RC_TOT_AMT       int64
dtype: object

#### 연속형/연속형 확인

##### 선정 변수 : 요양일수(MDCARE_DD_CNT), 심결요양급여비용총액(ED_RC_TOT_AMT)
- 분석 내용 : 요양일수에 따라서 심결요양급여비용총액에 변화가 있는가?
    - 귀무가설: 요양일수에 따라서 심결요양급여비용총액에 변화가 없다.
    - 대립가설: 요양일수에 따라서 심결요양급여비용총액에 변화가 있다.
- 분석 결론 (기준 - P.value 0.05)
    - 통계 결론: pvalue=1.930071568431899e-257, 대립가설 참
    - 사실 결론: 요양일수에 따라서 심결요양급여비용총액에 변화가 있다.

In [12]:
df_NBM[['MDCARE_DD_CNT','ED_RC_TOT_AMT']].describe()

Unnamed: 0,MDCARE_DD_CNT,ED_RC_TOT_AMT
count,4522.0,4522.0
mean,1.935206,15709.52
std,5.113747,60470.4
min,1.0,0.0
25%,1.0,8780.0
50%,1.0,10070.0
75%,1.0,11620.0
max,70.0,2138690.0


In [14]:
stats.spearmanr(df_NBM['MDCARE_DD_CNT'], df_NBM['ED_RC_TOT_AMT'])

SignificanceResult(statistic=0.47841756856833284, pvalue=1.930071568431899e-257)

#### 연속형/범주형 확인

##### 선정 변수 : 수술여부(OPRTN_YN), 심결요양급여비용총액(ED_RC_TOT_AMT)
- 분석 내용 : 수술여부에 따라서 심결요양급여비용총액에 변화가 있는가?
    - 귀무가설: 수술여부에 따라서 심결요양급여비용총액에 변화가 없다.
    - 대립가설: 수술여부에 따라서 심결요양급여비용총액에 변화가 있다.
- 분석 결론 (기준 - P.value 0.05)
    - 통계 결론: 
    - 사실 결론: 

##### 선정 변수 : 공상 등 구분(OFIJ_TYPE), 심결요양급여비용총액(ED_RC_TOT_AMT)
- 분석 내용 : 본인부담경감대상자여부에 따라서 심결요양급여비용총액에 변화가 있는가?
    - 귀무가설: 본인부담경감대상자여부에 따라서 심결요양급여비용총액에 변화가 없다.
    - 대립가설: 본인부담경감대상자여부에 따라서 심결요양급여비용총액에 변화가 있다.
- 분석 결론 (기준 - P.value 0.05)
    - 통계 결론: 
    - 사실 결론: 