### 확증적 데이터 분석(Confirmatory Data Analysis)
1. 목표변수 : 입원기간
2. 설명변수
    - 연속형 : BMI, 연령
    - 범주형 : 고혈압여부, 당뇨여부, 심혈관질환

In [24]:
import matplotlib.pyplot as plt
# 한글처리
import matplotlib as mpl
mpl.rc('font',family='Malgun Gothic')
import seaborn as sns
import pandas as pd
import scipy.stats as stats

In [25]:
df_ROS = pd.read_csv('../../dataset/RecurrenceOfSurgery_quest.csv')
df_ROS.head(2)

Unnamed: 0.1,Unnamed: 0,고혈압여부,당뇨여부,성별,스테로이드치료,신장,심혈관질환,연령,입원기간,체중,환자통증정도,수술시간,재발여부
0,0,0,0,2,1,163,0,66,2,60.3,10,68.0,0
1,1,0,0,1,1,171,0,47,1,71.7,10,31.0,0


In [26]:
df_ROS_patient = df_ROS[['신장','체중','고혈압여부','당뇨여부','심혈관질환','연령','입원기간']]
df_ROS_patient[:2]

Unnamed: 0,신장,체중,고혈압여부,당뇨여부,심혈관질환,연령,입원기간
0,163,60.3,0,0,0,66,2
1,171,71.7,0,0,0,47,1


In [27]:
# 데이터 타입 변환(int -> str)
df_ROS_patient[['고혈압여부','당뇨여부','심혈관질환']] = df_ROS_patient[['고혈압여부','당뇨여부','심혈관질환']].astype(str)
df_ROS_patient.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1894 entries, 0 to 1893
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   신장      1894 non-null   int64  
 1   체중      1894 non-null   float64
 2   고혈압여부   1894 non-null   object 
 3   당뇨여부    1894 non-null   object 
 4   심혈관질환   1894 non-null   object 
 5   연령      1894 non-null   int64  
 6   입원기간    1894 non-null   int64  
dtypes: float64(1), int64(3), object(3)
memory usage: 103.7+ KB


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_ROS_patient[['고혈압여부','당뇨여부','심혈관질환']] = df_ROS_patient[['고혈압여부','당뇨여부','심혈관질환']].astype(str)


#### 연속형/연속형 확인 (목표변수:입원기간/설명변수:BMI, 연령)
- 신장과 체중은 서로 관계가 있는 변수들로 판단됨
- BMI(신장과 체중의 비율을 사용한 체중의 객관적인 지수) 컬럼을 추가함.

##### 선정 변수 : BMI, 입원기간
- 분석 내용 : BMI에 따라서 입원기간에 변화가 있는가?
    - 귀무가설: BMI에 따라서 입원기간에 변화가 없다.
    - 대립가설: BMI에 따라서 입원기간에 변화가 있다.
- 분석 결론 (기준 - P.value 0.05)
    - 통계 결론: 
    - 사실 결론: 

In [28]:
df_ROS_patient.describe()

Unnamed: 0,신장,체중,연령,입원기간
count,1894.0,1894.0,1894.0,1894.0
mean,168.027983,68.11114,41.463569,1.736536
std,9.211419,11.234318,13.444629,2.344085
min,140.0,35.0,15.0,0.0
25%,161.0,59.7,32.0,1.0
50%,169.0,68.0,41.0,1.0
75%,175.0,75.0,49.0,2.0
max,204.0,136.1,86.0,51.0


In [29]:
# 목표 변수인 입원기간의 정규성 확인 -> 결과: pvalue=0.0, 비정규화
stats.shapiro(df_ROS_patient['입원기간'])

ShapiroResult(statistic=0.2543339729309082, pvalue=0.0)

In [63]:
# BMI 구하기 (BMI = 체중 / 신장(m)의 제곱)
def calculation (df_ROS_patient) :
    weight = df_ROS_patient['체중']
    height = df_ROS_patient['신장'] * 0.01
    BMI = weight / (height * height)
    return BMI

In [66]:
df_ROS_patient['BMI'] = df_ROS_patient.apply(calculation, axis=1)
df_ROS_patient['BMI']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_ROS_patient['BMI'] = df_ROS_patient.apply(calculation, axis=1)


0       226956.227182
1       245203.652406
2       243340.487312
3       245078.610120
4       240974.648392
            ...      
1889    259645.421721
1890    239360.623149
1891    250995.015956
1892    245778.671518
1893    173611.111111
Name: BMI, Length: 1894, dtype: float64

##### 선정 변수 : 연령, 입원기간
- 분석 내용 : 연령에 따라서 입원기간에 변화가 있는가?
    - 귀무가설: 연령에 따라서 입원기간에 변화가 없다.
    - 대립가설: 연령에 따라서 입원기간에 변화가 있다.
- 분석 결론 (기준 - P.value 0.05)
    - 통계 결론: 
    - 사실 결론: 

#### 연속형/범주형 확인 (목표변수:입원기간/설명변수:고혈압여부, 당뇨여부, 심혈관질환)

##### 선정 변수 : 고혈압여부, 입원기간

##### 선정 변수 : 당뇨여부, 입원기간

##### 선정 변수 : 심혈관질환여부, 입원기간