In [1]:
import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rc('font',family='Malgun Gothic')
import seaborn as sns
import pandas as pd
import scipy.stats as stats
import numpy as np

In [2]:
df_ROSF = pd.read_csv('../../datasets/RecurrenceOfSurgery_Final.csv')
df_ROSF[:2]

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,환자ID,신장,체중,연령,성별,Large Lymphocyte,우울증여부,종양진행여부,...,디스크위치,척추이동척도,척추전방위증,수술시간,수술실패여부,수술기법,흡연여부,Instability,혈액형,입원기간
0,0,0,1PT,163,60.3,66,2,22.8,0,0,...,4,Down,0,68.0,0,TELD,0,0,RH+A,2
1,1,1,2PT,171,71.7,47,1,44.9,0,0,...,4,Up,0,31.0,0,TELD,0,0,RH+A,1


In [3]:
df_ROSF.shape

(1894, 22)

### 입원기간은? 정규?비정규?
5000개 이하이므로 샤피로로 검증
- stats.shapiro(df_ROSF['입원기간'])
    - **ShapiroResult(statistic=0.2543339729309082, pvalue=0.0)**
        ⇒ 입원기간은 비정규분포임

In [4]:
stats.shapiro(df_ROSF['입원기간'])

ShapiroResult(statistic=0.2543339729309082, pvalue=0.0)

## 입원기간은 크게 4주를 기준으로 나눈다
Why? 
-입원기간의 valuecount를 보았을 때, 4주 이상의 입원기간의 환자가 적었으며 통상적으로 4주까지가 입원기간이라 판단함. 

#### 연령-입원기간
- 입원기간 4주 이하 (연속-비정규)

        - 분석내용: 연령이 입원기간(4주이하)에 영향을 비치는가?
            - 귀무: 연령에 따른 입원기간 영향 없음
            - 대립: 연령에 따른 입원기간 영향 있음
            
        → 분석 결론 
        
            - ⇒ stats.spearmanr(df_ROSF_in['연령'], df_ROSF_in['입원기간'])
                - SignificanceResult(statistic=0.0703582597408785, pvalue=0.0034028301768509323)
            - 대립이 참. p-value < 0.05
            - 입원기간 4주 이하만 보면 연령이 입원기간에 영향이 있음.
            
- 입원기간 4주 초과 (연속-비정규)

        - 분석내용: 연령이 입원기간(4주초과)에 영향을 비치는가?
            - 귀무: 연령에 따른 입원기간 영향 없음
            - 대립: 연령에 따른 입원기간 영향 있음
            
        → 분석 결론 
        
            - ⇒ stats.spearmanr(df_ROSF_inover['연령'], df_ROSF_inover['입원기간'])
                - SignificanceResult(statistic=-0.20574785830816023, pvalue=0.3032086035810698)
            - 귀무이 참. p-value > 0.05
            - 입원기간 4주 초과만 보면 연령이 입원기간에 영향이 없음.

In [5]:
Q1_in = df_ROSF['입원기간'].describe()['25%']
Q3_in = df_ROSF['입원기간'].describe()['75%']
IQR_in = Q3_in-Q1_in

In [6]:
up = Q3_in + 1.5 *IQR_in
down = Q1_in - 1.5 *IQR_in
down, up

(-0.5, 3.5)

In [7]:
## 입원기간 4주 이하
condition = (df_ROSF['입원기간'] <= 4)
df_ROSF_in = df_ROSF[condition]

In [8]:
df_ROSF_in.isnull().sum()

Unnamed: 0.1         0
Unnamed: 0           0
환자ID                 0
신장                   0
체중                   0
연령                   0
성별                   0
Large Lymphocyte     0
우울증여부                0
종양진행여부               0
재발여부                 0
디스크단면적               1
디스크위치                0
척추이동척도               0
척추전방위증               0
수술시간                52
수술실패여부               0
수술기법                73
흡연여부                 0
Instability          0
혈액형                  0
입원기간                 0
dtype: int64

In [9]:
df_ROSF_in = df_ROSF_in.dropna()

In [10]:
stats.shapiro(df_ROSF_in['입원기간'])

ShapiroResult(statistic=0.6962171196937561, pvalue=0.0)

In [11]:
df_ROSF_in[['입원기간', '연령']].corr()

Unnamed: 0,입원기간,연령
입원기간,1.0,0.075214
연령,0.075214,1.0


In [12]:
stats.spearmanr(df_ROSF_in['연령'], df_ROSF_in['입원기간'])

SignificanceResult(statistic=0.0703582597408785, pvalue=0.0034028301768509323)

In [13]:
conditions = (df_ROSF['입원기간'] > 4)
df_ROSF_inover = df_ROSF[conditions]

In [14]:
df_ROSF_inover.isnull().sum()

Unnamed: 0.1        0
Unnamed: 0          0
환자ID                0
신장                  0
체중                  0
연령                  0
성별                  0
Large Lymphocyte    0
우울증여부               0
종양진행여부              0
재발여부                0
디스크단면적              0
디스크위치               0
척추이동척도              0
척추전방위증              0
수술시간                2
수술실패여부              0
수술기법                8
흡연여부                0
Instability         0
혈액형                 0
입원기간                0
dtype: int64

In [15]:
df_ROSF_inover=df_ROSF_inover.dropna()

In [16]:
df_ROSF_inover.isnull().sum()

Unnamed: 0.1        0
Unnamed: 0          0
환자ID                0
신장                  0
체중                  0
연령                  0
성별                  0
Large Lymphocyte    0
우울증여부               0
종양진행여부              0
재발여부                0
디스크단면적              0
디스크위치               0
척추이동척도              0
척추전방위증              0
수술시간                0
수술실패여부              0
수술기법                0
흡연여부                0
Instability         0
혈액형                 0
입원기간                0
dtype: int64

In [17]:
stats.shapiro(df_ROSF_inover['입원기간'])

ShapiroResult(statistic=0.5867187976837158, pvalue=1.4494698064027034e-07)

In [18]:
df_ROSF_inover[['입원기간', '연령']].corr()

Unnamed: 0,입원기간,연령
입원기간,1.0,-0.060015
연령,-0.060015,1.0


In [19]:
stats.spearmanr(df_ROSF_inover['연령'], df_ROSF_inover['입원기간'])

SignificanceResult(statistic=-0.20574785830816023, pvalue=0.3032086035810698)

#### Large Lymphocyte-입원기간
- 연속-연속?
- 정상 범위 : 15.00 ~45.00 * 10^2
- 1. 아무 조건 걸지 않았을때. 
    - Large Lymphocyte이 입원기간에 영향을 미치는가?
        - 귀무: Large Lymphocyte이 입원기간에 영향 없음
        - 대립: Large Lymphocyte이 입원기간에 영향 있음
             → 분석 결론 
            - ⇒ stats.spearmanr(df_ROSF['Large Lymphocyte'], df_ROSF['입원기간'])
               - SignificanceResult(statistic=0.017373737058603216, pvalue=0.44985018280917977)
            - 귀무 참. p-value > 0.05
- 2. 입원기간 4주 이하 (연속-비정규)
    - 분석내용: Large Lymphocyte이 입원기간에 영향을 미치는가?
        - 귀무: Large Lymphocyte이 입원기간에 영향 없음
        - 대립: Large Lymphocyte이 입원기간에 영향 있음
            → 분석 결론 
            - ⇒ stats.spearmanr(df_ROSF_in['Large Lymphocyte'], df_ROSF_in['입원기간'])
               - SignificanceResult(statistic=0.03858566905743811, pvalue=0.10853654162399108)
            - 귀무 참. p-value > 0.05
- 3. 입원기간 4주 초과 (연속-비정규)
     - 분석내용: Large Lymphocyte이 입원기간에 영향을 미치는가?
        - 귀무: Large Lymphocyte이 입원기간에 영향 없음
        - 대립: Large Lymphocyte이 입원기간에 영향 있음
            → 분석 결론 
            - ⇒ stats.spearmanr(df_ROSF_inover['Large Lymphocyte'], df_ROSF_inover['입원기간'])
                - SignificanceResult(statistic=-0.2140438063081117, pvalue=0.2836919583915103)
- Large Lymphocyte와 입원기간은 영향이 없는 것으로 보여짐. 
- Large Lymphocyte의 중앙값을 기준으로 검증했을때도 영향이 보이지 않음

In [20]:
Q1_L = df_ROSF_in['Large Lymphocyte'].describe()['25%']
Q3_L = df_ROSF_in['Large Lymphocyte'].describe()['75%']
QM_L = df_ROSF_in['Large Lymphocyte'].describe()['50%']
IQR_L = Q3_L-Q1_L
Q1_L, Q3_L , IQR_L, QM_L

(30.6, 48.6, 18.0, 40.2)

In [21]:
up_L = Q3_L + 1.5 *IQR_L
down_L = Q1_L - 1.5 *IQR_L
down_L, up_L

(3.6000000000000014, 75.6)

In [22]:
## 조건을 걸어버림_bound보다 위 filter
condition_L=(df_ROSF_in['Large Lymphocyte'] >= QM_L)
df_ROSF_L = df_ROSF_in[condition_L]
df_ROSF_L

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,환자ID,신장,체중,연령,성별,Large Lymphocyte,우울증여부,종양진행여부,...,디스크위치,척추이동척도,척추전방위증,수술시간,수술실패여부,수술기법,흡연여부,Instability,혈액형,입원기간
1,1,1,2PT,171,71.7,47,1,44.9,0,0,...,4,Up,0,31.0,0,TELD,0,0,RH+A,1
2,2,2,3PT,178,77.1,39,1,53.0,0,0,...,4,Down,0,78.0,0,TELD,0,0,RH+B,1
3,3,3,4PT,174,74.2,40,1,54.7,0,0,...,4,Down,0,73.0,0,TELD,0,0,RH+O,1
4,4,4,5PT,183,80.7,42,1,53.8,0,0,...,4,Up,0,29.0,0,TELD,0,0,RH+A,2
7,7,7,8PT,183,81.2,55,1,43.8,1,0,...,4,Middle,0,85.0,0,TELD,1,0,RH+B,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1845,1845,1845,1846PT,171,68.0,59,1,43.8,0,0,...,2,Middle,0,60.0,0,TELD,0,0,RH+AB,4
1849,1849,1849,1850PT,167,57.0,43,2,47.4,0,0,...,5,Middle,0,30.0,0,IELD,1,0,RH+A,2
1865,1865,1865,1866PT,151,56.0,64,2,43.0,0,0,...,4,Extremely down,0,20.0,0,IELD,0,1,RH+A,2
1866,1866,1866,1867PT,183,104.0,42,1,48.7,0,0,...,5,Middle,0,145.0,0,IELD,1,0,RH+B,2


In [23]:
stats.spearmanr(df_ROSF_L['Large Lymphocyte'], df_ROSF_L['입원기간'])

SignificanceResult(statistic=-0.002713837026276078, pvalue=0.9363648603068873)

In [24]:
stats.spearmanr(df_ROSF_in['Large Lymphocyte'], df_ROSF_in['입원기간'])

SignificanceResult(statistic=0.03858566905743811, pvalue=0.10853654162399108)

In [25]:
Q1_over_L = df_ROSF_inover['Large Lymphocyte'].describe()['25%']
Q3_over_L = df_ROSF_inover['Large Lymphocyte'].describe()['75%']
QM_over_L = df_ROSF_inover['Large Lymphocyte'].describe()['50%']
IQR_over_L = Q3_over_L-Q1_over_L
Q1_over_L, Q3_over_L , IQR_over_L, QM_over_L

(29.9, 45.2, 15.300000000000004, 39.6)

In [26]:
up_over_L = Q3_over_L + 1.5 *IQR_over_L
down_over_L = Q1_over_L - 1.5 *IQR_over_L
down_over_L, up_over_L

(6.949999999999992, 68.15)

In [27]:
condition_over_L=(df_ROSF_inover['Large Lymphocyte'] >= QM_over_L)
df_ROSF_over_L = df_ROSF_inover[condition_over_L]
df_ROSF_over_L

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,환자ID,신장,체중,연령,성별,Large Lymphocyte,우울증여부,종양진행여부,...,디스크위치,척추이동척도,척추전방위증,수술시간,수술실패여부,수술기법,흡연여부,Instability,혈액형,입원기간
1044,1044,1044,1045PT,162,77.0,70,1,50.1,0,0,...,12,Middle,0,50.0,0,TELD,0,0,RH+A,8
1204,1204,1204,1205PT,167,74.0,54,1,42.6,0,0,...,4,Middle,0,30.0,0,TELD,0,0,RH+O,5
1356,1356,1356,1357PT,176,84.0,31,1,45.7,0,0,...,4,Middle,0,40.0,0,TELD,1,0,RH+A,5
1360,1360,1360,1361PT,154,68.0,62,2,43.0,0,0,...,4,Middle,1,40.0,0,TELD,0,1,RH+A,5
1369,1369,1369,1370PT,163,65.0,72,1,53.3,0,0,...,3,Middle,1,75.0,0,TELD,0,1,RH+A,8
1371,1371,1371,1372PT,168,58.0,30,2,44.7,0,0,...,2,Middle,0,30.0,0,TELD,0,0,RH+O,44
1390,1390,1390,1391PT,181,74.0,21,1,49.1,0,0,...,5,Middle,0,75.0,0,IELD,0,0,RH+O,6
1411,1411,1411,1412PT,172,78.0,23,1,39.6,0,0,...,3,Middle,0,35.0,0,TELD,1,0,RH+O,7
1419,1419,1419,1420PT,157,65.0,75,2,44.4,0,0,...,4,Middle,0,35.0,0,TELD,0,0,RH+O,8
1439,1439,1439,1440PT,180,87.0,55,1,40.1,0,0,...,4,Up,0,50.0,0,TELD,0,0,RH+B,8


In [28]:
stats.spearmanr(df_ROSF_over_L['Large Lymphocyte'], df_ROSF_over_L['입원기간'])

SignificanceResult(statistic=0.3555547818788249, pvalue=0.21217850087151904)

In [29]:
stats.spearmanr(df_ROSF_inover['Large Lymphocyte'], df_ROSF_inover['입원기간'])

SignificanceResult(statistic=-0.2140438063081117, pvalue=0.2836919583915103)

In [30]:
stats.spearmanr(df_ROSF['Large Lymphocyte'], df_ROSF['입원기간']) # 입원기간의 조건을 걸지 않았을때 

SignificanceResult(statistic=0.017373737058603216, pvalue=0.44985018280917977)

#### 종양진행여부-입원기간
- 범주-연속
- 입원기간 조건 X
    - 분석 내용: 종양진행여부가 입원기간에 영향을 미치는가?
        - 귀무: 종양진행여부가 입원기간에 영향 없음
        - 대립: 종양진행여부가 입원기간에 영향 있음
        - → 분석 결론 
            - ⇒ stats.ranksums(df_ROSF_cN['입원기간'],df_ROSF_cY['입원기간'] )
                - RanksumsResult(statistic=-1.2897290887973527, pvalue=0.19714473612340966)
                - 귀무 참. p-value > 0.05
                - 종양진행여부는 입원기간과 연관이 없음. 
- 입원기간 4주 이하 (연속-비정규) df_ROSF_in
    - 분석내용: 종양진행여부가 입원기간(4주이하)에 영향을 비치는가?
        - 귀무: 종양진행여부가 입원기간(4주이하)에 영향 없음
        - 대립: 종양진행여부가 입원기간(4주이하)에 영향 있음
        - → 분석 결론 
            - ⇒ stats.ranksums(df_ROSF_cancerN['입원기간'],df_ROSF_cancerY['입원기간'] )
                - RanksumsResult(statistic=-1.173768842300049, pvalue=0.24048762723266925)
                - 귀무 참. p-value > 0.05
                - 입원기간 4주 이하만 보면 종양진행여부는 입원기간에 영향 없음
- 입원기간 4주 초과 (연속-비정규) 진행 불가 
    - 종양 진행 여부에 없음만 존재함.


In [31]:
# 입원기간 조건 걸지 않았을 때
df_ROSF['종양진행여부'].value_counts()

종양진행여부
0    1888
1       6
Name: count, dtype: int64

In [32]:
df_ROSF_cN = df_ROSF[df_ROSF['종양진행여부'] == 0]
df_ROSF_cN[:2]

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,환자ID,신장,체중,연령,성별,Large Lymphocyte,우울증여부,종양진행여부,...,디스크위치,척추이동척도,척추전방위증,수술시간,수술실패여부,수술기법,흡연여부,Instability,혈액형,입원기간
0,0,0,1PT,163,60.3,66,2,22.8,0,0,...,4,Down,0,68.0,0,TELD,0,0,RH+A,2
1,1,1,2PT,171,71.7,47,1,44.9,0,0,...,4,Up,0,31.0,0,TELD,0,0,RH+A,1


In [33]:
df_ROSF_cY = df_ROSF[df_ROSF['종양진행여부'] == 1]
df_ROSF_cY[:2]

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,환자ID,신장,체중,연령,성별,Large Lymphocyte,우울증여부,종양진행여부,...,디스크위치,척추이동척도,척추전방위증,수술시간,수술실패여부,수술기법,흡연여부,Instability,혈액형,입원기간
582,582,582,583PT,174,64.3,48,2,31.1,0,1,...,4,Extremely down,0,88.0,0,IELD,0,0,RH+B,1
667,667,667,668PT,175,80.0,47,1,44.9,0,1,...,4,Middle,0,87.0,0,TELD,0,0,RH+B,1


In [34]:
## 검증_입원기간 조건 X 
stats.ranksums(df_ROSF_cN['입원기간'],df_ROSF_cY['입원기간'] )

RanksumsResult(statistic=-1.2897290887973527, pvalue=0.19714473612340966)

In [35]:
# 입원기간 4주 이하 
df_ROSF_in['종양진행여부'].value_counts()

종양진행여부
0    1726
1       5
Name: count, dtype: int64

In [36]:
df_ROSF_cancerN =df_ROSF_in[df_ROSF_in['종양진행여부'] == 0]
df_ROSF_cancerN[:2]

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,환자ID,신장,체중,연령,성별,Large Lymphocyte,우울증여부,종양진행여부,...,디스크위치,척추이동척도,척추전방위증,수술시간,수술실패여부,수술기법,흡연여부,Instability,혈액형,입원기간
0,0,0,1PT,163,60.3,66,2,22.8,0,0,...,4,Down,0,68.0,0,TELD,0,0,RH+A,2
1,1,1,2PT,171,71.7,47,1,44.9,0,0,...,4,Up,0,31.0,0,TELD,0,0,RH+A,1


In [37]:
df_ROSF_cancerY =df_ROSF_in[df_ROSF_in['종양진행여부'] == 1]
df_ROSF_cancerY[:2]

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,환자ID,신장,체중,연령,성별,Large Lymphocyte,우울증여부,종양진행여부,...,디스크위치,척추이동척도,척추전방위증,수술시간,수술실패여부,수술기법,흡연여부,Instability,혈액형,입원기간
582,582,582,583PT,174,64.3,48,2,31.1,0,1,...,4,Extremely down,0,88.0,0,IELD,0,0,RH+B,1
667,667,667,668PT,175,80.0,47,1,44.9,0,1,...,4,Middle,0,87.0,0,TELD,0,0,RH+B,1


In [38]:
## 검증
stats.ranksums(df_ROSF_cancerN['입원기간'],df_ROSF_cancerY['입원기간'] )

RanksumsResult(statistic=-1.173768842300049, pvalue=0.24048762723266925)

In [39]:
## 입원 기간 4주 초과
df_ROSF_inover['종양진행여부'] # pass 종양여부가 0만 존재함....

1044    0
1204    0
1356    0
1360    0
1369    0
1371    0
1378    0
1384    0
1390    0
1411    0
1419    0
1431    0
1437    0
1439    0
1440    0
1443    0
1448    0
1548    0
1561    0
1563    0
1565    0
1577    0
1578    0
1584    0
1620    0
1625    0
1870    0
Name: 종양진행여부, dtype: int64

#### 디스크 단면적 - 입원기간

- 입원기간 4주 이하 (연속-비정규) df_ROSF_in
    - 분석내용: 디스크 단면적이 입원기간(4주이하)에 영향을 미치는가?
        - 귀무: 디스크 단면적은 입원기간(4주이하)에 영향 없음
        - 대립: 디스크 단면적은 입원기간(4주이하)에 영향 있음
        - → 분석 결론 
            - ⇒ stats.spearmanr(df_ROSF_in['디스크단면적'], df_ROSF_in['입원기간'])
                - SignificanceResult(statistic=0.036286814381522065, pvalue=0.13126561806499315)
            - 귀무 참.  p-value > 0.05
            - 디스크단면적과 입원기간은 영향이 없다.  
- 입원기간 4주 초과 (연속-비정규) df_ROSF_inoveer
    - 분석내용: 디스크 단면적이 입원기간(4주초과)에 영향을 미치는가?
        - 귀무: 디스크 단면적은 입원기간(4주초과)에 영향 없음
        - 대립: 디스크 단면적은 입원기간(4주초과)에 영향 있음
        - → 분석 결론 
            - ⇒ stats.spearmanr(df_ROSF_inover['디스크단면적'], df_ROSF_inover['입원기간'])
                - SignificanceResult(statistic=0.04545456528072541, pvalue=0.8218790970489804)
            - 귀무 참.  p-value > 0.05
            - 디스크단면적과 입원기간은 영향이 없다.
            
- 검색을 해보았을때_[https://synapse.koreamed.org/func/download.php?path=L2hvbWUvdmlydHVhbC9rYW1qZS9zeW5hcHNlL3VwbG9hZC9TeW5hcHNlRGF0YS9QREZEYXRhLzAwNDNqa29hL2prb2EtNDMtNTg4LnBkZg==&filename=amtvYS00My01ODgucGRm] 2008 paper 
    - 디스크단면적은 추간판 탈출증이 있는 환자의 척추관 면적의 감소가 얼마나 되어있는지에 대해, 척추경 위치에서의 척추관 면적을 측정함으로써 추간판 위치에서의 정상 척추관 면적을 평가할 수 있는 자료로 사용 될 수 있을 것이라 사료된다는 내용이 존재함. 
        - 탈출 위치와 비교해보면 어떨까 라는 생각을 해봄. 


In [40]:
df_ROSF_in.columns

Index(['Unnamed: 0.1', 'Unnamed: 0', '환자ID', '신장', '체중', '연령', '성별',
       'Large Lymphocyte', '우울증여부', '종양진행여부', '재발여부', '디스크단면적', '디스크위치',
       '척추이동척도', '척추전방위증', '수술시간', '수술실패여부', '수술기법', '흡연여부', 'Instability',
       '혈액형', '입원기간'],
      dtype='object')

In [41]:
df_ROSF_in[['디스크단면적', '입원기간']].corr()

Unnamed: 0,디스크단면적,입원기간
디스크단면적,1.0,0.026734
입원기간,0.026734,1.0


In [42]:
stats.spearmanr(df_ROSF_in['디스크단면적'], df_ROSF_in['입원기간'])

SignificanceResult(statistic=0.036286814381522065, pvalue=0.13126561806499315)

In [43]:
df_ROSF_inover[['디스크단면적', '입원기간']].corr()

Unnamed: 0,디스크단면적,입원기간
디스크단면적,1.0,0.035474
입원기간,0.035474,1.0


In [44]:
stats.spearmanr(df_ROSF_inover['디스크단면적'], df_ROSF_inover['입원기간'])

SignificanceResult(statistic=0.11999387838361968, pvalue=0.5510659743784876)

#### 수술기법-입원기간
- 범주- 연속
- 입원기간 조건 X
    - 분석내용: 수술기법에 따라 입원기간에 영향을 미치는가?
        - 귀무: 수술기법에 따라 입원기간의 영향 없음
        - 대립: 수술기법에 따라 입원기간의 영향 있음
        - 분석결론
            - stats.ranksums(df_ROSF_TELD['입원기간'], df_ROSF_IELD['입원기간'])
            - RanksumsResult(statistic=-0.8318886371666717, pvalue=0.40547180617826806)
            - 귀무 참. p-value > 0.05
- 입원기간 4주 이하 df_ROSF_in
    - 분석내용: 수술기법에 따라 입원기간에 영향을 미치는가?
        - 귀무: 수술기법에 따라 입원기간의 영향 없음
        - 대립: 수술기법에 따라 입원기간의 영향 있음
        - 분석결론
            - stats.ranksums(df_ROSF_inT['입원기간'], df_ROSF_inI['입원기간'])
            - RanksumsResult(statistic=-0.7965957315632162, pvalue=0.4256858572065577)
            - 귀무 참. p-value > 0.05
- 입원기간 4주 초과 df_ROSF_inover
    - 분석내용: 수술기법에 따라 입원기간에 영향을 미치는가?
        - 귀무: 수술기법에 따라 입원기간의 영향 없음
        - 대립: 수술기법에 따라 입원기간의 영향 있음
        - 분석결론
            - stats.ranksums(df_ROSF_inoverT['입원기간'], df_ROSF_inoverI['입원기간'])
            - RanksumsResult(statistic=0.8100925873009825, pvalue=0.4178869643175005)
            - 귀무 참. p-value > 0.05

In [45]:
df_ROSF['수술기법'].value_counts()

수술기법
TELD    1673
IELD     140
Name: count, dtype: int64

In [46]:
## 입원기간 조건 X
df_ROSF_TELD = df_ROSF[(df_ROSF['수술기법'] == 'TELD')]

In [47]:
df_ROSF_IELD = df_ROSF[(df_ROSF['수술기법'] == 'IELD')]

In [48]:
stats.ranksums(df_ROSF_TELD['입원기간'], df_ROSF_IELD['입원기간'])

RanksumsResult(statistic=-0.8318886371666717, pvalue=0.40547180617826806)

In [49]:
## 입원기간 4주 이하
df_ROSF_inT = df_ROSF_in[(df_ROSF_in['수술기법'] == 'TELD')]

In [50]:
df_ROSF_inI = df_ROSF_in[(df_ROSF_in['수술기법'] == 'IELD')]

In [51]:
stats.ranksums(df_ROSF_inT['입원기간'], df_ROSF_inI['입원기간'])

RanksumsResult(statistic=-0.7965957315632162, pvalue=0.4256858572065577)

In [52]:
## 입원기간 4주 초과
df_ROSF_inoverT = df_ROSF_inover[(df_ROSF_inover['수술기법'] == 'TELD')]

In [53]:
df_ROSF_inoverI = df_ROSF_inover[(df_ROSF_inover['수술기법'] == 'IELD')]

In [54]:
stats.ranksums(df_ROSF_inoverT['입원기간'], df_ROSF_inoverI['입원기간'])

RanksumsResult(statistic=0.8100925873009825, pvalue=0.4178869643175005)

#### 수술시간 - 입원기간
- 연속-연속
- 입원기간 조건 X
    - 분석내용: 수술시간에 따라 입원기간에 영향을 미치는가?
        - 귀무: 수술시간에 따라 입원기간의 영향 없음
        - 대립: 수술시간에 따라 입원기간의 영향 있음
        - 분석결론
            - stats.spearmanr(df_ROSF_in['수술시간'], df_ROSF_in['입원기간'])
            - SignificanceResult(statistic=0.03620122923596156, pvalue=0.1321780935962338)
            - 귀무 참. p-value > 0.05
- 입원기간 4주 이하 df_ROSF_in
    - 분석내용: 수술시간에 따라 입원기간에 영향을 미치는가?
        - 귀무: 수술시간에 따라 입원기간의 영향 없음
        - 대립: 수술시간에 따라 입원기간의 영향 있음
        - 분석결론
            - stats.ranksums(df_ROSF_inT['입원기간'], df_ROSF_inI['입원기간'])
            - RanksumsResult(statistic=-0.7965957315632162, pvalue=0.4256858572065577)
            - 귀무 참. p-value > 0.05
- 입원기간 4주 초과 df_ROSF_inover
    - 분석내용: 수술시간에 따라 입원기간에 영향을 미치는가?
        - 귀무: 수술시간에 따라 입원기간의 영향 없음
        - 대립: 수술시간에 따라 입원기간의 영향 있음
        - 분석결론
            - stats.spearmanr(df_ROSF_inover['수술시간'], df_ROSF_inover['입원기간'])
            - RanksumsResult(statistic=0.8100925873009825, pvalue=0.4178869643175005)
            - 귀무 참. p-value > 0.05

In [55]:
#입원기간 조건 X
df_ROSF.isnull().sum()

Unnamed: 0.1         0
Unnamed: 0           0
환자ID                 0
신장                   0
체중                   0
연령                   0
성별                   0
Large Lymphocyte     0
우울증여부                0
종양진행여부               0
재발여부                 0
디스크단면적               1
디스크위치                0
척추이동척도               0
척추전방위증               0
수술시간                54
수술실패여부               0
수술기법                81
흡연여부                 0
Instability          0
혈액형                  0
입원기간                 0
dtype: int64

In [108]:
df_ROSF_drop = df_ROSF.dropna()

In [112]:
stats.spearmanr(df_ROSF_drop['수술시간'], df_ROSF_drop['입원기간'])

SignificanceResult(statistic=0.023403166496777674, pvalue=0.3267425353637803)

In [113]:
## 입원기간 4주 이하
stats.spearmanr(df_ROSF_in['수술시간'], df_ROSF_in['입원기간'])

SignificanceResult(statistic=0.03620122923596156, pvalue=0.1321780935962338)

In [114]:
## 입원기간 4주 초과
stats.spearmanr(df_ROSF_inover['수술시간'], df_ROSF_inover['입원기간'])

SignificanceResult(statistic=0.04545456528072541, pvalue=0.8218790970489804)

#### 수술시간-수술기법에 따른 입원기간??
- 수술기법에 따라 걸리는 수술시간이  입원기간에  영향이 있는가??
    - pd.pivot_table(df_ROSF_drop, index='입원기간', columns='수술기법', values='수술시간',aggfunc='sum' or 'count')
        - 귀무: 수술기법에 따라 걸리는 수술시간은 입원기간에 영향이 없음
        - 대립: 수술기법에 따라 걸리는 수술시간은 입원기간에 영향이 있음
        - 분석 결론
        - ⇒ stats.spearmanr(df_ROSF_pivot_drop['IELD'], df_ROSF_pivot_drop['TELD'])
            - **SignificanceResult(statistic=0.991031208965115, pvalue=1.4561252916128956e-05)**
                - 대립 참. 수술기법에 따라 걸리는 수술시간은 입원기간에 영향이 있다. 

#### 수술기법과 수술시간의 상관관계
- 귀무: 수술기법에 따른 수술시간은 영향이 없음
- 대립: 수술기법에 따른 수술시간은 영향이 있음
    - 분석 결론
        - ⇒ stats.ranksums(df_ROSF_TELD['수술시간'], df_ROSF_IELD['수술시간'])
            - RanksumsResult(statistic=-4.027946002004431, pvalue=5.626626176198559e-05)
                - **대립 참. 수술기법에 따른 수술시간은 영향이 있다.**

In [60]:
df_ROSF_TELD = df_ROSF_drop[(df_ROSF_drop['수술기법'] == 'TELD')]
df_ROSF_IELD = df_ROSF_drop[(df_ROSF_drop['수술기법'] == 'IELD')]

In [61]:
df_ROSF_TELD

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,환자ID,신장,체중,연령,성별,Large Lymphocyte,우울증여부,종양진행여부,...,디스크위치,척추이동척도,척추전방위증,수술시간,수술실패여부,수술기법,흡연여부,Instability,혈액형,입원기간
0,0,0,1PT,163,60.3,66,2,22.8,0,0,...,4,Down,0,68.0,0,TELD,0,0,RH+A,2
1,1,1,2PT,171,71.7,47,1,44.9,0,0,...,4,Up,0,31.0,0,TELD,0,0,RH+A,1
2,2,2,3PT,178,77.1,39,1,53.0,0,0,...,4,Down,0,78.0,0,TELD,0,0,RH+B,1
3,3,3,4PT,174,74.2,40,1,54.7,0,0,...,4,Down,0,73.0,0,TELD,0,0,RH+O,1
4,4,4,5PT,183,80.7,42,1,53.8,0,0,...,4,Up,0,29.0,0,TELD,0,0,RH+A,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1845,1845,1845,1846PT,171,68.0,59,1,43.8,0,0,...,2,Middle,0,60.0,0,TELD,0,0,RH+AB,4
1870,1870,1870,1871PT,163,52.0,29,2,32.4,0,0,...,4,Middle,0,35.0,0,TELD,0,0,RH+O,12
1872,1872,1872,1873PT,185,64.0,21,1,42.4,0,0,...,4,Down,0,60.0,0,TELD,1,0,RH+A,2
1874,1874,1874,1875PT,160,60.0,43,1,30.8,0,0,...,4,Middle,0,70.0,0,TELD,1,1,RH+B,3


In [62]:
stats.ranksums(df_ROSF_TELD['수술시간'], df_ROSF_IELD['수술시간'])
# 0.0000563  유의미함. 

RanksumsResult(statistic=-4.027946002004431, pvalue=5.626626176198559e-05)

#### 수술시간-수술기법에 따른 입원기간 상관관계
- 수술시간과 수술기법의 상관관계는 유의미함
- 고로 수술기법에 따른 수술시간과 입원기간의 상관관계는 어떠한지 확인하고자 함. 

In [63]:
df_ROSF_pivot=pd.pivot_table(df_ROSF_drop, index='입원기간', columns='수술기법', values='수술시간',aggfunc='count')

In [64]:
df_ROSF_pivot['입원기간']=df_ROSF_pivot.index

In [65]:
df_ROSF_pivot 

수술기법,IELD,TELD,입원기간
입원기간,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,,3.0,0
1,81.0,1001.0,1
2,30.0,425.0,2
3,17.0,140.0,3
4,5.0,29.0,4
5,1.0,5.0,5
6,1.0,2.0,6
7,,3.0,7
8,,5.0,8
9,,1.0,9


In [66]:
df_ROSF_pivot_drop = df_ROSF_pivot.dropna()

In [67]:
df_ROSF_pivot_drop

수술기법,IELD,TELD,입원기간
입원기간,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,81.0,1001.0,1
2,30.0,425.0,2
3,17.0,140.0,3
4,5.0,29.0,4
5,1.0,5.0,5
6,1.0,2.0,6
11,1.0,2.0,11


In [68]:
stats.spearmanr(df_ROSF_pivot_drop['IELD'], df_ROSF_pivot_drop['TELD'])

SignificanceResult(statistic=0.9723448696087955, pvalue=0.00024067356450236597)

- 수술기법에 따라 걸리는 수술시간이  입원기간에  영향이 있는가??
    - pd.pivot_table(df_ROSF_drop, index='입원기간', columns='수술기법', values='수술시간',aggfunc='mean')
        - 귀무: 수술기법에 따라 걸리는 수술시간은 입원기간에 영향이 없음
        - 대립: 수술기법에 따라 걸리는 수술시간은 입원기간에 영향이 있음
    - 분석 결론
        - ⇒ pd.pivot_table(df_ROSF_drop, index='입원기간', columns='수술기법', values='수술시간',aggfunc='mean')
                - SignificanceResult(statistic=-0.23424374030084538, pvalue=0.6131550369752419)
        - 귀무 참. 수술기법에 따라 걸리는 수술시간은 입원기간에 영향 없다. 

In [69]:
df_ROSF_pivot_mean=pd.pivot_table(df_ROSF_drop, index='입원기간', columns='수술기법', values='수술시간',aggfunc='mean')

In [70]:
df_ROSF_pivot_mean_d = df_ROSF_pivot_mean.dropna()

In [71]:
stats.spearmanr(df_ROSF_pivot_mean_d['IELD'], df_ROSF_pivot_mean_d['TELD'])

SignificanceResult(statistic=-0.23424374030084538, pvalue=0.6131550369752419)

#### 척추이동척도-입원기간
- 범주- 연속
- 입원기간 조건 X
    - 분석내용: 척추이동척도에 따라 입원기간에 영향을 미치는가?
        - 귀무: 척추이동척도에 따라 입원기간의 영향 없음
        - 대립: 척추이동척도에 따라 입원기간의 영향 있음
        - 분석결론
            - stats.kruskal(df_ROSF_M['입원기간'], df_ROSF_D['입원기간'],df_ROSF_U['입원기간'],df_ROSF_ED['입원기간'],df_ROSF_EU['입원기간'])
            - KruskalResult(statistic=13.444474884014046, pvalue=0.009296351237454748)
            - 대립 참. p-value < 0.05, 척추이동척도에 따라 입원기간 영향 있음
- 입원기간 4주 이하 df_ROSF_in
    - 분석내용: 척추이동척도에 따라 입원기간(4주이하)에 영향을 미치는가?
        - 귀무: 척추이동척도에 따라 입원기간(4주이하)의 영향 없음
        - 대립: 척추이동척도에 따라 입원기간(4주이하)의 영향 있음
        - 분석결론
            - stats.kruskal(df_ROSF_in_M['입원기간'], df_ROSF_in_D['입원기간'],df_ROSF_in_U['입원기간'],df_ROSF_in_ED['입원기간'],df_ROSF_in_EU['입원기간'])
            - KruskalResult(statistic=12.313030527501427, pvalue=0.015169141240932202)
            - **대립 참. p-value < 0.05, 척추이동척도에 따라 입원기간(4주이하) 영향 있음**
- 입원기간 4주 초과 df_ROSF_inover
    - 분석내용: 척추이동척도에 따라 입원기간(4주초과)에 영향을 미치는가?(4주초과는 척추이동척도가 Middle, Down, Up 3가지만 있음)
        - 귀무: 척추이동척도에 따라 입원기간(4주초과)의 영향 없음
        - 대립: 척추이동척도에 따라 입원기간(4주초과)의 영향 있음
        - 분석결론
            - stats.kruskal(df_ROSF_inover_M['입원기간'], df_ROSF_inover_D['입원기간'],df_ROSF_inover_U['입원기간'])
            - KruskalResult(statistic=0.4431524432770916, pvalue=0.8012548468630146)
            - 귀무 참. p-value > 0.05, 척추이동척도에 따라 입원기간(4주초과) 영향 없음

In [72]:
df_ROSF['척추이동척도'].value_counts()

척추이동척도
Middle            1260
Down               513
Up                  65
Extremely down      40
Extremely up        16
Name: count, dtype: int64

In [73]:
df_ROSF_M = df_ROSF[(df_ROSF['척추이동척도'] == 'Middle')]
df_ROSF_D = df_ROSF[(df_ROSF['척추이동척도'] == 'Down')]
df_ROSF_U = df_ROSF[(df_ROSF['척추이동척도'] == 'Up')]
df_ROSF_ED = df_ROSF[(df_ROSF['척추이동척도'] == 'Extremely down')]
df_ROSF_EU = df_ROSF[(df_ROSF['척추이동척도'] == 'Extremely up')]

In [74]:
stats.kruskal(df_ROSF_M['입원기간'], df_ROSF_D['입원기간'],df_ROSF_U['입원기간'],df_ROSF_ED['입원기간'],df_ROSF_EU['입원기간'])

KruskalResult(statistic=13.444474884014046, pvalue=0.009296351237454748)

###### 4주 이하일때 df_ROSF_in

In [75]:
df_ROSF_in['척추이동척도'].value_counts()

척추이동척도
Middle            1156
Down               466
Up                  59
Extremely down      34
Extremely up        16
Name: count, dtype: int64

In [76]:
df_ROSF_in_M = df_ROSF_in[(df_ROSF_in['척추이동척도'] == 'Middle')]
df_ROSF_in_D = df_ROSF_in[(df_ROSF_in['척추이동척도'] == 'Down')]
df_ROSF_in_U = df_ROSF_in[(df_ROSF_in['척추이동척도'] == 'Up')]
df_ROSF_in_ED = df_ROSF_in[(df_ROSF_in['척추이동척도'] == 'Extremely down')]
df_ROSF_in_EU = df_ROSF_in[(df_ROSF_in['척추이동척도'] == 'Extremely up')]

In [77]:
stats.kruskal(df_ROSF_in_M['입원기간'], df_ROSF_in_D['입원기간'],df_ROSF_in_U['입원기간'],df_ROSF_in_ED['입원기간'],df_ROSF_in_EU['입원기간'])

KruskalResult(statistic=12.313030527501427, pvalue=0.015169141240932202)

###### 4주 초과일때 df_ROSF_inover

In [78]:
df_ROSF_inover['척추이동척도'].value_counts()

척추이동척도
Middle    21
Down       5
Up         1
Name: count, dtype: int64

In [79]:
# 4추 초과 척추이동척도는 middle, down, up 이렇게 존재함
df_ROSF_inover_M = df_ROSF_inover[(df_ROSF_inover['척추이동척도'] == 'Middle')]
df_ROSF_inover_D = df_ROSF_inover[(df_ROSF_inover['척추이동척도'] == 'Down')]
df_ROSF_inover_U = df_ROSF_inover[(df_ROSF_inover['척추이동척도'] == 'Up')]

In [80]:
stats.kruskal(df_ROSF_inover_M['입원기간'], df_ROSF_inover_D['입원기간'],df_ROSF_inover_U['입원기간'])

KruskalResult(statistic=0.4431524432770916, pvalue=0.8012548468630146)

#### Instability-입원기간
- 범주- 연속
- Instability 0: 안정함 1: 불안정함

- 입원기간 조건 X
    - 분석내용: 척추안정성여부에 따라 입원기간에 영향을 미치는가?
        - 귀무: 척추안정성여부에 따라 입원기간의 영향 없음
        - 대립: 척추안정성여부에 따라 입원기간의 영향 있음
        - 분석결론
            - stats.ranksums(df_ROSF_stability['입원기간'], df_ROSF_instability['입원기간'])
            - RanksumsResult(statistic=-1.297755937799942, pvalue=0.19437121505011978)
            - 귀무 참. p-value > 0.05, 척추안정성여부에따라 입원기간 영향 없음
            
- 입원기간 4주 이하 df_ROSF_in
    - 분석내용: 척추안정성여부에 따라 입원기간(4주이하)에 영향을 미치는가?
        - 귀무: 척추안정성여부에 따라 입원기간(4주이하)의 영향 없음
        - 대립: 척추안정성여부에 따라 입원기간(4주이하)의 영향 있음
        - 분석결론
            - stats.ranksums(df_ROSF_in_stability['입원기간'], df_ROSFin_instability['입원기간'])
            - RanksumsResult(statistic=-1.0826885764125356, pvalue=0.2789466762389897)
            - 귀무 참. p-value > 0.05, 척추안정성여부에 따라 입원기간(4주이하) 영향 없음
            
- 입원기간 4주 초과 df_ROSF_inover
    - 분석내용: 척추안정성여부에 따라 입원기간(4주초과)에 영향을 미치는가?
        - 귀무: 척추안정성여부에 따라 입원기간(4주초과)의 영향 없음
        - 대립: 척추안정성여부에 따라 입원기간(4주초과)의 영향 있음
        - 분석결론
            - stats.ranksums(df_ROSF_invoer_stability['입원기간'], df_ROSF_invoer_instability['입원기간'])
            - RanksumsResult(statistic=0.8795290947839239, pvalue=0.37911446492243506)
            - 귀무 참. p-value > 0.05, 척추안정성여부에 따라 입원기간(4주초과) 영향 없음

In [81]:
df_ROSF_stability = df_ROSF[(df_ROSF['Instability'] == 0)]
df_ROSF_instability = df_ROSF[(df_ROSF['Instability'] == 1)]

In [82]:
stats.ranksums(df_ROSF_stability['입원기간'], df_ROSF_instability['입원기간'])

RanksumsResult(statistic=-1.297755937799942, pvalue=0.19437121505011978)

In [83]:
# 4주이하 df_ROSF_in
df_ROSF_in_stability = df_ROSF_in[(df_ROSF_in['Instability'] == 0)]
df_ROSFin_instability = df_ROSF_in[(df_ROSF_in['Instability'] == 1)]

In [84]:
stats.ranksums(df_ROSF_in_stability['입원기간'], df_ROSFin_instability['입원기간'])

RanksumsResult(statistic=-1.0826885764125356, pvalue=0.2789466762389897)

In [85]:
#4주초과 df_ROSF_inover
df_ROSF_invoer_stability = df_ROSF_inover[(df_ROSF_inover['Instability'] == 0)]
df_ROSF_invoer_instability = df_ROSF_inover[(df_ROSF_inover['Instability'] == 1)]

In [86]:
stats.ranksums(df_ROSF_invoer_stability['입원기간'], df_ROSF_invoer_instability['입원기간'])

RanksumsResult(statistic=0.8795290947839239, pvalue=0.37911446492243506)

#### 혈액형-입원기간
- 범주- 연속

- 입원기간 조건 X
    - 분석내용: 혈액형에 따라 입원기간에 영향을 미치는가?
        - 귀무: 혈액형에 따라 입원기간의 영향 없음
        - 대립: 혈액형에 따라 입원기간의 영향 있음
        - 분석결론
            - stats.kruskal(df_ROSF_A['입원기간'], df_ROSF_O['입원기간'], df_ROSF_B['입원기간'],df_ROSF_AB['입원기간'])
            - KruskalResult(statistic=6.856775249573723, pvalue=0.07660568135949437)
            - 귀무 참. p-value > 0.05, 척추안정성여부에따라 입원기간 영향 없음
            
- 입원기간 4주 이하 df_ROSF_in
    - 분석내용: 혈액형에 따라 입원기간(4주이하)에 영향을 미치는가?
        - 귀무: 혈액형에 따라 입원기간(4주이하)의 영향 없음
        - 대립: 혈액형에 따라 입원기간(4주이하)의 영향 있음
        - 분석결론
            - stats.kruskal(df_ROSF_in_A['입원기간'], df_ROSF_in_O['입원기간'], df_ROSF_in_B['입원기간'], df_ROSF_in_AB['입원기간'])
            - KruskalResult(statistic=7.071142570982813, pvalue=0.06966445567294945)
            - 귀무 참. p-value > 0.05, 혈액형에 따라 입원기간(4주이하) 영향 없음
            
- 입원기간 4주 초과 df_ROSF_inover
    - 분석내용: 혈액형에 따라 입원기간(4주초과)에 영향을 미치는가?
        - 귀무: 혈액형에 따라 입원기간(4주초과)의 영향 없음
        - 대립: 혈액형에 따라 입원기간(4주초과)의 영향 있음
        - 분석결론
            - stats.kruskal(df_ROSF_inover_A['입원기간'], df_ROSF_inover_O['입원기간'], df_ROSF_inover_B['입원기간'], df_ROSF_inover_AB['입원기간'])
            - KruskalResult(statistic=3.8448114677469536, pvalue=0.2787166553108071)
            - 귀무 참. p-value > 0.05, 혈액형에 따라 입원기간(4주초과) 영향 없음

In [87]:
df_ROSF['혈액형'].value_counts()

혈액형
RH+A     688
RH+O     532
RH+B     476
RH+AB    198
Name: count, dtype: int64

In [88]:
df_ROSF_A = df_ROSF[(df_ROSF['혈액형'] == 'RH+A')]
df_ROSF_O = df_ROSF[(df_ROSF['혈액형'] == 'RH+O')]
df_ROSF_B = df_ROSF[(df_ROSF['혈액형'] == 'RH+B')]
df_ROSF_AB = df_ROSF[(df_ROSF['혈액형'] == 'RH+AB')]

In [89]:
stats.kruskal(df_ROSF_A['입원기간'], df_ROSF_O['입원기간'], df_ROSF_B['입원기간'],df_ROSF_AB['입원기간'])

KruskalResult(statistic=6.856775249573723, pvalue=0.07660568135949437)

In [90]:
# 4주 이하
df_ROSF_in_A = df_ROSF_in[(df_ROSF_in['혈액형'] == 'RH+A')]
df_ROSF_in_O = df_ROSF_in[(df_ROSF_in['혈액형'] == 'RH+O')]
df_ROSF_in_B = df_ROSF_in[(df_ROSF_in['혈액형'] == 'RH+B')]
df_ROSF_in_AB = df_ROSF_in[(df_ROSF_in['혈액형'] == 'RH+AB')]

In [91]:
stats.kruskal(df_ROSF_in_A['입원기간'], df_ROSF_in_O['입원기간'], df_ROSF_in_B['입원기간'], df_ROSF_in_AB['입원기간'])

KruskalResult(statistic=7.071142570982813, pvalue=0.06966445567294945)

In [92]:
# 4주 초과
df_ROSF_inover_A = df_ROSF_inover[(df_ROSF_inover['혈액형'] == 'RH+A')]
df_ROSF_inover_O = df_ROSF_inover[(df_ROSF_inover['혈액형'] == 'RH+O')]
df_ROSF_inover_B = df_ROSF_inover[(df_ROSF_inover['혈액형'] == 'RH+B')]
df_ROSF_inover_AB = df_ROSF_inover[(df_ROSF_inover['혈액형'] == 'RH+AB')]

In [93]:
stats.kruskal(df_ROSF_inover_A['입원기간'], df_ROSF_inover_O['입원기간'], df_ROSF_inover_B['입원기간'], df_ROSF_inover_AB['입원기간'])

KruskalResult(statistic=3.8448114677469536, pvalue=0.2787166553108071)

#### BMI-입원기간
- 범주- 연속

- 입원기간 조건 X
    - 분석내용: BMI에 따라 입원기간에 영향을 미치는가?
        - 귀무: BMI에 따라 입원기간의 영향 없음
        - 대립: BMI에 따라 입원기간의 영향 있음
        - 분석결론
            - stats.kruskal(df_ROSF_normal['입원기간'], df_ROSF_over['입원기간'], df_ROSF_1stover['입원기간'], df_ROSF_2ndover['입원기간'], df_ROSF_higher['입원기간'])
            - KruskalResult(statistic=5.319486992027895, pvalue=0.2560582211192575)
            - 귀무 참. p-value > 0.05, BMI에 입원기간 영향 없음
            
- 입원기간 4주 이하 df_ROSF_in
    - 분석내용: BMI에 따라 입원기간(4주이하)에 영향을 미치는가?
        - 귀무: BMI에 따라 입원기간(4주이하)의 영향 없음
        - 대립: BMI에 따라 입원기간(4주이하)의 영향 있음
        - 분석결론
            - stats.kruskal(df_ROSF_in_normal['입원기간'], df_ROSF_in_over['입원기간'], df_ROSF_in_1stover['입원기간'], df_ROSF_in_2ndover['입원기간'], df_ROSF_in_higher['입원기간'])
            - KruskalResult(statistic=6.2315492250707285, pvalue=0.18251050336657482)
            - 귀무 참. p-value > 0.05, BMI에 따라 입원기간(4주이하) 영향 없음
            
- 입원기간 4주 초과 df_ROSF_inover
    - 분석내용: BMI에 따라 입원기간(4주초과)에 영향을 미치는가?
        - 귀무: BMI에 따라 입원기간(4주초과)의 영향 없음
        - 대립: BMI에 따라 입원기간(4주초과)의 영향 있음
        - 분석결론
            - stats.kruskal(df_ROSF_BMI_inover_normal['입원기간'], df_ROSF_BMI_inover_over['입원기간'], df_ROSF_BMI_inover_1stover['입원기간'], df_ROSF_BMI_inover_2ndover['입원기간'])
            - KruskalResult(statistic=3.6636345185157997, pvalue=0.3001511234547607)
            - 귀무 참. p-value > 0.05, BMI에 따라 입원기간(4주초과) 영향 없음

In [94]:
def convert (height) :
    return float(height)

df_ROSF['신장_소수']=df_ROSF['신장'].apply(convert)

In [95]:
def cm_convert(height):
    height = height / 100
    return height
df_ROSF['신장(m)']= df_ROSF['신장_소수'].apply(cm_convert)
df_ROSF['신장(m)^2'] = df_ROSF['신장(m)'] * df_ROSF['신장(m)']

In [96]:
df_ROSF['BMI'] = df_ROSF['체중'] / df_ROSF['신장(m)^2']

In [97]:
def BMI_calculation(BMI):
    if (BMI) < 23 :
        return '정상체중'
    elif 23 <= (BMI) < 25 :
        return '과체중'
    elif 25 <= (BMI) < 30 :
        return '1단계비만'
    elif 30 <= (BMI) <35 : 
        return '2단계비만'
    elif 35 <= (BMI) : 
        return '고도비만'
    else :
        return '측정이상'

df_ROSF['BMI_범위'] = df_ROSF['BMI'].apply(BMI_calculation)

In [98]:
df_ROSF['BMI_범위'].value_counts()

BMI_범위
과체중      821
정상체중     607
1단계비만    403
2단계비만     58
고도비만       5
Name: count, dtype: int64

In [99]:
df_ROSF_normal = df_ROSF[(df_ROSF['BMI_범위'] == '정상체중')]
df_ROSF_over = df_ROSF[(df_ROSF['BMI_범위'] == '과체중')]
df_ROSF_1stover = df_ROSF[(df_ROSF['BMI_범위'] == '1단계비만')]
df_ROSF_2ndover = df_ROSF[(df_ROSF['BMI_범위'] == '2단계비만')]
df_ROSF_higher = df_ROSF[(df_ROSF['BMI_범위'] == '고도비만')]

In [100]:
stats.kruskal(df_ROSF_normal['입원기간'], df_ROSF_over['입원기간'], df_ROSF_1stover['입원기간'], df_ROSF_2ndover['입원기간'], df_ROSF_higher['입원기간'])

KruskalResult(statistic=5.319486992027895, pvalue=0.2560582211192575)

In [101]:
df_ROSF_BMI_in = df_ROSF[(df_ROSF['입원기간'] <= 4 )]
df_ROSF_BMI_inover = df_ROSF[(df_ROSF['입원기간'] > 4 )]

In [102]:
df_ROSF_BMI_in['BMI_범위'].value_counts()

BMI_범위
과체중      815
정상체중     591
1단계비만    390
2단계비만     56
고도비만       5
Name: count, dtype: int64

In [103]:
## 4주 이하
df_ROSF_in_normal = df_ROSF_BMI_in[(df_ROSF_BMI_in['BMI_범위'] == '정상체중')]
df_ROSF_in_over = df_ROSF_BMI_in[(df_ROSF_BMI_in['BMI_범위'] == '과체중')]
df_ROSF_in_1stover = df_ROSF_BMI_in[(df_ROSF_BMI_in['BMI_범위'] == '1단계비만')]
df_ROSF_in_2ndover = df_ROSF_BMI_in[(df_ROSF_BMI_in['BMI_범위'] == '2단계비만')]
df_ROSF_in_higher = df_ROSF_BMI_in[(df_ROSF_BMI_in['BMI_범위'] == '고도비만')]

In [104]:
stats.kruskal(df_ROSF_in_normal['입원기간'], df_ROSF_in_over['입원기간'], df_ROSF_in_1stover['입원기간'], df_ROSF_in_2ndover['입원기간'], df_ROSF_in_higher['입원기간'])

KruskalResult(statistic=6.2315492250707285, pvalue=0.18251050336657482)

In [105]:
df_ROSF_BMI_inover['BMI_범위'].value_counts()

BMI_범위
정상체중     16
1단계비만    13
과체중       6
2단계비만     2
Name: count, dtype: int64

In [106]:
## 4주 초과
df_ROSF_BMI_inover_normal = df_ROSF_BMI_inover[(df_ROSF_BMI_inover['BMI_범위'] == '정상체중')]
df_ROSF_BMI_inover_over = df_ROSF_BMI_inover[(df_ROSF_BMI_inover['BMI_범위'] == '과체중')]
df_ROSF_BMI_inover_1stover = df_ROSF_BMI_inover[(df_ROSF_BMI_inover['BMI_범위'] == '1단계비만')]
df_ROSF_BMI_inover_2ndover = df_ROSF_BMI_inover[(df_ROSF_BMI_inover['BMI_범위'] == '2단계비만')]

In [107]:
stats.kruskal(df_ROSF_BMI_inover_normal['입원기간'], df_ROSF_BMI_inover_over['입원기간'], df_ROSF_BMI_inover_1stover['입원기간'], df_ROSF_BMI_inover_2ndover['입원기간'])

KruskalResult(statistic=3.6636345185157997, pvalue=0.3001511234547607)