In [6]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib as mpl
import scipy as stats
mpl.rc('font', family = 'Malgun Gothic')
df_H = pd.read_csv('../../datasets/RecurrenceOfSurgery.csv')
df_H[['입원기간', '입원일자', '퇴원일자']][:10]

Unnamed: 0,입원기간,입원일자,퇴원일자
0,2,20190713,20190716
1,1,20190715,20190716
2,1,20190729,20190801
3,1,20190731,20190803
4,2,20190903,20190907
5,1,20190905,20190907
6,1,20190622,20190626
7,1,20190330,20190402
8,1,20191203,20191206
9,2,20191210,20191213


#### 1. 당뇨여부
- 귀무가설: 당뇨여부에 따라 입원기간이 달라지지 않는다.
- 대립가설: 당뇨여부에 따라 입원기간이 달라진다.
- 분석결론:
    - 통계결론: p-value가 0.05보다 작으므로 대립가설이 성립한다.
    - 사실결론: 당뇨여부에 따라 입원기간이 달라진다.

In [15]:
df_Diabetes = df_H[['당뇨여부', '입원기간', '입원일자', '퇴원일자']]
df_Da = df_Diabetes['입원기간'].describe()['25%']
df_Db = df_Diabetes['입원기간'].describe()['75%']
df_Da_IQR = df_Db - df_Da
df_Da_up = df_Db + 1.5 * df_Da_IQR
df_Da_down = df_Da - 1.5 * df_Da_IQR
df_D_condition = (df_Diabetes['입원기간'] <= df_Da_up) & (df_Diabetes['입원기간'] >= df_Da_down)
df_Diabetes = df_Diabetes[df_D_condition]
df_H = df_H[df_D_condition]
df_Diabetes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1684 entries, 0 to 1743
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   당뇨여부    1684 non-null   int64
 1   입원기간    1684 non-null   int64
 2   입원일자    1684 non-null   int64
 3   퇴원일자    1684 non-null   int64
dtypes: int64(4)
memory usage: 65.8 KB


In [16]:
stats.stats.kruskal(df_Diabetes['당뇨여부'], df_Diabetes['입원기간'])

KruskalResult(statistic=2729.9792590759557, pvalue=0.0)

#### 2. 스테로이드치료 여부
- 귀무가설: 스테로이드치료 여부에 따라 입원기간이 달라지지 않는다.
- 대립가설: 스테로이드치료 여부에 따라 입원기간이 달라진다.
- 분석결론:
    - 통계결론: p-value가 0.05보다 크므로 귀무가설이 성립한다.
    - 사실결론: 스테로이드치료 여부와 입원기간은 관련이 없다.

In [21]:
df_Ste = df_H[['입원기간', '스테로이드치료']]
df_Ste.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1684 entries, 0 to 1743
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   입원기간     1684 non-null   int64
 1   스테로이드치료  1684 non-null   int64
dtypes: int64(2)
memory usage: 39.5 KB


In [26]:
stats.stats.kruskal(df_Ste['스테로이드치료'], df_Ste['입원기간'])

KruskalResult(statistic=1273.7193213608737, pvalue=5.8133505737925954e-279)

#### 3. 신부전여부
- 귀무가설: 신부전여부에 따라 입원기간이 달라지지 않는다.
- 대립가설: 신부전여부에 따라 입원기간이 달라진다.
- 분석결론:
    - 통계결론: p-value가 0.05보다 작으므로 대립가설이 성립한다.
    - 사실결론: 신부전여부에 따라 입원기간이 달라진다.

In [28]:
df_Ki = df_H[['신부전여부', '입원기간']]
df_Ki.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1684 entries, 0 to 1743
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   신부전여부   1684 non-null   int64
 1   입원기간    1684 non-null   int64
dtypes: int64(2)
memory usage: 39.5 KB


In [29]:
stats.stats.kruskal(df_Ki['신부전여부'], df_Ki['입원기간'])

KruskalResult(statistic=2881.5330647314995, pvalue=0.0)

#### 4. 심혈관질환
- 귀무가설: 심혈관질환 여부에 따라 입원기간이 달라지지 않는다.
- 대립가설: 심혈관질환 여부에 따라 입원기간이 달라진다.
- 분석결론:
    - 통계결론: p-value가 0.05보다 크므로 귀무가설이 성립한다.
    - 사실결론: 심혈관질환에 따라 입원기간이 달라지지 않는다.

In [32]:
df_He = df_H[['심혈관질환', '입원기간']]
df_He.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1684 entries, 0 to 1743
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   심혈관질환   1684 non-null   int64
 1   입원기간    1684 non-null   int64
dtypes: int64(2)
memory usage: 39.5 KB


In [33]:
stats.stats.kruskal(df_He['심혈관질환'], df_He['심혈관질환'])

KruskalResult(statistic=0.0, pvalue=1.0)

#### 4. 암발병여부
- 귀무가설: 암발병여부에 따라 입원기간이 달라지지 않는다.
- 대립가설: 암발병여부에 따라 입원기간이 달라진다.
- 분석결론:
    - 통계결론: p-value가 0.05보다 작으므로 귀무가설이 성립한다.
    - 사실결론: 암발병여부에 따라 입원기간이 달라진다.

In [34]:
df_Ca = df_H[['암발병여부', '입원기간']]
df_He.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1684 entries, 0 to 1743
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   심혈관질환   1684 non-null   int64
 1   입원기간    1684 non-null   int64
dtypes: int64(2)
memory usage: 39.5 KB


In [35]:
stats.stats.kruskal(df_Ca['암발병여부'], df_Ca['입원기간'])

KruskalResult(statistic=2929.0867885619386, pvalue=0.0)