### DDA 분석 결과

- 변수 선택
    - 목적 변수 : '환자통증정도'
    - 설명변수 선택 : '입원기간', '통증기간(월)', '연령', '체중', 'Large Lymphocyte', '수술기법'
- 변수 선택 기준
    - 환자통증정도에 영향을 끼쳐보이는 변수들을 선택하여 영향여부 및 정도를 확인하고자 함.
        - '입원기간' : 입원기간이 길어질수록 통증정도에 어떤 영향을 끼치지는 확인하고자 함.
        - '통증기간(월)' : 통증기간이 길수록 통증정도가 큰지 확인하고자 함.
        - '연령' : 고연령층일수록 통증정도가 큰지 확인하고자 함.
        - '체중' : 체중이 통증정도에 어떠한 영향을 미치는지 확인하고자 함.
        - Large Lymphocyte : 림프구가 많을수록 통증은 적은지 확인하고자 함.
        - 수술기법: 수술기법에 따라 통증정도가 다른지 확인하고자 함.

In [1]:
import matplotlib.pyplot as plt
import matplotlib as mpl 
mpl.rc('font',family='Malgun Gothic')
import seaborn as sns
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('../../dataset/RecurrenceOfSurgery.csv')
df[:2]

Unnamed: 0.1,Unnamed: 0,환자ID,Large Lymphocyte,Location of herniation,ODI,가족력,간질성폐질환,고혈압여부,과거수술횟수,당뇨여부,...,Modic change,PI,PT,Seg Angle(raw),Vaccum disc,골밀도,디스크단면적,디스크위치,척추이동척도,척추전방위증
0,0,1PT,22.8,3,51.0,0.0,0,0,0,0,...,3,51.6,36.6,14.4,0,-1.01,2048.5,4,Down,0
1,1,2PT,44.9,4,26.0,0.0,0,0,0,0,...,0,40.8,7.2,17.8,0,-1.14,1753.1,4,Up,0


In [3]:
df.columns

Index(['Unnamed: 0', '환자ID', 'Large Lymphocyte', 'Location of herniation',
       'ODI', '가족력', '간질성폐질환', '고혈압여부', '과거수술횟수', '당뇨여부', '말초동맥질환여부', '빈혈여부',
       '성별', '스테로이드치료', '신부전여부', '신장', '심혈관질환', '암발병여부', '연령', '우울증여부', '입원기간',
       '입원일자', '종양진행여부', '직업', '체중', '퇴원일자', '헤모글로빈수치', '혈전합병증여부', '환자통증정도',
       '흡연여부', '통증기간(월)', '수술기법', '수술시간', '수술실패여부', '수술일자', '재발여부', '혈액형',
       '전방디스크높이(mm)', '후방디스크높이(mm)', '지방축적도', 'Instability', 'MF + ES',
       'Modic change', 'PI', 'PT', 'Seg Angle(raw)', 'Vaccum disc', '골밀도',
       '디스크단면적', '디스크위치', '척추이동척도', '척추전방위증'],
      dtype='object')

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1894 entries, 0 to 1893
Data columns (total 52 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Unnamed: 0              1894 non-null   int64  
 1   환자ID                    1894 non-null   object 
 2   Large Lymphocyte        1894 non-null   float64
 3   Location of herniation  1894 non-null   int64  
 4   ODI                     462 non-null    float64
 5   가족력                     1843 non-null   float64
 6   간질성폐질환                  1894 non-null   int64  
 7   고혈압여부                   1894 non-null   int64  
 8   과거수술횟수                  1894 non-null   int64  
 9   당뇨여부                    1894 non-null   int64  
 10  말초동맥질환여부                1894 non-null   int64  
 11  빈혈여부                    1894 non-null   int64  
 12  성별                      1894 non-null   int64  
 13  스테로이드치료                 1894 non-null   int64  
 14  신부전여부                   1894 non-null   

### 데이터 타입 확인 및 변환 여부 확인
- 범주형 : '환자통증정도'
- 연속형 : 입원기간', '통증기간(월)', '연령', '체중', 'Large Lymphocyte', '수술기법'
    - .value_counts()를 통해 확인결과 범주형으로 전환할 데이터는 없어 보임.

In [6]:
df_ROS = df[['환자통증정도','입원기간', '통증기간(월)', '연령', '체중', 'Large Lymphocyte', '수술기법']]

In [7]:
df_ROS.dtypes #데이터 타입 확인 

환자통증정도                int64
입원기간                  int64
통증기간(월)             float64
연령                    int64
체중                  float64
Large Lymphocyte    float64
수술기법                 object
dtype: object

In [9]:
# df_ROS['환자통증정도'].value_counts()
# df_ROS['입원기간'].value_counts()
# df_ROS['통증기간(월)'].value_counts()
# df_ROS['연령'].value_counts()
# df_ROS['체중'].value_counts()
# df_ROS['Large Lymphocyte'].value_counts()
df_ROS['수술기법'].value_counts()

## 연속형인 컬럼들은 .value_counts()를 통해 확인해본 결과 범주형으로 데이터 변환해야할 데이터를 없어보임.

TELD    1673
IELD     140
Name: 수술기법, dtype: int64

In [11]:
pd.pivot_table(data=df_ROS, index='환자통증정도', columns='수술기법', aggfunc='size')


수술기법,IELD,TELD
환자통증정도,Unnamed: 1_level_1,Unnamed: 2_level_1
1,4,48
2,11,116
3,7,37
4,1,3
5,1,39
6,3,34
7,51,802
8,35,351
9,26,137
10,1,106
