## 분석 목적
- 서비스 제공 대상 : 제약 회사 
- 분석 목적 : 환자통증정도와 관련된 입원/통증 기간 분석, 환자 특성 변화 분석 등
    - 입원/통증 기간 분석
        - '입원기간'과 '통증기간(월)' 등의 데이터를 활용하여 환자들의 치료 /통증기간과 효과를 분석하고자 한다.
        -  제품이 어떤 기간 동안 환자의 상태 개선에 도움이 되는지를 확인하여 제품 효과를 검토할 수 있다.
    - 환자 특성 변화 분석
        - 환자들의 연령, 성별, 체중 등 특성을 파악하여 제약회사의 대상 구매고객의 프로필과 대조 분석한다(추후)
        - 이를 통해 어떤 연령층이나 성별에 해당하는 환자들에게 제품 또는 서비스를 맞춤화하여 제공할 수 있는지 확인하고자 한다.

## 분석 결과
- 정확도(accuracy) :0.988  --> 높은 정확도로, 모델이 예측을 매우 잘 수행함
- precision, recall, f1-score : 0.99
    - 높은 정밀도, 재현율, F1 점수를 갖고 있음 -->  이 모델은 양성과 음성 클래스 모두를 높은 성능으로 예측하고 있음

In [1]:
import pandas as pd

In [2]:
df_ROS = pd.read_csv('../dataset/RecurrenceOfSurgery.csv')
df_ROS[:2]

Unnamed: 0.1,Unnamed: 0,환자ID,Large Lymphocyte,Location of herniation,ODI,가족력,간질성폐질환,고혈압여부,과거수술횟수,당뇨여부,...,Modic change,PI,PT,Seg Angle(raw),Vaccum disc,골밀도,디스크단면적,디스크위치,척추이동척도,척추전방위증
0,0,1PT,22.8,3,51.0,0.0,0,0,0,0,...,3,51.6,36.6,14.4,0,-1.01,2048.5,4,Down,0
1,1,2PT,44.9,4,26.0,0.0,0,0,0,0,...,0,40.8,7.2,17.8,0,-1.14,1753.1,4,Up,0


In [3]:
df_ROS.columns

Index(['Unnamed: 0', '환자ID', 'Large Lymphocyte', 'Location of herniation',
       'ODI', '가족력', '간질성폐질환', '고혈압여부', '과거수술횟수', '당뇨여부', '말초동맥질환여부', '빈혈여부',
       '성별', '스테로이드치료', '신부전여부', '신장', '심혈관질환', '암발병여부', '연령', '우울증여부', '입원기간',
       '입원일자', '종양진행여부', '직업', '체중', '퇴원일자', '헤모글로빈수치', '혈전합병증여부', '환자통증정도',
       '흡연여부', '통증기간(월)', '수술기법', '수술시간', '수술실패여부', '수술일자', '재발여부', '혈액형',
       '전방디스크높이(mm)', '후방디스크높이(mm)', '지방축적도', 'Instability', 'MF + ES',
       'Modic change', 'PI', 'PT', 'Seg Angle(raw)', 'Vaccum disc', '골밀도',
       '디스크단면적', '디스크위치', '척추이동척도', '척추전방위증'],
      dtype='object')

In [4]:
df_ROS['환자통증정도'].value_counts()

7     885
8     410
9     172
2     130
10    107
1      52
5      46
3      44
6      40
4       8
Name: 환자통증정도, dtype: int64

### 변수 선택 
- 목표변수(target) : 환자통증정도
- 설명변수(features) : '입원기간', '통증기간(월)', '연령', '체중', 'Large Lymphocyte', '수술기법'

In [5]:
df_ROS_extract = df_ROS[['환자통증정도','입원기간', '통증기간(월)', '연령', '체중', 'Large Lymphocyte', '수술기법']]

In [6]:
df_ROS_extract

Unnamed: 0,환자통증정도,입원기간,통증기간(월),연령,체중,Large Lymphocyte,수술기법
0,10,2,1.0,66,60.3,22.8,TELD
1,10,1,1.0,47,71.7,44.9,TELD
2,7,1,1.0,39,77.1,53.0,TELD
3,7,1,2.0,40,74.2,54.7,TELD
4,7,2,1.0,42,80.7,53.8,TELD
...,...,...,...,...,...,...,...
1889,7,2,12.0,59,64.0,44.0,
1890,7,4,6.0,42,59.0,30.8,
1891,7,3,1.0,61,70.0,36.7,IELD
1892,7,4,24.0,29,77.0,32.5,


### Pre-Processing (전처리과정)

#### Imputation (결측값 처리)

In [8]:
df_ROS_extract.isnull().sum()

환자통증정도               0
입원기간                 0
통증기간(월)              4
연령                   0
체중                   0
Large Lymphocyte     0
수술기법                81
dtype: int64

#### 최빈값으로 결측치 처리 
- 결측치 처리하고자 하는 열 : 수술기법

In [9]:
df_ROS_extract['수술기법'].value_counts()

TELD    1673
IELD     140
Name: 수술기법, dtype: int64

In [10]:
df_ROS_extract['수술기법'].mode() #최빈값 확인

0    TELD
Name: 수술기법, dtype: object

In [11]:
# 최빈값으로 결측치 채우기
df_ROS_extract['수술기법'] = df_ROS_extract['수술기법'].fillna(df_ROS_extract['수술기법'].mode().iloc[0]) 
## .iloc[0] --> 첫번째 행 / 최빈값이 2개 이상일경우 첫번째 행의 최빈값 값을 의미

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_ROS_extract['수술기법'] = df_ROS_extract['수술기법'].fillna(df_ROS_extract['수술기법'].mode().iloc[0])


In [12]:
df_ROS_extract['수술기법'].isnull().sum()

0

In [13]:
df_ROS_extract.isnull().sum()

환자통증정도              0
입원기간                0
통증기간(월)             4
연령                  0
체중                  0
Large Lymphocyte    0
수술기법                0
dtype: int64

In [14]:
df_ROS_dropna = df_ROS_extract.dropna() # null값 제거한 df
df_ROS_dropna.isnull().sum()

환자통증정도              0
입원기간                0
통증기간(월)             0
연령                  0
체중                  0
Large Lymphocyte    0
수술기법                0
dtype: int64

#### Encoding with One Hot Encoding
범주형 데이터를 연속형 숫자 데이터로 변환하고자 하는 열 : 수술기법

In [15]:
df_ROS_dropna['수술기법'].value_counts()

TELD    1750
IELD     140
Name: 수술기법, dtype: int64

In [16]:
from sklearn.preprocessing import OneHotEncoder
oneHotEncoder = OneHotEncoder() #인스턴스화 
oneHotEncoder.fit(df_ROS_dropna[['수술기법']])# 학습
oneHotEncoder.categories_

[array(['IELD', 'TELD'], dtype=object)]

In [17]:
encoded_data = oneHotEncoder.transform(df_ROS_dropna[['수술기법']]).toarray()
encoded_data

array([[0., 1.],
       [0., 1.],
       [0., 1.],
       ...,
       [1., 0.],
       [0., 1.],
       [0., 1.]])

In [18]:
df_encoded_data = pd.DataFrame(data=encoded_data, columns=oneHotEncoder.get_feature_names_out(['수술기법']))
df_encoded_data[:3]

Unnamed: 0,수술기법_IELD,수술기법_TELD
0,0.0,1.0
1,0.0,1.0
2,0.0,1.0


#### concat(병합)

In [19]:
df_ROS_concat = pd.concat([df_ROS_dropna.reset_index(drop=True), df_encoded_data.reset_index(drop=True)], axis=1 )
df_ROS_concat

Unnamed: 0,환자통증정도,입원기간,통증기간(월),연령,체중,Large Lymphocyte,수술기법,수술기법_IELD,수술기법_TELD
0,10,2,1.0,66,60.3,22.8,TELD,0.0,1.0
1,10,1,1.0,47,71.7,44.9,TELD,0.0,1.0
2,7,1,1.0,39,77.1,53.0,TELD,0.0,1.0
3,7,1,2.0,40,74.2,54.7,TELD,0.0,1.0
4,7,2,1.0,42,80.7,53.8,TELD,0.0,1.0
...,...,...,...,...,...,...,...,...,...
1885,7,2,12.0,59,64.0,44.0,TELD,0.0,1.0
1886,7,4,6.0,42,59.0,30.8,TELD,0.0,1.0
1887,7,3,1.0,61,70.0,36.7,IELD,1.0,0.0
1888,7,4,24.0,29,77.0,32.5,TELD,0.0,1.0


### encoding 파일 to pkl

In [48]:
import pickle

In [58]:
with open('../dataset/RecurrenceOfSurgery_preprocessing_GB.pkl','wb') as regression_file : 
    pickle.dump(obj=encoded_data, file=regression_file)
    pass