# 피마 인디언 당뇨병 예측

In [2]:
import numpy as np
import pandas as pd

# 데이터에 header가 없음을 표시해주는 것
df = pd.read_csv('pima-indians-diabetes.csv', skiprows=9, header = None)
df.columns = ['임신횟수', '2h 포도당 농도', '이완시 혈압', '피부두께', '인슐린농도', 'BMI', '당뇨유전가능성', '나이', '당뇨여부']
df

# 정수 인덱스의 경우에는 df[1]과 같이 표시해주면 된다.


Unnamed: 0,임신횟수,2h 포도당 농도,이완시 혈압,피부두께,인슐린농도,BMI,당뇨유전가능성,나이,당뇨여부
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


In [3]:
pima = df.values
pima.shape

(768, 9)

In [4]:
# 행의 경우 모든 행을 선택할 것
# 8번이 y가 되고 나머지가 x데이터가 된다

X = pima[:, :-1]
y = pima[:, -1]


In [5]:
X.shape, y.shape

((768, 8), (768,))

In [6]:
# iloc를 붙이면 numpy indexing을 쓸 수 있다(slicing)
# 데이터가 numpy인지 series인지 DataFrame인지가 중요

X = df.iloc[:, :-1].values
y = df['당뇨여부']     # series
y = y.values    # Numpy array


In [8]:
type(X)

numpy.ndarray

In [9]:
X.shape, y.shape

((768, 8), (768,))

In [10]:
# 판다스 참고

df2 = pd.DataFrame(np.arange(25).reshape(5, 5), index = list('abcde'), columns = list('vwxyz'))
df2

Unnamed: 0,v,w,x,y,z
a,0,1,2,3,4
b,5,6,7,8,9
c,10,11,12,13,14
d,15,16,17,18,19
e,20,21,22,23,24


In [41]:
# 10을 선택하려면 컬럼먼저, 행 나중에 적어주기
# np.Nan은 데이터 타입이 실수이다.

df2['v']['c'] = np.nan
df2.z['d'] = np.nan
df2


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2['v']['c'] = np.nan
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2.z['d'] = np.nan


Unnamed: 0,v,w,x,y,z
a,0.0,1,2,3,4.0
b,5.0,6,7,8,9.0
c,,11,12,13,14.0
d,15.0,16,17,18,
e,20.0,21,22,23,24.0


In [None]:
# Nan인 행을 삭제하기
df2.drop()

array([2, 3, 4, 5])

In [17]:
df2.isna().sum()

# 여기서 한번 더 .sum() 하면 2가 나온다

v    1
w    0
x    0
y    0
z    1
dtype: int64

* 참고로 series나 DataFrame의 경우 데이터를 처음에 배정된 인덱스가 그대로 따라온다
* 그러나 numpy의 경우 분리할 경우 index가 새로 배정된다.

* 그래서 X_train의 첫번째 값을 가져오고 싶을 때는 X_train[0]이 아니라 X_train.iloc[0]으로 써야한다.

In [14]:
# 결측치 데이터가 있는지 확인

df.isna().sum()
df.isnull().sum()

임신횟수         0
2h 포도당 농도    0
이완시 혈압       0
피부두께         0
인슐린농도        0
BMI          0
당뇨유전가능성      0
나이           0
당뇨여부         0
dtype: int64

* Train/Test dataset으로 분리

In [18]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, stratify=y, test_size = 0.2, random_state=2021
)

In [19]:
np.unique(y, return_counts=True)

(array([0, 1], dtype=int64), array([500, 268], dtype=int64))

In [20]:
np.unique(y_train, return_counts=True)

(array([0, 1], dtype=int64), array([400, 214], dtype=int64))

* GridSearchCV, DesisionTreeClassifier

In [22]:
from sklearn.tree import DecisionTreeClassifier
dtc = DecisionTreeClassifier(random_state=2021)
params = {
    'max_depth' : [2, 3, 4, 5, 6],
    'min_samples_split' : [2, 3, 4]
}

In [23]:
from sklearn.model_selection import GridSearchCV
grid_dt = GridSearchCV(dtc, param_grid=params, scoring='accuracy', cv=5)
grid_dt.fit(X_train, y_train)

GridSearchCV(cv=5, estimator=DecisionTreeClassifier(random_state=2021),
             param_grid={'max_depth': [2, 3, 4, 5, 6],
                         'min_samples_split': [2, 3, 4]},
             scoring='accuracy')

In [24]:
grid_dt.best_params_

{'max_depth': 2, 'min_samples_split': 2}

In [34]:
best_dt = grid_dt.best_estimator_
best_dt.score(X_test, y_test)

0.7337662337662337

* 실제 적용

In [38]:
# reshape해서 2차원 데이터(행렬) 형태로 넣어주어야 한다.

test_data = X_test[10].reshape(1, -1)

# 참고로 1차원으로 만들어주는 함수는 .flatten()

In [39]:
pred = best_dt.predict(test_data)
pred

array([0], dtype=int64)

In [40]:
print('양성' if pred[0] == 1 else '음성')

음성
