# 05.데이터 전처리
### 딥러닝 수행에 앞서 데이터의 내용과 구조를 잘 파악하는 것이 중요합니다.

# 피마 인디언 당뇨병 예측
* 1950년대까지만 해도 당뇨는 커녕 비만이 한 명도 없던 피마 인디언.
* 지금은 60%가 당뇨, 80%가 비만.
* 생존을 위해 영양분을 체내에 효율적으로 저장하도록 진화된 인디언 + 미국의 기름진 패스트푸드 문화

### 피마 인디언을 대상으로 당뇨병 여부를 측정한 데이터
- dataset/pima-indians-diabetes.csv

### 데이터 설명
* 샘플 수: 768
* 속성 수: 8
    - 컬럼 1: (pregnant) 과거 임신 횟수
    - 컬럼 2: (plasma) 포도당 부하 검사 2시간 후 공복 혈당 농도
    - 컬럼 3: (pressure) 이완기 혈압
    - 컬럼 4: (thickness) 삼두근 피부 주름 두께
    - 컬럼 5: (insulin) 혈청 인슐린
    - 컬럼 6: (BMI) 체질량 지수
    - 컬럼 7: (pedigree) 당뇨병 가족력
    - 컬럼 8: (age) 나이
* 클래스: 당뇨(1), 당뇨 아님(0)

### pandas를 활용한 데이터 조사
* pandas is an open source, BSD-licensed library providing high-performance, easy-to-use data structures and data analysis tools for the Python programming language.

#### 필요 패키지 추가 설치
```
conda install pandas matplotlib seaborn
```

In [None]:
# pandas 라이브러리를 불러옵니다.
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# 피마 인디언 당뇨병 데이터셋을 불러옵니다. 불러올 때 각 컬럼에 해당하는 이름을 지정합니다.
df = pd.read_csv('./dataset/pima-indians-diabetes.csv',
               names = ["pregnant", "plasma", "pressure", "thickness", "insulin", "BMI", "pedigree", "age", "class"])

In [None]:
df

In [None]:
# 처음 5줄을 봅니다.
df.head(5)

In [None]:
df.tail(3)

In [None]:
# 데이터의 전반적인 정보를 확인해 봅니다.
df.info()

In [None]:
# 각 정보별 특징을 좀더 자세히 출력합니다.
print(df.describe())

In [None]:
# 데이터 중 임신 정보와 클래스 만을 출력해 봅니다.
df[['plasma', 'class']]

In [None]:
df['pregnant']

In [None]:
df[['pregnant']]

In [None]:
df.iloc[0]

In [None]:
df.iloc[0:3]

In [None]:
# 데이터 간의 상관관계를 그래프로 표현해 봅니다.
colormap = plt.cm.gist_heat   #그래프의 색상 구성을 정합니다.
plt.figure(figsize=(12,12))   #그래프의 크기를 정합니다.

In [None]:
# 그래프의 속성을 결정합니다. vmax의 값을 0.5로 지정해 0.5에 가까울 수록 밝은 색으로 표시되게 합니다.
sns.heatmap(df.corr(),linewidths=0.1,vmax=0.5, cmap=colormap, linecolor='white', annot=True)
plt.show()

In [None]:
df.corr()

In [None]:
grid = sns.FacetGrid(df, col='class')
grid.map(plt.hist, 'plasma',  bins=10)
plt.show()

### 피마 인디언 당뇨병 예측 

In [None]:
from keras.models import Sequential
from keras.layers import Dense
import numpy
import tensorflow as tf

# seed 값 생성
seed = 0
numpy.random.seed(seed)
tf.set_random_seed(seed)

# 데이터 로드
dataset = numpy.loadtxt("./dataset/pima-indians-diabetes.csv", delimiter=",")
X = dataset[:, 0:8]
Y = dataset[:, 8]

In [None]:
# 모델의 설정
model = Sequential()
model.add(Dense(12, input_dim=8, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

In [None]:
# 모델 컴파일
model.compile(loss='binary_crossentropy',
             optimizer='adam',
             metrics=['accuracy'])

In [None]:
# 모델 실행
model.fit(X, Y, epochs=200, batch_size=10)

In [None]:
# 결과 출력
print("\n Accuracy: %.4f" % (model.evaluate(X, Y)[1]))