In [None]:
# 피마 인디언 데이터 분석하기
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('./data/pima-indians-diabetes3.csv')

In [None]:
# 처음 5개의 정보 확인
df.head()

# 당뇨 환자의 수
print(df['diabetes'].value_counts())

In [None]:
# 각 자료의 통계 정보  -> describe()
df.describe()

In [None]:
# 각 속성별 상관관계 확인
df.corr()

In [None]:
# heatmap() 그래프로 상관관계 확인
colormap = plt.cm.gist_heat
plt.figure(figsize=(8,8))  #  그래프의 크기 지정
sns.heatmap(df.corr(), annot=True, cmap=colormap)
plt.show()

In [None]:
# plasma와 bmi 속성을 따로 추출해서  상관관계를 자세히 보고자 함 -> 히스토그램으로 
# 1. plasma에 대해 당뇨와 정상에 대한 히스토그램 그리기
plt.hist(x=[df.plasma[df.diabetes==0], df.plasma[df.diabetes==1]], bins=30,
         histtype='barstacked', label=['normal', 'diabetes'])
plt.legend()
plt.show()

# 2. bmi에 대해 당뇨와 정상에 대한 히스토그램 그리기
plt.hist(x=[df.bmi[df.diabetes==0], df.bmi[df.diabetes==1]], bins=30,
         histtype='barstacked', label=['normal', 'diabetes'])
plt.legend()
plt.show()

In [None]:
# 피마 인디언의 당뇨 예측 분석 - 딥러닝
#  속성 0 ~ -1
X = df.iloc[:, 0:-1]  # 마지막 속성이 클래스임 , 마지막 속성을 제외하고 속성 추출
print(X.head())
y = df.iloc[:, -1]  # 마지막 속성을 클래스로


In [None]:
# 모델 생성
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# input-> 8 ,처음 layer -> 12, 두번째 layer -> 8, 출력층 -> 1
model = Sequential()
model.add(Dense(12, input_dim=X.shape[1], activation='relu', name='Dense_1'))  # 입력층, layer_1
model.add(Dense(8, activation='relu', name='Dense_2'))   # layer_2
model.add(Dense(1, activation='sigmoid', name='Dense_3'))  # 출력층
model.summary()


In [None]:
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])  # 컴파일 설정
model.fit(X, y, epochs=200, batch_size = 5)

In [None]:
# loss와 accuracy 값 확인
print(model.history.history['loss'][-1], model.history.history['accuracy'][-1])

In [None]:
# 다중 분류인 자료의 분석
# iris 데이터를 분석
df = pd.read_csv('./data/iris3.csv')
df.head()

In [None]:
# species 가 클래스, 4개의 속성을 가진 자료임을 확인
# species와 다른 속성들간의 관계를 그래프로 작성
sns.pairplot(df, hue='species')
plt.show()

In [None]:
# X와 y로 분리
X = df.iloc[:, 0:-1]  # 속성 분리
y =df.iloc[:, -1]    # 클래스 분리
y.info()  # object이므로 -> one-hot encoding을 통해 숫자로 변형시킴


In [None]:
# pd.get_dummies(y,drop_first=True)
y = pd.get_dummies(y)
y.head()

In [None]:
# iris 자료로 모델링
model = Sequential()
model.add(Dense(12, input_dim=4, activation='relu'))  # 입력층, 첫번째 층
model.add(Dense(8, activation='relu'))  # 중간층 ( 2번째)
model.add(Dense(3, activation='softmax')) # 출력층, 마지막 결과가 카테고리
model.summary()

# 모델 컴파일
model.compile(loss='categorical_crossentropy', optimizer='adam',
              metrics = ['accuracy'])

# 모델 실행
model.fit(X, y, epochs=50)

In [None]:
import numpy as np
predict_data = np.array(X.iloc[len(X)//2,:]).reshape(1,-1)

print(y.iloc[len(y)//2, :], model.predict(predict_data))

In [None]:
len(y)

In [None]:
import numpy as np
predict_data = np.array(X.iloc[len(X)//2,:]).reshape(1,-1)
predict_data


In [67]:
# 피마 인디언 자료중에 당뇨에 영향을 끼치는 속성만 추출해서 딥러닝 실행
df = pd.read_csv('./data/pima-indians-diabetes3.csv')
df.head(2)

# 'plasma', 'pressure', 'bmi', 'age' 컬럼의 정보만 가져와서 딥러닝 실행
features = ['plasma', 'pressure', 'bmi', 'age']
X = df.loc[ :, features]
y = df.iloc[:, -1]

model1 = Sequential()
model1.add(Dense(12, input_dim=4, activation='relu'))
model1.add(Dense(5,activation='relu'))
model1.add(Dense(1, activation='sigmoid'))
model1.summary()

model1.compile(loss='binary_crossentropy', optimizer='adam')
model1.fit(X, y, epochs=100)

Model: "sequential_8"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_21 (Dense)            (None, 12)                60        
                                                                 
 dense_22 (Dense)            (None, 5)                 65        
                                                                 
 dense_23 (Dense)            (None, 1)                 6         
                                                                 
Total params: 131
Trainable params: 131
Non-trainable params: 0
_________________________________________________________________
Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoc

<keras.callbacks.History at 0x25821c2c0a0>

In [78]:
# 유방암 자료를 가지고 딥러닝 학습
from sklearn.datasets import load_breast_cancer

Data = load_breast_cancer()   # X <- data,  y <- target (  층은 3개층 )
features = Data['feature_names']
X = Data['data']
y = Data['target']


In [None]:
# load_wine