In [1]:
# 타이타닉 생존자 데이터 불러오기
import pandas as pd
passengers = pd.read_csv("train.csv")

# 데이터 정보 출력
print(passengers.shape)
print(passengers.head())

(891, 12)
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN    

In [2]:
# 성별 여자=1, 남자는=0 으로 대치
passengers['Sex'] = passengers['Sex'].map({'female':1,'male':0})

# 나이 빈칸이 있을 경우에는 평균으로 채워넣는다
passengers['Age'].fillna(value=passengers['Age'].mean(), inplace=True)

In [3]:
# 승객들의 class 따로 설정해준다
passengers['FirstClass'] = passengers['Pclass'].apply(lambda x: 1 if x == 1 else 0)
passengers['SecondClass'] = passengers['Pclass'].apply(lambda x: 1 if x == 2 else 0)

In [4]:
# 생존 결과를 종속 변수로 설정해준다
features = passengers[['Sex', 'Age', 'FirstClass', 'SecondClass']]
survival = passengers['Survived']

In [5]:
# train 셋과 test 셋 나눠준다
from sklearn.model_selection import train_test_split
train_features, test_features, train_labels, test_labels = train_test_split(features, survival)

In [6]:
# 데이터를 정규 분포로 만들어준다 
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
train_features = scaler.fit_transform(train_features)
test_features = scaler.transform(test_features)

In [7]:
# 로지스틱 회귀분석 모델을 선언하고 학습시킨다
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(train_features, train_labels)

LogisticRegression()

In [8]:
# 로지스틱 회귀분석 모델의 정확도
print("공격 당하기 전의 데이터를 이용한 로지스틱 회귀분석의 정확도")
print(model.score(train_features, train_labels)*100)

공격 당하기 전의 데이터를 이용한 로지스틱 회귀분석의 정확도
80.688622754491


In [9]:
# DeepFool 공격 선언해서 위의 데이터 공격시켜준다

from art.attacks.evasion import DeepFool
from art.estimators.classification.scikitlearn import SklearnClassifier

classifier = SklearnClassifier(model=model, clip_values=(0, 1))
attack = DeepFool(classifier)
x_test_adv = attack.generate(test_features)

DeepFool:   0%|          | 0/223 [00:00<?, ?it/s]

In [12]:
# 로지스틱 회귀분석 모델의 정확도
print("DeepFool 공격 당한 데이터를 이용한 로지스틱 회귀분석의 정확도")
print(model.score(x_test_adv, test_labels)*100)

DeepFool 공격 당한 데이터를 이용한 로지스틱 회귀분석의 정확도
22.421524663677133


In [13]:
# 유방암 데이터를 이용하여 로지스틱 회귀 분석한다

from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=66)

In [14]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression(C=1, max_iter=10000)
model.fit(X_train, y_train)

print("공격 당하기 전의 데이터를 이용한 로지스틱 회귀분석의 정확도")
print(model.score(X_train, y_train)*100)

공격 당하기 전의 데이터를 이용한 로지스틱 회귀분석의 정확도
95.77464788732394


In [15]:
# DeepFool 공격 선언해서 위의 데이터 공격시켜준다
from art.attacks.evasion import DeepFool
from art.estimators.classification.scikitlearn import SklearnClassifier

classifier = SklearnClassifier(model=model, clip_values=(0, 1))
attack = DeepFool(classifier)
x_test_adv = attack.generate(X_test)

DeepFool:   0%|          | 0/143 [00:00<?, ?it/s]

In [17]:
# 로지스틱 회귀분석 모델의 정확도
print("DeepFool 공격 당한 데이터를 이용한 로지스틱 회귀분석의 정확도")
print(model.score(x_test_adv, y_test)*100)

DeepFool 공격 당한 데이터를 이용한 로지스틱 회귀분석의 정확도
64.33566433566433


In [19]:
# MNIST 데이터를 이용한 로지스틱 회귀분석
import tensorflow as tf
import numpy as np

# 0~9까지 숫자의 종류
num_classes = 10
# 28*28
num_features = 784

# 로지스틱 회귀분석의 학습 파라미터
learning_rate =0.01
training_steps = 1000
batch_size = 256
display_step =100

In [20]:
# MNIST 데이터 불러온다
from tensorflow.keras.datasets import mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()

In [21]:
# float32형태로 변환
x_train, x_test = np.array(x_train, np.float32), np.array(x_test,np.float32)

# 이미지 포맷을 784픽셀의 1차원 배열로 변환해준다
x_train, x_test = x_train.reshape([-1,num_features]), x_test.reshape([-1,num_features])

# 255로 나눠서 [0,1] 값으로 표준화 시켜준다
x_train ,x_test = x_train / 255., x_test / 255.

In [22]:
# 데이터 셔플링 및 배치화
train_data = tf.data.Dataset.from_tensor_slices((x_train,y_train))
train_data = train_data.repeat().shuffle(5000).batch(batch_size).prefetch(1)

In [23]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression(C=1, max_iter=10000)
model.fit(x_train, y_train)

LogisticRegression(C=1, max_iter=10000)

In [24]:
print("공격 당하기 전의 데이터를 이용한 로지스틱 회귀분석의 정확도")
print(model.score(x_train, y_train)*100)

공격 당하기 전의 데이터를 이용한 로지스틱 회귀분석의 정확도
93.93


In [25]:
# DeepFool 공격 선언해서 위의 데이터 공격시켜준다
from art.attacks.evasion import DeepFool
from art.estimators.classification.scikitlearn import SklearnClassifier

classifier = SklearnClassifier(model=model, clip_values=(0, 1))
attack = DeepFool(classifier)
x_test_adv = attack.generate(x_test)

DeepFool:   0%|          | 0/10000 [00:00<?, ?it/s]

In [26]:
# 로지스틱 회귀분석 모델의 정확도
print("DeepFool 공격 당한 데이터를 이용한 로지스틱 회귀분석의 정확도")
print(model.score(x_test_adv, y_test)*100)

DeepFool 공격 당한 데이터를 이용한 로지스틱 회귀분석의 정확도
5.72


In [29]:
####################여기서부터 로지스틱 회귀 분석 모델 직접 구현하는 부분####################

# Wegiht Matrix 생성을 위해 784 *10개의 weights 필요하다
W = tf.Variable(tf.ones([num_features, num_classes]),name="weight")
b = tf.Variable(tf.zeros([num_classes]),name="bias")

In [30]:
# 로지스틱 회귀식 (Wx+b) 정의한다
def logistic_regression(x):
    return tf.nn.softmax(tf.matmul(x,W)+b)

In [31]:
# Cross Entropy 손실 함수 정의한다
def cross_entropy(y_pred, y_true):
    # 텍스트를 유의한 벡터로 변환
    y_true = tf.one_hot(y_true,depth=num_classes)
    y_pred = tf.clip_by_value(y_pred,1e-9,1.)
    return tf.reduce_mean(-tf.reduce_sum(y_true*tf.math.log(y_pred)))

In [32]:
# 정확도 척도 정의한다
def accuracy(y_pred, y_true):
    # 예측 정확도는 예측 벡터에서 가장 높은 스코어 인덱스
    correct_prediction = tf.equal(tf.argmax(y_pred,1),tf.cast(y_true,tf.int64))
    return tf.reduce_mean(tf.cast(correct_prediction,tf.float32))

In [33]:
# SGD(확률적경사하강법) 알고리즘
optimizer = tf.optimizers.SGD(learning_rate)

In [34]:
# 학습 알고리즘 최적화 과정 정의한다
def run_optimization(x,y):
    with tf.GradientTape() as g:
        pred = logistic_regression(x)
        loss = cross_entropy(pred,y)
        
    gradients = g.gradient(loss,[W,b])
    optimizer.apply_gradients(zip(gradients,[W,b]))

In [35]:
# 주어진 스텝에 맞춰서 학습을 시작한다
for step, (batch_x, batch_y) in enumerate(train_data.take(training_steps),1):
    run_optimization(batch_x, batch_y)
    
    if step % display_step ==0:
        pred = logistic_regression(batch_x)
        loss = cross_entropy(pred, batch_y)
        acc = accuracy(pred, batch_y)
        print("step: %i, loss: %f, accuracy: %f" %(step,loss,acc))

step: 100, loss: 289.502747, accuracy: 0.820312
step: 200, loss: 51.137054, accuracy: 0.917969
step: 300, loss: 63.734474, accuracy: 0.933594
step: 400, loss: 61.370857, accuracy: 0.917969
step: 500, loss: 122.075119, accuracy: 0.898438
step: 600, loss: 49.760822, accuracy: 0.945312
step: 700, loss: 62.496082, accuracy: 0.925781
step: 800, loss: 108.018204, accuracy: 0.902344
step: 900, loss: 168.788223, accuracy: 0.839844
step: 1000, loss: 41.578003, accuracy: 0.941406


In [41]:
# 테스트 셋을 이용하여 위에서 훈련된 모델의 정확도 측정
pred = logistic_regression(x_test)
print("공격 당하기 전의 데이터를 이용한 로지스틱 회귀분석의 정확도: %f" %accuracy(pred,y_test))

공격 당하기 전의 데이터를 이용한 로지스틱 회귀분석의 정확도: 0.908400


In [42]:
# 공격된 테스트 셋을 이용하여 위에서 훈련된 모델의 정확도 측정
pred = logistic_regression(x_test_adv)
print("DeepFool 공격 당한 데이터를 이용한 로지스틱 회귀분석의 정확도: %f" %accuracy(pred,y_test))

DeepFool 공격 당한 데이터를 이용한 로지스틱 회귀분석의 정확도: 0.891400
