In [19]:
!pip install keras-core --upgrade # keras-core 를 최신 버전으로 업그레이드
!pip install -q keras-nlp --upgrade # -q : 조용한 모드를 이용해서 출력 최소화

import os
os.environ['KERAS_BACKEND'] = 'tensorflow' # 케라스의 백엔드를 TensorFlow로 설정



In [20]:
import numpy as np # 선형대수학
import pandas as pd # 데이터 처리
import tensorflow as tf
import keras_core as keras
import keras_nlp
from sklearn.metrics import ConfusionMatrixDisplay, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

print("TensorFlow version : ", tf.__version__)
print("KerasNLP version : ", keras_nlp.__version__)

TensorFlow version :  2.15.0
KerasNLP version :  0.6.3


In [21]:
df_train = pd.read_csv("/content/Twitter_data/train.csv") # 코랩 내에서 가져오기
df_test = pd.read_csv("/content/Twitter_data/test.csv") # 코랩 내에서 가져오기

print('Training Set Shape = {}'.format(df_train.shape))
print('Training Set Memory Usage = {:.2f} MB'.format(df_train.memory_usage().sum() / 1024**2))
print('Test Set Shape = {}'.format(df_test.shape))
print('Test Set Memory Usage = {:.2f} MB'.format(df_test.memory_usage().sum() / 1024**2))

Training Set Shape = (7613, 5)
Training Set Memory Usage = 0.29 MB
Test Set Shape = (3263, 4)
Test Set Memory Usage = 0.10 MB


In [22]:
df_train.head() # 데이터 프레임에서 처음의 5개 행만 출력(구조 및 내용 파악용)

Unnamed: 0,id,keyword,location,text,target
0,1,,,Our Deeds are the Reason of this #earthquake M...,1
1,4,,,Forest fire near La Ronge Sask. Canada,1
2,5,,,All residents asked to 'shelter in place' are ...,1
3,6,,,"13,000 people receive #wildfires evacuation or...",1
4,7,,,Just got sent this photo from Ruby #Alaska as ...,1


In [23]:
 # lambda 함수를 적용하여 텍스트 길이 계산
df_train["length"] = df_train["text"].apply(lambda x : len(x))
df_test["length"] = df_test["text"].apply(lambda x : len(x))

# 학습 데이터의 텍스트 길이에 대한 통계적 정보 출력
print("Train Length Stat")

# 학습 데이터의 평균, 표준편차 등등 출력
print(df_train["length"].describe())
print()

# 테스트 데이터의 텍스트 길이에 대한 통계적 정보 출력
print("Test Length Stat")

# 테스트 데이터의 평균, 표준편차 등등 출력
print(df_test["length"].describe())

Train Length Stat
count    7613.000000
mean      101.037436
std        33.781325
min         7.000000
25%        78.000000
50%       107.000000
75%       133.000000
max       157.000000
Name: length, dtype: float64

Test Length Stat
count    3263.000000
mean      102.108183
std        33.972158
min         5.000000
25%        78.000000
50%       109.000000
75%       134.000000
max       151.000000
Name: length, dtype: float64


In [24]:
# 데이터 전처리 과정

BATCH_SIZE = 64
NUM_TRAINING_EXAMPLES = df_train.shape[0]
TRAIN_SPLIT = 0.8 # 데이터 분할 비율(80%가 훈련에 사용)
VAL_SPLIT = 0.2 # 20%는 검증에 사용
STEPS_PER_EPOCH = int(NUM_TRAINING_EXAMPLES)*TRAIN_SPLIT // BATCH_SIZE

EPOCHS = 2
AUTO = tf.data.experimental.AUTOTUNE

In [25]:
from sklearn.model_selection import train_test_split

X = df_train["text"] # 트위터 내용
y = df_train["target"] # 재난 트윗인지 아닌지

# 데이터와 레이블을 받아서 지정된 비율에 따라 데이터 나누기
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=VAL_SPLIT, random_state=42)

X_test = df_test["text"]

In [18]:
# Distill Bert 불러오기 : Bert에서 레이어 수를 줄이면서 성능 저하 최소화하는 모델
preset= "distil_bert_base_en_uncased"

# Distill Bert 전처리기 불러오기
preprocessor = keras_nlp.models.DistilBertPreprocessor.from_preset(preset,
                                                                   sequence_length=160,
                                                                   name="preprocessor_4_tweets"
                                                                  )

# Distill Bert 분류 모델 생성(미리 정의된거 이용)
classifier = keras_nlp.models.DistilBertClassifier.from_preset(preset,
                                                               preprocessor = preprocessor,
                                                               num_classes=2)
# Distill Bert 분류 모델 구조 파악(레이어 구성, 파라미터 수)
classifier.summary()

Downloading data from https://storage.googleapis.com/keras-nlp/models/distil_bert_base_en_uncased/v1/vocab.txt
[1m231508/231508[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step       
Downloading data from https://storage.googleapis.com/keras-nlp/models/distil_bert_base_en_uncased/v1/model.h5
[1m265570304/265570304[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 0us/step


In [27]:
classifier.compile(
    loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    optimizer=keras.optimizers.Adam(1e-5),
    metrics=['accuracy']
)

history = classifier.fit(x=X_train,
                         y=y_train,
                         batch_size=BATCH_SIZE,
                         epochs=EPOCHS,
                         validation_data=(X_val, y_val)
)

Epoch 1/2
[1m96/96[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7025s[0m 73s/step - accuracy: 0.6863 - loss: 0.6022 - val_accuracy: 0.8365 - val_loss: 0.4008
Epoch 2/2
[1m96/96[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6683s[0m 70s/step - accuracy: 0.8341 - loss: 0.3942 - val_accuracy: 0.8326 - val_loss: 0.3914
