In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [3]:
data = pd.read_csv("C:/Users/user/Desktop/AIML/datasets/SMS_dataset.csv")
print('총 샘플의 수: ',len(data))

총 샘플의 수:  100894


In [4]:
data[:5]

Unnamed: 0,data,spam
0,웅 자취비 장난 아님,0
1,"키키 맞아,",0
2,"나도 지금 서울살이하고 있잖아,",0
3,거기 보증금이랑 월세 얼마야?,0
4,여기 되게 싸게 주고 왔어,0


In [6]:
print('결측값 여부 :', data.isnull().values.any())

결측값 여부 : False


In [7]:
print('데이터의 유니크 값 :', data['data'].nunique())

데이터의 유니크 값 : 100892


In [8]:
# 중복 데이터 제거
data.drop_duplicates(subset=['data'], inplace=True)
print("총 샘플의 수: ", len(data))

총 샘플의 수:  100892


In [9]:
# 정상 문자, 스팸 문자 개수 파악
print(data.groupby('spam').size().reset_index(name='count'))

   spam  count
0     0  40121
1     1  60771


In [10]:
print(f'정상 문자의 비율 = {round(data["spam"].value_counts()[0]/len(data) * 100,3)}%')
print(f'스팸 문자의 비율 = {round(data["spam"].value_counts()[1]/len(data) * 100,3)}%')

정상 문자의 비율 = 39.766%
스팸 문자의 비율 = 60.234%


In [11]:
X_data = data['data']
y_data = data['spam']
print('메일 본문의 개수: {}'.format(len(X_data)))
print('레이블의 개수: {}'.format(len(y_data)))

메일 본문의 개수: 100892
레이블의 개수: 100892


In [12]:
X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size=0.2, random_state=0, stratify=y_data)

In [13]:
print('--------훈련 데이터의 비율-----------')
print(f'정상 문자 = {round(y_train.value_counts()[0]/len(y_train) * 100,3)}%')
print(f'스팸 문자 = {round(y_train.value_counts()[1]/len(y_train) * 100,3)}%')

--------훈련 데이터의 비율-----------
정상 문자 = 39.767%
스팸 문자 = 60.233%


In [14]:
print('--------테스트 데이터의 비율-----------')
print(f'정상 문자 = {round(y_test.value_counts()[0]/len(y_test) * 100,3)}%')
print(f'스팸 문자 = {round(y_test.value_counts()[1]/len(y_test) * 100,3)}%')

--------테스트 데이터의 비율-----------
정상 문자 = 39.764%
스팸 문자 = 60.236%


In [20]:
# 훈련 데이터 및 테스틑 데이터 통합
train_set = pd.concat([X_train, y_train], axis=1).reset_index(drop=True)
test_set = pd.concat([X_test, y_test], axis=1).reset_index(drop=True)

In [21]:
# 파일로 저장
train_set.to_csv("C:/Users/user/Desktop/AIML/datasets/train_set.csv", index=False,)
test_set.to_csv("C:/Users/user/Desktop/AIML/datasets/test_set.csv", index=False)

In [22]:
train_set.head()

Unnamed: 0,data,spam
0,국외발신 먄 포인트 표실장입다yourl kr r YUZr텔레고름 Ssx ...,1
1,맞아 그 스텝이 있잖아!,0
2,LG전자 베스트샵 안녕하세요 이경희고객님가전을 소유하고 사용하는 새로운 방...,1
3,긱사에 근데 못 키우지?,0
4,현대프리미엄아울렛 김포점 Season Off 빅찬스 ...,1


In [23]:
test_set.head()

Unnamed: 0,data,spam
0,LG전자 베스트샵 안녕하세요 추혜경 고객님 LG 전자 베스트샵 청라점 ...,1
1,키키 아 소롬,0
2,국외발신 월 일 한국에 도착합니다 공항에 나를 데리러 갈 수 있나요 마이...,1
3,국제발신 쿨 업계쵝오까 꿀행사 지 운영중뇨 입금 더 퇴근선물행사...,1
4,국외발신 캐스트 리뉴얼안내비 COM콛 SK 쳣 매 제제없는먜이...,1
