In [34]:
import pandas as pd

In [35]:
phishing_df = pd.read_csv('init_phishing.csv', usecols=["Spam message"], encoding='cp949')
normal_df = pd.read_csv('normal_sms_samples_flat.csv', encoding = 'cp949')

In [36]:
phishing_df

Unnamed: 0,Spam message
0,[국외발신]ifg@본인**세/***cm/**kg/C컵/No콤/질*/사진은 라인으로확...
1,[Web발신]ifg@(광고)[KT] 당신의 일상을 업그레이드할 기회!ifg@생활에 ...
2,[국외발신]ifg@久しぶりです。以前の古いIDは使いません。私の新しいIDを追加してくださ...
3,[Web발신]ifg@(광고) 입생로랑 뷰티 **** 마일리지 기프트ifg@ifg@신...
4,[Web발신]ifg@(광고)[KT] **월 *주차 WEEKLY BESTifg@ifg...
...,...
9995,[Web발신]ifg@(광고)하나로마트고양점ifg@**********ifg@ifg@<...
9996,[Web발신]ifg@(광고)베이비북어린이서점ifg@ifg@안녕하세요.ifg@**월도...
9997,[Web발신]ifg@(광고)모델하우스 폐관 안내ifg@ifg@<원주 힐스테이트 레스...
9998,[Web발신]ifg@(광고)[GDR+아카데미 천안청당점]ifg@★D-DAY 마감임박...


In [37]:
normal_df

Unnamed: 0,normal message
0,"[알뜰폰] 고객님, 이번 달 요금은 35,359원입니다. 납부기한: 2025.05...."
1,"[한진택배] 고객님, 상품이 금일 도착 예정입니다. 송장번호: 86273158023..."
2,"[우리카드] 고객님, 2025.04.09 15:09 승인 7,750원 / GS25(..."
3,"[우체국택배] 고객님, 상품이 금일 도착 예정입니다. 송장번호: 4004754321..."
4,"[우리카드] 고객님, 2025.04.27 14:29 승인 92,591원 / 스타벅스..."
...,...
9995,"[KT] 고객님, 이번 달 요금은 62,638원입니다. 납부기한: 2025.05.1..."
9996,"[한진택배] 고객님, 상품이 금일 도착 예정입니다. 송장번호: 21871346312..."
9997,"[현대카드] 고객님, 2025.04.29 00:10 승인 41,585원 / 스타벅스..."
9998,"[우리카드] 고객님, 2025.04.30 05:33 승인 39,185원 / GS25..."


In [38]:
phishing_df['message'] = phishing_df['Spam message']
normal_df['message'] = normal_df['normal message']

#라벨 추가
phishing_df['label'] = 1
normal_df['label'] = 0

#하나의 data로 병합
combined_df = pd.concat([phishing_df, normal_df], ignore_index=True)

#전처리
combined_df['message'] = (
        combined_df['message']
        .astype(str)
        .str.replace(r'ifg@', '', regex=True)
        .str.replace(r'\*+', '', regex=True)
        .str.replace(r'[^가-힣a-zA-Z0-9\s]', '', regex=True)
        .str.strip()  # 공백 제거
    )

combined_df = combined_df[['message', 'label']]

In [39]:
combined_df

Unnamed: 0,message,label
0,국외발신본인세cmkgC컵No콤질사진은 라인으로확인해주세요 Edex,1
1,Web발신광고KT 당신의 일상을 업그레이드할 기회생활에 필요한 모든 것을 만나보세요...,1
2,국외발신IDIDlzn,1
3,Web발신광고 입생로랑 뷰티 마일리지 기프트신미영 고객님고객님을 위해 준비한 년 ...,1
4,Web발신광고KT 월 주차 WEEKLY BEST이번 주 위는 가장 핫한 상품들이 여...,1
...,...,...
19995,KT 고객님 이번 달 요금은 62638원입니다 납부기한 20250513 자동이체일 ...,0
19996,한진택배 고객님 상품이 금일 도착 예정입니다 송장번호 218713463125 배송조...,0
19997,현대카드 고객님 20250429 0010 승인 41585원 스타벅스인천 연수구 누...,0
19998,우리카드 고객님 20250430 0533 승인 39185원 GS25서울 강남구 누...,0


In [40]:
from sklearn.model_selection import train_test_split

X = combined_df['message']
y = combined_df['label']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y)

In [41]:
X_train

3500                 국제발신밤에 혼자 잠자는거 두려워요저랑 같이 잘래요 cmD 라인wa
14606    알뜰폰 고객님 이번 달 요금은 55052원입니다 납부기한 20250513 자동이체일...
15079    LG U 고객님 이번 달 요금은 73854원입니다 납부기한 20250513 자동이체...
1798     Web발신광고 미샤초공진 최대  연말감사제 시작  많은 사랑을 받았던 미샤초공진 제...
9966     Web발신광고 현대자동차 네이버 예약 개설 안내김효순 고객님 안녕하세요현대자동차 별...
                               ...                        
7337     Web발신광고ISOI 손정숙님 생일을 축하드려요 소중한 손정숙 고객님의 생일을 진심...
5262     Web발신광고 바디프랜드가격 잘못된 거 아니에요 보고도 믿기 힘든 할인가 바세페연중...
4879     Web발신광고군 시공사 현대건설브랜드 평판 위 힐스테이트이미 갖춰진 완성된 입지세대...
10241    LG U 고객님 이번 달 요금은 74082원입니다 납부기한 20250513 자동이체...
13728    현대카드 고객님 20250419 0815 승인 94524원  CU편의점부산 해운대구...
Name: message, Length: 16000, dtype: object

In [42]:
y_train

3500     1
14606    0
15079    0
1798     1
9966     1
        ..
7337     1
5262     1
4879     1
10241    0
13728    0
Name: label, Length: 16000, dtype: int64

In [43]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# TF-IDF 벡터화
vectorizer = TfidfVectorizer(max_features=7000)  # 가장많이 출현된 상위 단어 7000개
X_train_vec = vectorizer.fit_transform(X_train)  #벡터화 문자 -> 숫자
X_test_vec = vectorizer.transform(X_test)

# 모델 학습
model = MultinomialNB()
model.fit(X_train_vec, y_train)

# 예측
y_pred = model.predict(X_test_vec)

# 평가
print(confusion_matrix(y_test, y_pred))
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
print("Classification Report:")
print(classification_report(y_test, y_pred))

[[2000    0]
 [ 175 1825]]
Accuracy: 0.95625
Classification Report:
              precision    recall  f1-score   support

           0       0.92      1.00      0.96      2000
           1       1.00      0.91      0.95      2000

    accuracy                           0.96      4000
   macro avg       0.96      0.96      0.96      4000
weighted avg       0.96      0.96      0.96      4000



In [44]:
import re
def predict_message(message):
    # 입력 메시지를 벡터화
    message_vec = vectorizer.transform([message])
    
    # 예측
    prediction = model.predict(message_vec)
    
       # 확률 예측
    prob = model.predict_proba(message_vec)[0]  # [0]으로 첫 번째 샘플의 결과 추출
    prediction = model.predict(message_vec)[0]  # 예측 라벨 (0 또는 1)
    
    # 결과 해석
    result = "스팸 메시지입니다." if prediction == 1 else "정상 메시지입니다."
    spam_prob = prob[1]  # 클래스 1 (스팸)에 대한 확률
    
    return f"{result} (스팸 확률: {spam_prob:.2%})"

# 3. 사용자로부터 입력 받기
user_input = input("메시지를 입력하세요: ")

# 텍스트 전처리
user_input = (
    user_input
    .replace('ifg@', '')  # 'ifg@' 문자열 제거
    .strip()  # 양쪽 공백 제거
)

# 특수 문자 제거 (한글, 영문, 숫자, 공백만 남기기)
user_input = re.sub(r'[^가-힣a-zA-Z0-9\s]', '', user_input)

# 예측 결과 출력
print(user_input)
print(predict_message(user_input))

스팸문자 학습 Naive Bayes 초기 코드입니다
스팸 메시지입니다. (스팸 확률: 82.65%)
