In [9]:
import os
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report

def train_naive_bayes_classifier(csv_path):
    # CSV 파일
    df = pd.read_csv(csv_path, encoding='CP949')

    # 최소 2개 이상의 샘플을 가지고 있는 클래스만 사용
    min_sample_class = 2
    y = df["program"]
    selected_classes = y.value_counts()[y.value_counts() >= min_sample_class].index
    filtered_df = df[df["program"].isin(selected_classes)]
    
    # 가장 많이 등장한 확장자를 찾기
    ext_count = filtered_df["ext"].value_counts()
    most_common_ext = ext_count.index[0]

    # 해당 확장자만 필터링
    filtered_df = filtered_df[filtered_df["ext"] == most_common_ext]
    
    # 데이터를 훈련 및 테스트 데이터로 분할 (80% 훈련, 20% 테스트로 설정)
    X_filtered = filtered_df['ext']
    y_filtered = filtered_df['program']
    X_train, X_test, y_train, y_test = train_test_split(X_filtered, y_filtered, test_size=0.2, random_state=42, stratify=y_filtered)

    # 확장자 데이터를 숫자 벡터로 변환
    vectorizer = CountVectorizer(token_pattern=r'\b\w+\b')
    X_train_vectorized = vectorizer.fit_transform(X_filtered)

    # 시작 프로그램 레이블을 인코딩
    label_encoder = LabelEncoder()
    y_train_encoded = label_encoder.fit_transform(y_filtered)

    # 나이브 베이즈 모델을 훈련
    clf = MultinomialNB()
    clf.fit(X_train_vectorized, y_train_encoded)

    # 예측을 수행
    X_test_vectorized = vectorizer.transform(X_test)
    y_test_pred = clf.predict(X_test_vectorized)
    y_test_pred_labels = label_encoder.inverse_transform(y_test_pred)

    # 테스트 세트에서의 성능을 출력
    report = classification_report(y_test, y_test_pred_labels)
    print(f"분류 결과:\n{report}")

    # 훈련된 모델, 벡터 변환기, 레이블 인코더를 반환
    return clf, vectorizer, label_encoder,filtered_df

def predict_program(ext, clf, vectorizer, label_encoder,filtered_df):
    # 사용자가 입력한 확장자를 훈련된 모델을 사용하여 예측
    ext_vectorized = vectorizer.transform([ext])
    program_pred = clf.predict(ext_vectorized)

    # 예측된 시작 프로그램 레이블을 반환
    return label_encoder.inverse_transform(program_pred)[0]

if __name__ == "__main__":
    # csv 파일 경로 선언 및 해당 함수 실행
    csv_path = os.path.join(os.path.expanduser("~"), "Project404", 'data.csv')
    clf, vectorizer, label_encoder, filtered_df = train_naive_bayes_classifier(csv_path)

    # 가장 많이 등장한 확장자에 대한 예측 수행
    ext_count = filtered_df["ext"].value_counts()
    most_common_ext = ext_count.index[0]
    predicted_program = predict_program(most_common_ext, clf, vectorizer, label_encoder, filtered_df)
    print(f"{most_common_ext} 확장자에 대한 예상 시작 프로그램: {predicted_program}")


분류 결과:
              precision    recall  f1-score   support

Explorer.exe       1.00      1.00      1.00         2

    accuracy                           1.00         2
   macro avg       1.00      1.00      1.00         2
weighted avg       1.00      1.00      1.00         2

.zip 확장자에 대한 예상 시작 프로그램: Explorer.exe
