### 1. `csv` 파일 자동 분할

In [32]:
import pandas as pd
from sklearn.model_selection import train_test_split


In [33]:
# CSV 파일 로드
data = pd.read_csv("C:/py/fakeNEWs_project/News_dataset3.csv")

In [34]:
# train-test 분할 (80:20)
train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)

In [35]:
# 분할된 데이터 저장
train_data.to_csv("train.csv", index=False, encoding="utf-8")
test_data.to_csv("test.csv", index=False, encoding="utf-8")

### 1. 분리

In [36]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score
import joblib

In [37]:
# 데이터 로드
file_path = "C:/py/fakeNEWs_project/News_dataset3.csv"
data = pd.read_csv(file_path)

# 데이터 분리 (80:20)
train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)

# TF-IDF 벡터화
vectorizer = TfidfVectorizer(max_features=5000, stop_words='english')
X_train = vectorizer.fit_transform(train_data['Content'])
X_test = vectorizer.transform(test_data['Content'])

# 레이블 추출
y_train = train_data['Label']
y_test = test_data['Label']

### 2. 모델 학습

In [38]:
# 모델 학습
model = LogisticRegression(random_state=42)
model.fit(X_train, y_train)

# 테스트 데이터 평가
predictions = model.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
print("Accuracy:", accuracy)
print("Classification Report:\n", classification_report(y_test, predictions))

# 모델 및 벡터라이저 저장
joblib.dump(model, "logistic_model.pkl")
joblib.dump(vectorizer, "tfidf_vectorizer.pkl")

print("Model and vectorizer saved successfully.")

Accuracy: 0.9991079393398751
Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00      1110
           1       1.00      1.00      1.00      1132

    accuracy                           1.00      2242
   macro avg       1.00      1.00      1.00      2242
weighted avg       1.00      1.00      1.00      2242

Model and vectorizer saved successfully.


In [42]:
import pandas as pd
import joblib

# 파일 경로 설정
model_path = 'logistic_model.pkl'  # 학습된 모델 파일
vectorizer_path = 'tfidf_vectorizer.pkl'  # 학습된 벡터라이저 파일
sample_file_path = 'C:/py/fakeNEWs_project/Sample_News_Dataset.csv'  # 실험용 데이터 파일

In [43]:
# 1. 샘플 데이터 로드
sample_data = pd.read_csv(sample_file_path, encoding='euc-kr')

# 2. 학습된 모델과 벡터라이저 로드
try:
    model = joblib.load(model_path)
    vectorizer = joblib.load(vectorizer_path)
except FileNotFoundError as e:
    raise Exception("모델 또는 벡터라이저 파일이 누락되었습니다. 올바른 파일을 제공해주세요.") from e

In [44]:
# 3. 샘플 데이터 벡터화
sample_X = vectorizer.transform(sample_data['Content'])

# 4. 예측 수행
predictions = model.predict(sample_X)

# 5. 결과 추가
sample_data['Prediction'] = predictions
sample_data['Prediction'] = sample_data['Prediction'].map({0: "Fake", 1: "Real"})

In [45]:
# 6. 결과 출력
print(sample_data[['Title', 'Prediction']])

# 결과를 CSV로 저장하려면
# sample_data.to_csv("predictions.csv", index=False, encoding="euc-kr")

                           Title Prediction
0  알코올이 코로나에 좋다…가짜뉴스에 최소 800명 사망       Fake
1     알코올이 코로나에 좋다'는 가짜뉴스로 인한 피해       Fake
