In [1]:
# 구글드라이브 연동
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
# 데이터 로드 : 내장 데이터 사용. subset 인자에 all로 train, test 데이터 모두 가져오기
from sklearn.datasets import fetch_20newsgroups
news_data = fetch_20newsgroups(subset='all', random_state=42)

# 데이터 분할
train_data = fetch_20newsgroups(subset='train',
                               remove=('headers','footers','quotes'),  # 기사의 일부분 제거(본문만 학습시키기 위함)
                               random_state=12)
X_train = train_data.data
y_train = train_data.target

test_data = fetch_20newsgroups(subset='test',
                              remove=('headers','footers','quotes'),
                              random_state=12)
X_test = test_data.data
y_test = test_data.target
print(f"학습 데이터 크기: {len(X_train)}\n 테스트 데이터 크기: {len(X_test)}")

학습 데이터 크기: 11314
 테스트 데이터 크기: 7532


In [7]:
# 텍스트 데이터 feature Vectorizer : 단어 발생 빈도수에만 기반한 CountVectorizer를 사용
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
cnt_vect = CountVectorizer()

# CountVecorizer도 한번 fit 하면 검증, 테스트 데이터에도 똑같은 것으로 해야함!
# 다시 한 번 fit하게 되면 벡터화되는 feature 개수가 달라짐!
X_train_vec = cnt_vect.fit_transform(X_train)
X_test_vec = cnt_vect.transform(X_test)

# 로지스틱 리그레션으로 모델링하기
lr_clf = LogisticRegression(max_iter=500)
lr_clf.fit(X_train_vec, y_train)
y_pred = lr_clf.predict(X_test_vec)
acc = accuracy_score(y_test, y_pred)
print(f"분류 정확도 : {acc : .4f}")

분류 정확도 :  0.5968


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [6]:
# 텍스트 데이터 feature Vectorizer : Tf-idf를 사용
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
tf_idf = TfidfVectorizer()

X_train_tf = tf_idf.fit_transform(X_train)
X_test_tf = tf_idf.transform(X_test)

# 로지스틱 리그레션으로 모델링하기
lr_clf = LogisticRegression()
lr_clf.fit(X_train_tf, y_train)
y_pred = lr_clf.predict(X_test_tf)
acc = accuracy_score(y_test, y_pred)
print(f"Tf-idf 벡터화 후 정확도 :{acc : .4f}")

Tf-idf 벡터화 후 정확도 : 0.6737
