In [20]:
import numpy as np
import pandas as pd
from sklearn import feature_extraction, linear_model, model_selection, preprocessing

In [21]:
#############################################################################
# train set
train_df = pd.read_csv("train.csv")

# test set
test_df = pd.read_csv("test.csv")
##############################################################################

In [22]:
'''
Scikit-Learn의 feature_extraction 서브패키지와 feature_extraction.text 서브패키지는 다음과 같은 문서 전처리용 클래스를 제공한다.

# DictVectorizer:
    각 단어의 수를 세어놓은 사전에서 BOW 인코딩 벡터를 만든다.

# CountVectorizer: 
    문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩 벡터를 만든다.

# TfidfVectorizer:
    CountVectorizer와 비슷하지만 TF-IDF 방식으로 단어의 가중치를 조정한 BOW 인코딩 벡터를 만든다.

# HashingVectorizer:
    해시 함수(hash function)을 사용하여 적은 메모리와 빠른 속도로 BOW 인코딩 벡터를 만든다.
'''

'''
CountVectorizer는 다음과 같은 세가지 작업을 수행한다.

1. 문서를 토큰 리스트로 변환한다.

2. 각 문서에서 토큰의 출현 빈도를 센다.

3. 각 문서를 BOW 인코딩 벡터로 변환한다.
'''
# https://datascienceschool.net/03%20machine%20learning/03.01.03%20Scikit-Learn%EC%9D%98%20%EB%AC%B8%EC%84%9C%20%EC%A0%84%EC%B2%98%EB%A6%AC%20%EA%B8%B0%EB%8A%A5.html

'\nCountVectorizer는 다음과 같은 세가지 작업을 수행한다.\n\n1. 문서를 토큰 리스트로 변환한다.\n\n2. 각 문서에서 토큰의 출현 빈도를 센다.\n\n3. 각 문서를 BOW 인코딩 벡터로 변환한다.\n'

In [23]:
# train set의 text fit_transform()
count_vectorizer = feature_extraction.text.CountVectorizer()
train_vectors = count_vectorizer.fit_transform(train_df["text"])

In [24]:
# test set의 text transform()
# train set의 평균, 표준편차를 동일하게 사용하기 위해 test set에는 fit_transform()이 아닌 transform()사용
test_vectors = count_vectorizer.transform(test_df['text'])

In [25]:
# disaster을 나타내는 문장이 맞는지 아닌지 선형 분류
# 과대적합을 피하기 위해서 Ridge사용
clf_Ridge = linear_model.RidgeClassifier(random_state=42)
clf_Ridge.fit(train_vectors, train_df['target'])
score_Ridge = model_selection.cross_val_score(clf_Ridge, train_vectors, train_df['target'], cv=3, scoring='accuracy')
score_Ridge

array([0.70133964, 0.6501182 , 0.71147024])

In [26]:
# SGDClassifier 사용
clf_SGD = linear_model.SGDClassifier(random_state=42)
clf_SGD.fit(train_vectors, train_df['target'])
score_SGD = model_selection.cross_val_score(clf_SGD, train_vectors, train_df['target'], cv=3, scoring='accuracy')
score_SGD

array([0.71158392, 0.67178881, 0.70871108])

In [27]:
answer = pd.read_csv("sample_submission.csv")
answer_target = clf_Ridge.predict(test_vectors)
print(answer_target)
answer['target'] = answer_target 

[0 1 1 ... 1 1 0]


In [90]:
answer.to_csv("mymy.csv", index=False)