### 学習データの準備

「肉」「魚」「茶」など14語のいずれかを含む文を取得する

In [33]:
# import sys
# print(sys.path)
# sys.path.append('src')
# print(sys.path)
# !pip3 install pandas
import solrindexer as indexer
import sqlitedatastore as datastore
import pandas as pd

if __name__ == '__main__':
    datastore.connect()
    # columnsを設定しておく
    df = pd.DataFrame(columns=['#label', 'doc_id', 'sentence_id', 'text'])
    
    results = indexer.search_annotation(
        fl_keyword_pairs=[
            ('sentence_txt_ja', [['肉','魚','茶','塩','野菜','油','森林','砂漠','草原','海','木材','果樹','麦','米']]),
            ('name_s', [['sentence']]),
        ],
        rows=1000)
    
    for r in results['response']['docs']:
        # テキストの取得
        text = datastore.get(r['doc_id_i'], ['content'])['content']
        # センテンスの取得
        sent = datastore.get_annotation(r['doc_id_i'], 'sentence')[r['anno_id_i']]
        
        # Seriesで1行のdfを作成
        df_s = pd.Series( [0, r['doc_id_i'], r['anno_id_i'], text[sent['begin']:sent['end']]], index=df.columns )
        # dfにSeriesを挿入する
        df = df.append(df_s, ignore_index=True)
        
    datastore.close()
    display(df)

Unnamed: 0,#label,doc_id,sentence_id,text
0,0,124,204,主食の米に、油と塩を多用する
1,0,91,349,主食は米、魚、野菜、果物である
2,0,177,465,魚・肉の料理が比較的に少なく、スープや野菜の煮物などの料理が圧倒的に多い
3,0,120,165,肉、魚、野菜などの具材を炒めてからスープで煮込んだ後、同じスープで米を炊き込むベンヌチン（1...
4,0,90,122,主に、パーム油、コーヒー、木材
...,...,...,...,...
995,0,174,300,1948年のマーシャル・プランと強い文化的な結びつきが両国の絆を強めたが、シュレーダー首相の...
996,0,196,209,日本は資本主義体制をとり日米同盟を維持しているが、キューバに対しては地理的・政治的な利害関係...
997,0,19,112,またカリオン（英語版）で発見されたヒエログリフやンガリンジェリ族のラミンジェリ人の高齢者の主...
998,0,55,146,一方、豊臣秀吉が李氏朝鮮に侵攻した文禄・慶長の役の失敗後、1603年に徳川家康が開いた江戸幕...


### DataFlameをcsvで出力する

エクセルなどで、正解ラベルを自分で入力する

In [35]:
df.to_csv("svmdata.csv")

### 特徴量を入力したデータを確認

In [39]:
df = pd.read_csv('data/svmdata100.csv', header=0, index_col=0, )
df

Unnamed: 0,#label,doc_id,sentence_id,text
0,0,124,204,主食の米に、油と塩を多用する
1,0,91,349,主食は米、魚、野菜、果物である
2,1,177,465,魚・肉の料理が比較的に少なく、スープや野菜の煮物などの料理が圧倒的に多い
3,0,120,165,肉、魚、野菜などの具材を炒めてからスープで煮込んだ後、同じスープで米を炊き込むベンヌチン（1...
4,1,90,122,主に、パーム油、コーヒー、木材
...,...,...,...,...
96,1,50,163,また茶を飲む習慣も広まったが、茶は砂糖とミントを入れて沸騰させ濃いめにし小さなグラスで3回に...
97,1,93,110,国土の多くは草原となっており馬や牛や羊が飼育されている
98,0,168,245,西にアンデス山脈、東にはパンパと呼ばれる大草原が広がる
99,0,177,37,ウクライナの国土のほとんどは、肥沃な平原、ステップ（草原）、高原で占められている


### 学習

テキストから特徴量を抽出する関数と分類を実行する関数を作成、学習を行う関数も作成

In [40]:
from sklearn import svm
from sklearn.feature_extraction.text import CountVectorizer

# BoW形式の特徴量に変換する
# gensimのCountVectorizerをanalyzer='word'で実行する事で、半角スペースを単語区切りとみなしたBoWベクトルを作成できる
def vectorize(contents, vocab=None):
    vectorizer = CountVectorizer(analyzer='word', vocablary=vocab)
    vecs = vectorizer.fit_transform(contents)
    vocab = vectoriizer.vocabulary_
    return vecs, vocab

# テキストから特徴量を抽出する関数
def convert_into_features(sentences, vocab=None):
    contents = []
    for doc_id, sent, tokens in sentences:
        # 単語で分割
        lemmas = [token['lemma'] for token in tokens if token['POS'] in ['名詞', '動詞']]
        # 半角スペースで区切り
        content = ' '.join(lemmas)
        contents.append(content)
    # 入力されたテキストに含まれる単語をもとにしたボキャブラリを自動で作成している
    features, vocab = vectorize(contents, vocab=vocab)
    return features, vocab

# 学習の際も分類の際も同じvocabを使用する為
def convert_into_features_using_vocab(sentences, vocab):
    features, _ = convert_into_features(sentences, vocab)
    return features

# 学習
def train(labels, features):
    model = svm.LinearSVC()
    model.fit(features, labels)
    return model

# 分析結果を返す
def classify(features, model):
    predicts = model.predict(features)
    return predicts

### 実行

In [42]:
import time
from sklearn.externals import joblib
from annoutil import find_xs_in_y

if __name__ == '__main__':
    datastore.connect()
    # ラベル付きデータ読み込み
    sentences = []
    labels = []
    df = pd.read_csv('data/svmdata100.csv', header=0, index_col=0, )
    label, doc_id, sent_id = df