## ✫Livedoorテキストを使用するための準備（テキストの成形と各辞書の作成）

### 1. Livedoorテキストの読み込み

In [1]:
# # Livedoorニュースのファイルをダウンロード
# ! wget "https://www.rondhuit.com/download/ldcc-20140209.tar.gz"

In [2]:
# ファイルを解凍し、カテゴリー数と内容を確認
import tarfile
import os

# アーカイブの展開
tar = tarfile.open("ldcc-20140209.tar.gz", "r:gz")
tar.extractall("./data/livedoor/")
tar.close()

# フォルダのファイルとディレクトリを確認
files_folders = [name for name in os.listdir("./data/livedoor/text/")]
print(files_folders)

# カテゴリーのフォルダのみを抽出
categories = [name for name in os.listdir(
    "./data/livedoor/text/") if os.path.isdir("./data/livedoor/text/"+name)]

print("カテゴリー数:", len(categories))
print(categories)

# ['CHANGES.txt', 'dokujo-tsushin', 'it-life-hack', 'kaden-channel', 'livedoor-homme', 'movie-enter', 'peachy', 'README.txt', 'smax', 'sports-watch', 'topic-news']
# カテゴリー数: 9
# ['dokujo-tsushin', 'it-life-hack', 'kaden-channel', 'livedoor-homme', 'movie-enter', 'peachy', 'smax', 'sports-watch', 'topic-news']

['CHANGES.txt', 'dokujo-tsushin', 'it-life-hack', 'kaden-channel', 'livedoor-homme', 'movie-enter', 'peachy', 'README.txt', 'smax', 'sports-watch', 'topic-news']
カテゴリー数: 9
['dokujo-tsushin', 'it-life-hack', 'kaden-channel', 'livedoor-homme', 'movie-enter', 'peachy', 'smax', 'sports-watch', 'topic-news']


In [3]:
# ファイルの中身を確認してみる
file_name = "./data/livedoor/text/movie-enter/movie-enter-6255260.txt"

with open(file_name) as text_file:
    text = text_file.readlines()
    print("0：", text[0])  # URL情報
    print("1：", text[1])  # タイムスタンプ
    print("2：", text[2])  # タイトル
    print("3：", text[3])  # 本文

0： http://news.livedoor.com/article/detail/6255260/

1： 2012-02-07T09:00:00+0900

2： 新しいヴァンパイアが誕生！　ジョニデ主演『ダーク・シャドウ』の公開日が決定

3： 　こんなヴァンパイアは見たことがない！　ジョニー・デップとティム・バートン監督がタッグを組んだ映画『ダーク・シャドウズ（原題）』の邦題が『ダーク・シャドウ』に決定。日本公開日が5月19日に決まった。さらに、ジョニー・デップ演じるヴァンパイアの写真が公開された。



In [4]:
# テキスト本文のみを取りだすための関数
def extract_main_txt(file_name):
    with open(file_name) as text_file:
        # 今回はタイトル行は外したいので、3要素目以降の本文のみ使用
        text = text_file.readlines()[3:]

        # 3要素目以降にも本文が入っている場合があるので、リストにして、後で結合させる
        text = [sentence.strip() for sentence in text]  # 空白文字(スペースやタブ、改行)の削除
        text = list(filter(lambda line: line != '', text))
        text = ''.join(text)
        text = text.translate(str.maketrans(
            {'\n': '', '\t': '', '\r': '', '\u3000': ''}))  # 改行やタブ、全角スペースを消す
        return text

In [5]:
# リストに前処理した本文と、カテゴリーのラベルを追加していく
import glob

list_text = []
list_label = []

for cat in categories:
    text_files = glob.glob(os.path.join("./data/livedoor/text", cat, "*.txt"))

    # 前処理extract_main_txtを実施して本文を取得
    body = [extract_main_txt(text_file) for text_file in text_files]

    label = [cat] * len(body)  # bodyの数文だけカテゴリー名のラベルのリストを作成

    list_text.extend(body)  # appendが要素を追加するのに対して、extendはリストごと追加する
    list_label.extend(label)

In [6]:
# 10番目の文章とラベルを確認
print(list_text[10])
print(list_label[10])

独女のココロを優しく癒すゆるキャラたち。ドアラ、ひこにゃん、せんとくんなどなど、そのクオリティの如何に関わらず、なぜか「大ブレイク」してしまうところもゆるキャラの魅力。一度火がつけばその人気は一気に全国区となり、関連商品は飛ぶように売れまくる。そのゆるキャラ界で新たなスターとなりそうな1匹（？）こそ、ダイハツ自動車「ムーヴコンテ」のCMに登場している「カクカクシカジカ」だろう。コミカルな声にあわせ「カクカクシカジカ」と軽妙な動きを見せるシカ——、といえば、一度は目にしたこともあるはず。初登場は、新車ムーヴコンテが発表された08年8月のCMで、「このカクカクしたクルマ、いいところがシカジカ。ゆえにカクカクシカジカ」と、クルマの説明なのか、自己紹介なのかすらも不明なセリフで登場。以降、自分がシカであるくせに、干支の牛や虎になるために気ぐるみを着てみたり、ムーヴコンテに搭載されている新技術の「CVT」を「ちょっと ヴぃっくりな 低燃費」と解説するなど、ちょっとひねくれた辛口評論家という設定を無視するかのごとく、キャラが独走を続けている。そのゆるキャラのネクストジェネレーションであるカクカクシカジカのオリジナルグッズがもらえるキャンペーン「カクカクトクトクフェア」が、6月5日（土）、6日（日）の両日で開催される。期間中にダイハツのお店に来店すると、抽選で「カキ氷器」「折りたたみ傘」「ペットッボトルホルダー」がもれなく当たるという。フェア告知用のCMも製作されているようで、今回、カクカクシカジカが扮するのはサッカーの審判。ワールドカップというタイミングに合わせての演出のようだが、今作も適当なゆるさを楽しませてくれるはず。CMは本日よりOA。「かわいらしく、スタイリッシュな軽自動車」というブランドイメージを持つダイハツが、さらに女性からの支持率を上がりそうなゆるキャラの躍進。この週末には普段はなかなか行く機会がないディーラーにゆるキャラ目当てで行ってみるのもいいかもしれない。・カクカクトクトクフェア・奔放な振る舞いを見られる過去のCMアーカイブ【コチラ】■「カクカクトクトクフェア」2010年6月5日（土）〜6月6日（日）全国のダイハツのお店※一部のお店では実施していない場合がございます。■景品1等 カクカクシカジカカキ氷器2等 カサカサシカジカ折りたたみ傘3等 ゴクゴクシカジカ

In [7]:
# pandasのDataFrameに変換する
import pandas as pd

df = pd.DataFrame({'text': list_text, 'label': list_label})

# 大きさを確認しておく（7,376文章が存在）
print(df.shape)
# (7376, 2)

df.head(3)

(7376, 2)


Unnamed: 0,text,label
0,もうすぐジューン・ブライドと呼ばれる６月。独女の中には自分の式はまだなのに呼ばれてばかり……...,dokujo-tsushin
1,携帯電話が普及する以前、恋人への連絡ツールは一般電話が普通だった。恋人と別れたら、手帳に書か...,dokujo-tsushin
2,「男性はやっぱり、女性の“すっぴん”が大好きなんですかね」と不満そうに話すのは、出版関係で働...,dokujo-tsushin


In [8]:
# カテゴリーの辞書を作成
dic_id2cat = dict(zip(list(range(len(categories))), categories))
dic_cat2id = dict(zip(categories, list(range(len(categories)))))

print(dic_id2cat)
print(dic_cat2id)

# DataFrameにカテゴリーindexの列を作成
df["label_index"] = df["label"].map(dic_cat2id)
df.head()

# label列を消去し、text, indexの順番にする
df = df.loc[:, ["text", "label_index"]]
df.head(3)

{0: 'dokujo-tsushin', 1: 'it-life-hack', 2: 'kaden-channel', 3: 'livedoor-homme', 4: 'movie-enter', 5: 'peachy', 6: 'smax', 7: 'sports-watch', 8: 'topic-news'}
{'dokujo-tsushin': 0, 'it-life-hack': 1, 'kaden-channel': 2, 'livedoor-homme': 3, 'movie-enter': 4, 'peachy': 5, 'smax': 6, 'sports-watch': 7, 'topic-news': 8}


Unnamed: 0,text,label_index
0,もうすぐジューン・ブライドと呼ばれる６月。独女の中には自分の式はまだなのに呼ばれてばかり……...,0
1,携帯電話が普及する以前、恋人への連絡ツールは一般電話が普通だった。恋人と別れたら、手帳に書か...,0
2,「男性はやっぱり、女性の“すっぴん”が大好きなんですかね」と不満そうに話すのは、出版関係で働...,0


In [9]:
# 順番をシャッフルする
df = df.sample(frac=1, random_state=123).reset_index(drop=True)
df.head(3)

Unnamed: 0,text,label_index
0,Peachyでも大人気の「恋愛」をテーマにした記事の週間ランキングです！2012年6月21日...,5
1,値下げや利用可能国が拡大！テレコムスクエアは1日、ポストペイドタイプの海外向けSIMカード「...,6
2,４月。新しい年度を迎え、新しい顧客の開拓、新しい取引先、新しい上司や同僚。エネルギーに満ち溢...,3


In [10]:
# # 件数が多いので2000件のサンプルを取得
df = df.sample(n=2000)
df.count()

text           2000
label_index    2000
dtype: int64

### 2. Triplet Lossの処理をするための準備

In [11]:
# Series処理で読み込まれたラベルとDataframeのラベルを比較して同じもの（positive）を検索、サンプルとして１行だけ取り出す
def func(x):
    return df[['text']][df['label_index'] == x['label_index']].sample(1).iloc[0]

In [12]:
df = df.assign(positive = lambda x: x.apply(func, axis=1))

In [13]:
def func(x):
    return df[['label_index']][df['label_index'] == x['label_index']].sample(1).iloc[0]

In [14]:
df = df.assign(positive_index = lambda x: x.apply(func, axis=1))

In [15]:
# Series処理で読み込まれたラベルとDataframeのラベルを比較して異なるもの（negative）を検索、サンプルとして１行だけ取り出す
def func(x):
    return df[['text']][df['label_index'] != x['label_index']].sample(1).iloc[0]

In [16]:
df = df.assign(negative = lambda x: x.apply(func, axis=1))

In [17]:
def func(x):
    return df[['label_index']][df['label_index'] != x['label_index']].sample(1).iloc[0]

In [18]:
df = df.assign(negative_index = lambda x: x.apply(func, axis=1))

In [19]:
df.head(3)

Unnamed: 0,text,label_index,positive,positive_index,negative,negative_index
3930,こんにちは、ビデオエディターを目指している小島暢華です。今回は祝日を利用してオーストラリアの...,2,ITツールが家庭内でも活用されていることがわかった。メディアインタラクティブの「家族コミュニ...,2,3日、埼玉スタジアムでは、サッカーW杯アジア最終予選が行われ、日本代表が本田圭佑、前田遼一、...,4
5036,こんにちは、ビデオエディターを目指している小島暢華です。普段は写真についてのコラムを書いてい...,2,現在「週刊SPA！」にて不定期連載中の『孤独のグルメ』（原作／久住昌之、作画／谷口ジロー）が...,2,ねこカフェ行きたいにゃーかわいい猫を眺めたりもふもふしたりして癒される「猫カフェ」。どこにい...,8
3130,世界が認めた史上最強の映画が日本上陸！8月17日の日本公開を前に、14日から16日の3日間、...,4,死者・行方不明者が、1万9000人を超える大災害となった東日本大震災。発生からまもなく1年が...,4,ポップな世界観で人気のあるキース・へリング。そのキース・へリング展が今月２１日から伊丹市立美...,2


In [20]:
# 不要な列の削除
df = df.drop(['label_index', 'positive_index', 'negative_index'], axis=1)

In [21]:
df.head(3)

Unnamed: 0,text,positive,negative
3930,こんにちは、ビデオエディターを目指している小島暢華です。今回は祝日を利用してオーストラリアの...,ITツールが家庭内でも活用されていることがわかった。メディアインタラクティブの「家族コミュニ...,3日、埼玉スタジアムでは、サッカーW杯アジア最終予選が行われ、日本代表が本田圭佑、前田遼一、...
5036,こんにちは、ビデオエディターを目指している小島暢華です。普段は写真についてのコラムを書いてい...,現在「週刊SPA！」にて不定期連載中の『孤独のグルメ』（原作／久住昌之、作画／谷口ジロー）が...,ねこカフェ行きたいにゃーかわいい猫を眺めたりもふもふしたりして癒される「猫カフェ」。どこにい...
3130,世界が認めた史上最強の映画が日本上陸！8月17日の日本公開を前に、14日から16日の3日間、...,死者・行方不明者が、1万9000人を超える大災害となった東日本大震災。発生からまもなく1年が...,ポップな世界観で人気のあるキース・へリング。そのキース・へリング展が今月２１日から伊丹市立美...


In [22]:
# 列名の変更
df = df.rename(columns={'text': 'anchor'})

In [23]:
df.head(3)

Unnamed: 0,anchor,positive,negative
3930,こんにちは、ビデオエディターを目指している小島暢華です。今回は祝日を利用してオーストラリアの...,ITツールが家庭内でも活用されていることがわかった。メディアインタラクティブの「家族コミュニ...,3日、埼玉スタジアムでは、サッカーW杯アジア最終予選が行われ、日本代表が本田圭佑、前田遼一、...
5036,こんにちは、ビデオエディターを目指している小島暢華です。普段は写真についてのコラムを書いてい...,現在「週刊SPA！」にて不定期連載中の『孤独のグルメ』（原作／久住昌之、作画／谷口ジロー）が...,ねこカフェ行きたいにゃーかわいい猫を眺めたりもふもふしたりして癒される「猫カフェ」。どこにい...
3130,世界が認めた史上最強の映画が日本上陸！8月17日の日本公開を前に、14日から16日の3日間、...,死者・行方不明者が、1万9000人を超える大災害となった東日本大震災。発生からまもなく1年が...,ポップな世界観で人気のあるキース・へリング。そのキース・へリング展が今月２１日から伊丹市立美...


In [24]:
# 件数の確認
df.shape
# (2000, 3)

(2000, 3)

In [25]:
from sklearn.model_selection import train_test_split
train, test = train_test_split(df, train_size=0.8, random_state=4)

In [26]:
print(len(train))
print(len(test))

1600
400


In [27]:
# タブ区切りのテキストデータに書き出し
train.to_csv('./triplet_train.tsv', sep='\t', index = False)
test.to_csv('./triplet_test.tsv', sep='\t', index = False)