## ✫Livedoorテキストを使用するための準備（テキストの成形と各辞書の作成）

### 1. Livedoorテキストの読み込み

In [1]:
# # Livedoorニュースのファイルをダウンロード
# ! wget "https://www.rondhuit.com/download/ldcc-20140209.tar.gz"

In [2]:
# ファイルを解凍し、カテゴリー数と内容を確認
import tarfile
import os

# アーカイブの展開
tar = tarfile.open("ldcc-20140209.tar.gz", "r:gz")
tar.extractall("./data/livedoor/")
tar.close()

# フォルダのファイルとディレクトリを確認
files_folders = [name for name in os.listdir("./data/livedoor/text/")]
print(files_folders)

# カテゴリーのフォルダのみを抽出
categories = [name for name in os.listdir(
    "./data/livedoor/text/") if os.path.isdir("./data/livedoor/text/"+name)]

print("カテゴリー数:", len(categories))
print(categories)

# ['CHANGES.txt', 'dokujo-tsushin', 'it-life-hack', 'kaden-channel', 'livedoor-homme', 'movie-enter', 'peachy', 'README.txt', 'smax', 'sports-watch', 'topic-news']
# カテゴリー数: 9
# ['dokujo-tsushin', 'it-life-hack', 'kaden-channel', 'livedoor-homme', 'movie-enter', 'peachy', 'smax', 'sports-watch', 'topic-news']

['CHANGES.txt', 'livedoor-homme', 'README.txt', 'sports-watch', 'dokujo-tsushin', 'movie-enter', 'topic-news', 'it-life-hack', 'peachy', 'kaden-channel', 'smax']
カテゴリー数: 9
['livedoor-homme', 'sports-watch', 'dokujo-tsushin', 'movie-enter', 'topic-news', 'it-life-hack', 'peachy', 'kaden-channel', 'smax']


In [3]:
# ファイルの中身を確認してみる
file_name = "./data/livedoor/text/movie-enter/movie-enter-6255260.txt"

with open(file_name) as text_file:
    text = text_file.readlines()
    print("0：", text[0])  # URL情報
    print("1：", text[1])  # タイムスタンプ
    print("2：", text[2])  # タイトル
    print("3：", text[3])  # 本文

0： http://news.livedoor.com/article/detail/6255260/

1： 2012-02-07T09:00:00+0900

2： 新しいヴァンパイアが誕生！　ジョニデ主演『ダーク・シャドウ』の公開日が決定

3： 　こんなヴァンパイアは見たことがない！　ジョニー・デップとティム・バートン監督がタッグを組んだ映画『ダーク・シャドウズ（原題）』の邦題が『ダーク・シャドウ』に決定。日本公開日が5月19日に決まった。さらに、ジョニー・デップ演じるヴァンパイアの写真が公開された。



In [4]:
# テキスト本文のみを取りだすための関数
def extract_main_txt(file_name):
    with open(file_name) as text_file:
        # 今回はタイトル行は外したいので、3要素目以降の本文のみ使用
        text = text_file.readlines()[3:]

        # 3要素目以降にも本文が入っている場合があるので、リストにして、後で結合させる
        text = [sentence.strip() for sentence in text]  # 空白文字(スペースやタブ、改行)の削除
        text = list(filter(lambda line: line != '', text))
        text = ''.join(text)
        text = text.translate(str.maketrans(
            {'\n': '', '\t': '', '\r': '', '\u3000': ''}))  # 改行やタブ、全角スペースを消す
        return text

In [5]:
# リストに前処理した本文と、カテゴリーのラベルを追加していく
import glob

list_text = []
list_label = []

for cat in categories:
    text_files = glob.glob(os.path.join("./data/livedoor/text", cat, "*.txt"))

    # 前処理extract_main_txtを実施して本文を取得
    body = [extract_main_txt(text_file) for text_file in text_files]

    label = [cat] * len(body)  # bodyの数文だけカテゴリー名のラベルのリストを作成

    list_text.extend(body)  # appendが要素を追加するのに対して、extendはリストごと追加する
    list_label.extend(label)

In [6]:
# 10番目の文章とラベルを確認
print(list_text[10])
print(list_label[10])

イタリアのプレミアム・カジュアル・ブランド「DIESEL（ディーゼル）」は2月27日、28日の2日間、「0円」でTシャツを販売するゲリラストア「BE STUPID STORE」を原宿に限定オープンする。DIESELは、1991年から、斬新なテーマと強烈なビジュアルでメッセージ性の強い広告キャンペーンを展開している。2010年春夏シーズンのスローガンは「BE STUPID」。DIESELのスピリットであるポジティブな反骨精神が映し出されている言葉だ。「自分らしく生きること。失敗を恐れず、何度でも挑戦すること。そこにチャンスはやってくる」。ブランドのアイデンティティであるチャレンジ精神を伝えるために、DIESELは数々のフレーズとともに、このキャンペーンをさまざまな場面で展開していく。大人はNOと言う。僕らはYESと言う。大人は頭で考える。僕らは心で動く。大人には知恵がある。僕らには度胸がある。大人にはプランがある。僕らにはストーリーがある。僕らにしか分からない素晴らしさがある。BE STUPID.「BE STUPID STORE」では、このチャレンジ精神に賛同する人に、枚数限定のTシャツを0円で提供する。もし当日にTシャツを手に入れることが出来なくても、DIESELの公式サイトで、会員限定の特別待ち受け画像をダウンロードし、通常店舗で提示すれば、Tシャツをゲットすることが可能だ。■関連リンク・DIESEL - 公式サイト■店舗情報BE STUPID STORE東京都渋谷区神宮前4-31-16営業時間：12:00〜19:00※2月27日(土)、28日(日) 2日間限り
livedoor-homme


In [7]:
# pandasのDataFrameに変換する
import pandas as pd

df = pd.DataFrame({'text': list_text, 'label': list_label})

# 大きさを確認しておく（7,376文章が存在）
print(df.shape)
# (7376, 2)

df.head(3)

(7376, 2)


Unnamed: 0,text,label
0,自由に転載・引用が可能です。このディレクトリの記事ファイル内容の提供元：livedoor H...,livedoor-homme
1,米国ロサンゼルス発のファストファッションチェーン「フォーエバー２１」（本社：米国ロサンゼルス...,livedoor-homme
2,ファストファッションチェーン「フォーエバー２１」（本社：米国ロサンゼルス）は２日、日本直営１...,livedoor-homme


In [8]:
# カテゴリーの辞書を作成
dic_id2cat = dict(zip(list(range(len(categories))), categories))
dic_cat2id = dict(zip(categories, list(range(len(categories)))))

print(dic_id2cat)
print(dic_cat2id)

# DataFrameにカテゴリーindexの列を作成
df["label_index"] = df["label"].map(dic_cat2id)
df.head()

# label列を消去し、text, indexの順番にする
df = df.loc[:, ["text", "label_index"]]
df.head(3)

{0: 'livedoor-homme', 1: 'sports-watch', 2: 'dokujo-tsushin', 3: 'movie-enter', 4: 'topic-news', 5: 'it-life-hack', 6: 'peachy', 7: 'kaden-channel', 8: 'smax'}
{'livedoor-homme': 0, 'sports-watch': 1, 'dokujo-tsushin': 2, 'movie-enter': 3, 'topic-news': 4, 'it-life-hack': 5, 'peachy': 6, 'kaden-channel': 7, 'smax': 8}


Unnamed: 0,text,label_index
0,自由に転載・引用が可能です。このディレクトリの記事ファイル内容の提供元：livedoor H...,0
1,米国ロサンゼルス発のファストファッションチェーン「フォーエバー２１」（本社：米国ロサンゼルス...,0
2,ファストファッションチェーン「フォーエバー２１」（本社：米国ロサンゼルス）は２日、日本直営１...,0


In [9]:
# 順番をシャッフルする
df = df.sample(frac=1, random_state=123).reset_index(drop=True)
df.head(3)

Unnamed: 0,text,label_index
0,シリーズとして初のオンライン対応となった「ドラゴンクエストX」（スクェア・エニックス）。20...,5
1,豚キムチ鍋に火鍋、豚しゃぶ、寄せ鍋など、鍋に豚肉は欠かせない存在。その豚肉を鍋の主役に相応し...,6
2,帝国軍が全国に進軍。ダース・ベイダー、ストームトルーパーが日本の各都市に現れる事態が起こって...,3


In [10]:
# # 件数が多いので500件のサンプルを取得
df = df.sample(500)
df.count()

text           500
label_index    500
dtype: int64

### 2. Triplet Lossの処理をするための準備

In [11]:
# Series処理で読み込まれたラベルとDataframeのラベルを比較して同じもの（positive）を検索、サンプルとして１行だけ取り出す
def func(x):
    return df[['text']][df['label_index'] == x['label_index']].sample(1).iloc[0]

In [12]:
df = df.assign(positive = lambda x: x.apply(func, axis=1))

In [13]:
def func(x):
    return df[['label_index']][df['label_index'] == x['label_index']].sample(1).iloc[0]

In [14]:
df = df.assign(positive_index = lambda x: x.apply(func, axis=1))

In [15]:
# Series処理で読み込まれたラベルとDataframeのラベルを比較して異なるもの（negative）を検索、サンプルとして１行だけ取り出す
def func(x):
    return df[['text']][df['label_index'] != x['label_index']].sample(1).iloc[0]

In [16]:
df = df.assign(negative = lambda x: x.apply(func, axis=1))

In [17]:
def func(x):
    return df[['label_index']][df['label_index'] != x['label_index']].sample(1).iloc[0]

In [18]:
df = df.assign(negative_index = lambda x: x.apply(func, axis=1))

In [19]:
df.head(3)

Unnamed: 0,text,label_index,positive,positive_index,negative,negative_index
1904,全世界興収4億ドルを記録した映画の続編「セックス・アンド・ザ・シティ2」。6月には、サラ・ジ...,6,2002年の誕生から、今回で16回目となる「神戸コレクション2010 AUTMN/SUMME...,6,「体の不調が出やすくなる年齢だけに、同世代の友人に悩みを赤裸々に語ることはあります。だけど、...,4
2633,70種類の豊富なフォントや個性豊かな飾りイラストでカスタマイズしよう！Androidのホーム...,8,ドタキャンの言い訳、どうしよう？楽しみにしていた食事やデートなどの予定を体調不良や急な用事で...,8,こんにちは、ビデオエディターを目指している小島暢華です。さて今回は天体写真に挑戦してみました...,4
3107,ソフトバンクモバイルから発売されたDesire（X06HT)は、OS2.1を搭載し、Andr...,0,2009年、パナソニック・トヨタ・レーシングのサードドライバーとして、10月に行われた第16...,0,CM・ドラマ・映画・ティーン誌のモデルなど、あらゆるメディアで類まれなる才能を発揮し、今最も...,7


In [20]:
# 不要な列の削除
df = df.drop(['label_index', 'positive_index', 'negative_index'], axis=1)

In [21]:
df.head(3)

Unnamed: 0,text,positive,negative
1904,全世界興収4億ドルを記録した映画の続編「セックス・アンド・ザ・シティ2」。6月には、サラ・ジ...,2002年の誕生から、今回で16回目となる「神戸コレクション2010 AUTMN/SUMME...,「体の不調が出やすくなる年齢だけに、同世代の友人に悩みを赤裸々に語ることはあります。だけど、...
2633,70種類の豊富なフォントや個性豊かな飾りイラストでカスタマイズしよう！Androidのホーム...,ドタキャンの言い訳、どうしよう？楽しみにしていた食事やデートなどの予定を体調不良や急な用事で...,こんにちは、ビデオエディターを目指している小島暢華です。さて今回は天体写真に挑戦してみました...
3107,ソフトバンクモバイルから発売されたDesire（X06HT)は、OS2.1を搭載し、Andr...,2009年、パナソニック・トヨタ・レーシングのサードドライバーとして、10月に行われた第16...,CM・ドラマ・映画・ティーン誌のモデルなど、あらゆるメディアで類まれなる才能を発揮し、今最も...


In [22]:
# 列名の変更
df = df.rename(columns={'text': 'anchor'})

In [23]:
df.head(3)

Unnamed: 0,anchor,positive,negative
1904,全世界興収4億ドルを記録した映画の続編「セックス・アンド・ザ・シティ2」。6月には、サラ・ジ...,2002年の誕生から、今回で16回目となる「神戸コレクション2010 AUTMN/SUMME...,「体の不調が出やすくなる年齢だけに、同世代の友人に悩みを赤裸々に語ることはあります。だけど、...
2633,70種類の豊富なフォントや個性豊かな飾りイラストでカスタマイズしよう！Androidのホーム...,ドタキャンの言い訳、どうしよう？楽しみにしていた食事やデートなどの予定を体調不良や急な用事で...,こんにちは、ビデオエディターを目指している小島暢華です。さて今回は天体写真に挑戦してみました...
3107,ソフトバンクモバイルから発売されたDesire（X06HT)は、OS2.1を搭載し、Andr...,2009年、パナソニック・トヨタ・レーシングのサードドライバーとして、10月に行われた第16...,CM・ドラマ・映画・ティーン誌のモデルなど、あらゆるメディアで類まれなる才能を発揮し、今最も...


In [24]:
# 件数の確認
df.shape
# (1000, 3)

(500, 3)

In [25]:
from sklearn.model_selection import train_test_split
train, test = train_test_split(df, train_size=0.8, random_state=4)

In [26]:
print(len(train))
print(len(test))

400
100


In [27]:
# タブ区切りのテキストデータに書き出し
train.to_csv('./triplet_train.tsv', sep='\t', index = False)
test.to_csv('./triplet_test.tsv', sep='\t', index = False)