参考: https://qiita.com/sugulu_Ogawa_ISID/items/697bd03499c1de9cf082

In [4]:
import tarfile
import os

# 解凍
tar = tarfile.open("../data/ldcc-20140209.tar.gz")
tar.extractall("../data/livedoor/")
tar.close()

# フォルダのファイルとディレクトリを確認
files_folders = [name for name in os.listdir("../data/livedoor/text/")]
print(files_folders)

# カテゴリーのフォルダのみを抽出
categories = [name for name in os.listdir(
    "../data/livedoor/text/") if os.path.isdir("../data/livedoor/text/"+name)]

print("カテゴリー数:", len(categories))
print(categories)

['movie-enter', 'it-life-hack', 'kaden-channel', 'topic-news', 'livedoor-homme', 'peachy', 'sports-watch', 'dokujo-tsushin', 'CHANGES.txt', 'README.txt', 'smax']
カテゴリー数: 9
['movie-enter', 'it-life-hack', 'kaden-channel', 'topic-news', 'livedoor-homme', 'peachy', 'sports-watch', 'dokujo-tsushin', 'smax']


In [5]:
# ファイルの中身を確認してみる
file_name = "../data/livedoor/text/movie-enter/movie-enter-6255260.txt"

with open(file_name, "r", encoding="utf-8") as text_file:
    text = text_file.readlines()
    print("0：", text[0])  # URL情報
    print("1：", text[1])  # タイムスタンプ
    print("2：", text[2])  # タイトル
    print("3：", text[3])  # 本文

0： http://news.livedoor.com/article/detail/6255260/

1： 2012-02-07T09:00:00+0900

2： 新しいヴァンパイアが誕生！　ジョニデ主演『ダーク・シャドウ』の公開日が決定

3： 　こんなヴァンパイアは見たことがない！　ジョニー・デップとティム・バートン監督がタッグを組んだ映画『ダーク・シャドウズ（原題）』の邦題が『ダーク・シャドウ』に決定。日本公開日が5月19日に決まった。さらに、ジョニー・デップ演じるヴァンパイアの写真が公開された。



In [6]:
def extract_main_txt(file_name):
    with open(file_name, "r", encoding="utf-8") as text_file:
        # 今回はタイトル行は外したいので、3要素目以降の本文のみ使用
        text = text_file.readlines()[3:]

        # 3要素目以降にも本文が入っている場合があるので、リストにして、後で結合させる
        text = [sentence.strip() for sentence in text]  # 空白文字(スペースやタブ、改行)の削除
        text = list(filter(lambda line: line != '', text))
        text = ''.join(text)
        text = text.translate(str.maketrans(
            {'\n': '', '\t': '', '\r': '', '\u3000': ''}))  # 改行やタブ、全角スペースを消す
        return text

In [7]:
import glob

list_text = []
list_label = []

for cat in categories:
    text_files = glob.glob(os.path.join("../data/livedoor/text", cat, "*.txt"))

    # 前処理extract_main_txtを実施して本文を取得
    body = [extract_main_txt(text_file) for text_file in text_files]

    label = [cat] * len(body)  # bodyの数文だけカテゴリー名のラベルのリストを作成

    list_text.extend(body)  # appendが要素を追加するのに対して、extendはリストごと追加する
    list_label.extend(label)

In [8]:
print(list_text[0])
print(list_label[0])

2005年11月から翌2006年7月まで読売新聞にて連載された、直木賞作家・角田光代による初の長編サスペンス『八日目の蝉』。2010年に檀れいと北乃きいの出演によりテレビドラマ化された同作が、2011年4月に永作博美と井上真央の出演によって映画化。そして、劇場公開から半年が過ぎた10月28日、DVD＆ブルーレイとなって発売されました。八日目の蝉妻子ある男と愛し合い、その子を身ごもりながら、あきらめざるをえなかった女。彼女は同時に、男の妻が子供を産んだことを知る。その赤ん坊を見に行った女は、突発的にその子を連れ去り、逃避行を続けた挙句、小豆島に落ち着き、母と娘として暮らしはじめる。不倫相手の子供を誘拐し、4年間育てた女永作博美が演じる野々宮希和子は、不倫相手の子を宿しながらも、彼の「いずれ妻と別れるから、それまで待ってくれ」という常套句を信じて、中絶。後遺症により、二度と子供を産めない身体となってしまいます。その後、不倫相手から彼の妻が出産したことを知らされ、別れを決意。最後に諦めをつけるため、彼らの生後6ヶ月の赤ん坊・恵理菜の顔を見た希和子でしたが、自分に笑顔で向けた恵理菜を見て、思わず誘拐。名前を変えて恵理菜を薫と名付けると、人目を避けて各地を転々とし、二人で幸せな時間を過ごしますが、辿り着いた最後の場所・小豆島で4年の逃避行に終止符を打ちます。誘拐犯に育てられた女4歳になって実の両親と再会を果たした後も、世間から言われの無い中傷を受け、本当の両親との関係を築けないまま、21歳の大学生へと成長した恵理菜。過去と向き合うことを避けてきた恵理菜でしたが、劇団ひとりが演じる不倫相手・岸田孝史の子を宿し、ずっと憎み続けてきた希和子と同じ道を歩んでいることに気付いた彼女は、小池栄子が演じるルポライター・安藤千草と共に、4年間の逃亡生活を追憶する旅に出ます。希和子との幸せだった時間に触れながら、最終地・小豆島に辿り着いた恵理菜が見た真実とは？八日目の蝉は幸せなのだろうか？蝉は俗説として、一生の大半を幼虫として地下で費やし、地上に出て羽化からわずか1週間程度で死ぬと言われています。八日目まで生き残ってしまった蝉が目にしたのは、孤独か、あるいは誰も目にすることのできなかった世界なのでしょうか。中絶によって二度と子供を埋めない身体になった希和子が、恵理菜と過ごした4年間の“八日目”

In [9]:
# pandasのDataFrameにする
import pandas as pd

df = pd.DataFrame({'text': list_text, 'label': list_label})

# 大きさを確認しておく（7,376文章が存在）
print(df.shape)

df.head()


(7376, 2)


Unnamed: 0,text,label
0,2005年11月から翌2006年7月まで読売新聞にて連載された、直木賞作家・角田光代による初...,movie-enter
1,「アンテナを張りながら生活をしていけばいい」2月28日、映画『おかえり、はやぶさ』（3月10...,movie-enter
2,3月2日より全国ロードショーとなる、スティーブン・スピルバーグの待望の監督最新作『戦火の馬』...,movie-enter
3,女優の香里奈が18日、都内で行われた映画『ガール』（5月26日公開）の女子高生限定試写会にサ...,movie-enter
4,5日、東京・千代田区の内幸町ホールにて、映画『キャプテン・アメリカ/ザ・ファースト・アベンジ...,movie-enter


In [10]:
# カテゴリーの辞書を作成
dic_id2cat = dict(zip(list(range(len(categories))), categories))
dic_cat2id = dict(zip(categories, list(range(len(categories)))))

print(dic_id2cat)
print(dic_cat2id)

# DataFrameにカテゴリーindexの列を作成
df["label_index"] = df["label"].map(dic_cat2id)
df.head()

# label列を消去し、text, indexの順番にする
df = df.loc[:, ["text", "label_index"]]
df.head()

{0: 'movie-enter', 1: 'it-life-hack', 2: 'kaden-channel', 3: 'topic-news', 4: 'livedoor-homme', 5: 'peachy', 6: 'sports-watch', 7: 'dokujo-tsushin', 8: 'smax'}
{'movie-enter': 0, 'it-life-hack': 1, 'kaden-channel': 2, 'topic-news': 3, 'livedoor-homme': 4, 'peachy': 5, 'sports-watch': 6, 'dokujo-tsushin': 7, 'smax': 8}


Unnamed: 0,text,label_index
0,2005年11月から翌2006年7月まで読売新聞にて連載された、直木賞作家・角田光代による初...,0
1,「アンテナを張りながら生活をしていけばいい」2月28日、映画『おかえり、はやぶさ』（3月10...,0
2,3月2日より全国ロードショーとなる、スティーブン・スピルバーグの待望の監督最新作『戦火の馬』...,0
3,女優の香里奈が18日、都内で行われた映画『ガール』（5月26日公開）の女子高生限定試写会にサ...,0
4,5日、東京・千代田区の内幸町ホールにて、映画『キャプテン・アメリカ/ザ・ファースト・アベンジ...,0


In [11]:
# 順番をシャッフルする
df = df.sample(frac=1, random_state=123).reset_index(drop=True)
df.head()

Unnamed: 0,text,label_index
0,今月24日、日本プロ野球選手会会長を務める阪神タイガース・新井貴浩は、日本野球機構との事務折...,6
1,14日深夜、フジテレビ「すぽると！」では、巨人・坂本勇人のインタビューを放送、不本意な一年と...,6
2,2日、婚活ニュースは、タレント・杉本彩がラジオ番組で「韓国はイケメンが多い？幻想でしょ」と発...,3
3,今月21日（木）、テレビ朝日の人気バラエティ番組「アメトーーク!」では、「広島カープ芸人」と...,6
4,先日、ドラマ「美咲ナンバーワン!!」(NTV)の放送が終了した。このドラマは、香里奈が演じる...,5


In [12]:
# tsvファイルで保存する

# 全体の2割の文章数
len_0_2 = len(df) // 5

# 前から2割をテストデータとする
df[:len_0_2].to_csv("../data/test.tsv", sep='\t', index=False, header=None)
print(df[:len_0_2].shape)

# 前2割からを訓練&検証データとする
df[len_0_2:].to_csv("../data/train_eval.tsv", sep='\t', index=False, header=None)
print(df[len_0_2:].shape)

(1475, 2)
(5901, 2)


In [13]:
df[:len_0_2]

Unnamed: 0,text,label_index
0,今月24日、日本プロ野球選手会会長を務める阪神タイガース・新井貴浩は、日本野球機構との事務折...,6
1,14日深夜、フジテレビ「すぽると！」では、巨人・坂本勇人のインタビューを放送、不本意な一年と...,6
2,2日、婚活ニュースは、タレント・杉本彩がラジオ番組で「韓国はイケメンが多い？幻想でしょ」と発...,3
3,今月21日（木）、テレビ朝日の人気バラエティ番組「アメトーーク!」では、「広島カープ芸人」と...,6
4,先日、ドラマ「美咲ナンバーワン!!」(NTV)の放送が終了した。このドラマは、香里奈が演じる...,5
...,...,...
1470,「女はかわいく生まれたほうが得、モテモテ気分を味わってこそ女冥利に尽きる」と、一般的には考え...,7
1471,電車での移動時など、スマートフォンを持つ人を多く目にするようになったが、13日にMM総研が発...,0
1472,世界のコーヒーとして名高いネスカフェが、独自の製法で実現させた冷たい水や牛乳にも溶けるインス...,5
1473,年末年始は何かと物入りで出費が多くなる時期。「きのうお財布に万札入れておいたのに、あれ？ も...,7
