# japanese_fakenews_dataset_2_txt.ipynb

## 基本情報
- author
    - Kataoka Nagi (calm1836[at]gmail.com)
- brief
    - Translate Japanese Fake News Dataset 2 txt
- date
    - 2021-09-01
- version
    - 1.0
- copyright (c) 2021 Kataoka Nagi
    - This src is released under the MIT License, see LICENSE.

## 要件
- 変換前データ
    - [Kaggle「Japanese Fake News Dataset」](https://www.kaggle.com/tanreinama/japanese-fakenews-dataset)
        - フェイクニュースとフェイクでないニュースがラベル付きで混合されている
        - [オープンデータコモンズパブリックドメイン専用およびライセンス（PDDL）v1.0](http://translate.google.com/translate?hl=ja&sl=auto&tl=ja&u=https%3A%2F%2Fopendatacommons.org%2Flicenses%2Fpddl%2F1-0%2F)
            - 受信者は、本作品を商業的に利用したり、技術的な保護手段を用いたり、本データやデータベースを他のデータベースやデータと組み合わせたり、変更や追加を共有したり、秘密にしたりすることができます。
        - 元の記事はCC BYのウィキニュース
- 変換後データ
    - フェイクでないニュースのみを抽出
        - 3685記事
    - txtファイル
        - \n
    - 行
        - 各記事に対応
    - 列
        - 1記事の全文章

## 使い方
- 実行時にGoogle認証
    - 認証後に表示されるコードを入力
- 処理したtxtファイルの保存先をSAVING_TXT_DIRに代入
- 初回のみ
    - Kaggleから記事のデータセットをダウンロード
        - Kaggle関係のコードをアンコメント
            - FAKENEWS_DIR = "/content/fakenews.csv" もアンコメント
        - Kaggleにログインしてkaggle.jsonを取得し、実行時にアップロードする
- 2回目以降
    - Kaggle関係のコードをアンコメント
    - Googleドライブにfakenews.csvをアップロード
    - FAKENEWS_DIRにアップロード先のパスを代入

## Setup

In [3]:
from google.colab import files

# FAKENEWS_DIR = "/content/fakenews.csv" # when download from kaggle
FAKENEWS_DIR = "/content/drive/MyDrive/lab/experiment/japanese_fakenews_dataset_2_txt/fakenews.csv" # already downloaded
SAVING_TXT_NAME = "japanese_fakenews_dataset.txt"
SAVING_TXT_DIR = "/content/drive/MyDrive/lab/experiment/japanese_fakenews_dataset_2_txt/" + SAVING_TXT_NAME

### Mount google drive

In [4]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


### upload kaggle.json

In [5]:
# !pip install kaggle

In [6]:
# from google.colab import files

# uploaded = files.upload()

# for fn in uploaded.keys():
#   print('User uploaded file "{name}" with length {length} bytes'.format(
#       name=fn, length=len(uploaded[fn])))

# # Then move kaggle.json into the folder where the API expects to find it.
# !mkdir -p ~/.kaggle/ && mv kaggle.json ~/.kaggle/ && chmod 600 ~/.kaggle/kaggle.json

## Download

In [7]:
# !kaggle datasets download -d tanreinama/japanese-fakenews-dataset

In [8]:
# !unzip "/content/japanese-fakenews-dataset.zip"

## Translate

### Extract sentences

In [9]:
NUM_COLUMNS = 5
CONTEXT_IDX = 1
ISFAKE_IDX = 2
NEWSTXT_LABEL = 0

fakenews_data = []
wikinews_txts = []

with open(FAKENEWS_DIR, "r", encoding="utf_8") as f:
    lines = f.readlines()

    # debug
    print("fakenews.csv lines:")
    print()
    print(lines[0])
    print(lines[1])
    print(lines[2])

    # extract sentences
    for line in lines[1:]:
        splits = line.rstrip("\n").split(",") # attention to commas in the contexts

        isfake_idx_of_splits = len(splits) - NUM_COLUMNS + ISFAKE_IDX
        isfake = splits[isfake_idx_of_splits] # = 0, 1, 2
        # print("isfake:")
        # print(isfake)

        if isfake == str(NEWSTXT_LABEL):
            last_contexts_idx_of_splits = isfake_idx_of_splits - 1
            sepatated_wikinews_txt = splits[CONTEXT_IDX:last_contexts_idx_of_splits + 1]
            wikinews_txt = ''.join(sepatated_wikinews_txt)
            wikinews_txts.append(wikinews_txt)
            # print("wikinews_txt: ")
            # print(wikinews_txt)

print()
print("len(wikinews_txts)")
print("(kaggle describe 3685) :")
print(len(wikinews_txts))

print()
print("wikinews_txts:")
print(wikinews_txts[0])
print(wikinews_txts[1])
print(wikinews_txts[len(wikinews_txts) - 1])

fakenews.csv lines:

id,context,isfake,nchar_real,nchar_fake

000128042337,朝日新聞など各社の報道によれば、宅配便最大手「ヤマト運輸」が日本郵政公社を相手取り、大手コンビニエンスストア「ローソン」でのサービス提供の差し止めなどを求めていた訴訟で、2006年1月19日、東京地方裁判所でヤマト運輸の請求を棄却する判決が下された。2004年のローソンでの郵便小包サービス「ゆうパック」の受付業務開始に際し、ヤマト運輸は「独占禁止法に違反する不当な廉売」として、日本郵政公社を相手取り、サービス提供の差し止めなどを求めていた。朝日新聞によれば、提訴の内容は、2004年11月のローソンでの「ゆうパック」の受付サービス提供の開始に関連し、租税などの優遇措置を受けている日本郵政公社が、配送料金（運賃）などの有利な取引条件でローソンで「ゆうパック」を開始させたのは、独占禁止法の不当廉売に当たり、ヤマト運輸の利益を侵害されるとして、「ゆうパック」サービス提供の差し止めなどを求めていたもの。朝日新聞によれば、判決内容はヤマト運輸の主張を全面的に否定しており、今後の「ゆうパック」サービスの拡大に弾みがつくものと考えられる。日本郵政公社は、公正妥当な判決とのコメントを出した。一方、ヤマト運輸は、高等裁判所への控訴など、今後の対応については検討するとアナウンスしている。,0,541,0

00012b7a8314,11月5日の各社報道によると、諫早湾干拓事業は諫早海人（諫早湾の「海」）に囲まれる大洋に位置することから、人身売買により、環境問題に加え、環境保護にも関心が向けられた。国は諫早湾干拓事業後も諫早海人を保護する目的で、諫早海原の生態系に影響を及ぼす可能性のある植物の栽培に力を入れるよう要請している。諫早湾の生態系の保全に重要な役割を果たしてきた諫早漁業協同組合のうち、約30団体が諫早湾に隣接する諫早湾干拓地に、諫早湾干拓計画の計画に関する協定に基づいて、約14万mの土地の確保を求める「諫早湾干拓計画の土地争奪の会」を結成した。組合理事長には諫早漁業協同組合長で、諫早干拓地に漁業協定を締結し、2017年(平成29年)2月5日に、干拓地の土地購入を求める請願書を諫早海人の保護に向けて請願書を添えて諫早湾干拓地に対して「

# Delete double quotation of both side of the part of contexts

In [27]:
for i in range(100):
    print(wikinews_txts[i])

朝日新聞など各社の報道によれば、宅配便最大手「ヤマト運輸」が日本郵政公社を相手取り、大手コンビニエンスストア「ローソン」でのサービス提供の差し止めなどを求めていた訴訟で、2006年1月19日、東京地方裁判所でヤマト運輸の請求を棄却する判決が下された。2004年のローソンでの郵便小包サービス「ゆうパック」の受付業務開始に際し、ヤマト運輸は「独占禁止法に違反する不当な廉売」として、日本郵政公社を相手取り、サービス提供の差し止めなどを求めていた。朝日新聞によれば、提訴の内容は、2004年11月のローソンでの「ゆうパック」の受付サービス提供の開始に関連し、租税などの優遇措置を受けている日本郵政公社が、配送料金（運賃）などの有利な取引条件でローソンで「ゆうパック」を開始させたのは、独占禁止法の不当廉売に当たり、ヤマト運輸の利益を侵害されるとして、「ゆうパック」サービス提供の差し止めなどを求めていたもの。朝日新聞によれば、判決内容はヤマト運輸の主張を全面的に否定しており、今後の「ゆうパック」サービスの拡大に弾みがつくものと考えられる。日本郵政公社は、公正妥当な判決とのコメントを出した。一方、ヤマト運輸は、高等裁判所への控訴など、今後の対応については検討するとアナウンスしている。
サッカー・日本フットボールリーグ（JFL）は、三菱水島FC（岡山県）が2009年限りで同リーグから撤退することを発表した。JFLによると、三菱水島FCは9月30日付け（UTC+9）でJFLにリーグ脱退届けの文章を提出していた。その理由として、「経済不況、およびその他諸事情からチームを運営する三菱自工・水島製作所の判断でJFLでの活動を続けるのが困難になった」としている。これを受けてJFLは臨時評議会を開催し、JFLでの成績に関係なく2009年を最後にJFLでの活動を終えることを承認した。読売新聞によると、三菱水島FCは2009年JFLでは現在最下位。JFL加盟チームの撤退は2003年のジヤトコ（経済不況の影響）、2004年の国士舘大学（部員不祥事により出場辞退）に次ぐ3回目のことである。なおJFLによると、三菱水島FCは今後も日本サッカー協会に登録しチームの活動そのものは続けるとしている。山陽新聞によると、三菱水島FCが2010年度にどのリーグ（中国社会人リーグ、岡山県社会人全県リーグ、あるいは岡山県備

In [39]:
wilkinews_txts_deleted_quotation = []
for txt in wikinews_txts:
    if txt[0] == '\"' and txt[-1] == '\"':
        wilkinews_txts_deleted_quotation.append(txt[1:-1])
    else:
        wilkinews_txts_deleted_quotation.append(txt[:])

In [40]:
for i in range(100):
    print(wilkinews_txts_deleted_quotation[i])

朝日新聞など各社の報道によれば、宅配便最大手「ヤマト運輸」が日本郵政公社を相手取り、大手コンビニエンスストア「ローソン」でのサービス提供の差し止めなどを求めていた訴訟で、2006年1月19日、東京地方裁判所でヤマト運輸の請求を棄却する判決が下された。2004年のローソンでの郵便小包サービス「ゆうパック」の受付業務開始に際し、ヤマト運輸は「独占禁止法に違反する不当な廉売」として、日本郵政公社を相手取り、サービス提供の差し止めなどを求めていた。朝日新聞によれば、提訴の内容は、2004年11月のローソンでの「ゆうパック」の受付サービス提供の開始に関連し、租税などの優遇措置を受けている日本郵政公社が、配送料金（運賃）などの有利な取引条件でローソンで「ゆうパック」を開始させたのは、独占禁止法の不当廉売に当たり、ヤマト運輸の利益を侵害されるとして、「ゆうパック」サービス提供の差し止めなどを求めていたもの。朝日新聞によれば、判決内容はヤマト運輸の主張を全面的に否定しており、今後の「ゆうパック」サービスの拡大に弾みがつくものと考えられる。日本郵政公社は、公正妥当な判決とのコメントを出した。一方、ヤマト運輸は、高等裁判所への控訴など、今後の対応については検討するとアナウンスしている。
サッカー・日本フットボールリーグ（JFL）は、三菱水島FC（岡山県）が2009年限りで同リーグから撤退することを発表した。JFLによると、三菱水島FCは9月30日付け（UTC+9）でJFLにリーグ脱退届けの文章を提出していた。その理由として、「経済不況、およびその他諸事情からチームを運営する三菱自工・水島製作所の判断でJFLでの活動を続けるのが困難になった」としている。これを受けてJFLは臨時評議会を開催し、JFLでの成績に関係なく2009年を最後にJFLでの活動を終えることを承認した。読売新聞によると、三菱水島FCは2009年JFLでは現在最下位。JFL加盟チームの撤退は2003年のジヤトコ（経済不況の影響）、2004年の国士舘大学（部員不祥事により出場辞退）に次ぐ3回目のことである。なおJFLによると、三菱水島FCは今後も日本サッカー協会に登録しチームの活動そのものは続けるとしている。山陽新聞によると、三菱水島FCが2010年度にどのリーグ（中国社会人リーグ、岡山県社会人全県リーグ、あるいは岡山県備

## Write

In [41]:
with open(SAVING_TXT_DIR, 'w', encoding="utf-8") as f:
    for txt in wilkinews_txts_deleted_quotation:
        f.write("%s\n" % txt)