# japanese_fakenews_dataset_2_csv.ipynb

## 基本情報
- author
    - Kataoka Nagi (calm1836[at]gmail.com)
- brief
    - Translate Japanese Fake News Dataset 2 CSV
- date
    - 2021-09-01
- version
    - 1.0
- copyright (c) 2021 Kataoka Nagi
    - This src is released under the MIT License, see LICENSE.

## 要件
- 変換前データ
    - [Kaggle「Japanese Fake News Dataset」](https://www.kaggle.com/tanreinama/japanese-fakenews-dataset)
        - フェイクニュースとフェイクでないニュースがラベル付きで混合されている
        - [オープンデータコモンズパブリックドメイン専用およびライセンス（PDDL）v1.0](http://translate.google.com/translate?hl=ja&sl=auto&tl=ja&u=https%3A%2F%2Fopendatacommons.org%2Flicenses%2Fpddl%2F1-0%2F)
            - 受信者は、本作品を商業的に利用したり、技術的な保護手段を用いたり、本データやデータベースを他のデータベースやデータと組み合わせたり、変更や追加を共有したり、秘密にしたりすることができます。
        - 元の記事はCC BYのウィキニュース
- 変換後データ
    - フェイクでないニュースのみを抽出
        - 3685記事
    - CSVファイル
        - コンマ区切り
    - 行
        - 各記事に対応
    - 列
        - 各文章に対応

## 使い方
- Kaggleにログインし、kaggle.jsonを取得してアップロードする

## Setup

In [None]:
from google.colab import files

FAKENEWS_DIR = "/content/fakenews.csv"

In [None]:
!pip install kaggle



upload kaggle.json

In [None]:
from google.colab import files

uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

# Then move kaggle.json into the folder where the API expects to find it.
!mkdir -p ~/.kaggle/ && mv kaggle.json ~/.kaggle/ && chmod 600 ~/.kaggle/kaggle.json

Saving kaggle.json to kaggle.json
User uploaded file "kaggle.json" with length 67 bytes


## Download

In [None]:
!kaggle datasets download -d tanreinama/japanese-fakenews-dataset

Downloading japanese-fakenews-dataset.zip to /content
  0% 0.00/7.68M [00:00<?, ?B/s]100% 7.68M/7.68M [00:00<00:00, 79.0MB/s]



In [None]:
!unzip "/content/japanese-fakenews-dataset.zip"

Archive:  /content/japanese-fakenews-dataset.zip
  inflating: fakenews.csv            


## Translate

In [None]:
CONTEXT_IDX = 1
ISFAKE_IDX = 2
NEWSTXT_LABEL = 0

fakenews_data = []
wikinews_txts = []
wikinews_sentences = []

with open(FAKENEWS_DIR, "r", encoding="utf_8") as f:
    lines = f.readlines()
    print("fakenews.csv lines:")
    print(lines[0])
    print(lines[1])
    print(lines[2])
    print()
    for line in lines[1:]:
        fields = line.rstrip("\n").split(",")
        fakenews_data.append(fields)
        if fields[ISFAKE_IDX] == str(NEWSTXT_LABEL): 
            wikinews_txts.append(fields[CONTEXT_IDX])
            wikinews_sentences.append(fields[CONTEXT_IDX].split("。")[:-1])

# debug
print("fakenews_data:")
print(fakenews_data[0])
print(fakenews_data[1])
print()

print("wikinews_txts:")
print(wikinews_txts[0])
print(wikinews_txts[1])
print()

print("wikinews_sentences:")
print(wikinews_sentences[0])
print(wikinews_sentences[1])
print()

fakenews.csv lines:
id,context,isfake,nchar_real,nchar_fake

000128042337,朝日新聞など各社の報道によれば、宅配便最大手「ヤマト運輸」が日本郵政公社を相手取り、大手コンビニエンスストア「ローソン」でのサービス提供の差し止めなどを求めていた訴訟で、2006年1月19日、東京地方裁判所でヤマト運輸の請求を棄却する判決が下された。2004年のローソンでの郵便小包サービス「ゆうパック」の受付業務開始に際し、ヤマト運輸は「独占禁止法に違反する不当な廉売」として、日本郵政公社を相手取り、サービス提供の差し止めなどを求めていた。朝日新聞によれば、提訴の内容は、2004年11月のローソンでの「ゆうパック」の受付サービス提供の開始に関連し、租税などの優遇措置を受けている日本郵政公社が、配送料金（運賃）などの有利な取引条件でローソンで「ゆうパック」を開始させたのは、独占禁止法の不当廉売に当たり、ヤマト運輸の利益を侵害されるとして、「ゆうパック」サービス提供の差し止めなどを求めていたもの。朝日新聞によれば、判決内容はヤマト運輸の主張を全面的に否定しており、今後の「ゆうパック」サービスの拡大に弾みがつくものと考えられる。日本郵政公社は、公正妥当な判決とのコメントを出した。一方、ヤマト運輸は、高等裁判所への控訴など、今後の対応については検討するとアナウンスしている。,0,541,0

00012b7a8314,11月5日の各社報道によると、諫早湾干拓事業は諫早海人（諫早湾の「海」）に囲まれる大洋に位置することから、人身売買により、環境問題に加え、環境保護にも関心が向けられた。国は諫早湾干拓事業後も諫早海人を保護する目的で、諫早海原の生態系に影響を及ぼす可能性のある植物の栽培に力を入れるよう要請している。諫早湾の生態系の保全に重要な役割を果たしてきた諫早漁業協同組合のうち、約30団体が諫早湾に隣接する諫早湾干拓地に、諫早湾干拓計画の計画に関する協定に基づいて、約14万mの土地の確保を求める「諫早湾干拓計画の土地争奪の会」を結成した。組合理事長には諫早漁業協同組合長で、諫早干拓地に漁業協定を締結し、2017年(平成29年)2月5日に、干拓地の土地購入を求める請願書を諫早海人の保護に向けて請願書を添えて諫早湾干拓地に対して「諫

## Debug

### wikinews_sentences

In [None]:
NUM_DEBUG_NEWS = 300

print(wikinews_sentences[0])
for news_idx in range(NUM_DEBUG_NEWS):
    print('wikinews_sentences[{}]'.format(news_idx))
    for sentence in wikinews_sentences[news_idx]:
        print(sentence)
    print()

['朝日新聞など各社の報道によれば、宅配便最大手「ヤマト運輸」が日本郵政公社を相手取り、大手コンビニエンスストア「ローソン」でのサービス提供の差し止めなどを求めていた訴訟で、2006年1月19日、東京地方裁判所でヤマト運輸の請求を棄却する判決が下された', '2004年のローソンでの郵便小包サービス「ゆうパック」の受付業務開始に際し、ヤマト運輸は「独占禁止法に違反する不当な廉売」として、日本郵政公社を相手取り、サービス提供の差し止めなどを求めていた', '朝日新聞によれば、提訴の内容は、2004年11月のローソンでの「ゆうパック」の受付サービス提供の開始に関連し、租税などの優遇措置を受けている日本郵政公社が、配送料金（運賃）などの有利な取引条件でローソンで「ゆうパック」を開始させたのは、独占禁止法の不当廉売に当たり、ヤマト運輸の利益を侵害されるとして、「ゆうパック」サービス提供の差し止めなどを求めていたもの', '朝日新聞によれば、判決内容はヤマト運輸の主張を全面的に否定しており、今後の「ゆうパック」サービスの拡大に弾みがつくものと考えられる', '日本郵政公社は、公正妥当な判決とのコメントを出した', '一方、ヤマト運輸は、高等裁判所への控訴など、今後の対応については検討するとアナウンスしている']
wikinews_sentences[0]
朝日新聞など各社の報道によれば、宅配便最大手「ヤマト運輸」が日本郵政公社を相手取り、大手コンビニエンスストア「ローソン」でのサービス提供の差し止めなどを求めていた訴訟で、2006年1月19日、東京地方裁判所でヤマト運輸の請求を棄却する判決が下された
2004年のローソンでの郵便小包サービス「ゆうパック」の受付業務開始に際し、ヤマト運輸は「独占禁止法に違反する不当な廉売」として、日本郵政公社を相手取り、サービス提供の差し止めなどを求めていた
朝日新聞によれば、提訴の内容は、2004年11月のローソンでの「ゆうパック」の受付サービス提供の開始に関連し、租税などの優遇措置を受けている日本郵政公社が、配送料金（運賃）などの有利な取引条件でローソンで「ゆうパック」を開始させたのは、独占禁止法の不当廉売に当たり、ヤマト運輸の利益を侵害されるとして、「ゆうパック」サービス提供の差し止めなどを求めていたもの
朝日新聞によれば、判決内容はヤマ