# japanese_fakenews_dataset_2_txt.ipynb

## 基本情報
- author
    - Kataoka Nagi (calm1836[at]gmail.com)
- brief
    - Translate Japanese Fake News Dataset 2 txt
- date
    - 2021-09-01
- version
    - 1.0
- copyright (c) 2021 Kataoka Nagi
    - This src is released under the MIT License, see LICENSE.

## 要件
- 変換前データ
    - [Kaggle「Japanese Fake News Dataset」](https://www.kaggle.com/tanreinama/japanese-fakenews-dataset)
        - フェイクニュースとフェイクでないニュースがラベル付きで混合されている
        - [オープンデータコモンズパブリックドメイン専用およびライセンス（PDDL）v1.0](http://translate.google.com/translate?hl=ja&sl=auto&tl=ja&u=https%3A%2F%2Fopendatacommons.org%2Flicenses%2Fpddl%2F1-0%2F)
            - 受信者は、本作品を商業的に利用したり、技術的な保護手段を用いたり、本データやデータベースを他のデータベースやデータと組み合わせたり、変更や追加を共有したり、秘密にしたりすることができます。
        - 元の記事はCC BYのウィキニュース
- 変換後データ
    - フェイクでないニュースのみを抽出
        - 3685記事
    - txtファイル
        - \n
    - 行
        - 各記事に対応
    - 列
        - 1記事の全文章

## 使い方
- Kaggleにログインし、kaggle.jsonを取得してアップロードする

## Setup

In [2]:
from google.colab import files

FAKENEWS_DIR = "/content/fakenews.csv"
SAVING_TXT_NAME = "japanese_fakenews_dataset.txt"
SAVING_TXT_DIR = "/content/drive/MyDrive/lab/experiment/japanese_fakenews_dataset_2_txt/" + SAVING_TXT_NAME

### Mount google drive

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


### upload kaggle.json

In [4]:
!pip install kaggle



In [5]:
from google.colab import files

uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

# Then move kaggle.json into the folder where the API expects to find it.
!mkdir -p ~/.kaggle/ && mv kaggle.json ~/.kaggle/ && chmod 600 ~/.kaggle/kaggle.json

Saving kaggle.json to kaggle.json
User uploaded file "kaggle.json" with length 67 bytes


## Download

In [6]:
!kaggle datasets download -d tanreinama/japanese-fakenews-dataset

Downloading japanese-fakenews-dataset.zip to /content
 65% 5.00M/7.68M [00:00<00:00, 6.06MB/s]
100% 7.68M/7.68M [00:00<00:00, 8.73MB/s]


In [7]:
!unzip "/content/japanese-fakenews-dataset.zip"

Archive:  /content/japanese-fakenews-dataset.zip
  inflating: fakenews.csv            


## Translate

### Extract sentences

In [29]:
NUM_COLUMNS = 5
CONTEXT_IDX = 1
ISFAKE_IDX = 2
NEWSTXT_LABEL = 0

fakenews_data = []
wikinews_txts = []

with open(FAKENEWS_DIR, "r", encoding="utf_8") as f:
    lines = f.readlines()

    # debug
    print("fakenews.csv lines:")
    print()
    print(lines[0])
    print(lines[1])
    print(lines[2])

    # extract sentences
    for line in lines[1:]:
        splits = line.rstrip("\n").split(",") # attention to commas in the contexts

        isfake_idx_of_splits = len(splits) - NUM_COLUMNS + ISFAKE_IDX
        isfake = splits[isfake_idx_of_splits] # = 0, 1, 2
        # print("isfake:")
        # print(isfake)

        if isfake == str(NEWSTXT_LABEL):
            last_contexts_idx_of_splits = isfake_idx_of_splits - 1
            sepatated_wikinews_txt = splits[CONTEXT_IDX:last_contexts_idx_of_splits + 1]
            wikinews_txt = ''.join(sepatated_wikinews_txt)
            wikinews_txts.append(wikinews_txt)
            # print("wikinews_txt: ")
            # print(wikinews_txt)

print()
print("len(wikinews_txts):")
print(len(wikinews_txts))

print()
print("wikinews_txts:")
print(wikinews_txts[0])
print(wikinews_txts[1])
print(wikinews_txts[len(wikinews_txts) - 1])

fakenews.csv lines:

id,context,isfake,nchar_real,nchar_fake

000128042337,朝日新聞など各社の報道によれば、宅配便最大手「ヤマト運輸」が日本郵政公社を相手取り、大手コンビニエンスストア「ローソン」でのサービス提供の差し止めなどを求めていた訴訟で、2006年1月19日、東京地方裁判所でヤマト運輸の請求を棄却する判決が下された。2004年のローソンでの郵便小包サービス「ゆうパック」の受付業務開始に際し、ヤマト運輸は「独占禁止法に違反する不当な廉売」として、日本郵政公社を相手取り、サービス提供の差し止めなどを求めていた。朝日新聞によれば、提訴の内容は、2004年11月のローソンでの「ゆうパック」の受付サービス提供の開始に関連し、租税などの優遇措置を受けている日本郵政公社が、配送料金（運賃）などの有利な取引条件でローソンで「ゆうパック」を開始させたのは、独占禁止法の不当廉売に当たり、ヤマト運輸の利益を侵害されるとして、「ゆうパック」サービス提供の差し止めなどを求めていたもの。朝日新聞によれば、判決内容はヤマト運輸の主張を全面的に否定しており、今後の「ゆうパック」サービスの拡大に弾みがつくものと考えられる。日本郵政公社は、公正妥当な判決とのコメントを出した。一方、ヤマト運輸は、高等裁判所への控訴など、今後の対応については検討するとアナウンスしている。,0,541,0

00012b7a8314,11月5日の各社報道によると、諫早湾干拓事業は諫早海人（諫早湾の「海」）に囲まれる大洋に位置することから、人身売買により、環境問題に加え、環境保護にも関心が向けられた。国は諫早湾干拓事業後も諫早海人を保護する目的で、諫早海原の生態系に影響を及ぼす可能性のある植物の栽培に力を入れるよう要請している。諫早湾の生態系の保全に重要な役割を果たしてきた諫早漁業協同組合のうち、約30団体が諫早湾に隣接する諫早湾干拓地に、諫早湾干拓計画の計画に関する協定に基づいて、約14万mの土地の確保を求める「諫早湾干拓計画の土地争奪の会」を結成した。組合理事長には諫早漁業協同組合長で、諫早干拓地に漁業協定を締結し、2017年(平成29年)2月5日に、干拓地の土地購入を求める請願書を諫早海人の保護に向けて請願書を添えて諫早湾干拓地に対して「

# Delete double quotation of both side of the part of contexts

In [26]:
for txt in wikinews_txts:
    print(txt)

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)




読売新聞・朝日新聞によると、国際宇宙ステーション（ISS）に物資を輸送する無人補給船・『こうのとり（HTV）2号機』を塔載した日本製大型ロケット、H-2Bの2号機が、1月22日（UTC+9）午後2時37分に、宇宙航空研究開発機構によって種子島宇宙センター（鹿児島県）から打ち上げられた。朝日新聞によると、H-2BとHTVの打ち上げは、2009年9月に続き2回目のこととなる。読売新聞によると、HTVは、打ち上げから約15分後に、高度290キロメートルの軌道に投入された。朝日新聞によると、HTVは、国際的な約束によって分担しているISSへの補給義務を行うために新たに開発されたもの。機体は直径約1.4メートル、長さ約10メートルの円筒形をしており、積んでいる荷物を含めた総重量は約16トン。機内には、宇宙飛行士のための食料や飲料水、日用品のほか、ISS内の日本の実験棟・『きぼう』で使用する実験機器などが積み込まれている。読売新聞によると、HTVは今後、高度350キロメートルに位置するISSに接近し、1月28日未明にドッキングが行われる。3月28日にISSで生じた廃棄物を積んで離脱、翌3月29日に大気圏に突入し燃え尽きることになっている。2011年6月に予定されているスペースシャトルの退役後は、HTVがISSに大型装置を輸送することが可能な唯一の手段となる予定である。
被疑者の茨城県警ひたちなか東署刑事・生活安全課・元巡査長が県内のパチンコ店経営会社役員から賄賂をうけたとして捜査されている。この事件で、約1年3ヶ月の間に現金840万円を賄賂として受け取っていた疑いが出てきた。各社の報道では、パチンコ台に大当たりを出させる違法な電子機器、いわゆる「裏ロム」をパチンコ業者が取り付けるのを元巡査長が黙認する見返りに現金を受け取った他、毎月飲食の接待を受けていた。さらに、別のパチンコ業者からも月5万円の高級国産車リース料を4年間にわたって肩代わりさせ、私用車にしていたと伝えられている。元巡査長は、茨城県警でパチンコの許認可業務に約7年間携わっていた。茨城県警は、元巡査長を6月29日付けで懲戒免職にしている。朝日新聞の取材（2005年7月2日付茨城版地方面の記事）では、県警退職者が茨城県遊技業協同組合に3名、茨城県防犯協会には5名天下りしている他、パチンコ店に天下りしている場合もあると

In [35]:
wikinews_txts[4][0]

'ス'

In [36]:
wikinews_txts[5][1]

'ポ'

In [32]:
for txt in wikinews_txts:
    if txt[0] == '\"':
        txt = txt[1:len(txt)] 
    if txt[len(txt) - 1] == '\"':
        txt = txt[:len(txt) - 2] 

In [33]:
for txt in wikinews_txts:
    print(txt)

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



毎日新聞と朝日新聞によると、漫才師・中田カウス氏（59歳）の自宅宛に脅迫状が送られた事件で、コメディNo.1の前田五郎氏（67歳）が、それに関与していたのではないかとする報道があったことを受けて、所属している吉本興業は前田氏が5月25日（UTC+9）から当面の間芸能活動を休止すると発表した。スポーツニッポンによると、このカウス氏に宛てられた脅迫文の筆跡が前田氏のものと似ていたとして、関係者が大阪府警南警察署に筆跡鑑定書を提出しており、近日中に前田氏を事情聴取することも考えられている。朝日と毎日によると、吉本は「前田氏はこの疑惑について断定している事実はない」として否定しているが、報道で取り上げられたことで世間を騒がせたため「前田氏と相談した上で休養を決めた」と説明している。
山陰中央新報によると、漫画家・佃公彦氏が6月28日午前0:20（UTC+9）肺炎のために東京都内病院で亡くなった。80歳。読売新聞と山陰中央によると、佃氏は1956年、自らが戦争中に疎開した徳島を舞台とした「ほのぼの君」を東京新聞で連載を開始。途中7年間休載による中断を挟んだが、1970年から東京新聞等全国の地方新聞で「ちびっこ紳士」として連載を再開。1984年に「ほのぼの君」と再び戻したが、これを含めた2007年の連載終了までの連載回数・44年間で1万5451回は日本の新聞連載では史上最長（全国紙最長は加藤芳郎氏「まっぴら君（毎日新聞）」の1万3615回）だった。山陰中央によると、「ほのぼの君」は新聞の4コマ漫画のスペースを3コマに割る手法を作った他、自らの趣味・俳句の経験を生かし、歳時記から着想のヒントをえていたという。また自らは自動車マニアであり、アマチュアの自動車レースなどに出場したこともあったという。
日本航空プレスリリースによれば、同社は関連会社2社とともに、1月19日（UTC+9）、会社更生法を申請した。更生法申請を行ったのは日本航空と、運行子会社の日本航空インターナショナル、それに金融業のジャルキャピタルの3社。また、3社は併せて企業再生支援機構の支援を受け、経営を再建する。日本経済新聞によれば負債総額は3社合計で2兆3221億円。東京新聞によると、会社更生法の申請に際しては利害関係者の合意を予め得た上で行う「事前調整型」とし、また会社更生法申請で取引先や利用客の混乱を避けるため

## Write

In [27]:
with open(SAVING_TXT_DIR, 'w', encoding="utf-8") as f:
    for txt in wikinews_txts:
        f.write("%s\n" % txt)