# データセットの準備

In [1]:
import pandas as pd
import numpy as np

## Japanese Realistic Textual Entailment Corpus

データセットをダウンロードします。
データセットのラインセスについては
[データセット情報](dataset_info.md)
を確認してください。

データセットのリポジトリをclone をします。

```sh
$ git clone https://github.com/megagonlabs/jrte-corpus
```

## データのロード

In [2]:
pn_df = pd.read_table(
    "jrte-corpus/data/pn.tsv",
    header=None,
    names=["id", "label", "text", "judges", "usage"]
)

In [3]:
pn_df.head()

Unnamed: 0,id,label,text,judges,usage
0,pn17q00001,0,出張でお世話になりました。,"{""0"": 3}",test
1,pn17q00002,0,朝食は普通でした。,"{""0"": 3}",test
2,pn17q00003,1,また是非行きたいです。,"{""1"": 3}",test
3,pn17q00004,1,また利用したいと思えるホテルでした。,"{""1"": 3}",test
4,pn17q00005,1,駅から近くて便利でした。,"{""0"": 1, ""1"": 2}",test


## ラベルの変換

In [4]:
pn_df["label"] = pn_df["label"].map({1: "positive", 0: "neutral", -1: "negative"})

In [5]:
pn_df.head()

Unnamed: 0,id,label,text,judges,usage
0,pn17q00001,neutral,出張でお世話になりました。,"{""0"": 3}",test
1,pn17q00002,neutral,朝食は普通でした。,"{""0"": 3}",test
2,pn17q00003,positive,また是非行きたいです。,"{""1"": 3}",test
3,pn17q00004,positive,また利用したいと思えるホテルでした。,"{""1"": 3}",test
4,pn17q00005,positive,駅から近くて便利でした。,"{""0"": 1, ""1"": 2}",test


## データの保存

In [6]:
# 保存用のディレクトリを作成します
import pathlib

pathlib.Path("input").mkdir(exist_ok=True)

In [7]:
save_columns = ["label", "text", "judges"]
pn_df[save_columns].to_csv("input/pn.csv", index=None)

後のモデル学習の際に利用するために、ジャッジが一致しているサンプルのみを取り出した結果も保存しておきます。

In [8]:
import json

judges_all_same = pn_df["judges"] \
    .apply(lambda x: len(json.loads(x).keys()) == 1)

pn_df[judges_all_same] \
    .reset_index(drop=True)[save_columns] \
    .to_csv("input/pn_same_judge.csv", index=None)