# 70. データの入手・整形

まずは必要となるpositive/negativeのデータセットをインストールします。

In [None]:
!bash ../shell/setup_ch8_dataset.sh

ファイルが存在することを確認します。

In [None]:
!ls ../data/raw/rt-polaritydata/

ファイルの中身を見てみましょう。まずは rt-polarity.pos (ポジティブな文のデータセット) です

In [None]:
!head -n 3 ../data/raw/rt-polaritydata/rt-polarity.pos

次は rt-polarity.neg (ネガティブな文のデータセット) です

In [None]:
!head -n 3 ../data/raw/rt-polaritydata/rt-polarity.neg

## 70-1 rt-polarity.posの各行の先頭に"+1 "という文字列を追加する

さて1つ目のタスクです。

エディタを開いてPythonコードを…とやりたくなるかもしれませんが、このくらいの加工ならターミナル上でワンライナーで書けるようになりましょう。

Pythonのコードをいちいち書くよりも簡単に高速に書くことができるため、作業の効率化に繋がります。

求められていることは、 1つのファイル内の **各行で** 同様の処理を行うことです。このような場合は、 **awk** を 使います。

awkをインストールしましょう
環境によりインストール方法が異なるので、各自調べてください。以下のコマンドが成功すればOKです

In [None]:
!echo '' | awk '{print "OK"}'

以下のワンライナーで、やりたいことを実現できます。

In [None]:
!cat ../data/raw/rt-polaritydata/rt-polarity.pos | awk '{print "+1 "$0}' > ../data/preprocessing/rt-polarity.pos

解説です。awkの基本構文は、

```sh
awk '{ (各行でやりたいこと) }'
```

です。Pythonで表現するとしたら、

```py
import sys

for line in sys.stdin:
    line = line.rstrip()
    (各行でやりたいこと)
```

ですね。

今回のタスクでは、各行に対して先頭に `"+1 "` という文字列を追加して出力するということをしたいです。

出力のために使う関数が `print()` です。

`$0` は 「今見ている行 (文字列) 」です。

文字列は横に並べると結合できるので、 `"+1 "$0` は「+1」「(スペース)」「今見ている行の文字列」を結合した文字列を意味します。

この文字列を `print()` して、やりたいことが実現できるわけです。

【ひとこと】

インストールした圧縮ファイル (compression)、展開したファイル (raw)、システムへの入力となるファイル (preprocessing)のように、別のディレクトリに保存する習慣を付けましょう。

元のファイルを上書きしてしまうと、別のやり方を試そうと思った時にもう一度インストールするところから始めなければいけません。

## 70-2 rt-polarity.posの各行の先頭に"-1 "という文字列を追加する

先ほどのやり方を応用して awk で書いてみましょう。

以下のセルにシェルコマンドを書いてください。出力先は ../data/preprocessing/rt-polarity.neg です。

In [None]:
!echo ''

確認します。"OK" が表示されれば成功しています。

In [None]:
! [[ -e ../data/preprocessing/rt-polarity.neg ]] && [[ $(grep -c -v '^-1 [^ ]' ../data/preprocessing/rt-polarity.neg) -ne 0 ]] && [[ $(cat ../data/raw/rt-polaritydata/rt-polarity.neg | wc -l) -eq $(cat ../data/preprocessing/rt-polarity.neg | wc -l) ]] && echo "OK"

## 70-3 posとnegのファイルを結合し、行をランダムに並び替える

これもワンライナーですぐにできます。

2つのファイルを **結合** するためには `cat` コマンドを使います。

あるファイルの中身を **ランダムに並び替える** には、 `sort -R` コマンドを使います。

これまでにも使っていましたが、シェルの機能である **パイプ** を使うと、上の2つの処理を続けて行うことができます。

In [None]:
# 失敗します
!cat ../data/preprocessing/rt-polarity.pos ../data/preprocessing/rt-polarity.neg | sort -R

In [None]:
# おまじないを付けて実行
!cat ../data/preprocessing/rt-polarity.pos ../data/preprocessing/rt-polarity.neg | LC_ALL=C sort -R > ../data/preprocessing/sentiment.txt

In [None]:
# 確認
!head -n 5 ../data/preprocessing/sentiment.txt