##  シンプルなランレングス符号化のプログラム練習

2019/01/21

Srini Devadas『問題解決のPythonプログラミング　数学パズルで鍛えるアルゴリズム思考』第一章を参考にしています。

## 問題
### 符号化
```BBBBGGGGGHHHHHHHHRRRRRTTTTTTEEEEEELLLLLLDDDKKSSIIWWWFFF```のような文字列を```4B5G8H5R6T6E6L3D2K2S2I3W3F```にしたい

### 復号化
さらに```4B5G8H5R6T6E6L3D2K2S2I3W3F```を```BBBBGGGGGHHHHHHHHRRRRRTTTTTTEEEEEELLLLLLDDDKKSSIIWWWFFF```に戻す。

## 符号化
まず適当な変数に文字列を格納する。

In [1]:
word = 'BBBBGGGGGHHHHHHHHRRRRRTTTTTTEEEEEELLLLLLDDDKKSSIIWWWFFF'

文字列の先頭から順番に見ていき、i+1番目の文字列がi番目と異なるところを検出する。  
関数の引数にはとりあえずwordを設定。  

```start```に0を格納しておき、```for i in range(1,len(word))```でiは1から始まるようにしておく。 

こうすることで、一文字目と二文字目がいきなり違う場合にも対応できる。  
1周ループをしたら、startにiを格納し、読み終わった文字列からstartするようにする  

In [2]:
def ranlength(word):
    word = word + '+'
    start = 0
    intervals = []
    for i in range(1,len(word)):
        if word[start] != word[i]:
            intervals.append((start,i-1,word[start]))
            start = i

    for t in intervals:
        print(str(t[1]-t[0]+1)+str(t[2]),sep='',end='')

### 実行結果

In [3]:
ranlength(word)

4B5G8H5R6T6E6L3D2K2S2I3W3F

### この結果を変数に格納したい
- 符号化された結果を変数に格納して、それを復号化の関数に渡したい
- ところがprint()で出力した場合、変数に格納できない・・・  

In [4]:
#仮にoutputに結果を入れようとしても・・・
output = ranlength(word)

4B5G8H5R6T6E6L3D2K2S2I3W3F

In [6]:
output #何も表示されない

In [8]:
type(output) #NoneTypeになっているらしい

NoneType

#### いろいろ調べてみると、printしている結果を変数に入れるにはlistに文字列を格納して.joinで結合するのが楽らしい  

というわけで、joinさせるためのリストを作る。  
```intervals.append((start,i-1,word[start]))```とintervalsというリストにタプルを格納していたところに、  
```intervals.append([str(i-start),word[start]])```のようにstartからi番目まで何文字あるかの数を文字列として格納し、  
どのアルファベットが格納されているかを```word[start]```で格納。  

それで作ったintervalsというリストをforループで見ていって、順番に```['文字数','文字','文字数','文字',...]```となるcodelistを作る。  
最初からcodelistにappendしていけばよさそうな気もするが、それだと入れ子リストになってしまいうまくjoinに渡せないのでこちらの方法をとる。   
また文字列の変化を検知しているので、最後にダミーの文字列を配置しておく。


In [9]:
def ranlength_new(word):
    word = word + '+'
    start = 0
    intervals = []
    for i in range(1,len(word)):
        if word[start] != word[i]:
            intervals.append([str(i-start),word[start]])
            start = i

    codelist = []
    for i in intervals:
        codelist.append(i[0])
        codelist.append(i[1])
    code = ''.join(codelist)
    return code

In [16]:
# code という変数に格納されていることを確認
code = ranlength_new(word)
code

'4B5G8H5R6T6E6L3D2K2S2I3W3F'

## 変数に格納された符号化された結果を復号しよう

同様に、startに0を入れ、順繰りに文字列を見ていく。  
今回は数値かアルファベットかの違いを検知するため、教科書13頁でも紹介されている```.isalpha()```を用いる。  
x.isalpha()はxがアルファベットならTrue、それ以外ならFalseを返すので、TrueとFalseが変わる箇所を検知。  
変化が検知されたら、startしたところからiの一つ手間までの文字列を抜き出し、i番目にあるアルファベットと一緒にリストに入れる。  
先ほどと異なり```（文字数)A```のような形で並んでいるので、次のループはiの次から始まるように、```start=i+1```とする。  
残りは符号化の時と同じように処理する。  

In [25]:
def decrypt(code):
    start = 0
    intervals,number,letter = [],[],[]  
    for i in range(1,len(code)):
        if code[start].isalpha() != code[i].isalpha():
            intervals.append([code[start:i],code[i]])
            number.append(int(code[start:i]))
            letter.append(code[i])
            start = i+1
    _d = []
    for i in range(0,len(number)):
        _d.append(letter[i] * int(number[i]))
        result = ''.join(_d)
    return result

In [26]:
result = decrypt(code)
result

'BBBBGGGGGHHHHHHHHRRRRRTTTTTTEEEEEELLLLLLDDDKKSSIIWWWFFF'

In [27]:
word == result

True

もとの文字列と符号化・復号化した文字列が一致していることをチェックする