# Tutorial for KUME Con1
## KUME Conとは
　Kyoto University Medical Engineers Contest（以下KUME Con）は京都大学医学部プログラミング部が主催する、プログラミングコンテストです。<br>
「プログラミングを学びたい」 「同級生とプログラミングについて議論したい」、そんな方々に楽しいプログラミングライフをお届けする事が、KUME Conが目標としている事です。<br>
第一回目となる今回は、基本的なPythonの文法をお示ししつつ、課題に取り組んでいこうと思っています。

## Question
**Story**<br>
あなたはガン患者の遺伝子を調べる事になった。正常細胞から遺伝子配列Aを、ガン細胞から遺伝子配列Bが手に入った。<br>
<br>
**Questions**<br>
1. AとBで異なっている塩基（点変異）はどこだろうか？
2. 遺伝子の点突然変異には「ミスセンス変異」「ナンセンス変異」「サイレント変異」がある。それぞれの意味を説明してみよう。
3. 1.で見つけた変異は、どの種類の変異と言えるだろうか？
4. 遺伝子配列Cには点変異の他に挿入・欠失、トリプレットの反復回数の差、重複などが入っている。どのような変異が入っているか解析してみよう。

## Pythonの基本文法
### 「型」とは
　コンピュータ上では整数(integer)も少数(float)も文字列(string)も全て0と1で表される信号で保存されています。しかしながら、プログラム上ではそれらはまるで全く異なる物として振舞います。<br>
 
　何故それが可能かと言うと、コンピュータ上にはデータを保存するときに「データそのもの」の他に「データの種類」が保存されているからです。<br>
 
　例えば、65という整数はコンピュータ上で「01000001」と二進数で保存されています。ここで"A"という文字もコンピュータ上では「01000001」と保存されています。両方、全く同じですよね。このままでは「あれ、ここに保存している01000001は数字だっけ、文字だっけ？」となってしまいます。<br>
 
　そこで、コンピュータ上では「これは文字か数字か」と言うような情報も一緒に保存しているのです。イメージ的には「0000 01000001」なら数字の65、「0001 01000001」なら"A"という文字を表すというような感じです。(実際はもっと複雑です)<br>

　このように、データそのものと一緒に保存されている「データの種類を表す物」を「**型**」と言います。<br>
 
 ### 「型」の種類
　Pythonでは主要な型は以下の7つです。
1. 整数(int)
2. 少数(float)
3. 文字列(str)
4. 真偽(bool)
5. リスト(list)
6. 連想配列(dictionary)
7. その他(classなど)

　1,2,3については、書いてあるままです。整数、少数、文字列の三つはPythonに限らず多くのプログラミング言語で「基本の型」と扱われます。<br>
　整数はintegerの頭文字**int**と表します。少数はプログラミング用語で**浮**動小数点と言うので**float**と表します。文字列は糸の様に繋がっていることからstringと呼ばれ、その頭文字**str**で表します。これら三つの名称は覚えておきましょう。<br>

　4の真偽というのは「TrueまたはFalseで表される値」です。例えば「AとBが等しいか否か」というような情報を保存するのに使います。<br>

 　5,6,7についてはまた別の機会に話します。<br>
<br>

　ちなみに、C言語には文字列という型は存在しません。characterという一文字だけを保存できる型が存在し、それを連結する事で文字列を表します。正直、すっごく難しいです。慣れたらこっちの方がしっくりくるんですけどね。

### 四則演算
Pythonでは多数の演算子が使えます。その中でも特に重要な物を紹介します。

|演算子|意味|
|-|-|
|+|足し算・連結|
|-|引き算|
|*|掛け算|
|/|割り算|
|**|○○乗|
|//|商|
|%|余り|
|=|代入(x=10は「x=10とする」という一時代入の意味になる)|
|==|等しいかどうか判定|
|!=|異なるかどうか判定|
|<, >, <=, >=|それぞれ未満、より大きい、以下、以上かどうかを判定|
|and|両辺の真偽値が共にTrueかどうかを判定する|
|or|両辺の真偽値の内、少なくとも一方がTrueかどうかを判定する|


### print関数
　関数とは「一連の動作」を意味します。数学でも「f(x)=5x+3」なら関数fは「受け取った数字を五倍して3を足すという一連の動作」ですよね。<br>
　Pythonの関数も似たような感じです。その中の一つ、`print`関数を紹介します。<br>
<br>
　`print`関数は「受け取った物を表示する」という動作を行います。例えばprint(5)なら5と表示します。以下のプログラムを下の入力欄に書いてみましょう。(コピペはダメですよ！)

```python
print(1)
print(10)
print("Hello")
```

　1、10、Helloが表示されたら成功です。<br>
　では次に以下のプログラムを入力してみましょう。
```python
print(7+3)
print(7-3)
print(7*3)
print(7/3)
print(7%3)
print(7//3)
print(7**3)
```

　以下のように表示されたら成功です。
```
10
4
21
2.3333333333333335
2
1
343
```
<br>

　次は比較も行ってみましょう。
```python
print(7==3)
print(3==3)
print(7!=3)
print(3!=3)

print(7>3)
print(3>3)
print(7>=3)
print(3>=3)

print(7<3)
print(3<3)
print(7<=3)
print(3<=3)
```

　以下の様に表示されるはずです。
```
False
True
True
False
True
False
True
True
False
False
False
True
```
<br>

　もう一歩、次はandとorを使ってみて、基本事項の確認を終えようと思います。
```python
print(3<7 and 7<10)
print(3<7 and 7<5)
print(3<0 and 7<5)

print(3<7 or 7<10)
print(3<7 or 7<5)
print(3<0 or 7<5)
```

　以下の様に表示されるはずです。
```
True
False
False
True
True
False
```

　一行目`3<7 and 7<10`は`3<7`も`7<10`もTrueなのでTrueと表示されています。一方で、二行目`3<7 and 7<5`は`7<5`がFalseなのでFalseと表示されています。`and`は「両方がTrueの時だけTrue」なのです。<br>
　ここで、五行目`3<7 or 7<5`は`7<5`がFalseですがTrueと表示されていますね。`or`は「どちらか一方でもTrueならTrue」なのです。<br>
<br>


## お疲れさまでした！　これで基本事項の確認は終わりです
## 以降、今回の問題を一緒に解いていきましょう。

※ここからが本番です。

<br><br><br>

## 問題を解く前に
　まずはデータセットの準備をしましょう。データセットは　https://github.com/TBjustice/KUME-Con/tree/main/KUMECon1　に置いています。<br>
 
　SequenceA.txt、SequenceB.txt、SequenceC.txtを保存してください。<br>
<br>

　え、面倒くさい？　……確かに。では以下のコードを実行してください。自動でダウンロードしてくれるはずです。（※これに関してはコピペして頂いてOKです）

In [None]:
!pip install requests
import requests
def save(name):
    r = requests.get("https://raw.githubusercontent.com/TBjustice/KUME-Con/main/KUMECon1/Sequence"+name+".txt")
    with open("Sequence"+name+".txt", mode="w") as f:
        f.write(r.text)
save("A")
save("B")
save("C")

　データセットがダウンロードされたら最高です。環境によっては上手く動かないかもしれませんが……その時はお手数おかけしますが、手動でダウンロードして下さい。<br>

## 準備が整いました！　いよいよ、本格的なプログラミングが始まります！
### ファイルの読み込み
　ダウンロードしてきたファイルを読み込みたいとき使う構文は以下の様になっています。
```python
with open(filename) as f:
    f.read()
```

　今回は、「SequenceA.txtの中身の文字列」をsequenceAという名前で入手しようと思います。つまり、以下のように書きます。
```python
with open("SequenceA.txt") as f:
    sequenceA = f.read()
```

　上でも書きましたが、`sequenceA = f.read()`は「sequenceAとf.read()が等しい」と言う意味では**なく**、「sequenceAにf.read()を代入する」という意味になります。

　エラーが出なかったら成功です。<br>
<br>

　次に、`sequenceA`にきちんと代入されているか確認してみましょう。
```python
print(sequenceA)
```
と書いて、sequenceAの中身を表示してみましょう。

```
ACGTATGAUGCAUG　中略　GGACTGACCTGA
```
　と表示されるはずです。<br>
<br>
<br>
　Aと同様にBも保存してみましょう。
```python
with open("SequenceB.txt") as f:
    sequenceB = f.read()
print(sequenceB)
```

```
ACGTATGAUGCAUG　中略　TGTTGGACTGACCTGA
```
　と表示されるはずです。<br>
<br>
<br>
### len関数
　さて、この二つの遺伝子配列を比べていきたいのですが、その前に二つの文字列の長さを調べてみましょう。<br>
　文字列の長さを取得する関数に`len`関数があります。これは文字列を受け取ると、その長さを整数で返してくれる関数です。<br>

例)
```python
len("Hello")
```
→5<br>
```python
len("ATGCATCGCGTAGCA")
```
→15<br>
<br>
　今回はsequenceAとsequenceBの長さを調べたいので、以下のように書きます。なお、`print(len(sequenceA))`とprint関数内にlen関数が入っていますが、これは数学の合成関数のように動きます。つまり`len(sequenceA)`の結果が`print`されます。
```python
print(len(sequenceA))
print(len(sequenceB))
```

　1946と表示されたら成功です。<br>
<br>

### if文
　いよいよ、この二つの文字列を比較します。比較に置いて使われる「構文」に「if文」と呼ばれるものがあります。
```python
if 式:
    動作1
else:
    動作2
```
　これは「式がTrueなら動作1が、式がFalseなら動作2が動く」プログラムです。<br>
　具体的な例として、以下を動かしてみてください。
```python
if 10 % 2 == 0:
    print("10 is even")
else:
    print("10 is odd")
```

　`10 % 2 == 0`というのは「10を2で割った余り(10 % 2)　が0と等しいか否かを比較(== 0)する」と言う意味です。当然10を2で割った余りは0ですので、`10 is even`と表示されるはずです。<br>
<br>
　次に以下のプログラムを動かしてみましょう。
```python
if 11 % 2 == 0:
    print("11 is even")
else:
    print("11 is odd")
```

　今度は`11 is odd`と表示されるはずです。<br>
<br>
　このif文を使って、sequenceAとsequenceBの一文字目が等しいかどうかを判定してみましょう。<br>
<br>
　sequenceAの一文字目を入手するには`sequenceA[0]`と書きます。二文字目なら`sequenceA[1]`です。この`[整数]`をプログラミング用語で**インデックス**と呼び、「文字列の○文字目を取り出す」「データセットの○番目だけ取り出す」というような動作が行われます。<br>
　ここで注意したいのが、インデックスは**0からはじまる**という事です。N文字目を取り出したければ`sequenceA[N-1]`と書く必要があります。<br>
<br>
　つまり、「sequenceAとsequenceBの一文字目が等しいかどうかを判定」したければ以下のように書きます。
```python
if sequenceA[0] == sequenceB[0]:
    print("Same")
else:
    print("Different")
```

　Sameと表示されるはずです。実際、どちらもAですので、この評価は正しいです。<br>
　という訳で、sequenceAとBを比較するコードが完成しました。あとは、この`[0]`を`[1945]`まで変化させればOKです。<br>
<br>
**「いや、0から1945まで手作業で書くのは、面倒だよ……！」**<br>
<br>
　まあ、そりゃあそうですよね。そこで、for文を使おうと思います！

### for文
　for文は何かを繰り返す制御です。と言ってもピンとこないと思うので、現実世界に当てはめてみましょう。そうですね、例えば「わんこそば」で例えてみましょうか。<br>
　わんこそばでは、めんつゆの入ったカップをお客が持ち、そこに次々とそばが投入されます。食べ終わったら次のそばが投入され、食べ終わったら次のそばが投入され……と繰り返されます。<br>
　これをPythonで書くと次のようになります。なお、`eat`関数は「カップの中身を食べる動作」を意味します。
```python
for めんつゆのはいったカップ in [そば0, そば1, そば2, そば3, そば4, そば6]:
    eat(めんつゆのはいったカップ)
```
　なんとなくfor文のイメージが湧きましたかね？<br>
<br>
<br>
　この`for`文を今回の解析にも用いてみましょう。「めんつゆの入ったカップ」の代わりに`index`、「[そば0, そば1, そば2, そば3, そば4, そば6]」の代わりに`range(1946)`と書きます。なお、`range(N)`は`[0, 1, 2, 3,......, N-1]`と言う意味になります。<br>
 
　「eat(めんつゆのはいったカップ)」の代わりに「等しく**ない**かどうかチェックして、等しくないなら`index`を表示する」というプログラムを書きます。<br>
 
　それが以下のコードです。
```python
for index in range(1946):
    if(sequenceA[index] != sequenceB[index]):
        print(index)
```

```
169
612
727
1638
1729
```
　という5つの数字が表示されたら成功です。ここで、表示されている数字はインデックスであり、「何番目か」という問いに答えるには1加えなければいけないことに注意しましょう。（N番目＝sequenceA[N-1]だから、sequenceA[index]＝index+1番目である）
### Question1の解答
**170、613、728、1639、1730番目の塩基が異なっている。**


<br><br><br><br><br>

### 文字列のスライス
　170番目が異なると分かりましたが、この変化は「ミスセンス変異」「ナンセンス変異」「サイレント変異」のどれにあたるでしょうか？<br>
　それを検討する為に、170番目の前後だけを切り出して見てみようと思います。<br>
 
　文字列の一部を切り出す方法として「文字列のスライス」という方法があり、それは次のように行います。
```python
文字列[N-1:M]
```
→文字列のN文字目からM文字目を取得する<br>

例）
```python
print("hello"[1:4])
```
→ell　と表示される（2文字目～4文字目）<br>
<br>
<br>
　今回のケースでは、170文字目の前後を取得したいので、このようなコードとなります。
```python
print(sequenceA[167:172])
print(sequenceB[167:172])
```

```
TGCCT
TGACT
```
と表示されたら成功です。<br>
<br>
　この遺伝子の読み枠が`...[TGC][CT?]...`なのか、`...[??T][GCC][T??]...`なのか、それとも`...[?TG][CCT]...`にもよりますが、もし`...[TGC][CT?]...`だったらなら、`[TGC]`(システイン)が`[TGA]`(終始コドン)になっているので、これはナンセンス変異という事になりますね。<br>
<br>
<br>
同様の事を、他の変異箇所にも行ってみましょう。

### 発展　正しい読み枠を推測する
　正しい読み枠を推測するには、「ATG(メチオニン・開始コドン)～終始コドン」のセットを探す必要があります。
　例えば「ATG......終始コドン」の長さが短すぎるなら、それは正しい読み枠とは言えないでしょう。一方、それが長いなら、正しい詠み枠の可能性があります。
　読み枠単位でfor文を回したいなら、次の様に書くことができます。
```python
for i in range((1946-2)//3):
    if sequenceA[i*3:i*3+3]=="ATG":
        print(i*3)
        #これは[0,1,2][3,4,5]...という読み枠

    if sequenceA[i*3+1:i*3+4]=="ATG":
        print(i*3+1)
        #これは[1,2,3][4,5,6]...という読み枠

    if sequenceA[i*3+2:i*3+5]=="ATG":
        print(i*3+2)
        #これは[2,3,4][5,6,7]...という読み枠
```

今回のケースでは、開始コドンとなり得る箇所が幾つかあるようですね。<br>

終始コドンについても同様に調べてみましょう。なお、終始コドンは三種類あるので`sequenceA[i*3+2:i*3+5]=="TAA" or sequenceA[i*3+2:i*3+5]=="TAG" or sequenceA[i*3+2:i*3+5]=="TGA"`と書く必要があります。

この情報を基に、先ほど求めた変異箇所がどのタイプの変異だったか考察してみましょう。

# 発展　点変異以外にも挿入やデリーションがあるデータ
```python
with open("SequenceC.txt") as f:
    sequenceC = f.read()
print(len(sequenceC))
```

sequenceCも長さは同じみたいですね。では……<br>
```python
for i in range(1946):
    if(sequenceA[i] != sequenceC[i]):
        print(i)
```

　無数の変異箇所が見つかりました……。これはいったいどういう事でしょうか？<br>

　そのヒントを探るべく、以下のコードを動かしてみましょう。
```python
print(sequenceA[15:30])
print(sequenceC[15:30])
```

```
TGCCCTTCTCTCAAC
TGCCATTTCTCTCAA
```
　五文字目のCがAに変わっているうえに、Aという塩基が挿入されています！　このように挿入が起きると、それ以降がすべて「異なる」と見なされてしまいます。<br>
　それは不本意ですよね。どうにかして挿入や欠損に強いアルゴリズムを開発する必要があります。<br>
<br>
<br>
　その方法とは……！
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
# まだ僕も思いついていません！
　プログラミングに自信がある方はもちろん、まだ初心者の方も、「どうすればいいだろう？」と頭を悩ませてみてください。<br>
　可能であれば、各々が考えるアルゴリズムをどこかで発表する機会を設けたいのですが……それは要相談という事で。
