<a href="https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/011Intro2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 第一回 Google Colabの紹介

いまやPythonの使い道は多岐に渡っていて、すべてを把握するのは不可能です。正直言って、「できないことがない」ような気もします。例えば、Excelのファイルにアクセスし、一部を書換えるとか、wordに自動で作文を書くようなことすらも簡単にできてしまいます。

この講義では、これらを横断的に使うための、基盤となる知識と、特に化学で使いそうな機能を紹介しようと考えています。

### なぜPython?

コンピュータ言語は、Python以外にも無数にあります。また、Pythonよりも高速に処理できる言語もたくさんあります。例えば、理論化学系の研究室であれば、Fortranを使う機会があると思いますが、Fortranに比べればPythonは100倍ぐらい遅い言語です。

ただし、処理が速ければ、早く仕事(我々の場合でいえばデータ解析)が終わるというわけではありません。数値ばかりがたくさんならんだデータを扱っている限り、Fortranは速いのですが、文字列や、ネットワークや、数式などを扱おうとすると、とたんにとてつもない苦難に見舞われます。Pythonであれば、扱えるデータの幅がひろがります。「なんでも」「そこそこの速さで」「短いプログラムで」処理できる言語として、Pythonを使うメリットがあります。

機械学習の分野では、(とくに近年になって)新しいアルゴリズムはまずPythonでライブラリが提供される、ということが多くなっています。Pythonを学んでおけば、常に最新のアルゴリズムを利用できるということです。

Pythonには、大量のデータを簡潔なプログラムで高速に扱うnumpyという仕組みが提供されています。実際には、画像処理(OpenCV)も機械学習も統計処理も、ほとんどの計算関連の機能はnumpyを使って構築されています。numpyを知れば、ほかの言語ではありえない簡潔さで、データ処理を行えます。

簡潔にコードが書けると、バグを減らすことができます。例えば、numpyなら、行列$A$の転置とベクトル$x$をかけて$y$を足す計算は、以下のように表記します。

```python
v = A.T @ x + y
```

Pythonにもいろいろ弱点があります。最大の弱点は、「便利すぎること」かもしれません。Pythonでプログラムを書いていると、簡単なデータ構造(辞書や集合)から機械学習に至るまで、なんでもライブラリがあるので、自分で書く必要がありません。そのため、ほかの言語で書かざるをえなくなった時に、途方に暮れてしまうのです。例えばPythonでは遅いプログラムを速くするために、Fortranに移植しようとすると、あまりの不便さに目がくらみます。足りない機能を補い、読みにくいコードをデバッグするのに時間を費すぐらいなら、多少遅くてもPythonでいいや、という気持ちになってしまいます。

### なぜGoogle Colab?

Google Colaboratory (以下colab)とは、Google社が提供している、Cloud上でPythonを実行するしくみです。Cloudへのアクセスには通常のブラウザを使いますので、Browserが利用できるコンピュータやスマホやタブレットからでも、Pythonプログラムを書き、走らせることができます。

2019年までは、この講義では各自のパソコン上でプログラムを走らせていました。しかし、OSのバージョン、CPUの性能、メモリの量など、さまざまな条件が異なり、ひとによって著しく処理速度が違っていました。Colabを使うと、プログラムはクラウド上で実行されるので、どんなパソコンでもほぼ同じことが同じ時間でできますし、手許のコンピュータの処理が重くなることもありません。

パソコン上のPython実行環境とは違い、Colabにはあらかじめ膨大な数のライブラリがインストールされているので、Colabに接続すると直ちに高度なデータ処理ができます。グラフを描画するmatplotlibやpyplot、数値データを扱うnumpyやscipy、さらには機械学習のライブラリなどもインストール不要で使えます。

### 初回の目標

初回は、まずGoogle Colabに慣れるところからはじめます。

1. https://colab.research.google.com/ にアクセスして下さい。
2. ファイル選択画面が表示されます。ファイルリスト一番上の「Colaboratoryへようこそ」を選んで下さい。
3. Colaboratoryとは何かの簡単な説明と、使用例が表示されます。Colaboratoryの特徴は
  1. Pythonを実行するのに必要なすべてのものが準備されている。(最新のAI開発まで!)
  2. 手許のコンピュータではなく、Googleのクラウド上にある高性能計算機で処理される。(最初の処理だけすこし時間がかかります)
  3. 無料
4. ページの下のほうにある、「Colaboratoryの概要」をひらいて、ざっと読んで基本的な操作を試して下さい。(DeepLをインストールしておくと、英語を読むのが格段に楽になります)
5. その下の、「markdownのガイド」もざっと読んでおいて下さい。markdownというのは、ただのプレーンテキストに少し記号を書き加えるだけで、文書を整形表示する書き方のことです。colaboratoryのノートブックの中に文章を書く時に使います。

以後、各回の内容を示します。

* リンク先のcolabのページに移動し、文章を読み、サンプルのpythonコードを実行したり書換えたりしてみて下さい。
* 最初の編集時には「Warning: This notebook was not authored by Google.」と表示されるかもしれませんが、気にせず実行(Run anyway)してください。
* 編集したファイルをセーブすると、あなたのGoogle Driveに保存されます。GitHub上の原本には影響を与えません。
* 昨年の講義で作った資料がまだそのままになっている部分がたくさんあります。これからアップデートする予定です。


## Reference

* [github:vitroid/PythonTutorials](https://github.com/vitroid/PythonTutorials/tree/2021/2%20Advanced)

## 第二回 Pythonの基礎

これらはPython固有の機能ではなく、ほかの近代的な言語でも搭載されている基本的な機能です。Python独特の世界に踏みこむ前に、まず知っておいて下さい。

* [020リストの使い方](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/020リストの使い方.ipynb)
* [辞書](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/021辞書.ipynb)
* [集合](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/022集合.ipynb)
* [関数](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/026関数.ipynb)


## 第三回 ライブラリの利用

### 標準ライブラリ
* [順列と組みあわせ](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/030順列と組み合わせ.ipynb)

### 外部ライブラリ

* 外部ライブラリだが、Colabにはあらかじめインストールされているライブラリの[リスト](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/900colab_modulelist.ipynb)
* 外部ライブラリのcolabへのインストール方法は、必要に応じて説明します。

### ファイル入出力

* [Google Drive](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2020b3/1%20For%20beginners/5-5GoogleDriveOnColab.ipynb) Google colabはGoogleのクラウド上で計算処理をするので、てもとにあるファイルを利用するにはすこし手間がかかります。そこで、同じくGoogleのクラウドサービスである、Google Driveを利用し、てもとのファイルとクラウド上のファイルを自動的に同期させて使ってみます。
* [ファイル入出力](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/024ファイル入出力.ipynb)

### 前回の解答例
* [順列と組み合わせ](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/解答例/030順列組み合わせ.ipynb)


## 第四回 numpyの基本

numpy(ナンパイと読むそうです)は、多次元配列を扱う外部ライブラリで、科学技術計算をPythonで行う場合に必須です。機械学習や画像処理などの多数のライブラリの中核部分がnumpyを利用する前提で作られており、現在のPythonの興隆はnumpyのおかげといっても過言ではないでしょう。

* [050numpy](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/050numpy.ipynb)


## 第五回 プロット

自分の考えをほかの人に伝えるのにも、自分自身が理解するためにも、可視化はとても有効です。

* [Plotting](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/060MatPlotLib.ipynb)

## 第六回 信号処理

numpyの応用事例としての、音響解析。

* [070Audio](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/070Audio_rev2.ipynb)

## 第七回 グラフ理論

化学はいろんなネットワークを扱う学問です。化学反応ネットワーク、有機分子骨格、結晶構造、クラスター、信号ネットワーク、あるいは実験操作の自動化や多人数での共同研究のスケジュール調整までがネットワークであらわせますが、化学の講義で習うことはほとんどありません。グラフ理論はネットワークのつながりを扱う扱う数学です。ここではグラフ理論そのものについてはあまり深いりしませんが、グラフ理論の入門書はだいたいどれもパズル本のようで面白く、数式も少ないので読みやすいので、一冊読んでおくといつか役に立つと思います。

* [グラフ理論](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/090Graph.ipynb)

## 第八回 記号演算

Sympy(シンパイと読むそうです)はPythonで数式処理を行うライブラリです。数式処理とは、数式を数値になおさないままで展開していくことを指します。複雑な式を微積分したり、因数分解したり、解析解を求めるのを助けてくれます。Sympyはnumpyとは直接関係がありません。

* [Sympy](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/080sympy.ipynb)

## 第九回 機械学習1

いよいよ機械学習に入りますが、宿題を準備するのがかなり困難になってきました。(何か試そうにも、大量のサンプルデータが必要になるため)

何か思いつけば宿題を出しますが、宿題がなければ、ひととおり自分で実行してみるだけで構いません。いろいろ計算過程での変数の値を表示したり、パラメータを調節したりして、結果がどう変わるかを試してみてください。また、質問や疑問があればこれまでと同じようにGoogle Driveで共有してもらえれば、応答します。

* [機械学習](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/300機械学習.ipynb)
* 教師あり学習
  * 回帰
    * [最小二乗法](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/310LinearRegression.ipynb)
    * [多次元尺度法](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/312MDS.ipynb#scrollTo=FhWK69CNsI0I) (宿題あり)

## 第10回 機械学習2

![](https://i.gyazo.com/b2b978bca0ac945ca603825cf2cb2ec1.jpg)

人間なら、4という文字を見れば4と読める。おなじことを機械にさせたい。画像の4を、ラベルとしての"4"につなげる「関数」$f(A)$を作りたい。それもできるだけ簡単に。

* 教師あり学習
  * クラス分類
    * [決定木、ランダムフォレスト](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/320RandomForest.ipynb#scrollTo=pj1AJtX2pYlr) (宿題未定)
    * [ニューラルネットワーク](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/322NeuralNet.ipynb) (宿題未定)

今週は降参です。練習課題はありません。ディープニューラルネットワークに関する記事は、いまちまたにたくさんありますので、その中から、自分の研究テーマとつながりそうな記事を一つ選んで、要約し、具体的にどんな風に使えそうかをレポートしてもらえないでしょうか。(論文でなくても、日本語でも構いませんが、技術的な詳細がわかるものが良いです)

## 第11回 機械学習3

今回も練習問題はありません。こんなことが、このぐらいのプログラムを書けばできる、というのを、以下のページで体験して下さい。

* 教師なし学習
  * [k-meansを用いた写真の減色](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/330Clustering.ipynb) (宿題未定)
  * [ガウス混合モデル](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/332GaussianMixture.ipynb)
  * [独立成分分析](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/342ICA.ipynb) (宿題未定)
  * [IsoMapによる文字分類](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2021/2%20Advanced/340IsoMap.ipynb) (宿題未定)

機械学習の手法は多岐に渡っています。Pythonの機械学習ライブラリである[Scikit-learnのページ](https://scikit-learn.org/stable/)には、こんな図が掲載されています。

![Choosing the right estimator](https://scikit-learn.org/stable/_static/ml_map.png)

自分の研究のデータを念頭にこのチャートをたどって、どんな風に使えるのかを考えてみて下さい。

今年度の複雑系化学はここで終わります。試験などは実施しません。先回のレポートが最後の提出物となります。ここまでの課題で、未提出のものにもとりくんで下さい。


## 第12回 機械学習4
* 情報圧縮
  * 次元削減
  * 多様体学習
  * 主成分分析




---
以下、古いコンテンツです。

## 番外

* [OpenCV](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2020m0/2%20Advanced/120opencv.ipynb) OpenCVはcolabと相性が悪い(動画の処理が難しい)ので、今回はあきらめます。

### Fortran77

```fortran
      real*8 function factorial(n)
      integer n
      integer i
      real*8 result
      result = 1.0d0
      do 10 i=1,n
        result = result * i
   10 end do
      factorial = result
      end

      program main     
      real*8 x
      real*8 factorial
      x = factorial(100)
      write(6,*) x
      end
```

### fortran90以降

```fortran
real(kind=8) function factorial(n)
  integer, intent(in) :: n
  integer ::i
  real(kind=8) :: result
  result = 1.0d0
  do i=1,n
    result = result * i
  end do
  factorial = result
end function factorial

program main     
  real(kind=8) :: x
  real(kind=8) :: factorial
  x = factorial(100)
  write(6,*) x
end program main
```

### C言語、C++

```c
double factorial(int n)
{
  int i;
  double result = 1.0;
  for(i=1; i<=n; i++){
    result *= i;
  }
  return result;
}

int main(int argc, char *argv[]){
  double x;
  x = factorial(100);
  printf(“%lf\n”, x);
}
```

### C言語、再帰を使った定義

```c
double factorial(int n)
{
  if (n == 0)
    return 1;
  return (double)n * factorial(n-1);
}

int main(int argc, char *argv[]){
  double x;
  x = factorial(100);
  printf(“%lf\n”, x);
}
```

### LISP
短いけど、かなり読みにくい。

```lisp
(define (factorial n)
  (cond ((= n 0) 1)
        (t (* n (factorial (- n 1))))))

(factorial 100)
```

### Python
pythonのパラグラフはこの画面上で実行できます。▶︎を押してみて下さい。(初回だけ、クラウドへの接続と初期化の時間がかかります)

In [None]:
def factorial(n):
    result = 1
    for i in range(1,n+1):
        result *= i
    return result

print(factorial(100))

### Python, 再帰による定義

In [None]:
def factorial(n):
    if n == 0: return 1
    return n*factorial(n-1)

print(factorial(100))

### Python+Sympy

In [None]:
import sympy
print(sympy.factorial(100))

## Pythonとよく比較されるスクリプト言語との比較
ここまで書いて、言語を比較できるサイトを見付けた: http://rosettacode.org/wiki/Factorial

### Perl

```perl
sub factorial
{
  my $n = shift;
  my $result = 1;
  for (my $i = 1; $i <= $n; ++$i)
  {
    $result *= $i;
  };
  $result;
}

print factorial(100), “\n”;
```

### Ruby

```ruby
def factorial(n)
  (2 .. n - 1).each {|i| n *= i}
  n
end

puts factorial(100) #??
```

なお、pythonとRubyは多倍長整数が使えるので、答は

```
93326215443944152681699238856266700490715968264381621468592963895217599993229915608941463976156518286253697920827223758251185210916864000000000000000000000000
```

となる。

同じことを書くのに、言語によって必要な行数がかなり違う。また、言語特有の謎の風習(“\n”とかargcとか(6,\*)とかreal\*8とか|i|とか$iとか)はいちいちユーザーを困惑させる。C言語系の言語では”;”と”{}”がプログラムを読みにくくする。C言語はこれらの記号のおかげで、プログラムを改行せずに書くことができるのだが、実際誰もそんなことをしない(読みにくくなる)ので、これらの記号は無駄である。

```c
double factorial(int n){int i;double 
                        result = 1.0;for(i=1 i<=n; i++){result *= i;}return
result;}int
main(int argc, char *argv[]){
    double x;x = 
    factorial(100); 
                                        printf(“%lf\n”, x);}
```

Pythonistaに言わせれば、C言語のプログラムはこれで何も問題ない。(もちろんこれでも動く)