# Python とデータサイエンス

本講義では、Colab のハンズオン演習を行いながら、データサイエンスと機械学習の基礎を学びます。

まずは、Colabに慣れながら、Pythonのおさらいから始めましょう。


## Colab とは

Colabとは、Google 社が提供するクラウド版の[Jupyter Notebook](https://jupyter.org) です。
環境設定することなしに、Python と豊富なライブラリ、さらに高性能なGPUが利用可能です。
データサイエンスや機械学習の入門には大変によい環境が提供になっています。

https://colab.research.google.com/

はじめて Colab を使うときは、Google アカウント( Gmail アカウント ) が必要になります。
Googleアカウントは複数作成できるので、授業用のアカウントを作っておくと便利です。


### コードセルとテキストセル

Colab は、コードセルとテキストセルがあります。

#### コードセル

プログラム（ソースコード）を入力して、実行ボタンを押すことで、実行結果を表示します。

<img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/57754/2453d50e-b99d-be10-bbce-24e46e59b3ce.png" width="60%" />

本資料では、実行セルに入力すべきコードと実行結果は、次のように記載します。

In [None]:
print("Hello World")


注意すべき点は、実行セルでは、独立していないことです。

前のに実行したセルの結果（変数など）は、次のセルで**続けて使うこと**ができます。

In [None]:
x = 1
x + 1

In [None]:
x * 2

<div class="alert alert-warning">

注意：コードセルの実行結果

セル内で最後に実行した結果は、`print()`しなくても、表示されます。

</div>

### コードセル (UNIXコマンド編)

Colabは、Google社のデータセンターの Linux 上で実行されています。

`!ls`のように`!`をつけると、コードセル内で**UNIXコマンド**を実行することができます。

__例__

```
!uname -a
```

本講義では、ファイル操作などでは、UNIXコマンドを使います。
`!`が先頭についていたら、UNIXコマンドなんだなと、理解してください。

__例__

Web上の「吾輩は猫である（テキスト版）」をColab上にダウンロードしてきて表示します。

http://www.cl.ecei.tohoku.ac.jp/nlp100/data/neko.txt



In [None]:
!wget http://www.cl.ecei.tohoku.ac.jp/nlp100/data/neko.txt
!head neko.txt

Colab は、便利なユーザインターフェースを備えていますが、ユーザインターフェースからは全ての操作はできません。
そのようなとき、UNIXコマンドを使いこなすと、細かい操作ができるようになります。
UNIXコマンドは、**クラウドなどのコンピューティング・サービスを使いこなす必須スキル**といえます。
本講義を通して、少しずつ覚えていきましょう。



### テキストセル

[マークダウン記法](https://qiita.com/Blueman81/items/72ca43681d16d44e21ad)でソースコードの説明やメモを記録します。

__よく使うマークダウン記法__
```
# 見出し１
## 見出し２
### 見出し３

* 項目1
* 項目2

1. 項目
2. 項目

```



<div class="alert alert-info">

マークダウン記法と数式

簡易文書作成記法です。ソフトウェアエンジニアや科学者の間では、標準的な記法になっています。
また、Colabでは Mathjaxも対応しているため、`$\sqrt{2}$`のように`$`で囲むと、
$\sqrt{2}$のように数式も記述できます。

![colab_math.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/57754/76e6eecd-c5ed-b4fe-7577-f5db26897034.png)

</div>



## データサイエンスに必要なPython

本講義では、Pythonを用いてプログラミングをしながら、データサイエンスと機械学習の基礎を学びます。

高度なプログラミング技法は必要はありませんが、最低限の言語理解がないと、ソースコードが読めなくて、
どんどんわからなくなります。

__必須__

1. 演算子、変数と関数
2. 条件分岐、繰り返し (for文)
3. リスト、辞書などのデータ操作

__（知っていれば）理解が深まる__

1. ラムダ式や高階関数 (２年前期)
2. オブジェクト指向と演算子オーバーロード (２年後期)

理解が怪しいときは、Python 教科書やWeb上の記事を参考にして、復習しておきましょう。

<div class="alert alert-warning">

もしPythonに自信がなければ

２年生むけの[Web講義ノート](https://KuramitsuLab.github.io/lecnote/py/)も公開しています。
こちらもぜひ参考にしていただければと思います。
</div>


### Python 理解チェック

次のPythonコードを（コードセルを実行しなくても）実行結果が予想できるか試してみましょう。

In [None]:
# 変数（代入）、加算
x = 1
y = x + 1
x + y

In [None]:
# 変数（代入）、等号
x = 2
x == y

In [None]:
# 関数
from math import sqrt
sqrt(2.0)

In [None]:
# 関数定義
def f(x):
    return x+1
f(1)

In [None]:
# 繰り返し, range()
for n in range(0, 10):
    print(n)

In [None]:
# リスト
a = [0, 1, 2, 3]
a[0] + a[-1]

In [None]:
# 辞書
d = {'apple': 100, 'orange': 120}
d['apple']

In [None]:
# 応用問題
a = []
for n in range(0, 10):
    if n % 2 == 0:
        a.append(n)
sum(a)

### ワンランク上のPythonスキル

ここから先は、ちょっと難しいかもしれません。

「はじめてみる」ということはないと思いますが、こういう書き方があると覚えましょう。

In [None]:
## リスト内包記法 
[n+1 for n in range(0, 10) if n % 2 == 0]

In [None]:
## 高階関数 map
list(map(f, range(0, 10)))

In [None]:
## ラムダ式, map 
list(map(lambda x: x+1, range(0, 10)))

In [None]:
## クラス (２年後期で不評でしたが)
class C(object):
    c: int
    def __init__(self):
        self.c = 0
    def count(self):
        self.c += 1
    def __repr__(self):
        return str(self.c)
    def __int__(self):
        return self.c
    def __add__(self, another):
        return self.c + int(another)
c = C()
print(type(c)) # cの種類を調べる
c.count()
c
    

<div class="alert alert-info">

オブジェクトの種類の確認

データサイエンスや機械学習のライブラリでは、
演算子オーバーロードされたオブジェクトが当たり前のように使われます。
変だなと思ったら`type()`でオブジェクトの種類を確認してください。

```
print(type(c))
```

</div>



## コースワーク

コースワークは、次回までの演習問題です。
次回の授業でたぶん解説をします。

<div class="admonition tip">

**演習（素数）**

1000以下の素数をもとめるプログラムを書いて表示しよう

</div>

__ヒント__

色々な解き方があります。

1. エラトステネスの篩（アルゴリズム）を用いる
2. 素数かどうか判定する関数を作ってフィルタする

簡単な方でどうぞ
