<table width=100%; style="background-color:#caf0fa";>
    <tr style="background-color:#caf0fa">
        <td>
            <h1 style="text-align:right">
                Python for Data Science Training - Week 1
            </h1>
        </td>
        <td>
            <img src="../img/jica-logo.png" alt = "JICA Training" style = "width: 100px;"/>
        </td>
    </tr>
</table>

# 1. なぜPythonか？
- シンプル
- ポピュラリティ
- モジュラリティ

### (1) シンプル

In [None]:
import this

### (2) ポピュラリティ

In [None]:
import requests
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

なお、ローカル環境で動かしている方は以下のコードでおそらくエラーがでます。`lxml`とchromedriverのセットアップが必要になります。`lxml`は、`pip install lxml`でインストールしてください(`conda install lxml`ではエラーが出るため、ここは`pip`で)。chromedriverのセットアップは少々作業が必要なので研修後に挑戦してみてください。例えばこちらの[ウェブ](https://chromedriver.chromium.org/getting-started)を参照

In [None]:
# Import libraries
from selenium import webdriver
import pandas as pd

# Pypl programming language popularity
url = 'https://pypl.github.io/PYPL.html'

# Run selenium script
driver = webdriver.Chrome()
driver.get(url)
html = driver.page_source

In [None]:
# Read html
tables = pd.read_html(html)
data = tables[0][['Rank', 'Language', 'Share']].iloc[:-1, :]
# Reformat data types
data['Rank'] = data['Rank'].astype(int)
data['Share'] = [float(element.split('%')[0]) for element in data['Share']]

In [None]:
# Plot table
data.plot.bar(x = 'Language', y = 'Share', color = 'gray', figsize = (14, 4))
plt.ylabel('Percent')
plt.xlabel('Language')
plt.title('Popularity of Programming Language', fontsize = 14);

### (3) モジュラリティ    
PythonはベースとなるPython言語に、**様々なモジュール（Libraryと言う）**を組み合わせることにより、機能している言語。代表的なLibraryは**Numpy**, **Pandas**, **Matplotlib**など。これらのベースモジュールから、さらに様々なLibraryが拡張されている（例えば、機械学習で一般的なScikit-LearnはNumpy, Pandas, Matplotlibと互換している）。簡単に、Numpy, Pandas, Matplotlibを見てみます。

In [None]:
# 例１:Numpy
import numpy as np
arr = np.array([1, 2, 3])
print('Numpy: ', arr)
type(arr)

In [None]:
# 例２：Pandas
import pandas as pd
df = pd.DataFrame(arr, columns = ['column'])
print(type(df))
print('\nThis is Pandas DataFrame.')
df

In [None]:
#　例３：Matplotlib
import matplotlib.pyplot as plt
# Show Numpy array
plt.plot(arr)# `arr`と`df`を入れ替えてみても、同じ図になります。
plt.title('Visualize Numpy array')
plt.show()

# Show Pandas Dataframe
plt.plot(df)
plt.title('Visualize Pandas Dataframe')
plt.show()

# 2. Pythonのインストール

(1) 結論：  
- **[Anaconda](https://www.anaconda.com/products/individual)**をダウンロード&インストール。インストール時に**Environment variable**を指定しますか、というようなウィンドウがでるので、そこのボックスをチェック。詳しいインストール方法は[こちら](https://docs.anaconda.com/anaconda/install/windows/)(ただし、こちらではEnv variableにチェックをしないようになっていますが、チェックしておいた方が後々楽。)。
<img src="img/Installation.png" alt = "Anaconda installer" style = "width: 500px;"/>
- WindowsであればWindows Keyを押下、「cmd」とタイプ。黒い画面（Command）に、"**jupyter notebook**"とタイプ。（"はタイプする必要なし）
- Macであれば、Command+Spaceキーを押下、「Terminal」とタイプ。黒い画面（Terminal）に、"**jupyter notebook**"とタイプ。

(2) 解説：  
- 本家本元のPythonは[こちら](https://www.python.org/downloads/)からダウンロードしてインストールできます。しかし、それを動かしていくには大きな課題が２つあります。
- １つ目は**Dependency**という問題です。先ほどModuralityの話をしましたが、多くのLibraryはその他のLibraryを基盤にして積み上げていくように作っています（ベースとするライブラリがあり、それに応用ライブラリをくっつけるようなイメージ）。そうすると、ある応用ライブラリをインストールするときに、ベースとなるライブラリもインストールしなければいけません。そして、それらのライブラリのバージョンが変更される度にインストールを繰り返すようなことが必要になります。従って、このバージョンコントロール、すなわちライブラリ間のDependenciesをいかにマネージするかが重要になります。通常のPython3のインストールではこれができませんが、Anacondaだと自動でDependenciesの管理をしてくれます。
- ２つ目は**プログラムを書くプラットフォーム**です。本元Pythonはスクリプトだけを書くので、コントロールをしづらいです。Pythonコードを書くプラットフォームは様々で例えば[Atom](https://atom.io/)、[Visual Studio Code](https://code.visualstudio.com/)、[Spyder](https://www.spyder-ide.org/)などがありますが、最も使いやすく、かつポピュラーなプラットフォームは**[Jupyter notebook](https://jupyter.org/)**になります。Jupyter notebookはその名のとおり、ノートブック形式で、セルを一つ一つ実行することにより、動作確認をしていくことができるため、コードを書きながら修正していくためにはとても使いやすいものです。AnacondaではJupyter Notebookを自動でインストールしてくれるので、追加でのインストールは不要です。
<br><br>
なお、*この研修受講はPythonをインストールしなくても大丈夫*です。私が作ったノートブックを**Binder**という機能で公開します。Binderは指定されたノートブックをウェブ上で走らせることができるため、ローカル環境でのインストールは不要です。ただし、アクセスが一度に集まるとノートブックが立ち上がらないケースがある点だけご了解ください。

# 3. Jupyter Notebookの使い方（とりあえず、これだけ覚えれば大丈夫）

`Ctrl` + `Enter` -> セルをクリック（同じセルにとどまる）

In [None]:
print('Hello World!')

`Shift` + `Enter` ->　セルをクリックし、次のセルに遷移

In [None]:
print('Hello World!')

`Esc`を押してから`B` -> セルを下に挿入

`Esc`を押してから`A`　->　セルを上に挿入

`Esc`を押してから`D`を2回クリック ->　セルを削除

In [None]:
print('Hello World!')

`Esc`を押してから`M` -> Markdownモード（メモ書き、セルの左側はブランクに）

In [None]:
print('Hello World!')

`Esc`を押してから`Y` ->Codeモード（セルの左側はコードの番号が表示）

In [None]:
print('Hello World!')

Jupyter Notebookの機能に限ったものではないが、覚えておくべきこと。

`#`　->　コメント

In [None]:
# This is the comment.
print('Hello World!')

In [None]:
print('Hello World!') # This also works.

`' '`又は`" "` -> テキスト

In [None]:
# This does not work
Hello World!

In [None]:
# This does work
'Hello World!'

# 4. 簡単な計算をしてみましょう。

In [None]:
# 足算
115 + 28

In [None]:
# イコールを書くとエラーが出ます。なぜなら、PythonではイコールはVariableを指定するために用いられるからです。
115 + 28 = 43

In [None]:
# イコールはこのように使います。
sampleAddition = 115 + 28
sampleAddition

In [None]:
# 引き算
111 - 45

In [None]:
# 同じようにイコールでvariableを指定します。
sampleSubtraction = 111 - 45
sampleSubtraction

In [None]:
# では、上の足算と引き算を足し上げるとどうでしょう？
(115 + 28) + (111 - 45)

In [None]:
# 当然ながらそれぞれの計算結果から算出しても同じですよね
143 + 66

In [None]:
# Variables同士を足し上げることもできます
sampleAddition + sampleSubtraction

In [None]:
# 掛け算
143 * 66

In [None]:
sampleAddition * sampleSubtraction

In [None]:
# 割り算
143 / 66

In [None]:
sampleAddition / sampleSubtraction

In [None]:
# 累乗 `**`
2 ** 8

In [None]:
# "切り捨て除算" floor division
143 // 66

In [None]:
# Modulus = Remainder of division
sampleAddition % sampleSubtraction

In [None]:
# 例えば、エクセルで定番のSum計算もできます。
sum([1, 2, 3, 4])

## Variables
すでに`sampleSubtraction = 111 - 45`で、variableを指定することはやっていますが、Do's and Don'tsを紹介します。

In [None]:
# Define a variable
x = 10

In [None]:
# Add 5
y = x + 5
y

In [None]:
# Add 5 to the variable of x
x = x + 5
x

In [None]:
# Add 10 to the variable of x, using the shorthand like +=, -=
x += 10
x

In [None]:
# Subtract 25 from the variable of x
x -= 25
x

不適当なVariables

In [None]:
## Case One - Space in the variable
my var = 100

In [None]:
## Case Two - Number in front
123var = 100

In [None]:
## Case Three - Using the existing syntax in Python
# print = 100

In [None]:
## Case Three - Start from capital letter (allowed, but not recommended)
Var = 100

正しいVariables

In [None]:
myvariable = 100
myVariable = 100
my_variable = 100
my_variable_100 = 100

Print function

In [None]:
print('abc')

In [None]:
# Don't forget to make it a text!
print(abc)

`print`を使わなくても、コンソールに結果を示すことはできるが、それは最終行にvariableが記載されているとき。結果をExplicitにコンソールに印字したい場合は、`print`を用いる。

In [None]:
x = 100
x

In [None]:
y = 200
x # x は最終行でないため、印刷されない。
y

In [None]:
#　印刷したいものは`print`で。
print(x)
print(y)

In [None]:
# より複雑なprint function
## Case 1 - 文字を数字をin sequenceで合わせる。
print('Data Science CoPには全部で', x, '人の参加者がいます。')

In [None]:
# Case 2 - 鍵かっこで文字を閉じて、後ろにformatを記載。
print('Data Science CoPには全部で{}人の参加者がいます。'.format(x))

In [None]:
# Case 3 - すでにxは指定されているので、鍵かっこだけ挿入。
print(f'Data Science CoPには全部で{x}人の参加者がいます。')

テキストを用いるときは、ダブルクオーテーション又はシングルクオーテーションを用います。

In [None]:
"Hello World!"

In [None]:
'Hello World!'

# グループワーク

**タスク１**：プリントで「このCoPには約100人の参加者がいます。」と記載してください。ヒント：print("  ")

In [1]:
# Here is your code
print("このCoPには約100人の参加者がいます。")

このCoPには約100人の参加者がいます。


**タスク２**：プリントで「このCoPでは8週間の研修を毎回１時間ほど行います。」としてください。その際、**week**と**time**の変数を作成し、*「このCoPでは* **{week}** *週間の研修を毎回* **{time}** *時間ほど行います。」*のように記載してください。

In [2]:
# Here is your code
week = 8
time = 1
# 方法１
print("このCoPでは {} 週間の研修を毎回 {} 時間ほど行います。".format(week, time))
# 方法２
print(f"このCoPでは {week} 週間の研修を毎回 {time} 時間ほど行います。")

このCoPでは 8 週間の研修を毎回 1 時間ほど行います。
このCoPでは 8 週間の研修を毎回 1 時間ほど行います。


**タスク３**: 次の変数を用いて以下の計算をしてください。

In [3]:
# Initial values
x = 100
y = 246
z = 3

In [4]:
# xとyを足して、新しい変数 x_plus_y を作成してください。
x_plus_y = x + y
x_plus_y

346

In [5]:
# x_plus_y　と z を掛け算して、新しい変数 x_plus_y_multiply_z を作成してください。
x_plus_y_multiply_z = x_plus_y * z
x_plus_y_multiply_z

1038

In [6]:
# x_plus_y_multiply_z　を8乗してください。
x_plus_y_multiply_z ** 8

1347655313915299204874496

---

In [None]:
# This cell is to create a config file.
# Hiding this cell for authority

# Hiding celll from https://gist.github.com/Zsailer/5d1f4e357c78409dd9a5a4e5c61be552
from IPython.display import HTML
from IPython.display import display

# Taken from https://stackoverflow.com/questions/31517194/how-to-hide-one-specific-cell-input-or-output-in-ipython-notebook
tag = HTML('''<script>
code_show=true; 
function code_toggle() {
    if (code_show){
        $('div.cell.code_cell.rendered.selected div.input').hide();
    } else {
        $('div.cell.code_cell.rendered.selected div.input').show();
    }
    code_show = !code_show
} 
$( document ).ready(code_toggle);
</script>
Creating requirements.txt file. To show/hide this cell's raw code input, click <a href="javascript:code_toggle()">here</a>.''')
display(tag)

############### Write code below ##################
# Config file to freeze packages in a notebook
# from https://stackoverflow.com/questions/40428931/package-for-listing-version-of-packages-used-in-a-jupyter-notebook
import pkg_resources
import types

def get_requirements():
    def get_imports():
        for name, val in globals().items():
            if isinstance(val, types.ModuleType):
                # Split ensures you get root package, 
                # not just imported function
                name = val.__name__.split(".")[0]

            elif isinstance(val, type):
                name = val.__module__.split(".")[0]

            # Some packages are weird and have different
            # imported names vs. system/pip names. Unfortunately,
            # there is no systematic way to get pip names from
            # a package's imported name. You'll have to add
            # exceptions to this list manually!
            poorly_named_packages = {
                "PIL": "Pillow",
                "sklearn": "scikit-learn"
            }
            if name in poorly_named_packages.keys():
                name = poorly_named_packages[name]

            yield name
    imports = list(set(get_imports()))

    # The only way I found to get the version of the root package
    # from only the name of the package is to cross-check the names 
    # of installed packages vs. imported packages
    requirements = []
    for m in pkg_resources.working_set:
        if m.project_name in imports and m.project_name!="pip":
            requirements.append((m.project_name, m.version))

    
    with open("requirements.txt", "w") as f:
        print('Create "requirements.txt"')
        for r in requirements:
            string = r[0] + '==' + r[1] + '\n'
            f.write(string)
            print("\t{}=={}".format(*r))
    print('"requirements.txt" was created.')
        
get_requirements()
