<a href="https://colab.research.google.com/github/modeverv/01_byosoku_deeplearning/blob/master/Chapter2_ver2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 2 Numpy、Scipy、Pandas、Matplotlibの基礎

- **[2.1 Numpy、Scipy、Pandas、Matpltolibの基礎](#2.1-Numpy、Scipy、Pandas、Matpltolibの基礎)** 
    - [2.1.1 Numpyの基礎](#2.1.1-Numpyの基礎)
    - [2.1.2 Scipyの基礎](#2.1.2-Scipyの基礎)
    - [2.1.3 Pandasの基礎](#2.1.3-Pandasの基礎)
    - [2.1.4 Matplotlibの基礎](#2.1.4-Matplotlibの基礎)
<br><br>
- **[2.2 総合問題](#2.2-総合問題)**
    - [2.2.1 モンテカルロ法](#2.2.1-モンテカルロ法)


***

## 2.1 Numpy、Scipy、Pandas、Matpltolibの基礎
ゴール：Numpy、Scipy、Pandas、Matplotlibのモジュールを読み込みそれらの基本的な役割を知る

In [1]:
# 以下のモジュールを使うので、あらかじめ読み込んでおいてください
import numpy as np
import numpy.random as random
import scipy as sp
import pandas as pd
from pandas import Series, DataFrame

# 可視化モジュール
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
%matplotlib inline

# 小数第３まで表示
%precision 3

u'%.3f'

### 2.1.1 Numpyの基礎
キーワード：多次元配列、転置、行列の積、乱数、復元抽出、非復元抽出

この章では、データ分析でよく使われるPythonのモジュールNumpy、Scipy、Pandas、Matplotlibについて基礎的な使い方を学びます。これらのモジュールを扱ったのは、今後紹介する機械学習のsklearn等のモジュールのベースとなっており、またデータを前処理したり、可視化するのに非常に便利なツールだからです。ここではこれらの使い方の基本を紹介しますが、さらに詳しいことは次の章以降で学びます。

まずは、Numpyの基本的な使い方についてです。Numpyを使うと、多次元配列を処理することができます。実際に扱うデータは多次元であることが多く、その処理をするためにNumpyを使うと便利です。また、NumpyはCで実装されており、処理が高速です。

以下で、**import** モジュール名（numpy）でモジュールを読み込んでおり、**as** で短い名前（ここではnp）をつけます。これで該当のモジュールが使えるようになります。なお、%はマジックコマンドと言われJupyter Notebookで使える特殊変数ようなものです。以下はその1つであるprecisionを使って、小数点第3位まで結果を表示させるようにしています。他にも色々とありますので、都度紹介します。

In [2]:
# numpyモジュールの読み込み
import numpy as np

# 小数第３まで表示という意味
%precision 3

u'%.3f'

まずは、1から10までの配列を作成してみましょう。np.と後にarrayをつけて、配列を作っています。(数字が綺麗に並んでないですが、後から並び替えをするためにわざと作っています。)

In [3]:
# 配列の作成
sample_numpy_data = np.array([9,2,3,4,10,6,7,8,1,5])
sample_numpy_data

array([ 9,  2,  3,  4, 10,  6,  7,  8,  1,  5])

次に、このデータの型をチェックするために、変数の後に「.」をつけて、dtypeを記述しています。以下の出力はintとありますので、整数型であることがわかります。これもオブジェクト型プログラミングの特徴です。ちなみに、「.」を入力後にタブ[tab]キーを押せば、その変数がもっているオブジェクトが表示されますので、そこから該当のものを選んで実行しましょう。そうすることで、すべてのオブジェクト等を正確に覚える必要はないですし、タイプミスも減ります。

In [4]:
# データの型
sample_numpy_data.dtype
sample_numpy_data.dtype

dtype('int64')

>**[ポイント]**

>作業（コーディング）を早く正確にするためには、タブ[tab]を使いなそう

以下は、データの次元数と要素数を表示しています。ndimとsizeです。これを使うことで、データの大きさ等がどれくらいなのかわかります。

In [9]:
# 次元数
print("次元数:",sample_numpy_data.ndim)

# 要素数
print("要素数:" ,sample_numpy_data.size)


('\xe6\xac\xa1\xe5\x85\x83\xe6\x95\xb0:', 1)
('\xe8\xa6\x81\xe7\xb4\xa0\xe6\x95\xb0:', 10)


for文で書いた同じ結果（それぞれの数字を係数倍）も、Numpyを使うとだいぶ楽になります。

In [10]:
# それぞれの数字を係数倍（ここでは2倍）
sample_numpy_data * 2

array([18,  4,  6,  8, 20, 12, 14, 16,  2, 10])

それぞれの要素での掛け算や割り算も、for文などを使わずに簡単に計算できます。

In [11]:
# それぞれの要素同士での演算
print("掛け算:",np.array([1,2,3,4,5,6,7,8,9,10]) * np.array([10,9,8,7,6,5,4,3,2,1]))
print("累乗:",np.array([1,2,3,4,5,6,7,8,9,10]) **2)
print("割り算:",np.array([1,2,3,4,5,6,7,8,9,10]) / np.array([10,9,8,7,6,5,4,3,2,1]))

('\xe6\x8e\x9b\xe3\x81\x91\xe7\xae\x97:', array([10, 18, 24, 28, 30, 30, 28, 24, 18, 10]))
('\xe7\xb4\xaf\xe4\xb9\x97:', array([  1,   4,   9,  16,  25,  36,  49,  64,  81, 100]))
('\xe5\x89\xb2\xe3\x82\x8a\xe7\xae\x97:', array([ 0,  0,  0,  0,  0,  1,  1,  2,  4, 10]))


以下では、0や1のデータを作っています。「zeros」は全ての要素を0で作成し、「ones」は全ての要素を1で作成します。dtypeで型を指定しています。

In [13]:
# 0 や 1の初期化データ
# (2,3)は2行3列の行列データを作っています。
zero_data = np.zeros((2,3), dtype='i')
one_data = np.ones((2,3), dtype='f')

print("・0でint型　\n", zero_data)

print("・1でfloat型 \n", one_data)

('\xe3\x83\xbb0\xe3\x81\xa7int\xe5\x9e\x8b\xe3\x80\x80\n', array([[0, 0, 0],
       [0, 0, 0]], dtype=int32))
('\xe3\x83\xbb1\xe3\x81\xa7float\xe5\x9e\x8b \n', array([[1., 1., 1.],
       [1., 1., 1.]], dtype=float32))


次は、配列の数字をソート（並び替え）してみましょう。デフォルトでは、昇順（小さい数字から大きい数字）になります。

In [16]:
print("そのまま：",sample_numpy_data)

# ソート
sample_numpy_data.sort()
sample_numpy_data[::-1].sort()
print("ソート後：",sample_numpy_data)

('\xe3\x81\x9d\xe3\x81\xae\xe3\x81\xbe\xe3\x81\xbe\xef\xbc\x9a', array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10]))
('\xe3\x82\xbd\xe3\x83\xbc\xe3\x83\x88\xe5\xbe\x8c\xef\xbc\x9a', array([10,  9,  8,  7,  6,  5,  4,  3,  2,  1]))


なお、降順（大きい数字から小さい数字）にしたい場合は、sample_numpy_data[::-1].sort()のように、**スライス**を使ってやります。[::-1]は、-1つずつ飛ばすという意味で、-1は逆からを意味するので、逆さから数字を1つずたどっていくことになります。

minやmaxを呼び出すことで、最小値や最大値なども求めることができます。これもオブジェクト指向の特徴です。積み上げcumsumは、前から順に足しあげていく演算です。

In [17]:
# 最小値
print("Min:",sample_numpy_data.min())
# 最大値
print("Max:",sample_numpy_data.max())
# 合計
print("Sum:",sample_numpy_data.sum())
# 積み上げ
print("Cum:",sample_numpy_data.cumsum())
# 積み上げ割合
print("Ratio:",sample_numpy_data.cumsum()/sample_numpy_data.sum())

('Min:', 1)
('Max:', 10)
('Sum:', 55)
('Cum:', array([10, 19, 27, 34, 40, 45, 49, 52, 54, 55]))
('Ratio:', array([0, 0, 0, 0, 0, 0, 0, 0, 0, 1]))


次は、乱数についてです。乱数とは、簡単にいうと規則性のないデタラメな数をいいます。乱数を発生するときには、Numpyを使うことが多く、計算するときには以下のようにします。10個の乱数を発生させています。seedはなくても大丈夫ですが、乱数を固定化し、のちの検証などで一定の値を担保できます。正規分布等については後で説明します。平均が0でデータの散らばり具合を意味する分散が1の確率分布に従うデータから数字を取り出します。

In [18]:
# 乱数の発生のためのモジュール読み込み
import numpy.random as random

# seedを設定することで乱数を固定化することができる
# これを設定しないと、テストなどでチェックするときに再現が困難になる
random.seed(0)

# 正規分布（平均0、分散1）の乱数を10個発生
norm_random_sample_data = random.randn(10)

print("乱数10個の配列:", norm_random_sample_data)

('\xe4\xb9\xb1\xe6\x95\xb010\xe5\x80\x8b\xe3\x81\xae\xe9\x85\x8d\xe5\x88\x97:', array([ 1.764,  0.4  ,  0.979,  2.241,  1.868, -0.977,  0.95 , -0.151,
       -0.103,  0.411]))


次は、発生させたデータの中から数字を抽出しています。random.choiceを使っています。replaceはデフォルトでTrueで、この場合は、データの中から重複を許してデータを抜き出す方法で、これを**復元抽出**と言います。一方、replaceをFalseに設定する場合はデータの重複を許さずにデータを抜き出す方法で、これを**非復元抽出**と言います。

In [20]:
# ランダム抽出
print(random.choice(norm_random_sample_data,10))# 10個を抽出（重複あり,復元抽出）
print(random.choice(norm_random_sample_data,10,replace=False)) # 10個を抽出（重複なし、非復元抽出)

[ 2.241  2.241  2.241 -0.151  1.764  0.4    0.411  0.411  1.764  1.868]
[ 0.4    0.411  1.764 -0.977  1.868  0.979 -0.103  0.95   2.241 -0.151]


復元抽出では、同じ数字が何個かあったりしますが、非復元抽出では、同じ数字が入ることはありません。

>**[やってみよう]**

>seed(0)の0を変えたり、ランダム抽出の数を増やしたりして、結果どうなっているか表示してみましょう。

次は、Numpyを用いた場合の計算時間の比較です。乱数を10の6乗コ発生させて、それを合計する実装です。一番はじめは普通の処理、2つ目がNumpyを使った処理です。

In [21]:
# Nは乱数の発生数、10の6乗
N = 10**6
# normal version (以下のrange(N)は0からN-1までの整数を用意しています。 _ はあとで変数として使用しないため、このように表現します。)
normal_sample_data = [random.random() for _ in range(N)]
# numpy version
numpy_random_data = np.array(normal_sample_data)

# calc time :合計値
%timeit sum(normal_sample_data)
%timeit np.sum(numpy_random_data)

100 loops, best of 3: 11.9 ms per loop
1000 loops, best of 3: 396 µs per loop


普通に演算するよりも、Numpyを使った方(np.sum())が早くなりました。%timeitは何回か同じ計算をして、ベスト3の平均計算時間を返しています。1つ目の「100 loops, best of 3: 5.78 ms per loop」は、100回計算して、ベスト3の計算時間平均が5.78ミリ秒という意味です。

>**[ポイント]**

>パフォーマンス等をあげたい場合は、%timeit を使いながら、計算時間をチェックしましょう。

次は、Numpyを使って、行列を作成しています。0〜8までの数字を3×3行列で表示しています。arrange(9)は0から8までの整数で、その後にreshapeで行列に変換しています。

In [22]:
# データの準備
sample_multi_array_data1 = np.arange(9).reshape(3,3)
print(sample_multi_array_data1)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


行や列のみを抜き出す場合は、以下のようにします。[0,:]はインデックス0の行で、列はすべて取り出すという意味です。

In [23]:
# 行
sample_multi_array_data1[0,:]

array([0, 1, 2])

行や列のみを抜き出す場合は、以下のようにします。[:,0]はインデックス0の列で、行はすべて取り出すという意味です。

In [24]:
# 列
sample_multi_array_data1[:,0]

array([0, 3, 6])

行列の掛け算をしてみましょう。以下は、データの準備として、同じ行数と列数の行列を作成しています。

In [25]:
sample_multi_array_data2 = np.arange(9,18).reshape(3,3)
print(sample_multi_array_data2)

[[ 9 10 11]
 [12 13 14]
 [15 16 17]]


行列の掛け算では、dotを使います。なお、*を使うと、それぞれの要素を掛け算するだけなので、注意しましょう。

In [26]:
# 行列の積
np.dot(sample_multi_array_data1,sample_multi_array_data2)

array([[ 42,  45,  48],
       [150, 162, 174],
       [258, 279, 300]])

In [27]:
# 要素の積(注：行列の掛け算ではありません)
sample_multi_array_data1 * sample_multi_array_data2

array([[  0,  10,  22],
       [ 36,  52,  70],
       [ 90, 112, 136]])

#### <練習問題 1>

1から50までの自然数の和を計算するプログラムを書いて、最後の計算結果を表示させるプログラムを書いてください。ただし、Numpyを使ってください。

In [32]:
ar1to50 = np.arange(1,51)
print(ar1to50)
result = np.sum(ar1to50)
print(result)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49 50]
1275


#### <練習問題 2>

正規分布に従う乱数を10個発生させて配列を作成してください。また、その中での最小値、最大値、合計を求めるプログラムを書いてください。

In [36]:
random.seed(0)
random_ar = random.randn(10)
print(random_ar)
print(random_ar.max())
print(random_ar.min())
print(random_ar.sum())



[ 1.764  0.4    0.979  2.241  1.868 -0.977  0.95  -0.151 -0.103  0.411]
2.240893199201458
-0.977277879876411
7.380231707288347


#### <練習問題 3>

要素がすべて3の5行5列の行列を作成し、その行列の2乗をする計算をしてみましょう。

In [41]:
matrix = np.ones((5,5),dtype='i') * 3
matrix2 = matrix ** 2
print(matrix)
print(matrix2)

[[3 3 3 3 3]
 [3 3 3 3 3]
 [3 3 3 3 3]
 [3 3 3 3 3]
 [3 3 3 3 3]]
[[9 9 9 9 9]
 [9 9 9 9 9]
 [9 9 9 9 9]
 [9 9 9 9 9]
 [9 9 9 9 9]]


### 2.1.2 Scipyの基礎
キーワード：逆行列、固有値、固有ベクトル、最適化

Scipyは科学技術計算をするためのモジュールで、多様な数学処理が可能です。ここでは、線形代数の逆行列や固有値、方程式の解などを求めてみましょう。なお、これらの用語がわからない方は、ネットで調べるか、以前紹介した参考文献で学習してください。

In [0]:
# Scipyのモジュール
import scipy as sp

# 線形代数用のモジュール
import scipy.linalg as linalg

# 最適化計算（最小値）用のモジュール
from scipy.optimize import minimize_scalar

以下は、ある行列に対して行列式を求めています。detを使います。

In [0]:
# サンプルデータ作成
sample_matrix_data = np.array([[1,-1,-1],[-1,1,-1],[-1,-1,1]])

# 行列式
print("行列式")
print(linalg.det(sample_matrix_data))

次は、逆行列です。invを使います。

In [0]:
# 逆行列
print("逆行列")
print(linalg.inv(sample_matrix_data))

念のため、確認してみましょう。行列の積が単位行列になっていることがわかります。

In [0]:
# 確認
print(sample_matrix_data.dot(linalg.inv(sample_matrix_data)))

次は、固有値と固有ベクトルを算出しています。

In [0]:
# 固有値と固有ベクトル
eig_value, eig_vector = linalg.eig(sample_matrix_data)

# 固有値と固有ベクトル
print("固有値")
print(eig_value)
print("固有ベクトル")
print(eig_vector)

次は最適化計算を使って、方程式の解を求めてみましょう。ここで計算する式として、

\begin{eqnarray}
f(x) = x^2 + 2x +1
\end{eqnarray}

の2次関数を考えます。もちろん、紙と鉛筆で計算することも可能で、解は-1ですが、解の近似計算でよく使われるニュートン法を使って求めてみましょう。まずは、上の関数を用意します。

In [0]:
# 関数の定義
def sample_function(x):
    return (x**2 + 2*x + 1)

次に、f(x)=0の解xを求めるために、以下でnewton関数を使います。newton関数の1つ目の引数が先ほど用意した関数sample_functionをセットし、2つ目の引数にはf(x)=0 の0をセットします。

In [0]:
# ニュートン法の読み込み
from scipy.optimize import newton

# 計算実行
print(newton(sample_function,0))

ほぼ-1になっているのがわかります。

なお、ニュートン法をはじめて聞いた方は検索をして調べるか、以下のサイト等を参考にしてください。

>[参考URL]

>https://ja.wikipedia.org/wiki/ニュートン法

>http://qiita.com/PlanetMeron/items/09d7eb204868e1a49f49

次に同じ関数で、最小値を求めることを考えます。ここでは、minimize_scalarを使うことにします。なお、パラメータでは、Brent 法を使っており、放物線補間法と黄金分割法（単峰関数の極値（極大値または極小値）を求める方法）を組み合わせた方法で、黄金分割法よりも収束が速いのが特徴です。この講座では、あまり使わないので、用語等については覚えなくても大丈夫ですが、これら以外にも色々なアプローチ方法がありますので、時間がある方は調べてみてください。

In [0]:
# 計算実行
print(minimize_scalar(sample_function,method="Brent"))

ここでScipyについては一旦終了します。次の章でさらに色々な科学計算（積分や微分方程式など）ができることを学びます。

>**[やってみよう]**

>上の関数を変更したりして、最小値等を計算を実行してみましょう。

#### <練習問題 1>

以下の行列について、行列式を求めてください。

$
  A = \left(
    \begin{array}{ccc}
      1 & 2 & 3 \\
      1 & 3 & 2 \\
      3 & 1 & 2
    \end{array}
  \right)
$

#### <練習問題 2>

上と同じ行列について、逆行列、固有値と固有ベクトルを求めてください。

#### <練習問題 3>

以下の関数が0となる解を求めてみましょう。

\begin{eqnarray}
f(x) = x^3 + 2x+ 1
\end{eqnarray}

### 2.1.3 Pandasの基礎
キーワード：Series、DataFrame、データの操作、データの結合、ソート

ここでは、Pandasについて学びます。Pandasを使うと、データの様々なハンドリングをスムーズに柔軟に実施することができ、表計算や後ほど学ぶデータベースのようなデータ操作が可能となります。以下で、必要となるモジュールを読み込んできます。

In [0]:
from pandas import Series,DataFrame
import pandas as pd

以下では、Seriesを使っています。これは、配列のようなオブジェクトです。インデックスも左に表示しています。

In [0]:
# Series
sample_pandas_data = pd.Series([0,1,2,3,4,5,6,7,8,9])
print(sample_pandas_data)

In [0]:
print("データの値:",sample_pandas_data.values)
print("インデックスの値:",sample_pandas_data.index)

もし、インデックスを数字ではなく、何か特定の文字などに置き換えたい場合は、以下のように宣言します。

In [0]:
# indexを文字で
sample_pandas_index_data = pd.Series([0,1,2,3,4,5,6,7,8,9]
                                     ,index=['a','b','c','d','e','f','g','h','i','j'])
print(sample_pandas_index_data)

In [0]:
print("データの値:",sample_pandas_index_data.values)
print("インデックスの値:",sample_pandas_index_data.index)

次は、DataFrameについてです。DataFrameは各々の列で異なる型を持たせることが可能です。

In [0]:
attri_data1 = {'ID':['100','101','102','103','104']
        ,'city':['Tokyo','Osaka','Kyoto','Hokkaidao','Tokyo']
        ,'birth_year':[1990,1989,1992,1997,1982]
        ,'name':['Hiroshi','Akiko','Yuki','Satoru','Steeve']}

attri_data_frame1 = DataFrame(attri_data1)

print(attri_data_frame1)

DataFrameも、インデックスの更新が可能です。

In [0]:
attri_data_frame_index1 = DataFrame(attri_data1,index=['a','b','c','d','e'])
print(attri_data_frame_index1)

行列の転置のように、ひっくり返す場合には、.Tを使います。

In [0]:
# 転置
attri_data_frame1.T

特定の列を指定したい場合は、データの後にカラム名をつけます。複数の場合は、複数のカラム名を指定しましょう。

In [0]:
# 列名の指定（１つ）
attri_data_frame1.birth_year

In [0]:
# 列名の指定(複数の場合)
attri_data_frame1[["ID","birth_year"]]

一定の条件を満たすものだけ、データを取り出すことも可能です。例えば、cityがTokyoのみのデータを抽出したい場合は、以下のようにします。

In [0]:
#　条件（フィルター）
attri_data_frame1[attri_data_frame1['city']=='Tokyo']

値を複数の条件で取り出したい場合は、isin(リスト)を以下のようにして、使ってください。あとの章でも使います。

In [0]:
#　条件（フィルター、複数の値）
attri_data_frame1[attri_data_frame1['city'].isin(['Tokyo','Osaka'])]

>**[やってみよう]**

>他にも条件を変更（birth_yearが1990未満など）して、フィルターを実行してみましょう。

ある特定の列を削除する方法は以下のようになります。axisで軸を設定し、1の場合は列方向です。行の削除はインデックスを指定して、axis=0とします。

In [0]:
# データの列の削除
attri_data_frame1.drop(['birth_year'],axis=1)

次は、別のデータテーブルがあった時に、キーをベースにして、テーブルを結合する方法です。mergeを使います。なお、キーを明示しない場合は、自動で見つけて結合します。

In [0]:
# 別のデータの準備
attri_data2 = {'ID':['100','101','102','105','107']
        ,'math':[50,43,33,76,98]
        ,'English':[90,30,20,50,30]
        ,'sex':['M','F','F','M','M']}
attri_data_frame2 = DataFrame(attri_data2)
print(attri_data_frame2)

以下で結合しています。キーはIDで、100,101,102が共通であるため、それで結合しています。

In [0]:
# データのマージ（内部結合、詳しくは次の章で）
pd.merge(attri_data_frame1,attri_data_frame2)

次はグループ集計といい、groupbyを使うことで、ある特定のカラムを軸にした集計ができます。以下は、性を軸として、数学のスコア平均を算出しています。他には、最大値や最小値等も算出できます。

In [0]:
# データのグループ集計(詳しくは次の章で)
attri_data_frame2.groupby("sex")["math"].mean()

>**[やってみよう]**

>他にも変数を変えて、実行してみましょう。Englishの場合はどうなりますか。

もちろん、Pandasにはソート機能もあります。値だけではなく、インデックスをベースにソートできます。

In [0]:
# データの準備
attri_data2 = {'ID':['100','101','102','103','104']
        ,'city':['Tokyo','Osaka','Kyoto','Hokkaido','Tokyo']
        ,'birth_year':[1990,1989,1992,1997,1982]
        ,'name':['Hiroshi','Akiko','Yuki','Satoru','Steeve']}
attri_data_frame2 = DataFrame(attri_data2)
attri_data_frame_index2 = DataFrame(attri_data2,index=['e','b','a','d','c'])
print(attri_data_frame_index2)

In [0]:
# indexによるソート
attri_data_frame_index2.sort_index()

In [0]:
# 値によるソート、デフォルトは昇順
attri_data_frame_index2.birth_year.sort_values()

最後に、値があるかどうか、Nullの判定についてです。

以下は、attri_data_frame_index2にTokyoという文字列があるかどうかをisinで調べて、それぞれのセルにTrueかFalseが返されます。入っていればTrue、入っていなければFalseになっていることがわかります。

In [0]:
# 値があるかどうかの確認
attri_data_frame_index2.isin(["Tokyo"])

次は、一部にnanをわざと入れて、isnullでそれぞれのセルを判定しています。

In [0]:
#　欠損値の取り扱い
# name をすべてnanにする
attri_data_frame_index2.name = np.nan
attri_data_frame_index2.isnull()

In [0]:
# nullを判定し、合計する
attri_data_frame_index2.isnull().sum()

以上で、Pandasの簡単な説明は終わりです。次の章で実際のデータのハンドリングをしますので、ここで学んだことはしっかりと身につけてください。

#### <練習問題 1>

以下のデータに対して、Moneyが500以上の人を絞り込んで、レコードを表示させてください。

In [0]:
from pandas import Series,DataFrame
import pandas as pd

attri_data1 = {'ID':['1','2','3','4','5']
        ,'sex':['F','F','M','M','F']
        ,'Money':[1000,2000,500,300,700]
        ,'name':['Saito','Horie','Kondo','Kawada','Matsubara']}

attri_data_frame1 = DataFrame(attri_data1)

#### <練習問題 2>

上記のデータに対して、男女別（MF別）の平均Moneyを求めてください。

#### <練習問題 3>

上記のデータに対して、以下のデータの同じIDの人をキーとして、データをマージしてください。そして、MoneyとMathとEnglishの平均を求めてください。

In [0]:
attri_data2 = {'ID':['3','4','7']
        ,'Math':[60,30,40]
        ,'English':[80,20,30]}

attri_data_frame2 = DataFrame(attri_data2)

### 2.1.4 Matplotlibの基礎
キーワード：データビジュアライゼーション、散布図、ヒストグラム

データ分析をする上で、対象となるデータを可視化することはとても重要です。単に数字を眺めているだけでは、データに潜む傾向がなかなか見えなかったりしますが、データをビジュアル化することで、データ間の関係性なども見えてきます。特に、近年はインフォグラフィックスなどといって、可視化が注目されています。
ここでは、主にmatplotlibとseabornを使って、データを可視化する基本的な方法を身につけましょう。以下のサイトが参考になります。

>[参考URL]

>http://matplotlib.org/

>http://seaborn.pydata.org/

さらに以下の参考サイトは、pythonではなく、java scriptベースのプログラミングですが、データをビジュアル化するという意味では参考になります。

![dd](http://visualisingadvocacy.org/sites/visualisingadvocacy.org/files/D3-index.jpg)

参照：https://d3js.org

早速、必要なライブラリーを読み込みましょう。メインはmatplotlibで、seabornは図をさらにきれいにすることができます。

In [0]:
# matplotlib と seabornの読み込み
# seabornはきれいに図示できる
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns

# ここで表示させるために必要なマジックコマンド
%matplotlib inline

まずは、散布図です。散布図は、2つの組み合わせデータに対して、x−y座標上に点をプロットしたグラフです。ここから2変数の関係性などが見えてきます。

In [0]:
# 散布図

import numpy.random as random

#　シード値の固定
random.seed(0)
# x軸のデータ
x = np.random.randn(30)
# y軸のデータ
y = np.sin(x) + np.random.randn(30)

# plot
plt.plot(x, y, "o")

#以下でも散布図が描ける
#plt.scatter(x, y)

# title
plt.title("Title Name")
# Xの座標名
plt.xlabel("X")
# Yの座標名
plt.ylabel("Y")

# gridの表示
plt.grid(True)

次もplotを使いますが、時系列など連続した（厳密には連続とみなした）曲線を描いています。

In [0]:
# 連続曲線
np.random.seed(0)
# データの範囲
numpy_data_x = np.arange(1000)

# 乱数の発生と積み上げ
numpy_random_data_y = np.random.randn(1000).cumsum()

# label=とlegendでラベルをつけることが可能
plt.plot(numpy_data_x,numpy_random_data_y,label="Label")
plt.legend()

plt.xlabel("X")
plt.ylabel("Y")
plt.grid(True)

subplot()でグラフを複数に分けることができます。以下は、2行1列のグラフを作成し、1番目と2番目と番号を指定して表示させています。なお、linspace(-10,10,100)は-10から10までの数を100コに分割した数字リストを取り出します。

In [0]:
# sin関数

# 2行1列のグラフの1つ目
plt.subplot(2,1,1)
x = np.linspace(-10, 10,100)
plt.plot(x, np.sin(x)) 

# 2行1列のグラフの2つ目
plt.subplot(2,1,2)
y = np.linspace(-10, 10,100)
plt.plot(y, np.sin(2*y)) 

plt.grid(True)

次は、Scipyで扱った二次関数のグラフです。方程式の解の問題を考える際、数値計算しなくても図をみればおおよその解はわかります。

In [0]:
x = np.arange(-10, 10)
plt.plot(x, sample_function(x)) 
plt.grid(True)

次のグラフは、ヒストグラムと言われ、それぞれの値の**度数**(値が出現する回数)を示します。データの全体像を観察するときに使われる図です。ここからどんな数値が多いのか、少ないのか、偏りがあるのかないのか見ていきます。

実装ではhistを使います。その中にあるパラメータは、対象となるデータ、ビンの数（幅、個数）、範囲を設定しています。他にも色々とパラメータがありますので、前と同様に?でチェックしてみてください。

In [0]:
?plt.hist

他、help(~)関数を使って、仕様を確認することができます。

In [0]:
help(plt.hist)

In [0]:
# histogram
random.seed(0)
plt.hist(np.random.randn(10**5)*10 + 50, bins=60,range=(20,80))
plt.grid(True)

以上で、Matplotlibの基礎、そしてデータ分析で使うPyhonのメインモジュール(Numpy、Scipy、Pandas)の基本的な紹介についてはこれで終わります。お疲れ様でした。ここで学んだテクニックは、次の記述統計で使ったり、さらに次の章で活用していきます。

#### <練習問題 1>

y = 5x + 3 (xは-10から10の値)のグラフを書いてみましょう。

#### <練習問題 2>

先ほどのsin関数に加えて、cos関数のグラフも書いてください。

#### <練習問題 3>

0から1の値をとる一様乱数を1000個、2組発生させて、それぞれのヒストグラムを書いてみましょう。結果はどうなっていますか。また、1000個だけではなく、100個や10000個などでも実施してみましょう。何かわかることはありますか。なお、それぞれのヒストグラムは別のグラフに表示するために、plt.subplotを利用してください。なお、一様乱数とは、ある数から数まで等確率で発生する乱数のことをいい、np.random.uniformを使ってください。

## 2.2 総合問題

### 2.2.1 モンテカルロ法

乱数を発生させる方法を使って、円周率を求めるプログラムを作成してみましょう。（なお、このアプローチを**モンテカルロ法**といいます）

（1）一様分布に従う乱数を2組発生させて、それぞれ10,000個の一様乱数を作ってみましょう。なお、一様乱数とは、ある数から数まで等確率で発生する乱数のことをいい、np.random.uniformを使います。使い方としては、0から1までの数を10個発生させる場合は、np.random.uniform(0.0, 1.0, 10)とします。

（2）x−y軸を使った中心(0,0)、半径1の円と、長さ1の正方形を考え、円の面積は$\pi$となり、正方形の面積は1となります。ここで先ほどのxとyの組み合わせの乱数10000個のうち、円の内部に入る点は何組あるでしょうか。ここで、円の内部に入るとは、x−y座標の原点から点 (x, y) のベクトルの長さを求め、それが1より小さくなる場合を判定基準とします。なお、その長さを求めるために、ユークリッドノルム($\sqrt{x^2 + y^2}$)を使い、 math.hypot(x,y)で計算できます。（さらに、余裕があれば、円の中に入ったxとyの組み合わせと外に出たxとyの組み合わせをプロットして図にしてみましょう。）

（3）半径1の1/4の円の面積と長さ1の長方形の面積の比は、$ \pi /4 : 1$となりますので、これと先ほどの結果を利用して、円周率を求めてみましょう。