# 目次

1. データ分析エンジニアの役割（読むだけ）
   1. データ分析の世界
   2. 機械学習の位置づけと流れ
   3. データ分析に使う主なパッケージ
2. Pythonと環境（読むだけ）
   1. 実行環境構築
   2. Pythonの基礎
   3. Jupyter Notebook
3. 数学の基礎（読むだけ）
   1. 数式を読むための基礎知識
   2. 線形代数
   3. 基礎解析
   4. 確率と統計
4. ライブラリによる分析の実践（実装する）
   1. Numpy
   2. pandas
   3. Matplotlib
   4. scikit-learn
5. 応用：データ収集と加工（実装する）
   1. スクレイピング
   2. 自然言語の処理
   3. 画像データの処理

## 4. ライブラリによる分析の実践

### 4.1. Numpy

In [2]:
# import
import numpy as np

# make array
a_1d = np.array([1, 2, 3, 4, 5, 6])
a_2d = np.array([[1, 2, 3], [4, 5, 6]])
a_1d_reshaped_to_2d = a_1d.reshape((2, 3))

In [4]:
print(a_1d)
print()
print(a_2d)
print()
print(a_1d_reshaped_to_2d)

[1 2 3 4 5 6]

[[1 2 3]
 [4 5 6]]

[[1 2 3]
 [4 5 6]]


In [7]:
a_2d_raveled_to_1d = a_1d_reshaped_to_2d.ravel()
a_2d_raveled_to_1d # 参照を返す

array([1, 2, 3, 4, 5, 6])

In [8]:
a_2d_flatten_to_1d = a_1d_reshaped_to_2d.flatten()
a_2d_flatten_to_1d # コピーを返す

array([1, 2, 3, 4, 5, 6])

In [50]:
# 数列を返す
# np.arange(size)
print(np.arange(10))
# np.arange(start, end) generated number < end
print(np.arange(1, 11))
# np.arange(start, end, step)
print(np.arange(1, 11, 2))

[0 1 2 3 4 5 6 7 8 9]
[ 1  2  3  4  5  6  7  8  9 10]
[1 3 5 7 9]


In [51]:
# random
f1 = np.random.randint(1, 1000)
f2 = np.random.randint(1, 1000)
print(f1)
print(f2)
# 練習ではシード値を固定（結果を同じ）にすることが多い
# 結果が同じとは、何度試行（複数回呼び出し）しても同じ値になるということである
# 実際はシード値を固定にしない
np.random.seed(123)
f1 = np.random.randint(1, 100)
f2 = np.random.randint(1, 100)
print(f1)
print(f2)

99
743
f1 == f2 ? : 
 False
67
93
f1 == f2 ? : 
 False


In [58]:
# method
# - zeros: 全てゼロ
print(np.zeros((3, 3)), '\n')
# - ones: 全て1
print(np.ones((3, 3)), '\n')
# - eye: 単位行列
print(np.eye(3), '\n')
# - full: 指定の値で埋める
print(np.full((3, 3), 3.14), '\n')
# - linspace: 線形補間 (start, end, split num)
print(np.linspace(0, 1, 5), '\n')
# - diff: 要素間の差分数列を返す
print('a: ', np.array([0, 1, 3, 7, 2]))
print('a.diff: ', np.diff(np.array([0, 1, 3, 7, 2])))

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]] 

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]] 

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]] 

[[3.14 3.14 3.14]
 [3.14 3.14 3.14]
 [3.14 3.14 3.14]] 

[0.   0.25 0.5  0.75 1.  ] 

a:  [0 1 3 7 2]
a.diff:  [ 1  2  4 -5]


In [66]:
# 行列の連結
# 行方向
# np.concatnate([a, b], axis=0)
# np.vstack([a, b])
# 列方向
# np.concatnate([a, b], axis=1)
# np.hstack([a, b])
# ----------------------
a = np.arange(1, 10, 1).reshape((3, 3))
b = np.arange(11, 20, 1).reshape((3, 3))
# ----------------------
ab_vertical_concat = np.concatenate([a, b], axis=0)
print('concat vertical >>')
print(ab_vertical_concat)
ab_vertical_vstack = np.vstack([a, b])
print('vstack vertical >>')
print(ab_vertical_vstack)
# ----------------------
ab_horizontal_concat = np.concatenate([a, b], axis=1)
print('concat horizontal >>')
print(ab_horizontal_concat)
ab_horizontal_hstack = np.hstack([a, b])
print('hstack horizontal >>')
print(ab_horizontal_hstack)

concat vertical >>
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [11 12 13]
 [14 15 16]
 [17 18 19]]
vstack vertical >>
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [11 12 13]
 [14 15 16]
 [17 18 19]]
concat horizontal >>
[[ 1  2  3 11 12 13]
 [ 4  5  6 14 15 16]
 [ 7  8  9 17 18 19]]
hstack horizontal >>
[[ 1  2  3 11 12 13]
 [ 4  5  6 14 15 16]
 [ 7  8  9 17 18 19]]


In [67]:
# 行列の分割
# 行方向の分割：vsplit(src, [n]) > n行分が一つ目の戻り値、二つ目は残りの行
first, second = np.vsplit(a, [2])
print('vsplit a > 2row, else >>')
print(first)
print(second)
# 列方向の分割：hsplit(src, [n]) > n列分が一つ目の戻り値、二つ目は残りの列
first, second = np.hsplit(a, [2])
print('hsplit a > 2clm, else >>')
print(first)
print(second)

vsplit a > 2row, else >>
[[1 2 3]
 [4 5 6]]
[[7 8 9]]
hsplit a > 2clm, else >>
[[1 2]
 [4 5]
 [7 8]]
[[3]
 [6]
 [9]]


In [70]:
# 転置
print('a is >>')
print(a)
print()
print('transposed a (= a.T) is >>')
print(a.T)

a is >>
[[1 2 3]
 [4 5 6]
 [7 8 9]]

transposed a (= a.T) is >>
[[1 4 7]
 [2 5 8]
 [3 6 9]]


In [73]:
# 次元の追加
# 増やしたい方向（row or col）にnp.newaxisを指定してスライシングする
# 行方向の次元を増やしたい
print('add dim in row >> ')
print(a)
print(a[np.newaxis, :])
# 列方向の次元を増やしたい
print('add dim in col >> ')
print(a)
print(a[:, np.newaxis])

add dim in row >> 
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[[1 2 3]
  [4 5 6]
  [7 8 9]]]
add dim in col >> 
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[[1 2 3]]

 [[4 5 6]]

 [[7 8 9]]]


In [74]:
# グリッドデータの作成（3Dグラフを作る時とか使うこと多い）
# > meshgridが作るものは何？
# > - X座標列とY座標列から、それらを組み合わせて出来る全ての座標データを生成する
# > - x = (1, 2, 3), y = (1, 2, 3) を入力とすると
# > - [(1, 1), (2, 1), ... , (2, 3), (3, 3)] を作る
# > - 具体的な出力は上記のX座標値とY座標値が別々で出るイメージ
# > - x_grid = [1, 2, 3, 1, 2, 3, 1, ...]
# > - y_grid = [1, 1, 1, 2, 2, 2, 3, ...]
m = np.arange(0, 4)
n = np.arange(4, 7)
x_grid, y_grid = np.meshgrid(m, n)

In [76]:
print('m: {0}\nn: {1}'.format(m, n))
print(' === x_grid === ')
print(x_grid)
print(' === y_grid === ')
print(y_grid)

m: [0 1 2 3]
n: [4 5 6]
 === x_grid === 
[[0 1 2 3]
 [0 1 2 3]
 [0 1 2 3]]
 === y_grid === 
[[4 4 4 4]
 [5 5 5 5]
 [6 6 6 6]]


In [84]:
# ===============================================================
# Universal Function
# Numpyの強力な機能の一つ。全要素に対する様々な一括処理メソッド
# 中身はCなので高速
# 1. np.abs(arr) * 試しに処理時間を計算する
# 2. np.sin(arr)
# 3. np.cos(arr)
# 4. np.log(arr) <-- ln
# 5. np.log10(arr)
# 6. np.exp(arr) ... etc
# *** timer cell: https://qiita.com/mgsk_2/items/437656b8ce42c03e41a6
sample_arr = np.arange(-50000, 70000).reshape((300, 400))
sample_arr

array([[-50000, -49999, -49998, ..., -49603, -49602, -49601],
       [-49600, -49599, -49598, ..., -49203, -49202, -49201],
       [-49200, -49199, -49198, ..., -48803, -48802, -48801],
       ...,
       [ 68800,  68801,  68802, ...,  69197,  69198,  69199],
       [ 69200,  69201,  69202, ...,  69597,  69598,  69599],
       [ 69600,  69601,  69602, ...,  69997,  69998,  69999]])

In [89]:
%%timeit
sample_2dlist = sample_arr.tolist()
absoluted = []
for i, values in enumerate(sample_2dlist):
    absoluted.append([])
    for val in values:
        absoluted[i].append(abs(val))
absoluted

30.1 ms ± 1.11 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [90]:
%%timeit
np.abs(sample_arr)

97 µs ± 1.67 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [None]:
# ===============================================================
# Broadcast
# Numpyの強力な機能の一つ。四則演算の算術演算子を記述するだけで
# 高速に全要素に対して、要素ごとに算術演算を実行する
# +, -, /, *, **

In [91]:
%%timeit
sample_2dlist = sample_arr.tolist()
added3 = []
for i, values in enumerate(sample_2dlist):
    added3.append([])
    for val in values:
        
        added3[i].append(val + 3)
added3

27.8 ms ± 1.01 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [92]:
%%timeit
sample_arr + 3

56.6 µs ± 2.8 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [97]:
#========================================
# dot product
# 行列の積（内積）
# 以前は、np.dot(b, a)
# Python3.5以降は、b @ a
a = np.arange(1, 10).reshape((3, 3))
b = np.arange(11, 20).reshape((3, 3))
c = b @ a
print('a = \n', a)
print('b = \n', b)
print('c = \n', c)

a = 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
b = 
 [[11 12 13]
 [14 15 16]
 [17 18 19]]
c = 
 [[150 186 222]
 [186 231 276]
 [222 276 330]]


In [105]:
# =====================================
# 判定・論理値
# a < b >> [True, False, True] みたいな行列を返す
# これを応用して、「ある条件を満たす要素のみ取得/カウントする」などが良く使われる
# - 正の要素数を取得する
# Case1 np.sum()＋論理値行列＝条件を満たす要素の数を取得する
nonzero_num = np.count_nonzero(sample_arr > 0)
true_num = np.sum(sample_arr > 0)
print('nonzero num : ', nonzero_num, '\ntrue_num : ', true_num)
# Case2 np.any()＋論理値行列＝条件を満たす要素が少なくとも一つあるかどうか判定する
plus_exists = np.any(sample_arr > 0)
print('plus element exists ? : ', plus_exists)
# Case3 np.allclose()＝二つの行列の全要素間の差が規定の誤差以内か？（近似）
sample_arr = sample_arr.astype(float)
sample_arr_ = sample_arr + 0.001
close_001 = np.allclose(sample_arr, sample_arr_, atol=0.01)
close_00001 = np.allclose(sample_arr, sample_arr_, atol=0.0001)
print('sample_arr is all close to sample_arr_?(delta<0.01)', close_001)
print('sample_arr is all close to sample_arr_?(del)', close_00001)

nonzero num :  69999 
true_num :  69999
plus element exists ? :  True
sample_arr is all close to sample_arr_? False


### 4.2. pandas

### 4.3. scikit-learn