## 2-1 データ分析で使うライブラリ

In [1]:
import numpy as np

In [2]:
from numpy import random

In [3]:
# 以下のライブラリを使うので，あらかじめ読み込む
import numpy as np
import numpy.random as random
import scipy as sp
import pandas as pd
from pandas import Series, DataFrame

# 可視化ライブラリ
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
%matplotlib inline

In [4]:
# 小数第3位まで表示
%precision 3

'%.3f'

## 2-2 Numpyの基礎

In [5]:
# Numpyライブラリの読み込み
import numpy as np

# 小数第3位まで表示
%precision 3

'%.3f'

In [6]:
# 配列の作成
data = np.array([9, 2, 3, 4, 10, 6, 7, 8, 1, 5])
data

array([ 9,  2,  3,  4, 10,  6,  7,  8,  1,  5])

In [7]:
# データの型
data.dtype

dtype('int64')

In [8]:
print('次元数:', data.ndim)
print('要素数:', data.size)

次元数: 1
要素数: 10


In [9]:
# それぞれの数字を係数倍（ここでは2倍）
data * 2

array([18,  4,  6,  8, 20, 12, 14, 16,  2, 10])

In [10]:
# それぞれの要素同士での演算
print('掛け算：', np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) * np.array([10, 9, 8, 7, 6, 5, 4, 3, 2, 1]))
print('累乗：', np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) ** 2)
print('割り算：', np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) / np.array([10, 9, 8, 7, 6, 5, 4, 3, 2, 1]))

掛け算： [10 18 24 28 30 30 28 24 18 10]
累乗： [  1   4   9  16  25  36  49  64  81 100]
割り算： [ 0.1    0.222  0.375  0.571  0.833  1.2    1.75   2.667  4.5   10.   ]


In [11]:
# 現在の値を表示
print('そのまま：', data)

そのまま： [ 9  2  3  4 10  6  7  8  1  5]


In [12]:
# ソートした結果を表示
data.sort()
print('ソート後：', data)

ソート後： [ 1  2  3  4  5  6  7  8  9 10]


In [14]:
# 最大値
print('Min: ', data.min())
# 最小値
print('Max: ', data.max())
# 合計
print('Sum: ', data.sum())
# 積み上げ
print('Cum: ', data.cumsum())
# 積み上げ割合
print('Ratio: ', data.cumsum() / data.sum())

Min:  1
Max:  10
Sum:  55
Cum:  [ 1  3  6 10 15 21 28 36 45 55]
Ratio:  [0.018 0.055 0.109 0.182 0.273 0.382 0.509 0.655 0.818 1.   ]


In [15]:
import numpy.random as random

In [17]:
random.seed(0) # シードを指定した場合は，何度実行しても同じ係数の乱数が得られる

In [19]:
random.seed(0)

# 正規分布（平均0, 分散1）の乱数を10個発生
rnd_data = random.randn(10)

print('乱数10個の配列: ', rnd_data)

乱数10個の配列:  [ 1.764  0.4    0.979  2.241  1.868 -0.977  0.95  -0.151 -0.103  0.411]


In [22]:
# 抽出対象データ
data = np.array([9, 2, 3, 4, 10, 6, 7, 8, 1, 5])

# ランダム抽出
# 10個を抽出（重複あり，復元抽出）
print(random.choice(data, 10))

[ 4  4  4  8  9  2  5  5  9 10]


In [24]:
# 10個を抽出（重複なし，非復元抽出）
print(random.choice(data, 10, replace = False))

[ 3  4  8  2  5  9  7  1  6 10]


In [25]:
# Nは乱数の発生数，10の6乗
N = 10**6

# Python
normal_data = [random.random() for _ in range(N)]

# Numpy
numpy_random_data = np.array(normal_data)

# calc time: 合計値
# Python（普通）の処理
%timeit sum(normal_data) # %timeit は何回か同じ処理をして平均計算時間を返すマジックコマンド

# Numpyを使った処理
%timeit np.sum(numpy_random_data)

5.85 ms ± 62.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
390 µs ± 20.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [26]:
np.arange(9)

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [28]:
array1 = np.arange(9).reshape(3, 3)
print(array1)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [29]:
# 1行目
array1[0, :]

array([0, 1, 2])

In [30]:
# 1列目
array1[:, 0]

array([0, 3, 6])

In [31]:
array2 = np.arange(9, 18).reshape(3, 3)
print(array2)

[[ 9 10 11]
 [12 13 14]
 [15 16 17]]


In [32]:
# 行列の積
np.dot(array1, array2)

array([[ 42,  45,  48],
       [150, 162, 174],
       [258, 279, 300]])

In [33]:
# 要素同士の積
array1 * array2

array([[  0,  10,  22],
       [ 36,  52,  70],
       [ 90, 112, 136]])

In [34]:
print(np.zeros((2, 3), dtype = np.int64))
print(np.ones((2, 3), dtype = np.float64))

[[0 0 0]
 [0 0 0]]
[[1. 1. 1.]
 [1. 1. 1.]]


# 2-3 Scipyの基礎

In [35]:
# 線形代数用のライブラリ
import scipy.linalg as linalg

# 最適化計算（最小値）用の関数
from scipy.optimize import minimize_scalar

In [36]:
matrix = np.array([[1, -1, -1], [-1, 1, -1], [-1, -1, 1]])

# 行列式
print('行列式')
print(linalg.det(matrix))

行列式
-4.0


In [37]:
# 逆行列
print('逆行列')
print(linalg.inv(matrix))

逆行列
[[ 0.  -0.5 -0.5]
 [-0.5 -0.  -0.5]
 [-0.5 -0.5  0. ]]


In [39]:
print(matrix.dot(linalg.inv(matrix)))

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [40]:
# 固有値と固有ベクトル
eig_value, eig_vector = linalg.eig(matrix)

# 固有値と固有ベクトル
print('固有値')
print(eig_value)
print('固有ベクトル')
print(eig_vector)

固有値
[-1.+0.j  2.+0.j  2.+0.j]
固有ベクトル
[[ 0.577  0.816  0.408]
 [ 0.577 -0.408 -0.816]
 [ 0.577 -0.408  0.408]]


In [41]:
# 関数の定義
def my_function(x): 
    return (x**2 + 2*x + 1)

In [42]:
# ニュートン法の読み込み
from scipy.optimize import newton

# 計算実行
print(newton(my_function, 0))

-0.9999999852953906


In [43]:
# 計算実行
print(minimize_scalar(my_function, method = 'Brent'))

     fun: 0.0
    nfev: 9
     nit: 4
 success: True
       x: -1.0000000000000002
