2-1 データ分析のライブラリ

In [0]:
# ライブラリのインポート
import numpy as np
import numpy.random as random
import scipy as sp
import pandas as pd
from pandas import Series, DataFrame

import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
# 結果にグラフを表示
%matplotlib inline

# 小数第3位まで表示
%precision 3

# 乱数のシード=>これを実行しておくと、何回やっても同じ結果になる
random.seed(0)


2-2 Numpyの基礎

In [112]:

# 配列
data = np.array([random.randint(1, 10) for _ in range(1, 11)])
data


array([6, 1, 4, 4, 8, 4, 6, 3, 5, 8])

In [113]:
# データ型
data.dtype

dtype('int64')

In [114]:
# 次元数と要素数
print('次元数: ', data.ndim)
print('要素数:', data.size)

次元数:  1
要素数: 10


In [115]:
# すべての要素に対する計算
data * 2

l1 = [random.randint(1, 10) for i in range(1, 11)]
print(l1)
l2 = [random.randint(1, 10) for i in range(1, 11)]
print(l2)
print('掛け算:', np.array(l1) * np.array(l2))
print('累乗:', np.array(l1) ** 2)
print('割り算:', np.array(l1) / np.array(l2))

[7, 9, 9, 2, 7, 8, 8, 9, 2, 6]
[9, 5, 4, 1, 4, 6, 1, 3, 4, 9]
掛け算: [63 45 36  2 28 48  8 27  8 54]
累乗: [49 81 81  4 49 64 64 81  4 36]
割り算: [0.778 1.8   2.25  2.    1.75  1.333 8.    3.    0.5   0.667]


In [116]:
# ソート
print('そのまま: ', data)
data.sort()
print('ソート: ', data)

# ソートしたままになる
data

# 逆順
data[::-1].sort()
data

そのまま:  [6 1 4 4 8 4 6 3 5 8]
ソート:  [1 3 4 4 4 5 6 6 8 8]


array([8, 8, 6, 6, 5, 4, 4, 4, 3, 1])

In [117]:
# 最小、最大、合計、積上の計算

# 最小値
print(data.min())
# 最大値
print(data.max())
# 合計
print(data.sum())
# 積上
print(data.cumsum())
# 積上割合
print(data.cumsum() / data.sum())

1
8
49
[ 8 16 22 28 33 37 41 45 48 49]
[0.163 0.327 0.449 0.571 0.673 0.755 0.837 0.918 0.98  1.   ]


In [118]:
# 乱数の発生

# 正規分布(平均0, 分散1)の乱数を10個生成
rnd_data = random.randn(10)

print('乱数*10の配列: ', rnd_data)

乱数*10の配列:  [ 0.097  1.419  1.168  0.947  1.085  2.382 -0.406  0.266 -1.356 -0.114]


In [129]:
# データのランダムな抽出
data = np.arange(10) + 1
print(data)
print(random.choice(data, 10)) # 重複ありで抽出
print(random.choice(data, 10, replace=False))

[10  5 10  6  5  3  8  1  9  8]
[ 2  4  1  7  8  3  5 10  9  6]


In [122]:
# Numpyの速度測定
N = 10**6

# pythonの標準ライブラリ
normal_data = [random.random() for _ in range(N)]
# numpy
numpy_rand_data = np.array(normal_data)

# 標準ライブラリを用いた合計算出に掛かる時間
%timeit -n 1000 sum(normal_data)

# numpyを用いた合計算出に掛かる時間
%timeit -n 1000 np.sum(numpy_rand_data)

1000 loops, best of 3: 8.05 ms per loop
1000 loops, best of 3: 408 µs per loop


In [168]:
# 行列
np.arange(9) + 1

array1 = np.arange(9).reshape(3, 3)
print(array1)

array1[0,:] # 1行目すべて
array1[:,0] # 1列目すべて


[[0 1 2]
 [3 4 5]
 [6 7 8]]


array([0, 3, 6])

In [174]:
# 行列の掛け算
array2 = np.arange(9, 18).reshape(3, 3)
print(array2)

print(np.dot(array1, array2))
# 要素同士の積
print(array1 * array2)

[[ 9 10 11]
 [12 13 14]
 [15 16 17]]
[[ 42  45  48]
 [150 162 174]
 [258 279 300]]
[[  0  10  22]
 [ 36  52  70]
 [ 90 112 136]]


In [178]:
# 要素が0や1の行列を作る
print(np.zeros((2, 3), dtype = np.int64))
print(np.ones((2, 3), dtype = np.float64))

[[0 0 0]
 [0 0 0]]
[[1. 1. 1.]
 [1. 1. 1.]]


2-2 Practice

In [181]:
# 2-1
data = np.arange(50) + 1
data.sum()

1275

In [193]:
# 2-2
data = np.array([ random.randn() for _ in range(0, 10)])
print(data)
print('最小値: ', data.min())
print('最大値: ', data.max())
print('合計:', data.sum())

[ 1.274 -1.112  0.413 -0.869 -0.045  0.996 -0.143 -1.529 -0.794 -0.254]
最小値:  -1.528877677178441
最大値:  1.2742859364776449
合計: -2.0612069111638784


In [195]:
# 2-3
np.array([3 for _ in range(0, 25)]).reshape(5, 5) ** 2


array([[9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9]])