## 2-1 データ分析で使うライブラリ

In [1]:
import numpy as np

In [2]:
from numpy import random

In [3]:
# 以下のライブラリを使うので，あらかじめ読み込む
import numpy as np
import numpy.random as random
import scipy as sp
import pandas as pd
from pandas import Series, DataFrame

# 可視化ライブラリ
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
%matplotlib inline

In [4]:
# 小数第3位まで表示
%precision 3

'%.3f'

## 2-2 Numpyの基礎

In [5]:
# Numpyライブラリの読み込み
import numpy as np

# 小数第3位まで表示
%precision 3

'%.3f'

In [6]:
# 配列の作成
data = np.array([9, 2, 3, 4, 10, 6, 7, 8, 1, 5])
data

array([ 9,  2,  3,  4, 10,  6,  7,  8,  1,  5])

In [7]:
# データの型
data.dtype

dtype('int64')

In [8]:
print('次元数:', data.ndim)
print('要素数:', data.size)

次元数: 1
要素数: 10


In [9]:
# それぞれの数字を係数倍（ここでは2倍）
data * 2

array([18,  4,  6,  8, 20, 12, 14, 16,  2, 10])

In [10]:
# それぞれの要素同士での演算
print('掛け算：', np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) * np.array([10, 9, 8, 7, 6, 5, 4, 3, 2, 1]))
print('累乗：', np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) ** 2)
print('割り算：', np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) / np.array([10, 9, 8, 7, 6, 5, 4, 3, 2, 1]))

掛け算： [10 18 24 28 30 30 28 24 18 10]
累乗： [  1   4   9  16  25  36  49  64  81 100]
割り算： [ 0.1    0.222  0.375  0.571  0.833  1.2    1.75   2.667  4.5   10.   ]


In [11]:
# 現在の値を表示
print('そのまま：', data)

そのまま： [ 9  2  3  4 10  6  7  8  1  5]


In [12]:
# ソートした結果を表示
data.sort()
print('ソート後：', data)

ソート後： [ 1  2  3  4  5  6  7  8  9 10]


In [13]:
# 最大値
print('Min: ', data.min())
# 最小値
print('Max: ', data.max())
# 合計
print('Sum: ', data.sum())
# 積み上げ
print('Cum: ', data.cumsum())
# 積み上げ割合
print('Ratio: ', data.cumsum() / data.sum())

Min:  1
Max:  10
Sum:  55
Cum:  [ 1  3  6 10 15 21 28 36 45 55]
Ratio:  [0.018 0.055 0.109 0.182 0.273 0.382 0.509 0.655 0.818 1.   ]


In [14]:
import numpy.random as random

In [15]:
random.seed(0) # シードを指定した場合は，何度実行しても同じ係数の乱数が得られる

In [16]:
random.seed(0)

# 正規分布（平均0, 分散1）の乱数を10個発生
rnd_data = random.randn(10)

print('乱数10個の配列: ', rnd_data)

乱数10個の配列:  [ 1.764  0.4    0.979  2.241  1.868 -0.977  0.95  -0.151 -0.103  0.411]


In [17]:
# 抽出対象データ
data = np.array([9, 2, 3, 4, 10, 6, 7, 8, 1, 5])

# ランダム抽出
# 10個を抽出（重複あり，復元抽出）
print(random.choice(data, 10))

[ 7  8  8  1  2  6  5  1  5 10]


In [18]:
# 10個を抽出（重複なし，非復元抽出）
print(random.choice(data, 10, replace = False))

[10  2  7  8  3  1  6  5  9  4]


In [19]:
# Nは乱数の発生数，10の6乗
N = 10**6

# Python
normal_data = [random.random() for _ in range(N)]

# Numpy
numpy_random_data = np.array(normal_data)

# calc time: 合計値
# Python（普通）の処理
%timeit sum(normal_data) # %timeit は何回か同じ処理をして平均計算時間を返すマジックコマンド

# Numpyを使った処理
%timeit np.sum(numpy_random_data)

5.95 ms ± 395 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
365 µs ± 2.25 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [20]:
np.arange(9)

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [21]:
array1 = np.arange(9).reshape(3, 3)
print(array1)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [22]:
# 1行目
array1[0, :]

array([0, 1, 2])

In [23]:
# 1列目
array1[:, 0]

array([0, 3, 6])

In [24]:
array2 = np.arange(9, 18).reshape(3, 3)
print(array2)

[[ 9 10 11]
 [12 13 14]
 [15 16 17]]


In [25]:
# 行列の積
np.dot(array1, array2)

array([[ 42,  45,  48],
       [150, 162, 174],
       [258, 279, 300]])

In [26]:
# 要素同士の積
array1 * array2

array([[  0,  10,  22],
       [ 36,  52,  70],
       [ 90, 112, 136]])

In [27]:
print(np.zeros((2, 3), dtype = np.int64))
print(np.ones((2, 3), dtype = np.float64))

[[0 0 0]
 [0 0 0]]
[[1. 1. 1.]
 [1. 1. 1.]]


# 2-3 Scipyの基礎

In [28]:
# 線形代数用のライブラリ
import scipy.linalg as linalg

# 最適化計算（最小値）用の関数
from scipy.optimize import minimize_scalar

In [29]:
matrix = np.array([[1, -1, -1], [-1, 1, -1], [-1, -1, 1]])

# 行列式
print('行列式')
print(linalg.det(matrix))

行列式
-4.0


In [30]:
# 逆行列
print('逆行列')
print(linalg.inv(matrix))

逆行列
[[ 0.  -0.5 -0.5]
 [-0.5 -0.  -0.5]
 [-0.5 -0.5  0. ]]


In [31]:
print(matrix.dot(linalg.inv(matrix)))

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [32]:
# 固有値と固有ベクトル
eig_value, eig_vector = linalg.eig(matrix)

# 固有値と固有ベクトル
print('固有値')
print(eig_value)
print('固有ベクトル')
print(eig_vector)

固有値
[-1.+0.j  2.+0.j  2.+0.j]
固有ベクトル
[[ 0.577  0.816  0.408]
 [ 0.577 -0.408 -0.816]
 [ 0.577 -0.408  0.408]]


In [33]:
# 関数の定義
def my_function(x): 
    return (x**2 + 2*x + 1)

In [34]:
# ニュートン法の読み込み
from scipy.optimize import newton

# 計算実行
print(newton(my_function, 0))

-0.9999999852953906


In [35]:
# 計算実行
print(minimize_scalar(my_function, method = 'Brent'))

     fun: 0.0
    nfev: 9
     nit: 4
 success: True
       x: -1.0000000000000002


# 2-4 Pandasの基礎

In [36]:
from pandas import Series, DataFrame

In [37]:
# Series
sample_pandas_data = pd.Series([0, 10, 20, 30, 40, 50, 60, 70, 80, 90])
print(sample_pandas_data)

0     0
1    10
2    20
3    30
4    40
5    50
6    60
7    70
8    80
9    90
dtype: int64


In [38]:
# indexをアルファベットでつける
sample_pandas_index_data = pd.Series(
    [0, 10, 20, 30, 40, 50, 60, 70, 80, 90], 
    index = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'])
print(sample_pandas_index_data)

a     0
b    10
c    20
d    30
e    40
f    50
g    60
h    70
i    80
j    90
dtype: int64


In [39]:
print('データの値: ', sample_pandas_index_data.values)
print('インデックスの値: ', sample_pandas_index_data.index)

データの値:  [ 0 10 20 30 40 50 60 70 80 90]
インデックスの値:  Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'], dtype='object')


In [41]:
attri_data1 = {'ID':['100', '101', '102', '103', '104'], 
               'City':['Tokyo', 'Osaka', 'Kyoto', 'Hokkaido', 'Tokyo'], 
               'Birth_year':[1990, 1989, 1992, 1997, 1982], 
               'Name':['Hiroshi', 'Akiko', 'Yuki', 'Satoru', 'Steve']}

attri_data_frame1 = DataFrame(attri_data1)

print(attri_data_frame1)

    ID      City  Birth_year     Name
0  100     Tokyo        1990  Hiroshi
1  101     Osaka        1989    Akiko
2  102     Kyoto        1992     Yuki
3  103  Hokkaido        1997   Satoru
4  104     Tokyo        1982    Steve


In [42]:
attri_data_frame_index1 = DataFrame(attri_data1, index = ['a', 'b', 'c', 'd', 'e'])
print(attri_data_frame_index1)

    ID      City  Birth_year     Name
a  100     Tokyo        1990  Hiroshi
b  101     Osaka        1989    Akiko
c  102     Kyoto        1992     Yuki
d  103  Hokkaido        1997   Satoru
e  104     Tokyo        1982    Steve


In [43]:
attri_data_frame_index1

Unnamed: 0,ID,City,Birth_year,Name
a,100,Tokyo,1990,Hiroshi
b,101,Osaka,1989,Akiko
c,102,Kyoto,1992,Yuki
d,103,Hokkaido,1997,Satoru
e,104,Tokyo,1982,Steve


In [44]:
# 転置
attri_data_frame1.T

Unnamed: 0,0,1,2,3,4
ID,100,101,102,103,104
City,Tokyo,Osaka,Kyoto,Hokkaido,Tokyo
Birth_year,1990,1989,1992,1997,1982
Name,Hiroshi,Akiko,Yuki,Satoru,Steve


In [45]:
# 列名の指定（1つの場合）
attri_data_frame1.Birth_year

0    1990
1    1989
2    1992
3    1997
4    1982
Name: Birth_year, dtype: int64

In [47]:
# 列名の指定（複数の場合）
attri_data_frame1[['ID', 'Birth_year']]

Unnamed: 0,ID,Birth_year
0,100,1990
1,101,1989
2,102,1992
3,103,1997
4,104,1982


In [48]:
# 条件（フィルター）
attri_data_frame1[attri_data_frame1['City'] == 'Tokyo']

Unnamed: 0,ID,City,Birth_year,Name
0,100,Tokyo,1990,Hiroshi
4,104,Tokyo,1982,Steve


In [49]:
attri_data_frame1['City'] == 'Tokyo'

0     True
1    False
2    False
3    False
4     True
Name: City, dtype: bool

In [50]:
# 条件（フィルター，複数の値）
attri_data_frame1[attri_data_frame1['City'].isin(['Tokyo', 'Osaka'])]

Unnamed: 0,ID,City,Birth_year,Name
0,100,Tokyo,1990,Hiroshi
1,101,Osaka,1989,Akiko
4,104,Tokyo,1982,Steve


In [51]:
attri_data_frame1.drop(['Birth_year'], axis = 1)

Unnamed: 0,ID,City,Name
0,100,Tokyo,Hiroshi
1,101,Osaka,Akiko
2,102,Kyoto,Yuki
3,103,Hokkaido,Satoru
4,104,Tokyo,Steve


In [53]:
attri_data2 = {'ID': ['100', '101', '102', '105', '107'], 
               'Math':[50, 43, 33, 76, 98], 
               'English':[90, 30, 20, 50, 30], 
               'Sex': ['M', 'F', 'F', 'M', 'M']}
attri_data_frame2 = DataFrame(attri_data2)
attri_data_frame2

Unnamed: 0,ID,Math,English,Sex
0,100,50,90,M
1,101,43,30,F
2,102,33,20,F
3,105,76,50,M
4,107,98,30,M


In [54]:
# データのマージ（内部結合）
pd.merge(attri_data_frame1, attri_data_frame2)

Unnamed: 0,ID,City,Birth_year,Name,Math,English,Sex
0,100,Tokyo,1990,Hiroshi,50,90,M
1,101,Osaka,1989,Akiko,43,30,F
2,102,Kyoto,1992,Yuki,33,20,F


In [55]:
# データのグループ集計
attri_data_frame2.groupby('Sex')['Math'].mean()

Sex
F    38.000000
M    74.666667
Name: Math, dtype: float64

In [56]:
# データのグループ集計
attri_data_frame2.groupby('Sex')['English'].min()

Sex
F    20
M    30
Name: English, dtype: int64

In [57]:
# データのグループ集計
attri_data_frame2.groupby('Sex')['Math'].max()

Sex
F    43
M    98
Name: Math, dtype: int64

In [58]:
# データの準備
attri_data2 = {'ID':['100', '101', '102', '103', '104'], 
               'City':['Tokyo', 'Osaka', 'Kyoto', 'Hokkaido', 'Tokyo'], 
               'Birth_year':[1990, 1989, 1992, 1997, 1982], 
               'Name':['Hiroshi', 'Akiko', 'Yuki', 'Satoru', 'Steve']}
attri_data_frame2 = DataFrame(attri_data2)
attri_data_frame_index2 = DataFrame(attri_data2, index = ['e', 'b', 'a', 'd', 'c'])
attri_data_frame_index2

Unnamed: 0,ID,City,Birth_year,Name
e,100,Tokyo,1990,Hiroshi
b,101,Osaka,1989,Akiko
a,102,Kyoto,1992,Yuki
d,103,Hokkaido,1997,Satoru
c,104,Tokyo,1982,Steve


In [59]:
# indexによるソート
attri_data_frame_index2.sort_index()

Unnamed: 0,ID,City,Birth_year,Name
a,102,Kyoto,1992,Yuki
b,101,Osaka,1989,Akiko
c,104,Tokyo,1982,Steve
d,103,Hokkaido,1997,Satoru
e,100,Tokyo,1990,Hiroshi


In [60]:
# 値によるソート，デフォルトは昇順
attri_data_frame_index2.Birth_year.sort_values()

c    1982
b    1989
e    1990
a    1992
d    1997
Name: Birth_year, dtype: int64

In [61]:
# 値があるかどうかの確認
attri_data_frame_index2.isin(['Tokyo'])

Unnamed: 0,ID,City,Birth_year,Name
e,False,True,False,False
b,False,False,False,False
a,False,False,False,False
d,False,False,False,False
c,False,True,False,False


In [62]:
# 欠損値の取り扱い
# nameを全てnanにする
attri_data_frame_index2['Name'] = np.nan
attri_data_frame_index2.isnull()

Unnamed: 0,ID,City,Birth_year,Name
e,False,False,False,True
b,False,False,False,True
a,False,False,False,True
d,False,False,False,True
c,False,False,False,True


In [63]:
# nullを判定し，合計する
attri_data_frame_index2.isnull().sum()

ID            0
City          0
Birth_year    0
Name          5
dtype: int64