# イントロダクション
--------------------------------------------------------------

# Pandasを使ったcsv読み込みの例

In [3]:
import pandas as pd
df = pd.read_csv("AuditLog_2020-07-28_2020-08-03.csv")
df

Unnamed: 0,CreationDate,UserIds,Operations,AuditData
0,2020-08-03T05:57:22.0000000Z,arq-member@androbotics.onmicrosoft.com,UserLoggedIn,"{""CreationTime"":""2020-08-03T05:57:22"",""Id"":""35..."
1,2020-08-03T06:04:17.0000000Z,arn-member@androbotics.onmicrosoft.com,UserLoggedIn,"{""CreationTime"":""2020-08-03T06:04:17"",""Id"":""4e..."
2,2020-08-03T06:04:17.0000000Z,arn-member@androbotics.onmicrosoft.com,UserLoggedIn,"{""CreationTime"":""2020-08-03T06:04:17"",""Id"":""9e..."
3,2020-08-03T06:19:47.0000000Z,s.ida@ml.androbo.co.jp,FileSyncUploadedFull,"{""CreationTime"":""2020-08-03T06:19:47"",""Id"":""f0..."
4,2020-08-03T06:19:58.0000000Z,s.ida@ml.androbo.co.jp,FileRenamed,"{""CreationTime"":""2020-08-03T06:19:58"",""Id"":""7c..."
...,...,...,...,...
30821,2020-07-28T22:49:03.0000000Z,aro-member@androbotics.onmicrosoft.com,CompanyLinkUsed,"{""CreationTime"":""2020-07-28T22:49:03"",""Id"":""d7..."
30822,2020-07-28T22:49:03.0000000Z,aro-member@androbotics.onmicrosoft.com,FileAccessed,"{""CreationTime"":""2020-07-28T22:49:03"",""Id"":""62..."
30823,2020-07-28T15:20:15.0000000Z,app@sharepoint,FileAccessed,"{""CreationTime"":""2020-07-28T15:20:15"",""Id"":""6c..."
30824,2020-07-28T15:26:36.0000000Z,app@sharepoint,FileAccessed,"{""CreationTime"":""2020-07-28T15:26:36"",""Id"":""f7..."


# pandasでできる操作の例

### 列名を用いて特定の列のみ抜き出す

In [7]:
df["UserIds"]

0        arq-member@androbotics.onmicrosoft.com
1        arn-member@androbotics.onmicrosoft.com
2        arn-member@androbotics.onmicrosoft.com
3                        s.ida@ml.androbo.co.jp
4                        s.ida@ml.androbo.co.jp
                          ...                  
30821    aro-member@androbotics.onmicrosoft.com
30822    aro-member@androbotics.onmicrosoft.com
30823                            app@sharepoint
30824                            app@sharepoint
30825                            app@sharepoint
Name: UserIds, Length: 30826, dtype: object

### 列の要素の列挙

In [12]:
df["Operations"].unique()

array(['UserLoggedIn', 'FileSyncUploadedFull', 'FileRenamed',
       'FileAccessed', 'FileModifiedExtended', 'FileModified',
       'FilePreviewed', 'FileMoved', 'FileAccessedExtended',
       'Update device.', 'FolderCreated', 'PageViewed', 'FolderDeleted',
       'AnonymousLinkUsed', 'ListViewed', 'FileDeleted',
       'CompanyLinkUsed', 'SharingSet', 'AddedToGroup',
       'CompanyLinkCreated', 'Get-CsTeamsClientConfiguration',
       'GroupAdded', 'SharingInheritanceBroken', 'FileUploaded',
       'FileDownloaded', 'PagePrefetched', 'PageViewedExtended',
       'FileSyncDownloadedFull', 'Update', 'SoftDelete',
       'TeamsSessionStarted', 'MoveToDeletedItems', 'Add user.',
       'UserLoginFailed', 'ViewResponses', 'ListForms', 'ViewForm',
       'HardDelete', 'ModifyFolderPermissions', 'FolderMoved', 'Set-User',
       'Add member to group.', 'FolderRenamed', 'MemberAdded',
       'ListCreated', 'Update user.', 'Remove member from group.',
       'UpdateInboxRules', 'FolderCopied

---------------
# 本編

# モジュールのインポート

ライブラリが正しくインストールできているか確認する

正常にインポートできれば、numpy,pandasともにインストールできている

In [6]:
import pandas as pd
import numpy as np

これから機械学習を学んでいく上で

・スカラー
・ベクトル
・行列

という表現を使うことが多くなってくるので、その考え方と、

Pythonでこれらを使いたいときにはどうすればよいかを身に付けていく。

# スカラー

In [None]:
1　[1]

数値や定数など"数"

pythonで扱うときも特別な表記をする必要はない

# ベクトル

\\[A = \left(
    \begin{array}{c}
      a_1,
      a_2,
      \dots 
      a_n,
    \end{array}
  \right)\\]

1行n列の行列とみることもできる

\\[A^{\mathrm{T}} = \left(
    \begin{array}{c}
      a_1 \\
      a_2 \\
      \vdots \\
      a_n
    \end{array}
  \right)\\]

Aの転置行列

n行1列の行列とみることもできる

In [None]:
A = [1,2,3,4,5]

# 行列

numpyを使わない行列表現

In [3]:
d = [
    [1,2,3,4,5],
    [5,7,9,8,0],
    [4,9,7,8,9]
    ]

e = [
    [1,5,4,5,9],
    [2,7,9,7,6],
    [3,9,7,4,7]
    ]

\\[A = \left(
    \begin{array}{c}
      a_{1,1},a_{1,2},a_{1,3},\dots,a_{1,n} \\
      a_{2,1},a_{2,2},a_{2,3},\dots,a_{2,n} \\
      \vdots \\
      a_{n,1},a_{n,2},a_{n,3},\dots,a_{n,n}
    \end{array}
  \right)\\]

n行n列の行列

### 行列の要素どうしのかけ算

In [4]:
d*e

TypeError: can't multiply sequence by non-int of type 'list'

これではリストとリストのかけ算になってしまい、エラーになってしまう

### 要素それぞれを2倍したい場合

In [23]:
d*2

[[1, 2, 3, 4, 5],
 [5, 7, 9, 8, 0],
 [4, 9, 7, 8, 9],
 [1, 2, 3, 4, 5],
 [5, 7, 9, 8, 0],
 [4, 9, 7, 8, 9]]

これもリストそのものへの操作となってしまい、
dの後ろにdが結合しているような形になってしまう。

### リストどうしの足し算

In [18]:
d+e

[[1, 2, 3, 4, 5],
 [5, 7, 9, 8, 0],
 [4, 9, 7, 8, 9],
 [1, 5, 4, 5, 9],
 [2, 7, 9, 7, 6],
 [3, 9, 7, 4, 7]]

これもリストそのものへの操作となってしまい、
dの後ろにeが結合しているような形になってしまう。

# ではnumpyを使うと...？

numpy.array()でndarray型のオブジェクトを定義

1行,もしくは1列のndarrayならベクトル、n行n列のndarrayなら行列として操作可能

In [7]:
a = np.array([
    [1,2,3,4,5],
    [5,7,9,8,0],
    [4,9,7,8,9]
    ])
a

array([[1, 2, 3, 4, 5],
       [5, 7, 9, 8, 0],
       [4, 9, 7, 8, 9]])

In [8]:
type(a)

numpy.ndarray

In [8]:
np.shape(a)

(3, 5)

numpy.shapeで行列の(行数,列数)を調べることができる

これを用いることで可変行数、可変列数の行列を扱うときでもハードコーディングの必要がない

### 転置行列

numpy.transpose()で行列を転置させることができる

In [9]:
np.transpose(a)

array([[1, 5, 4],
       [2, 7, 9],
       [3, 9, 7],
       [4, 8, 8],
       [5, 0, 9]])

行列の要素を(1,1)からの対角線に対して行と列を入れ替えたのが転置行列

In [9]:
x = 100

In [10]:
a = np.array([
    [1,2,3,4,5],
    [5,7,8,8,0],
    [4,9,7,8,9]
    ])

In [12]:
a = np.array([
    [1,2,3,4,5],
    [5,7,x,8,0],
    [4,9,7,8,9]
    ])
a

array([[  1,   2,   3,   4,   5],
       [  5,   7, 100,   8,   0],
       [  4,   9,   7,   8,   9]])

上記のように、変数に格納した値を入れることもできる

In [13]:
b = np.array(
    [
        [1, 5, 4],
        [2, 7, 9],
        [3, 9, 7],
        [4, 8, 8],
        [5, 0, 9]
    ]
)
b

array([[1, 5, 4],
       [2, 7, 9],
       [3, 9, 7],
       [4, 8, 8],
       [5, 0, 9]])

In [14]:
a*b

ValueError: operands could not be broadcast together with shapes (3,5) (5,3) 

shapeの違う行列の要素同士のかけ算はできない

In [16]:
c = np.array(
    [
        [1, 23, 3, 14, 6],
        [5, 2, 3, 13, 25],
        [6, 3, 11, 24, 6],
    ]
)
np.shape(c)

(3, 5)

In [19]:
a

array([[  1,   2,   3,   4,   5],
       [  5,   7, 100,   8,   0],
       [  4,   9,   7,   8,   9]])

In [20]:
np.shape(a)

(3, 5)

In [18]:
a*c

array([[  1,  46,   9,  56,  30],
       [ 25,  14, 300, 104,   0],
       [ 24,  27,  77, 192,  54]])

## 行列どうしのかけ算

In [32]:
np.dot(a,b)

array([[ 55,  78, 120],
       [ 75, 210, 203],
       [120, 210, 291]])

\\[A = \left(
    \begin{array}{c}
      a_{1,1},a_{1,2},a_{1,3},a_{1,4},a_{1,5}\\
      a_{2,1},a_{2,2},a_{2,3},a_{2,4},a_{2,5}\\
      a_{3,1},a_{3,2},a_{3,3},a_{3,4},a_{3,5}\\
    \end{array}
  \right)\\],
\\[B = \left(
    \begin{array}{c}
      b_{1,1},b_{1,2},b_{1,3}\\
      b_{2,1},b_{2,2},b_{2,3}\\
      b_{3,1},b_{3,2},b_{3,3}\\
      b_{4,1},b_{4,2},b_{4,3}\\
      b_{5,1},b_{5,2},b_{5,3}\\
    \end{array}
  \right)\\]
  
のとき、
\\[A\cdot B=\\ \left(
    \begin{array}{c}
      a_{1,1}\times b_{1,1}+a_{1,2}\times b_{2,1}+a_{1,3}\times b_{3,1}+a_{1,4}\times b_{4,1}+a_{1,5}\times b_{5,1} , 
      a_{1,1}\times b_{1,2}+a_{1,2}\times b_{2,2}+a_{1,3}\times b_{3,2}+a_{1,4}\times b_{4,2}+a_{1,5}\times b_{5,2} , 
      a_{1,1}\times b_{1,3}+a_{1,2}\times b_{2,3}+a_{1,3}\times b_{3,3}+a_{1,4}\times b_{4,3}+a_{1,5}\times b_{5,3} , \\
      a_{2,1}\times b_{1,1}+a_{2,2}\times b_{2,1}+a_{2,3}\times b_{3,1}+a_{2,4}\times b_{4,1}+a_{2,5}\times b_{5,1} , 
      a_{2,1}\times b_{1,2}+a_{2,2}\times b_{2,2}+a_{2,3}\times b_{3,2}+a_{2,4}\times b_{4,2}+a_{2,5}\times b_{5,2} , 
      a_{2,1}\times b_{1,3}+a_{2,2}\times b_{2,3}+a_{2,3}\times b_{3,3}+a_{2,4}\times b_{4,3}+a_{2,5}\times b_{5,3} , \\
      a_{3,1}\times b_{1,1}+a_{3,2}\times b_{2,1}+a_{3,3}\times b_{3,1}+a_{3,4}\times b_{4,1}+a_{3,5}\times b_{5,1} , 
      a_{3,1}\times b_{1,2}+a_{3,2}\times b_{2,2}+a_{3,3}\times b_{3,2}+a_{3,4}\times b_{4,2}+a_{3,5}\times b_{5,2} , 
      a_{3,1}\times b_{1,3}+a_{3,2}\times b_{2,3}+a_{3,3}\times b_{3,3}+a_{3,4}\times b_{4,3}+a_{3,5}\times b_{5,3} , \\
    \end{array}
  \right)\\]

となる。

**上記より、行列同士のかけ算ができる条件が\\[(m,k)\cdot(k,n)\\]であることが分かり、結果は(m,n)の行列である。**

つまり、

\\[(m,k)\cdot(k,n)\\]

の(m,n)要素を求めるときは

\\[\sum_{K=1}^{k} (m,K)\times(K,n)\\]

In [20]:
a + b

ValueError: operands could not be broadcast together with shapes (3,5) (5,3) 

shapeの違う行列の要素どうしの足し算はできない。

In [21]:
d = np.array([
    [1,2,3,4,5],
    [5,7,9,8,0],
    [4,9,7,8,9]
    ])

e = np.array([
    [1,5,4,5,9],
    [2,7,9,7,6],
    [3,9,7,4,7]
    ])
d+e

array([[ 2,  7,  7,  9, 14],
       [ 7, 14, 18, 15,  6],
       [ 7, 18, 14, 12, 16]])

In [24]:
d = np.array([
    [1,2,3,4,5],
    [5,7,9,8,0],
    [4,9,7,8,9]
    ])

d*2

array([[ 2,  4,  6,  8, 10],
       [10, 14, 18, 16,  0],
       [ 8, 18, 14, 16, 18]])

In [22]:
d = np.array([
    [1,2,3,4,5],
    [5,7,9,8,0],
    [4,9,7,8,9]
    ])

e = np.array([
    [1,5,4,5,9],
    [2,7,9,7,6],
    [3,9,7,4,7]
    ])
d*e

array([[ 1, 10, 12, 20, 45],
       [10, 49, 81, 56,  0],
       [12, 81, 49, 32, 63]])

numpyなしではできなかった各要素への演算ができている

### 逆行列

numpy.linalg.inv()で逆行列を求めることができる

*************************************
linalg:linear algebra = 線形代数学

inv:inverse = 逆
*************************************

In [33]:
d = np.array([
    [1,2,3,4,5],
    [5,7,9,8,0],
    [4,9,7,8,9]
    ])
np.linalg.inv(d)

LinAlgError: Last 2 dimensions of the array must be square

Aに逆行列が存在する　⇔　行列式|A|が0ではない=Aが正則行列である

In [25]:
f = np.array([[ 3, -5],
              [-1,  2]])
f

array([[ 3, -5],
       [-1,  2]])

## 行列式
numpy.linalg.det()

det:determinant

In [26]:
np.linalg.det(f)

1.0000000000000004

### 正則な行列で逆行列を求める

In [40]:
f_inv = np.linalg.inv(f)
f_inv

array([[2., 5.],
       [1., 3.]])

### 行列とその逆行列をかけ算すると...？

In [41]:
np.dot(f,f_inv)

array([[1., 0.],
       [0., 1.]])

# 単位行列
対角線の要素が1でそれ以外が0

In [42]:
aaa = np.array([
    [1,0,0,0,0],
    [0,1,0,0,0],
    [0,0,1,0,0],
    [0,0,0,1,0],
    [0,0,0,0,1]
])
aaa

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1]])

In [43]:
np.dot(d,aaa)

array([[1, 2, 3, 4, 5],
       [5, 7, 9, 8, 0],
       [4, 9, 7, 8, 9]])

行列に単位行列をかけてももとの行列のまま

In [27]:
d

array([[1, 2, 3, 4, 5],
       [5, 7, 9, 8, 0],
       [4, 9, 7, 8, 9]])

# Pandasを使ったCSVの読み込み

## pandasのインポート

In [48]:
import pandas as pd

pandas.read_csv()でcsvを読み込む。

In [50]:
pd.read_csv("AuditLog_2020-07-28_2020-08-03.csv")

Unnamed: 0,CreationDate,UserIds,Operations,AuditData
0,2020-08-03T05:57:22.0000000Z,arq-member@androbotics.onmicrosoft.com,UserLoggedIn,"{""CreationTime"":""2020-08-03T05:57:22"",""Id"":""35..."
1,2020-08-03T06:04:17.0000000Z,arn-member@androbotics.onmicrosoft.com,UserLoggedIn,"{""CreationTime"":""2020-08-03T06:04:17"",""Id"":""4e..."
2,2020-08-03T06:04:17.0000000Z,arn-member@androbotics.onmicrosoft.com,UserLoggedIn,"{""CreationTime"":""2020-08-03T06:04:17"",""Id"":""9e..."
3,2020-08-03T06:19:47.0000000Z,s.ida@ml.androbo.co.jp,FileSyncUploadedFull,"{""CreationTime"":""2020-08-03T06:19:47"",""Id"":""f0..."
4,2020-08-03T06:19:58.0000000Z,s.ida@ml.androbo.co.jp,FileRenamed,"{""CreationTime"":""2020-08-03T06:19:58"",""Id"":""7c..."
...,...,...,...,...
30821,2020-07-28T22:49:03.0000000Z,aro-member@androbotics.onmicrosoft.com,CompanyLinkUsed,"{""CreationTime"":""2020-07-28T22:49:03"",""Id"":""d7..."
30822,2020-07-28T22:49:03.0000000Z,aro-member@androbotics.onmicrosoft.com,FileAccessed,"{""CreationTime"":""2020-07-28T22:49:03"",""Id"":""62..."
30823,2020-07-28T15:20:15.0000000Z,app@sharepoint,FileAccessed,"{""CreationTime"":""2020-07-28T15:20:15"",""Id"":""6c..."
30824,2020-07-28T15:26:36.0000000Z,app@sharepoint,FileAccessed,"{""CreationTime"":""2020-07-28T15:26:36"",""Id"":""f7..."


同じディレクトリにある場合はファイル名を引数に入れると読み込める

In [28]:
pd.read_csv("C:\Users\K_androbo\Desktop\AuditLog_2020-07-28_2020-08-03.csv")

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape (<ipython-input-28-4e6770e88fd7>, line 1)

違うディレクトリにある場合はpathを引数に入れるが、そのまま文字列にしても\でエスケープされてしまうため、

In [29]:
pd.read_csv(r"C:\Users\K_androbo\Desktop\AuditLog_2020-07-28_2020-08-03.csv")

Unnamed: 0,CreationDate,UserIds,Operations,AuditData
0,2020-08-03T05:57:22.0000000Z,arq-member@androbotics.onmicrosoft.com,UserLoggedIn,"{""CreationTime"":""2020-08-03T05:57:22"",""Id"":""35..."
1,2020-08-03T06:04:17.0000000Z,arn-member@androbotics.onmicrosoft.com,UserLoggedIn,"{""CreationTime"":""2020-08-03T06:04:17"",""Id"":""4e..."
2,2020-08-03T06:04:17.0000000Z,arn-member@androbotics.onmicrosoft.com,UserLoggedIn,"{""CreationTime"":""2020-08-03T06:04:17"",""Id"":""9e..."
3,2020-08-03T06:19:47.0000000Z,s.ida@ml.androbo.co.jp,FileSyncUploadedFull,"{""CreationTime"":""2020-08-03T06:19:47"",""Id"":""f0..."
4,2020-08-03T06:19:58.0000000Z,s.ida@ml.androbo.co.jp,FileRenamed,"{""CreationTime"":""2020-08-03T06:19:58"",""Id"":""7c..."
...,...,...,...,...
30821,2020-07-28T22:49:03.0000000Z,aro-member@androbotics.onmicrosoft.com,CompanyLinkUsed,"{""CreationTime"":""2020-07-28T22:49:03"",""Id"":""d7..."
30822,2020-07-28T22:49:03.0000000Z,aro-member@androbotics.onmicrosoft.com,FileAccessed,"{""CreationTime"":""2020-07-28T22:49:03"",""Id"":""62..."
30823,2020-07-28T15:20:15.0000000Z,app@sharepoint,FileAccessed,"{""CreationTime"":""2020-07-28T15:20:15"",""Id"":""6c..."
30824,2020-07-28T15:26:36.0000000Z,app@sharepoint,FileAccessed,"{""CreationTime"":""2020-07-28T15:26:36"",""Id"":""f7..."


r"string"でraw文字列にしてあげる必要がある。

# 次回はpandasのつづきから！！