# numpy(advanced)
* 行列計算に特化したモジュール
* pythonの標準ライブラリではないのでimportが必要

## numpy array

### 基本

In [37]:
import numpy as np

In [38]:
a = np.array(range(0, 6))
a

array([0, 1, 2, 3, 4, 5])

In [39]:
type(a)

numpy.ndarray

In [40]:
a.shape

(6,)

**.reshape()で好きな形に変形できる**

In [41]:
# 3行×2列に変換
b = a.reshape(3, 2)
b

array([[0, 1],
       [2, 3],
       [4, 5]])

**.flatten()で1行に変換できる**

In [42]:
b.flatten()

array([0, 1, 2, 3, 4, 5])

### 行列計算

In [43]:
a = np.array(np.random.randint(0, 10, (3, 3)))
b = np.array(np.random.randint(0, 10, (3, 3)))

In [44]:
a

array([[2, 0, 5],
       [9, 6, 4],
       [7, 3, 7]])

In [45]:
b

array([[7, 4, 6],
       [8, 8, 0],
       [0, 8, 3]])

In [46]:
a + b

array([[ 9,  4, 11],
       [17, 14,  4],
       [ 7, 11, 10]])

In [47]:
a * b

array([[14,  0, 30],
       [72, 48,  0],
       [ 0, 24, 21]])

In [48]:
# n次元配列も作れるが実務では登場機会は少ないか
ndarray_3D = np.zeros((3, 3, 3, 3))
ndarray_3D

array([[[[0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.]],

        [[0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.]],

        [[0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.]]],


       [[[0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.]],

        [[0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.]],

        [[0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.]]],


       [[[0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.]],

        [[0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.]],

        [[0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.]]]])

### 要素の抽出

**要素の番号で指定**

In [52]:
a = a.flatten()
a

array([2, 0, 5, 9, 6, 4, 7, 3, 7])

In [53]:
a[2]

5

**[行番号, 列番号]で指定**

In [71]:
c = np.arange(0, 48, 1).reshape(6, 8)
c

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29, 30, 31],
       [32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47]])

In [31]:
# 2行3列目
c[2, 3]

9

In [27]:
# 2行目(2個目の要素とも言える)
c[2]

array([5, 6, 3, 9, 3, 2, 5, 4])

In [29]:
# 2行3列目(2個目の要素の中の３個目の要素とも言える)
c[2][3]

9

**スライスで指定**

In [54]:
# 1次元の場合
a

array([2, 0, 5, 9, 6, 4, 7, 3, 7])

In [56]:
# 3から6個目まで取り出す(※6は含まれない)
a[3:6]

array([9, 6, 4])

In [65]:
# 3から全部
a[3:]

array([9, 6, 4, 7, 3, 7])

In [66]:
# 3まで全部
a[:3]

array([2, 0, 5])

In [67]:
# 全部
a[:]

array([2, 0, 5, 9, 6, 4, 7, 3, 7])

In [70]:
# 最後尾
a[-1]

7

In [78]:
# 2次元の場合
d = np.linspace(1, 100, 50).reshape(10, 5)
d

array([[  1.        ,   3.02040816,   5.04081633,   7.06122449,
          9.08163265],
       [ 11.10204082,  13.12244898,  15.14285714,  17.16326531,
         19.18367347],
       [ 21.20408163,  23.2244898 ,  25.24489796,  27.26530612,
         29.28571429],
       [ 31.30612245,  33.32653061,  35.34693878,  37.36734694,
         39.3877551 ],
       [ 41.40816327,  43.42857143,  45.44897959,  47.46938776,
         49.48979592],
       [ 51.51020408,  53.53061224,  55.55102041,  57.57142857,
         59.59183673],
       [ 61.6122449 ,  63.63265306,  65.65306122,  67.67346939,
         69.69387755],
       [ 71.71428571,  73.73469388,  75.75510204,  77.7755102 ,
         79.79591837],
       [ 81.81632653,  83.83673469,  85.85714286,  87.87755102,
         89.89795918],
       [ 91.91836735,  93.93877551,  95.95918367,  97.97959184,
        100.        ]])

In [79]:
d[2:4]

array([[21.20408163, 23.2244898 , 25.24489796, 27.26530612, 29.28571429],
       [31.30612245, 33.32653061, 35.34693878, 37.36734694, 39.3877551 ]])

In [80]:
# 注意
d[2:4][0:3]

array([[21.20408163, 23.2244898 , 25.24489796, 27.26530612, 29.28571429],
       [31.30612245, 33.32653061, 35.34693878, 37.36734694, 39.3877551 ]])

In [81]:
d[2:4, 0:3]

array([[21.20408163, 23.2244898 , 25.24489796],
       [31.30612245, 33.32653061, 35.34693878]])

### 参照渡しと値渡し

* listやnumpyを関数に渡して処理させると元のオブジェクトにも変更が加えられてしまうことがありバグの原因になりうる
* 頭の片隅に入れておくとよい
* listやnumpyを関数に食わせるときはcopy()しておくのが安全

https://datawokagaku.com/numpy_generate/

In [109]:
def change_hundred(array):

    array[0] = 100
    return array

def change_hundred_copy(array):
    
    array_copy = array.copy()
    array_copy[0] = 100
    return array_copy

In [110]:
# array1とarray2は同じ値
array_1 = np.arange(0, 4)
array_2 = np.arange(0, 4)

In [111]:
# 関数に入れると
output_array = change_hundred(array_1)
output_array_copy = change_hundred_copy(array_2)

In [112]:
# 別の値になってしまった
print(array_1)
print(array_2)

[100   1   2   3]
[0 1 2 3]


### 便利関数まとめ

|                                          |                                                                          | 
| ---------------------------------------- | ------------------------------------------------------------------------ | 
| .flatten()                               | 一列にする                                                               | 
| np.arange([start,] stop[, step])         | start以上stop未満の値をstepずつ増加させた値のarrayを生成                 | 
| np.linspace(start, stop, num=50)         | start以上stop未満の値を均等にnum個等分した値のarrayを生成                | 
| .copy()                                  | NumPy arrayをコピー                                                      | 
| np.zeros(shape)                          | 要素が全て０のndarrayを生成                                              | 
| np.ones(shape)                           | 要素が全て１のndarrayを生成                                              | 
| np.eye(N)                                | N x Nの単位行列を生成                                                    | 
| np.random.rand()                         | 0 ~ 1からランダムな数字で行列を生成                                      | 
| np.random.randn()                        | 標準正規分布から値をとって行列を生成                                     | 
| np.random.randint(low[, hight] [, size]) | low以上hight未満のintegerからランダムに，指定したsizeのndarrayを生成<br> | 
| .reshape(shape)                          | ndarrayのshapeを任意のshapeに変換                                        | 
|                                          |                                                                          | 
|                                          |                                                                          | 

# Series_and_Pandas
* 表計算用のライブラリ
* 内部ではnumpyを使っているのでnumpyと扱い方は結構似てる部分もあるが、さらに便利な機能がたくさん搭載されている
* importが必要

<img src='https://user-images.githubusercontent.com/7065401/56914690-1d889700-6a8b-11e9-874d-9d7220342610.png'>

`pd.read_csv()` : csvファイルの読み込み

| パラメータ      | 値  | 説明                   | 
| --------------- | --- | ---------------------- | 
| file_path(必須) | str | 読み込むファイルのパス | 
| encoding        | str | エンコード             | 
| skip_rows        | int | 先頭行を読み込まない   | 

`pd.read_excel()` : excelファイルの読み込み

| パラメータ      | 値  | 説明                   | 
| --------------- | --- | ---------------------- | 
| file_path(必須) | str | 読み込むファイルのパス | 
| encoding        | str | エンコード             |
| skip_rows        | int | 先頭行を読み込まない   | 
|sheet_name       | str | シート指定             |

`df.to_csv('faile_name')` : csvファイルへの出力 <br>
`df.to_excel('faile_name')` : excelファイルへの出力


**df操作** <br>
`df.columns` : カラムのリスト <br>
`df.index ` : インデックスのリスト <br>
`df.head()` : dfの先頭n行を抽出 <br>
`df.tail()` : dfの最後尾n行を抽出 <br>
`df.sample()` : ランダムにn行抽出 <br>
`df['column_name']` : column_name列抽出 <br>
`df.loc['column_name']` : column_name列抽出 <br>
`df.loc[mask]` : mask条件文がTrueなものを抽出 <br>
`df.iloc[index_num, column_num]` : 行列番号で抽出 <br>
`df.rename(columns={'previous_name':'new_name'})` : カラム名の変更 <br>
`df.set_index('column_name')` : column_name列をindexにする(時刻など) <br>
`df.reset_index()` : indexを0から振りなおす <br> <br>
**統計量** <br>
`df.describe()` : 統計量まとめ <br>
`seriese.value_counts` : 同じ値をカウント <br>
`df.groupby('column_name')` : column_name列の値でグルーピング <br> <br>
**欠損値** <br>
`df.isna()` : NaNの抽出 <br>
`df.dropna()` : NaNをドロップ <br>
`df.fillna()` : NaNに値を代入 <br>
`df.replace()` : ある値を別の値に置き換える(np.nan) <br> <br>
**その他** <br>
`pd.concat([df1, df2])` : df1とdf2の結合 <br>
`df1.merge(df2)` : df1とdf2の結合　キーや結合方法を指定可能

Pandsについてはこちらのサイトに沿って説明します。個人的にかなりわかりやすいと思うので。<br>
https://datawokagaku.com/python_for_ds_summary/

## csvファイルを読み込む

In [3]:
import pandas as pd
df = pd.read_csv('./datasets/Titanic.csv')

## DataFrameの基本的な使い方(head, describe, Seriesの取得など)

## DataFrameのフィルタ操作の基本(超重要)

## DataFrameの欠損値NaNに対応する

## DataFrameのgroupbyをマスターする

## DataFrameのテーブル結合を完全解説(merge, join, concat)