# 第2回課題
numpy, pandas

ここでは基本的なことが学べればいいので下記の tutorial に必ず答えがあります．また，一読をお勧めします（scipy は今回対象としていません）．
- [numpy](https://numpy.org/devdocs/user/quickstart.html)
- [pandas](https://pandas.pydata.org/docs/getting_started/index.html)
- [scipy](https://scipy-lectures.org/)

In [2]:
import numpy as np
import pandas as pd

## numpy

### 課題1
九九の表を作りなさい．
方法はいくつかありますが numpy を用いていればいいです．

出力：  
```
array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9],
       [ 2,  4,  6,  8, 10, 12, 14, 16, 18],
       [ 3,  6,  9, 12, 15, 18, 21, 24, 27],
       [ 4,  8, 12, 16, 20, 24, 28, 32, 36],
       [ 5, 10, 15, 20, 25, 30, 35, 40, 45],
       [ 6, 12, 18, 24, 30, 36, 42, 48, 54],
       [ 7, 14, 21, 28, 35, 42, 49, 56, 63],
       [ 8, 16, 24, 32, 40, 48, 56, 64, 72],
       [ 9, 18, 27, 36, 45, 54, 63, 72, 81]])
```

In [3]:
table = np.arange(1,10)
table * table.reshape(9,1)

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9],
       [ 2,  4,  6,  8, 10, 12, 14, 16, 18],
       [ 3,  6,  9, 12, 15, 18, 21, 24, 27],
       [ 4,  8, 12, 16, 20, 24, 28, 32, 36],
       [ 5, 10, 15, 20, 25, 30, 35, 40, 45],
       [ 6, 12, 18, 24, 30, 36, 42, 48, 54],
       [ 7, 14, 21, 28, 35, 42, 49, 56, 63],
       [ 8, 16, 24, 32, 40, 48, 56, 64, 72],
       [ 9, 18, 27, 36, 45, 54, 63, 72, 81]])

### 課題2
以下の2つのデータに対し，共分散を導出せよ．  
今回の式では平均が N で求められていることに注意し，`np.cov` の[定義](https://docs.scipy.org/doc/numpy/reference/generated/numpy.cov.html#numpy.cov)をよく読み引数を考慮すること 

上記の関数が上手く使えない場合は，前回のコードを numpy を用いて実装すること


```[python]
d1 = np.asarray([50, 50, 80, 70, 90])   # データ1
d2 = np.fromiter([50, 70, 60, 90, 100], dtype=int)  # データ2（あえて2つの書き方をしていますが，同じ形になります）
```
出力：  
$188.0$  

ここで，サンプル集合 $X=\{x_i\}_{1 \le i \le N}$，$Y=\{y_i\}_{1 \le i \le N}$ に対する 共分散 は下式により与えられるものとする．  
なお，$N$はサンプル数を表す．

$$
    \begin{align}
        Cov(X,Y)&=\frac{1}{N}\left(\sum_{i=1}^Nx_iy_i\right)-\left(\frac{1}{N}\sum_{i=1}^N x_i\right)\left(\frac{1}{N}\sum_{i=1}^N y_i\right)
    \end{align}
$$  



In [4]:
d1 = np.asarray([50, 50, 80, 70, 90])   # データ1
d2 = np.fromiter([50, 70, 60, 90, 100], dtype=int)  # データ2（あえて2つの書き方をしていますが，同じ形になります）

In [16]:
print(np.cov(d1, d2, ddof=0)[0][1]) #ddof未指定だと不偏分散

188.0


## pandas

open dataset の1つである iris dataset の読み込み（ここでは，おまじない）

In [8]:
from sklearn.datasets import load_iris
iris_data = load_iris() #del iris_data などで不要となった変数を消すことも可能
data, label, feature_names = iris_data["data"], iris_data["target"], iris_data["feature_names"]

In [9]:
data[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

### 課題3
次のコードの . の前後を埋めて，DataFrame 化し，それを書き込んで読み込み直したものを出力
```[python]
iris_df = pd. # DataFrame 化
iris_df. # csv or pickle で出力
pd. # csv or pickleの読み込み
.head() # 先頭の出力
```
出力：（形があっていれば良いですが，column 名であったり，不必要な index を消せているとなおよいです）
```
sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2
```

In [10]:
iris_df = pd.DataFrame(data, columns=feature_names)
iris_df.to_csv("./iris_df.csv", index=0, header=False)
iris_df2 = pd.read_csv("./iris_df.csv")
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


### 課題4
作成した dataframe に label を接続
```
label = pd.DataFrame(label, columns=["label"])
iris_df = pd.
iris_df.head()
```

出力：
```
	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)	label
0	5.1	3.5	1.4	0.2	0
1	4.9	3.0	1.4	0.2	0
2	4.7	3.2	1.3	0.2	0
3	4.6	3.1	1.5	0.2	0
4	5.0	3.6	1.4	0.2	0
```

In [11]:
label = pd.DataFrame(label, columns=["label"])
iris_df = pd.DataFrame.join(iris_df, label)
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


### 課題5
iris_df の中から label == 1 の行を出力し，index を治す．
```
iris_one_df = iris_df[....]
iris_one_df = iris_one_df.r
iris_one_df.head()
```

出力：
```
	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)	label
0	7.0	3.2	4.7	1.4	1
1	6.4	3.2	4.5	1.5	1
2	6.9	3.1	4.9	1.5	1
3	5.5	2.3	4.0	1.3	1
4	6.5	2.8	4.6	1.5	1
```

In [12]:
iris_one_df = iris_df[iris_df["label"]==1]
new_index = pd.Index(np.arange(iris_one_df.shape[0]))
iris_one_df.index=new_index
iris_one_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,7.0,3.2,4.7,1.4,1
1,6.4,3.2,4.5,1.5,1
2,6.9,3.1,4.9,1.5,1
3,5.5,2.3,4.0,1.3,1
4,6.5,2.8,4.6,1.5,1


### 課題6
pandas の機能を用いて，基本統計量を出力（関数1つで出せるが，個別に min, max, mean などを出しても良い）．
```
iris_df.
```

出力：
```
		sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)	label
count	150.000000	150.000000	150.000000	150.000000	150.000000
mean	5.843333	3.057333	3.758000	1.199333	1.000000
std	0.828066	0.435866	1.765298	0.762238	0.819232
min	4.300000	2.000000	1.000000	0.100000	0.000000
25%	5.100000	2.800000	1.600000	0.300000	0.000000
50%	5.800000	3.000000	4.350000	1.300000	1.000000
75%	6.400000	3.300000	5.100000	1.800000	2.000000
max	7.900000	4.400000	6.900000	2.500000	2.000000
```

In [13]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
count,150.0,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333,1.0
std,0.828066,0.435866,1.765298,0.762238,0.819232
min,4.3,2.0,1.0,0.1,0.0
25%,5.1,2.8,1.6,0.3,0.0
50%,5.8,3.0,4.35,1.3,1.0
75%,6.4,3.3,5.1,1.8,2.0
max,7.9,4.4,6.9,2.5,2.0


### 発展課題
apply 関数を用いて，sepal length (cm) の値を切り上げよ

In [14]:
iris_df["sepal length (cm)"]= iris_df["sepal length (cm)"].apply(np.ceil)
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,6.0,3.5,1.4,0.2,0
1,5.0,3.0,1.4,0.2,0
2,5.0,3.2,1.3,0.2,0
3,5.0,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
5,6.0,3.9,1.7,0.4,0
6,5.0,3.4,1.4,0.3,0
7,5.0,3.4,1.5,0.2,0
8,5.0,2.9,1.4,0.2,0
9,5.0,3.1,1.5,0.1,0
