# 4장 넘파이 4편: 고급 넘파이

## 기본 설정

`numpy` 모듈과 시각화 도구 모듈인 `matplotlib.pyplot`에 대한 기본 설정을 지정한다.

In [None]:
# 넘파이
import numpy as np
# 램덤 시드
np.random.seed(12345)
# 어레이 사용되는 부동소수점들의 정확도 지정
np.set_printoptions(precision=4, suppress=True)

# 파이플롯
import matplotlib.pyplot as plt
# 도표 크기 지정
plt.rc('figure', figsize=(10, 6))

## 과제

아래 코드는 인터넷 데이터 저장소로부터 아이리스(붓꽃) 데이터(`iris.data`)를 
2차원 넘파이 어레이로 불러온다.

In [None]:
# 아이리스(붓꽃) 데이터 불러오기
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='str')

`iris.data` 파일에는 아래 형식의 데이터가 150개 들어 있다. 

```python
5.1,3.5,1.4,0.2,Iris-setosa
```

하나의 데이터에 사용된 값들은 하나의 아이리스(붓꽃)에 대한 꽃잎, 꽃받침과 관련된 특성(features)과 품종을 나타내며,
보다 구체적으로 아래 순서를 따른다.

```
꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비, 품종
```

In [None]:
iris.shape

(150, 5)

길이와 너비를 저장하는 특성들은 숫자로 저장되어 있었지만 위 코드는 문자열로 저장된 품종 특성과의 자료형을 통일시키기 위해
모두 문자열 자료형으로 불러왔다.
처음 5개 데이터를 확인하면 다음과 같다.

__참고:__ `'<U15'`는 길이가 최대 15인 유니코드 문자열 자료형을 나타낸다.

In [None]:
iris[:5]

array([['5.1', '3.5', '1.4', '0.2', 'Iris-setosa'],
       ['4.9', '3.0', '1.4', '0.2', 'Iris-setosa'],
       ['4.7', '3.2', '1.3', '0.2', 'Iris-setosa'],
       ['4.6', '3.1', '1.5', '0.2', 'Iris-setosa'],
       ['5.0', '3.6', '1.4', '0.2', 'Iris-setosa']], dtype='<U15')

수치형 데이터와 품종 데이터를 분리해서 각각 (150,4), (150,) 모양의 어레이를 생성하자.
이때 수치형 데이터는 `'f8'`, 즉 `'float64'` 자료형을 사용하도록 한다.

In [None]:
iris_features = iris[:,:4].astype('f8')
iris_labels = iris[:, 4]

In [None]:
iris_features[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

150개의 데이터는 아래 세 개의 품종으로 구분되며, 각각 50개씩 아래 언급된 순서대로 구분되어 있다.

```
'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'
```

즉, 0번, 50번, 100번부터 각 품종의 데이터가 시작된다.

In [None]:
iris_labels[::50]

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype='<U15')

In [None]:
iris_labels[:5]

array(['Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa'], dtype='<U15')

In [None]:
iris_labels[50:55]

array(['Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor',
       'Iris-versicolor', 'Iris-versicolor'], dtype='<U15')

In [None]:
iris_labels[100:105]

array(['Iris-virginica', 'Iris-virginica', 'Iris-virginica',
       'Iris-virginica', 'Iris-virginica'], dtype='<U15')

__과제 1.__ 꽃잎 길이(2번 열)가 1.5보다 크거나 꽃받침 길이(0번 열)가 5.0보다 작은 데이터만 추출하라.

In [None]:
# None을 적절한 부울 표현식으로 대체하라.

mask = (iris_features[:,2]>1.5) | (iris_features[:,0]<5.0)
mask

array([False,  True,  True,  True, False,  True,  True, False,  True,
        True, False,  True,  True,  True, False, False, False, False,
        True, False,  True, False,  True,  True,  True,  True,  True,
       False, False,  True,  True, False, False, False,  True, False,
       False,  True,  True, False, False,  True,  True,  True,  True,
        True,  True,  True, False, False,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,

In [None]:

iris_features[mask].shape

(129, 4)

__과제 2.__ 꽃받침 길이(0번 열)와 꽃잎 길이(2번 열) 사이의 상관관계를 계산하라.

힌트: 넘파이의 적절한 함수를 활용한다. 상관계수에 대한 설명은 [위키백과: 상관분석](https://ko.wikipedia.org/wiki/상관_분석)을 참고한다.

In [None]:
# 적절한 넘파이 함수를 호출하라.
np.tril(np.corrcoef(iris_features[:,0],iris_features[:,2]),k=-1)[1,0]

0.8717541573048718

In [None]:
# 적절한 넘파이 함수를 호출하라.
np.corrcoef(iris_features[:,0],iris_features[:,2])

array([[1.    , 0.8718],
       [0.8718, 1.    ]])

__과제 3.__ 아래 식으로 계산된 값을 갖는 새로운 열(column)이 추가된 2차원 어레이  `iris_features_added`를 생성하라.

$$\frac{\text{원주율} \times \text{꽃잎길이} \times \text{꽃받침길이}^2}{3} $$

힌트: `np.stack()` 함수를 활용할 수 있다.

In [None]:
# pass와 None을 각각 적절한 코드와 표현식으로 대체하라.

caled = (3.14 * iris_features[:,2] * iris_features[:,0]**2) / 3
iris_features_added = np.hstack((iris_features, caled[:, np.newaxis]))

assert iris_features_added.shape == (150, 5)
iris_features_added[:5]

array([[ 5.1   ,  3.5   ,  1.4   ,  0.2   , 38.1133],
       [ 4.9   ,  3.    ,  1.4   ,  0.2   , 35.1827],
       [ 4.7   ,  3.2   ,  1.3   ,  0.2   , 30.0571],
       [ 4.6   ,  3.1   ,  1.5   ,  0.2   , 33.2212],
       [ 5.    ,  3.6   ,  1.4   ,  0.2   , 36.6333]])

__과제 4.__ `Iris_versicolor` 품종에 해당하는 데이터만 `iris_features`로부터 추출하라. 

In [None]:
# None을 적절한 부울 표현식으로 대체하라.

mask = iris_labels == 'Iris-versicolor'
iris_features[mask][:5]

array([[7. , 3.2, 4.7, 1.4],
       [6.4, 3.2, 4.5, 1.5],
       [6.9, 3.1, 4.9, 1.5],
       [5.5, 2.3, 4. , 1.3],
       [6.5, 2.8, 4.6, 1.5]])

__과제 5.__ 꽃받침 길이(0번 열)의 평균값(mean), 중앙값(median), 표준편차(standard deviation)를 구하라.

In [None]:
# None을 적절한 표현식으로 대체하라.

petal_length_mean = np.mean(iris_features[:,0])
petal_length_median = np.median(iris_features[:,0])
petal_length_std = np.std(iris_features[:,0])

print(petal_length_mean, petal_length_median, petal_length_std)

5.843333333333334 5.8 0.8253012917851409


In [None]:
# None을 적절한 표현식으로 대체하라.

petal_length_mean = iris_features.mean(axis=0)[0]
petal_length_median = np.median(iris_features[:,0])
petal_length_std = iris_features.std(axis=0)[0]

print(petal_length_mean, petal_length_median, petal_length_std)

5.843333333333335 5.8 0.8253012917851409


__과제 6.__ 세 개의 품종 별 꽃받침 너비(1번 열)의 평균값을 계산하여 아래 어레이와 동일한 모양을 갖는 
어레이 `iris_kind_sepal_length`를 생성하라.

```
[['Iris-setosa', 3.418],
 ['Iris-versicolor', 2.770],
 ['Iris-virginica', 2.974]]
```

In [None]:
# pass와 None을 각각 적절한 코드와 표현식으로 대체하라.

mask1 = iris_labels == 'Iris-setosa'
mask2 = iris_labels == 'Iris-versicolor'
mask3 = iris_labels == 'Iris-virginica'
mean1 = np.mean(iris_features[mask1][:,1])
mean2 = np.mean(iris_features[mask2][:,1])
mean3 = np.mean(iris_features[mask3][:,1])
iris_kind_sepal_length = np.array([['Iris-setosa',mean1],['Iris-versicolor',mean2],['Iris-virginica',mean3]])

iris_kind_sepal_length

array([['Iris-setosa', '3.418'],
       ['Iris-versicolor', '2.7700000000000005'],
       ['Iris-virginica', '2.974']], dtype='<U18')

__과제 7.__ 꽃잎 너비(3번 열)에 사용된 값을 모두 0과 1사이의 값으로 변환하라. 

힌트: 하나의 특성, 여기서는 꽃잎 너비,에 속하는 값을 모두 0과 1사이의 값으로 변환하는 작업을 정규화(normalization)이라 한다.
정규화에 대한 설명은 [정규화/표준화](https://rucrazia.tistory.com/90)을 참고하라.

In [None]:
# None을 적절한 부울 표현식으로 대체하라.

iris_features_normalized = (iris_features[:,3] - np.min(iris_features[:,3]))/(np.max(iris_features[:,3])-np.min(iris_features[:,3]))

iris_features_normalized[:5]

array([0.0417, 0.0417, 0.0417, 0.0417, 0.0417])

In [None]:
iris_features[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

In [None]:
np.min(iris_features, axis=0)

array([4.3, 2. , 1. , 0.1])

In [None]:
# None을 적절한 부울 표현식으로 대체하라.

iris_features_normalized = (iris_features - iris_features.min(axis=0))/(iris_features.max(axis=0) - iris_features.min(axis=0))

iris_features_normalized[:5]

array([[0.2222, 0.625 , 0.0678, 0.0417],
       [0.1667, 0.4167, 0.0678, 0.0417],
       [0.1111, 0.5   , 0.0508, 0.0417],
       [0.0833, 0.4583, 0.0847, 0.0417],
       [0.1944, 0.6667, 0.0678, 0.0417]])

__과제 8.__ `iris_features`에 사용된 모든 값을 특성 별로 표준화(standardization)하라. 

힌트: 표준화에 대한 설명은 [정규화/표준화](https://rucrazia.tistory.com/90)을 참고하라.

In [None]:
# None을 적절한 부울 표현식으로 대체하라.

iris_features_standardized = (iris_features - iris_features.mean(axis=0)) / iris_features.std(axis=0)

iris_features_standardized[:5]

array([[-0.9007,  1.0321, -1.3413, -1.313 ],
       [-1.143 , -0.125 , -1.3413, -1.313 ],
       [-1.3854,  0.3378, -1.3981, -1.313 ],
       [-1.5065,  0.1064, -1.2844, -1.313 ],
       [-1.0218,  1.2635, -1.3413, -1.313 ]])