# 4장 넘파이 4편: 고급 넘파이

## 기본 설정

`numpy` 모듈과 시각화 도구 모듈인 `matplotlib.pyplot`에 대한 기본 설정을 지정한다.

In [None]:
# 넘파이
import numpy as np
# 램덤 시드
np.random.seed(12345)
# 어레이 사용되는 부동소수점들의 정확도 지정
np.set_printoptions(precision=4, suppress=True)

# 파이플롯
import matplotlib.pyplot as plt
# 도표 크기 지정
plt.rc('figure', figsize=(10, 6))

## 과제

아래 코드는 인터넷 데이터 저장소로부터 아이리스(붓꽃) 데이터(`iris.data`)를 
2차원 넘파이 어레이로 불러온다.

In [None]:
# 아이리스(붓꽃) 데이터 불러오기
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='str')

`iris.data` 파일에는 아래 형식의 데이터가 150개 들어 있다. 

```python
5.1,3.5,1.4,0.2,Iris-setosa
```

하나의 데이터에 사용된 값들은 하나의 아이리스(붓꽃)에 대한 꽃잎, 꽃받침과 관련된 특성(features)과 품종을 나타내며,
보다 구체적으로 아래 순서를 따른다.

```
꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비, 품종
```

In [None]:
type(iris)

numpy.ndarray

In [None]:
import pandas as pd

In [None]:
iris.shape

(150, 5)

길이와 너비를 저장하는 특성들은 숫자로 저장되어 있었지만 위 코드는 문자열로 저장된 품종 특성과의 자료형을 통일시키기 위해
모두 문자열 자료형으로 불러왔다.
처음 5개 데이터를 확인하면 다음과 같다.

__참고:__ `'<U15'`는 길이가 최대 15인 유니코드 문자열 자료형을 나타낸다.

In [None]:
iris[:5]

array([['5.1', '3.5', '1.4', '0.2', 'Iris-setosa'],
       ['4.9', '3.0', '1.4', '0.2', 'Iris-setosa'],
       ['4.7', '3.2', '1.3', '0.2', 'Iris-setosa'],
       ['4.6', '3.1', '1.5', '0.2', 'Iris-setosa'],
       ['5.0', '3.6', '1.4', '0.2', 'Iris-setosa']], dtype='<U15')

수치형 데이터와 품종 데이터를 분리해서 각각 (150,4), (150,) 모양의 어레이를 생성하자.
이때 수치형 데이터는 `'f8'`, 즉 `'float64'` 자료형을 사용하도록 한다.

In [None]:
iris_features = iris[:,:4].astype('f8')
iris_labels = iris[:, 4]

In [None]:
columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
iris_features = pd.DataFrame(iris_features, columns=columns)
iris_features[:5]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [None]:
iris_labels = pd.Series(iris_labels)
iris_labels

0         Iris-setosa
1         Iris-setosa
2         Iris-setosa
3         Iris-setosa
4         Iris-setosa
            ...      
145    Iris-virginica
146    Iris-virginica
147    Iris-virginica
148    Iris-virginica
149    Iris-virginica
Length: 150, dtype: object

150개의 데이터는 아래 세 개의 품종으로 구분되며, 각각 50개씩 아래 언급된 순서대로 구분되어 있다.

```
'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'
```

즉, 0번, 50번, 100번부터 각 품종의 데이터가 시작된다.

In [None]:
iris_labels[::50]

0          Iris-setosa
50     Iris-versicolor
100     Iris-virginica
dtype: object

In [None]:
iris_labels[:5]

0    Iris-setosa
1    Iris-setosa
2    Iris-setosa
3    Iris-setosa
4    Iris-setosa
dtype: object

In [None]:
iris_labels[50:55]

50    Iris-versicolor
51    Iris-versicolor
52    Iris-versicolor
53    Iris-versicolor
54    Iris-versicolor
dtype: object

In [None]:
iris_labels[100:105]

100    Iris-virginica
101    Iris-virginica
102    Iris-virginica
103    Iris-virginica
104    Iris-virginica
dtype: object

__과제 1.__ 꽃잎 길이(2번 열)가 1.5보다 크거나 꽃받침 길이(0번 열)가 5.0보다 작은 데이터만 추출하라.

In [None]:
# None을 적절한 부울 표현식으로 대체하라.

mask = (iris_features.petal_length>1.5) | (iris_features.sepal_length<5.0)
mask

0      False
1       True
2       True
3       True
4      False
       ...  
145     True
146     True
147     True
148     True
149     True
Length: 150, dtype: bool

In [None]:
iris_features[mask].shape

(129, 4)

__과제 2.__ 꽃받침 길이(0번 열)와 꽃잎 길이(2번 열) 사이의 상관관계를 계산하라.

힌트: 넘파이의 적절한 함수를 활용한다. 상관계수에 대한 설명은 [위키백과: 상관분석](https://ko.wikipedia.org/wiki/상관_분석)을 참고한다.

In [None]:
# 적절한 넘파이 함수를 호출하라.
np.corrcoef(iris_features.sepal_length,iris_features.petal_length)

array([[1.    , 0.8718],
       [0.8718, 1.    ]])

In [None]:
# 적절한 넘파이 함수를 호출하라.
iris_corr = iris_features.corr()
iris_corr

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
sepal_length,1.0,-0.109369,0.871754,0.817954
sepal_width,-0.109369,1.0,-0.420516,-0.356544
petal_length,0.871754,-0.420516,1.0,0.962757
petal_width,0.817954,-0.356544,0.962757,1.0


In [None]:
iris_corr['sepal_length'].sort_values(ascending=False)

sepal_length    1.000000
petal_length    0.871754
petal_width     0.817954
sepal_width    -0.109369
Name: sepal_length, dtype: float64

In [None]:
iris_corr['sepal_length']['petal_length']

0.8717541573048719

__과제 3.__ 아래 식으로 계산된 값을 갖는 새로운 열(column)이 추가된 데이터프레임 `iris_features_added`를 생성하라.
열의 이름은 'length_vol'으로 지정한다.

$$\frac{\text{원주율} \times \text{꽃잎길이} \times \text{꽃받침길이}^2}{3} $$

In [None]:
# pass와 None을 각각 적절한 코드와 표현식으로 대체하라.

scaled = (3.14 * iris_features['petal_length'] * iris_features['sepal_length']**2) / 3
iris_features['length_vol'] = scaled

assert iris_features.shape == (150, 5)
iris_features.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,length_vol
0,5.1,3.5,1.4,0.2,38.11332
1,4.9,3.0,1.4,0.2,35.182653
2,4.7,3.2,1.3,0.2,30.057127
3,4.6,3.1,1.5,0.2,33.2212
4,5.0,3.6,1.4,0.2,36.633333


__과제 4.__ `Iris_versicolor` 품종에 해당하는 데이터만 `iris_features`로부터 추출하라. 

In [None]:
# None을 적절한 부울 표현식으로 대체하라.

mask = iris_labels == 'Iris-versicolor'
mask

0      False
1      False
2      False
3      False
4      False
       ...  
145    False
146    False
147    False
148    False
149    False
Length: 150, dtype: bool

In [None]:
iris_versicolor = iris_features[mask]

In [None]:
iris_versicolor.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,length_vol
50,7.0,3.2,4.7,1.4,241.047333
51,6.4,3.2,4.5,1.5,192.9216
52,6.9,3.1,4.9,1.5,244.17582
53,5.5,2.3,4.0,1.3,126.646667
54,6.5,2.8,4.6,1.5,203.419667


In [None]:
iris_versicolor.tail()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,length_vol
95,5.7,3.0,4.2,1.2,142.82604
96,5.7,2.9,4.2,1.3,142.82604
97,6.2,2.9,4.3,1.3,173.005627
98,5.1,2.5,3.0,1.1,81.6714
99,5.7,2.8,4.1,1.3,139.42542


__과제 5.__ 꽃받침 길이(0번 열)의 평균값(mean), 중앙값(median), 표준편차(standard deviation)를 구하라.

In [None]:
iris_mean = iris_features.mean()
iris_mean

sepal_length      5.843333
sepal_width       3.054000
petal_length      3.758667
petal_width       1.198667
length_vol      152.632588
dtype: float64

In [None]:
iris_median = iris_features.median()
iris_median

sepal_length      5.80000
sepal_width       3.00000
petal_length      4.35000
petal_width       1.30000
length_vol      151.87238
dtype: float64

In [None]:
iris_std = iris_features.std()
iris_std

sepal_length      0.828066
sepal_width       0.433594
petal_length      1.764420
petal_width       0.763161
length_vol      102.782225
dtype: float64

In [None]:
# None을 적절한 표현식으로 대체하라.

# petal_length_mean = iris_features[:,0]
# petal_length_median = np.median(iris_features[:,0])
# petal_length_std = np.std(iris_features[:,0])

# print(petal_length_mean, petal_length_median, petal_length_std)

__과제 6.__ 세 개의 품종 별 꽃받침 너비(1번 열)의 평균값을 계산하여 아래 어레이와 동일한 모양을 갖는 
데이터프레임 `iris_kind_sepal_length`를 생성하라.

```
[['Iris-setosa', 3.418],
 ['Iris-versicolor', 2.770],
 ['Iris-virginica', 2.974]]
```

In [None]:
# pass와 None을 각각 적절한 코드와 표현식으로 대체하라.

mask1 = iris_labels == 'Iris-setosa'
mask2 = iris_labels == 'Iris-versicolor'
mask3 = iris_labels == 'Iris-virginica'
mean1 = iris_features[mask1].mean()['sepal_width']
mean2 = iris_features[mask2].mean()['sepal_width']
mean3 = iris_features[mask3].mean()['sepal_width']
mean2

2.7700000000000005

In [None]:
iris_kind_sepal_length = pd.DataFrame({'kind': ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], 
                                       'mean_sepal_width':[mean1, mean2, mean3]})

iris_kind_sepal_length

Unnamed: 0,kind,mean_sepal_width
0,Iris-setosa,3.418
1,Iris-versicolor,2.77
2,Iris-virginica,2.974


__과제 7.__ 꽃잎 너비(3번 열)에 사용된 값을 모두 0과 1사이의 값으로 변환하라. 

힌트: 하나의 특성, 여기서는 꽃잎 너비,에 속하는 값을 모두 0과 1사이의 값으로 변환하는 작업을 정규화(normalization)이라 한다.
정규화에 대한 설명은 [정규화/표준화](https://rucrazia.tistory.com/90)을 참고하라.

In [None]:
iris_features[:5]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,length_vol
0,5.1,3.5,1.4,0.2,38.11332
1,4.9,3.0,1.4,0.2,35.182653
2,4.7,3.2,1.3,0.2,30.057127
3,4.6,3.1,1.5,0.2,33.2212
4,5.0,3.6,1.4,0.2,36.633333


In [None]:
iris_features.min(axis=0)

sepal_length     4.300000
sepal_width      2.000000
petal_length     1.000000
petal_width      0.100000
length_vol      21.288153
dtype: float64

In [None]:
iris_features

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,length_vol
0,5.1,3.5,1.4,0.2,38.113320
1,4.9,3.0,1.4,0.2,35.182653
2,4.7,3.2,1.3,0.2,30.057127
3,4.6,3.1,1.5,0.2,33.221200
4,5.0,3.6,1.4,0.2,36.633333
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,244.321307
146,6.3,2.5,5.0,1.9,207.711000
147,6.5,3.0,5.2,2.0,229.952667
148,6.2,3.4,5.4,2.3,217.262880


In [None]:
# None을 적절한 부울 표현식으로 대체하라.

iris_features_normalized = (iris_features - iris_features.min())/(iris_features.max() - iris_features.min())

iris_features_normalized

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,length_vol
0,0.222222,0.625000,0.067797,0.041667,0.041349
1,0.166667,0.416667,0.067797,0.041667,0.034147
2,0.111111,0.500000,0.050847,0.041667,0.021550
3,0.083333,0.458333,0.084746,0.041667,0.029326
4,0.194444,0.666667,0.067797,0.041667,0.037712
...,...,...,...,...,...
145,0.666667,0.416667,0.711864,0.916667,0.548122
146,0.555556,0.208333,0.677966,0.750000,0.458149
147,0.611111,0.416667,0.711864,0.791667,0.512810
148,0.527778,0.583333,0.745763,0.916667,0.481624


__과제 8.__ `iris_features`에 사용된 모든 값을 특성 별로 표준화(standardization)하라. 

힌트: 표준화에 대한 설명은 [정규화/표준화](https://rucrazia.tistory.com/90)을 참고하라.

In [None]:
iris_features.mean()

sepal_length      5.843333
sepal_width       3.054000
petal_length      3.758667
petal_width       1.198667
length_vol      152.632588
dtype: float64

In [None]:
# None을 적절한 부울 표현식으로 대체하라.

iris_features_standardized = (iris_features - iris_features.mean()) / iris_features.std()

iris_features_standardized[:5]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,length_vol
0,-0.897674,1.028611,-1.336794,-1.308593,-1.114193
1,-1.1392,-0.12454,-1.336794,-1.308593,-1.142707
2,-1.380727,0.33672,-1.39347,-1.308593,-1.192575
3,-1.50149,0.10609,-1.280118,-1.308593,-1.16179
4,-1.018437,1.259242,-1.336794,-1.308593,-1.128593
