# (실습) 실전 예제: 어레이 활용

In [1]:
import numpy as np

아래 코드는 인터넷 데이터 저장소로부터 아이리스(붓꽃) 데이터(`iris.data`)를
2차원 넘파이 어레이로 불러온다.

- `np.genfromtxt()` 함수의 `dtype='str'` 키워드 옵션: 부동소수점과 문자열이 함께 포함된 데이터이기에 모두 문자열로 통일해서 불러오는 용도

In [2]:
import numpy as np

# 아이리스(붓꽃) 데이터 불러오기
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='str')

`iris.data` 파일에는 아래 형식의 데이터가 150개 들어 있다.

```python
5.1,3.5,1.4,0.2,Iris-setosa
```

하나의 데이터에 사용된 값들은 하나의 아이리스(붓꽃)에 대한 꽃잎, 꽃받침과 관련된 특성(features)과 품종을 나타내며,
보다 구체적으로 아래 순서를 따른다.

```
꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비, 품종
```

In [3]:
iris.shape

(150, 5)

길이와 너비를 저장하는 특성들은 원래 숫자이지만 위 코드는 문자열로 불러왔다.
처음 5개 데이터를 확인하면 다음과 같다.

__참고:__ `'<U15'`는 길이가 최대 15인 유니코드 문자열 자료형을 나타낸다.

In [4]:
iris[:5]

array([['5.1', '3.5', '1.4', '0.2', 'Iris-setosa'],
       ['4.9', '3.0', '1.4', '0.2', 'Iris-setosa'],
       ['4.7', '3.2', '1.3', '0.2', 'Iris-setosa'],
       ['4.6', '3.1', '1.5', '0.2', 'Iris-setosa'],
       ['5.0', '3.6', '1.4', '0.2', 'Iris-setosa']], dtype='<U15')

수치형 데이터와 품종 데이터를 분리해서 각각 (150,4), (150,) 모양의 어레이를 생성하자.
이때 수치형 데이터는 `'f8'`, 즉 `'float64'` 자료형을 사용하도록 한다.

In [5]:
iris_features = iris[:,:4].astype('f8')
iris_labels = iris[:, 4]

In [6]:
iris_features[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

150개의 데이터는 아래 세 개의 품종으로 구분되며, 각각 50개씩 아래 언급된 순서대로 구분되어 있다.

```
'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'
```

즉, 0번, 50번, 100번부터 각 품종의 데이터가 시작된다.

In [7]:
iris_labels[::50]

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype='<U15')

In [8]:
iris_labels[:5]

array(['Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa'], dtype='<U15')

In [9]:
iris_labels[50:55]

array(['Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor',
       'Iris-versicolor', 'Iris-versicolor'], dtype='<U15')

In [10]:
iris_labels[100:105]

array(['Iris-virginica', 'Iris-virginica', 'Iris-virginica',
       'Iris-virginica', 'Iris-virginica'], dtype='<U15')

**문제 1**



```
# 코드로 형식 지정됨
```

꽃잎 길이(2번 열)가 1.5보다 크거나 꽃받침 길이(0번 열)가 5.0보다 작은 데이터만 추출하라.

In [12]:
# None을 적절한 부울 표현식으로 대체하라.

mask = (iris_features[:, 2] > 1.5) | (iris_features[:, 0] < 5.0)
iris_features[mask]

array([[4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.7, 3.8, 1.7, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [4.9, 3.1, 1.5, 0.1],
       [4.4, 3. , 1.3, 0.2],
       [4.5, 2.3, 1.3, 0.3],
       [4.4, 3.2, 1.3, 0.2],
       [5. , 3.5, 1.6, 0.6],
       [5.1, 3.8, 1.9, 0.4],
       [4.8, 3. , 1.4, 0.3],
       [5.1, 3.8, 1.6, 0.2],
       [4.6, 3.2, 1.4, 0.2],
       [7. , 3.2, 4.7, 1.4],
       [6.4, 3.2, 4.5, 1.5],
       [6.9, 3.1, 4.9, 1.5],
       [5.5, 2.3, 4. , 1.3],
       [6.5, 2.8, 4.6, 1.5],
       [5.7, 2

**문제 2**

꽃받침 길이(0번 열)와 꽃잎 길이(2번 열) 사이의 상관관계를 계산하라.

힌트: 넘파이의 적절한 함수를 활용한다. 상관계수에 대한 설명은 [위키백과: 상관분석](https://ko.wikipedia.org/wiki/상관_분석)을 참고한다.

In [13]:
# 적절한 넘파이 함수를 호출하라.
# 꽃받침 길이(0번 열)와 꽃잎 길이(2번 열) 추출
sepal_length = iris_features[:, 0]
petal_length = iris_features[:, 2]

# 상관관계 계산
correlation = np.corrcoef(sepal_length, petal_length)[0, 1]
print("상관관계:", correlation)

상관관계: 0.8717541573048718


**문제 3**

아래 식으로 계산된 값을 갖는 새로운 열(column)이 추가된 2차원 어레이  `iris_features_added`를 생성하라.

$$\frac{\text{원주율} \times \text{꽃잎길이} \times \text{꽃받침길이}^2}{3} $$

힌트: `np.stack()` 함수를 활용할 수 있다.

In [14]:
# pass와 None을 각각 적절한 코드와 표현식으로 대체하라.
# 꽃잎 길이(2번 열)와 꽃받침 길이(0번 열) 추출
petal_length = iris_features[:, 2]
sepal_length = iris_features[:, 0]

# 새로운 열을 계산하여 추가
new_column = np.pi * petal_length * (sepal_length ** 2 / 3)
iris_features_added = np.stack((iris_features[:, 0], iris_features[:, 1], iris_features[:, 2], iris_features[:, 3], new_column), axis=1)

print(iris_features_added)

[[5.10000000e+00 3.50000000e+00 1.40000000e+00 2.00000000e-01
  3.81326516e+01]
 [4.90000000e+00 3.00000000e+00 1.40000000e+00 2.00000000e-01
  3.52004985e+01]
 [4.70000000e+00 3.20000000e+00 1.30000000e+00 2.00000000e-01
  3.00723721e+01]
 [4.60000000e+00 3.10000000e+00 1.50000000e+00 2.00000000e-01
  3.32380503e+01]
 [5.00000000e+00 3.60000000e+00 1.40000000e+00 2.00000000e-01
  3.66519143e+01]
 [5.40000000e+00 3.90000000e+00 1.70000000e+00 4.00000000e-01
  5.19116770e+01]
 [4.60000000e+00 3.40000000e+00 1.40000000e+00 3.00000000e-01
  3.10221803e+01]
 [5.00000000e+00 3.40000000e+00 1.50000000e+00 2.00000000e-01
  3.92699082e+01]
 [4.40000000e+00 2.90000000e+00 1.40000000e+00 2.00000000e-01
  2.83832424e+01]
 [4.90000000e+00 3.10000000e+00 1.50000000e+00 1.00000000e-01
  3.77148198e+01]
 [5.40000000e+00 3.70000000e+00 1.50000000e+00 2.00000000e-01
  4.58044209e+01]
 [4.80000000e+00 3.40000000e+00 1.60000000e+00 2.00000000e-01
  3.86038905e+01]
 [4.80000000e+00 3.00000000e+00 1.400000

In [15]:
# 아래 주석을 해제하고 실행하라.

assert iris_features_added.shape == (150, 5)
iris_features_added[:5]

array([[ 5.1       ,  3.5       ,  1.4       ,  0.2       , 38.13265163],
       [ 4.9       ,  3.        ,  1.4       ,  0.2       , 35.20049849],
       [ 4.7       ,  3.2       ,  1.3       ,  0.2       , 30.07237208],
       [ 4.6       ,  3.1       ,  1.5       ,  0.2       , 33.23805027],
       [ 5.        ,  3.6       ,  1.4       ,  0.2       , 36.65191429]])

**문제 4**

[링크 텍스트](https://)`Iris_versicolor` 품종에 해당하는 데이터만 `iris_features`로부터 추출하라.

In [16]:
# None을 적절한 부울 표현식으로 대체하라.

mask = iris_features[:, 2] > 2
iris_features[mask][:5]

array([[7. , 3.2, 4.7, 1.4],
       [6.4, 3.2, 4.5, 1.5],
       [6.9, 3.1, 4.9, 1.5],
       [5.5, 2.3, 4. , 1.3],
       [6.5, 2.8, 4.6, 1.5]])

**문제 5**

꽃받침 길이(0번 열)의 평균값(mean), 중앙값(median), 표준편차(standard deviation)를 구하라.

In [17]:
# None을 적절한 표현식으로 대체하라.

petal_length_mean = np.mean(petal_length)
petal_length_median = np.median(petal_length)
petal_length_std = np.std(petal_length)

print(petal_length_mean, petal_length_median, petal_length_std)

3.758666666666666 4.35 1.7585291834055212


**문제 6**

세 개의 품종 별 꽃받침 너비(1번 열)의 평균값을 계산하여 변수 `iris_kind_sepal_length`가 아래 사전을 가리키도록 하라.

```
{'Iris-setosa':3.418,
 'Iris-versicolor':2.770,
 'Iris-virginica':2.974}
```

In [21]:
import numpy as np
from sklearn.datasets import load_iris

# 붓꽃 데이터셋 로드
iris = load_iris()
iris_features = iris.data
target_names = iris.target_names
target = iris.target  # 수정된 부분: iris 객체의 target 속성을 가져옴

# 각 품종에 해당하는 데이터 추출
setosa_data = iris_features[target == 0]  # 수정된 부분: iris 객체의 target을 사용하여 데이터를 추출함
versicolor_data = iris_features[target == 1]  # 수정된 부분: iris 객체의 target을 사용하여 데이터를 추출함
virginica_data = iris_features[target == 2]  # 수정된 부분: iris 객체의 target을 사용하여 데이터를 추출함

# 각 품종 별로 꽃받침 너비(1번 열)의 평균값 계산
setosa_sepal_length_mean = np.mean(setosa_data[:, 1])
versicolor_sepal_length_mean = np.mean(versicolor_data[:, 1])
virginica_sepal_length_mean = np.mean(virginica_data[:, 1])

# 결과를 사전에 저장
iris_kind_sepal_length = {
    target_names[0]: setosa_sepal_length_mean,
    target_names[1]: versicolor_sepal_length_mean,
    target_names[2]: virginica_sepal_length_mean
}

iris_kind_sepal_length

{'setosa': 3.428, 'versicolor': 2.7700000000000005, 'virginica': 2.974}

In [None]:
assert (iris_kind_sepal_length == {'Iris-setosa':3.418,
                                   'Iris-versicolor':2.770,
                                   'Iris-virginica':2.974})

**문제 7**

`iris_features`에 사용된 모든 값을 특성별로 정규화(normalization)하라.

힌트: 꽃잎 너비 등 하나의 특성에 속하는 값을 모두 0과 1사이의 값으로 변환하는 작업을 정규화(normalization)라 한다.
정규화에 대한 설명은 [정규화/표준화](https://rucrazia.tistory.com/90)를 참고하라.

In [22]:
# None을 적절한 부울 표현식으로 대체하라.
# 각 특성별로 최솟값과 최댓값을 구합니다.
min_values = np.min(iris_features, axis=0)
max_values = np.max(iris_features, axis=0)
# 정규화를 위해 모든 값을 0과 1 사이로 변환합니다.
iris_features_normalized = (iris_features - min_values) / (max_values - min_values)

아래 코드는 수정하지 마세요!!!

In [23]:
sol = np.array([[0.22222222, 0.625     , 0.06779661, 0.04166667],
                [0.16666667, 0.41666667, 0.06779661, 0.04166667],
                [0.11111111, 0.5       , 0.05084746, 0.04166667],
                [0.08333333, 0.45833333, 0.08474576, 0.04166667],
                [0.19444444, 0.66666667, 0.06779661, 0.04166667]])

assert ~(iris_features_normalized.min(axis=0).all())
assert (iris_features_normalized.max(axis=0).all())
assert np.allclose(iris_features_normalized[:5], sol)

**문제 8**

`iris_features`에 사용된 모든 값을 특성별로 표준화(standardization)하라.

힌트: 꽃잎 너비 등 하나의 특성에 속하는 값들의 평균값은 0, 표준편차는 1이 되도록 항목을 변환하는 작업을 표준화(standardization)라 한다.
표준화에 대한 설명은 [정규화/표준화](https://rucrazia.tistory.com/90)를 참고하라.

In [26]:
# None을 적절한 부울 표현식으로 대체하라.
# 각 특성별로 평균과 표준편차를 구합니다.
mean_values = np.mean(iris_features, axis=0)
std_values = np.std(iris_features, axis=0)
# 표준화를 위해 모든 값을 평균이 0, 표준편차가 1이 되도록 변환합니다.
iris_features_standardized = (iris_features - mean_values) / std_values

In [27]:
# 아래 주석을 해제하고 실행하라.

iris_features_standardized[:5]

array([[-0.90068117,  1.01900435, -1.34022653, -1.3154443 ],
       [-1.14301691, -0.13197948, -1.34022653, -1.3154443 ],
       [-1.38535265,  0.32841405, -1.39706395, -1.3154443 ],
       [-1.50652052,  0.09821729, -1.2833891 , -1.3154443 ],
       [-1.02184904,  1.24920112, -1.34022653, -1.3154443 ]])

**문제 9**

붓꽃 데이터셋의 품종 분류를 아래 그림과 같은 형식으로 그리는 코드를 작성하라.

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/datapy/master/jupyter-book/images/iris-classification.png" style="width:600px;"></div>