# Numpy

# What is Numpy?

<img src="https://numpy.org/doc/stable/_static/numpylogo.svg" width="400">

* 과학 및 공학 분야의 파이썬 프로그래밍에서 사용되는 오픈 소스 라이브러리
    * 데이터 분석 및 인공지능 구현 등에 사용
    * 행렬 형태로 구성된 데이터 조작에 용이
        * 대규모의 다차원 배열 조작도 포함
            * ex) Tensor
    * 빠르고 간단하게 데이터 처리 가능

# So why Numpy?

* 파이썬의 List의 경우 자료형의 상관없이 저장이 가능하기에 값을 저장하는 것이 아닌 주소를 저장
    * 해당 주소는 연속적이지 않음
    * 반면에 Numpy 배열의 경우 단일 자료형의 데이터만 취급하기 때문에 연속적으로 저장

* 아래 이미지를 통해 값의 접근하는 과정을 비교해 보자.
    * Numpy의 경우, 순서만 알면 바로 접근 가능하지만, List의 경우 해당 주소에 존재하는 객체에 접근하여 값을 찾아야 하기에 접근 과정이 번잡

<img src="https://i.stack.imgur.com/K26b0.png" width="500">

* "빠르고 간단하게 데이터 처리 가능"이 무슨 의미인지 코드로 확인해 보자
* 해당 예제는 단순히 왜 Numpy를 사용하는지 보여주기 위함이다.

* 행렬의 내적 계산
    * 코드의 간결성과 평균 실행 시간을 비교해 보자
    * 내적의 계산 방법은 다루지 않는다.

In [1]:
A = [list(range(10000, 20000)), list(range(20000, 30000))]  # 2행 10000열 크기의 행렬
B = [[1, 2] for _ in range(10000)]  # 10000행 2열 크기의 행렬

## 단순 반복문 사용

In [2]:
AB1 = [[0]*len(B[0]) for _ in range(len(A))]

In [3]:
%%time
for i in range(len(A)): 
    for j in range(len(B[0])): 
        for k in range(len(A[0])): 
            AB1[i][j] += A[i][k] * B[k][j]
AB1

Wall time: 11 ms


[[149995000, 299990000], [249995000, 499990000]]

## List Comprehension 사용

In [4]:
%%time
AB2 = [[sum(a*b for a, b in zip(A_row,B_col)) for B_col in zip(*B)] for A_row in A]
AB2

Wall time: 4.99 ms


[[149995000, 299990000], [249995000, 499990000]]

## Numpy 사용

In [5]:
import numpy as np

In [6]:
#np.__version__

In [7]:
A_ = np.array(A)
B_ = np.array(B)

In [8]:
%%time
A_.dot(B_)

Wall time: 0 ns


array([[149995000, 299990000],
       [249995000, 499990000]])

## 결과

In [9]:
AB1 == AB2 == A_.dot(B_).tolist()

True

# How to use Numpy

## Installation

* 만약 설치가 안 되어 있다면 아래 셀을 실행하여 설치할 수 있다.

In [10]:
#pip install numpy

* Numpy 라이브러리를 사용하기 위해 아래 셀과 같이 import
* np는 import한 라이브러리의 별칭
    * 별칭을 지정하지 않으면 해당 라이브러리를 사용할 때마다 "numpy." 의 형태로 사용해야 함
    * 별칭을 지정하는데 별도의 규칙은 없지만 통용적으로 "np"를 사용

## Array creation

* 기본적인 배열 생성 방법을 알아본다.

### 1-Dmension

* 일반적으로 1차원 형태의 데이터 집합을 벡터(Vector)라고 한다.

In [11]:
list_arr1 = [1, 3, 2, 5]
print(list_arr1)
print(type(list_arr1))

[1, 3, 2, 5]
<class 'list'>


In [12]:
#numpy_arr = np.array([1, 3, 2, 5])
numpy_arr1 = np.array(list_arr1)
print(numpy_arr1)
print(type(numpy_arr1))

[1 3 2 5]
<class 'numpy.ndarray'>


### 2-Dimension

* 일반적으로 2차원 형태의 데이터 집합을 행렬(Matrix)라고 한다.

In [13]:
list_arr2 = [[1, 3, 2, 5], [7, 4, 9, 0]]
print(list_arr2)
print(type(list_arr2))

[[1, 3, 2, 5], [7, 4, 9, 0]]
<class 'list'>


In [14]:
#numpy_arr = np.array([[1, 3, 2, 5], [7, 4, 9, 0]])
numpy_arr2 = np.array(list_arr2)
print(numpy_arr2)
print(type(numpy_arr2))

[[1 3 2 5]
 [7 4 9 0]]
<class 'numpy.ndarray'>


### 3-Dimension

* 일반적으로 3차원 혹은 그 이상의 차원을 가진 데이터의 집합을 텐서(Tensor)라고 한다.

In [15]:
list_arr3 = [[[1, 3, 2, 5], [7, 4, 9, 0]], [[6, 8, 12, 15], [17, 14, 19, 10]]]
print(list_arr3)
print(type(list_arr3))

[[[1, 3, 2, 5], [7, 4, 9, 0]], [[6, 8, 12, 15], [17, 14, 19, 10]]]
<class 'list'>


In [16]:
#numpy_arr = np.array([[[1, 3, 2, 5], [7, 4, 9, 0]], [[6, 8, 12, 15], [17, 14, 19, 10]]])
numpy_arr3 = np.array(list_arr3)
print(numpy_arr3)
print(type(numpy_arr3))

[[[ 1  3  2  5]
  [ 7  4  9  0]]

 [[ 6  8 12 15]
  [17 14 19 10]]]
<class 'numpy.ndarray'>


<img src="https://art28.github.io/assets/lecture_asset/linear_algebra/1_1.png" width="800">

### zeros and ones

* 0 혹은 1로 된 배열을 생성

* 1차원 생성
    * np.zeros((len))
    * np.ones((len))

In [17]:
np.zeros(3)
#np.ones(3)

array([0., 0., 0.])

* 2차원 생성
    * np.zeros((row, col))
    * np.ones((row, col))

In [18]:
np.zeros((3, 3))
#np.ones((3, 3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

* 3차원 생성
    * np.zeros((depth, row, col))
    * np.ones((depth, row, col))

In [19]:
np.zeros((3, 3, 3))
#np.ones((3, 3, 3))

array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]]])

### random.rand

* random 모듈에 포함된 rand 함수를 사용하면 주어진 크기에 0 ~ 1 사이의 값을 가진 배열을 생성
* zeros 및 ones 함수와 파라미터 사용방법은 동일하나 소괄호가 따로 붙지 않는 것에 주의

In [20]:
np.random.rand(3, 5)

array([[0.35116766, 0.18684085, 0.82119011, 0.06458207, 0.90619991],
       [0.83907456, 0.51906892, 0.41481199, 0.93645666, 0.20171414],
       [0.19176069, 0.99119233, 0.57585336, 0.22537541, 0.45214769]])

### arange

* 입력받은 범위의 값으로 배열 생성
    * np.arange(start, stop, step)
    * start이상 stop 미만의 값을 step에 따라 생성
        * 기본적으로 start와 step은 지정하지 않으며, 그럴 경우 start는 0, step은 1로 지정됨

In [21]:
print(np.arange(11))
print(np.arange(1, 11))
print(np.arange(1, 11, 2))
print(np.arange(1, 5, 0.5))
print(np.arange(10, 0, -1))

[ 0  1  2  3  4  5  6  7  8  9 10]
[ 1  2  3  4  5  6  7  8  9 10]
[1 3 5 7 9]
[1.  1.5 2.  2.5 3.  3.5 4.  4.5]
[10  9  8  7  6  5  4  3  2  1]


#### Q1. 0 ~ 1 사이의 값으로 채워진 4 x 3 x 7 크기의 배열을 생성하는 코드를 아래 셀에 작성하시오.

In [22]:
### Your Code ###

In [94]:
np.random.rand(4, 3, 7).shape

(4, 3, 7)

## Array access

* 기본적인 배열 접근 방법을 알아본다.

In [96]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]])
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

### Indexing

* Numpy 배열의 값에 접근하는 방법을 알아본다.

|2-D Index||||
|------|------|------|------|
|(0, 0)|(0, 1)|(0, 2)|(0, 3)|
|(1, 0)|(1, 1)|(1, 2)|(1, 3)|
|(2, 0)|(2, 1)|(2, 2)|(2, 3)|
|(3, 0)|(3, 1)|(3, 2)|(3, 3)|

* 기본적인 Indexing
    * 일반적인 List 값에 대한 접근 방법과 동일
    * List와 마찬가지로 대괄호를 사용하며 차원의 순서대로 위치를 지정
        * 1차원: [len]
        * 2차원: [row, col]
        * 3차원: [depth, row, col]

* 2행 3열에 대한 값을 Indexing

In [24]:
arr[2,3]

12

* 3행 3열에 대한 값을 Indexing

In [25]:
arr[-1,-1]
#arr[3,3]

16

#### Boolean Indexing

* 조건에 따른 Indexing
    * Numpy 배열은 조건문을 사용하여 부분적으로 index에 접근 가능
    * 조건에 따른 Boolean 배열
        * Boolean 배열을 index로 사용
        * 값이 True로 된 곳만 indexing
        * index가 가능한 이유는 문법 규칙이기 때문 = 암기

* 값이 2의 배수인 것들에 대해서 Indexing

In [26]:
index = arr % 2 == 0
index

array([[False,  True, False,  True],
       [False,  True, False,  True],
       [False,  True, False,  True],
       [False,  True, False,  True]])

In [27]:
arr[index]

array([ 2,  4,  6,  8, 10, 12, 14, 16])

* 값이 7 이상인 것들에 대해서 Indexing

In [28]:
arr[arr >= 7]

array([ 7,  8,  9, 10, 11, 12, 13, 14, 15, 16])

### Slicing

* 특정 범위 내의 Numpy 배열 값에 접근하는 방법을 알아본다.

* 기본적인 Slicing
    * arr[start:end:step]의 형태로 접근
        * [:] 만을 사용할 경우 모든 index
        * [:end] 형태를 사용할 경우 주어진 index 직전까지
        * [start:] 형태를 사용할 경우 주어진 index부터 그 이후까지
            * start가 0일 경우 생략 가능하다.
        * [start:end:step]: start부터 시작해서 end 앞까지 step에 따라
            * step은 지정하지 않으면 기본적으로 1
    * Slicing은 각 차원별로 지정
        * 2-D의 경우
            * arr[Slicing, Slicing] -> arr[start:end, start:step]

* 행에 대한 Slicing

In [29]:
arr[1:3, :]

array([[ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

* 열에 대한 Slicing

In [30]:
arr[:, :4:2]

array([[ 1,  3],
       [ 5,  7],
       [ 9, 11],
       [13, 15]])

#### Q2. 다음 결과가 나오도록 Numpy 배열에 접근하는 코드를 아래 셀에 작성하시오.

```
array([[ 1,   4],  
       [ 13, 16]])
```

In [31]:
### Your Code ###

In [101]:
arr[:4:3, :4:3]

array([[ 1,  4],
       [13, 16]])

### Replacement

* Numpy 배열은 Indexing 및 Slicing을 통해 값 변경이 가능하다.

In [32]:
arr[1, 0] = 0
arr

array([[ 1,  2,  3,  4],
       [ 0,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [33]:
arr[arr > 8] = 100
arr

array([[  1,   2,   3,   4],
       [  0,   6,   7,   8],
       [100, 100, 100, 100],
       [100, 100, 100, 100]])

In [34]:
arr[:, 2:] = 99
arr

array([[  1,   2,  99,  99],
       [  0,   6,  99,  99],
       [100, 100,  99,  99],
       [100, 100,  99,  99]])

* 아래와 같이 각각의 값으로 변경하는 경우, 변경하고자 하는 배열의 크기와 바꾸고자 하는 배열의 크기가 동일해야 함

In [35]:
arr[2:, :2] = [[-1, -2], [-3, -4]]
arr

array([[ 1,  2, 99, 99],
       [ 0,  6, 99, 99],
       [-1, -2, 99, 99],
       [-3, -4, 99, 99]])

#### Q3. 다음과 같은 행렬이 주어졌을 때, 가운데 행과 열을 1로 바꾸는 코드를 아래 셀에 작성하시오.

In [36]:
Q3 = np.zeros((5, 5))
Q3

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [37]:
### Your Code ###

In [104]:
Q3[:, 2] = 1
Q3[2, :] = 1
Q3

array([[0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0.],
       [1., 1., 1., 1., 1.],
       [0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0.]])

## Array shape

* Numpy 배열의 상태를 확인하는 방법은 아래와 같다.
    * 배열이 다차원일 경우 Indexing 혹은 Slicing을 통해 해당 차원의 크기를 확인할 수 있다.

In [38]:
arr = np.arange(1, 17)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16])

In [39]:
print(f'행의 길이: {len(arr)}')
print(f'요소의 수: {arr.size}')
print(f'배열의 크기: {arr.shape}')  # tuple 자료형
print(f'배열의 차원: {arr.ndim}')

행의 길이: 16
요소의 수: 16
배열의 크기: (16,)
배열의 차원: 1


* 2차원 이상일 때, len(arr[0])를 사용하면 열의 길이를 구할 수 있다.

### Reshape

* 주어진 Numpy 배열에 reshape 함수를 사용하여 허용되는 크기 내에서 크기 변경이 가능
    * 가령 주어진 array의 크기가 (12, )일 경우 (3, 4), (6, 2), (12, 1) 등으로 변경 가능
    * -1을 사용할 경우, -1을 사용하지 않은 나머지 축에 맞춰서 자동으로 크기가 할당
        * (-1, 4)를 사용한다면 (3, 4), (6, -1)을 사용한다면 (6, 2)가 됨
        * (-1)을 사용하면 1차원이 됨
* 변경된 array는 기존 및 새로운 변수에 할당이 가능

* 4 x 4 크기의 배열로 변경

In [40]:
arr44 = arr.reshape(4, 4)
print(arr44)
print()
print(f'행의 길이: {len(arr44)}')
print(f'열의 길이: {len(arr44[0])}')
print(f'배열의 크기: {arr44.shape}')
print(f'배열의 차원: {arr44.ndim}')

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]]

행의 길이: 4
열의 길이: 4
배열의 크기: (4, 4)
배열의 차원: 2


* 8 x 2 크기의 배열로 변경

In [41]:
arr88 = arr.reshape(8, 2)
print(arr88)
print()
print(f'행의 길이: {len(arr88)}')
print(f'열의 길이: {len(arr88[0])}')
print(f'배열의 크기: {arr88.shape}')
print(f'배열의 차원: {arr88.ndim}')

[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]
 [11 12]
 [13 14]
 [15 16]]

행의 길이: 8
열의 길이: 2
배열의 크기: (8, 2)
배열의 차원: 2


* 16 x 1 크기의 배열로 변경

In [42]:
arr161 = arr.reshape(16, 1)
print(arr161)
print()
print(f'행의 길이: {len(arr161)}')
print(f'열의 길이: {len(arr161[0])}')
print(f'배열의 크기: {arr161.shape}')
print(f'배열의 차원: {arr161.ndim}')

[[ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]
 [11]
 [12]
 [13]
 [14]
 [15]
 [16]]

행의 길이: 16
열의 길이: 1
배열의 크기: (16, 1)
배열의 차원: 2


#### Q4. 다음과 같은 길이 45짜리 행렬이 주어졌을 때, 크기를 9 x 5 x 1로 바꿔 출력 후, 크기를 확인하는 코드를 아래 셀에 작성하시오.

In [43]:
Q4 = np.zeros(45)
print(Q4.shape)
Q4

(45,)


array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [44]:
### Your Code ###

In [106]:
Q4.reshape(9, 5, 1).shape

(9, 5, 1)

## Operation

* 앞서 설명하였듯이 Numpy 배열은 빠르고 간단하게 연산을 수행할 수 있다.
    * 이는 반복문을 사용하지 않고 배열의 모든 원소에 대해 연산을 처리할 수 있다. 
    * 이를 벡터화 연산(vectorized operation)이라고 한다.
* 일반적으로 연산을 하고자 하는 배열들의 크기는 모두 동일해야 한다.

### Addition

* arr1 + arr2 혹은 np.add(arr1, arr2)의 형태로 사용
    * add() 함수는 파라미터를 2개밖에 받지 못하기 때문에 일반적으로는 "+"를 사용하여 연산

In [45]:
A = np.arange(1, 10, 2)
B = np.array([1, 1, 1, 1, 1])
np.add(A, B)

array([ 2,  4,  6,  8, 10])

In [46]:
A = np.array([[1, 5], [4, 2]])
B = np.array([[1, 3], [2, 7]])
C = np.array([[4, 7], [7, 4]])
A + B + C

array([[ 6, 15],
       [13, 13]])

### Subtraction

* arr1 - arr2 혹은 np.subtract(arr1, arr2)의 형태로 사용
    * subtract() 함수는 파라미터를 2개밖에 받지 못하기 때문에 일반적으로는 "-"를 사용하여 연산

In [47]:
A = np.arange(1, 10, 2)
B = np.array([1, 1, 1, 1, 1])
np.subtract(A, B)

array([0, 2, 4, 6, 8])

In [48]:
A = np.array([[1, 5], [4, 2]])
B = np.array([[1, 3], [2, 7]])
C = np.array([[4, 7], [7, 4]])
A - B - C

array([[-4, -5],
       [-5, -9]])

### Multiplication

* arr1 * arr2 혹은 np.multiply(arr1, arr2)의 형태로 사용
    * multiply() 함수는 파라미터를 2개밖에 받지 못하기 때문에 일반적으로는 "*"를 사용하여 연산

In [49]:
A = np.arange(1, 10, 2)
B = np.arange(1, 6)
np.multiply(A, B)

array([ 1,  6, 15, 28, 45])

In [50]:
A = np.array([[1, 5], [4, 2]])
B = np.array([[2, 3], [2, 7]])
C = np.array([[4, 7], [10, 4]])
A * B * C

array([[  8, 105],
       [ 80,  56]])

### Division

* arr1 / arr2 혹은 np.divide(arr1, arr2)의 형태로 사용
    * divide() 함수는 파라미터를 2개밖에 받지 못하기 때문에 일반적으로는 "/"를 사용하여 연산
    * 파이썬 연산자인 "//"도 사용 가능, 대신 타입이 정수형으로 변경

In [51]:
A = np.arange(2, 11, 2)
B = np.full((1, 5), 2)  # 주어진 크기로 입력받은 수로 채우는 함수
np.divide(A, B)

array([[1., 2., 3., 4., 5.]])

In [52]:
A = np.array([[1, 5], [4, 20]])
B = np.array([[2, 10], [2, 5]])
C = np.array([[4, 5], [10, 4]])
A / B / C

array([[0.125, 0.1  ],
       [0.2  , 1.   ]])

In [53]:
A // B // C

array([[0, 0],
       [0, 1]], dtype=int32)

#### Q5. 다음과 같이 a, b, c, d가 주어졌을 때, 연산 함수를 이용하여 (a+b)*c) - d를 구하는 코드를 아래 셀에 작성하시오.

In [54]:
a = np.array([1,3])
b = np.array([1,1])
c = np.array([2,1/2])
d = np.array([1,1])

In [55]:
### Your Code ###

In [110]:
np.subtract(np.multiply(np.add(a, b), c), d)

array([3., 1.])

### Broadcasting

* 앞서 언급한 것처럼 연산하고자 하는 배열들의 크기는 서로 동일해야 하지만 Numpy 배열은 동일하지 않아도 연산이 가능하게 해줌
* 크기가 작은 배열 혹은 값을 크기가 큰 배열로 자동으로 확장시켜 맞춰줌

<img src="http://www.astroml.org/_images/fig_broadcast_visual_1.png">

In [56]:
A = np.arange(1, 11).reshape(10, -1)
A

array([[ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10]])

In [57]:
A + 5

array([[ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11],
       [12],
       [13],
       [14],
       [15]])

In [58]:
A * 3

array([[ 3],
       [ 6],
       [ 9],
       [12],
       [15],
       [18],
       [21],
       [24],
       [27],
       [30]])

In [59]:
B = np.ones(1)
B

array([1.])

In [60]:
A + B

array([[ 2.],
       [ 3.],
       [ 4.],
       [ 5.],
       [ 6.],
       [ 7.],
       [ 8.],
       [ 9.],
       [10.],
       [11.]])

#### Q6. 다음과 같이 행벡터가 주어졌을 때, 행벡터를 열벡터로 하는 벡터를 만들어 두 벡터의 곱을 구하는 코드를 아래 셀에 작성하시오.

In [61]:
Q6R = np.arange(1, 11)
Q6R

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [62]:
### Your Code ###

In [115]:
Q6C = Q6R.reshape(10, -1)
Q6R * Q6C

array([[  1,   2,   3,   4,   5,   6,   7,   8,   9,  10],
       [  2,   4,   6,   8,  10,  12,  14,  16,  18,  20],
       [  3,   6,   9,  12,  15,  18,  21,  24,  27,  30],
       [  4,   8,  12,  16,  20,  24,  28,  32,  36,  40],
       [  5,  10,  15,  20,  25,  30,  35,  40,  45,  50],
       [  6,  12,  18,  24,  30,  36,  42,  48,  54,  60],
       [  7,  14,  21,  28,  35,  42,  49,  56,  63,  70],
       [  8,  16,  24,  32,  40,  48,  56,  64,  72,  80],
       [  9,  18,  27,  36,  45,  54,  63,  72,  81,  90],
       [ 10,  20,  30,  40,  50,  60,  70,  80,  90, 100]])

## Dimension reduction

* 다음과 같은 데이터가 주어졌을 때, 각 성적에 대한 평균 혹은 학생들의 평균 등, 행 또는 열에 따라 값을 구하는 방법을 차원 축소(dimension reduction) 연산이라고 함
* 행과 열에 대한 계산은 축에 따라 계산되며, 축을 지정하지 않으면 전체에 대해 계산됨
    * 축을 음수로 사용할 경우 가장 큰 축이 기준이 됨
        * 가령 3차원일 경우 axis=-1은 axis=2, axis=-2는 axis=1, axis=-3은 axis=0이 됨
* 데이터 분석을 할 때 특정 값들을 처리할 수 있음

||A|B|C|D|
|--|--|--|--|--|
|국어|97|78|43|53|
|영어|78|65|57|68|
|수학|100|98|36|59|
|탐구|35|50|7|46|

<img src="https://hyemin-kim.github.io/images/S-Python-Numpy1/n_array.png">

In [63]:
scores = np.array([[97, 78, 43, 53], [78, 65, 57, 68], [100, 98, 36, 59], [35, 50, 7, 46]])
scores

array([[ 97,  78,  43,  53],
       [ 78,  65,  57,  68],
       [100,  98,  36,  59],
       [ 35,  50,   7,  46]])

### Mean

* 학생들의 평균

In [64]:
students_mean = scores.mean(axis=0)
print(f'A의 평균: {students_mean[0]}')
print(f'B의 평균: {students_mean[1]}')
print(f'C의 평균: {students_mean[2]}')
print(f'D의 평균: {students_mean[3]}')

A의 평균: 77.5
B의 평균: 72.75
C의 평균: 35.75
D의 평균: 56.5


* 과목들의 평균

In [65]:
subjects_mean = scores.mean(axis=1)
print(f'국어 평균: {subjects_mean[0]}')
print(f'영어 평균: {subjects_mean[1]}')
print(f'수학 평균: {subjects_mean[2]}')
print(f'탐구 평균: {subjects_mean[3]}')

국어 평균: 67.75
영어 평균: 67.0
수학 평균: 73.25
탐구 평균: 34.5


### Standard deviation

* 과목들의 표준 편차

In [66]:
subjects_std = scores.std(axis=1)
print(f'국어 표준 편차: {round(subjects_std[0], 2)}')
print(f'영어 표준 편차: {round(subjects_std[1], 2)}')
print(f'수학 표준 편차: {round(subjects_std[2], 2)}')
print(f'탐구 표준 편차: {round(subjects_std[3], 2)}')

국어 표준 편차: 21.16
영어 표준 편차: 7.52
수학 표준 편차: 27.01
탐구 표준 편차: 16.8


#### Q7. 다음과 같이 행과 열이 바뀐 전치 행렬이 주어졌을 때, 학생들과 과목들의 평균 및 표준 편차를 구하는 코드를 아래 셀에 작성하시오. 

In [67]:
Q7 = scores.T
Q7

array([[ 97,  78, 100,  35],
       [ 78,  65,  98,  50],
       [ 43,  57,  36,   7],
       [ 53,  68,  59,  46]])

In [116]:
print('학생들의 평균')
Q7_mean = Q7.mean(axis=1)
print(f'A의 평균: {Q7_mean[0]}')
print(f'B의 평균: {Q7_mean[1]}')
print(f'C의 평균: {Q7_mean[2]}')
print(f'D의 평균: {Q7_mean[3]}')

print('\n과목들의 평균')
Q7_mean = Q7.mean(axis=0)
print(f'국어 평균: {Q7_mean[0]}')
print(f'영어 평균: {Q7_mean[1]}')
print(f'수학 평균: {Q7_mean[2]}')
print(f'탐구 평균: {Q7_mean[3]}')

print('\n과목들의 표준 편차')
Q7_std = Q7.std(axis=0)
print(f'국어 표준 편차: {round(Q7_std[0], 2)}')
print(f'영어 표준 편차: {round(Q7_std[1], 2)}')
print(f'수학 표준 편차: {round(Q7_std[2], 2)}')
print(f'탐구 표준 편차: {round(Q7_std[3], 2)}')

학생들의 평균
A의 평균: 67.75
B의 평균: 67.0
C의 평균: 73.25
D의 평균: 34.5

과목들의 평균
국어 평균: 77.5
영어 평균: 72.75
수학 평균: 35.75
탐구 평균: 56.5

과목들의 표준 편차
국어 표준 편차: 25.95
영어 표준 편차: 17.63
수학 표준 편차: 18.24
탐구 표준 편차: 8.08


### min and max

* 최솟값과 최댓값 반환

In [69]:
print(f'가장 낮은 점수: {scores.min()}')
print(f'가장 높은 점수: {scores.max()}')

가장 낮은 점수: 7
가장 높은 점수: 100


### argmin and argmax

* 최솟값과 최댓값의 index를 반환
    * axis를 정의하지 않으면 1차원 상태에서의 index가 반환
* np.bincount()와 argmax()를 사용하면 최빈값 추출 가능
    * 단 bincount()를 사용하려면 배열의 차원이 1차원이어야 함
    * 최빈값의 추출은 범주형 데이터 처리에 적합

In [70]:
print(f'가장 낮은 점수의 위치: {scores.argmin()}')
print(f'가장 높은 점수의 위치: {scores.argmax()}')

가장 낮은 점수의 위치: 14
가장 높은 점수의 위치: 8


In [71]:
np.bincount(scores.reshape(-1)).argmax()

78

### sum()

* axis를 지정하지 않으면 전체 값에 대한 합 반환
    * axis를 지정하면 axis에 따른 합 반환

In [72]:
print(f'전체 합: {scores.sum()}')
print(f'행 합: {scores.sum(axis=1)}')
print(f'열 합: {scores.sum(axis=0)}')

전체 합: 970
행 합: [271 268 293 138]
열 합: [310 291 143 226]


#### Q8. sum()을 사용하여 과목들의 평균을 구하는 코드를 아래 셀에 작성하시오. 

* 평균 = 구하고자 하는 카테고리 데이터의 합 / 구하고자 하는 카테고리 데이터의 수
* Hint
    * 모든 데이터가 제대로 주어졌다고 가정했을 때 각 과목의 데이터의 수는 모두 같다.

In [74]:
Q8 = scores.sum(axis=1)/len(scores[0])
print(f'국어 평균: {Q8[0]}')
print(f'영어 평균: {Q8[1]}')
print(f'수학 평균: {Q8[2]}')
print(f'탐구 평균: {Q8[3]}')

국어 평균: 67.75
영어 평균: 67.0
수학 평균: 73.25
탐구 평균: 34.5
