# B. Numpy 개요

**Numpy**는 Python을 대표하는 패키지 중 하나로, 다차원의 데이터를 효율적으로 다루게 해주는 패키지입니다.  
Numpy에서의 Array는 **수를 다루기 위한 자료구조**로, list보다 데이터 처리를 훨씬 빠르고 효율적으로 할 수 있습니다.  
이번 Section에서는 Numpy를 이용해 효율적으로 데이터를 처리하는 방법을 살펴보겠습니다. 

### _Objective_
1. **Numpy 불러오기** : Numpy 패키지를 불러와서 활용하는 방법을 배웁니다. 
2. **List와 Numpy Array 비교하기** : Numpy array를 이용한 인덱싱, 집계연산, 요소별 연산 등의 사례를 살펴봅니다.

# \[ 1. Numpy 불러오기\]

Numpy를 쓰기 위해서는 Numpy패키지를 호출해야 합니다. 

In [1]:
import numpy as np

`np.array()`를 이용하면 list 로 만들어진 자료 구조를 Numpy Array로 바꾸어 생성할 수 있습니다. 

In [2]:
np_array = np.array([10, 12])
print(type(np_array))

<class 'numpy.ndarray'>


### 예제 데이터 ) **학생들의 중간고사 성적표**

학생들의 성적표를 List와 Numpy로 각각 저장하여 동일한 작업을 할 때 어떻게 다르게 작동하는지 살펴보겠습니다.<br>


| 학생 번호 | 과학 | 영어 | 수학 | 
|  ----   | --- |---| --- |
|0 |80 |92 |70 |
|1 |91 |75 |90|
|2 |86 |76 |42 |
|3 |77 |92 |52 |
|4 |75 |85 |85 | 
|5 |96 |90 |95 |

비교를 위해 우선 위의 성적표를 list와 Numpy Array로 정리해야 합니다.  
6명의 성적표는 학생 별로 성적을 묶어서 아래와 같이 정의할 수 있습니다.

In [3]:
# list로 표현된 학생들의 성적표
scores_list = [
    [80, 92, 70],
    [91, 75, 90],
    [86, 96, 42],
    [77, 92, 52],
    [75, 85, 85],
    [96, 90, 95]
]

# np.array로 표현된 학생들의 성적
scores_np = np.array([
    [80, 92, 70],
    [91, 75, 90],
    [86, 96, 42],
    [77, 92, 52],
    [75, 85, 85],
    [96, 90, 95]
])

<hr>

# \[ 2. List와 Numpy Array 비교하기\]

현재 까지는 Numpy Array는 list와 매우 유사해 보입니다.  
- **인덱스로 원하는 요소 가져오기**
- **집계 연산하기**
- **요소별 연산하기** 

등의 기본적인 기능이 작동하는 방식을 list와 비교해 보면서 Numpy의 필요성을 이해해 봅시다. 

## 1. 인덱싱 방법 비교
- List와 Numpy Array의 인덱싱을 비교하며 그 차이를 살펴봅시다.

### (1) 1번 학생의 성적

#### `list`

In [4]:
scores_list[0]

[80, 92, 70]

#### `np.array`

In [5]:
scores_np[0]

array([80, 92, 70])

### (2) 1번부터 3번까지의 학생 성적

#### `list`

In [6]:
scores_list[1:4]

[[91, 75, 90], [86, 96, 42], [77, 92, 52]]

#### `np.array`

In [7]:
scores_np[1:4]

array([[91, 75, 90],
       [86, 96, 42],
       [77, 92, 52]])

### (3) 0, 4, 5번 학생 성적 가져오기
여기까지는 Numpy Array와 list의 차이가 거의 보이질 않습니다.  
**행 단위**(이 경우 학생 단위)의 개별 인덱싱이나 범위 인덱싱 방법은 거의 유사한 걸 확인했습니다.  
이번에는 **특정** 학생들의 성적을 가져와봅시다. 

#### `list`

In [8]:
scores_list[[0,4,5]] # 불가능

TypeError: list indices must be integers or slices, not list

위와 같은 방법으로는 불가능하고, 리스트에서 개별 인덱싱을 하여 각 학생의 성적을 가져온 후 이를 list로 합쳐야 합니다.  

In [9]:
[scores_list[0],scores_list[4],scores_list[5]]

[[80, 92, 70], [75, 85, 85], [96, 90, 95]]

#### `np.array`
한편, Numpy Array에서는 간단하게 **인덱스 리스트를 만들어** 기존의 Numpy Array에서 여러 행(이 경우 0, 4, 5번 학생들)의 성적을 가져올 수 있습니다. 

In [10]:
scores_np[[0,4,5]] # 훨씬 더 간단하게 가져올 수 있음

array([[80, 92, 70],
       [75, 85, 85],
       [96, 90, 95]])

### (4) 모든 학생들의 과학 성적
행 단위의 인덱싱을 살펴보았으니 이번에는 열 단위 인덱싱이 어떻게 되는지 살펴볼까요? 위의 성적 데이터에서 각 열은 과목을 나타냅니다. 역사 과목의 전체 성적을 가져와봅시다. 

#### `list`

list를 사용할 경우, 각 학생의 성적에 접근하여 0번째 과목인 과학의 성적을 가져와야 합니다.  
과학 성적을 모아 담을 `language_scores` 라는 빈 list 를 만든 후 `순회문`을 통해 각 학생의 과학 성적을 추가합니다.

In [11]:
science_scores = [] # 역사 성적을 모아 담을 리스트

for student_number, score in enumerate(scores_list):
    science_scores.append(score[0])

print('전체 학생의 과학 성적 =', science_scores)

전체 학생의 과학 성적 = [80, 91, 86, 77, 75, 96]


#### `np.array`

Numpy의 경우 `[]`안에 **학생(행)을 인덱싱하는 첫번째 자리**에는 전체 학생을 의미하는 `:`를 입력하고,  
**과목(열)을 가져오는 두 번째 자리**에는 과학 과목의 인덱스인 0을 입력합니다.  
이렇게 하면 전체 학생의 **과학 성적 리스트**를 손쉽게 가져올 수 있습니다. 

In [12]:
scores_np[:,0] 

array([80, 91, 86, 77, 75, 96])

## 2. 집계연산 비교
- List와 Numpy Array로 구현된 데이터의 집계연산 코드를 비교해 보겠습니다.

### (1) 학생별 전 과목 점수 총합

#### `list`

list는 각 학생의 성적을 가져와 각 학생의 성적 총합을 구하여 점수 총합 리스트에 추가해야 합니다. 

In [13]:
total_scores = [] # 각 학생의 성적 총합을 모아 담을 리스트

for score in scores_list:
    total_score = sum(score) # 각 학생의 성적 리스트 내 원소들의 총합 더하기
    total_scores.append(total_score) 
    
total_scores

[242, 256, 224, 221, 245, 281]

#### `np.array`
한편, Numpy에서는 한 줄 코드로 각 학생의 성적 총합을 구할 수 있습니다. 

In [14]:
scores_np.sum(axis=1) # 한줄로 작성할 수 있다.

array([242, 256, 224, 221, 245, 281])

## 3. 각 원소 별 연산 적용 비교
+ 원소 별 연산이란 List나 Array를 구성하는 각각의 **원소 별로** 값을 더하거나 빼는 등의 연산을 말합니다.

### (1) 학생별 성적 감점 표

#### `list`
list에서 각 점수를 100점에서 빼주는 연산을 하려면 순회문을 통해 리스트의 각 원소를 꺼내 연산을 적용한 후  
다시 list에 `append`하는 작업을 반복해야 합니다. 

In [15]:
miss_scores = []

for scores in scores_list:
    miss_score = []
    for score in scores:
        miss = 100-score # 100점 대비 몇점 틀렸는지 계산
        miss_score.append(miss)
    miss_scores.append(miss_score)
miss_scores

[[20, 8, 30], [9, 25, 10], [14, 4, 58], [23, 8, 48], [25, 15, 15], [4, 10, 5]]

#### `np.array`
Numpy Array에서는 아래와 같이 100에서 성적표 Array를 빼주면 모든 원소에 대해 `100-점수`라는 연산이 적용됩니다. 

In [16]:
100 - scores_np

array([[20,  8, 30],
       [ 9, 25, 10],
       [14,  4, 58],
       [23,  8, 48],
       [25, 15, 15],
       [ 4, 10,  5]])

이처럼 Numpy Array는 list와 유사하게 생겼지만 다양한 연산을 보다 간단한 코드로 적용할 수 있다는 강점을 가지고 있습니다.  
코드 작성에 드는 시간과 노력을 아껴줄 뿐만 아니라 실제 연산이 작동하는 시간 역시 훨씬 빠르기 때문에 대용량 데이터 연산일수록 Numpy가 널리 활용되고 있습니다.