# **Chapter 1 배열과 인덱싱**

![4numpy_1-1.jpg](attachment:bec6c222-b21d-4092-8151-a9477c4b07cb.jpg)

### **1. Numpy 의 유래**
> Numpy는 Numerical(Num) + Python(Py)의 약자로 두가지 단어가 합쳐져 이름이 지어졌습니다.   
이름에서 알 수 있듯 숫자를 다루기 위해 태어난 파이썬 패키지인데요.   
아래 그림과 그림이나 신호 데이터는 데이터 분석을 위해 컴퓨터는 숫자의 형태로 데이터를 변환합니다.   


세상에 존재하는 많은 데이터는 모두 **"숫자들의 집합"** 으로 표현이 될 수 있습니다.   
이렇게 많은 숫자 데이터를 하나의 변수에 넣을 때 리스트는 속도가 느리고 많은 양의 메모리를 차지한다는 단점이 있습니다.   
Numpy에서는 이를 대체하기 위해 **배열(array)** 을 사용하여 많은 데이터를 빠르게 처리할 수 있습니다.  
<!-- 배열은 list와 유사하지만 아래와 같은 이유로 다릅니다.
- 모든 원소는 같은 자료형이다.
- 배열 안의 원소의 수는 바뀔 수 없다. -->
Numpy의 배열(array)는 python에서 자체적으로 제공하는 list에 비해 여러가지 장점을 가지고 있지만, 가장 강력한 장점은 배열을 사용한 자유로운 연산과 변환이라는 것에 있습니다.

위 그림은 1차원, 2차원, 3차원 array를 보여주고 있습니다.   
이러한 숫자들의 N차원 배열을 다루기 위해 특별히 만들어진 것 패키지가 바로 **Numpy** 입니다.   
이제부터는 예시를 통해 직접 해보겠습니다.

#### 배열을 사용하기 위해서는 **import numpy as np** 로 패키지를 불러옵니다. 

In [2]:
# numpy 패키지를 np로 축약하여 import 합니다.
import numpy as np

- 이러한 Numpy는 기본적인 숫자 데이터도 처리하는데 활용합니다. 
1. 루트 계산하기 : np.sqrt(2)
2. 파이 출력하기 : np.pi
3. sin, cos 값 활용하기

In [3]:
print(np.sqrt(2))
print(np.pi)
print(np.sin(np.pi/2))

1.4142135623730951
3.141592653589793
1.0


### **2. Numpy array 시작하기** 
아래 예시와 같이 array 함수에 리스트를 넣으면 ndarray 형식, 배열로 변환해줍니다.  
```python
arr = np.array([1,2,3,4,5,6,7,8,9,10])
print(arr) # [ 1  2  3  4  5  6  7  8  9 10]
```
참고: python에서 list를 만들때는 다음과 같이 만들었습니다.
```python
arr = [1,2,3,4,5,6,7,8,9,10]
print(arr) # [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
```

In [4]:
# 예제 1: 원소의 개수가 10개인 1차원 배열 만들기
arr = np.array([1,2,3,4,5,6,7,8,9,10]) # 배열을 만들고 arr에 저장해줍니다. 
print(arr)
print(type(arr)) # 배열을 저장한 arr의 자료형을 출력합니다. (ndarray 형식이라는 것을 확인할 수 있습니다.)

[ 1  2  3  4  5  6  7  8  9 10]
<class 'numpy.ndarray'>


<a href='#jce-judge/open/f-gnpeRK8g4' target='_self'><h3>넘파이 기초 1 - 배열 생성</h3></a>


### **3. Numpy array의 원소 가져오기** 
numpy의 array는 python의 list와 같이 index를 활용해서 원소값을 가져올 수 있습니다.  
index는 python과 마찬가지로 0에서부터 시작합니다.

In [5]:
print(arr[0])
print(arr[5])

1
6


### **4. 2차원 배열 만들기**
ndarray는 말그대로 N-Dimensional Array의 약자로 N차원 배열 자료 구조를 지원합니다.  
2차원 배열은 **행렬**을 의미합니다. 가로줄은 행(row), 세로줄은 열(column)을 뜻하죠.  
[[1,2,3],[4,5,6]] 행렬을 출력하면 2개의 행과 3개의 열을 가지는 행렬이 출력됩니다. 

In [6]:
#예제 2 : 2차원 배열 출력하기
a = np.array([[1,2,3],[4,5,6]])
print(a)

[[1 2 3]
 [4 5 6]]


행과 열의 갯수를 출력할 때는 len 함수를 활용합니다.   
> len(a) : 행의 갯수, len(a[0]) : 열의 갯수

차원과 크기를 출력하기 위해서는 ndim 함수와 shape 함수를 사용합니다. 
> a.ndim : 2, a.shape(2,3)

In [7]:
# 예제 3: 2차원 배열의 행과 열의 갯수, 차원, 크기 출력하기 
print(len(a), len(a[0]))
print(a.ndim)
print(a.shape)

2 3
2
(2, 3)


### **5. 2차원 배열의 원소 가져오기**
2차원 배열의 원소를 가져올때는 아래와 같이 python처럼 가져올 수 있지만, numpy는 더 유동적인 index를 제공합니다.
```python
a = np.array([[1,2,3],[4,5,6]])
a[0][1] # 2
```

In [9]:
# 예제 4: 2차원 배열에서 특정 원소 가져오기
a = np.array([[1,2,3],[4,5,6]])
print(a[1, 1])  # 리스트는 a[0][1]과 같이 가져오는 것과 달리 numpy에서는 동일한 값을 a[0,1]로 가져오는 것도 가능합니다. 

5


### **6. 2차원 배열의 자르기**
numpy의 배열은 데이터가 차원이 높아질수록 강력해집니다. numpy가 강력해질 수 있었던 개념인 slicing을 소개합니다. python에서 배열을 index로 자를 수 있었던건 `:` 연산자 때문이었습니다. `:`연산자는 다음과 같이 사용됩니다.
```python
a = [1,2,3]
print(a[:2]) # [1, 2]
```

하지만 이러한 `:` 연산자를 2차원 이상의 리스트에 적용할 수 있을까요? 예를들어 우리가 `[[1, 2, 3], [4, 5, 6]]` 으로부터 `[[1, 2], [4, 5]]`를 추출하려고 한다고 해봅시다.   
한줄의 코드로 가능할까요? Python에서는 아래 코드처럼 두줄로 배열을 추출할수는 있겠죠.   
하지만 차원이 복잡할수록, 데이터의 수가 많아질수록 기존의 python에 존재하던 list로는 연산하기 복잡한 것들이 많아질 것입니다.
```python
a = [[1,2,3], [4, 5, 6]]
print(a[0][:2]) # [1, 2]
print(a[1][:2]) # [4, 5]
```

2차원 배열의 원소를 가져올때는 아래와 같이 python처럼 가져올 수 있지만, numpy는 더 유동적인 index를 제공합니다. 우선 코드를 다음과 같이 짤 수 있습니다.
```python
a = np.array([[1,2,3],[4,5,6]])
print(a[:, :2])
"""
[[1 2]
 [4 5]]
"""
```
한번 직접 해볼까요?

In [1]:
a = [1,2,3]
print(a[:2])

[1, 2]


In [15]:
# 예제 5: 2차원 배열에서 일부분 추출하기
a = np.array([[1,2,3], [4, 5, 6]])
print(a[:2, :1])

[[1]
 [4]]


아래의 예시처럼, numpy는 python과는 다른 특이한 인덱스를 사용합니다. 코드를 뜯어볼까요?
```python
a = np.array([[1,2,3], [4, 5, 6]])
print(a[:, :2])
```
인덱스를 나타내는 대괄호 안의 값들은 다음처럼 인식될 수 있어요.

![Numpy1-6.png](attachment:b23004f6-1531-4d39-8bd5-ca6ae48ce329.png)

인덱스는 해당 배열의 차원의 갯수만큼 오고, 인덱스는 `,`로 구분돼요.

각 차원에 올 수 있는 인덱스의 경우의 수는 다음과 같아요.
* `:`가 온다면 이는 관용적으로 **처음부터 끝까지의 모든 인덱스**를 의미해요. 
* `:end`가 온다면 이는 **처음부터 `end`미만의 모든 인덱스**를 의미해요.
* `start:`가 온다면 이는 **`start`부터 끝까지의 모든 인덱스**를 의미해요.
* `start:end`가 온다면 이는 **`start`부터 `end`미만의 모든 인덱스**를 의미해요.

즉, 위에 저희가 예시로 든 인덱스는 다음과 같이 해석될 수 있는거죠. (아, end까지는 곧 end - 1 이하의 인덱스를 의미하는거 알죠? 모른다면 python의 slice 개념을 다시 배우는걸 추천해요.)

![Numpy1-5.png](attachment:9a7fb98a-7565-468c-a0c5-987cf254f75b.png)

이걸 다시 그림으로 표현하면 다음과 같아요.

![Numpy 1-7.png](attachment:5cd55238-b1ad-4bf9-b04f-86f09b7940c3.png)


In [16]:
# 예제 6: 2차원 배열에서 인덱싱 및 슬라이싱 하기
import numpy as np
arr = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])  # shape가 (4,2)인 2차원 배열을 생성합니다. 
print(arr[0:4, 0:1]) # 1차원 인덱스 0~3, 2차원 인덱스 0  -> 앞에서 네번째까지의 행에서 각각 첫번째 열 값을 가져옵니다. 
print(arr[1:3, 0:2]) # 1차원 인덱스 1~2, 2차원 인덱스 0~1  -> 2, 3번째 행에서 각각 첫번째, 두번째 열 값을 가져옵니다. 

[[1]
 [3]
 [5]
 [7]]
[[3 4]
 [5 6]]


앞서 배운 내용을 바탕으로 예시 문제를 풀어볼까요?
<a href='#jce-judge/open/5KAabSatPt0' target='_self'><h3>넘파이 기초 2 - 인덱싱 및 슬라이싱</h3></a>
