# Numpy
> 데이터분석에서 데이터 관련 작업을 한다면 무조건 사용하는 numpy에 대해서 알아보겠습니다.

> - 배열 vs 리스트
> - 배열 다루기
> - numpy 사용법
> - 난수 발생

## Numpy 배열
파이썬에서는 자체적으로 배열 자료형을 제공하지 않습니다. 그 대신 리스트 자료형을 제공하여 자유자래로 사용할 수 있습니다.

- 배열 vs 리스트
| 리스트 | 배열 |
| --- | --- |
| 원소들의 자료형이 다양함 | 모든 원소가 같은 자료형이어야 한다 |
| 원소의 갯수 변화가 자유롭다 | 원소의 갯수를 바꿀 수 없다 |
| 속도가 느리고 메모리를 많이 차지한다 | 적은 메모리로 많은 데이터를 빠르게 처리할 수 있다 |

 파이썬에서 배열 자료형을 사용하기 위해서는 다른 패키지를 임포트해야합니다.
 가장 많이 사용하는 패키지가 바로 넘파이(Numpy)입니다.
 
 수치해석용 라이브러리인 넘파이는 다차원 배열 자료구조 클래스인 ```ndarray```지원합니다.
 또한 벡터와 행렬을 사용하는 선형대수 계산에 주로 사용됩니다.
 
 넘파이의 배열 연산은 C로 구현된 내부 반복문을 사용하기 때문에 일반적인 파이썬 반복문에 비해 속도가 빠르며 벡터화 연산(vectorized operation)을 이용하여 간단한 코드로도 복잡한 선형 대수 연산을 수행할 수 있습니다. 또한 배열 인덱싱을 사용한 질의를 이용하여 간단한 코드로도 복잡한 수식을 계산할 수 있습니다.

In [2]:
import numpy as np

In [3]:
# 1차원 배열 만들기
ar = np.array([0,1,2,3,4,5,6,7,8,9])
ar

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [4]:
type(ar)

numpy.ndarray

```ndarray``` 객체는 C언어의 배열처럼 연속적인 메모리 배치를 가지기 때문에 모든 원소가 같은 자료형이어야합니다.

제한사항이 있지만 원소에 대한 접근과 반복문 실행이 빨라집니다.

### Vectorized Operation
배열 객체는 배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리하는 벡터화 연산(vectorized operation)을 지원합니다.

In [5]:
data = [1,2,3,4,5,6,7,8,9]

In [8]:
answer = []
for di in data:
    answer.append(2*di)
print(answer)
# 혹은
answer2 = [2*di for di in data]
print(answer2)

[2, 4, 6, 8, 10, 12, 14, 16, 18]
[2, 4, 6, 8, 10, 12, 14, 16, 18]


In [9]:
#하지만 벡터화 연산에서는
x = np.array(data)
2 * x


array([ 2,  4,  6,  8, 10, 12, 14, 16, 18])

In [10]:
# 덧셈
a = np.array([1,2,3])
b = np.array([10,20,30])
a + b

array([11, 22, 33])

각 인덱스의 원소끼리 행렬 연산이 됩니다.

In [11]:
a == 2

array([False,  True, False])

In [12]:
b > 10

array([False,  True,  True])

In [13]:
(a == 2) & (b> 10)

array([False,  True, False])

### 2차원 배열
```ndarray``` : ```N-dimensional Array```

```ndarray``` 는 다차원배열 자료구조를 지원합니다.

- 2차원 배열 : 행렬(matrix)
    - 행(row): 가로줄
    - 열(column) : 세로줄


In [14]:
c = np.array([[0,1,2],[3,4,5]])
c

array([[0, 1, 2],
       [3, 4, 5]])

In [16]:
#행의 개수
len(c)

2

In [17]:
#열의 개수
len(c[0])

3

In [18]:
# 연습문제
q1 = np.array([[10,20,30,40],[50,60,70,80]])
q1

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

### 3차원 배열
3차원 배열은 가장 바깥쪽 리스트의 길이부터 가장 안쪽 리스트 길이의 순서로 표시합니다.

2x3x4 

In [20]:
d = np.array([[[1,2,3,4],
              [5,6,7,8],
             [9,10,11,12]],
             [1,2,3,4],
             [5,6,7,8],
             [1,2,3,4]])
d

  d = np.array([[[1,2,3,4],


array([list([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]),
       list([1, 2, 3, 4]), list([5, 6, 7, 8]), list([1, 2, 3, 4])],
      dtype=object)

### 배열의 차원과 크기 알아내기
- ```ndim``` : 배열의 차원
- ```shape``` : 배열의 크기

In [21]:
a = np.array([1,2,3])
print(a.ndim)
print(a.shape)

1
(3,)


In [22]:
c = np.array([[0,1,2],[3,4,5]])
print(c.ndim)
print(c.shape)

2
(2, 3)


### 배열의 인덱싱
1차원 배열의 인덱싱은 리스트의 인덱싱과 같은 방식입니다.

In [25]:
a = np.array([0,1,2,3,4])
print(a[2])
print(a[3:5])

2
[3 4]


다차원 배열일 때는 다음과 같이 ,를 사용하여 접근할 수 있습니다.

콤마로 구분된 차원을 축(axis)라고도 합니다. 그래프의 x축과 y축을 떠올리면 됩니다.

In [27]:
a = np.array([[0,1,2],[3,4,5]])
a

array([[0, 1, 2],
       [3, 4, 5]])

In [28]:
a[0,0]

0

In [29]:
a[0,1]

1

In [30]:
a[1,2]

5

In [31]:
a[-1,-1]

5

### 배열 슬라이싱
배열의 원소 중 복수개를 접근하려면 일반적인 파이썬 슬라이싱과 콤마를 함께 사용하면 됩니다.


In [32]:
a = np.array([[0,1,2,3],[4,5,6,7]])
a

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [33]:
a[0,:]

array([0, 1, 2, 3])

In [34]:
a[:,1]

array([1, 5])

In [35]:
a[1,1:]

array([5, 6, 7])

In [36]:
a[:2,:2]

array([[0, 1],
       [4, 5]])

### 배열 인덱싱
> **Fancy indexing**
: numpy 배열의 특징 중 하나인 fancy indexing은 인덱싱이라는 이름이 붙었지만 사실은 데이터베이스의 질의 기능을 수행합니다. 배열 인덱싱에서는 대괄호 안의 인덱스 정보로 숫자나 슬라이스가 아니라 위치 정보를 나타내는 또 다른 ```ndarray```를 받을 수 있습니다.
- 방식
    - Boolean 배열
    - 정수 배열

##### Boolean 배열 인덱싱
인덱스 배열의 원소가 True, False 두 값으로만 구성되며 인덱스 배열의 크기가 원래 ndarray 객체의 크기와 같아야 합니다.

In [39]:
a = np.array([1,2,3,4,5,6,7])
idx = np.array([True, False, True, False, True, False, True])
a[idx]

# True에 해당하는 인덱스의 값만 인덱싱된다

array([1, 3, 5, 7])

In [40]:
a % 2

array([1, 0, 1, 0, 1, 0, 1])

In [41]:
a % 2 == 0

array([False,  True, False,  True, False,  True, False])

In [42]:
a[a%2==0]

array([2, 4, 6])

##### 정수 배열 인덱싱
인덱스 배열의 원소 각각이 원래 ```ndarray```객체 원소 하나를 가리키는 인덱스 정수여야한다.

In [43]:
a = np.array([1,2,3,4,5,6,7,8])
idx = np.array([0,2,4,6])
a[idx]

array([1, 3, 5, 7])

Boolean 배열 인덱싱과 다른점은 배열 인덱스의 크기가 원래의 배열 크기와 달라도 상관없다는 점입니다. 같은 원소를 반복해서 가리키는 경우에는 배열 인덱스가 원래의 배열보다 더 커지기도 합니다.

In [45]:
a = np.array([1,2,3,4,5,6,7,8,9])
idx = np.array([0,0,0,0,1,1,1,1,1,1,2,3,4])
a[idx]

array([1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 4, 5])

In [46]:
# 다차원 배열에서도 가능
a = np.array([[1,2,3,4],[5,6,7,8]])
a

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [47]:
a[:,[True, False, False, True]]

array([[1, 4],
       [5, 8]])