# 1주차 스터디_Numpy
-----

## 1. Numpy 개념 및 특징

#### 1) Numpy 개념
- 기본적으로 array라는 자료구조를 제공하며 선형대수용 행렬, 벡터 수학 계산을 위한 자료구조와 계산 함수를 제공
- 보통 과학용 일반 함수 목록을 제공하는 SciPy, 차트용 라이브러리인 Matplotlib, 고수준 DataFrame 제공 모듈인 pandas와 함께 사용

#### 2) Numpy 특징
- 벡터, 메트릭스, 고수준의 배열은 과학계산 컴퓨팅에 있어 필수 도구라 할 수 있음
  - 입력 값 세트를 통해 계산이 반복될 때, 배열로 데이터를 나타내는 것이 자연스럽고 장점이 많음
  - 배열을 다루기 좋은 구조를 제공하는 라이브러리가 Numpy임
- Numpy의 핵심 기능은 C로 구현되어 있어 배열을 계산하고 처리하는데 효율적인 기능들을 제공하고, 속도 또한 빠름
  - 파이썬 프로그램이 일반적으로 C에 비해 느린 이유는 for 루프 때문인데, Numpy의 벡터 연산을 이용하면 for 루프 없이 빠르게 동작하는 코드를 작성할 수 있음
- 첫 눈에 보기에 Numpy 배열은 파이썬 리스트 데이터 구조와 유사해 보임
  - 하지만, 파이썬 리스트는 다양한 객체를 담을 수 있는 컨테이너
  - 반면, Numpy 배열은 동일한 자료형만 담을 수 있음

In [8]:
import numpy as np

-----------------------
## 2. Numpy 배열

- numpy의 기본 객체 = array(array의 값들은 동일한 타입)
- array의 차원을 rank라 하고, 각 차원의 크기를 튜플로 표시하는 것을 shape라고 함
 - ex) 2차원 array, 행=2, 열=3는 rank=2, shape=(2, 3)이 됨
- numpy array를 생성하는 방법
 - (1) 파이썬 리스트를 사용
 - (2) numpy에서 제공하는 함수를 사용

### 2.1. numpy array 만들기
 (1) array() 함수에 리스트를 넣어 numpy array를 생성

 (2) np.array([list]) : 바로 python list를 넣어 array 생성
 > `data = np.array(list data)`
  - `data = data.tolist()`  # array를 list로 변환

In [24]:
list1 = [7,2,9,10]
print(list1)
print(type(list1))

[7, 2, 9, 10]
<class 'list'>


In [26]:
array1 = np.array(list1)
print(array1)
print(type(array1))

[ 7  2  9 10]
<class 'numpy.ndarray'>


In [27]:
list2 = [[5.2,3.0,4.5], [9.1,0.1,0.3]]
print(list2)
print(type(list2))

[[5.2, 3.0, 4.5], [9.1, 0.1, 0.3]]
<class 'list'>


In [28]:
array2 = np.array(list2)
print(array2)
print(type(array2))

[[5.2 3.  4.5]
 [9.1 0.1 0.3]]
<class 'numpy.ndarray'>


#### 1) array의 형태(크기)
- `data.shape`
- shape 출력 방식 :
 - array - `data.shape`
 - list - `np.shape(data)`
> list1.shape  #list 데이터를 data.shape으로 출력한 경우
>> 출력 결과 => AttributeError: 'list' object has no attribute 'shape'

In [41]:
print(array1.shape)
print(array2.shape)

(4,)
(2, 3)


In [40]:
a = np.array([1,2,3,4])
print(a)
print(type(a))
print(a.shape)

b = np.array([[1,2,3,4]])
print(b)
print(type(b))
print(b.shape)

[1 2 3 4]
<class 'numpy.ndarray'>
(4,)
[[1 2 3 4]]
<class 'numpy.ndarray'>
(1, 4)


##### 1) Transpose
- 백터의 전치(transpose): 단 1차원 어레이는 상황에 따라 행백터 혹은 열백터로 바뀌므로 굳이 T를 붙일 이유는 없음
> `np.transpose()`
 - `.T`

In [42]:
print(a)
print(a.T)
print(b)
print(b.T)

[1 2 3 4]
[1 2 3 4]
[[1 2 3 4]]
[[1]
 [2]
 [3]
 [4]]


In [43]:
array3 = np.array([[[0,1],[2,3],[4,5]],
                  [[6,7],[8,9],[10,11]],
                  [[12,13],[14,15],[16,17]],
                  [[18,19],[20,21],[22,23]]])
print(array3)
print(array3.shape)

[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]

 [[12 13]
  [14 15]
  [16 17]]

 [[18 19]
  [20 21]
  [22 23]]]
(4, 3, 2)


### 2.2 Numpy array 변형하기

> `np.arrange()` : 인자로 받는 값 만큼 1씩 증가하는 1차원 array
  - 이 때 하나의 인자만 입력하면 0 ~ 입력한 인자, 값 만큼의 크기를 가진다.

In [46]:
print(np.arange(10))
print(np.arange(1,10))
print(np.arange(1,10,2))

[0 1 2 3 4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]
[1 3 5 7 9]


> reshape

In [50]:
a = np.arange(1,11)
print(a)
print(a.shape)

b = a.reshape(2,5)
print(b)
print(b.shape)

c = a.reshape(5,2)
print(c)
print(c.shape)

d = c.reshape(10,)
print(d)
print(d.shape)

[ 1  2  3  4  5  6  7  8  9 10]
(10,)
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
(2, 5)
[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]
(5, 2)
[ 1  2  3  4  5  6  7  8  9 10]
(10,)


> np.ravel
 - order = 'C' row 우선 변경(기본값)
 - order = 'F' column 우선 변경

In [54]:
a = np.arange(1,11)
b = a.reshape(2,5)
print(a)
print(b)
np.ravel(b)

[ 1  2  3  4  5  6  7  8  9 10]
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]


array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [55]:
np.ravel(b, order='F')

array([ 1,  6,  2,  7,  3,  8,  4,  9,  5, 10])

### 2.3 numpy에서 제공하는 함수를 사용하여 numpy array 만들기

- numpy에서 제공하는 함수를 사용하여 numpy array 생성
- zeros(), ones(), full(), eye() 등
 - `zeros()` : 모든 값이 0인 array 생성
 - `ones()` : 모든 값이 1인 array 생성
 - `full()` : 사용자가 지정한 특정 값을 모든 값으로 하는 array 생성
 - `eye()` : 대각선으로는 1이고 나머지는 0인 2차원 array 생성(단위 행렬이라고 함)
 - `zeros_like()` : numpy array의 값을 모두 0으로 대체

In [56]:
np.zeros((2,2))

array([[0., 0.],
       [0., 0.]])

In [57]:
np.ones((2,3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [58]:
np.full((2,3),5)

array([[5, 5, 5],
       [5, 5, 5]])

In [59]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [61]:
x = np.array([[0,1,2],[3,4,5]])
x

array([[0, 1, 2],
       [3, 4, 5]])

In [62]:
np.zeros_like(x)

array([[0, 0, 0],
       [0, 0, 0]])

#### 1) random 서브모듈 함수를 통해 난수 생성
> `rand` 함수
 - 0,1 사이의 균일 분포에서 난수 matrix array 생성

In [63]:
np.random.rand(2,3,3)

array([[[0.81065572, 0.22178429, 0.16308396],
        [0.52070489, 0.12586891, 0.11021731],
        [0.42186751, 0.4194126 , 0.55877504]],

       [[0.83230073, 0.75629791, 0.33573265],
        [0.33121527, 0.73273611, 0.66290503],
        [0.29292738, 0.70388128, 0.3268607 ]]])

> `randn` 함수
 - 평균0, 분산1의 표준정규분포 난수 matrix array 생성

In [64]:
np.random.randn(3,3)  # 3*3 행령 생성

array([[-0.20548031, -2.27611563, -1.30340445],
       [-1.46736905,  0.84757447,  0.10146759],
       [-0.12040106,  1.29819598, -0.41707804]])

> `seed` 함수
 - 랜덤한 값을 동일하게 다시 생성하고자 할때 사용

In [65]:
np.random.seed(1234)
np.random.rand(2,3,3)

array([[[0.19151945, 0.62210877, 0.43772774],
        [0.78535858, 0.77997581, 0.27259261],
        [0.27646426, 0.80187218, 0.95813935]],

       [[0.87593263, 0.35781727, 0.50099513],
        [0.68346294, 0.71270203, 0.37025075],
        [0.56119619, 0.50308317, 0.01376845]]])

> `choice` 함수
 - 주어진 1차원 array로 부터 랜덤으로 샘플링
 - replace = True 복원추출(기본값)
 - replace = False 비복원추출

In [66]:
x = np.arange(20)
y = np.random.choice(x, size=(2,3,3),replace=False)

print(x)
print(y)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
[[[12 18 13]
  [16  5  8]
  [ 1  4 10]]

 [[19 17 14]
  [15  9  0]
  [11  7  3]]]


-------------------------------
## 3. 부분 추출하기

### 3.1 슬라이싱
- numpy array는 파이썬 리스트와 마찬가지로 슬라이스(Slice)를 지원함
- numpy array를 슬라이싱하기 위해서는 각 차원별로 슬라이스 범위를 지정해야 함

In [67]:
x = np.arange(1,10).reshape(3,3)
x

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [68]:
x[0,1]

2

In [69]:
x[0]

array([1, 2, 3])

In [70]:
x[1:]

array([[4, 5, 6],
       [7, 8, 9]])

In [71]:
x[1:3]

array([[4, 5, 6],
       [7, 8, 9]])

In [72]:
x[:,1:3]

array([[2, 3],
       [5, 6],
       [8, 9]])

In [73]:
x[1:,1:]

array([[5, 6],
       [8, 9]])

### 3.2 인덱싱 (indexing)

#### 1) 정수 인덱싱 (integer indexing)
- numpy 슬라이싱이 각 array 차원별 최소-최대의 범위를 정하여 부분 집합을 구하는 것이라면, 정수 인덱싱은 각 차원별로 선택되어지는 array 요소의 인덱스들을 일렬로 나열하여 부분집합을 구하는 방식임
- 즉, 임의의 numpy array a에 대해 a[[row1, row2], [col1, col2]] 와 같이 표현하는 것인데, 이는 a[row1, col1] 과 a[row2, col2] 라는 두 개의 array 요소의 집합을 의미함
- 예를 들어, 아래 예제에서 a[[0, 2], [1, 3]] 은 정수 인덱싱으로서 이는 a[0, 1] 과 a[2, 3] 등 2개의 array 요소를 가리킴

In [111]:
arr2 = np.array([[1,2,3,4],
                 [5,6,7,8],
                 [9,10,11,12]])
arr2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [112]:
# 2차원 이상 인덱싱
arr2[2,:]   # 2행의 모든 요소 꺼내기
arr2[2,3]   # 2행의 모든 요소 꺼내기
arr2[2,3]   # 2행의 3번째 요소 꺼내기
# 모든 행의 3번째 요소 꺼내기
arr2[:,3]

array([ 4,  8, 12])

In [74]:
lst = [[1, 2, 3, 4],
       [5, 6, 7, 8],
       [9, 10, 11, 12]]
a = np.array(lst)
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [75]:
s = a[[0, 2], [1, 3]]
s

array([ 2, 12])

#### 2) 부울린 인덱싱 (boolean indexing)
- boolean 인덱싱은 주로 마스크라고 함. 원하는 행 or 열의 값만 뽑아낼 수 있음
 - 즉, 마스크처럼 우리가 가리고 싶은 부분은 가리고, 원하는 요소만 꺼낼 수 있음

- numpy 부울린 인덱싱은 array 각 요소의 선택여부를 True, False로 표현하는 방식
- 만약 a가 2 x 3의 array라면, 부울린 인덱싱을 정의하는 numpy array도 2 x 3으로 만들고 선택할 array 요소에 True를 넣고 그렇지 않으면 False를 넣으면 됨
- 아래 예제는 3 x 3 array a 중 짝수만 뽑아내는 부울린 인덱싱 array(numpy array)를 사용하여 짝수만 출력하는 예시


In [10]:
a = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

 
bool_indexing_array = np.array([[False,  True, False],
                                [True,  False,  True],
                                [False,  True, False]])

 
a[bool_indexing_array]

array([2, 4, 6, 8])

- 표현식을 사용하여 부울린 인덱싱 array를 생성하는 방법
 - ex) array a에 대해 짝수인 array 요소만 True로 만들고 싶다면, bool_indexing = (a % 2 == 0) 와 같이 표현
- 아래 예제는 이러한 표현을 사용하는 것을 예시한 것이고, 특히 마지막에 a[ a % 2 == 0 ] 와 같이 부울린 인덱싱 표현식을 array 인덱스안에 넣어 간단하게 표현

In [11]:
a = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

 
bool_indexing = (a % 2 == 0)
bool_indexing

array([[False,  True, False],
       [ True, False,  True],
       [False,  True, False]])

In [14]:
a[bool_indexing]

array([2, 4, 6, 8])

In [13]:
a[ a % 2 == 0 ]

array([2, 4, 6, 8])

#### 3) 다중조건 사용하기
- 파이썬 논리 연사자인 and, or, not 키워드 사용 불가
> & : and , | : or 사용

In [15]:
a = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [16]:
a[(a % 2 == 0) & (a > 5)]

array([2, 4, 6, 7, 8, 9])

In [17]:
a[(a % 2 == 0) | (a > 5)]

array([2, 4, 6, 7, 8, 9])

--------------
## 4. 연산

### 4.1 기본 연산

- numpy를 사용하면 array간 연산을 쉽게 실행할 수 있음
- 연산자: +, -, *, / 등, add(), substract(), multiply(), divide() 등
 - ex) 아래 예제와 같이 array a 와 b 가 있을때, a + b를 하면 각 array 요소의 합을 구하게 됨
 -  => 결과 a[0]+b[0], a[1]+b[1], ... 과 같은 방식으로 결과를 리턴

In [76]:
a = np.array([1,2,3])
b = np.array([4,5,6])
print(a)
print(b)

[1 2 3]
[4 5 6]


In [77]:
# 각 요소 더하기
print(a+b)
print(np.add(a,b))

# 각 요소 빼기
print(a-b)
print(np.subtract(a,b))

# 각 요소 곱하기
print(a*b)
print(np.multiply(a,b))

# 각 요소 나누기
print(a/b)
print(np.divide(a,b))

[5 7 9]
[5 7 9]
[-3 -3 -3]
[-3 -3 -3]
[ 4 10 18]
[ 4 10 18]
[0.25 0.4  0.5 ]
[0.25 0.4  0.5 ]


### 4.2 행렬 곱 연산
- numpy에서 matrix의 product를 구하기 위해서 `dot()` 함수를 사용함
- 아래 예제는 두 matrix의 product를 구한 예시

In [78]:
lst1 = [[1, 2],
        [3, 4]]
 
lst2 = [[5, 6],
        [7, 8]]

a = np.array(lst1)
b = np.array(lst2)

In [79]:
c = np.dot(a, b)
c

array([[19, 22],
       [43, 50]])

### 4.3 기준이 있는 연산
- numpy는 array간 연산을 위한 함수들을 제공: 각 array 요소들을 더하는 `sum()` 함수, 각 array 요소들을 곱하는 `prod()` 함수, 평균을 구하는 `mean()` 함수 등이 있음
- 이들 함수에 선택옵션으로 axis를 지정할 수 있음
  - ex) sum() 함수에서 axis가 0이면 행끼리 더하는 것(각 열의 합)이고, axis가 1이면 열끼리(각 행의 합) 더하는 것임


> `np.sum()` `np.prod()` `np.mean()`



In [80]:
a = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])
a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [81]:
# axis를 지정하지 않으면 모든 원소를 더함
np.sum(a)

45

In [83]:
a.sum()

45

In [84]:
np.sum(a, axis=0)

array([12, 15, 18])

In [85]:
a.sum(axis=0)

array([12, 15, 18])

In [86]:
np.sum(a, axis=1)

array([ 6, 15, 24])

In [88]:
a.sum(axis=1)

array([ 6, 15, 24])

In [89]:
# np.prod()

a = np.array([[1, 2],
              [3, 4]])
a

array([[1, 2],
       [3, 4]])

In [91]:
# axis를 지정하지 않으면 모든 원소를 곱함
np.prod(a)

24

In [92]:
a.prod()

24

In [93]:
np.prod(a, axis=0)

array([3, 8])

In [94]:
a.prod(axis=0)

array([3, 8])

In [95]:
np.prod(a, axis=1)

array([ 2, 12])

In [96]:
# np.mean()
a = np.array([[1, 2],
              [3, 4]])
a

array([[1, 2],
       [3, 4]])

In [97]:
# axis를 지정하지 않으면 모든 원소의 평균을 구함
np.mean(a)

2.5

In [98]:
a.mean()

2.5

In [99]:
np.mean(a, axis=0)

array([2., 3.])

In [100]:
np.mean(a, axis=1)

array([1.5, 3.5])

### 4.4 array에 nan이 있을 때 연산
- `sum()` 함수를 사용할 때, array에 nan이 있는 경우 nan을 제외하고 합을 구하는 함수로 nansum() 함수를 사용

In [102]:
a = np.array([[1, 2], [3, np.nan]])
a

array([[ 1.,  2.],
       [ 3., nan]])

In [103]:
# nan이 있는 경우 sum() 함수를 사용하면 nan이 출력됨
np.sum(a)

nan

In [104]:
np.nansum(a)

6.0

In [105]:
np.nansum(a, axis=0)

array([4., 2.])

In [106]:
np.nansum(a, axis=1)

array([3., 3.])

-----------
## 5. 기타 함수

### 5.1 where() 함수
- 특정 조건을 만족할 때와 그렇지 않을 때 값을 각각 출력해주는 함수로 where() 함수를 사용
- where(조건, 만족할 때의 출력 값, 만족하지 않을 때의 출력 값)

In [107]:
a = np.random.randn(4, 4)
a

array([[ 0.67555409, -1.81702723, -0.18310854,  1.05896919],
       [-0.39784023,  0.33743765,  1.04757857,  1.04593826],
       [ 0.86371729, -0.12209157,  0.12471295, -0.32279481],
       [ 0.84167471,  2.39096052,  0.07619959, -0.56644593]])

In [108]:
np.where(a > 0, 1, -1)

array([[ 1, -1, -1,  1],
       [-1,  1,  1,  1],
       [ 1, -1,  1, -1],
       [ 1,  1,  1, -1]])

In [109]:
np.where(a > 0, a, 0)

array([[0.67555409, 0.        , 0.        , 1.05896919],
       [0.        , 0.33743765, 1.04757857, 1.04593826],
       [0.86371729, 0.        , 0.12471295, 0.        ],
       [0.84167471, 2.39096052, 0.07619959, 0.        ]])