# 넘파이 (Numpy)
수학 및 과학 연산을 위한 파이썬 패키지입니다. 
- 기술통계 분석 정도에 사용
- matplotlib, Pandas 등 다른 Python 모듈과 함께 사용

홈페이지 : https://numpy.org/devdocs/user/quickstart.html

참고자료 : https://wikidocs.net/160667

파이썬 모듈을 사용하기 위해서는 import를 해야 합니다.  
많은 사람들이 import 하는 방식을 사용하는 것이 가독성을 높일 수 있습니다.

In [159]:
import numpy as np

## NdArray

넘파이에서는 배열을 효과적으로 관리하기 위한 ndarray 객체를 제공합니다. 이는 파이썬 기본 자료구조인 리스트 (튜플)을 <b>업그레이드</b> 해서 보다 향상된 기능을 제공합니다. 리스트를 상속받아 더 많은 기능을 구현해서 사용성을 높이는 것으로 추측해 볼 수 있죠?

In [160]:
arr = [1, 2, 3, 4]
a = np.array(arr)
print( type (a) )

<class 'numpy.ndarray'>


리스트를 업그레이드 했기 때문에 리스트가 제공하는 모든 기능을 사용할 수 있습니다. 인덱싱, 슬라이싱도 정상동작함을 확인할 수 있습니다.

In [161]:
a[1], a[0:2]

(2, array([1, 2]))

In [162]:
a = [1,2,3,4,5]
b = np.array([1,2,3,4,5])
print(a) # 콤마가 있음
print(b) # ndarray는 콤마가X

[1, 2, 3, 4, 5]
[1 2 3 4 5]


`zeros` 함수를 사용하면 0으로 채워진 `ndarray`를 만들 수 있습니다. 

In [163]:
test = np.zeros(10)
test

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [164]:
test = np.zeros(10, dtype=int)
test

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

`ones` 함수를 사용하면 1로 채워진 `ndarray`를 만들 수 있습니다. 

In [165]:
test = np.ones(10)
test

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

튜플로 x, y 크기를 지정하면 2차원 형태로 배열이 생성됩니다. 

In [166]:
test = np.ones((2,3))
test

array([[1., 1., 1.],
       [1., 1., 1.]])

이차원 데이터가 저장된 리스트도 한 번에 ndarray로 변환할 수 있습니다.   
리스트에 저장된 다음 값은 `arr = [[1, 2], [3, 4]]` 아래 그림과 같은 구조를 표현합니다. 

<img src="https://i.ibb.co/6g96V6V/numpy-0.png" width="300" style="float:left" />

In [167]:
arr = [[1, 2], [3, 4]]
type(arr)
arr = np.array(arr)
arr, type(arr)

(array([[1, 2],
        [3, 4]]), numpy.ndarray)

In [168]:
arr[0]

array([1, 2])

`vstack` 함수는 두 개의 `ndarray`를 `vertical` 방향으로 합칩니다. 이 때 전달하는 `ndarray`는 리스트로 정의해서 파라미터로 전달해야 합니다. 

In [169]:
arr = [[1, 2], [3, 4]]
a = np.array(arr)
b = np.array(arr)

data = [a,b]
np.vstack(data)

array([[1, 2],
       [3, 4],
       [1, 2],
       [3, 4]])

In [170]:
# 튜플로 지정하는 것이 더 좋음
data1 = (a,b)
np.vstack(data1)

array([[1, 2],
       [3, 4],
       [1, 2],
       [3, 4]])

In [171]:
np.vstack([a,b]), np.vstack((a,b))

(array([[1, 2],
        [3, 4],
        [1, 2],
        [3, 4]]), array([[1, 2],
        [3, 4],
        [1, 2],
        [3, 4]]))

`hstack` 함수는 두 개의 `ndarray`를 `horizontal` 방향으로 합칩니다.

In [172]:
np.hstack(data)

array([[1, 2, 1, 2],
       [3, 4, 3, 4]])

reshape은 차원을 재정의 합니다. 

In [173]:
arr = [1, 2, 3, 4]
a = np.array(arr)
a.reshape(2,2)

array([[1, 2],
       [3, 4]])

In [174]:
# 개수 안맞으면 err
# a.reshape(3,3)

In [175]:
a # reshape했지만 영향X

array([1, 2, 3, 4])

넘파이의 `arange()` 함수는 `range()` 함수와 유사하게 호출할 수 있으며, 결괏값으로 `ndarray`를 반환합니다. 

In [176]:
a = np.arange(4)
print(a)

[0 1 2 3]


시작/끝/증감폭을 지정할 수 있습니다.

In [177]:
b = np.arange(1,4)
print(b)

c = np.arange(1,4,2)
print(c)

[1 2 3]
[1 3]


다음 2차원 `ndarray`에는 총 3개의 데이터가 있습니다. 
```
[  데이터1 
   데이터2
   데이터3 ]
```
그리고 각각의 데이터에는 다시 `ndarray`가 들어 있습니다.

## NdArray의 인덱싱과 슬라이싱

0번째 들어있는 데이터를 인덱싱으로 출력하면 `ndarray`가 출력됩니다. 

In [178]:
# a = np.arange(0,9)
# a = a.reshape(3,3)
# print(a)
a = np.arange(9).reshape(3,3)
print(a)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [179]:
print(a[0])

[0 1 2]


<img src="https://i.ibb.co/hcYQ0sn/numpy-1.png" width="300" style="float:left" />

하나의 값을 출력하려면 또 다시 인덱싱을 사용하면 되겠죠? 첫 번째 행의 두 번째 열에 있는 값 (`1`)을 출력해 봅시다.

In [180]:
%timeit a[0][1] # 5: 260 ns per loop

The slowest run took 51.23 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 5: 247 ns per loop


In [181]:
# 이게 더 좋음. 더 빨라. 5: 127 ns per loop
%timeit a[0,1]

The slowest run took 59.10 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 5: 126 ns per loop


<img src="https://i.ibb.co/MNMwS45/numpy-2.png" width="300" style="float:left" />

슬라이싱으로 0번, 1번 두 개의 줄을 선택하기 

In [182]:
a[0:2]

array([[0, 1, 2],
       [3, 4, 5]])

<img src="https://i.ibb.co/zmKXhbY/numpy-3.png" width="300" style="float:left" />

불연속적인 행 선택하기

In [183]:
a[0,2]

2

0번 1번 행과 0번 1번 열을 선택하기

In [184]:
a[:2,:2]

array([[0, 1],
       [3, 4]])

<img src="https://i.ibb.co/N7dnqtj/numpy-4.png" width="300" style="float:left" />

불연속적인 행출력하기

In [185]:
idx =[2,0]
a[idx]

array([[6, 7, 8],
       [0, 1, 2]])

In [186]:
idx= [2,2,0,0]
a[idx]

array([[6, 7, 8],
       [6, 7, 8],
       [0, 1, 2],
       [0, 1, 2]])

In [187]:
a[[2,2,0,0]]

array([[6, 7, 8],
       [6, 7, 8],
       [0, 1, 2],
       [0, 1, 2]])

불연속적인 열출력하기

In [188]:
a[:,[0,2]]

array([[0, 2],
       [3, 5],
       [6, 8]])

In [189]:
# list와 달리 narray는 값을 바꿀 수 있다.
a = np.arange(9).reshape(3,3)
a[0,0] = 100
a

array([[100,   1,   2],
       [  3,   4,   5],
       [  6,   7,   8]])

In [190]:
a[:, -1] = 0
a

array([[100,   1,   0],
       [  3,   4,   0],
       [  6,   7,   0]])

## Numpy의 다양한 속성값

In [191]:
a = np.zeros(4)
print(a.dtype)

float64


In [192]:
a = np.arange(4)
print(a.dtype)

int64


`shape` 속성은 데이터의 크기를 출력합니다. 

In [193]:
a.shape

(4,)

이차원 데이터에서도 정상동작 합니다. 

In [194]:
a = np.arange(6).reshape(3, 2)
print(a.shape)

(3, 2)


In [195]:
np.arange(6).reshape(3, 2).shape

(3, 2)

In [196]:
# 차원 출력
a = np.arange(6).reshape(3, 2)
print(a.ndim)

2


In [197]:
a

array([[0, 1],
       [2, 3],
       [4, 5]])

`reshape`으로 다시 1차원으로 변경할 수 있습니다.

In [198]:
b = a.reshape(-1) # -1은 알아서 바꿔라
b.ndim

1

In [199]:
c = a.reshape(3,-1) #-1 >> 알아서 바꿔라
c

array([[0, 1],
       [2, 3],
       [4, 5]])

In [200]:
b = a.reshape(6)
b.ndim

1

`flat` 속성과 형변환을 통해 1차원으로 변경할 수도 있습니다.

In [201]:
a.flatten()

array([0, 1, 2, 3, 4, 5])

Q. 학생들의 점수를 ndarray로 표현하라.
- 문자열을 제외하고 점수만 표현

<img src="https://i.ibb.co/Rcsc9d2/numpy-5.png" width="250" style="float:left" />

In [202]:
x = [30,25,66,23,44,23]
score = np.array(x).reshape(2,3)
score

array([[30, 25, 66],
       [23, 44, 23]])

Q. 기말고사 점수의 합을 출력하라.
- `sum()` 함수 사용

<img src="image/6.png" width="250" style="float:left" />

In [217]:
sum(score[1,:])

90

Q. 영어점수의 평균을 출력하라.

<img src="image/7.png" width="250" style="float:left" />

In [233]:
sum(score[:,1])/(2)

34.5

In [234]:
score.mean(axis=0)[1]

34.5

축 정보 axis 

In [226]:
score.sum(axis=0)[1] # 열로 더하기

69

In [227]:
score.sum(axis=1) # 행으로 더하기

array([121,  90])

###### 3차원데이터

## reshape 메서드의 이해

같은 메모리를 공유하며 보여지는 결과만 다른 다른 뷰 (view) 사용합니다. 

In [236]:
a = np.arange(9)
id(a)

139989284561328

In [237]:
b = a.reshape(3, 3)
id(b)

139989284544400

In [238]:
b[0,0] = 100
a # 주소는 다르지만 같은 값을 가리키는 것.

array([100,   1,   2,   3,   4,   5,   6,   7,   8])

`base` 속성에는 원본 데이터의 위치가 기록돼 있습니다. 

In [242]:
print(a.base)

None


`a`의 값을 변경한 뒤에 `b`의 값을 확인해 봅시다. 

In [243]:
b.base

array([100,   1,   2,   3,   4,   5,   6,   7,   8])

복사본을 만들고 싶다면 `copy`를 사용합니다.

In [248]:
b = a.copy()

In [249]:
a.base

In [250]:
b.base

얕은 복사 (shallow copy)와 깊은 복사 (deep copy)

In [222]:
# https://wikidocs.net/160650 17장

`is`와 `==`

## numpy와 함수  및 메서드
numpy는 수치연산과 관련된 다양한 함수를 제공합니다. 

`random.randn(숫자)` 메서드는 `0`부터 `숫자 - 1` 범위의 임의의 수를 반환합니다. 

In [223]:
num = np.random.randint(5)
print(num)

3


시작값과 끝값을 지정할 수도 있습니다. 

세 번째 파라미터는 size를 튜플로 지정합니다.  
- `size=(행, 열)`

`random.shuffle(ndarray)`은 ndarray의 데이터의 순서를 무작위로 변경합니다.  
- `shuffle` 메서드는 값을 반환하지 않고 파라미터 자체를 변경합니다. 

`chioce` 메서드는 데이터를 sampling 합니다. 
- `np.random.choice(a, size=None, replace=True, p=None)`
- a는 1차원 데이터

`np.unique` 메서드는 중복된 값을 제거합니다.

`linspace`는 구간을 입력된 개수로 분할합니다.
- 0부터 5까지를 50개의 구간으로 분할하는 코드

In [224]:
np.linspace(0, 5, 50)

array([0.        , 0.10204082, 0.20408163, 0.30612245, 0.40816327,
       0.51020408, 0.6122449 , 0.71428571, 0.81632653, 0.91836735,
       1.02040816, 1.12244898, 1.2244898 , 1.32653061, 1.42857143,
       1.53061224, 1.63265306, 1.73469388, 1.83673469, 1.93877551,
       2.04081633, 2.14285714, 2.24489796, 2.34693878, 2.44897959,
       2.55102041, 2.65306122, 2.75510204, 2.85714286, 2.95918367,
       3.06122449, 3.16326531, 3.26530612, 3.36734694, 3.46938776,
       3.57142857, 3.67346939, 3.7755102 , 3.87755102, 3.97959184,
       4.08163265, 4.18367347, 4.28571429, 4.3877551 , 4.48979592,
       4.59183673, 4.69387755, 4.79591837, 4.89795918, 5.        ])

회전 

## 다항식 풀기

사람과 강아지의 수는 총 4입니다. 다리의 개수는 14입니다. 사람과 강아지의 수는?  
사람의 수를 x, 강아지의 수를 y로 정의하자.

$ x + y = 4 $  
$ 2x + 4y = 14 $

행렬식으로 표현해 봅시다.

In [225]:
import numpy as np

a = np.array( [
    [1, 1],
    [2, 4]
])

b = np.array([4, 14])

`solve` 를 사용한 해결

역행렬을 사용한 해결