# 1. Why numpy
- numpy는 pandas, scikit-learn, tesorflow등 데이터 사이언스 분야에서 사용되는 라이브러리들의 토대가 되는 라이브러리이다. 
- numpy 그 자체로는 높은 수준의 데이터 분석 기능을 제공하지 않지만 numpy를 활용해 데이터를 python 상에서 표현하고 다룰 줄 알아야만 데이터 분석이라는 그 이후 단계로 나아갈 수 있다.
- numpy를 사용하면 다차원 배열을 효율적으로 다룰 수 있다. 

In [1]:
import numpy as np

In [2]:
math_score = np.array([[11,12],[21,22]])
math_score

array([[11, 12],
       [21, 22]])

In [3]:
# broadcasting
math_score + 1

array([[12, 13],
       [22, 23]])

In [4]:
np.mean(math_score)

16.5

![nd_array vs list](src/ndarray_list.png)
- 크기가 100개 이내인 경우 numpy는 순수 파이썬 구현보다도 오히려 낮은 성능을 보이는 경향이 있다.
- 하지만 코어부분이 C로 구현되어 동일한 연산을 하더라도 python에 비하여 속도가 빠르다.
- 라이브러리에 구현되어있는 함수들을 활용해 짧고 간결한 코드 작성이 가능한다. 
- 효율적인 메모리 사용이 가능하도록 구현된다.

- list
    - 파이썬 리스트는 결국 포인터의 배열
    - 경우에 따라서 각각 객체가 메모리 여기저기 흩어져 있다.
    - 그러므로 캐시 활용이 어렵다.

- ndarray
    - ndarray는 타입을 명시하여 원소의 배열로 데이터를 유지
    - 다차원 데이터도 연속된 메모리 공간이 할당됨
        - type이 지정되었기 때문
    - 많은 연산이 dimensions과 strides를 잘 활용하면 효율적으로 가능
        - 가령  trasnpose는 strides를 바꾸는 것으로 거의 공짜
    - ndarray 수현 방식을 떠올리면 어떻게 성능을 낼 수 있는지 상상가능

In [7]:
x = np.array([[1,2],[3,4]])
x

array([[1, 2],
       [3, 4]])

In [10]:
x.strides

(8, 4)

- 중요한 부분은 다음과 같다.
    - data는 변하지 않고, data를 바라보는 stride와 dimension의 변화만 존재하기 때문에 속도가 빠른 것이다.

- np.average와 np.mean의 차이
    - np.mean은 산술평균
    - np.average의 가중평균
    - 현재 아래에서는 weight를 주지 않았기 때문에 똑같이 나오지 않았다.

In [11]:
np.mean(range(1,11))

5.5

In [12]:
np.average(range(1,11))

5.5

In [13]:
np.average(range(1,11), weights=range(10, 0, -1))

4.0

# 2. 다차원 배열 생성하기
- 동일한 사이즈의 변수를 저장해야되기 때문에, 데이터를 통일시켜야 한다.
    - 정수형의 defalut data type은 'int64'이다.
    - 부호없는 정수형의 defalut data type은 'unit64'이다. -> unsigned integer
    - 실수형의 defalt data type은 'float64'이다.

In [14]:
float_array = np.array([[1,2],[3,4]], dtype="float64")
float_array.dtype

dtype('float64')

- numpy내에서 구현되어있ㄴ믄 다차원 배열 생성방법
    - [docs](https://docs.scipy.org/doc/numpy/reference/routines.array-creation.html)

- empty보다는 zeors가 낫다. 
    - 0으로 초기화한다는 의미이기 때문이다.

In [15]:
np.empty((2,3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [16]:
np.zeros((2,3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [17]:
np.ones((2,3))

array([[1., 1., 1.],
       [1., 1., 1.]])

- eye > identity

In [18]:
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [19]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [20]:
np.eye(3,4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.]])

In [21]:
np.eye(3,4,1)

array([[0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [22]:
np.eye(3,4,-1)

array([[0., 0., 0., 0.],
       [1., 0., 0., 0.],
       [0., 1., 0., 0.]])

- np.full보다는 아래방식이 많이 쓰임

In [23]:
np.full((2,3), 10)

array([[10, 10, 10],
       [10, 10, 10]])

In [24]:
10*np.ones((2,3), dtype=int)

array([[10, 10, 10],
       [10, 10, 10]])

In [25]:
np.arange(1, 5, 0.5)

array([1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [26]:
np.linspace(2.0, 3.0, num=5)

array([2.  , 2.25, 2.5 , 2.75, 3.  ])