## numpy
- Numerical python의 약자, 파이썬 산술계산을 위한 패키지.
- 효율적인 다차원배열(ndarray; 자료구조 중 하나)를 제공
- 전체 데이터 배열에 대해 빠른 계산을 할 수 있다.
- 배열을 디스크에 빠르게 읽고 쓸 수 있으며, 효율적으로 가공할 수 있다.
- 선형대수, 난수 생성, 푸리에 변환 등 고급 수학 기능도 제공함.


## 왜 numpy를 사용할까?
- 데이터는 이미지, 오디오, 텍스트, 숫자 등 다양한 형태로 존재
- 컴퓨터가 이해할 수 있도록 데이터를 숫자형식으로 변환해야함.
- 모든 데이터는 숫자로 이루어진 **배열**의 형태로 표현됨
- 빠르고 효율적인 배열 연산이 필요함. list 자료구조보다 ndarray가 훨씬 빠름

- import numpy as np
- arange, array, a = [len(x) for x in a], ndim, shape, dtype, zeros, ones, eye
- np.array([1,2,3],dtype = np.float64)
- 기존있던 다차원 배열.astype(np.float64)

## numpy vs list

In [1]:
#numpy vs list
import numpy as np
np_array = np.arange(1000000) #np.arange(시작, 끝, 단계) 다차원 배열을 만듬.
python_list = list(np_array)

In [3]:
%%time
for i in range(10):
    np_array = np_array * 2
    #np_array 자체를 바꿀꺼면 자기자신에 할당하는 식으로 변수를 선언하자.
    #다차원배열은 간단한 연산으로 각 원소에 연산가능함
    #for구문에서 i 를 반드시 사용할 필요없다. 단순히 어떤 코드를 몇번 반복하고 싶을 때 사용 가능
    #돌고 돌때 변수에 할당된 값은 리셋되는 것이 아니다. 이전것의 중첩

CPU times: total: 15.6 ms
Wall time: 21.9 ms


In [4]:
%%time
for i in range(10):
    python_list = [ x * 2 for x in python_list]
    #이 구문은 암기하자. 리스트의 각원소에 연산(기능)을 하고 싶은 경우 
    #a = [len(x) for x in a]

CPU times: total: 1.31 s
Wall time: 1.32 s


## ndarray 생성
- numpy의 다차원 배열의 자료구조는 ndarray
- np.array(리스트)를 통해 리스트 자료구조를 다차원배열로 변환가능
- np.arange(시작,끝,단계)

In [7]:
data1 = [1,3,5,6,9,10]
array1 = np.array(data1) #다차원 배열의 변수이름은 보통 array~ 식으로 진행 
print(array1)
print(type(array1))

[ 1  3  5  6  9 10]
<class 'numpy.ndarray'>


In [17]:
data2 = [[1,2,3,4],
         [5,6,7,8],
         [9,10,11,12.5]] #리스트로 행렬구조만드는 방법
array2 = np.array(data2)
print(array2)

[[ 1.   2.   3.   4. ]
 [ 5.   6.   7.   8. ]
 [ 9.  10.  11.  12.5]]


In [10]:
array2.ndim #다차원배열의 차원을 반환 

2

In [11]:
array2.shape #다차원 배열의 모양

(3, 4)

In [18]:
array2.dtype #원소가 int, float로 구성되어있으면 float반환
             #나오는 데이터타입이 모든원소를 대변하지 않는다.

dtype('float64')

In [19]:
np.zeros(10) 

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [20]:
np.zeros((4,5)) #인자로 튜플형식의 shape를 받는다.

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [21]:
np.ones((4,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [22]:
np.eye(5) # 단위 행렬 5 * 5 

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

- 다차원 배열의 자료형은 정수형, 실수형, 불, 문자열 모두 가능함
- 변경할 수 있는 범위에서 변경 가능함.

In [25]:
#생성하면서 변경
array1 = np.array([1,2,3], dtype = np.float64) #그냥 float가 아니라 np.float64
array1

array([1., 2., 3.])

In [26]:
#이미 형성된 배열의 자료형을 변경 
float_array = np.array([1.1,2.3,5.6])
print(float_array)
int_array = float_array.astype(np.int32) #floor 내림 적용, 다차원배열.astype(뭐로바꿀지)
print(int_array)

[1.1 2.3 5.6]
[1 2 5]


In [27]:
float_array = np.array(['1.1','2.3','5.6'])
string_array = float_array.astype(np.float64)
print(string_array)


[1.1 2.3 5.6]
