## numpy
- Numerical python의 약자, 파이썬 산술계산을 위한 패키지.
- 효율적인 다차원배열(ndarray; 자료구조 중 하나)를 제공
- 전체 데이터 배열에 대해 빠른 계산을 할 수 있다.
- 배열을 디스크에 빠르게 읽고 쓸 수 있으며, 효율적으로 가공할 수 있다.
- 선형대수, 난수 생성, 푸리에 변환 등 고급 수학 기능도 제공함.


## 왜 numpy를 사용할까?
- 데이터는 이미지, 오디오, 텍스트, 숫자 등 다양한 형태로 존재
- 컴퓨터가 이해할 수 있도록 데이터를 숫자형식으로 변환해야함.
- 모든 데이터는 숫자로 이루어진 **배열**의 형태로 표현됨
- 빠르고 효율적인 배열 연산이 필요함. list 자료구조보다 ndarray가 훨씬 빠름

## numpy vs list
- import numpy as np
- arange, array, a = [len(x) for x in a], ndim, shape, dtype, zeros, ones, eye
- np.array([1,2,3],dtype = np.float64)
- 기존있던 다차원 배열.astype(np.float64)

In [1]:
#numpy vs list
import numpy as np
np_array = np.arange(1000000) #np.arange(시작, 끝, 단계) 다차원 배열을 만듬.
python_list = list(np_array)

In [3]:
%%time
for i in range(10):
    np_array = np_array * 2
    #np_array 자체를 바꿀꺼면 자기자신에 할당하는 식으로 변수를 선언하자.
    #다차원배열은 간단한 연산으로 각 원소에 연산가능함
    #for구문에서 i 를 반드시 사용할 필요없다. 단순히 어떤 코드를 몇번 반복하고 싶을 때 사용 가능
    #돌고 돌때 변수에 할당된 값은 리셋되는 것이 아니다. 이전것의 중첩

CPU times: total: 15.6 ms
Wall time: 21.9 ms


In [4]:
%%time
for i in range(10):
    python_list = [ x * 2 for x in python_list]
    #이 구문은 암기하자. 리스트의 각원소에 연산(기능)을 하고 싶은 경우 
    #a = [len(x) for x in a]

CPU times: total: 1.31 s
Wall time: 1.32 s


## ndarray 생성
- numpy의 다차원 배열의 자료구조는 ndarray
- np.array(리스트)를 통해 리스트 자료구조를 다차원배열로 변환가능
- np.arange(시작,끝,단계)

In [7]:
data1 = [1,3,5,6,9,10]
array1 = np.array(data1) #다차원 배열의 변수이름은 보통 array~ 식으로 진행 
print(array1)
print(type(array1))

[ 1  3  5  6  9 10]
<class 'numpy.ndarray'>


In [17]:
data2 = [[1,2,3,4],
         [5,6,7,8],
         [9,10,11,12.5]] #리스트로 행렬구조만드는 방법
array2 = np.array(data2)
print(array2)

[[ 1.   2.   3.   4. ]
 [ 5.   6.   7.   8. ]
 [ 9.  10.  11.  12.5]]


In [10]:
array2.ndim #다차원배열의 차원을 반환 

2

In [11]:
array2.shape #다차원 배열의 모양

(3, 4)

In [18]:
array2.dtype #원소가 int, float로 구성되어있으면 float반환
             #나오는 데이터타입이 모든원소를 대변하지 않는다.

dtype('float64')

In [19]:
np.zeros(10) 

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [20]:
np.zeros((4,5)) #인자로 튜플형식의 shape를 받는다.

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [21]:
np.ones((4,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [22]:
np.eye(5) # 단위 행렬 5 * 5 

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

- 다차원 배열의 자료형은 정수형, 실수형, 불, 문자열 모두 가능함
- 변경할 수 있는 범위에서 변경 가능함.

In [25]:
#생성하면서 변경
array1 = np.array([1,2,3], dtype = np.float64) #그냥 float가 아니라 np.float64
array1

array([1., 2., 3.])

In [26]:
#이미 형성된 배열의 자료형을 변경 
float_array = np.array([1.1,2.3,5.6])
print(float_array)
int_array = float_array.astype(np.int32) #floor 내림 적용, 다차원배열.astype(뭐로바꿀지)
print(int_array)

[1.1 2.3 5.6]
[1 2 5]


In [27]:
float_array = np.array(['1.1','2.3','5.6'])
string_array = float_array.astype(np.float64)
print(string_array)


[1.1 2.3 5.6]


----------------------------------  
----------------------------------  
----------------------------------

## numpy 조작하기 : 연산, 색인 및 슬라이스

## array 연산

In [2]:
import numpy as np
array = np.array([[1,2,3],
                  [4,5,6]])
array

array([[1, 2, 3],
       [4, 5, 6]])

In [3]:
array * array # 리스트는 개별원소에 접근하기 위해 for 반복문(a = [len(x) for x in a])를 사용하지만
              # 다차원배열은 간단하게 개별원소 계산할 수 있음.

array([[ 1,  4,  9],
       [16, 25, 36]])

In [4]:
array + array

array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [5]:
array - array

array([[0, 0, 0],
       [0, 0, 0]])

In [6]:
array + 10

array([[11, 12, 13],
       [14, 15, 16]])

In [7]:
array / 3

array([[0.33333333, 0.66666667, 1.        ],
       [1.33333333, 1.66666667, 2.        ]])

In [8]:
array ** 3

array([[  1,   8,  27],
       [ 64, 125, 216]], dtype=int32)

In [10]:
#크기가 다른 배열간의 연산 
print(array)
array2 = ([1,2,3])
print("\n")
print(array2)

[[1 2 3]
 [4 5 6]]


[1, 2, 3]


In [11]:
array + array2

array([[2, 4, 6],
       [5, 7, 9]])

In [12]:
array * array2

array([[ 1,  4,  9],
       [ 4, 10, 18]])

## 색인 및 슬라이스
- 중복 (슬라이스), 한개의 원소 선택, 연결됨
- np.arange(num).reshape(num1,num2..) :: num1 * num2.. = num
- array.transpose(1,0,2)
- array.T

In [13]:
array = np.arange(10)
print(array)

[0 1 2 3 4 5 6 7 8 9]


In [16]:
#array[2:3] = [5,5,5,5,5] #리스트와 달리 다차원배열은 원소로 리스트, 딕셔너리 안됨 
                         #자료형은 정수, 실수, 문자, 불만 가능하다.
    
array[3:8] = 10
print(array)

[ 0  1  2 10 10 10 10 10  8  9]


In [17]:
array_slice = array[3:8]
array_slice[1] = 100 #기존 다차원배열을 슬라이스에서 할당한 새로운 다차원배열이고
print(array) #기존 다차원배열과 연결되어 있음. 

[  0   1   2  10 100  10  10  10   8   9]


In [18]:
array_slice[:] = 200
print(array_slice)
print(array)

[200 200 200 200 200]
[  0   1   2 200 200 200 200 200   8   9]


In [19]:
#n차원 배열에서 각 원소에 접근하는 방법.
array = np.arange(48).reshape(3,4,4)
array

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23],
        [24, 25, 26, 27],
        [28, 29, 30, 31]],

       [[32, 33, 34, 35],
        [36, 37, 38, 39],
        [40, 41, 42, 43],
        [44, 45, 46, 47]]])

In [20]:
#20에 접근 
array[1,1,0]

20

In [21]:
#3차원 아래서 두개, 2,3,4행, 1,2열 
array[1:,1:,0:2] #슬라이스: 복수 선택하고 싶은 경우 그 범위를 지정한다.

array([[[20, 21],
        [24, 25],
        [28, 29]],

       [[36, 37],
        [40, 41],
        [44, 45]]])

In [23]:
#전치
#2차원 배열이하인 경우 T로 해결가능함 
array = np.arange(32).reshape(8,4)
array

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [24]:
array.shape

(8, 4)

In [25]:
array.T 

array([[ 0,  4,  8, 12, 16, 20, 24, 28],
       [ 1,  5,  9, 13, 17, 21, 25, 29],
       [ 2,  6, 10, 14, 18, 22, 26, 30],
       [ 3,  7, 11, 15, 19, 23, 27, 31]])

In [26]:
array.shape #전치가 기존의 다차원 배열을 바꾸지 않는다. 

(8, 4)

In [27]:
#3차원 이상의 다차원 배열에서 전치는 T가 아니라 transpose함수를 사용한다.
#매개변수로는 axis
array = np.arange(32).reshape(2,4,4)
array

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23],
        [24, 25, 26, 27],
        [28, 29, 30, 31]]])

In [28]:
transpose_array = array.transpose(1,0,2)
#axis = 1 (행) : 2
#axis = 0 (전체) : 4
#axis = 2 (열) : 4
transpose_array

array([[[ 0,  1,  2,  3],
        [16, 17, 18, 19]],

       [[ 4,  5,  6,  7],
        [20, 21, 22, 23]],

       [[ 8,  9, 10, 11],
        [24, 25, 26, 27]],

       [[12, 13, 14, 15],
        [28, 29, 30, 31]]])

--------------------  
-------------------  
-------------------

## numpy연산 메소드

## 유니버셜 메소드

- 유니버셜 메소드 활용 : 하나 이상의 ndarray를 인자로 받아서 연산을 수행하는 메소드
- (인자 한개) : np.square, sqrt, log10, ceil, round 
- (인자 두개) : np.add, subtract, multiply, divide, maximum, minimum, power


In [1]:
#10,11,12,...19
import numpy as np
array = np.arange(10,20)
array

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [3]:
array = array.astype(np.float64) #기존의 다차원 배열을 바꾸지 못한다.
array

array([10., 11., 12., 13., 14., 15., 16., 17., 18., 19.])

In [4]:
np.square(array)

array([100., 121., 144., 169., 196., 225., 256., 289., 324., 361.])

In [5]:
#2개 이상의 다차원 배열을 인자로 받아서 연산을 수행하는 메소드 
array1 = np.array([1,20,21,22,3,4,5,6])
array2 = np.array([2,40,50,1,2,3,4,5])

In [8]:
np.power(array1, array2) #array1이 밑이고 array2가 지수

array([          1,           0, -1115501063,          22,           9,
                64,         625,        7776], dtype=int32)

In [9]:
np.maximum(array1,array2) #같은 자리끼리 비교하고 큰놈으로 새롭게 구성한다. 

array([ 2, 40, 50, 22,  3,  4,  5,  6])

## numpy 조건절 사용
- cond1 = array1 > 0 
- new_array = np.where(조건, 참, 거짓)

In [10]:
#numpy 조건절 사용 
array1 = np.array([1,-1,-2,3,1,2,-3])
array2 = np.array([1,3,2,1,-1,2,-3])

In [11]:
cond1 = array1 > 0 #불을 만드는 연산자를 다차원배열에 적용하면 각 원소에 적용한다.
cond2 = array2 > 0 

In [12]:
print(cond1)
print(cond2)

[ True False False  True  True  True False]
[ True  True  True  True False  True False]


In [14]:
new_array = np.where(array1 > 1 , 1, -1) #np.where(조건, 참, 거짓) 조건에 참이면 참에 해당하는 값을 반환
new_array

array([-1, -1, -1,  1, -1,  1, -1])

In [19]:
new_array = np.where(array1 > 0, array1, array2) #해당자리로 반환함
new_array

array([ 1,  3,  2,  3,  1,  2, -3])

## numpy 수학 통계 메소드
- array.sum, mean, max, min, argmax, argmin(인덱스를 반환함)
- 인자로 axis = 0 (열) , axis = 1(행)


In [20]:
#수학 통계 메소드
array = np.arange(32).reshape(8,4)
array

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [21]:
array.sum()

496

In [22]:
array.mean()

15.5

In [25]:
array.sum(axis = 0)  #헷갈리지 말기 axis = 0 이면 '열'임, axis = 1 '행'

array([112, 120, 128, 136])

## numpy 정렬
- array.sort(), reverse_array = array[::-1], array.sort(axis = 0) :: 행을 기준으로 정렬
- np.random.randn(4,5)

In [26]:
#오름차순, 내림차순 정렬 
array = np.random.randn(10)
array

array([ 0.48113128,  0.94930514, -1.42522126, -0.82174943, -0.76841113,
       -1.5293413 ,  0.38092319,  1.34088564, -1.17078848, -0.8915712 ])

In [27]:
array.sort() #기존것을 변경 

In [28]:
array

array([-1.5293413 , -1.42522126, -1.17078848, -0.8915712 , -0.82174943,
       -0.76841113,  0.38092319,  0.48113128,  0.94930514,  1.34088564])

In [29]:
#내림차순으로 정렬하기 위해 새롭게 할당해야함
reverse_array = array[::-1]

In [30]:
reverse_array

array([ 1.34088564,  0.94930514,  0.48113128,  0.38092319, -0.76841113,
       -0.82174943, -0.8915712 , -1.17078848, -1.42522126, -1.5293413 ])

In [31]:
array = np.random.randn(5,3)

In [32]:
array

array([[ 0.30750813, -0.52811221,  0.76196227],
       [-0.17602485,  0.77288896, -0.89409177],
       [-0.03613238, -1.00604718, -0.55029794],
       [-0.1687964 ,  0.92152954,  0.21780396],
       [ 1.742069  ,  0.76183698,  0.32973375]])

In [34]:
#행을 기준으로 정렬(axis = 0)  주의하자. 통계연산 메소드인 sum, mean, max, min, argmax, argmin은 axis = 0 이 열이다
array.sort(axis = 0) #행을 기준으로 정렬
array

array([[-0.17602485, -1.00604718, -0.89409177],
       [-0.1687964 , -0.52811221, -0.55029794],
       [-0.03613238,  0.76183698,  0.21780396],
       [ 0.30750813,  0.77288896,  0.32973375],
       [ 1.742069  ,  0.92152954,  0.76196227]])

## numpy 집합메소드
- np.unique(array)
- np.in1d(array1,array2)


In [36]:
array = np.array(['a', 'b', 'c', 'a', 'b', 'c', 'e', 'f', 'g', 'c', 'f'])

In [37]:
np.unique(array) #np.unique(다차원배열) : 다차원배열의 고유값을 반환한다.

array(['a', 'b', 'c', 'e', 'f', 'g'], dtype='<U1')

In [38]:
array1 = np.arange(10)
array2 = np.arange(5,15)
print(array1)
print(array2)

[0 1 2 3 4 5 6 7 8 9]
[ 5  6  7  8  9 10 11 12 13 14]


In [41]:
np.in1d(array1, array2) #array1의 원소가 array2에 있니? 꼭 같은 위치가 아니어도 좋다.

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [44]:
#행렬연산 메소드(내적, 외적)  : 일반수학에서 하는 것보다 확장된 느낌을 가진다.
array = np.arange(8).reshape(4,2)
array_transpose = array.T
print(array)
print(array_transpose)

[[0 1]
 [2 3]
 [4 5]
 [6 7]]
[[0 2 4 6]
 [1 3 5 7]]


In [45]:
np.dot(array, array_transpose)

array([[ 1,  3,  5,  7],
       [ 3, 13, 23, 33],
       [ 5, 23, 41, 59],
       [ 7, 33, 59, 85]])