# numpy
### 산술계산 패키지, 효율적인 다차원 배열 (자료구조: ndarray)
### 고급수학기능 제공 
### 이미지, 오디오, 텍스트, 숫자 ->모든 데이터는 숫자로 이루어진 배열
### 빠른 처리가 필요함 : ndarray

In [1]:
import numpy as np
np_array = np.arange(1000000) #arange(시작, 끝, 단계), 다차원배열을 만든다
python_list = list(np.arange(1000000)) #다차원 배열을 리스트화

In [6]:
%%time
#구문을 실행하는데 걸리는 시간 
for i in range(10): #10번반복, 꼭 i를 사용해야하는 것은 아님 
    np_array = np_array * 2 #다차원 배열은 연산이 편리함. 각원소에 2씩 곱해짐. 이전 변수를 받음 

CPU times: total: 31.2 ms
Wall time: 30 ms


In [7]:
%%time
for i in range(10):
    python_list = [x * 2 for x in python_list] #기존리스트의 원소를 바꾸고 싶다면 읽기와 쓰기를 동시에 
                                                #리스트의 원소에 개별적으로 접근하는 방법
        

CPU times: total: 1.81 s
Wall time: 1.8 s


# ndarray 생성 

In [8]:
data1 = [1,2,3,4,5]
array1 = np.array(data1) #np.arange : 다차원 배열 바로 만들어짐, np.array : 리스트를 다차원 배열로 만듬 
array1

array([1, 2, 3, 4, 5])

In [9]:
data2 = [
    [1,2,3,4],
    [5,6,7,8],
    [10.1,10.2,10.3,10.5]
] #리스트로 2차원 배열을 만드는 방법[[],[],[]]

In [10]:
array2 = np.array(data2)
array2

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7. ,  8. ],
       [10.1, 10.2, 10.3, 10.5]])

In [11]:
array2.ndim #다차원배열(ndarray)자료구조의 메쏘드

2

In [12]:
array2.shape

(3, 4)

In [13]:
array1.dtype #자료형 파악, 한개라도 float면 float64
array2.dtype 

dtype('float64')

In [16]:
np.zeros(10)


array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [17]:
np.zeros((4,5))
#np.ones

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [18]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

# numpy 데이터 타입

In [19]:
array1 = np.array([1,2,3], dtype = np.float64) #자료형은 float로 만든다. 

In [20]:
array1

array([1., 2., 3.])

In [21]:
array1.dtype

dtype('float64')

In [22]:
int_array = np.array([1,2,3])
int_array

array([1, 2, 3])

In [23]:
float_array = int_array.astype(np.float64) #기존에 다차원 배열의 자료형을 바꿀 수 있음.

In [24]:
float_array

array([1., 2., 3.])

In [25]:
int_array

array([1, 2, 3])

In [26]:
string_array = np.array(['1.0','2.0','3.0']) #다차원 배열의 자료형은 정수, 실수, 문자, 불 모두 가능함 

In [27]:
string_array

array(['1.0', '2.0', '3.0'], dtype='<U3')

In [28]:
float1_array = string_array.astype(np.float64)
float1_array

array([1., 2., 3.])

# ndarray의 산술연산
### for문을 작성하지 않고 일괄처리 가능함. 같은 크기의 배열간의 연산은 각 원소 단위로 대응되어 적용됨 

In [31]:
array = np.array([
    [1,2,3],
    [4,5,6]])

In [32]:
array

array([[1, 2, 3],
       [4, 5, 6]])

In [33]:
array * array

array([[ 1,  4,  9],
       [16, 25, 36]])

In [34]:
array + array

array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [35]:
array + 10

array([[11, 12, 13],
       [14, 15, 16]])

In [36]:
array /2

array([[0.5, 1. , 1.5],
       [2. , 2.5, 3. ]])

In [37]:
array **3

array([[  1,   8,  27],
       [ 64, 125, 216]], dtype=int32)

## 크기가 다른 배열간의 연산 
### 크기가 다른 배열간의 연산의 경우, 두 배열간의 차원의 크기가 중요함
### 차원의 크기가 맞으면(행 또는 열) numpy가 알아서 차원의 크기에 맞게 연산함 
### 크기가 다르다면 ValueError 발생시킴 

In [38]:
array1 = np.array([[1,2,3],
                   [4,5,6]])
array2 = np.array([7,8,9])

In [40]:
array1.shape , array2.shape #행의 크기는 달라도 열의 크기가 같음 

((2, 3), (3,))

In [41]:
array1 + array2

array([[ 8, 10, 12],
       [11, 13, 15]])

In [42]:
array1 * array2

array([[ 7, 16, 27],
       [28, 40, 54]])

# 색인, 슬라이스 기초

In [43]:
array = np.arange(10)
array

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [44]:
array[4]

4

In [45]:
array[3:8]

array([3, 4, 5, 6, 7])

In [46]:
array[3:8] = 10 #해당 index의 모든 원소를 10으로 변경한다
array

array([ 0,  1,  2, 10, 10, 10, 10, 10,  8,  9])

In [47]:
array_slice = array[3:8]

In [48]:
array_slice

array([10, 10, 10, 10, 10])

In [49]:
array_slice[:] = 99  #[:]전부를 의미한다 

In [50]:
array_slice

array([99, 99, 99, 99, 99])

In [51]:
array #복사한 다차원 배열은 원본과 연결되어 있어서 한곳을 바꾸면 다른 곳도 바뀐다. 

array([ 0,  1,  2, 99, 99, 99, 99, 99,  8,  9])

In [52]:
array[3:8] = 100

In [53]:
array_slice

array([100, 100, 100, 100, 100])

# ndarray 개별원소 접근
### d차원 배열의 개별원소에 접근하기 위해서는 []를 d개 사용해야함.

In [54]:
array = np.arange(32).reshape(8,4)
array

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [55]:
array[2][2]  #2행 2열 원소 

10

In [56]:
array[2,2] #위의 코드와 같은 의미 

10

In [57]:
array[:,2]

array([ 2,  6, 10, 14, 18, 22, 26, 30])

In [58]:
array1 = np.arange(32).reshape(4,2,4)
array1

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23]],

       [[24, 25, 26, 27],
        [28, 29, 30, 31]]])

In [60]:
#9와 13을 뽑고 싶다면
array1[1,:,1]

array([ 9, 13])

In [64]:
array = np.arange(32).reshape(8,4)
array

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [66]:
array.T #1,2차원 배열에서 전치는 T 이고 행과열을 바꾼다는 의미 

array([[ 0,  4,  8, 12, 16, 20, 24, 28],
       [ 1,  5,  9, 13, 17, 21, 25, 29],
       [ 2,  6, 10, 14, 18, 22, 26, 30],
       [ 3,  7, 11, 15, 19, 23, 27, 31]])

In [67]:
#3차원 이상에서 전치는 transpose로 차원을 뒤바꾸는 개념 
array1 = np.arange(32).reshape(2,4,4)
array1

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23],
        [24, 25, 26, 27],
        [28, 29, 30, 31]]])

In [68]:
transpose_array = array1.transpose(1,0,2) #axis1 : 행 : 4->2 axis0 2->4, axis2: 열 4->4
transpose_array

array([[[ 0,  1,  2,  3],
        [16, 17, 18, 19]],

       [[ 4,  5,  6,  7],
        [20, 21, 22, 23]],

       [[ 8,  9, 10, 11],
        [24, 25, 26, 27]],

       [[12, 13, 14, 15],
        [28, 29, 30, 31]]])

# 유니버셜 메소드
### 하나이상의 ndarray를 인자로 받아서 연산을 수행하는 numpy 제공 메소드

In [69]:
array = np.arange(10,20)

In [70]:
array

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [71]:
np.square(array) #다차원 배열의 각 원소를 제곱한다.

array([100, 121, 144, 169, 196, 225, 256, 289, 324, 361], dtype=int32)

In [72]:
np.sqrt(array)

array([3.16227766, 3.31662479, 3.46410162, 3.60555128, 3.74165739,
       3.87298335, 4.        , 4.12310563, 4.24264069, 4.35889894])

In [73]:
np.log10(array)

array([1.        , 1.04139269, 1.07918125, 1.11394335, 1.14612804,
       1.17609126, 1.20411998, 1.23044892, 1.25527251, 1.2787536 ])

In [74]:
array = np.array([0.2,0.4,0.6,0.8,1.0])

In [75]:
np.ceil(array) #올림 

array([1., 1., 1., 1., 1.])

In [76]:
np.round(array) #반올림 

array([0., 0., 1., 1., 1.])

### 2개 이상의 다차원 배열을 인자로 받는 유니버셜 메소드

In [77]:
array1 = np.arange(10)
array2 = np.arange(10,20)

In [79]:
np.add(array1, array2)
#add, subtract, multiply, divide, 

array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

In [85]:
array1 = np.array([1,20,30,11,23,80,401,1,1,1])

In [86]:
np.maximum(array1,array2) #두개의 다차원 배열의 원소를 각각 비교하고 각 경우 큰것을 선택하여 새로운 다차원 배열을 만든다.

array([ 10,  20,  30,  13,  23,  80, 401,  17,  18,  19])

In [87]:
np.power(array1, array2) #밑이 array1의 원소이고 지수가 array2

array([          1, -1220542464,   403968000,  -234981317,   929076081,
                 0, -1241771775,           1,           1,           1],
      dtype=int32)

## numpy 조건절 사용

In [88]:
array1 = np.array([1,-1,-2,3,1,2,-3])
array2 = np.array([1,3,2,1,-1,2,-3])

In [89]:
cond1 = array1 > 0 #다차원 배열과 대소기호 -> 결과값 boolen
cond2 = array2 > 0

In [90]:
cond1

array([ True, False, False,  True,  True,  True, False])

In [91]:
cond2

array([ True,  True,  True,  True, False,  True, False])

In [92]:
new_array = np.where(array1>0, 1, -1) #np.where(조건(결과값이 boolen), 참일때 값, 거짓일때 값)

In [93]:
new_array

array([ 1, -1, -1,  1,  1,  1, -1])

In [95]:
new_array = np.where(array1>1, array1, array2)

In [96]:
new_array

array([ 1,  3,  2,  3, -1,  2, -3])

# 수학/통계 메소드
### ndarray의 전체 또는 축을 따라서 수학/통계 연산을 수행하는 메소드
### axis를 인자로 받으면 해당 축을 기준으로 연산을 수행한다. 

In [97]:
array = np.arange(32).reshape(8,4)

In [98]:
array

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [99]:
array.sum() #다차원 배열 자료구조의 메소드 
            #mean,max,min,argmax,argmin : arg~ index반환 

496

In [100]:
array.sum(axis=0) #행이 아니라 열기준 합 

array([112, 120, 128, 136])

In [101]:
array.sum(axis=1) 

array([  6,  22,  38,  54,  70,  86, 102, 118])

# numpy 정렬 
### sort 메소드를 사용해 정렬, 새로운 배열을 반환하는 것이 아닌 해당 배열의 순서를 바꾼다. 

In [102]:
array = np.random.randn(10) #10개의 난수 반환 

In [103]:
array

array([-0.13919751,  0.07217332, -0.37724171, -1.40950615, -0.09089841,
       -0.2516636 ,  0.3326676 ,  0.86651502, -0.46529155, -2.24899564])

In [105]:
array.sort() #오름차순 

In [106]:
array

array([-2.24899564, -1.40950615, -0.46529155, -0.37724171, -0.2516636 ,
       -0.13919751, -0.09089841,  0.07217332,  0.3326676 ,  0.86651502])

In [107]:
reverse_array = array[::-1] #내림차순, 내림차순을 하고 싶다면 sort()한다음에 그것에 [::-1]

In [108]:
reverse_array

array([ 0.86651502,  0.3326676 ,  0.07217332, -0.09089841, -0.13919751,
       -0.2516636 , -0.37724171, -0.46529155, -1.40950615, -2.24899564])

In [109]:
array = np.random.randn(5,3)

In [110]:
array

array([[-1.05076486,  0.03449687,  0.20060273],
       [-0.87834318, -0.11974275, -1.49126521],
       [ 1.54636047, -2.37133073,  0.60719581],
       [ 0.60452162, -1.93112282,  1.05442128],
       [ 0.56716972, -1.49035214, -1.53586187]])

In [111]:
array.sort(axis=0) #열을 기준으로 오름차순정렬

In [112]:
array

array([[-1.05076486, -2.37133073, -1.53586187],
       [-0.87834318, -1.93112282, -1.49126521],
       [ 0.56716972, -1.49035214,  0.20060273],
       [ 0.60452162, -0.11974275,  0.60719581],
       [ 1.54636047,  0.03449687,  1.05442128]])

In [113]:
array.sort(axis=1)

In [114]:
array

array([[-2.37133073, -1.53586187, -1.05076486],
       [-1.93112282, -1.49126521, -0.87834318],
       [-1.49035214,  0.20060273,  0.56716972],
       [-0.11974275,  0.60452162,  0.60719581],
       [ 0.03449687,  1.05442128,  1.54636047]])

# 집합메소드

In [115]:
#np.unique(다차원배열) 해당 다차원 배열에서 중복되는 원소는 제거하고 유일한 원소만 살려서 다차원 배열을 새로 만듬 
                       #'a' 'a' 'b' --> 'a' 'b'

In [116]:
array1 = np.arange(10)
array2 = np.arange(5,15)

In [117]:
np.in1d(array1, array2) # array1의 원소가 array2에 있니? 위치는 상관없고 있다면 해당위치에 True를 반환한다.

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

# 행렬 연산 메소드

In [118]:
array = np.arange(8).reshape(4,2)

In [119]:
array_transpose = array.T

In [120]:
array

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [121]:
array_transpose

array([[0, 2, 4, 6],
       [1, 3, 5, 7]])

In [122]:
np.dot(array,array_transpose) #외적을 의미함, 차원이 맞아야한다. 수학에서 규칙이 똑같이 적용된다.

array([[ 1,  3,  5,  7],
       [ 3, 13, 23, 33],
       [ 5, 23, 41, 59],
       [ 7, 33, 59, 85]])

# 정리
### numpy, 다차원배열(ndarray)
### np.array(리스트), np.arange(시작, 끝, 단계).reshape(크기)
### np.zeros, np.ones, np.eye
### np.array([], dtype = np.float64)
### array2=array1.astype(np.float64)
### array1 + array2 ( + - / *)
### array1 +10 - / * **
### array1.ndim, shape
### 색인 
### array1.T, array1.transpose(축)
### 유니버셜 메소드(인자가 다차원 배열)
### np.square, sqrt, log10, ceil, round
### np.add,subtract, multiply,divide,maximum,minimum,power
### cond1 = array1 > 0
### np.where(array1 > 0, 1, -1)
### array1.sum,mean,min,max,argmin,argmax(axis= ~)
### array1 = np.random.randn(3,4)
### array1.sort()(axis= )
### array1[::-1]
### np.unique(배열)
### np.in1d(배열1, 배열2)
### np.dot(배열1, 배열2)
