# 01. 배열 데이터를 효과적으로 다루는 Numpy
- list : 많은 데이터를 처리할 때, 고비용 저효율
- 배열 : 순서가 있는 같은 종류의 데이터가 저장된 집합, 사용하면 list보다 굉장히 빨라진다.
- 아나콘다 배포판에는 numpy 패키지가 포함되어있음.

### # list vs array
1. array
    - 장점: 인덱스를 가지므로 원하는 데이터에 빠르게 조회가
        가능.
        cache hit의 가능성이 커지므로 성능에 큰 도움.
        유관 데이터들을 메모리에 순차적으로 나열 가능
    - 단점 : 크기가 불변, 삭제된 데이터만큼 빈 공간(null)이 
        남는다.
        크기를 바꾸려면 새로운 배열을 생성, 데이터를 옮겨야한다.
        데이터의 순서를 바꾸기가 상당히 번거로움
        
2. list
    - 장점 : 순서가 있는 데이터를 빈틈없이 적재.
        불연속적이므로 메모리 관리의 편리? spacial locality가 
        보장되지 않으므로 cashe hit이 어렵다.
        데이터의 갯수가 가변이거나 데이터의 수정 및 삭제에 
        유연하다.
    - 단점 : 검색 성능이 좋지않다.


## 1-1. 배열 생성하기

In [5]:
import numpy as np

# seq 데이터를 이용한 배열 생성
data1=[0,1,2,3,4,5.0, 'a']
a=np.array(data1) # list를 array로 변환

del data1[3]
b=np.delete(a,3) # 인덱스 3을 지운 array 반환

print(data1)
print(a) # 어레이는 모두 같은 타입으로 저장됨(char U32 타입)
print(b) # 어레이도 리스트처럼 자동으로 빈자리 채움

[0, 1, 2, 4, 5.0, 'a']
['0' '1' '2' '3' '4' '5.0' 'a']
['0' '1' '2' '4' '5.0' 'a']


In [13]:
a.dtype # int 와 float가 섞이면 float로 출력됨

dtype('<U32')

In [9]:
np.arange(10) # 10까지 순차적인 값으로 저장

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [14]:
np.arange(5,10) #5부터 10까지 순차적으로 저장

array([5, 6, 7, 8, 9])

In [15]:
np.arange(5,10,3) # step3 을 부여하고 5를 포함하여 시작

array([5, 8])

In [17]:
np.arange(1,10,2,dtype='float') # 항목의 타입을 설정해 줄 수 있다.

array([1., 3., 5., 7., 9.])

In [21]:
arr=np.arange(6).reshape(2,3) 
# 3개 원소를 가진 어레이가 2개있는 2차원 어레이
# reshape 이 가능한 차원인지 확인.
arr

array([[0, 1, 2],
       [3, 4, 5]])

In [6]:
arr=np.array([[0, 1, 2],
       [3, 4, 5]])

type(arr.shape)

tuple

In [24]:
np.ones((3,4,2)) # 3차원어레이를 1로 초기화한다.
# np.zeros((3,4,2))

array([[[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]]])

In [26]:
np.empty((3,4,2)) # 초기화 되지않은 값으로 채워준다.(0,1,혹은 쓰레기값이 들어갈 수 있음)

array([[[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]]])

In [27]:
np.full((3,4,2),3) # 지정한 값으로 초기화한다.

array([[[3, 3],
        [3, 3],
        [3, 3],
        [3, 3]],

       [[3, 3],
        [3, 3],
        [3, 3],
        [3, 3]],

       [[3, 3],
        [3, 3],
        [3, 3],
        [3, 3]]])

In [28]:
np.eye(5) # 5*5 크기의 단위행렬 생성

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [32]:
np.linspace(1,10,4) #1부터 10까지 n-1개로 균등하게 나눌 수 있는 n개의 눈금을 반환

array([ 1.,  4.,  7., 10.])

In [34]:
np.linspace(1,np.pi) 
# n개를 지정하지 않으면 기본 50개의 눈금을 반환.
# PI는 np.pi 로 사용한다.

array([1.        , 1.04370597, 1.08741195, 1.13111792, 1.17482389,
       1.21852986, 1.26223584, 1.30594181, 1.34964778, 1.39335375,
       1.43705973, 1.4807657 , 1.52447167, 1.56817764, 1.61188362,
       1.65558959, 1.69929556, 1.74300153, 1.78670751, 1.83041348,
       1.87411945, 1.91782542, 1.9615314 , 2.00523737, 2.04894334,
       2.09264931, 2.13635529, 2.18006126, 2.22376723, 2.2674732 ,
       2.31117918, 2.35488515, 2.39859112, 2.44229709, 2.48600307,
       2.52970904, 2.57341501, 2.61712098, 2.66082696, 2.70453293,
       2.7482389 , 2.79194487, 2.83565085, 2.87935682, 2.92306279,
       2.96676876, 3.01047474, 3.05418071, 3.09788668, 3.14159265])

- Numpy 데이터 형식(dtype)
    1. b : bool
    2. i : 기호가 있는 정수, (signed) integer
    3. u : 기호가 없는 정수, (unsigned) integer
    4. f : float
    5. c : complex-float
    6. m : 날짜, datetime
    7. o : 파이썬 객체, object
    8. s/a : string
    9. U : Unicode

In [61]:
data2=['1','2','3',4]
arr2=np.array(data2)
arr2.dtype

dtype('<U1')

In [64]:
arr2_no=arr2.astype(int) # Unicode -> integer 형변환, 문자나 실수가 들어있으면 형변환 실패
arr2_no

array([1, 2, 3, 4])

In [74]:
a1=np.ones([3,2]).reshape([1,-1]) # -1은 알아서?
a1

array([[1., 1., 1., 1., 1., 1.]])

## 1-2. random배열 생성하기

In [90]:
np.random.rand(1,3) # 0~1 실수값으로 랜덤한 어레이를 생성

array([[0.02052194, 0.74134157, 0.55441023]])

In [92]:
np.random.randn(1,3) # 평균 0, 표준편차 1인 가우시안 분포애서 실수값으로 랜덤한 어레이를 생성

array([[-1.47474338, -1.97130492, -0.30267711]])

In [93]:
np.random.randint(10,13, size=(3,1)) # 10이상 12미만 정수를 랜덤으로 생성

array([[12],
       [10],
       [10]])

In [114]:
# seed : 랜덤한 값을 동일하게 다시 생성할 때 사용, seed를 바꾸지 않는한 random값은 유지된다.
np.random.seed(10)
np.random.rand(5)

array([0.77132064, 0.02075195, 0.63364823, 0.74880388, 0.49850701])

In [126]:
# random.choice( 고를 어레이, 만들려는 어레이 size )

sample_data=np.array([1,2,3,4,5,6])
np.random.choice(sample_data, size=(2,2), replace=False )
# raplce=Ture 일 때, sample에서 중복을 허용하여 랜덤 추출
# raplace=False 일 때, '원하는 size <= sample size' 이어야 한다.

array([[1, 5],
       [3, 2]])

In [131]:
np.random.normal(loc=0.0, scale=1.0, size=None) # 평균 0, 표준편차 0.1인 가우시안 분포애서 실수값으로 랜덤한 어레이를 생성

-0.9424580556112054

## 1-3. 배열의 연산

In [156]:
# 배열의 연산 : shape이 완벽히 일치해야 가능하다.
arr1=np.arange(1,5)
arr2=np.arange(5,9)

In [150]:
# 배열끼리의 덧셈
arr1+arr2

array([ 6,  8, 10, 12])

In [151]:
# 배열끼리의 뺄셈
arr1-arr2

array([-4, -4, -4, -4])

In [152]:
# 곱셈
arr1*2

array([2, 4, 6, 8])

In [153]:
# 거듭곱셈
arr1**2

array([ 1,  4,  9, 16], dtype=int32)

In [154]:
# 배열끼리의 곱셈
arr1*arr2

array([ 5, 12, 21, 32])

In [148]:
# 배열끼리의 나눗셈
arr2/arr1

array([5.        , 3.        , 2.33333333, 2.        ])

In [155]:
# 배열의 원소 filtering
arr1>3

array([False, False, False,  True])

### # 통계를 위한 연산

In [157]:
arr3=np.arange(5)
arr3

array([0, 1, 2, 3, 4])

In [158]:
[arr3.sum(), arr3.mean()]

[10, 2.0]

In [161]:
[arr3.std(), arr3.var()]
# 평균 standard, 분산 Variance 

[1.4142135623730951, 2.0]

In [162]:
[arr3.min(), arr3.max()]
# 최소, 최대

[0, 4]

In [163]:
arr4=np.arange(1,5)
arr4

array([1, 2, 3, 4])

In [166]:
arr4.cumsum()
# 누적합 cumluative sum

array([ 1,  3,  6, 10], dtype=int32)

In [167]:
arr4.cumprod() 
# 누적곱 cumluative product

array([ 1,  2,  6, 24], dtype=int32)

### #배열의 인덱싱과 슬라이싱

In [176]:
arr5=[1,2,3,4,5]
arr5[2:-1]

[3, 4]

In [191]:
arr6=np.arange(36).reshape(6,6)
arr6

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

In [192]:
arr6[1:3,1:4]
#1행, 2행의 인덱스 1,2,3을 짤라내기

array([[ 7,  8,  9],
       [13, 14, 15]])

In [196]:
#arr6.ravel()
# ravel : Return a flattened array.

# flatten: Return a copy of the array collapsed into one dimension.
temp=arr6.flatten(order="F")
temp[0]=500
print([temp,arr6])

[array([500,   6,  12,  18,  24,  30,   1,   7,  13,  19,  25,  31,   2,
         8,  14,  20,  26,  32,   3,   9,  15,  21,  27,  33,   4,  10,
        16,  22,  28,  34,   5,  11,  17,  23,  29,  35]), array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])]


In [202]:
a = np.arange(15)

a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [206]:
np.sum(a, axis=0) # x축(row)의 합

105

In [209]:
b=a.reshape(3,5)
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [212]:
np.sum(b,axis=1) #y축(column)의 합??

array([10, 35, 60])

In [213]:
# broadcasting 

a = np.arange(12).reshape(4,3)
b = np.arange(100, 103)
c = np.arange(1000, 1004)
d = b.reshape(1,3)

print(a.shape)
print(b.shape)
print(c.shape)
print(d.shape)
d

(4, 3)
(3,)
(4,)
(1, 3)


array([[100, 101, 102]])

In [214]:
a+b

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

### #행렬연산

In [173]:
A=np.array([0,1,2,3]).reshape(2,2) # 총 원소 수가 맞아야 reshape이 가능하다.
B=np.array([3,2,0,1]).reshape(2,2)

A.dot(B)
#np.dot(A,B) 와 같다.

array([[0, 1],
       [6, 7]])