Numpy ndarray
===============
- 동일 타입의 원소
- contiguous memory layout
- 메모리 최적화, 계산 속도 향상
- 벡터화 연산 가능

### 구현방식
- 일반 파이썬 List의 구현방식(Linked List)와 다르게 C의 배열(array)의 특성인 연속적인 메모리에 배치
- C의 array가 가지는 장점은 살리면서 파이썬의 직관적인 코딩 가능
- 인접한 메모리 배치는 다수의 선형대수 연산의 속도를 향상

In [2]:
import numpy as np  # 행렬이나 일반적으로 대규모 다차원 배열을 쉽게 처리할 수 있도록 지원하는 파이썬의 라이브러리

In [3]:
print(np.version.version)   # NumPy 모듈의 버전 찾기

1.23.1


In [4]:
array1 = np.array([x for x in range(6)]) # 넘파이 리스트 방식
list1 = [x for x in range(6)]            # 일반적인 파이썬 리스트 방식
print(array1)
print(list1)
print(type(array1))

[0 1 2 3 4 5]
[0, 1, 2, 3, 4, 5]
<class 'numpy.ndarray'>


In [19]:
list2 = [1,2,3,'a','b','c'] #파이썬 리스트는 여러가지 데이터를 같이 넣을 수 있음
print(list2)
array2 = np.array(list2)  # 똑같은 데이터타입만 가능 // 여러가지 데이터를 넣을 수는 있으나 하나의 데이터타입으로 저장됨
print(array2)
print(array2.dtype)

array3 = np.array([1,2,3,10.1,20.2,30.3])    # int와 float 데이터를 같이 넣었지만 float 타입으로 나옴
print(array3)
print(array3.dtype)

[1, 2, 3, 'a', 'b', 'c']
['1' '2' '3' 'a' 'b' 'c']
<U11
[ 1.   2.   3.  10.1 20.2 30.3]
float64


In [17]:
# 30에서 55사이 (55불포함) 홀수로 ndarray 만들기

array4 = np.array([x for x in range(31, 55, 2)], dtype = np.float64) #64비트까지 상세히 표시  #dtype : 데이터타입  #정수형 32비트, 부동소수점형 64비트
print(array4)

[31. 33. 35. 37. 39. 41. 43. 45. 47. 49. 51. 53.]


In [6]:
list5 = [x for x in range(10, 50, 2)]  # 파이썬의 일반 리스트 range에 float방식 x
print(list5)
array5 = np.arange(10., 50., 2.)    # 넘파이의 리스트 arange --> float방식 o
print(array5)

[10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48]
[10. 12. 14. 16. 18. 20. 22. 24. 26. 28. 30. 32. 34. 36. 38. 40. 42. 44.
 46. 48.]


In [28]:
# ndarray, -3.14에서 3.14R까지(stop), 스텝 0.5
array5 = np.arange(-3.14, 3.14, 0.5)  # arange 실수단위도 표현 range는 정수단위만 지원
print(array5)

[-3.14 -2.64 -2.14 -1.64 -1.14 -0.64 -0.14  0.36  0.86  1.36  1.86  2.36
  2.86]


In [30]:
array6 = np.linspace(10, 100, 5) # 시작숫자부터 마지막 숫자까지 균일한 숫자로 짤라서 가져옴(균일하게 분포)
print(array6)

array7 = np.linspace(-5, 5, 70)
print(array7)

[ 10.   32.5  55.   77.5 100. ]
[-5.         -4.85507246 -4.71014493 -4.56521739 -4.42028986 -4.27536232
 -4.13043478 -3.98550725 -3.84057971 -3.69565217 -3.55072464 -3.4057971
 -3.26086957 -3.11594203 -2.97101449 -2.82608696 -2.68115942 -2.53623188
 -2.39130435 -2.24637681 -2.10144928 -1.95652174 -1.8115942  -1.66666667
 -1.52173913 -1.37681159 -1.23188406 -1.08695652 -0.94202899 -0.79710145
 -0.65217391 -0.50724638 -0.36231884 -0.2173913  -0.07246377  0.07246377
  0.2173913   0.36231884  0.50724638  0.65217391  0.79710145  0.94202899
  1.08695652  1.23188406  1.37681159  1.52173913  1.66666667  1.8115942
  1.95652174  2.10144928  2.24637681  2.39130435  2.53623188  2.68115942
  2.82608696  2.97101449  3.11594203  3.26086957  3.4057971   3.55072464
  3.69565217  3.84057971  3.98550725  4.13043478  4.27536232  4.42028986
  4.56521739  4.71014493  4.85507246  5.        ]


In [34]:
array8 = np.zeros(10)  # 0을 열개, 빈 공간에 값을 넣어주기 위해서 만듬 
print(array8)
array9 = np.zeros(20)
array9[10] = 1    # 파이썬리스트에서의 그냥 빈 [] 리스트에서는 값을 넣으면 에러가 뜸
print(array9)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


In [36]:
list10 = [x for x in range(6)]
print(list10)
array10_1 = np.zeros(len(list10))
print(array10_1)
array10_2 = np.zeros_like(list10)  #위 과정을 간략화한 명령어
print(array10_2)

[0, 1, 2, 3, 4, 5]
[0. 0. 0. 0. 0. 0.]
[0 0 0 0 0 0]


In [38]:
array11 = np.arange(10, 50)
print(array11)
print(array11[::2])

[10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49]
[10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48]


In [40]:
print(array11.ndim) # 몇차원인지
print(array11.shape) # 몇차원인지, 몇개의 엘리먼트 개수를 보여줌  // 1차원일 경우 엘리먼트개수만 보여줌

1
(40,)


In [7]:
array12 = np.array([[1, 2, 3], [10, 20, 30]]) # 2차원
print(array12)
print(array12.ndim)
print(array12.shape) # 2차원 값이 3개씩이다.

array13 = array12.reshape(3,2)  # 3차원배열에 값을 2개씩인 형태로 바꾸겠다.
print(array13)
print(array13.ndim)
print(array13.shape)

[[ 1  2  3]
 [10 20 30]]
2
(2, 3)
[[ 1  2]
 [ 3 10]
 [20 30]]
2
(3, 2)


In [8]:
# -10 에서 30 사이(포함) 균일하게 분포하는 숫자를 20개를 shape(4,5)로 만들기.

array14 = np.linspace(-10, 31, 20).reshape(4, 5)
print(array14)

[[-10.          -7.84210526  -5.68421053  -3.52631579  -1.36842105]
 [  0.78947368   2.94736842   5.10526316   7.26315789   9.42105263]
 [ 11.57894737  13.73684211  15.89473684  18.05263158  20.21052632]
 [ 22.36842105  24.52631579  26.68421053  28.84210526  31.        ]]
2


In [60]:
array15 = np.arange(100, 120).reshape(4, 5)
print(array15)
print(array15[3, 2])  # 3번 인덱스에서 2번째
print(array15[2:4, 0:3]) # 2차원 3차원 배열에서 0번부터 2번 인덱스까지 
print(array15[2:,:3])

[[100 101 102 103 104]
 [105 106 107 108 109]
 [110 111 112 113 114]
 [115 116 117 118 119]]
117
[[110 111 112]
 [115 116 117]]
[[110 111 112]
 [115 116 117]]


In [63]:
x = (array15 % 2 == 0)    # True False 값으로 반환
print(x)
print(array15[x])   # True값만 가져옴  // for문을 사용하지 않아도 가능함
print(array15[array15 % 2 == 0])  # 블록 캐스팅  #조건에 맞는 값만 들고옴

[[ True False  True False  True]
 [False  True False  True False]
 [ True False  True False  True]
 [False  True False  True False]]
[100 102 104 106 108 110 112 114 116 118]
[100 102 104 106 108 110 112 114 116 118]


In [67]:
array16 = np.array([1,2,3,4,5])
x = array16[1:3].copy()    # 값을 복사안하면 원본이 바뀜
x[0] = 10    #슬라이싱한 값에서 바뀌면서 원본파일이 변형될 수 있음 / 그래서 .copy를 사용
print(x)
print(array16)

[10  3]
[1 2 3 4 5]


In [9]:
a1 = np.arange(10, 15)
a2 = np.arange(20, 25)
a2_2 = np.arange(30, 35)
print('a1', a1)
print('a2', a2)
a3 = np.vstack((a1, a2, a2_2)) # 리스트들을 묶어서 n차원 배열로 만듬(수직으로 묶음) // ()가 하나더 있는것은 튜플형태로 넘겨줘야 오류가 발생안함
print('a3', a3)
a4 = np.hstack((a1, a2)) #수평으로 값을 묶음
print('a4', a4)
a2[0] = 100
print('a2', a2)
print('a4', a4)

a1 [10 11 12 13 14]
a2 [20 21 22 23 24]
a3 [[10 11 12 13 14]
 [20 21 22 23 24]
 [30 31 32 33 34]]
a4 [10 11 12 13 14 20 21 22 23 24]
a2 [100  21  22  23  24]
a4 [10 11 12 13 14 20 21 22 23 24]


In [84]:
a1 = np.arange(10, 19).reshape(3, 3)
a2 = np.arange(20, 29).reshape(3, 3)

print(a1)
print('............')
print(a2)
print('............')
a3 = np.vstack((a1, a2))
print(a3)
print('............')
a4 = np.hstack((a2, a1))
print(a4)

[[10 11 12]
 [13 14 15]
 [16 17 18]]
............
[[20 21 22]
 [23 24 25]
 [26 27 28]]
............
[[10 11 12]
 [13 14 15]
 [16 17 18]
 [20 21 22]
 [23 24 25]
 [26 27 28]]
............
[[20 21 22 10 11 12]
 [23 24 25 13 14 15]
 [26 27 28 16 17 18]]


In [83]:
a1 = np.arange(10, 15)
a2 = np.arange(20, 25)
print(a1)
print(a2)

list1 = [1,2,3,4,5]
list2 = [10,20,30,40,50]
print(list1 + list2) # 파이썬 리스트는 두개가 묶임

s1 = 'abc'
s2 = 'def'
print(s1 + s2)
print(a1 + a2)  # np는 리스트 값이 더해짐


[10 11 12 13 14]
[20 21 22 23 24]
[1, 2, 3, 4, 5, 10, 20, 30, 40, 50]
abcdef
[30 32 34 36 38]


In [85]:
a1 = np.arange(10, 50).reshape(4, 10)
print(a1)

[[10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]]


In [90]:
print(np.vsplit(a1, 2))  # 반으로 쪼갬(수평으로 나눔) // 2등분으로 쪼갬

[array([[10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29]]), array([[30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49]])]


In [89]:
x = np.hsplit(a1,2)    # 반으로 쪼갬(수직으로 나눔) // 2등분으로 쪼갬
print(type(x))   # 파이썬 리스트에 2등분한 첫번째 np어레이와 두번째 np어레이를 넣음
print(x)

<class 'list'>
[array([[10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]]), array([[15, 16, 17, 18, 19],
       [25, 26, 27, 28, 29],
       [35, 36, 37, 38, 39],
       [45, 46, 47, 48, 49]])]


In [96]:
# axis  --> 축
def pinfo(x):
    print(x)
    print(x.shape)
    
a1 = np.arange(1, 6)   # 1차원 배열
pinfo(a1)

a2 = a1[np.newaxis, :]   # newaxis 는 1 ?  배열 인덱싱에 사용되는None의 별칭, NumPy 배열에 새로운 차원을 추가하는 것
pinfo(a2)

a3 = a1[:, np.newaxis]
pinfo(a3)

[1 2 3 4 5]
(5,)
[[1 2 3 4 5]]
(1, 5)
[[1]
 [2]
 [3]
 [4]
 [5]]
(5, 1)


- case 1: axis=None
 : axis를 기본값으로 실행하면 대상 데이터의 모든 요소의 합을 반환합니다.
- case 2: axis=0
 : axis=0는 x축을 기준으로 합을 구하는 방식입니다. x축 row를 합산입니다.
- case 3: axis=1
 : axis=1은 y축을 기준으로 합을 구하는 방식입니다.
- case 4: axis=2
 : axis=2는 z축을 기준으로 합을 구하는 방식입니다.
 
 ---------------------------------------------------------------------------------
 ### 정리
- axis=None은 기본값으로 모든 요소의 값을 합산하여 1개의 스칼라값을 반환합니다.
- axis=0은 x축을 기준으로 여러 row를 한 개로 합치는 과정입니다.
- axis=1은 y축을 기준으로 row 별로 존재하는 column들의 값을 합쳐 1개로 축소하는 과정입니다.
- axis=2는 z축을 기준으로 column의 depth가 가진 값을 축소하는 과정입니다.

In [10]:
a1 = np.arange(10)
print(a1, a1.sum())
a2 = np.arange(20).reshape(2, 10)
print(a2.shape)
print(a2, a2.sum(axis=0))  # ? axis=0 (행=0, 열=1) 즉, 행 방향
print(a2, a2.sum(axis=1))  # ? axis=1 (행=0, 열=1) 즉, 열 방향

[0 1 2 3 4 5 6 7 8 9] 45
(2, 10)
[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]] [10 12 14 16 18 20 22 24 26 28]
[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]] [ 45 145]
