## 대용량 데이터 배열을 효율적으로 처리
## 배열 객체, 산술 연산, 인덱싱 

In [1]:
import numpy as np

In [3]:
print(np.version)

<module 'numpy.version' from '/opt/anaconda3/lib/python3.11/site-packages/numpy/version.py'>


In [4]:
data1 = [5, 9, 2.5, 3, 1]
array1 = np.array(data1)
array1

array([5. , 9. , 2.5, 3. , 1. ])

### 같은 길이의 리스트를 포함한 순차 데이터는 리스트 수와 동일한 다차원의 배열로 변환

In [6]:
data2 = [[1, 3, 5, 7, 9], [2, 4, 6, 8, 10]]
array2 = np.array(data2)
array2

array([[ 1,  3,  5,  7,  9],
       [ 2,  4,  6,  8, 10]])

In [7]:
print(array2.ndim)
print(array2.shape)

2
(2, 5)


In [8]:
print(array1.dtype)
print(array2.dtype)

float64
int64


### 0배열 생성

In [13]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [11]:
np.zeros((5, 8))

array([[0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.]])

### 1배열 생성

In [10]:
np.ones((2, 3, 8))

array([[[1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1.]],

       [[1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1.]]])

In [12]:
np.ones((5, 8))

array([[1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1.]])

### 시작과 끝 수치 지정 배열 생성

In [None]:
np.arange(10)

In [None]:
np.arange(5, 30, 3) #시작, 종료, 단계 지정

### ndarry의 dtype 객체

In [16]:
#배열 생성 시, dtype 미리 지정하기

arr1 = np.array([1, 3, 5, 7, 9], dtype=np.float32)
arr2 = np.array([1, 3, 5, 7, 9], dtype=np.int16)

In [17]:
arr1.dtype

dtype('float32')

In [18]:
arr2.dtype

dtype('int16')

### astype() : dtype을 다른 타입으로 명시적 변환

In [15]:
arr2_float = arr2.astype(np.float64)
arr2_float.dtype

dtype('float64')

In [19]:
#실수 -> 정수 변환 시, 소수점 아래 자리 삭제됨

numStr = np.array(['-3.15', '5', '8.4', '21', '-12'], dtype=np.string_)
numStr.dtype

dtype('S5')

In [20]:
numStr = numStr.astype(float)
numStr

array([ -3.15,   5.  ,   8.4 ,  21.  , -12.  ])

In [21]:
numStr.dtype 

dtype('float64')

### 배열의 산술 연산

In [22]:
array1 = np.array([[1., 2., 3., 4., 5.], [6., 7., 8., 9., 10.]])
array2 = np.array([[1., 3., 5., 7., 9.], [2., 4., 6., 8., 10.]])

In [23]:
array1 * array2

array([[  1.,   6.,  15.,  28.,  45.],
       [ 12.,  28.,  48.,  72., 100.]])

In [24]:
array1 - array2

array([[ 0., -1., -2., -3., -4.],
       [ 4.,  3.,  2.,  1.,  0.]])

In [25]:
array1 + array2

array([[ 2.,  5.,  8., 11., 14.],
       [ 8., 11., 14., 17., 20.]])

In [26]:
1 / array1

array([[1.        , 0.5       , 0.33333333, 0.25      , 0.2       ],
       [0.16666667, 0.14285714, 0.125     , 0.11111111, 0.1       ]])

In [27]:
array2 ** 0.25

array([[1.        , 1.31607401, 1.49534878, 1.62657656, 1.73205081],
       [1.18920712, 1.41421356, 1.56508458, 1.68179283, 1.77827941]])

In [28]:
array1 > array2 #불리언 반환

array([[False, False, False, False, False],
       [ True,  True,  True,  True, False]])

### 인덱싱과 슬라이싱

In [33]:
array1d = np.arange(15)
array1d

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [34]:
array1d[7]

7

In [35]:
array1d[[7, 9]]

array([7, 9])

In [36]:
array1d[4:7]

array([4, 5, 6])

In [38]:
array1d[4:7] = 10
array1d

array([ 0,  1,  2,  3, 10, 10, 10,  7,  8,  9, 10, 11, 12, 13, 14])

In [39]:
array2d = np.array([[2, 4, 6], [3, 6, 9], [4, 8, 12]])
array2d

array([[ 2,  4,  6],
       [ 3,  6,  9],
       [ 4,  8, 12]])

In [40]:
array2d[1]

array([3, 6, 9])

In [41]:
array2d[1][2]

9

In [42]:
array2d[:2]

array([[2, 4, 6],
       [3, 6, 9]])

In [43]:
array2d[:2, :2]

array([[2, 4],
       [3, 6]])

In [45]:
array2d[[0,1], :2] #0행, 1행의 배열만 1열까지 슬라이싱

array([[2, 4],
       [3, 6]])

In [46]:
array2d[:, :1] #행은 전체 선택, 열은 1열까지만 슬라이싱

array([[2],
       [3],
       [4]])

### 난수 생성 (랜덤값)

In [None]:
import random #파이썬 내장 모듈 -> 한 번에 하나의 값만

In [47]:
# seed() : 난수 생성 시 초기에 시드값 정해놓고 생성하면 시드값에 따라 난수를 생성하는 알고리즘이 정해짐

np.random.seed(1000)

In [48]:
# rand() : 난수 생성(균등분포)

np.random.rand(5)

array([0.65358959, 0.11500694, 0.95028286, 0.4821914 , 0.87247454])

In [49]:
np.random.rand(10)

array([0.21233268, 0.04070962, 0.39719446, 0.2331322 , 0.84174072,
       0.20708234, 0.74246953, 0.39215413, 0.18225652, 0.74353941])

In [50]:
# rnadn() : 난수 생성(표준정규분포)

np.random.randn(10)

array([-0.4122031 , -0.07400906, -0.92893693,  1.39006147,  1.19506933,
        0.70734239,  0.99296211,  0.13946394, -0.08988248, -0.14974264])

In [51]:
np.random.randn(5, 3)

array([[ 0.4055338 , -0.75133127,  0.93131848],
       [-0.24745023, -0.27072883, -1.27939856],
       [-1.07900875, -0.08796666,  2.05225999],
       [-1.23931612,  1.10970741, -1.15768513],
       [ 0.09870641, -1.4651006 , -1.75193341]])

In [52]:
# randint() : 정수 난수 생성. 
# 기본 매개변수는 low, high, size. 
# high 값을 입력하지 않으면 0과 low 값 사이의 난수 생성 

np.random.randint(10, size=15) #0과 10 사이의 크기가 15인 배열

array([9, 6, 2, 9, 5, 8, 5, 6, 9, 6, 7, 6, 3, 4, 8])

In [53]:
np.random.randint(5, 25, size=10) #5와 25 사이의 크기가 10인 배열

array([ 6,  8, 18, 18, 18, 12, 23,  5,  9, 19])

In [55]:
# normal() : 난수 생성(정규분포)

np.random.normal(size=(5, 3)) #매개변수 loc과 scale을 지정하지 않으면 표준정규분포로부터 난수 생성 

array([[ 0.95223168, -1.50134896,  0.83922513],
       [-0.12254031,  1.25745192,  1.29882192],
       [ 0.35762263, -2.20641858,  0.17689153],
       [ 0.35002301,  1.36126025,  0.65295373],
       [ 0.34968236, -0.4264542 ,  0.31940268]])

### random 모듈에서 제공하는 난수 관련 함수

##### seed() : 난수를 생성하는 시드 지정
##### rand() : 균등분포로 실수인 난수 생성
##### randn() : 표준편차가 1이고 평균값이 0인 정규분포로 실수인 난수 생성
##### randint() : 지정한 최소, 최대 범위에서 정수인 난수 생성
##### normal() : 정규분포로 실수인 난수 생성
##### binomial() : 이항분포로 실수인 난수 생성
##### uniform() : 0~1 사이의 균등분포로 실수인 난수 생성

In [58]:
# shuffle() : 생성한 데이터 순서 변경

data = np.arange(10)
data

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [59]:
np.random.shuffle(data)
data

array([9, 4, 8, 5, 3, 6, 7, 1, 0, 2])

In [61]:
# choice() : 데이터 무작위 샘플링
# replace는 복원(True)/비복원(False) 

np.random.choice(10, 5, replace=False) #10까지의 정수 중 5개만 샘플링

array([2, 3, 5, 7, 1])

In [62]:
np.random.choice(10, 5, replace=True)

array([5, 0, 1, 1, 6])

In [63]:
#p : 각 원소의 선택 확률 지정
np.random.choice(3, 12, p=[0.3, 0.7, 0]) #3까지의 정수 중 12개만 샘플링

array([1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1])

In [64]:
np.random.choice(['apple', 'banana', 'orange'], 8) #문자열 내의 오브젝트를 이용하여 지정한 개수에 맞는 데이터 생성

array(['apple', 'orange', 'banana', 'orange', 'apple', 'banana', 'banana',
       'apple'], dtype='<U6')

### 통계 관련 함수

In [65]:
array = np.random.randint(30, size=20)
array

array([ 4, 25, 20, 10, 10,  0, 22, 20, 15, 23,  5, 16,  7,  9, 21,  6, 27,
       26, 19, 28])

In [66]:
len(array) #데이터 길이

20

In [67]:
np.mean(array) #데이터 평균값

15.65

In [68]:
np.median(array) #데이터 정렬 시 가운데 있는 수 (중앙값)

17.5

In [69]:
np.std(array) #데이터 표준편차

8.421846590861175

In [70]:
np.var(array) #데이터 표본분산

70.92750000000001

In [71]:
np.min(array) #데이터 최솟값

0

In [72]:
np.max(array) #데이터 최댓값

28

In [73]:
np.sum(array) #데이터 총합

313

In [74]:
array.cumsum() #각 원소의 누적합

array([  4,  29,  49,  59,  69,  69,  91, 111, 126, 149, 154, 170, 177,
       186, 207, 213, 240, 266, 285, 313])

In [75]:
array.cumprod() #각 원소의 누적곱 (숫자가 기준 이상으로 커지면 0 반환)

array([     4,    100,   2000,  20000, 200000,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0])

In [76]:
np.percentile(array, 0) #사분위수 최솟값

0.0

In [77]:
np.percentile(array, 25) #사분위수 25% 백분위수

8.5

In [78]:
np.percentile(array, 50) #사분위수 50% 백분위수

17.5

In [79]:
np.percentile(array, 75) #사분위수 75% 백분위수

22.25

In [80]:
np.percentile(array, 100) #사분위수 최댓값

28.0

### 불리언 배열 관련 함수

In [81]:
array = np.random.randn(50)
(array > 0).sum()

20

In [82]:
bools = np.array([1, 1, 0, 0])
bools

array([1, 1, 0, 0])

In [83]:
# any() : 데이터 중 1개 이상의 True 값 존재 여부

bools.any()

True

In [84]:
# all() : 데이터 전체가 True 값인지 

bools.all()

False

### 정렬 관련 함수

In [85]:
array = np.random.randint(20, size=10)
array

array([12,  7,  5, 19, 17, 18, 10, 10, 13,  7])

In [86]:
array.sort()
array

array([ 5,  7,  7, 10, 10, 12, 13, 17, 18, 19])

### 집합 관련 함수

In [90]:
# unique() : 유일값 - 배열 내에서 중복된 값을 모두 제거한 유일값만 정렬된 형태로 반환 

fruits = np.array(['apple', 'banana', 'apple', 'grape', 'kiwi', 'lemon', 'banana', 'lemon'])
fruits

array(['apple', 'banana', 'apple', 'grape', 'kiwi', 'lemon', 'banana',
       'lemon'], dtype='<U6')

In [91]:
np.unique(fruits)

array(['apple', 'banana', 'grape', 'kiwi', 'lemon'], dtype='<U6')

In [93]:
sorted(set(fruits)) #리스트 타입 반환

['apple', 'banana', 'grape', 'kiwi', 'lemon']

In [94]:
num = np.array([1, 5, 2, 1, 5, 8])
num

array([1, 5, 2, 1, 5, 8])

In [95]:
np.unique(num)

array([1, 2, 5, 8])

In [96]:
# intersect1d() : 2개 배열에 공통으로 존재하는 값 추출 (교집합)

num2 = np.array([1, 4, 6, 9, 2, 3, 5, 1])
num2

array([1, 4, 6, 9, 2, 3, 5, 1])

In [98]:
np.intersect1d(num, num2)

array([1, 2, 5])

### 배열 집합 연산 관련 함수

#### unique(x) : 배열 x 에서 중복되지 않는 유일한 값 반환
#### intersect1d(x, y) : 배열 x, y에 공통으로 존재하는 값 반환
#### union1d(x, y) : 배열 x, y의 합집합 반환
#### in1d(x, y) : 배열 x의 개별값이 y에 포함되는지 여부를 불리언 배열로 반환
#### setdiff1d(x, y) : x, y의 차집합 반환
#### setxor1d(x, y) : 1개의 배엘에는 포함되지만 2개의 배열 모두에는 포함되지 않는 원소들의 집합인 대칭차집합 반환