###### 구조화된 데이터 필드는 기본적으로 다음 세 가지 형태로 정의됨
1. 리스트 (list) 형태 (일반적인 방식)
 - 각 필드는 튜플 (필드 이름, 데이터 타입, shape) 로 구성되며, 여러 필드를 리스트로 묶음
2. comma-separated 문자열 형태
 - 쉼표 ( , )로 구분하여 필드 타입만 지정하며, 자동으로 필드 이름이 f0, f1, f2, ... 형태로 부여됨
3. 딕셔너리 (dictionary) 형태
 - names와 formats 키를 사용하여 필드 이름과 데이터 타입을 각각 지정함


In [None]:
import numpy as np

In [None]:
# 3. 구조화된 데이터의 필드 정보

# 각 필드는 하나의 튜플로 구성되며, 이러한 튜플들이 리스트 형태로 나열됨
# 튜플의 구성 요소는 (필드 이름, 데이터 타입, shape) 이며, shape은 옵션

# (구조화된 데이터 구조가 아님)
# 일반적으로 저장하면 따로따로 관리해야 함
names = ["하츠투하츠", "이프아이", "키키"]
ages = [18, 20, 17]
heights = [165.5, 160.2, 170.8]



# 구조화된 데이터를 사용하면 하나로 묶을 수 있음
students1 = np.array([("하츠투하츠", 18, 165.5), # 하나의 필드
                     ("이프아이", 20, 160.2),    # 하나의 필드
                     ("키키", 17, 170.8)],       # 하나의 필드
        # 각 필드는 하나의 튜플로 구성 (필드 이름, 데이터 타입, shape)
        dtype=[("name", "U10"), ("age", np.int32), ("height", np.float32)])

# students1과 students2는 같음 -------------------------------------------

# 구조체 데이터 타입 정의
dt = np.dtype([("name", "U10"), ("age", np.int32), ("height", np.float32)])

# 구조화된 배열 생성
students2 = np.array([("하츠투하츠", 18, 168.5),
                     ("이프아이", 20, 160.2),
                     ("키키", 17, 165.2)], dtype=dt)

# 특정 필드(속성) 조회
print(students1["name"])   # ['하츠투하츠' '이프아이' '키키']
print(students1["age"])    # [18 20 17]
print(students1["height"]) # [168.5 160.2 165.2]
print('='*30)

# ------------------------------------------------------------------------

# S10: 바이트 문자열 (byte string) 타입, 총 10바이트까지 저장 가능
# 참고) 한글 한 글자는 보통 UTF-8에서 3바이트, UTF-16에서는 2바이트
# U10: 유니코드 문자열 (unicode string) 타입, 최대 10글자까지 저장 가능

# np.dtype([(), (), ()])
dt = np.dtype([('name', 'S10'), ('member', np.int32), ('height', np.float64)])

data = np.array([('GIdle', 5, 162.5), ('kiiikiii', 5, 165.2)], dtype=dt)

print(data['name'])   # [b'GIdle' b'kiiikiii']
print(data['member']) # [5 5]
print(data['height']) # [162.5 165.2]


['하츠투하츠' '이프아이' '키키']
[18 20 17]
[165.5 160.2 170.8]
[b'GIdle' b'kiiikiii']
[5 5]
[162.5 165.2]


In [None]:
# 3. 구조화된 데이터의 필드 정보

# 데이터 타입 np.int16
print(np.dtype(np.int16))


# np.int16를 포함하고 필드 이름 'f1'의 구조화된 타입

dt1 = np.dtype([('f1', np.int16)])
arr1 = np.array([(10,), (20,), (30,)], dtype=dt1)

print(arr1)
print(arr1['f1'])  # [10 20 30]
print(arr1.dtype)  # [('f1', '<i2')]    < little endian
# > big endian (메모리에 데이터를 저장할 때 MSB부터 저장)
# < little endian (메모리에 데이터를 저장할 때 LSB부터 저장)
# Intel (x86, x86-64) 시스템은 리틀 엔디안(Little-endian)을 따름

int16
[(10,) (20,) (30,)]
[10 20 30]
[('f1', '<i2')]


In [None]:
# 3. 구조화된 데이터의 필드 정보

# 중첩된 구조화 데이터 타입 (Nested dtype) : 이건 보지마....

dt2 = np.dtype([('f1', [('f2', np.int16)])])
arr2 = np.array([( (10,), ), ( (20,), )], dtype=dt2)

print(arr2), print('='*30)
print(arr2['f1'])        # [(10,) (20,)]
print(arr2['f1']['f2'])  # [10 20]
print(arr2.dtype)        # [('f1', [('f1', '<i2')])]


[((10,),) ((20,),)]
[(10,) (20,)]
[10 20]
[('f1', [('f2', '<i2')])]


In [None]:
# 3. 구조화된 데이터의 필드 정보

# 첫 번째 필드 unsigned int, 두 번째 필드는 int32의 구조화 타입
# uint: unsigned integer (0을 포함한 양의 정수)
dt1 = np.dtype([('f1', np.uint), ('f2', np.int32)]) # np.uint는 np.uint32로 해석됨
arr1 = np.array([(10, -5), (20, -10)], dtype=dt1)

print(arr1['f1'])  # [10 20]
print(arr1['f2'])  # [-5 -10]
print(arr1.dtype)

[10 20]
[ -5 -10]
[('f1', '<u4'), ('f2', '<i4')]


In [None]:
# 3. 구조화된 데이터의 필드 정보

# Array-protocol type strings
# => Numpy에서 데이터 타입을 문자열로 표현하는 방식

# dt2 = np.dtype([('a', 'f8'), ('b', 'S10')])
# 'f8' -> 64비트 부동소수점 (np.float64)
# 'S10' -> 길이 10의 문자열 데이터 (np.string_)

dt2 = np.dtype([('a', 'f8'), ('b', 'S10')])
arr2 = np.array([(3.14, 'hello'), (2.71, 'world')], dtype=dt2)

print(arr2['a'])  # [3.14 2.71]
print(arr2['b'])  # [b'hello' b'world']


[3.14 2.71]
[b'hello' b'world']


In [None]:
# 3. 구조화된 데이터의 필드 정보

# int는 고정형, 3은 필드의 shape, void는 크기가 10인 가변형의 튜플을 사용

# dt4 = np.dtype([('hello', (int, 3)), ('world', np.void, 10)])
# 'hello' 필드는 길이 3의 정수 배열
# 'world' 필드는 10바이트의 원시 데이터(바이너리 블록, np.void)를 저장

# dt4 = np.dtype([('hello', (int, 3)), ('world', np.void, 10)])
dt4 = np.dtype([('hello', int, 3), ('world', np.void, 10)])
arr4 = np.array([([1, 2, 3], b'abcdefghij')], dtype=dt4)

print(arr4['hello'])  # [[1 2 3]]
print(arr4['world'])  # 결과가 [b'abcdefghij'] 나오지 않고, 16진수 바이트로 나옴
                      # np.void는 타입 변환 없이 메모리에 저장된 값을 그대로 유지

print(arr4['world'].tobytes().decode())

[[1 2 3]]
[b'\x61\x62\x63\x64\x65\x66\x67\x68\x69\x6A']
abcdefghij


In [None]:
# 3. 구조화된 데이터의 필드 정보

# comma-separated 포맷을 사용 => comma로 데이터 타입을 정의

# dt3 = np.dtype('i4, (2, 3)f8') : 필드이름이 없으면 f0, f1 순으로 명명
# 'i4' -> 4바이트 정수(np.int32)
# '(2, 3)f8' -> 2×3 크기의 부동소수점 배열(np.float64)

# list 형태에서는 np.dtype([(필드명, 데이터타입, shape)])
dt3 = np.dtype('i4, (2,3)f8') # 데이터 타입만 넣음
arr3 = np.array([(1, [[1.1, 2.2, 3.3],
                      [4.4, 5.5, 6.6]])], dtype=dt3)
print(arr3)
print(arr3[0])     # (1, [[1.1 2.2 3.3] [4.4 5.5 6.6]])
print(arr3['f0'])  # [1] (정수 필드)
print(arr3['f1'])  # [[[1.1 2.2 3.3] [4.4 5.5 6.6]]] (2x3 부동소수점 배열)
print('='*40)

# comma-separate 대신 list 형태로 표현 (위와 결과가 같음)
dt0 = np.dtype([('f2','i4'), ('b','(2, 3)f8')])
arr0 = np.array([(1, [[1.1, 2.2, 3.3],
                      [4.4, 5.5, 6.6]])], dtype=dt0)

print(arr0[0])     # (1, [[1.1 2.2 3.3] [4.4 5.5 6.6]])
print(arr0['f2'])  # [1] (정수 필드)
print(arr0['b'])   # [[[1.1 2.2 3.3] [4.4 5.5 6.6]]] (2x3 부동소수점 배열)

[(1, [[1.1, 2.2, 3.3], [4.4, 5.5, 6.6]])]
(1, [[1.1, 2.2, 3.3], [4.4, 5.5, 6.6]])
[1]
[[[1.1 2.2 3.3]
  [4.4 5.5 6.6]]]
(1, [[1.1, 2.2, 3.3], [4.4, 5.5, 6.6]])
[1]
[[[1.1 2.2 3.3]
  [4.4 5.5 6.6]]]


In [None]:
# 3. 구조화된 데이터의 필드 정보

# int16을 x와 y의 2개의 int8로 분할하고 0과 1은 바이트로 된 옵셋

# x는 int16의 첫 번째 바이트(0번 인덱스), y는 두 번째 바이트(1번 인덱스)
dt1 = np.dtype((np.int16, {'x': (np.int8, 0), 'y': (np.int8, 1)}))
arr = np.array([(0x1234,)], dtype=dt1)  # 0x1234 = 4660 in decimal

# 0x1234는 16진수 -> 0001 0010 0011 0100 (2바이트)
# 리틀엔디안 기준으로 위의 2바이트는 메모리에 이렇게 저장됨
# - Byte 0: 0x34 (52 in decimal)
# - Byte 1: 0x12 (18 in decimal)

print(arr)         # [[4660]]
print(arr['x'])    # [[52]]
print(arr['y'])    # [[18]]

[[4660]]
[[52]]
[[18]]


In [None]:
# 3. 구조화된 데이터의 필드 정보

# 딕셔너리 형태
# - names & formats 방식
# --- names: 필드 이름 리스트 (필드명 'gender'와 'age')
# --- formats: 각 필드의 데이터 타입 리스트
dt2 = np.dtype({'names': ['gender', 'age'], 'formats': ['S1', np.uint8]})

arr2 = np.array([('M', 25), ('F', 30)], dtype=dt2)

print(arr2)
print(arr2['gender'])  # [b'M' b'F']
print(arr2['age'])     # [25 30]

[(b'M', 25) (b'F', 30)]
[b'M' b'F']
[25 30]


In [None]:
# 3. 구조화된 데이터의 필드 정보

# 오프셋 0과 25바이트
# (dtype, offset) 방식
dt = np.dtype({'surname': ('S25', 0), 'age': (np.uint8, 25)})
arr = np.array([("Jang", 20), ("Ahn", 22)], dtype=dt)

print(arr)
print(arr['surname'])  # 성(surname) 필드 출력
print(arr['age'])      # 나이(age) 필드 출력

[(b'Jang', 20) (b'Ahn', 22)]
[b'Jang' b'Ahn']
[20 22]


### --------------------------------------------------------------------------------------------------------------------------------

In [None]:
# 넘파이 배열 스칼라 타입의 연산

a = np.float32(5.0)     # 스칼라
print(type(a))

b = np.int_([1, 2, 3])  # 배열
print(type(b))

c = np.arange(5, dtype=np.uint16)   # 배열
print(type(c))


<class 'numpy.float32'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


In [None]:
# big-endian의 32비트의 정수를 가지는 데이터 타입

dt = np.dtype('>i4')

print(dt.byteorder)   # >
print(dt.name)  # int32, name 속성은 데이터 타입의 이름을 반환
print(dt.itemsize) # 4
print(dt.type is np.int32) # True

>
int32
4
True


In [None]:
# 16문자 string을 포함하는 구조화 데이터 타입과 2개의 64비트 sub_array

# (필드 이름, 데이터 타입, shape)
dt = np.dtype([('name', np.str_, 16), ('grades', np.float64, (2,))])
arr = np.array([('Jang', [90, 95])], dtype=dt)

# 2개가 들어가야 하는데, 3개를 입력해서 에러 발생
#arr = np.array([('Jang', [90, 95, 100])], dtype=dt)

print(arr)
print(arr['name'])
print(arr['grades'])
print(dt['name'])   # <U16
print(dt['grades']) # ('<f8', (2,))


[('Jang', [90., 95.])]
['Jang']
[[90. 95.]]
<U16
('<f8', (2,))


In [None]:
# 구조화 배열 ndarray의 데이터 타입

# 'name': 문자열(최대 10자), 'age': 4바이트 정수, 'weight': 4바이트 실수
dt = np.dtype([('name', 'U10'), ('age', 'i4'), ('weight', 'f4')])

arr = np.array([('jin', 25, 67.0), ('suho', 35, 77.5)], dtype=dt)

print(arr)
print(arr[1])
print('='*50)

print(arr['name'])
print(arr['name'][0])
print('='*50)

arr['age'] = 20
print(arr)
print('='*50)

arr['age'][0] = 34
print(arr)

[('jin', 25, 67. ) ('suho', 35, 77.5)]
('suho', 35, 77.5)
['jin' 'suho']
jin
[('jin', 20, 67. ) ('suho', 20, 77.5)]
[('jin', 34, 67. ) ('suho', 20, 77.5)]


In [None]:
# 구조화된 데이터 타입의 생성

# 리스트 (list) 형태 (일반적인 방식) (1)

dt = np.dtype([
    ('a', 'f4'),         # 필드 'a': float32
    ('b', np.float32),   # 필드 'b': float32
    ('c', 'f4', (2,2))   # 필드 'c': 2x2 float32 배열
])

arr = np.array([
    (1.0, 2.0, [[1.1, 1.2], [1.3, 1.4]]),
    (3.0, 4.0, [[2.1, 2.2], [2.3, 2.4]])
], dtype=dt)

'''
# dtype을 지정하지 않으면 에러가 발생함
arr = np.array([
    (1.0, 2.0, [[1.1, 1.2], [1.3, 1.4]]),
    (3.0, 4.0, [[2.1, 2.2], [2.3, 2.4]]) ])
'''

print(arr['a'])
print(arr['b'])
print(arr['c'])


[1. 3.]
[2. 4.]
[[[1.1 1.2]
  [1.3 1.4]]

 [[2.1 2.2]
  [2.3 2.4]]]


In [None]:
# 구조화된 데이터 타입의 생성

# 리스트 (list) 형태 (일반적인 방식) (2)

# 필드 이름이 빈 string인 ''이면 f#의 형태를 가지고 #은 필드의 정수 인덱스

dt = np.dtype([
    ('a', 'f4'),  # 필드 'a': float32
    ('', 'i4'),   # 이름 없는 필드: int32
    ('c', 'i8')   # 필드 'c': int64
])

arr = np.array([
    (1.5, 2, 100),
    (3.2, 4, 200)
], dtype=dt)

print(arr)         # 전체 배열 출력
print(arr['a'])    # 'a' 필드 접근
print(arr['f1'])   # 'f1' 필드 접근 (f0로 접근하면 에러 발생)
print(arr['c'])    # 'c' 필드 접근

[(1.5, 2, 100) (3.2, 4, 200)]
[1.5 3.2]
[2 4]
[100 200]


In [None]:
# 구조화된 데이터 타입의 생성

# 컴마로 구분하는(comma-separated) dtype string

dt = np.dtype('i8, f4, S3')
arr = np.array([(1234567890123, 45.67, 'abc')], dtype=dt)
print(arr)

# 3int8: 3개의 int8 (8비트 정수)를 갖는 배열 (크기 3, 각 값은 int8)
# float32: 32비트 부동 소수점 (float32) 타입
# (2, 3)float64: 2x3 크기의 float64 (64비트 부동 소수점) 배열
dt2 = np.dtype('3int8, float32, (2,3)float64')
#dt2 = np.dtype('(3,)int8, float32, (2,3)float64') # 위의 결과와 같음

arr2 = np.array([([1, 2, 3], 4.5, np.ones((2, 3))),
                 ([4, 5, 6], 7.8, np.ones((2, 3)))], dtype=dt2)
print(arr2)


[(1234567890123, 45.67, b'abc')]
[([1, 2, 3], 4.5, [[1., 1., 1.], [1., 1., 1.]])
 ([4, 5, 6], 7.8, [[1., 1., 1.], [1., 1., 1.]])]


In [None]:
# 구조화된 데이터 타입의 생성

# 필드 매개변수 배열의 딕셔너리

# names: 필드의 이름을 지정
# formats: 각 필드에 대한 데이터 타입을 지정
dt = np.dtype({'names': ['col1', 'col2'], 'formats': ['i4', 'f4']})
arr = np.array([(1, 2.5), (3, 4.5)], dtype=dt)

print(arr)

# offsets: 각 필드가 시작하는 위치(메모리 내에서의 오프셋)를 지정
#          이 방식은 메모리 배치를 명확히 조정할 때 사용됨
dt2 = np.dtype({'names': ['col1', 'col2'], 'formats': ['i4', 'f4'],
                'offsets': [0, 4], 'itemsize': 12})
arr2 = np.array([(1, 2.5), (3, 4.5)], dtype=dt2)

print(arr2)


[(1, 2.5) (3, 4.5)]
[(1, 2.5) (3, 4.5)]


In [None]:
# 구조화된 데이터 타입의 생성

# 필드 이름이 딕셔너리

# 'col1': 필드 이름은 'col1'이고, 데이터 타입은 i1 (1바이트 정수)
#         이 필드는 메모리에서 0번째 바이트부터 시작
# 'col2': 필드 이름은 'col2'이고, 데이터 타입은 f4 (4바이트 부동소수점)
#         이 필드는 메모리에서 1번째 바이트부터 시작
dt = np.dtype({'col1': ('i1', 0), 'col2': ('f4', 1)})
arr = np.array([(1, 2.5), (3, 4.5)], dtype=dt)

print(arr)


[(1, 2.5) (3, 4.5)]


In [None]:
# 구조화된 데이터 타입의 조작 및 표시

# 필드 이름의 list는 dtype객체의 names 속성에서 구함
dt = np.dtype([('a', 'i8'), ('b', 'f4')])

# dtype의 속성 fields의 키는 필드 이름, 값은 dtype과 바이트 옵셋을 포함한 tuples
print(dt.names)  # ('a', 'b')
print(dt.fields)  # 'a': (dtype('int64'), 0), 'b': (dtype('float32'), 8)}

('a', 'b')
{'a': (dtype('int64'), 0), 'b': (dtype('float32'), 8)}


In [None]:
dt2 = np.dtype('u1,u1,i4,u1,i8,u2', align=True)

print(dt2.names, dt2.itemsize)
print(dt2.fields['f0'])
print(dt2.fields['f1'])
print(dt2.fields['f2'])

('f0', 'f1', 'f2', 'f3', 'f4', 'f5') 32
(dtype('uint8'), 0)
(dtype('uint8'), 1)
(dtype('int32'), 4)


In [None]:
# 자동 바이트 옵셋과 정렬

def print_offsets(d):

    # 각 필드의 정보는 튜플 형태로 (type, offset)으로 저장되며,
    # offset은 그 필드가 메모리에서 시작하는 바이트 위치
    print("offsets:", [d.fields[name][1] for name in d.names])
    print("itemsize:", d.itemsize)

## 1번: 바이트 옵셋을 align 하지 않은 경우 -------------------
dt = np.dtype('u1,u1,i4,u1,i8,u2') # 복합 데이터 타입 정의
print_offsets(dt)
print('='*100)

# 객체 출력
print(f'dt: \n {dt}')
print(f'dt.itemsize: {dt.itemsize}')
print(f'dt.fields: \n {dt.fields}') # 각 필드는 (타입, 오프셋) 쌍으로 저장
print(f'dt.names: \n {dt.names}') # names는 데이터 타입의 필드 이름을 포함하는 리스트임
print(f"dt.fields['f0']: \n {dt.fields['f0']}") # 필드 'f0'에 대한 (타입, 오프셋) 정보를 출력
print(f"dt.fields['f0'][1]: \n {dt.fields['f0'][1]}") # f0 필드의 오프셋만 출력
print('='*100)

## 2번 바이트 옵셋을 align 한 경우 -------------------
# 정렬된 방식(align=True 옵션 사용)으로 dtype 정의 후 print_offsets 호출
# 정렬된 dtype은 필드가 특정 바이트 경계에서 시작하도록 배열을 정렬.
# 예를 들어, 4바이트 경계를 맞추기 위해 각 필드가 적절한 오프셋을 가질 수 있음
dt2 = np.dtype('u1,u1,i4,u1,i8,u2', align=True)
print_offsets(dt2)


offsets: [0, 1, 2, 6, 7, 15]
itemsize: 17
dt: 
 [('f0', 'u1'), ('f1', 'u1'), ('f2', '<i4'), ('f3', 'u1'), ('f4', '<i8'), ('f5', '<u2')]
dt.itemsize: 17
dt.fields: 
 {'f0': (dtype('uint8'), 0), 'f1': (dtype('uint8'), 1), 'f2': (dtype('int32'), 2), 'f3': (dtype('uint8'), 6), 'f4': (dtype('int64'), 7), 'f5': (dtype('uint16'), 15)}
dt.names: 
 ('f0', 'f1', 'f2', 'f3', 'f4', 'f5')
dt.fields['f0']: 
 (dtype('uint8'), 0)
dt.fields['f0'][1]: 
 0
offsets: [0, 1, 4, 8, 16, 24]
itemsize: 32


In [None]:
dt = np.dtype([('a', 'i1'), ('b', 'i4')], align=False)
print(dt.itemsize)  # 패딩 없이 메모리 크기

dt = np.dtype([('a', 'i1'), ('b', 'i4')], align=True)
print(dt.itemsize)  # 패딩을 고려한 전체 메모리 크기

5
8


In [None]:
# 필드 제목 (Field Titles)

x = np.dtype([(('my title', 'name'), 'f4')])
print(x.fields)
print(x.names)

np.dtype({'name': ('i4', 0, 'my title')})


{'name': (dtype('float32'), 0, 'my title'), 'my title': (dtype('float32'), 0, 'my title')}
('name',)


dtype([(('my title', 'name'), '<i4')])

In [None]:
# 파이썬 고유의 타입인 튜플로 할당

a = np.array([(1, 2, 3), (4, 5, 6)], dtype='i8, f4, f8')
print(a), print('-'*30)

a[1] = (7, 8, 9)
# a[1] = [7, 8, 9] # 리스트 형태로 값을 넣으면 에러가 발생

print(a)  # [(1, 2., 3.) (7, 8., 9.)]


[(1, 2., 3.) (4, 5., 6.)]
------------------------------
[(1, 2., 3.) (7, 8., 9.)]


In [None]:
# 스칼라 값으로 할당

print(np.zeros(2))

'''
# a는 4개의 필드를 가지는 구조화된 타입을 가진 요소 2개로 구성된 배열
a = np.zeros(2, dtype= 'i8, f4, ?, S1')   # '?': 불리언 값 (True/False)
print(a)  # [(0, 0., False, b'') (0, 0., False, b'')]
'''

a[:] = 7
print(a)  # [(7, 7.,  True, b'7') (7, 7.,  True, b'7')]

a[:] = np.arange(2)
print(a)  # [(0, 0., False, b'0') (1, 1.,  True, b'1')]


[0. 0.]
[(7, 7.,  True, b'7') (7, 7.,  True, b'7')]
[(0, 0., False, b'0') (1, 1.,  True, b'1')]


In [None]:
# 다른 구조화된 배열로부터 할당

# 'O': ojbject를 의미하는 객체 타입 -> 아무 값이나 저장 가능
a = np.zeros(3, dtype=[('a', 'i8'), ('b', 'f4'), ('c', 'S3')])
b = np.ones(3, dtype=[('x', 'f4'), ('y', 'S3'), ('z', 'O')])
print(a) # [(0, 0., b'') (0, 0., b'') (0, 0., b'')]
print(b) # [(1., b'1', 1) (1., b'1', 1) (1., b'1', 1)]

b[:] = a # 넘파이는 구조화 배열 간 대입 시 대상의 dtype을 유지하면서 값만 복사
print(b) # [(0., b'0.0', b'') (0., b'0.0', b'') (0., b'0.0', b'')]


[(0, 0., b'') (0, 0., b'') (0, 0., b'')]
[(1., b'1', 1) (1., b'1', 1) (1., b'1', 1)]
[(0., b'0.0', b'') (0., b'0.0', b'') (0., b'0.0', b'')]


### --------------------------------------------------------------------------------------------------------------------------------

In [None]:
# 기본 자르기 (Basic Slicing)와 색인 처리 (indexing)

arr1 = np.arange(10)

print(f'arr1: {arr1}')                  # [0 1 2 3 4 5 6 7 8 9]
print(f'arr1[1]: {arr1[1]}')            # 1
print(f'arr1[:6]: {arr1[:6]}')          # [0 1 2 3 4 5]
print(f'arr1[0:5]: {arr1[0:5]}')        # [0 1 2 3 4]
print(f'arr1[::2]: {arr1[::2]}')        # [0 2 4 6 8]
print(f'arr1[1::2]: {arr1[1::2]}')      # [1 3 5 7 9]
print(f'arr1[1:7:2]: {arr1[1:7:2]}')    # [1 3 5]
print(f'arr1[-3:9]: {arr1[-3:9]}')      # [7 8]
print(f'arr1[:-3]: {arr1[:-3]}')        # [0 1 2 3 4 5 6]
print(f'arr1[-3:2:-1]: {arr1[-3:2:-1]}')# [7 6 5 4 3]
print(f'arr1[5:2]: {arr1[5:2]}')        # [ ]
print(f'arr1[:-1]: {arr1[:-1]}')        # [0 1 2 3 4 5 6 7 8]
print(f'arr1[1::-1]: {arr1[1::-1]}')    # ::-1 역순 [1 0]
print(f'arr1[-3::-1]: {arr1[-3::-1]}')  # [7 6 5 4 3 2 1 0]

arr1: [0 1 2 3 4 5 6 7 8 9]
arr1[1]: 1
arr1[:6]: [0 1 2 3 4 5]
arr1[0:5]: [0 1 2 3 4]
arr1[::2]: [0 2 4 6 8]
arr1[1::2]: [1 3 5 7 9]
arr1[1:7:2]: [1 3 5]
arr1[-3:9]: [7 8]
arr1[:-3]: [0 1 2 3 4 5 6]
arr1[-3:2:-1]: [7 6 5 4 3]
arr1[5:2]: []
arr1[:-1]: [0 1 2 3 4 5 6 7 8]
arr1[1::-1]: [1 0]
arr1[-3::-1]: [7 6 5 4 3 2 1 0]


In [None]:
# 기본 자르기 (Basic Slicing)와 색인 처리 (indexing)

arr2 = np.arange(9).reshape(3,3)
print(arr2[0])
print(f'arr2: \n{arr2}\n')
print(f'arr2[2]: \n{arr2[2]}\n')           # [6 7 8]
print(f'arr2[2,1]: {arr2[2,1]}\n')         # 7
print(f'arr2[1:]: \n{arr2[1:]}\n')         # [[3 4 5], [6 7 8]]
print(f'arr2[:2, :2]: \n{arr2[:2, :2]}\n') # [[0 1], [3 4]]
print(f'arr2[:, ::-1]: \n{arr2[:, ::-1]}\n')
print(f'arr2[:,:]: \n{arr2[:,:]}\n')  # arr2[:] 와 같음
print(f'arr2[1, :]: {arr2[1, :]}')    # arr2[1] 와 같음

[0 1 2]
arr2: 
[[0 1 2]
 [3 4 5]
 [6 7 8]]

arr2[2]: 
[6 7 8]

arr2[2,1]: 7

arr2[1:]: 
[[3 4 5]
 [6 7 8]]

arr2[:2, :2]: 
[[0 1]
 [3 4]]

arr2[:, ::-1]: 
[[2 1 0]
 [5 4 3]
 [8 7 6]]

arr2[:,:]: 
[[0 1 2]
 [3 4 5]
 [6 7 8]]

arr2[1, :]: [3 4 5]


In [None]:
# 기본 자르기 (Basic Slicing)와 색인 처리 (indexing)

arr3 = np.reshape(np.arange(24), (2,3,4)) # depth(면,깊이)xrow(행)xcol(열)

print(f'arr3: \n{arr3}\n')
print(f'arr3[1]: \n{arr3[1]}\n')
print(f'arr3[1,1]: {arr3[1,1]}\n')
print(f'arr3[:2, 1:, :2]: \n{arr3[:2, 1:, :2]}\n')
print(f'arr3[0, 1:, :2]: \n{arr3[0, 1:, :2]}')


arr3: 
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]

arr3[1]: 
[[12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]]

arr3[1,1]: [16 17 18 19]

arr3[:2, 1:, :2]: 
[[[ 4  5]
  [ 8  9]]

 [[16 17]
  [20 21]]]

arr3[0, 1:, :2]: 
[[4 5]
 [8 9]]


In [None]:
# 고급 인덱싱 (1)

# 고급 색인 (인덱싱)

arr = np.array([[1, 2], [3, 4], [5, 6]])

print(arr)
print('='*30)

print(arr[[0, 1, 2], [0, 1, 0]])   # arr[[행 인덱스], [열 인덱스]]


[[1 2]
 [3 4]
 [5 6]]
[1 4 5]


In [None]:
# 고급 인덱싱 (2)

# 4x3배열 객체에서 고급 색인 처리의 사용

arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8], [9, 10, 11]])
print(arr), print('='*30)

rows = np.array([[0, 0], [3, 3]], dtype=np.intp)
columns = np.array([[0, 2], [0, 2]], dtype=np.intp)
print(rows), print('='*30)
print(columns), print('='*30)
print(arr[rows, columns])

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
[[0 0]
 [3 3]]
[[0 2]
 [0 2]]
[[ 0  2]
 [ 9 11]]
