<a href="https://colab.research.google.com/github/blackJJW/google_drive/blob/main/Python_practice.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Numpy**

## 01 배열(Array) 구조 이해
- 하나의 자료형, 원소를 순서에 맞춰 나열하는 자료구조
- Python -> 리스트(list) 제공
- 일반적 배열과 리스트의 차이 -> 리스트는 다양한 자료형인 클래스의 객체를 원소로 받음
- 다차원 배열은 배열의 기본 특징에 따라 모든 원소가 하나의 자료형


### 1.1 파이썬 리스트 구조 이해
- 리스트의 하나의 자료형은 Python에서 제공하는 최상위 클래스인 object
- 순차적으로 원소를 관리하는 것이 중요
- 원소를 저장하는 순서 -> 인덱스(Index) : 내부의 원소를 검색할 때 인덱스 정보 이용





> 파이썬 리스트의 구조
- Python에서 리스트를 만들면 저장되는 원소는 실제 값이 아닌 객체 레퍼런스
- 이 객체들은 순서를 지정하는 인덱스에 매칭되어 관리





> 리스트를 생성해서 각 원소에 접근
- 인덱스를 사용해서 검색하면 객체의 레퍼런스를 사용해서 객체 정보를 반환



In [1]:
# example - 1
l = [[1, 2, 3], [4, 5, 6]]

In [2]:
type(l)

list

In [3]:
l[0]

[1, 2, 3]

In [4]:
l[1]

[4, 5, 6]

In [5]:
# 리스트 객체의 모든 원소를 검색할 때는 순환문을 사용, 내부를 색인연산으로 조회
# 리스트의 인덱스와 원소를 가져오려면 'enumerate' 클래스를 사용
# 두 개의 순환문을 작성하는 이유 : 내포된 리스트의 원소까지 순환하면서 가져오기 때문

for i, a in enumerate(l):
  for j, b in enumerate(a):
    print(l[i][j])

1
2
3
4
5
6


### 1.2 다차원 배열의 구조 이해
- Numpy 모둘의 기본 배열 : 다차원 배열인 ndarray 클래스의 객체
- 이 배열은 하나의 자료형으로 만들어진 원소등릉 보관하는 컨테이너

In [6]:
import numpy as np # 기본 제공 모듈이 아니므로 import 필수

In [7]:
np.__version__

'1.21.5'

In [8]:
# 클래스에는 이름을 가지고 있고, 조회하려면 __name__ 속성 사용
print(np.ndarray)

<class 'numpy.ndarray'>


In [9]:
np.ndarray.__name__

'ndarray'

In [10]:
# 파이썬에서 클래스를 작성하념 속성과 메소드릉 관리하는 이름공간(namespace)이 만들어짐
# var 메소드 : 파이썬 내부에서 작성된 디스크립터(descriptor)의 클래스의 객체

type(np.ndarray.var)

method_descriptor

In [11]:
# dir 함수에 클래스를 인자로 전달하면 이름공간 내의 속성과 메소드의 이름을 문자열로 원소로 가진 리스트로 반환
# 파이썬 클래스는 연산자나 특별한 목적에 사용하는 스폐셜 속성과 스폐셜 메소드의 이름은 앞과 뒹에 밑줄(_)이 두 개씩 붙음

# 문자열 함수 startswith(시작하는 문자, 시작지점) : 문자열이 특정문자로 시작하는지 여부를 알려줌
# True 나 False를 반환

# 내부의 if문을 사용해서 ndarray 클래스의 이름공간인 __dict__에 문자열을 색인검색으로 가져와 var와 동일하지 않은 객체 만을 추출
# 추출된 결과는 ndarray 클래스에 관리하는 속성만 추출

for i in dir(np.ndarray):
  if not i.startswith("_"):
    if type(np.ndarray.__dict__[i]) != type(np.ndarray.var):
      print(i)

T
base
ctypes
data
dtype
flags
flat
imag
itemsize
nbytes
ndim
real
shape
size
strides




> ### 다차원 배열 생성
- 다차원 배열은 ndarray 클래스 생성자로 직접 배열을 만들지 않는다.
- 배열을 만드는 다양한 함수 제공



In [12]:
# example - 2 넘파이 배열 생
l = [1, 2, 3, 4]
a = np.array(l)

In [13]:
a

array([1, 2, 3, 4])

In [14]:
type(a)

numpy.ndarray

In [15]:
# 튜플을 array 함수에 전달, 다차원 배열 생성
t = (1, 2, 3, 4)

In [16]:
b = np.array(t)

In [17]:
type(b)

numpy.ndarray

- 다차원 배열은 실제 데이터를 관리하는 속성돠 이 데이터의 정보를 관리하는 메타속성을 구분해서 관리
- 데이터를 관리하는 속성은 data을 조회하면 메모리에 저장된 레퍼런스를 출력
- 데이터를 obj로 참조 -> 다차원 배열의 값을 보여줌

In [18]:
a.data

<memory at 0x7f99fa645a10>

In [19]:
a.data.obj

array([1, 2, 3, 4])

In [20]:
type(a.data.obj)

numpy.ndarray

- 다른 변수에 할당하면 다차원 배열을 관리하는 별칭(alias)가 더 만들어짐
- 속성 base는 다차원 배열의 메모리를 공유할 때 원본 레퍼런스를 저장
- 별칭을 사용하는 것은 동일한 다차원 배열을 공유하는 구조라서 base에는 아무것도 없음

In [21]:
b

array([1, 2, 3, 4])

In [22]:
c = b

In [23]:
c.base is b.base

True

In [24]:
# 첫 번째 원소 변경
c[0] = 100

In [25]:
c # 새로운 변수 c에 저장된 원소를 변경 -> 내부에 저장된 원본 배열을 변경

array([100,   2,   3,   4])

In [26]:
b # 모든 변수를 조회하면 다차원 배열의 변경 확인

array([100,   2,   3,   4])

- 다차원 배열을 복사해서 새로운 배열 생성
- 복사된 배열을 변경시 복사된 배열을 변경되지만, 원본은 변경되지 않는다.

In [27]:
d = np.array(b)

In [28]:
d[0] = 99

In [29]:
d

array([99,  2,  3,  4])

In [30]:
b

array([100,   2,   3,   4])

- 다차원 배열을 생성시, 자료형을 지정하지 않으면 내부의 원소를 보고 자동으로 추론


In [31]:
e = np.array(l, dtype=np.float)

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  """Entry point for launching an IPython kernel.


In [32]:
e

array([1., 2., 3., 4.])

In [33]:
e.dtype

dtype('float64')

- 2차원 배열
- 두 개의 축(axis), 행(row), 열(column)
- 행, 열의 개수 출력 -> shape 속성 -> 두 개의 원소를 가진 튜플로 반환
- 축의 개수 -> ndim 속성

In [34]:
a2 = np.array([[1, 2, 3], [4, 5, 6]])

In [35]:
a2.shape

(2, 3)

In [36]:
a2.ndim

2

In [37]:
a2.dtype

dtype('int64')

- 다차원 배열의 모든 원소는 동일한 길이로 구성
- 자료가 저장될 때 바이트(byte) 단위로 구성( 1 byte = 8 bit)
- itemsize 속성 : 크기 출력
- size 속성 : 원소의 개수 = shape 출력의 두 속성을 곱한 값


In [38]:
a2.itemsize

8

In [39]:
a2.size

6

In [40]:
a2.strides

(24, 8)

- 다차원 배열은 데이터를 저장할 때 내무에서는 1차원으로 구성해서 관리
- 다차원 배열을 두 개의 flatten과 ravel 메소드를 사용해서 1차원 배열로 조회 가능
- flatten과 ravel의 결과는 서로 다름
- 행렬을 flatten 메소드로 실행, 그 다음에 ravel메소드로 실행, 동일한 1차원 배열을 출력
- ravel 메소드는 내부 데이터를 그래로 반환하는 뷰(view) -> 원본 배열과 동일한 정보로 처리 -> 원소를 변경하면 원본 배열의 원소도 같이 변경
- 원소를 변경할 때 flatten 메소드를 사용해서 다른 다차원 배열을 만들어서 사용하는 것이 좋음

In [41]:
a2

array([[1, 2, 3],
       [4, 5, 6]])

In [42]:
a2.flatten()

array([1, 2, 3, 4, 5, 6])

In [43]:
a2.ravel()

array([1, 2, 3, 4, 5, 6])

In [44]:
# example - 3 넘파이 배열 원소 조회
a

array([1, 2, 3, 4])

In [45]:
l

[1, 2, 3, 4]

In [46]:
a[0]

1

In [47]:
l[0]

1

In [48]:
l2 = [[1, 2, 3], [4, 5, 6]]
l2

[[1, 2, 3], [4, 5, 6]]

In [49]:
a2

array([[1, 2, 3],
       [4, 5, 6]])

### 1.3 다차원 배열 클래스의 자료구조




In [50]:
# example - 1 넘파이 모듈의 배열 내부구조 확인
# 리스트를 내포해서 3차원으로 만듦

na = np.array([[[1, 2, 3,], [4, 5, 6]], [[1, 2, 3,], [4, 5, 6]]])
na

array([[[1, 2, 3],
        [4, 5, 6]],

       [[1, 2, 3],
        [4, 5, 6]]])

In [51]:
na.ndim

3

In [52]:
na.shape

(2, 2, 3)

In [53]:
na[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [54]:
na[0].shape

(2, 3)

- 여러 개의 메타 정보를 관리하는 속성을 한꺼번에 조회할 때는 __array_interface__ 스페셜 속성 사용 -> 대부분의 속성을 딕셔너리(dict)로 반환 

In [55]:
na.__array_interface__

{'data': (94082331182752, False),
 'descr': [('', '<i8')],
 'shape': (2, 2, 3),
 'strides': None,
 'typestr': '<i8',
 'version': 3}

- 이 배열의 데이터를 관리하는 data속성에 데이터를 tobytes 메소드로 확인 가능
- 다차원 배열은 리스트로 변환 가능 tolist

In [56]:
na.__array_interface__['data'][0]

94082331182752

In [57]:
len(na.data.tobytes())

96

In [58]:
na.data.tolist()

[[[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [4, 5, 6]]]

In [59]:
# example - 2 data 속성 관리 기준
a = np.array([1, 2, 3, 4])

In [60]:
a

array([1, 2, 3, 4])

In [61]:
a.data

<memory at 0x7f99fa6457a0>

In [62]:
# memoryview 클래스에 1차원 배열을 인라고 전달해서 메모리에 로딩하는 객체를 만들고 변수에 할당
mem = memoryview(a)

In [63]:
mem

<memory at 0x7f99fa645940>

In [64]:
# 배열의 원소들을 전부 16진수로 변환 -> hex
a.data.hex() 

'0100000000000000020000000000000003000000000000000400000000000000'

- 모든 원소를 순환할 수 있는 방식 -> flat 속성 사용 -> 하나의 반속자 제공 -> 이를 순환문에 작성해서 원소를 하나씩 조회

In [65]:
a.flat

<numpy.flatiter at 0x559140bab600>

In [66]:
for i in a.flat:
  print(i)

1
2
3
4


- 다차원 배열을 복사하지 않고 공유할 수 있음 -> frombuffer 함수에 배열을 인자로 전달해서 동일한 배열을 공유해서 사용
- 정수를 원소로 가진 리스트를 인자로 전달하지만 자료형은 float_ 인 실수
- 만들어진 배열의 원소를 확인하면 숫자 뒤에 점이 붙어서 실수를 표현
- frombuffer 함수로 공유해서 새로운 변수에 할당

In [67]:
c = np.array([1, 2, 3, 4], dtype=np.float_)

In [68]:
c

array([1., 2., 3., 4.])

In [69]:
x = np.frombuffer(c)

In [70]:
x

array([1., 2., 3., 4.])

- 배열의 정보들을 관리하는 정보인 flags 속성

In [71]:
x.dtype

dtype('float64')

In [72]:
x[0]

1.0

In [73]:
x.flags

  C_CONTIGUOUS : True
  F_CONTIGUOUS : True
  OWNDATA : False
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False
  UPDATEIFCOPY : False

### 1.4 다차원 배열의 두 클래스 비교
- 다차원 배열을 만드는 두 개의 클래스 ndarray와 matrix 제공
- 행렬만을 처리하는 matrix 클래스와 다양한 차원의 배열을 처리하는 ndarray로 구분
- 곱셈 연산자(*) : ndarray -> 요소간 곱, matrix -> 행렬곱





>예제 1 두 클래스 비교
- 상속관계 -> __base__ 속성
- matrix 클래스 -> ndarray 클래스를 상속하여 구현
- 상속관계가 중요한 것은 상위 클래스의 특징들을 하위 클래스에서 반영하여 구현
- 상위 클래스의 특징을 하면 하위 클래스에서 구현한 기능들을 예측 가능
- 여러 차원을 처리하는 ndarray을 상속을 받아서 matrix 클래스를 정의한 것은 다양한 차원에서 2차원으로 한정해서 처리


In [74]:
np.ndarray.__base__

object

In [75]:
np.matrix.__base__

numpy.ndarray



> 예제 1
- 동잏한 리스트를 인자로 전다해서 array 함수로 다차원 배열의 객체, matrix 클래스로 행렬의 객체를 만듬
- 만들어진 두 객체의 형상을 확인하면 다차원 배열은 1차원이지만 matrix 클래스의 객체은 항상 2차원



In [76]:
ll = np.array([1, 2, 3, 4, 5, 6, 7, 8])

In [77]:
ll.shape

(8,)

In [78]:
m1 = np.matrix([1, 2, 3, 4, 5, 6, 7, 8])

In [79]:
m1.shape

(1, 8)

In [80]:
l2 = ll.reshape(2, 4)

In [81]:
l2.shape

(2, 4)

In [82]:
m2 = m1.reshape(2, 4)

In [83]:
m2.shape

(2, 4)

In [84]:
# 3차원 형상으로 변경
# 다차원 배열은 형상을 변경할 수 있지만 2차원만 처리하는 matrix 클래스는 예외를 발생
# 이 클래스는 2차원인 행렬만 처리

l3 = l2.reshape(2, 2, 2)

In [85]:
try:
  m3 = m2.reshape(2, 2, 2)
except Exception as w:
  print(" 예외 ", e)

 예외  [1. 2. 3. 4.]


In [86]:
m2_1 = np.asmatrix(ll).reshape(2, 4)

In [87]:
m2_1

matrix([[1, 2, 3, 4],
        [5, 6, 7, 8]])