# 파이썬과 넘파이 모듈 차이점 이해하기 (Chapter 1)

## 배열 (Array) 구조 이해하기

- 리스트 구조
    - 리스트는 실제 원소의 객체를 저장하는 것이 아니라 이 객체의 레퍼런스를 관리합니다. 
    인덱스를 사용해서 검색하면 객체의 레퍼런스를 사용해서 객체 정보를 반환합니다.
    - 리스트도 배열이지만 내부의 원소는 다양한 자료형을 모두 가질 수 있습니다.

In [1]:
l =[[1,2,3],[4,5,6]]
type(l)

list

- 리스트 인덱스 검색
    - 리스트 내의 원소는 index 라는 정보를 가집니다. 원소를 하나 검색할 때 인덱스를 사용합니다.

In [2]:
l[0]

[1, 2, 3]

In [3]:
l[1]

[4, 5, 6]

- 리스트 내의 리스트 검색
    - 리스트 내에 리스트가 내포된 경우에 인덱스는 각각 지정됩니다. Enumerate를 사용해 인덱스 정보를 가져와서 출력해봅니다.

In [4]:
for i,a in enumerate(l):
    for j,b in enumerate(a):
        print(l[i][j])

1
2
3
4
5
6


- 다차원 배열 구조
    - 다차원 배열을 제공하는 넘파이는 별도로
    설치해야 하는 라이브러리입니다.
    - 넘파이 모듈을 사용하려면 먼저 import를 합니다. 
    - 다차원 배열은 하나의 자료형으로 구성된 원소로 처리됩니다.

In [5]:
import numpy as np

In [6]:
np.__version__

'1.26.4'

- 다차원 배열 클래스
    - 다차원 배열은 ndarray 클래스 입니다. 
    - 다차원 배열의 정보를 관리하는 다양한 속성을 가집니다. 

In [7]:
print(np.ndarray)

<class 'numpy.ndarray'>


In [8]:
np.ndarray.__name__

'ndarray'

In [9]:
for i in dir(np.ndarray):
    if not i.startswith('_'):
        if type(np.ndarray.__dict__[i]) != type(np.ndarray.var):
            print(i)

T
base
ctypes
data
dtype
flags
flat
imag
itemsize
nbytes
ndim
real
shape
size
strides


- 다차원 배열 만들기
    - 다차원 배열은 보통 array 함수를 사용해서 만듭니다. 
    - 이 함수에 리스트나 튜플을 인자로 넣고 다차원 배열을 하나 만듭니다

In [10]:
l = [1,2,3,4]

In [11]:
a = np.array(l)

In [12]:
a

array([1, 2, 3, 4])

In [13]:
type(a)

numpy.ndarray

In [14]:
t = (1,2,3,4)

In [15]:
b = np.array(t)

In [16]:
type(b)

numpy.ndarray

- 다차원 배열 데이터 관리
    - 다차원 배열이 만들어지면 데이터는 메모리에 관리합니다. 그 내부의 값을 속성으로 접근해서 확인할 수 있습니다.

In [17]:
a.data

<memory at 0x000001C9DC2293C0>

In [18]:
a.data.obj

array([1, 2, 3, 4])

In [19]:
type(a.data.obj)

numpy.ndarray

- 다차원 배열 자료형관리
    - array 함수에 dtype 매개변수에 자료형을 지정해서 다차원 배열을 만듭니다. 지정하지 않으면 내부적으로 추론해서 하나의 자료형을 결정합니다.

In [20]:
e = np.array(l,dtype=np.float64)
e

array([1., 2., 3., 4.])

In [21]:
e.dtype

dtype('float64')

- 2차원 배열의 정보 확인
    - 리스트가 내포된 리스트를 인자로 전달하면 2차원 배열이 만들어집니다. 
    - 배열의 정보인 형태(shape), 차원(ndim), 하나의 원소 크기(itemsize), 전체 원소 개수
    (size), 원소와 하나의 행의 바이트 크기(strides) 속성으로 확인합니다.

In [22]:
a2 = np.array([[1,2,3],[4,5,6]])

In [23]:
a2.shape

(2, 3)

In [24]:
a2.ndim

2

In [25]:
a2.dtype

dtype('int32')

In [27]:
a2.itemsize

4

In [28]:
a2.size

6

In [29]:
a2.strides

(12, 4)

- 다차원 배열 구조
    - 다차원 배열의 객체에서 관리하는 구조입니다. 
    - 속성으로 다차원 배열의 정보를 확인했습니다. 
- 대표적인 다차원 배열
    - 두 개의 다차원 배열을 지원합니다. 차이점은 Matrix는 행렬을 처리만 지원합니다.
    - 클래스의 상속관계를 확인하면 matrix 클래스는 ndarray를 상속해서 처리합니다. 

In [30]:
np.ndarray.__bases__

(object,)

In [31]:
np.matrix.__bases__

(numpy.ndarray,)

## 넘파이 모듈의 함수 특징

- 함수와 메소드
    - 넘파이 모듈은 동일한 기능을 가진 함수와 메소드를 제공합니다. 

In [32]:
(a != 0).any

<function ndarray.any>

In [33]:
np.any

<function any at 0x000001C9DC3B7370>

In [34]:
np.ndarray.any is np.core.fromnumeric.any

False

- 같은 이름의 함수와 메소드
    - 동일한 함수와 메소드들을 확인해봅니다. 

In [35]:
np_ = set(dir(np))

In [36]:
nd_ = set(dir(np.ndarray))

In [37]:
npd_ = np_ & nd_

In [38]:
len(npd_)

48

In [39]:
count = 0
for i in list(npd_):
    count += 1
    print(i, end=" ")
    if count % 5 == 0:
        print()

swapaxes cumprod compress trace std 
copy repeat resize partition ravel 
argsort choose size put take 
shape prod sort squeeze conj 
diagonal nbytes imag var ptp 
argmin clip reshape round __doc__ 
mean transpose max any conjugate 
__dir__ ndim all argmax sum 
real argpartition dot dtype min 
searchsorted cumsum nonzero 

- 유니버셜 함수
    - 넘파이 특징은 반복문을 사용하지 않는 계산입니다. 이런 기능을 벡터화 연산이라고
    하며 이를 지원하는 함수가 유니버셜 함수입니다. 

In [40]:
a = dir(np)

In [41]:
np.ufunc

numpy.ufunc

In [42]:
# count = 0
# for i in a:
#     if i == "Tester":
#         continue
#     if type(np.__dict__[i]) == np.ufunc:
#         print(i, end=" ")
#         count += 1
#         if count % 5 == 0:
#             print()

- 벡터화 연산
    - 4개의 원소를 가지는 두 개의 배열을 만듭니다. 이 두 배열의 곱셈을 수행할 때 별도의
    반복하는 코드가 필요없습니다. 
    - 벡터화연산은 배열의 같은 위치의 원소끼리 계산을 자동으로 처리하는 기능입니다.

In [43]:
a = np.arange(6,10)
a

array([6, 7, 8, 9])

In [44]:
b = np.arange(10,14)
b

array([10, 11, 12, 13])

In [45]:
c = a*b
c

array([ 60,  77,  96, 117])

- 축 연산
    - 1차원 배열을 만들고 2차원 배열로 변경한 후에 sum을 수행하면 전체의 원소를 합산합
    니다.
    - 2차원 배열은 두개의 축을 가지므로 각 축별로 계산이 가능합니다. 

In [46]:
a2 = np.array([1, 2, 3, 4])
a2

array([1, 2, 3, 4])

In [47]:
a2 = a2.reshape(2,2)
a2

array([[1, 2],
       [3, 4]])

In [48]:
np.sum(a2)

10

In [49]:
np.sum(a2, axis=0)

array([4, 6])

In [50]:
np.sum(a2, axis=1)

array([3, 7])

- 배열의 원소 개수 일치
    - 벡터화연산을 처리할 때 두 배열의 원소의 개수가 일치가 아주 중요합니다. 
    - 원소의 개수가 다른 경우는 shape가 다르다는 에러가 발생합니다.

In [51]:
a = np.array([4,5])
a.shape

(2,)

In [52]:
b = np.array([3,4,6])
b.shape

(3,)

In [53]:
try:
    a+b
except Exception as e:
    print(e)

operands could not be broadcast together with shapes (2,) (3,) 


## 배열 할당과 검색

- 배열을 다른 변수에 할당
    - 다차원 배열을 다른 변수에 할당하면 공유 즉 동일한 뷰를 제공합니다.
    - 특정 원소를 갱신하면 원본이 갱신됩니다. 

In [54]:
a = np.array([[1,2],[3,4]])
a

array([[1, 2],
       [3, 4]])

In [55]:
b = a

In [56]:
b

array([[1, 2],
       [3, 4]])

In [57]:
b[0] = 999
a

array([[999, 999],
       [  3,   4]])

In [58]:
b

array([[999, 999],
       [  3,   4]])

- 배열의 복사/뷰 확인
    - 새로운 다차원 배열로 사용하려면 copy 메소드를 사용해 다른 변수에 할당합니다.
    - 다차원 배열을 슬라이스해도 뷰이므로 동일한 배열을 공유합니다. 

In [59]:
f = np.array([4,5,6,7,8])

In [60]:
e = f.copy()

In [61]:
g = f[:]

In [62]:
g.base

array([4, 5, 6, 7, 8])

In [63]:
np.may_share_memory(g,f)

True

In [64]:
np.may_share_memory(g,e)

False

In [65]:
np.may_share_memory(f,e)

False

- 리스트 검색
    - 검색 기호는 대괄호([ ])이며 이 기호가 실행되면 내부적으로 getitem 스페셜 메소드가 실행되는 것입니다.
    - 슬라이스도 검색 기호에 slice 객체를 인자로 전달해 검색합니다

In [66]:
l = list(range(1,10))
l

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [67]:
index = 1

In [68]:
l.__getitem__(index)

2

In [69]:
index = slice(1,3)
l.__getitem__(index)

[2, 3]

- 다차원 배열 검색 1
    - 리스트와 동일한 방식으로 검색을 처리합니다. 

In [70]:
a = np.array([1,2,3,4,5,6,7])
index = 1
a.__getitem__(index)

2

In [71]:
index = slice(1,3)
a.__getitem__(index)

array([2, 3])

- 다차원 배열 검색 2
    - 다차원 배열은 검색할 때 배열을 인자로 전달해서 검색이 가능합니다 .
    - 배열을 정수나 논리 값으로 넣고 처리가 가능합니다. 

In [72]:
index = [1]
a.__getitem__(index)

array([2])

In [73]:
index = a < 4
index

array([ True,  True,  True, False, False, False, False])

In [74]:
a.__getitem__(index)

array([1, 2, 3])