### 파이썬 정수는 정수 이상이다

- 파이썬의 정수는 C 구조체로 구성되어 있음

struct _longobject {

    long ob_refcnt; 파이썬이 메모리 할당과 해제를 처리할 수 있게 돕는 참조 횟수
    
    PyTypeObject * ob_type; 변수 타입을 인코딩
    
    size_t ob_size; 다음 데이터 멤버의 크기를 지정
    
    long ob_digit[1]; 파이썬 변수가 나타내는 실제 정숫값을 포함
    
}

- 위와 같이 타입에 대한 객체로 관리하기 때문에 동적 타이핑이 가능
- 유연하지만 더 느리다

### 파이썬 리스트는 리스트 이상이다
- 동적타이핑으로 인해 리스트는 서로 다른 데이터 타입의 요소를 담는 리스트를 만들 수 있다

In [5]:
L = list(range(10))
L

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [7]:
L2 = [str(c) for c in L]
L2

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [9]:
L3 = [1, True, "3", '4']
L3

[1, True, '3', '4']

### 파이썬의 고정 타입 배열
- 데이터를 효율적인 고정 타입 데이터 버퍼에 저장하는 다양한 방식을 제공

In [15]:
import array
L = list(range(10))
A = array.array('i', L) # python 3.3 + 
A

array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

파이썬의 array 객체는 배열 기반의 데이터에 효율적인 저장소를 제공하는 반면, Numpy는 그 데이터에 효율적인 연산을 추가한다. 

In [16]:
import numpy as np

### 파이썬 리스트에서 배열 만들기
- 파이썬 리스트와 달리 NumPy는 배열의 모든 요소가 같은 타입이어야 한다
- 타입이 일치하지 않으면 NumPy는 가능한 경우 상위 타입을 취하게 된다

In [26]:
a = np.array([1,4,2,5,3])
print(a)
b = np.array([1.3,4,2,5,3]) ## 상위 타입인 부동소수점으로 변환됨
print(b)
c = np.array([1.3,4,2,5,3], dtype='float32')
print(c)
d = np.array([1.3,4,2,5,3], dtype='int')
print(d)

[1 4 2 5 3]
[1.3 4.  2.  5.  3. ]
[1.3 4.  2.  5.  3. ]
[1 4 2 5 3]


파이썬 리스트와는 달리 NumPy 배열은 명시적으로 다차원이 가능하다.

In [31]:
np.array([range(i, i+3) for i in [2,4,6]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

In [35]:
np.array([[2,3,4],[4,5,6],[6,7,8]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

In [36]:
list([[2,3,4],[4,5,6],[6,7,8]])

[[2, 3, 4], [4, 5, 6], [6, 7, 8]]

### 처음부터 배열 만들기
규모가 큰 배열의 경우에는 NumPy에 내장된 루틴을 사용해 처음부터 배열을 생성하는 것이 효율적이다

In [42]:
# 0으로 채운 길이 10의 정수 배열 만들기
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [45]:
# 1로 채운 3x5 부동 소수점 배열 만들기
np.ones((3,5), dtype=int)

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

In [46]:
# 3.14로 채운 3x5 배열 만들기
np.full((3,5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [53]:
# 선형 수열로 채운 배열 만들기
# 0에서 시작해 2씩 더해 20까지 채움
# 내장 함수인 range와 유사
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [55]:
# 0과 1 사이에 일정한 간격을 가진 다섯 개의 값으로 채운 배열 만들기
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [58]:
# 0과 1 사이의 난수로 채움
np.random.random((3,3))

array([[0.12484643, 0.20069589, 0.82571643],
       [0.16795291, 0.36716719, 0.56102823],
       [0.70772463, 0.3622841 , 0.24593137]])

In [61]:
# 정규 분포(평균=0, 표준 편차=1)의 난수로 채운 3x3 배열 만들기
np.random.normal(0,1, (3,3))

array([[ 0.23665147, -1.55508605,  0.21360156],
       [ 0.1923302 , -0.26543036, -0.84910704],
       [ 0.03007079, -0.58943388, -0.19421852]])

In [63]:
# [0,10] 구간의 임의의 정수로 채운 3x3 배열 만들기
np.random.randint(0, 10, (3,3))

array([[0, 1, 3],
       [1, 6, 8],
       [7, 3, 3]])

In [64]:
# 3x3 단위 행렬 만들기
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [70]:
# 세 개의 정수를 가지는 초기화되지 않은 배열 만들기
# 값을 해당 메모리 위치에 이미 존재하고 있는 값으로 채움
np.empty(3)

array([1., 1., 1.])

## NumPy 배열의 기초
Pandas도 NumPy 배열을 기반으로 만들어졌다. 

##### 배열 속성 지정
배열의 크기, 모양, 메모리 소비량, 데이터 타입을 결정
##### 배열 인덱싱
개별 벼열 요솟값을 가져오고 설정
##### 배열 슬라이싱
큰 배열 내에 있는 작은 하위 배열을 가져오고 설정
##### 배열 재구조화
해당 배열의 형상을 변경
##### 배열 결합 및 분할
여러 배열을 하나로 결합하고 하나의 배열을 여러 개로 분할

### NumPy 배열 속성 지정

In [87]:
# 항상 같은 난수가 생성될 수 있도록 난수 코드를 지정
np.random.seed(0) 

x1 = np.random.randint(10, size=6)
x2 = np.random.randint(10, size=(3,4))
x3 = np.random.randint(10, size=(3,4,5))

print(x1.ndim)  # 배열의 차원
print(x2.shape) # 배열의 모양
print(x3.size)  # 배열의 크기
print(x3.dtype) # 배열의 데이터 타입
print(x3.itemsize) # 배열의 요소의 크기를 바이트 단위로
print(x3.nbytes) # 배열의 전체 크기를 바이트 단위로

1
(3, 4)
60
int32
4
240


### 배열 인덱싱: 단일 요소에 접근하기

In [91]:
# 일차원 배열의 접근
print(x1)
print(x1[0])
print(x1[-1])

[5 0 3 3 7 9]
5
9


In [93]:
# 다차원 배열의 접근
print(x2)
print(x2[0,0])
print(x2[2,-1])

[[3 5 2 4]
 [7 6 8 8]
 [1 6 7 7]]
3
7


### 배열 슬라이싱: 하위 배열에 접근하기
콜론(:) 기호로 표시되는 슬라이스 표기법으로 하위 배열에 접근할 수 있다. NumPy 슬라이싱 구문은 표준 파이썬 리스트의 구문을 따른다. 

In [98]:
x= np.array(range(10))
print(x)

[0 1 2 3 4 5 6 7 8 9]


In [103]:
print(x[1:3])
print(x[1:])
print(x[1:-2])
print(x[::2])
print(x[::-1])

[1 2]
[1 2 3 4 5 6 7 8 9]
[1 2 3 4 5 6 7]
[0 2 4 6 8]
[9 8 7 6 5 4 3 2 1 0]


### 사본이 아닌 뷰로서의 하위 배열
배열 슬라이스가 배열 데이터의 사본(copy)가 아니라 뷰(view)를 반환한다는 점. 이는 NumPy 배열 슬라이싱이 파이썬 리스트 슬라이싱과 다른 점 중 하나. 리스트에서 슬라이스는 사본이다. 

In [107]:
print(x2)
sliceX2 = x2[:2,:2]
sliceX2

[[3 5 2 4]
 [7 6 8 8]
 [1 6 7 7]]


array([[3, 5],
       [7, 6]])

In [109]:
sliceX2[0,0] = 99
print(x2)

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


In [111]:
# copy 명령을 이용하여 복사를 할 수 있음
sliceX2 = x2[:2,:2].copy()
sliceX2[0,0] = 123

print(x2)

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


### 배열 재구조화
배열의 형상을 변경. reshape()

In [117]:
# 배열의규모가 변경될 규모와 일치해야 한다 (가능하면 뷰를 사용하지만 연속되지 않은 메모리 버퍼일 경우에는 복사가 이루어질 수도 있음)
x1 = np.arange(1, 10)
x2 = x1.reshape(3, 3)

print(x1)
print(x2)

[1 2 3 4 5 6 7 8 9]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [119]:
x = np.array([1,2,3])
x

array([1, 2, 3])

In [121]:
x.reshape(1,3)

array([[1, 2, 3]])

In [122]:
x[np.newaxis, :]

array([[1, 2, 3]])

In [123]:
x.reshape(3,1)

array([[1],
       [2],
       [3]])

In [127]:
x[:, np.newaxis]

array([[1],
       [2],
       [3]])

### 배열 연결 및 분할
하나의 배열을 여러 개의 배열로 분할하는 것도 가능

##### 배열 연결

In [135]:
x = np.array([1,2,3])
y = np.array([3,2,1])
np.concatenate([x,y])

array([1, 2, 3, 3, 2, 1])

In [137]:
grid = np.array([[1,2,3],
                [4,5,6]])

np.concatenate([grid, grid]) # 기본 axis= 0

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [142]:
np.concatenate([grid,grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [143]:
x = np.array([1,2,3])
grid = np.array([
                 [9,8,7],
                 [6,5,4]
                ])

In [146]:
np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [150]:
y = np.array([[99],
              [99]])
np.hstack([y,grid])

array([[99,  9,  8,  7],
       [99,  6,  5,  4]])

### 배열 분할하기

In [155]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3, x4 = np.split(x, [3,5,6])
print(x1, x2, x3, x4)

[1 2 3] [99 99] [3] [2 1]


In [157]:
grid = np.arange(16).reshape((4,4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [159]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [160]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]
