### 데이터가 무엇이든 상관없이 그 데이터를 분석할 수 있게 만드는 첫번째 단계는 데이터를 숫자배열로 변환하는 것이다.

# 파이썬의 데이터 타입 이해하기
### C나 자바 같은 정적 타입 체계를 가진 언어는 모든 변수를 명시적으로 선언해야 하지만, 파이썬처럼 동적 타입 체계를 가진 언어는 타입을 지정하지 않아도 된다.

# 파이썬 정수는 정수 이상이다.
### 파이썬에서 정수를 정의할때 X는 단순히 그대로의 정수를 의미하지 않는다. 실제로는 여러 값이 들어 있는 복합적인 C 구조체다.
### C 정수는 근본적으로 정숫값을 나타내는 바이트를 포함하는 메모리 위치를 가리키는 레이블이고 파이썬 정수는 정숫값을 담고 있는 바이트를 포함한 모든 파이썬 객체 정보를 포함하는 메모리의 위치를 가리키는 포인터이다.

# 파이썬 리스트는 리스트 이상이다.

### 파이썬의 동적 타이핑 덕분에 서로 다른 데이터타입의 요소를 담는 리스트를 만들 수 있다.

# 파이썬의 고정 타입 배열

### 내장 array 모듈은 단일 타입의 조밀한 배열(dense array)를 만드는데 사용할 수 있다.

In [3]:
import array 
L = list(range(10))
A = array.array('i', L)
A

array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# 파이썬 리스트에서 배열 만들기

In [4]:
import numpy as np

In [None]:
# 정수배열:
np.array([1, 4, 2, 5, 3])

### 파이썬 리스트와 달리 Numpy 배열의 모든 요소가 같은 타입이어야 한다. 타입이 일치하지 않으면 Numpy는 가능한 상위타입을 취하게 된다.

In [5]:
np.array([1, 2, 3, 4], dtype='float32')

array([1., 2., 3., 4.], dtype=float32)

### 명시적으로 결과 배열의 테이터타입을 설정하려면 dtype 키워드를 사용한다.

In [7]:
#리스트를 중첩하면 다차원 배열이 됨
np.array([range(i, i+3) for i in [2, 4, 6]])


array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

# 처음부터 배열 만들기

In [8]:
# 0으로 채운 길이 10의 정수 배열 만들기
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [10]:
# 1로 채운 3*5 부동 소수점 배열 만들기
np.ones((3, 5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [11]:
# 3.14로 채운 3*5 배열 만들기
np.full((3,5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [13]:
# 선형 수열로 채운 배열 만들기
# 0에서 시작해 2씩 더해 20까지 채움
# 내장함수인 range()와 유사함
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [14]:
# 0과 1 사이에 일정한 간격을 가진 다섯 개의 값으로 채운 배열 만들기
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [15]:
# 균등하게 분포된 3*3배열 만들기
# 0과 1 사이의 난수로 채움
np.random.random ((3,3))

array([[0.29764337, 0.90911418, 0.87371714],
       [0.23200908, 0.7013303 , 0.24334878],
       [0.04177054, 0.90215709, 0.9946502 ]])

In [17]:
# 정규 분포(평균=0, 표준 편차=1)의 난수로 채운 3*3 배열 만들기
np.random.normal(0, 1, (3, 3))

array([[-1.43082759,  1.36535062,  0.27171964],
       [ 0.11792804,  1.52296018,  0.69061965],
       [-0.57324952,  0.67201088,  0.05097716]])

In [18]:
# [0, 10 ] 구간의 임의의 정수로 채운 3*3배열 만들기
np.random.randint(0, 10, (3, 3))             

array([[5, 2, 7],
       [1, 8, 8],
       [9, 0, 0]])

In [19]:
#3*3 단위 행렬 만들기
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [20]:
# 세 개의 정수를 가지는 초기화되지 않은 배열 만들기
# 값은 해당 메모리 위치에 이미 존재하고 있는 값으로 채움
np.empty(3)

array([1., 1., 1.])

# Numpy 배열의 기초

## Numpy 배열 속성 지정

In [2]:
import numpy as np
np.random.seed(0) #재현 가능성을 위한 값

x1 = np.random.randint(10, size=6) # 1차원 배열

In [4]:
x2 = np.random.randint(10, size=(3, 4)) #2차원 배열
x3 = np.random.randint(10, size=(3, 4, 5)) # 3차원 배열

### 각 배열은 속성으로 ndim(차원의 개수), shape(각 차원의 크기), size(전체 배열의 크기), dtype(각 요소의 크기)을 가지고 있다.

In [5]:
print("x3 ndim:", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size:", x3.size)
print("dtype:", x3.dtype)

x3 ndim: 3
x3 shape: (3, 4, 5)
x3 size: 60
dtype: int32


## 배열 인덱싱: 단일 요소에 접근하기

In [6]:
x1

array([5, 0, 3, 3, 7, 9])

In [7]:
x1[0]

5

In [8]:
x1[4]

7

In [9]:
x1[-1]

9

x2

In [11]:
x2[0,0]

3

In [12]:
x2[2,0]

1

In [13]:
# 인덱싱을 이용한 값 변경
x2[0, 0] = 12
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

## 배열 슬라이싱: 하위 배열에 접근하기

## 1차원 하위 배열

In [14]:
x = np.arange(10) 
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [15]:
x[:5] #첫 다섯개 요소

array([0, 1, 2, 3, 4])

In [16]:
x[5:] #인덱스 5 다음 요소들

array([5, 6, 7, 8, 9])

In [17]:
x[4:7] #중간 하위 배열

array([4, 5, 6])

In [20]:
x[::2] #하나 걸러 하나씩의 요소로 구성된 배열

array([0, 2, 4, 6, 8])

In [21]:
x[1::2] #인덱스 1에서 시작해 하나 걸러 하나씩 요소로 구성된 배열

array([1, 3, 5, 7, 9])

In [22]:
x[::-1] #모든 요소를 거꾸로 나열

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [23]:
x[5::-2] #인덱스 5부터 하나 걸러 하나씩 요소를 거꾸로 나열

array([5, 3, 1])

## 다차원 하위 배열

In [25]:
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

In [24]:
x2[:2, :3] #두 개의 행, 세 개의 열

array([[12,  5,  2],
       [ 7,  6,  8]])

In [26]:
x2[:3, ::2] #모든 행, 한 열 걸러 하나씩

array([[12,  2],
       [ 7,  8],
       [ 1,  7]])

In [27]:
x2[::-1, ::-1] #하위 배열 차원을 역으로 변환

array([[ 7,  7,  6,  1],
       [ 8,  8,  6,  7],
       [ 4,  2,  5, 12]])

In [28]:
print(x2[:, 0]) # x2의 첫번째 열

[12  7  1]


In [29]:
print(x2[0, :]) # x2의 첫번째 행

[12  5  2  4]


In [30]:
print(x2[0]) # 더 간결한 구문을 위해 빈 슬라이스를 생략

[12  5  2  4]


## 사본이 아닌 뷰로서의 하위 배열

### 배열 슬라이스는 배열 데이터의 사본이 아니라 뷰를 반환한다.(리스트에서 슬라이스는 사본이다.)

### 큰 데이터세트를 다룰때 기반 데이터 버퍼를 복사하지 않아도 이 데이터의 일부에 접근하고 처리할 수 있다.

## 배열의 사본 만들기

In [31]:
x2_sub_copy = x2[:2, :2].copy()
print(x2_sub_copy)

[[12  5]
 [ 7  6]]


## 배열 재구조화

In [32]:
grid = np.arange(1, 10).reshape((3,3))
print(grid)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [33]:
x = np.array([1, 2, 3])
# reshape을 이용한 행 벡터
x.reshape((1,3))

array([[1, 2, 3]])

In [34]:
#newaxis를 이용한 행 벡터
x[np.newaxis, :]

array([[1, 2, 3]])

In [35]:
# reshape을 이용한 열 벡터
x.reshape((3,1))

array([[1],
       [2],
       [3]])

In [36]:
# newaxis를 이용한 열 벡터
x[:, np.newaxis]

array([[1],
       [2],
       [3]])

# 배열 연결 및 분할

## 배열 연결

In [37]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x,y])

array([1, 2, 3, 3, 2, 1])

In [39]:
z = [99, 99, 99]
print(np.concatenate([x,y,z]))

[ 1  2  3  3  2  1 99 99 99]


In [42]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])

# 첫 번째 축을 따라 연결
np.concatenate([grid, grid])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [43]:
# 두번째 축을 따라 연결(0부터 시작하는 인덱스 방식)
np.concatenate([grid, grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [46]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                [6, 5, 4]])
# 배열을 수직으로 쌓음
np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [47]:
# 배열을 수평으로 쌓음
y = np.array([[99],
              [99]])
np.hstack([grid, y])

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

## 배열 분할

In [48]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3,5])
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]


In [49]:
grid = np.arange(16).reshape((4,4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [50]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [51]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


# 팬시 인덱싱


In [1]:
import numpy as np
rand = np.random.RandomState(42)
x = rand.randint(100, size=10)
print(x)


[51 92 14 71 60 20 82 86 74 74]


In [2]:
[x[3], x[7], x[2]]

[71, 86, 14]

In [4]:
ind = np.array([[3, 7],
                [4, 5]])
x[ind]

# 팬시 인덱싱을 이용하면 결과의 형상이 인덱싱 대상 배열의 형상이 아니라 인덱스 배열의 형상을 반영한다.

array([[71, 86],
       [60, 20]])

In [8]:
import numpy as np

X = np.arange(12).reshape((3, 4))
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [9]:
row = np.array([0, 1, 2])
col = np.array([2, 1, 3])
X[row, col]

array([ 2,  5, 11])

### 결과의 첫 번째 값은 X[0, 2], 두번째 값은 X[1, 1], 세번째 값은 x[2, 3] 이다. 

# 배열정렬

In [10]:
L = [3, 1, 4, 1, 5, 9, 2, 6]
sorted(L) # 정렬된 복사본 반환 

[1, 1, 2, 3, 4, 5, 6, 9]

In [11]:
L.sort() # 리스트 정렬을 실행하고 아무것도 반환하지 않음

In [13]:
x = np.array([2, 1, 4, 3, 5])
i = np.argsort(x)
print(i)

[1 0 3 2 4]


In [14]:
rand = np.random.RandomState(42)
X = rand.randint(0, 10, (4, 6))
print(X)

[[6 3 7 4 6 9]
 [2 6 7 4 3 7]
 [7 2 5 4 1 7]
 [5 1 4 0 9 5]]


In [None]:
# X의 각 열을 정렬
np.sort(X, axis=0)