# Numpy
### 파이썬에서 산술 계산을 위한 가장 중요한 필수 패키지 중 하나다.대부분의 데이터 분석 애플리케이션에서 중요하게 생각하는 기능은 다음과 같다.
#### 1.벡터 배열 상에서 데이터 가공(먼징, 랭글링) 정제, 부분집합, 필터링, 변현 그리고 다른 여러 종류의 연산을 빠르게 수행
#### 2.정렬, 유일 원소 찾기, 집합 연산 같은 일반적인 배열 처리 알고리즘
#### 3.통계의 효과적인 표현과 데이터를 수집 요약하기
#### 4.다양한 종류의 데이터를 병합하고 엮기 위한 데이터 정렬과 데이터 간의 관계 조작
#### 5.내부에서 if-elif-else를 사용하는 반복문 대신 사용한 수 있는 조건절 표현을 허용하는 배열 처리.
#### 6.데이터 묶음 전체에 적용할 수 있는 수집, 변형 함수 적용 같은 데이터 처리.

## 4.1 Numpy ndarray : 다차원 배열 객체
### numpy의 핵심 기능 중 하나는 ndarray라고 하는 n차원의 배열 객체인데 파이썬에서 이용할 수 있는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조다.

In [2]:
import numpy as np
data=np.random.randn(2,3) #임의의 값을 생성
data

array([[ 0.42133229,  0.93859418, -0.67457985],
       [ 1.42814902,  1.53729045, -0.4516668 ]])

In [10]:
data * 10

array([[15.78675345,  6.6476244 , -0.15759728],
       [ 6.936159  , -6.22388164, -2.14325067]])

In [11]:
data+data
#배열이 스칼라 원소 간의 연산에 사용하는 문법과 비슷한 방식을 사용해서 전체 데이터 블록에 수학적인 연산이 가능하다.

array([[ 3.15735069,  1.32952488, -0.03151946],
       [ 1.3872318 , -1.24477633, -0.42865013]])

### ndarray는 "같은 종류의" 데이터를 담을 수 있는 포괄적인 다차원 배열이고, ndarray의 모든 원소는 같은 자료형이어야 한다.
### 모든 배열은 각 차원의 크기를 알려주는 shape이라는 튜플과 배열에 저장된 자료형을 알려주는 dtype이라는 객체를 가지고있다.

In [12]:
data.shape
#데이터의 차원의 크기 출력

(2, 3)

In [13]:
data.dtype
#데이터에 저장된 자료형 출력

dtype('float64')

### 4.1.1 ndarray 생성하기
#### 배열을 생성하는 가장 쉬운 방법은 array 함수를 이용하는 것이다. 순차적인 객체를 넘겨받고, 넘겨받은 데이터가 들어 있는 새로운 numpy 배열을 생성한다.

In [14]:
data1=[1,2,3,4,5]
type(data1)

list

In [15]:
np_data1=np.array(data1)
type(np_data1)

numpy.ndarray

In [16]:
#같은 길이를 가지는 리스트를 내포하고 있는 순차 데이터는 다차원 배열로 변환 가능하다.
data2=[[1,2,3,4],[5,6,7,8]]
np_data2=np.array(data2)
np_data2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [17]:
#ndim:해당 데이터의 차원을 반환 shape는 크기를 반환
np_data2.ndim

2

In [18]:
np_data2.shape

(2, 4)

In [19]:
#np.zeros, ones를 이용해 배열을 생성할 수 있다. 원하는 형태의 튜플을 넘기면 된다.
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [20]:
np.zeros((3,6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [21]:
np.zeros((2,3,2))

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

In [22]:
#arange는 numpy의 range함수이다.
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

+a
ndarray의 dtype
dtype은 ndarray가 메모리에 있는 특정 데이터를 해석하기 위해 필요한 정보(또는 메타데이터)를 담고 있는 특수한 객체이다.

dtype이 있기에 넘파이가 강력하면서도 유연한 도구가 될 수 있었는데, 대부분의 경우 데이터는 디스크에서 데이터를 읽고 쓰기 편하도록 하위레벨의 표현에 
직접적으로 맞춰져 있어서 저수준 언어로 작성된 코드와 쉽게 연동이 된다. 

'ndarray'의 astype 메서드를 사용해서 배열의 dtype을 다른 자료형으로 명시적으로 변환(캐스팅) 가능하다

In [23]:
arr=np.array([1,2,3,4,5])
arr.dtype

dtype('int64')

In [24]:
float_arr=arr.astype(np.float64)
float_arr.dtype
#위 예제는 정수형을 부동소수점으로 캐스팅하였다. 부동소수점 자료형을 정수형으로 변환하면 소수점 아래 자리는 비어진다.

dtype('float64')

In [25]:
arr2=np.array([1.2,3.4,-45.2])
arr2.dtype

dtype('float64')

In [26]:
int_arr2=arr2.astype(np.int32)
int_arr2

array([  1,   3, -45], dtype=int32)

numpy 배열의 산술연산
배열의 중요한 특징은 for문을 작성하지 않고 데이터를 일괄 처리할 수 있다는 것이다. 이를 '벡터화'라고 하는데, 같은 크기의 배열 간 산술연산은
배열의 각 원소 단위로 적용된다. 밑에 예제

In [30]:
arr=np.array([[1.,2.,3.],[4.,5.,6.]])
arr
#여기서 각 원소에 .을 추가함으로써 부동소수점 자료형으로 저장되어진다

dtype('float64')

In [35]:
arr*arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [36]:
arr-arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [37]:
#스칼라 인자가 포함된 산술 연산의 경우 배열 내의 모든 원소에 스칼라 인자가 적용된다.
1/arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [38]:
arr*0.5

array([[0.5, 1. , 1.5],
       [2. , 2.5, 3. ]])

In [39]:

arr2=np.array([[0.,4.,1.],[7.,2.,12.]])
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [40]:
arr2>arr

array([[False,  True, False],
       [ True, False,  True]])

색인과 슬라이싱 기초
numpy 배열에서 1차원 배열은 단순한데, 표면적으로는 파이썬의 리스트 객체와 유사하게 동작한다

In [48]:
arr=np.arange(10)
arr
#numpy의 장점: 내부에서 if-elif-else를 사용하는 반복문 대신 사용한 수 있는 조건절 표현을 허용하는 배열 처리.

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [50]:
arr[5]

5

In [51]:
arr[5:8]

array([5, 6, 7])

In [52]:
arr[5:8]=12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

위에서 볼 수 있듯이 arr[5:8]=12 처럼 배열 조각에 스칼라값을 대입하면 12가 선택영역 전체로 broadcasting 된다. 리스트와의 중요한 차이점은 
배열 조각은 원본 배열의 '뷰'라는 점이다. 즉, 데이터는 복사되지 않고 뷰에 대한 변경은 그대로 원본 배열에 반영된다.

In [55]:
arr_slice=arr[5:8]
arr_slice

array([12, 12, 12])

In [56]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [57]:
arr_slice[2]=12345

In [58]:
arr

array([    0,     1,     2,     3,     4,    12,    12, 12345,     8,
           9])

In [59]:
arr_slice[:]=64
arr
#단순히 [:]로 슬라이스를 하면 배열의 모든 값이 할당된다.

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

numpy는 대용량의 데이터 처리를 염두에 두고 설계되었기 때문에 만약 numpy가 데이터 복사를 남발한다면 성능과 메모리 문제에 마주치게될 것이다.
만약에 뷰 대신 슬라이스의 복사본을 얻고 싶다면
arr_slice=arr[5:8].copy()를 사용하면 된다.

In [61]:
#다차원 배열을 다룰 때 주의해야할 점은 2차원 배열에서 각 색인에 해당하는 요소는 스칼라 값이 아니라 1차원 배열이라는 것이다
arr2d=np.array([[1,2,3],[4,5,6],[7,8,9]])
arr2d[1]

array([4, 5, 6])

In [62]:
#따라서 개별 요소는 재귀적으로 접근해야 하지만 그렇게 하기는 귀찮으므로 콤마로 구분된 색인 리스트를 넘기면 된다. 고로 두 표현은 동일하다
arr2d[0][2]
arr2d[0,2]

3

In [74]:
#다차원 배열에서 마지막 색인을 생략하면 반환되는 객체는 상위 차원의 데이터를 포함하고 있는 한 차원 낮은 ndarray가 된다
#2x2x3 크기의 배열 arr3d가 있다면
arr3d=np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [75]:
arr3d[0]
#arr3d[0]의 크기는 2x3이된다.

array([[1, 2, 3],
       [4, 5, 6]])

In [76]:
#arr3d[0]에는 스칼라 값과 배열 모두 대입할 수 있다.
copy_arr3d=arr3d[0].copy()
arr3d[0]=64
arr3d

array([[[64, 64, 64],
        [64, 64, 64]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [77]:
arr3d[0]=copy_arr3d
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

슬라이스로 선택하기
파이썬의 리스트 같은 1차원 객체처럼 ndarray는 익숙한 문법으로 슬라이싱할 수 있다.

In [78]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [79]:
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [80]:
#2차원 배열의 슬라이싱하는 방법은 조금 다르다
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [84]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [85]:
arr2d[:2,:1]

array([[1],
       [4]])

In [86]:
#정수 색인과 슬라이스를 함께 사용해서 한 차원 낮은 슬라이스를 얻을 수도 있다.
arr2d[1,:2]

array([4, 5])

In [87]:
arr2d[:,:1]

array([[1],
       [4],
       [7]])

4.1.5불리언값으로 선택하기

중복된 이름이 포함된 배열과 randn 함수를 사용해서 임의의 표준 정규 분포 데이터를 생성하자

In [3]:
names=np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe'])
data=np.random.randn(7,4)
data

array([[ 0.5132709 , -0.64642041, -0.3830941 , -0.05174108],
       [-0.61646299, -0.63870679,  0.9953796 ,  0.50230295],
       [-0.22023293,  0.54338778, -1.07808195, -0.70245861],
       [-0.96730205,  2.06318124, -0.64116641,  2.02728295],
       [ 0.66856305, -2.16428278, -0.00482494, -2.50305077],
       [ 0.72465652, -0.2229065 , -0.9243561 ,  1.18628139],
       [ 0.97014549, -0.78036195,  0.80970713, -0.82902442]])

In [4]:
#각각의 이름은 data 배열의 각 로우에 '대응'한다고 가정하자. 만약에 전체 로우에서 'Bob'와 같은 이름을 선택하려면 산술 연산과 마찬가지로 배열에 대한
#비교연산도 백터화 되므로 names를 'Bob'문자열과 비교하면 불리언 배열을 반환한다
names=='Bob'

array([ True, False, False,  True, False, False, False])

In [5]:
#이 불리언 배열을 색인으로 사용할 수 있다.
data[names=="Bob"]
#불리언 배열은 반드시 색인하려는 축의 길이와 동일한 길이를 가져야한다.(불리언 배열이 색인하려는 축과 동일한 길이를 가지지않아도 실패하지 않는다.고로 주의)

array([[ 0.5132709 , -0.64642041, -0.3830941 , -0.05174108],
       [-0.96730205,  2.06318124, -0.64116641,  2.02728295]])

In [11]:
#불리언 배열 색인도 슬라이스나 요소를 선택하는 데 짜 맞출 수 있다.
data[names=='Bob',:2]

array([[ 0.5132709 , -0.64642041],
       [-0.96730205,  2.06318124]])

In [7]:
data[names=="Bob",3]

array([-0.05174108,  2.02728295])

In [98]:
#Bob이 아닌 요소들을 선택하려면 != 연산자를 사용하거나 ~를 사용해서 조건절을 부인하면 된다.
names!='Bob'
~(names=='Bob')

array([False,  True,  True, False,  True,  True,  True])

In [100]:
cond= ~(names=='Bob')
#'~'연산자는 일반적인 조건을 반대로 쓰고 싶을 대 유용하다.
data[cond]

array([[-0.21182578,  0.8965067 ,  1.49844582, -0.41909834],
       [-0.06534977, -0.26753473,  0.33158171,  2.07495602],
       [ 0.50908895,  0.10597614,  0.11396517, -1.21356034],
       [-0.22541898,  1.14692604, -0.76156805,  1.73640102],
       [-0.65800707, -0.80421816,  2.05344066,  0.31559467]])

In [103]:
#세 가지 이름 중에서 두 가지 이름을 선택하려면 &,| 같은 논리 연산자를 사용한 여러 개의 불리언 조건을 사용하면 된다.
mask=(names=='Bob')|(names=="Will")
data[mask]

array([[ 0.08516211,  0.86533149, -0.04682661,  1.57142815],
       [-0.06534977, -0.26753473,  0.33158171,  2.07495602],
       [ 0.05852164, -0.34931047,  1.24066775, -0.37347369],
       [ 0.50908895,  0.10597614,  0.11396517, -1.21356034]])

배열에 불리언 색인을 이용해서 데이터를 선택하면 반환되는 배열의 내용이 바뀌지 않더라도 항상 데이터 복사가 발생한다


In [107]:
#불리언 배열에 값을 대입하는 것은 상식적으로 이루어진다. 고로 다음과 같이 활용 가능하다.
data[data<0]=0
data

array([[0.08516211, 0.86533149, 0.        , 1.57142815],
       [0.        , 0.8965067 , 1.49844582, 0.        ],
       [0.        , 0.        , 0.33158171, 2.07495602],
       [0.05852164, 0.        , 1.24066775, 0.        ],
       [0.50908895, 0.10597614, 0.11396517, 0.        ],
       [0.        , 1.14692604, 0.        , 1.73640102],
       [0.        , 0.        , 2.05344066, 0.31559467]])

In [13]:
4.1.6 팬시색인
#팬시 색인은 정수 배열을 사용한 색인을 설명하기 위해 numpy에서 차용한 단어다.

SyntaxError: invalid syntax (2996396334.py, line 1)

In [14]:
arr=np.empty((8,4))
for i in range(8):
    arr[i]=i
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [15]:
#특정한 순서로 로우를 선택하고 싶다면 그냥 원하는 순서가 명시된 ndarray나 리스트를 넘기면 된다.
arr[[4,3,0,6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [16]:
#색인으로 음수를 사용하면 끝에서부터 로우를 선택하게 된다
arr[[-3,-5,-7]]
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [17]:
#다차원 색인 배열을 넘기면 각각의 색인 튜플에 대응하는 1차원 배열이 선택된다.
arr=np.arange(32).reshape((8,4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [115]:
arr[[1,3,4,5],[0,1,3,2]]
#배열이 몇 차원이든지 팬시 색인의 결과는 항상 1차원이다.

array([ 4, 13, 19, 22])

In [119]:
#행렬의 행과 열에 대응하는 사각형 모양의 값이 선택될려면 아래처럼 하면 된다.
arr[[1,3,4,5]][:,[0,1,3,2]]

array([[ 4,  5,  7,  6],
       [12, 13, 15, 14],
       [16, 17, 19, 18],
       [20, 21, 23, 22]])

### 배열 전치와 축 바꾸기
#### 배열 전치는 데이터를 복사하지 않고 데이터의 모양이 바뀐 뷰를 반환하는 특별한 기능이다.
#### ndarray는 transpose 메서드와 T라는 이름의 특수한 속성을 가지고있다.

In [122]:
arr=np.arange(15).reshape((3,5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [123]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [124]:
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [126]:
#행렬 계산을 할 때 자주 사용하게 되는데, 예를 들어 행렬의 내적은 np.dot을 이용해서 구할 수 있다.
arr=np.random.randn(6,3)
arr

array([[ 0.71144895,  0.81074102,  1.47309279],
       [-0.64599032,  1.55907519, -0.53721194],
       [-0.34174219, -0.38158762,  0.5747142 ],
       [-0.27342593, -0.09154743, -1.06507134],
       [-1.35391805,  1.3829889 ,  1.05933088],
       [ 1.21034188, -1.15108771,  0.28477523]])

In [128]:
arr.T

array([[ 0.71144895, -0.64599032, -0.34174219, -0.27342593, -1.35391805,
         1.21034188],
       [ 0.81074102,  1.55907519, -0.38158762, -0.09154743,  1.3829889 ,
        -1.15108771],
       [ 1.47309279, -0.53721194,  0.5747142 , -1.06507134,  1.05933088,
         0.28477523]])

In [127]:
np.dot(arr.T,arr)
#arr.T와 arr의 내적

array([[ 4.41303413, -3.54057391,  0.40030625],
       [-3.54057391,  6.4796677 ,  1.37218524],
       [ 0.40030625,  1.37218524,  5.12655128]])

In [131]:
#다차원 배열의 경우 transpose 메서드는 튜플로 축 번호를 받아서 치환한다
arr=np.arange(16).reshape((2,2,4))
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [135]:
arr.transpose()

array([[[ 0,  8],
        [ 4, 12]],

       [[ 1,  9],
        [ 5, 13]],

       [[ 2, 10],
        [ 6, 14]],

       [[ 3, 11],
        [ 7, 15]]])

In [139]:
arr.transpose((1,0,2))
#튜플을 이용하여 축 순서를 지정 가능 (첫 번쨰와 두 번째 축 순서가 뒤바뀌었고, 마지막 축은 그대로 남았다)

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

In [146]:
#T 속성을 이용하는 간단한 전치는 축을 뒤바뀌는 특별한 경우다. ndarray에는 swapaxes라는 메서드가 있는데 두 개의 축 번호를 받아서 배열을 뒤바꾼다.
arr.swapaxes(1,2)

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

In [147]:
arr.swapaxes(0,1)

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

In [148]:
arr=np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [149]:
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [151]:
np.exp(arr)
#이러한 방식으로 작동하는 함수들을 단항 유니버설 함수라고 한다.

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

In [152]:
x=np.random.randn(8)
y=np.random.randn(8)
x,y

(array([-2.02201797, -0.81317994, -1.16565246, -1.67892933, -2.46942338,
        -1.05350578,  2.64666423, -0.20875679]),
 array([ 1.00412046,  0.27407236,  0.83011509, -1.17258254, -0.91440597,
         1.74637947,  0.62199533, -0.1829507 ]))

In [153]:
np.maximum(x,y)
#2개의 인자를 취해서 단일 배열을 반환하는 함수는 이항 유니버설 함수라고 한다.

array([ 1.00412046,  0.27407236,  0.83011509, -1.17258254, -0.91440597,
        1.74637947,  2.64666423, -0.1829507 ])

In [156]:
#유니버설 함수는 선택적으로 out인자를 취해 계산 결과를 따로 저장할 수도 있다.
arr=np.random.randn(7)*5
arr

array([ 9.48097333, -8.48732785,  2.90228352,  9.30776765, -6.69768891,
        1.2687164 ,  3.03861079])

In [157]:
np.sqrt(arr)
#제곱근 계산

  np.sqrt(arr)


array([3.07911892,        nan, 1.70360897, 3.05086343,        nan,
       1.12637312, 1.74316115])

In [158]:
arr

array([ 9.48097333, -8.48732785,  2.90228352,  9.30776765, -6.69768891,
        1.2687164 ,  3.03861079])

In [159]:
np.sqrt(arr,arr)
#유니버설 함수는 선택적으로 Out 인자를 취해 계산 결과를 따로 저장할 수도 있다.

  np.sqrt(arr,arr)


array([3.07911892,        nan, 1.70360897, 3.05086343,        nan,
       1.12637312, 1.74316115])

In [160]:
arr

array([3.07911892,        nan, 1.70360897, 3.05086343,        nan,
       1.12637312, 1.74316115])

## 4.3 배열을 이용한 배열지향 프로그래밍