# Numpy 
- Numerical Python의 줄임말
- 산술 계산을 위한 가장 중요한 필수 패키지 중 하나
- 과학 계산을 위한 대부분의 패키지는 Numpy의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용한다.

### 제공
- 효율적인 다차원 배열인 ndarray는 빠른 배열 계산과 유연한 **브로드캐스팅** 기능을 제공한다.
- 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산할 수 있는 표준 수학 함수
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 적재된 파일을 다루는 도구
- 선형대수, 난수 생성기, 푸리에 변환 기능
- C, C++, 포트란으로 작성한 코드를 연결 할 수 있는 C API

## 데이터 분석 애플리케이션에서 중요하다 생각 되는 기능
- 벡터 배열 상에서 데이터 가공(데이터 먼징 또는 데이터 랭글링), 정제, 부분집합, 필터링, 변형 그리고 다른 여러 종류의 연산을 빠르게 수행
- 정렬, 유일 원소 찾기, 집합 연산 같은 일반적인 배열 처리 알고리즘
- 통계의 효과적인 표현과 데이터를 수집 요약하기
- 다양한 종류의 데이터를 병합하고 엮기 위한 데이터 졍렬과 데이터 간의 관계 조작
- 내부에서 if - elif - else를 사용하는 반복문 대신 사용할 수 있는 조건절 표현을 허용하는 배열 처리
- 데이터 묶음 전체에 적용할 수 있는 수집, 변형, 함수 적용 같은 데이터 처리

## Numpy가 산술 계산 영역에서 중요한 이유
- 대용량 데이터 배열을 효율적으로 다룰 수 있다.
    - Numpy는 내부적으로 데이터를 다른 내장 파이썬 객체와 구분된 연속된 메모리 블록에 정한다. Numpy의 각종 알고리즘은 모두 C로 작성되어 타입 검사나 다른 오버헤드 없이 메모리를 직접 조작할 수 있다. Numpy 배열은 또한 내장 파이썬의 연속된 자료형들보다 훨씬 더 적은 메모리를 사용한다.
    - Numpy 배열은 파이썬 반복문을 사용하지 않고 전체 배열에 대한 복잡한 계산을 수행할 수 있다.

In [12]:
import numpy as np

In [13]:
my_arr = np.arange(1000000) # 넘파이 배열
my_list = list(range(1000000)) #파이썬 리스트

In [14]:
# 곱하기 연산 시간 비교 : 넘파이
%time for _ in range(10) : my_arr2 = my_arr * 2

Wall time: 19 ms


In [15]:
# 곱하기 연산 시간 비교 : 파이썬
%time for _ in range(10) : my_list2 = my_list * 2

Wall time: 199 ms


# 4.1 ndarray : 다차원 배열 객체

- N차원 배열 객체를 생성.

In [37]:
import numpy as np

In [38]:
# 임의값 생성
data = np.random.randn(2, 3)
data

array([[ 0.08162197, -0.94649574,  1.03077139],
       [ 0.29483263,  0.13298356,  0.81293467]])

In [39]:
# 산술연산
data * 10

array([[ 0.81621974, -9.46495737, 10.30771393],
       [ 2.94832626,  1.32983557,  8.12934671]])

In [40]:
# 산술연산
data + data

array([[ 0.16324395, -1.89299147,  2.06154279],
       [ 0.58966525,  0.26596711,  1.62586934]])

In [41]:
data.dtype # ndarray

dtype('float64')

- ndarray는 같은 종류의 데이터를 담을 수 있는 포괄적인 다차원 배열
- ndarray의 모든 원소는 같은 자료형이여야 한다.
- `shape` : 배열의 각 차원 크기 (튜플로 알려줌)
- `dtype` : 자료형을 알려줌

In [42]:
data.shape

(2, 3)

In [43]:
data.dtype

dtype('float64')

배열, Numpy배열, ndarray는 아주 극소수를 제외하면 다 ndarray 객체를 말한다

## 4.1.1 ndarray 생성하기

- 배열 생성 : `array` 함수 이용

In [44]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [45]:
arr1.dtype

dtype('float64')

In [46]:
# 다차원 배열
data2 = [[1,2,3,4], [5,6,7,8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

- `shape` : 각 차원 크기
- `ndim` : 차원 수

In [47]:
print(arr2.ndim)
print(arr2.shape)

2
(2, 4)


In [48]:
print(arr1.dtype)
print(arr2.dtype)

float64
int32


- `zeros` : 0 벡터(행렬) 배열 생성
- `ones` : 1 벡터(행렬) 배열 생성

In [49]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [50]:
np.zeros((3,6)) # 안에 크기는 튜플로 넣어주자

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [51]:
np.zeros((2,3,2)) #3by2 행렬을 2개 생성 (텐서 모양)

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

- `arange` : 파이썬 range함수의 배열 버전

In [52]:
np.arange(15) # 15개 생성 : 0~14

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

넘파이는 산술 연산에 초점이 맞춰져 있기에 자료형을 따로 명시하지 않으면 float64(부동소수점)으로 나올 것이다

### Table 4.1 배열 생성 함수 정리
| 함수 | 설명 |
| :-- | :-- |
| array | 입력 데이터(리스트, 튜플, 배열 또는 다른 순차형 데이터)를 ndarray로 변환하며 dtype을 명시하지 않은 경우 자료형을 추론하여 저장한다. 기본적으로 입력 데이터는 복사 된다. |
| asarray | 입력 데이터를 ndarray로 변환하지만 입력 데이터가 이미 ndarray일 경우 복사가 일어나지 않는다. |
| arange | 내장 range 함수와 유사하지만 리스트대신 ndarray를 반환한다 |
| ones, ones_like | 주어진 dtype과 모양을 가지는 배열을 생성하고 내용을 모두 1로 초기화한다. ones_like는 주어진 배열과 동일한 모양과 dtype을 가지는 배열을 새로 생성하여 내용을 모두 1로 초기화한다. |
| zeros, zeros_like | ones, ones_like와 동일하지만 내용을 0으로 채운다 |
| empty, empty_like | 메모리를 할당하여 새로운 배열을 생성하지만 ones나 zeros처럼 값을 초기화하지 않는다. |
| full, full_like | 인자로 받은 dtype과 배열의 모양을 가지는 배열을 생성하고 인자로 받은 값으로 배열을 채운다. |
| eye, identity | N by N 크기의 단위행렬을 생성한다 |


## 4.1.2 ndarray의 dtype

In [53]:
arr1 = np.array([1,2,3], dtype=np.float64)
arr2 = np.array([1,2,3], dtype=np.int32)

In [54]:
print(arr1.dtype)
print(arr2.dtype)

float64
int32


### Table 4.2 넘파이의 자료형
| 자료형 | 자료형 코드 | 설명 |
| :-- | :-- | :-- |
| int8, uint8 | i1, u1 | 부호가 있는 8비트(1바이트) 정수형과 부호가 없는 8비트 정수형 |
| int16, uint16 | i2, u2 | 부호가 있는 16비트 정수형과 부호가 없는 16비트 정수형 |
| int32, uint32 | i4, u4 | 부호가 있는 32비트 정수형과 부호가 없는 32비트 정수형 |
| int64, uint64 | i8, u8 | 부호가 있는 64비트 정수형과 부호가 없는 64비트 정수형 |
| float16 | f2 | 반정밀도 부동소수점 |
| float32 | f4 또는 f | 단정밀도 부동소수점, C언어의 float형과 호환 |
| float64 | f8또는 d | 배정밀도 부동소수점, C언어의 double형과 파이썬 float 객체와 호한
| float128 | f16 또는 g | 확장정밀도 부동소수점 |
| complex64 <br/> complex128 <br/> complex256 | c8, c16, c32 | 각각 2개의 32, 64, 128비트 부동소수점형을 가지는 복소수 |
| bool | ? | True와 False 값을 저장하는 불리언형 |
| object | O | 파이썬 객체형
| string_ | S | 고정 길이 아스키 문자열형(각 문자는 1바이트), 길이가 10인 문자열 dtype은 S10이 된다. |
| unicode_ | U | 고정 길이 유니코드형(플랫폼에 따라 문자별 바이트 수가 다르다), string_ 형과 같은 형식을 쓴다.(예. U10) |

In [55]:
type(arr1)

numpy.ndarray

- `casting` : 배열의 dtype을 다른 형으로 명시적 변환 (`astype`이용)

In [56]:
arr = np.array([1,2,3,4,5])
arr.dtype

dtype('int32')

In [57]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

- 위 예제는 정수형을 부동소수점으로 변환.
- 만약 부동소수점을 정수형 dtype으로 변환하면 **소수점 아래 자리는 버려짐**

In [58]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [59]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10])

- 숫자 형태 문자열 -> astype을 이용해 숫자로 변환

In [60]:
numeric_strings = np.array(['1.25', '-9.6', '42'])
print(numeric_strings.astype(float))
numeric_strings.dtype

[ 1.25 -9.6  42.  ]


dtype('<U4')

형변환 실패하면 ValueError 예외가 발생함

- 데이터 타입 지정

In [61]:
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)

In [62]:
# 다른 배열의 dtype 속성을 이용해 바꿀 수도 있다.
int_array = np.arange(10)
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

## 4.1.3 Numpy 배열의 산술 연산

- 배열의 중요한 특징은 for 문을 작성하지 않고 데이터를 일괄 처리 할 수 있다는 것.
    - 이를 **벡터화**라고 함. 

- 같은 크기 배열간의 산술 연산은 element-wise (원소간 연산)

In [63]:
arr = np.array([[1.,2.,3.], [4.,5.,6.]])

In [64]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [65]:
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [66]:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [67]:
arr ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

- 비교 연산은 bool 배열을 반환

In [68]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

- `브로드캐스팅(broadcasting)`
    - 크기가 다른 배열 간의 연산을 가능하게 해줌

In [69]:
# 예) 0.1이란 스칼라 값이 배열 arr2 처럼 2by3행렬로 변환되 각 원소마다 적용되서 연산됨
arr2 - 0.1

array([[-0.1,  3.9,  0.9],
       [ 6.9,  1.9, 11.9]])

## 4.1.4 색인과 슬라이싱 기초

In [72]:
arr = np.arange(1,10)
arr

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [73]:
arr[5]

6

In [75]:
arr[5:8] # 마지막 값은 안들어감

array([6, 7, 8])

In [77]:
# 12가 브로드캐스팅으로 들어감
arr[5:8] = 12
arr

array([ 1,  2,  3,  4,  5, 12, 12, 12,  9])

- 리스트와의 차이점 : 배열 조각은 원본 배열의 **뷰**라는 것, 즉, 데이터는 복사되지 않고 뷰에 대한 변경은 그대로 원본 배열에 반영

In [78]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [79]:
# arr_slice값을 변경하면 원래 배열인 arr의 값도 변경됨
arr_slice[1] = 12345
arr

array([    1,     2,     3,     4,     5,    12, 12345,    12,     9])

In [80]:
arr_slice[:] = 66
arr

array([ 1,  2,  3,  4,  5, 66, 66, 66,  9])

- 뷰 대신 ndarray 슬라이스의 복사본을 얻고 싶다면 arr[5:8].copy()를 사용

In [83]:
a = arr[5:8].copy()
a

array([66, 66, 66])

- 다차원 배열 다루기
    - 2차원 배열 각 색인 요소는 1차원 배열이다

In [85]:
arr2d = np.array([[1,2,3], [4,5,6], [7,8,9]])
arr2d[1] # 0행, 1행, 2행 

array([4, 5, 6])

In [88]:
# 개별 요소 ( 둘은 같은 표현이다 )
print(arr2d[0][2])
print(arr2d[0,2])

3
3


- 다차원 배열에서 한 차원 낮은 ndarray 찾기

In [95]:
arr3d = np.array([[[1,2,3], [4,5,6]], [[7,8,9], [10,11,12]]])
print(arr3d[1])
print(arr3d[0][1][2])

[[ 7  8  9]
 [10 11 12]]
6


- arr3d[0]에는 스칼라값과 배열 모두 대입가능

In [96]:
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [97]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

- 다차원 슬라이싱

In [103]:
arr2d = np.array([[1,2,3], [4,5,6], [7,8,9]])
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [107]:
arr2d[:2][1:] # 얘는 각자 챙겨오기

array([[4, 5, 6]])

In [113]:
arr2d[:2, 1:] # 이건 [1,2,3][4,5,6] 에서 열벡터로 idx 1,2를 가져오나봄

array([[2, 3],
       [5, 6]])

In [115]:
arr2d[1, :2] # idx 1행에서 0,1 것만 가져오기

array([4, 5])

In [116]:
arr2d[:2, 2]

array([3, 6])

In [117]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

## 4.1.5 불리언값으로 선택하기
- 중복된 이름 포함된 배열
- 표준 정규 분포 데이터 (randn)

In [123]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7,4)

In [124]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [125]:
data

array([[-0.69189945, -1.00732892, -0.36568968,  1.14805967],
       [-1.20289266, -0.86543945, -0.4995969 ,  1.42427007],
       [-0.58372455,  0.36981745, -0.55364598, -1.02787438],
       [ 0.2414023 , -2.08070102,  0.03505406, -0.33394335],
       [ 1.89747135, -1.22959175,  0.59565108, -0.84534523],
       [ 1.473189  ,  0.8355853 ,  0.63629563, -0.62656564],
       [ 0.7319048 ,  0.36510892, -0.55385175, -2.1178083 ]])

- 각각의 이름은 data의 Row에 해당함

In [132]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [134]:
data[names == 'Bob'] # 위 True나온 0, 3인덱스만 찾아오기

array([[-0.69189945, -1.00732892, -0.36568968,  1.14805967],
       [ 0.2414023 , -2.08070102,  0.03505406, -0.33394335]])

- 불리언 배열은 반드시 색인하려는 축의 길이와 동일한 길이를 가져야함.

In [135]:
data[names == 'Bob', 2:]

array([[-0.36568968,  1.14805967],
       [ 0.03505406, -0.33394335]])

In [136]:
data[names == 'Bob', 3]

array([ 1.14805967, -0.33394335])

In [137]:
mask = (names == 'Bob') | (names == 'Will') # 논리연산자 : &(and) ,|(or) 사용

In [138]:
mask

array([ True, False,  True,  True,  True, False, False])

In [140]:
data[mask]

array([[-0.69189945, -1.00732892, -0.36568968,  1.14805967],
       [-0.58372455,  0.36981745, -0.55364598, -1.02787438],
       [ 0.2414023 , -2.08070102,  0.03505406, -0.33394335],
       [ 1.89747135, -1.22959175,  0.59565108, -0.84534523]])

In [141]:
data[data<0] = 0 # 기존 데이터 data에서 0보다 작은 것을 True로 반환해 거기에 해당하는 곳을 다 0으로 바꿈
data

array([[0.        , 0.        , 0.        , 1.14805967],
       [0.        , 0.        , 0.        , 1.42427007],
       [0.        , 0.36981745, 0.        , 0.        ],
       [0.2414023 , 0.        , 0.03505406, 0.        ],
       [1.89747135, 0.        , 0.59565108, 0.        ],
       [1.473189  , 0.8355853 , 0.63629563, 0.        ],
       [0.7319048 , 0.36510892, 0.        , 0.        ]])

In [142]:
data[names != 'Joe'] = 7
data # 나중에 pandas에서 처리하는게 더 편함

array([[7.        , 7.        , 7.        , 7.        ],
       [0.        , 0.        , 0.        , 1.42427007],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [1.473189  , 0.8355853 , 0.63629563, 0.        ],
       [0.7319048 , 0.36510892, 0.        , 0.        ]])

## 4.1.6 팬시 색인

- 팬시 색인(fancy indexing) : 정수 배열을 사용한 색인을 설명하기 위한 Numpy에서 차용한 단어

In [144]:
# 8 by 4 배열
arr = np.empty((8,4))

In [146]:
for i in range(8) :
    arr[i] = i
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

# 4.2 유니버설 함수 : 배열의 각 원소를 빠르게 처리하는 함수

- ufunc 라고 불리는 유니버설 함수는 ndarray 안에 있는 데이터 원소별로 연산을 수행하는 함수이다.
- 유니버설 함수는 하나 이상의 스칼라값을 받아서 하나 이상의 스칼라 결괏값을 반환하는 간단한 함수를 고속으로 수행할 수 있는 벡터화된 래퍼 함수라고 생각하면 된다

In [2]:
import numpy as np

- `단항 유니버설 함수`
    - 예 : sqrt, exp 등

In [4]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [5]:
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [6]:
np.exp(arr)

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

- `이항 유니버설 함수` : 두 개의 인자를 받아 단일 배열을 반환하는 함수
    - 예 : add, maximum 등

In [7]:
x = np.random.randn(8)
y = np.random.randn(8)
np.maximum(x,y)

array([-0.1114546 ,  0.05814083,  2.81381516,  1.71125109,  0.25482798,
        0.6183121 ,  1.40554377,  0.03669999])

- 여러 개의 배열을 반환하는 유니버설 함수
    - 예 : modf(분수를 받아서 몫과 나머지 반환)

In [8]:
arr = np.random.randn(7) * 5
remainder, whole_part = np.modf(arr)
print(remainder)
print(whole_part)

[-0.19803967  0.30879133  0.41055509  0.95436715 -0.25631579  0.6507491
 -0.30109225]
[-4. 16.  2.  8. -2. 11. -0.]


### Table 4-3 단항 유니버설 함수

| 함수 | 설명 |
| :-- | :-- |
| abs, fabs | 각 원소(정수, 부동소수점, 복소수)의 절댓값을 출력, 복소수가 아닌 경우에는 빠른 연산을 위해서 fabs를 사용함 |
| sqrt | 각 원소의 제곱근을 계산한다 (= arr ** 0.5 ) |
| square | 각 원소의 제곱을 계산한다 (= arr ** 2) |
| exp | 각 원소에서 지수 $ e^2 $을 계산|
| log, log10, log2, log1p | 각각 자연로스, 로그10, 로그2, 로그(1+x) |
| sign | 각 원소의 부호를 계산한다 (1=양수), (0=영), (-1=음수) |
| ceil | 각 원소의 소수자를 올린다. 각 원소의 값보다 같거나 큰 정수 중 가장 작은 정수를 반환 |
| floor | 각 원소의 소수자리를 내린다. 각 원소의 값보다 작거나 같은 정수 중 가장 작은수를 반환|
| rint | 각 원소의 소수자리를 반올림한다. dtype은 유지됨 |
| modf | 각 원소의 몫과 나머지를 각각의 배열로 출력 |
| isnan | 각 원소가 숫자가 아닌지(NaN, Not a Number)를 나타내는 불리언 배열을 반환한다. |
| isfinite, isinf | 각각 배열의 각 원소가 유한한지(non-inf, non-NaN) 무한한지 나타내는 불리언 배열을 반환한다. |
| cos, cosh, sin, <br/> sinh, tan, tanh | 일반 삼각함수와 하이퍼볼릭 삼각함수 |
| arccos, arccosh, arcsin, <br/> arcsinh, arctan, arctanh | 역삼각함수 |
| logical_not | 각 원소의 논리 부정(not)값을 계산한다 (~arr 과 동일) |

### Table 4-4 이항 유니버설 함수

| 함수 | 설명 |
| :-- | :-- |
| add | 두 배열에서 같은 위치의 원소끼리 더한다. |
| subtract | 첫 번째 배열의 원소에서 두 번째 배열의 원소를 뺀다. |
| multiply | 배열의 원소끼리 곱한다. |
| divide, floor_divide | 첫 번째 배열의 원소를 두 번째 배열의 원소로 나누다. floor_divide는 몫만 취한다. |
| power | 첫 번째 배열의 원소를 두 번째 배열의 원소만큼 제곱한다. |
| maximum, fmax | 각 배열의 두 원소 중 큰 값을 반환한다. fmax는 NaN을 무시 |
| minimum, fmin | 각 배열의 두 원소 중 작은 값을 반환한다. fmin은 NaN을 무시 |
| mod | 첫 번째 배열의 원소를 두 번째 배열의 원소로 나눈 나머지를 구한다. |
| copysign | 첫 번째 배열의 원소의 기호를 두 번째 배열의 원소의 기호로 바꾼다. |
| greater, greater_equal, less <br/> less_equal, equal, not_equal | 각각 두 원소 간의 >, >=, <, <=, ==, != 비교 연산 결과를 불리언 배열로 반환한다. |
| logical_and, logical_or <br/> logical_xor | 각각 두 원소 간의 &, or, ^ 논리 연산 결과를 반환한다.