# 데이터 사이언스 시작하기

## 3. Numpy

### 01. numpy란?

#### numpy가 중요한 이유

numpy에는 numpy 배열(numpy array)이 존재하는데 파이썬 리스트와 비슷한 개념이다. 기존에 파이썬에 내장되어 있는 자료구조를 사용할 경우 다양한 형태로 존재하는 값을 다루기 위해 여러 추가적인 작업이 필요한데 이 과정에서 긴 코드를 작성하게 되고 이는 곧 프로그램의 수행 속도를 저하시킨다. 반면 numpy의 경우 numpy 배열을 활용하여 이 값을 효율적으로 다룰 수 있게 도와준다.

### 02. numpy array의 생김새

numpy 배열의 자료형을 출력해보면 `ndarray`가 반환되는 것을 알 수 있는데 이는 N차원 배열(N-Demensional Array)의 줄임말이다. 따라서 2차원, 3차원 이상의 고차원 배열을 생성하고 이를 numpy의 배열로 활용할 수 있다. 만약 `shape` 메서드를 활용해서 그 값을 출력해보면 2차원 배열의 경우 `(3, 4)`와 같이 행과 열 형태로, 다시 말해 행렬로 그 수를 각각 반환해준다. 추가적으로 `size` 메서드의 경우 총 개수를 반환해준다.

### 03. numpy array를 만드는 다양한 방법

#### 파이썬 리스트를 통해 생성

`array` 메서드의 매개변수(Parameter)로 파이썬의 리스트를 전달하는 방법이다.

#### 균일한 값으로 생성

`full` 메서드를 사용하면 모든 값이 같은 numpy 배열을 생성할 수 있다. 추가적으로 `zeros`, `ones` 메서드를 사용하면 각각 0과 1로만 이루어진 numpy 배열을 생성할 수 있다. 두 메서드 모두 각각 첫 번째 매개변수로 개수를, 두 번째 매개변수로 자료형을 넘겨준다.

#### 랜덤한 값들로 생성

`random` 모듈 내에 있는 `random` 메서드를 사용하면 임의의 값들로 구성된 numpy 배열을 생성할 수 있다.

#### 연속된 값들이 담긴 numpy array 생성

`arange` 메서드를 사용하면 연속된 값들로 구성된 numpy 배열을 생성할 수 있다. 사용 방법은 파이썬의 내장 함수인 `range` 와 동일하다.

### 05. numpy array 생성 연습 I

```Python
import numpy as np


arr = np.arange(1, 101)
arr
```

### 06. numpy array 생성 연습 II

```Python
import numpy as np


arr = np.arange(3, 100, 3)
arr
```

### 07. 인덱싱, 슬라이싱

파이썬에서 인덱싱을 사용하는 방법과 유사한데 배열 자체를 인덱싱 요소로 사용할 수도 있다. 슬라이싱의 경우 파이썬에서 사용하는 슬라이싱과 동일하다.

### 08. numpy 기본 연산

numpy 배열 내에 있는 수치 계산 방법이 파이썬과 달리 반복문을 사용하지 않고 훨씬 단순하게 수행할 수 있다.

### 09. 신주쿠 흥부부대찌개

```Python
import numpy as np


revenue_in_yen = [
    300000, 340000, 320000, 360000, 
    440000, 140000, 180000, 340000, 
    330000, 290000, 280000, 380000, 
    170000, 140000, 230000, 390000, 
    400000, 350000, 380000, 150000, 
    110000, 240000, 380000, 380000, 
    340000, 420000, 150000, 130000, 
    360000, 320000, 250000    
]
won_array = np.array(revenue_in_yen) * 10.08
won_array
```

### 10. 흥부부대찌개 LA 진출

```Python
import numpy as np

won_array = (
    np.array(revenue_in_yen) * 10.08
    +
    np.array(revenue_in_dollar) * 1138
)
won_array
```

### 11. numpy 불린 연산

불린(Boolean) 연산 또한 한 번에, 그리고 간편하게 가능하다. 이때 `where` 메서드를 사용해서 조건에 맞는 요소들의 인덱스만 구할 수 있는데 이를 다시 numpy 배열에 입력할 경우 해당 요소들을 반환할 수 있다.

### 12. 흥부부대찌개 목표 일 매출

```Python
import numpy as np


revenue_in_yen = [
    300000, 340000, 320000, 360000, 
    440000, 140000, 180000, 340000, 
    330000, 290000, 280000, 380000, 
    170000, 140000, 230000, 390000, 
    400000, 350000, 380000, 150000, 
    110000, 240000, 380000, 380000, 
    340000, 420000, 150000, 130000, 
    360000, 320000, 250000
]

ndarray = np.array(revenue_in_yen)
condition = np.where(ndarray <= 200000)
bad_days_revenue = ndarray[condition]

print(bad_days_revenue)
# print(ndarray[ndarray <= 200000]) > 해당 방법도 가능하다.
```

### 13. numpy array vs. python list

#### 문법 차이

기본적으로 numpy 배열은 효율적인 연산을 위해 사용된다. 따라서 반복문을 사용해서 배열 내의 요소를 변경해야 하는 파이썬의 리스트와 달리 numpy 배열은 반복문을 사용하지 않더라도 단순하게 사용하면 된다.

#### 성능 차이

문법 차이로 알 수 있듯 numpy 배열은 값이 저장되는 방법이 동일한 자료형의 값만 저장될 수 있는 반면 파이썬의 리스트는 여러 자료형이 한 번에 저장될 수 있다. 이러한 부분 때문에 성능의 차이도 함께 발생한다.

#### 언제 어떤 걸 써야 하나요?

값을 추가하고 제거하는 일을 할 때는 파이썬의 리스트를 사용하는게 효과적이다. 반대로 수치 계산이 많고 복잡할 때나 행렬 같은 다차원 배열의 경우 numpy 배열을 사용하는게 효과적이다.

### 14. numpy 기본 통계

#### 최댓값, 최솟값

최댓값과 최솟값의 경우 numpy 배열에 각각 `max`와 `min` 메서드를 사용하면 된다.


#### 평균값

최댓값과 최솟값을 구한 것과 동일한 방식으로 `mean` 메서드를 사용하면 된다.

#### 중앙값

numpy 모듈에 있는 `meidan` 메서드를 사용하여 그 매개변수로 중앙값을 구하고자 하는 numpy 배열을 전달하면 된다.

#### 표준 편차, 분산

표준 편차와 분산의 경우 최댓값과 최솟값을 구한 것과 동일한 방식으로 각각 `std`와 `var` 메서드를 사용하면 된다.

In [1]:
pip install numpy

Note: you may need to restart the kernel to use updated packages.


In [15]:
import numpy as np

array = np.array([ num for num in range(1, 10)])
print(type(array))
print(array.shape)

<class 'numpy.ndarray'>
(9,)


In [16]:
nested_array = np.array([[1, 2, 3], [4, 5, 6]])
print(nested_array)
print(type(nested_array))
print(nested_array.shape)

[[1 2 3]
 [4 5 6]]
<class 'numpy.ndarray'>
(2, 3)


In [17]:
nth_array = np.array([[[[1, 2], [2, 3]], [[4, 5], [6, 7]]]])
print(nth_array)
print(nth_array.shape)

[[[[1 2]
   [2 3]]

  [[4 5]
   [6 7]]]]
(1, 2, 2, 2)


In [18]:
print(array.size)
print(nested_array.size)
print(nth_array.size)

9
6
8


In [20]:
all_zero_array = np.zeros(4, dtype=int)
print(all_zero_array)
print(all_zero_array.shape)

all_one_array = np.ones(4, dtype=int)
print(all_one_array)
print(all_one_array.shape)

[0 0 0 0]
(4,)
[1 1 1 1]
(4,)


In [21]:
all_random_array = np.random.random(4)
print(all_random_array)
print(all_random_array.shape)

[0.48503173 0.62140499 0.28308977 0.48092782]
(4,)


In [22]:
odd_num_array = np.arange(1, 10, 2)
print(odd_num_array)
print(odd_num_array.shape)

[1 3 5 7 9]
(5,)


In [23]:
# 05. numpy array 생성 연습 I

arr = np.arange(1, 101)
arr

array([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,  13,
        14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,
        27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  39,
        40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,  52,
        53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,  65,
        66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,  78,
        79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,  91,
        92,  93,  94,  95,  96,  97,  98,  99, 100])

In [24]:
# 06. numpy array 생성 연습 II

arr = np.arange(3, 100, 3)
arr

array([ 3,  6,  9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48, 51,
       54, 57, 60, 63, 66, 69, 72, 75, 78, 81, 84, 87, 90, 93, 96, 99])

In [36]:
arr = np.array([1, 2, 3, 4, 5])
print(arr[[0, 2]])

indexes = arr[[1, 3]]
print(arr[indexes])

print(arr[1:4:2])

[1 3]
[3 5]
[2 4]


In [38]:
odd_numbers_arr = np.arange(1, 10, 2)
even_numbers_arr = np.arange(0, 10, 2)

print(odd_numbers_arr - 1)
print(even_numbers_arr / 2)
print(odd_numbers_arr + even_numbers_arr)
print(odd_numbers_arr * even_numbers_arr)

[0 2 4 6 8]
[0. 1. 2. 3. 4.]
[ 1  5  9 13 17]
[ 0  6 20 42 72]


In [42]:
# 09. 신주쿠 흥부부대찌개

revenue_in_yen = [
    300000, 340000, 320000, 360000, 
    440000, 140000, 180000, 340000, 
    330000, 290000, 280000, 380000, 
    170000, 140000, 230000, 390000, 
    400000, 350000, 380000, 150000, 
    110000, 240000, 380000, 380000, 
    340000, 420000, 150000, 130000, 
    360000, 320000, 250000    
]
won_array = np.array(revenue_in_yen) * 10.08
won_array

array([3024000., 3427200., 3225600., 3628800., 4435200., 1411200.,
       1814400., 3427200., 3326400., 2923200., 2822400., 3830400.,
       1713600., 1411200., 2318400., 3931200., 4032000., 3528000.,
       3830400., 1512000., 1108800., 2419200., 3830400., 3830400.,
       3427200., 4233600., 1512000., 1310400., 3628800., 3225600.,
       2520000.])

In [43]:
# 10. 흥부부대찌개 LA 진출

revenue_in_yen = [
    300000, 340000, 320000, 360000, 
    440000, 140000, 180000, 340000, 
    330000, 290000, 280000, 380000, 
    170000, 140000, 230000, 390000, 
    400000, 350000, 380000, 150000, 
    110000, 240000, 380000, 380000, 
    340000, 420000, 150000, 130000, 
    360000, 320000, 250000
]

revenue_in_dollar = [
    1200, 1600, 1400, 1300, 
    2100, 1400, 1500, 2100, 
    1500, 1500, 2300, 2100, 
    2800, 2600, 1700, 1400, 
    2100, 2300, 1600, 1800, 
    2200, 2400, 2100, 2800, 
    1900, 2100, 1800, 2200, 
    2100, 1600, 1800
]

won_array = (
    np.array(revenue_in_yen) * 10.08
    +
    np.array(revenue_in_dollar) * 1138
)
won_array

array([4389600., 5248000., 4818800., 5108200., 6825000., 3004400.,
       3521400., 5817000., 5033400., 4630200., 5439800., 6220200.,
       4900000., 4370000., 4253000., 5524400., 6421800., 6145400.,
       5651200., 3560400., 3612400., 5150400., 6220200., 7016800.,
       5589400., 6623400., 3560400., 3814000., 6018600., 5046400.,
       4568400.])

In [48]:
number_arr = np.arange(10)

print(number_arr > 4)
print(number_arr % 2 == 0)

booleans = np.array([True, True, False, True, False, False])
print(np.where(booleans))

print(np.where(number_arr % 2 == 0))
print(array[np.where(number_arr % 2 == 0)])

[False False False False False  True  True  True  True  True]
[ True False  True False  True False  True False  True False]
(array([0, 1, 3]),)
(array([0, 2, 4, 6, 8]),)
[1 3 5 7 9]


In [54]:
# 12. 흥부부대찌개 목표 일 매출

revenue_in_yen = [
    300000, 340000, 320000, 360000, 
    440000, 140000, 180000, 340000, 
    330000, 290000, 280000, 380000, 
    170000, 140000, 230000, 390000, 
    400000, 350000, 380000, 150000, 
    110000, 240000, 380000, 380000, 
    340000, 420000, 150000, 130000, 
    360000, 320000, 250000
]

ndarray = np.array(revenue_in_yen)
condition = np.where(ndarray <= 200000)
bad_days_revenue = ndarray[condition]

print(bad_days_revenue)
print(ndarray[ndarray <= 200000])

[140000 180000 170000 140000 150000 110000 150000 130000]
[140000 180000 170000 140000 150000 110000 150000 130000]


In [55]:
arr = np.arange(10)

print(arr.max())
print(arr.min())
print(arr.mean())
print(np.median(arr))
print(arr.std())
print(arr.var())

9
0
4.5
4.5
2.8722813232690143
8.25
