# ▪ numpy란? 
→ num(numerical) + py(python) : 숫자와 관련한 파이썬 도구
## · numpy가 데이터 사이언스에서 중요한 이유?
→ numpy는 numpy배열(numpy array)라는 자료형 제공 = 파이썬 리스트

# ▪ numpy array를 만드는 다양한 방법
## · np.array 파이썬 리스트를 통해 생성
`numpy` 모듈의 `array` 메소드에 파라미터로 `파이썬 리스트`를 넘겨주면 numpy array가 리턴됩니다.
```
array1 = numpy.array([2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31])
    
print(array1)
```
```
[ 2  3  5  7 11 13 17 19 23 29 31]
```

## · 균일한 값으로 생성
### np.full 모든 값이 같은 numpy array 생성
`numpy` 모듈의 `full` 메소드를 사용하면, 모든 값이 같은 numpy array를 생성할 수 있습니다.
```
array1 = numpy.full(6, 7)
    
print(array1)
```
```
[7 7 7 7 7 7]
```
### np.zeros 모든 값이 0인 numpy array 생성
모든 값이 `0`인 numpy array를 생성하기 위해서는 `full` 메소드를 사용하면 되겠죠. 하지만 사실은 더 간편한 방법이 있습니다.
```
array1 = numpy.full(6, 0)
array2 = numpy.zeros(6, dtype=int)
    
print(array1)
print()
print(array2)
```
```
[0 0 0 0 0 0]

[0 0 0 0 0 0]
```
### np.ones 모든 값이 1인 numpy array 생성
모든 값이 `1`인 numpy array를 생성하는 것도 비슷합니다. `zeros` 메소드 대신 `ones`를 사용하면 됩니다.
```
array1 = numpy.full(6, 1)
array2 = numpy.ones(6, dtype=int)
    
print(array1)
print()
print(array2)
```
```
[1 1 1 1 1 1]

[1 1 1 1 1 1]
```
### np.random 랜덤한 값들로 생성
어쩔 때는 임의의 값들로 배열을 생성시키고 싶습니다. 그럴 때는 `numpy`의 `random` 모듈의 `random` 함수를 사용하면 됩니다.

`numpy` 모듈 안에 `random`이라는 모듈이 있고, 그 안에 또 `random`이라는 함수가 있는 겁니다!
```
array1 = numpy.random.random(6)
array2 = numpy.random.random(6)
    
print(array1)
print()
print(array2)
```
```
[0.42214929 0.45275673 0.57978413 0.61417065 0.39448558 0.03347601]

[0.42521953 0.65091589 0.94045742 0.18138103 0.27150749 0.8450694 ]
```
### np.arange 연속된 값들이 담긴 numpy array 생성
`numpy 모듈`의 `arange` 함수를 사용하면 연속된 값들이 담겨 있는 numpy array를 생성할 수 있습니다.

`arange` 함수는 파이썬의 기본 함수인 `range`와 굉장히 비슷한 원리로 동작하는데요. 파라미터가 1개인 경우, 2개인 경우, 3개인 경우 모두 살펴봅시다.

#### 파라미터 1개
`arange(m)`을 하면 `0`부터 `m-1`까지의 값들이 담긴 numpy array가 리턴됩니다.
```
array1 = numpy.arange(6)
print(array1)
```
```
[0 1 2 3 4 5]
```
#### 파라미터 2개
`arange(n, m)`을 하면 `n`부터 `m-1`까지의 값들이 담긴 numpy array가 리턴됩니다.
```
array1 = numpy.arange(2, 7)
print(array1)
```
```
[2 3 4 5 6]
```
#### 파라미터 3개
`arange(n, m, s)`를 하면 `n`부터 `m-1`까지의 값들 중 간격이 `s`인 값들이 담긴 numpy array가 리턴됩니다.
```
array1 = numpy.arange(3, 17, 3)
print(array1)
```
```
[ 3  6  9 12 15]
```

In [1]:
import numpy as np

In [2]:
array1 = np.array([2,3,4,6,11,13,17,19,23,29,31])

In [3]:
array1

array([ 2,  3,  4,  6, 11, 13, 17, 19, 23, 29, 31])

In [4]:
type(array1)

numpy.ndarray

In [5]:
array1.shape

(11,)

In [7]:
array2 = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])

In [8]:
type(array2)

numpy.ndarray

In [9]:
array2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [10]:
array2.shape

(3, 4)

In [11]:
array1.size

11

In [12]:
array2.size

12

# 인덱싱, 슬라이싱

## 숫자로 인덱싱

In [26]:
array1 = np.array([2,3,5,7,11,13,17,19,23,29,31])

In [27]:
array1[0]

2

In [28]:
array1[2]

5

In [29]:
array1[-1]

31

In [30]:
array1[-2]

29

## 리스트로 인덱싱

### 파이썬 리스트로 인덱싱

In [31]:
# array1의 1번, 3번, 4번 인덱스에 있는 값을 출력
array1[[1,3,4]]

array([ 3,  7, 11])

### numpy array로 인덱싱

In [32]:
array2 = np.array([2,1,3])

In [33]:
# array1의 2번, 1번, 3번 인덱스에 있는 값을 출력
array1[array2]

array([5, 3, 7])

## 리스트 슬라이싱

In [34]:
array1[2:7]

array([ 5,  7, 11, 13, 17])

In [35]:
array1[:7]

array([ 2,  3,  5,  7, 11, 13, 17])

In [37]:
array1[:2]

array([2, 3])

In [39]:
array1[2:11:2]

array([ 5, 11, 17, 23, 31])

In [40]:
array1[2:11:3]

array([ 5, 13, 23])

# numpy 기본 연산

In [42]:
array1 = np.arange(10)
array2 = np.arange(10, 20)

In [43]:
array1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [44]:
array2

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [45]:
array1 * 2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [46]:
array1 / 2

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [47]:
array1 + 2

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [48]:
array1 ** 2

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81], dtype=int32)

In [49]:
array1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [50]:
array1 = array1 * 2

In [51]:
array1

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [52]:
array1 = np.arange(10)
array2 = np.arange(10, 20)

In [53]:
array1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [54]:
array2

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [55]:
array1 + array2

array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

In [56]:
array1 * array2

array([  0,  11,  24,  39,  56,  75,  96, 119, 144, 171])

In [58]:
array1 / array2

array([0.        , 0.09090909, 0.16666667, 0.23076923, 0.28571429,
       0.33333333, 0.375     , 0.41176471, 0.44444444, 0.47368421])

# 실습문제 1

일본에는 한식 열풍이 불고 있습니다. 기회를 엿본 영훈이는 대기업을 퇴사하고 신주쿠에 프랜차이즈 ‘흥부부대찌개’ 가맹점을 냈습니다.

그러나 보수적인 아버지께서는 번듯한 직장을 박차고 나온 영훈이가 못마땅합니다. 아버지를 안심시켜 드리기 위해 매달 매출을 보고하려고 하는데요. 엔화(¥)로 저장한 매출 데이터를 원화(₩)로 변환하는 작업이 필요합니다.

마침 numpy를 배운 우리가 도와줄 수 있겠네요. 엔화 매출이 담겨 있는 파이썬 리스트가 주어졌습니다. 1엔에 10.08원이라고 가정하고, 원화 매출이 담긴 numpy array를 만들어 출력해 주세요.

반복문은 사용하면 안 됩니다!

In [59]:
import numpy as np

revenue_in_yen = [
    300000, 340000, 320000, 360000, 
    440000, 140000, 180000, 340000, 
    330000, 290000, 280000, 380000, 
    170000, 140000, 230000, 390000, 
    400000, 350000, 380000, 150000, 
    110000, 240000, 380000, 380000, 
    340000, 420000, 150000, 130000, 
    360000, 320000, 250000
]

# 여기에 코드를 작성하세요
np_revenue_in_yen = np.array(revenue_in_yen)
won_array = np_revenue_in_yen * 10.08

# 테스트 코드
won_array

array([3024000., 3427200., 3225600., 3628800., 4435200., 1411200.,
       1814400., 3427200., 3326400., 2923200., 2822400., 3830400.,
       1713600., 1411200., 2318400., 3931200., 4032000., 3528000.,
       3830400., 1512000., 1108800., 2419200., 3830400., 3830400.,
       3427200., 4233600., 1512000., 1310400., 3628800., 3225600.,
       2520000.])

# 실습문제 2

흥부부대찌개 신주쿠점의 흥행에 성공한 영훈이는 여세를 몰아 LA에도 가맹점을 하나 냈습니다.

이제 아버지께 매출을 보고하기 위한 프로세스가 조금 복잡해졌습니다. 각 지점의 매출을 원화로 변환시키고 더해야 하죠. 1엔에 10.08원, 1달러에 1138원이라고 가정하세요. 그리고 두 지점의 매출의 합이 원화로 담긴 numpy array를 만들어 출력해주세요.

반복문은 사용하면 안 됩니다!

In [60]:
import numpy as np

revenue_in_yen = [
    300000, 340000, 320000, 360000, 
    440000, 140000, 180000, 340000, 
    330000, 290000, 280000, 380000, 
    170000, 140000, 230000, 390000, 
    400000, 350000, 380000, 150000, 
    110000, 240000, 380000, 380000, 
    340000, 420000, 150000, 130000, 
    360000, 320000, 250000
]

revenue_in_dollar = [
    1200, 1600, 1400, 1300, 
    2100, 1400, 1500, 2100, 
    1500, 1500, 2300, 2100, 
    2800, 2600, 1700, 1400, 
    2100, 2300, 1600, 1800, 
    2200, 2400, 2100, 2800, 
    1900, 2100, 1800, 2200, 
    2100, 1600, 1800
]

# 여기에 코드를 작성하세요
yen_array = np.array(revenue_in_yen)
dollar_array = np.array(revenue_in_dollar)

won_array_shin = yen_array * 10.08
won_array_la = dollar_array * 1138

won_array = won_array_shin + won_array_la

# 테스트 코드
won_array

array([4389600., 5248000., 4818800., 5108200., 6825000., 3004400.,
       3521400., 5817000., 5033400., 4630200., 5439800., 6220200.,
       4900000., 4370000., 4253000., 5524400., 6421800., 6145400.,
       5651200., 3560400., 3612400., 5150400., 6220200., 7016800.,
       5589400., 6623400., 3560400., 3814000., 6018600., 5046400.,
       4568400.])

# numpy 불린 연산

In [61]:
array1 = np.array([2, 3, 5, 7, 11, 13, 17, 19, 23, 28, 31])

In [62]:
array1 > 4  # 출력값 : boolean이 담긴 numpy array

array([False, False,  True,  True,  True,  True,  True,  True,  True,
        True,  True])

In [63]:
array1 % 2 == 0

array([ True, False, False, False, False, False, False, False, False,
        True, False])

In [64]:
booleans = np.array([True, True, False, True, True, False, True, True, True, False, True])

In [66]:
# where 함수 : numpy array에서 True가 담긴 인덱스만 출력
np.where(booleans)

(array([ 0,  1,  3,  4,  6,  7,  8, 10], dtype=int64),)

In [67]:
# array1에서 4보다 큰 값들이 있는 인덱스만 출력
np.where(array1 > 4)

(array([ 2,  3,  4,  5,  6,  7,  8,  9, 10], dtype=int64),)

'array1에서 4보다 크다'라는 조건을 출력하는 값들만 이용해 필터링

In [68]:
filter = np.where(array1 > 4)
filter

(array([ 2,  3,  4,  5,  6,  7,  8,  9, 10], dtype=int64),)

In [69]:
array1[filter]

array([ 5,  7, 11, 13, 17, 19, 23, 28, 31])

# 실습문제 3
영훈이가 창업한 흥부부대찌개 신주쿠점은 이제 직장인들에게 소문난 맛집입니다. 그러나 매일같이 성공적인 것은 아닙니다. 목표 일 매출을 달성하지 못하는 날들이 아직 꽤 있거든요. 영훈이가 생각하는 성공적인 하루 매출은 20만 엔입니다.

성공적이지 않은 날의 매출만 골라서 보고 싶습니다. 20만 엔 이하의 매출만 담긴 numpy array를 출력해주세요.
반복문은 사용하면 안 됩니다!

In [73]:
import numpy as np

revenue_in_yen = [
    300000, 340000, 320000, 360000, 
    440000, 140000, 180000, 340000, 
    330000, 290000, 280000, 380000, 
    170000, 140000, 230000, 390000, 
    400000, 350000, 380000, 150000, 
    110000, 240000, 380000, 380000, 
    340000, 420000, 150000, 130000, 
    360000, 320000, 250000
]

# revenue_in_yen을 numpy array로 리턴
revenue_array = np.array(revenue_in_yen)

# 20만 엔 이하의 매출만 담긴 np arr 필터링
filter = np.where(revenue_array <= 200000)

# revenue_array에 필터 적용
bad_days_revenue = revenue_array[filter]

# 테스트 코드
bad_days_revenue

array([140000, 180000, 170000, 140000, 150000, 110000, 150000, 130000])

### Q. 기본 파이썬 리스트가 있는데 numpy array를 사용하는 이유?  
#### 1. 문법 차이
덧셈>
- numpy array : 같은 인덱스에 있는 값 끼리 더함  
[10, 5, 3, 7, 1, 5] + [10, 5, 3, 7, 1, 5] = [20, 10, 6, 14, 2, 10]
- python list : 두 리스트를 이어줌  
[10, 5, 3, 7, 1, 5] + [10, 5, 3, 7, 1, 5] = [10, 5, 3, 7, 1, 5, 10, 5, 3, 7, 1, 5]

덧셈, 뺄셈, 나눗셈> [10, 5, 3, 7, 1, 5] + 5
- numpy array : 배열에 있는 각각의 값에 더함 [15, 10, 8, 12, 6, 10] 
- python list : 오류남

곱셈> [10, 5, 3, 7, 1, 5] * 5
- numpy array : 배열에 있는 각각의 값에 곱함 
- python list : 있던 값들이 여러 번 반복

#### 2. 성능 차이
- numpy array : 같은 자료형의 값들만 넣을 수 있음 (속도 개선)  
→ 수치 계산이 많고 복잡할 때/ 행렬같은 다차원 배열의 경우
- python list : 다양한 자료형들을 한꺼번에 넣을 수 있음  
→ 값을 추가하고 제거하는 일


---

# numpy 기본 통계  
numpy 라이브러리는 기본적인 통계 기능도 제공합니다.

## 최댓값, 최솟값
`max` 메소드와 `min` 메소드를 사용하면 numpy array의 최댓값과 최솟값을 구할 수 있습니다.
```
import numpy as np

array1 = np.array([14, 6, 13, 21, 23, 31, 9, 5])

print(array1.max()) # 최댓값
print(array1.min()) # 최솟값
```
```
31
5
```
## 평균값
`mean` 메소드를 사용하면 numpy array의 평균값을 구할 수 있습니다.
```
import numpy as np

array1 = np.array([14, 6, 13, 21, 23, 31, 9, 5])

print(array1.mean()) # 평균값
```
```
15.25
```
위 예시에서, 총합(14+6+13+21+23+31+9+5)을 총 개수(8)로 나누면 15.25입니다.

## 중앙값
`median` 메소드를 사용하면 중간값을 구할 수 있는데요. 특이하게 `median`은 numpy array의 메소드가 아니라 numpy의 메소드입니다.
```
import numpy as np

array1 = np.array([8, 12, 9, 15, 16])
array2 = np.array([14, 6, 13, 21, 23, 31, 9, 5])

print(np.median(array1)) # 중앙값
print(np.median(array2)) # 중앙값
```
```
12.0
13.5
```
`array1`을 정렬하면 중앙값이 12입니다.  
`array2`에는 짝수개의 요소가 있기 때문에 중앙값이 13과 14 두 개입니다. 둘의 평균값을 내면 13.5입니다.

## 표준 편차, 분산
표준 편차와 분산은 값들이 평균에서 얼마나 떨어져 있는지 나타내는 지표입니다.
```
import numpy as np

array1 = np.array([14, 6, 13, 21, 23, 31, 9, 5])

print(array1.std()) # 표준 편차
print(array1.var()) # 분산
```
```
8.496322733983215
72.1875
```