# **파이썬 데이터분석 특화 데이터 형태: [Numpy](https://numpy.org/doc/stable/index.html)**

[![Open in Colab](http://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/cheonbi/ProgrammingPython/blob/main/Practice1-8_Basic_InputNumpy_KK.ipynb)

- **Numpy:** Numerical Python의 약자로 수치를 다루는 분야를 위한 파이썬 패키지

> - 데이터분석 패키지 중 하나로 **고차원 데이터 연산(선형대수학)**과 **컴퓨팅 연산(자료구조)**에 특화
>> - 대표적으로 사용되는 표준 수학 함수기능 지원
>> - 저차원 및 고차원 데이터 입출력 및 산술연산
>>> - Array 또는 Matrix와 같은 자료구조 수치를 다루는 Python 데이터형태
>>> - **Array:** numpy.array함수로 변환된 다차원의 데이터 형태(모든 값은 같은 자료형)


## 설치 및 호출

In [None]:
# 주피터 노트북에서 Numpy 설치
# Anaconda 설치하면 기 설치되어 있어서 진행할 필요 없음
!pip install numpy

You should consider upgrading via the '/Library/Frameworks/Python.framework/Versions/3.7/bin/python3 -m pip install --upgrade pip' command.[0m[33m
[0m

In [None]:
# Numpy 사용을 위해 패키지 불러오기
# import 패키지명 as 닉네임
# 관례적으로 np라는 약자를 많이 사용
import numpy as np

## List vs Array

- **List를 사용해서 다차원 데이터를 구현할 수 있는데 Numpy ndarray로 다차원을 다루는 이유는?**

> - **유사점:** List의 다차원이나 Numpy ndarray의 다차원 데이터의 출력은 (거의)같음

In [None]:
import numpy as np
a = [1,2,3,4,5]
b = np.array(a)

In [None]:
print(a, b)

[1, 2, 3, 4, 5] [1 2 3 4 5]


In [None]:
a

[1, 2, 3, 4, 5]

In [None]:
b

array([1, 2, 3, 4, 5])

In [None]:
print(type(a), type(b))

<class 'list'> <class 'numpy.ndarray'>


> - **차이점:** 고차원이거나 빅데이터의 경우 Numpy array 데이터로 저장된 경우 연산에 유리함
| List | Array |
|:---:|:---:|
| 여러 Type의 값을 가질 수 있음 | 동일한 Type의 값만 가질 수 있음 |
| 메모리를 많이 점유하고 계산 속도가 느림 | 메모리를 최적으로 쓰고 계산 속도 향상 |
| 각 값마다 연산 필요 -> 반복문 필요 | 벡터화(값의 묶음)로 연산 가능 -> 반복문 불필요 |
>>
>>
>> - array를 사용하면 list에서 사용하지 못했던 콤마(,)기반으로 인덱싱과 슬라이싱 가능
>> - array를 사용하면 정수 또는 불리언 형식으로 값을 선택가능


In [None]:
# List 예시
a = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]*2
a

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
# Array 예시
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])*2
a

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [None]:
# List 예시
a = [[0, 1, 2], [3, 4, 5]]
a[0], "/", a[0:], "/", a[0][1:]

([0, 1, 2], '/', [[0, 1, 2], [3, 4, 5]], '/', [1, 2])

In [None]:
# Array 예시
a = np.array([[0, 1, 2], [3, 4, 5]])
a[0,1:]

array([1, 2])

In [None]:
# List 예시
a = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
a[True]

1

In [None]:
# Array 예시
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
b = np.array([[0, 1, 2], [3, 4, 5]])
a[True], b[True]

(array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]]),
 array([[[0, 1, 2],
         [3, 4, 5]]]))

In [None]:
# # List 예시
# a = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
# a[[True, False, True, False, True, False, True, False, True, False]]

```python
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-45-a0b1051558de> in <module>
----> 1 a[[True, False, True, False, True, False, True, False, True, False]]

TypeError: list indices must be integers or slices, not list
```

In [None]:
# Array 예시
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
a[[True, False, True, False, True, False, True, False, True, False]]

array([0, 2, 4, 6, 8])

- **정리:**
> - 브로드캐스팅 기능으로 형태가 다른 저차원과 고차원간 연산 가능
> - 행렬(저차원 및 고차원)을 다루는 선형대수 및 변환기능 지원
> - 빅데이터 연산에 효율성이 높음
> - 다른 프로그래밍 언어에서 존재하지 않음

## Numpy Array(입출력)

### Array 값 생성하기

> - numpy 연산의 기본이 되는 데이터 구조로 Array 또는 배열이라고 함     
> - 리스트보다 간편하게 만들 수 있으며 연산이 빠른 장점  
> - 같은 type의 데이터만 저장 가능
> - 다른 차원간 연산인 브로드캐스팅 연산 지원  
> - array 또한 numpy의 기본 함수로서 생성 가능
> - **사용법:**
>> **`np.array(배열변환 대상 데이터)`** # 리스트와 같은 순서가 있는 데이터를 받아 Numpy 배열 데이터 생성
>> **`np.arange(start, end, step_forward)`**    
>> **`np.linspace(start, end, number)`**    

In [1]:
# 기존 리스트 데이터 구조를 array로 변환
test_list = [1,2,3,4]
test_array = np.array(test_list)

NameError: ignored

In [None]:
# array 생성 확인
test_array

In [None]:
# 같은 타입의 데이터만 들어가는지 확인
# 문자열이 들어가면 가장 큰 범주의 데이터타입으로 저장
test_list = [1, 2, 3.14]

In [None]:
np.array(test_list)

In [None]:
# np.arange 함수로 생성
np.arange(1, 11)

In [None]:
# 범위설정
# (시작포인트, 마지막포인트 + 1, 스텝)
# range() 함수와 동일하게 작동함
# for i in range(1, 100, 10):
#     print(i)
np.arange(1, 100, 10)

In [None]:
# 범위 데이터 생성 (시작포인트, 마지막포인트, 데이터갯수)
np.linspace(0, 10, 50)

- 특수한 형태의 array도 numpy로 생성 가능
- 입력 데이터는 정수, 리스트, 튜플만 입력 가능
- **ndarray:** n-dimensional array

| 함수 | 내용 |
|------------|-----------------------------------------------------------------------------------------------------|
| np.array(데이터) | 입력된 데이터를 ndarray로 변환. dtype을 명시하면 자료형을 설정할 수 있다 |
| np.asarray(데이터) | 입력 데이터를 ndarray로 변환하나 이미 ndarray일 경우에는 새로 메모리에 ndarray가 생성되지는 않는다 |
| np.arange(데이터) | range 함수와 유사하나 ndarray를 반환 |
| np.ones(데이터) | 전달인자로 전달한 dtype과 모양(행,렬)으로 배열을 생성하고 모든 내용을 1로 초기화하여 ndarray를 반환 |
| np.zeros(데이터) | ones와 같으나 초기값이 0이다 |
| np.empty(데이터) | ones와 zeros와 비슷하나 값을 초기화하지는 않는다 |


In [None]:
# 벡터 생성
import numpy as np

a1d = np.array([1,2,3])
a1d

In [None]:
# 배열 형태 확인
type(a1d)

In [None]:
# 배열 내부 값들의 형태 확인
a1d.dtype

In [None]:
# 2차원 배열(행렬) 생성
b2d = np.array([[1,2,3], [4,5,6]]) # 각 배열의 길이는 동일해야 함
b2d

In [None]:
# 배열 형태 확인
type(b2d)

In [None]:
# 구조 확인
b2d.shape

In [None]:
c3d = np.array([[[1,2,3], [4,5,6]]])
c3d

In [None]:
# 구조 확인
c3d.shape

In [None]:
c3d = np.array([[[1,2,3], [4,5,6]],
                [[10,20,30], [40,50,60]]])
c3d

In [None]:
# 구조 확인
c3d.shape

In [None]:
# 함수 사용해서 구조(모양)확인
np.shape(c3d)

In [None]:
# 고유값 확인
# len 씌워주시면 고유값 갯수까지
len(np.unique(c3d))

In [None]:
# 타입변환
test = [10,20,30]
type(test)

In [None]:
test2 = np.asarray(test)
type(test2)

In [None]:
print(test, test2)

In [None]:
# 연속적인 시퀀스(Sequence) 배열 생성
np.arange(1,20)

In [None]:
# 0인 값만 보유한 행렬 생성
a2d = np.zeros((3,3))
a2d

In [None]:
# 1인 값만 보유한 행렬 생성
b2d = np.ones((2,3))
b2d

In [None]:
# 특정 값만 보유한 행렬 생성
c2d = np.full((3,3), 7)
c2d

In [None]:
# 대각행렬이라고도 하는데 대각선으로 1인 값만 존재
d2d = np.eye(3)
d2d

In [None]:
# 임의의 값으로 행렬을 생성
e2d = np.random.random((2,2))
e2d

In [None]:
# 임의의 값으로 행렬을 생성하는데 값이 고정된 경우
f2d = np.empty((4, 5), dtype=int)
f2d

In [None]:
# 세부 값의 type 변환
np.array(np.random.random((2,2)), dtype=np.float64)

In [None]:
# 세부 값의 type 변환
np.array(np.random.random((2,2)), dtype=np.complex)

In [None]:
# 세부 값의 type 변환
np.array(np.random.random((2,2)), dtype=np.int)

In [None]:
# 세부 값의 type 변환
np.array(np.random.random((2,2)), dtype=np.bool)

In [None]:
# 세부 값의 type 변환
np.array(np.random.random((2,2)), dtype=np.object)

### Array 값 다루기

> **"데이터 분석을 하다보면 데이터 각각의 값들에 접근해야 하는 경우 종종 발생"**
> - **인덱싱(Indexing):** 데이터 값 하나에 접근하는 방법으로 인덱스는 값의 순번
> - **슬라이싱(Slicing):** 인덱싱과 유사하며 데이터 값을 여러가지 방식으로 접근할 수 있는 유니버셜 방법
>> - 다차원 데이터의 경우 배열의 각 차원에 대해 슬라이싱 사용
>> - 슬라이싱으로 값을 선택하면 결과의 차원은 원래의 차원보다 같거나 작음


In [None]:
# 시퀀스 '백터' 생성
a = np.arange(10)
a

In [None]:
# 5번째 값을 반환(0부터 시작해서 5번째)
a[5]

In [None]:
# 변수[시작인덱스 이상:끝인덱스 미만:간격]
a[5:8]

In [None]:
# 시작인덱스 생략시 처음부터 지정
a[:4]

In [None]:
# 끝인덱스 생략시 마지막까지 지정
a[4:]

In [None]:
# 시작인덱스와 끝인덱스 생략시 자동으로 처음과 마지막을 지정
# 간격은 생략시 자동으로 1입력
a[::1]

In [None]:
a[::3]

In [None]:
# 간격을 음수를 취하면 뒤에서부터 출발
a[::-3]

In [None]:
# 시작인덱스가 음수이면 뒤에서부터 출발
# a[0, 1, 2, 3]
# a[-4, -3, -2, -1]
a[-4:]

In [None]:
# 뒤에서 4번째 값부터 2간격으로
a[-4::2]

In [None]:
a = np.array([[ 1,  2,  3,  4], [ 5,  6,  7,  8], [ 9, 10, 11, 12]])
a

In [None]:
np.array(range(1,13))

In [None]:
# reshape을 사용해서 데이터 생성 가능
a = np.array(range(1,13)).reshape(3,4)
a

In [None]:
# 백터의 경우와 달리 행과 열 각각의 인덱싱 시행
# 1번째 행과 전체 열 출력
a[1,:]

In [None]:
# 1번째 이상 2번째 미만 행과 전체 열 출력
a[1:2,:]

In [None]:
# 1번째 이상 3번째 미만 행과 전체 열 출력
a[1:3,:]

In [None]:
# 전체 행과 1번째 이상 3번째 미만 열 출력
a[:,1:3]

> - **정수 배열 인덱싱(Int Array Indexing):**  배열의 특정 위치에 있는 값으로 구성할 수 있음
> - **부울 배열 인덱싱(Boolean Array indexing):** 배열의 특정 값만 선택할 수 있으며, 일부 조건이 참인 경우의 값을 선택하는데 사용

In [None]:
a = np.array([[1,2], [3, 4], [5, 6]])
a

In [None]:
# 인덱스를 직접 입력해서 값 출력 가능
# (0,0), (1,1), (2,0) 값 출력
np.array([a[0, 0], a[1, 1], a[2, 0]])

In [None]:
# (0,1,2)번째 행에서 (0,1,0)번째 열의 값 출력
a[[0, 1, 2], [0, 1, 0]]

In [None]:
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
a

In [None]:
b = np.array([0, 2, 0, 1])
b

In [None]:
# 0~3까지의 행에서, b의 값위치 열값 추출
a[np.arange(4), b]

In [None]:
# 0~3까지의 행에서, b의 값위치 열값에 모두 10을 더해 출력
a[np.arange(4), b] + 10

In [None]:
a = np.array([[1,2], [3, 4], [5, 6]])
a

In [None]:
# 각 값들이 2보다 큰지 논리값 반환
a>2

In [None]:
# 각 값들이 2보다 큰지 논리값에서 True인 위치의 행렬값 출력
a[a>2]

In [None]:
a = np.arange(10)
a

In [None]:
# 5~7번째 값을 100으로 치환
a[5:8] = 100
a

In [None]:
b = list(range(10))
b

In [None]:
# list에서는 동일하게 작동되지 않음
# 바꾸려는 값의 갯수만큼 치환할 값을 할당해야 가능
# b[5:8] = 100
# b

```python
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-2-74d77b409a34> in <module>
      1 b = list(range(10))
----> 2 b[5:8] = 100
      3 b

TypeError: can only assign an iterable
```

In [None]:
names = np.array(['철수', '영희', '말자', '숙자'])
names

In [None]:
# 각 값이 철수인지 논리값 반환
names == '철수'

In [None]:
# 각 값이 철수인지 논리값 기준 True인 값 반환
names[names == '철수']

In [None]:
data = np.random.randn(4,4)
data

In [None]:
# 데이터가 0보다 작은지 논리값 기준 True인 값을 0으로 치환
data[data<0] = 0
data

In [None]:
names == '철수'

In [None]:
# names가 철수인지 논리값 기준 True인 값의 data값을 반환
data[names == '철수']

In [None]:
# 테스트 array 생성
pet = np.array(['개', '고양이', '고양이', '햄스터', '개', '햄스터'])
num = np.array([1, 2, 3, 4, 5, 6])
indexing_test = np.arange(36).reshape(6, 6) # 샘플데이터
display(pet, num, indexing_test)

In [None]:
# num이 3보다 큰지 논리값 출력
num > 3

In [None]:
indexing_test[num > 3]

In [None]:
# pet가 개인지 논리값 출력
pet == '개'

In [None]:
indexing_test[pet == '개']

In [None]:
(pet == '개') | (pet == '햄스터')

In [None]:
# 펫 array 기준으로 햄스터와 개 데이터를 indexing_test에서 인덱싱해보기
indexing_test[(pet == '개') | (pet == '햄스터'), 3:]

In [None]:
# 불리언(True/False) 값을 숫자로 판단할 시 True=1, False=0으로 계산
(pet == '개').sum()

In [None]:
# 하나라도 참이면 참
(pet == '개').any()

In [None]:
# 전체데이터가 참이여야 참
(pet == '개').all()

## [Numpy Function(처리)](https://numpy.org/doc/stable/reference/routines.math.html)

### Array 기본 연산

- 기본 수학 함수는 배열에서 값마다 계산되며 numpy 내장 함수 모두 사용 가능
- 값연산 이외에 벡터와 다차원 연산이 가능하기 때문에 반복문(for, while) 사용없이 직관적 연산 가능
- (고급) 크기가 다른 배열간의 연산도 브로드캐스팅(Broadcasting) 방식으로 연산 가능

**1) 단일 배열에 사용하는 함수**

| 함수 | 설명 |
|------------------------|--------------------------------------------------------------------------|
| abs, fabs | 각 원소의 절대값을 구한다. 복소수가 아닌 경우에는 fabs로 빠르게 연산가능 |
| sqrt | 제곱근을 계산 arr ** 0.5와 동일 |
| square | 제곱을 계산 arr ** 2와 동일 |
| Exp | 각 원소에 지수 ex를 계산 |
| Log, log10, log2, logp | 각각 자연로그, 로그10, 로그2, 로그(1+x) |
| sign | 각 원소의 부호를 계산 |
| ceil | 각 원소의 소수자리 올림 |
| floor | 각 원소의 소수자리 버림 |
| rint | 각 원소의 소수자리 반올림. dtype 유지 |
| modf | 원소의 몫과 나머지를 각각 배열로 반환 |
| isnan | 각 원소가 숫자인지 아닌지 NaN으로 나타내는 불리언 배열 |
| isfinite, isinf | 배열의 각 원소가 유한한지 무한한지 나타내는 불리언 배열 |
| cos, cosh, sin, sinh, tan, tanh | 일반 삼각함수와 쌍곡삼각 함수 |
| logical_not | 각 원소의 논리 부정(not) 값 계산 |

**2) 서로 다른 배열에 사용하는 함수**

| 함수 | 설명 |
|------------------------------------------------------------|----------------------------------------------------------------------|
| add | 두 배열에서 같은 위치의 원소끼리 덧셈 |
| subtract | 첫번째 배열 원소 - 두번째 배열 원소 |
| multiply | 배열의 원소끼리 곱셈 |
| divide | 첫번째 배열의 원소에서 두번째 배열의 원소를 나눗셈 |
| power | 첫번째 배열의 원소에 두번째 배열의 원소만큼 제곱 |
| maximum, fmax | 두 원소 중 큰 값을 반환. fmax는 NaN 무시 |
| minimum, fmin | 두 원소 중 작은 값 반환. fmin는 NaN 무시 |
| mod | 첫번째 배열의 원소에 두번째 배열의 원소를 나눈 나머지 |
| greater, greater_equal, less, less_equal, equal, not_equal | 두 원소 간의 >, >=, <, <=, ==, != 비교연산 결과를 불리언 배열로 반환 |
| logical_and, logical_or, logical_xor | 각각 두 원소 간의 논리연산 결과를 반환 |

In [None]:
a2d = np.array([[1,2],[3,4]], dtype=np.float64)
b2d = np.array([[5,6],[7,8]], dtype=np.float64)
display(a2d, b2d)

array([[1., 2.],
       [3., 4.]])

array([[5., 6.],
       [7., 8.]])

In [None]:
# 요소별 합산
a2d + b2d

array([[ 6.,  8.],
       [10., 12.]])

In [None]:
# 요소별 합산
np.add(a2d, b2d)

array([[ 6.,  8.],
       [10., 12.]])

In [None]:
# 요소별 빼기
a2d - b2d

array([[-4., -4.],
       [-4., -4.]])

In [None]:
# 요소별 빼기
np.subtract(a2d, b2d)

array([[-4., -4.],
       [-4., -4.]])

In [None]:
# 요소별 곱셈
a2d * b2d

array([[ 5., 12.],
       [21., 32.]])

In [None]:
# 요소별 곱셈
np.multiply(a2d, b2d)

array([[ 5., 12.],
       [21., 32.]])

In [None]:
# 요소별 나누기
a2d / b2d

array([[0.2       , 0.33333333],
       [0.42857143, 0.5       ]])

In [None]:
# 요소별 나누기
np.divide(a2d, b2d)

array([[0.2       , 0.33333333],
       [0.42857143, 0.5       ]])

In [None]:
# 요소별 square root
np.sqrt(a2d)

array([[1.        , 1.41421356],
       [1.73205081, 2.        ]])

In [None]:
a2d = np.array([[-1,2,3],[-4,5,6],[7.1,8.4,-9.7]])
a2d

array([[-1. ,  2. ,  3. ],
       [-4. ,  5. ,  6. ],
       [ 7.1,  8.4, -9.7]])

In [None]:
# 절대값 변환
np.abs(a2d)

array([[1. , 2. , 3. ],
       [4. , 5. , 6. ],
       [7.1, 8.4, 9.7]])

In [None]:
# square root
np.sqrt(a2d)

  


array([[       nan, 1.41421356, 1.73205081],
       [       nan, 2.23606798, 2.44948974],
       [2.66458252, 2.89827535,        nan]])

In [None]:
# is same as
a2d**0.5

  


array([[       nan, 1.41421356, 1.73205081],
       [       nan, 2.23606798, 2.44948974],
       [2.66458252, 2.89827535,        nan]])

In [None]:
# 제곱 반환
np.square(a2d)

array([[ 1.  ,  4.  ,  9.  ],
       [16.  , 25.  , 36.  ],
       [50.41, 70.56, 94.09]])

In [None]:
# exp
np.exp(a2d)

array([[3.67879441e-01, 7.38905610e+00, 2.00855369e+01],
       [1.83156389e-02, 1.48413159e+02, 4.03428793e+02],
       [1.21196707e+03, 4.44706675e+03, 6.12834951e-05]])

In [None]:
# log
# log + exp는 원래대로 반환
np.log(np.exp(a2d))

array([[-1. ,  2. ,  3. ],
       [-4. ,  5. ,  6. ],
       [ 7.1,  8.4, -9.7]])

In [None]:
# 부호반환
np.sign(a2d)

array([[-1.,  1.,  1.],
       [-1.,  1.,  1.],
       [ 1.,  1., -1.]])

In [None]:
# 올림값
np.ceil(a2d)

array([[-1.,  2.,  3.],
       [-4.,  5.,  6.],
       [ 8.,  9., -9.]])

In [None]:
# 값이 nan인지 여부
np.isnan(a2d)

array([[False, False, False],
       [False, False, False],
       [False, False, False]])

In [None]:
# 값이 infinite인지 여부
np.isinf(a2d)

array([[False, False, False],
       [False, False, False],
       [False, False, False]])

In [None]:
# 값이 유한값인지 여부
np.isfinite(a2d)

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [None]:
# cosine
np.cos(a2d)

array([[ 0.54030231, -0.41614684, -0.9899925 ],
       [-0.65364362,  0.28366219,  0.96017029],
       [ 0.68454667, -0.51928865, -0.96236488]])

In [None]:
# tangent
np.tan(a2d)

array([[-1.55740772, -2.18503986, -0.14254654],
       [-1.15782128, -3.38051501, -0.29100619],
       [ 1.06489313, -1.64571073, -0.28238835]])

In [None]:
b2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
display(a2d, b2d)

array([[-1. ,  2. ,  3. ],
       [-4. ,  5. ,  6. ],
       [ 7.1,  8.4, -9.7]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
# 2개의 행렬 더하기
np.add(a2d, b2d)

array([[ 0. ,  4. ,  6. ],
       [ 0. , 10. , 12. ],
       [14.1, 16.4, -0.7]])

In [None]:
# 2개의 행렬 곱하기
np.multiply(a2d, b2d)

array([[ -1. ,   4. ,   9. ],
       [-16. ,  25. ,  36. ],
       [ 49.7,  67.2, -87.3]])

In [None]:
# 2개의 행렬 제곱
np.power(a2d, b2d)

array([[-1.00000000e+00,  4.00000000e+00,  2.70000000e+01],
       [ 2.56000000e+02,  3.12500000e+03,  4.66560000e+04],
       [ 9.09512016e+05,  2.47875891e+07, -7.60231059e+08]])

In [None]:
# 2개의 행렬 요소별 비교
np.greater(b2d, a2d)

array([[ True, False, False],
       [ True, False, False],
       [False, False,  True]])

### Array 통계 연산

In [None]:
a2d = np.array([[-1,2,3],[-4,5,6],[7,8,-9]])
a2d

array([[-1,  2,  3],
       [-4,  5,  6],
       [ 7,  8, -9]])

In [None]:
# 요소별 더하기
a2d + 2

array([[ 1,  4,  5],
       [-2,  7,  8],
       [ 9, 10, -7]])

In [None]:
# 요소별 곱하기
a2d * 2

array([[ -2,   4,   6],
       [ -8,  10,  12],
       [ 14,  16, -18]])

In [None]:
# 값의 형태 확인
a2d.dtype

dtype('int64')

In [None]:
# 행렬의 크기 확인
a2d.shape

(3, 3)

In [None]:
# 행렬(데이터) 차원 확인
# 데이터가 존재하는 축방향이 늘어나면 차원수도 늘어남
a2d.ndim

2

In [None]:
# 행렬 차원 확인
# 함수사용하여 확인 가능
np.ndim(a2d)

2

In [None]:
# 전치행렬: 대각선 기준 회전
a2d.T

array([[-1, -4,  7],
       [ 2,  5,  8],
       [ 3,  6, -9]])

In [None]:
# 전치행렬: 대각선 기준 회전
# 함수사용 변환가능
np.transpose(a2d)

array([[-1, -4,  7],
       [ 2,  5,  8],
       [ 3,  6, -9]])

In [None]:
# 세로로 더하기
np.sum(a2d, axis=0)

array([ 2, 15,  0])

In [None]:
# 가로로 더하기
np.sum(a2d, axis=1)

array([4, 7, 6])

In [None]:
# 전체 더하기
np.sum(a2d)

17

In [None]:
a2d

array([[-1,  2,  3],
       [-4,  5,  6],
       [ 7,  8, -9]])

In [None]:
# 누적합
np.cumsum(a2d)

array([-1,  1,  4,  0,  5, 11, 18, 26, 17])

In [None]:
# 곱하기
np.prod(a2d)

-362880

In [None]:
# 세로로 곱하기
np.prod(a2d, axis=0)

array([  28,   80, -162])

In [None]:
# 가로로 곱하기
np.prod(a2d, axis=1)

array([  -6, -120, -504])

In [None]:
# 누적 곱하기
np.cumprod(a2d)

array([     -1,      -2,      -6,      24,     120,     720,    5040,
         40320, -362880])

In [None]:
# 세로로 누적 곱하기
np.cumprod(a2d, axis=0)

array([[  -1,    2,    3],
       [   4,   10,   18],
       [  28,   80, -162]])

In [None]:
# 가로로 누적 곱하기
np.cumprod(a2d, axis=1)

array([[  -1,   -2,   -6],
       [  -4,  -20, -120],
       [   7,   56, -504]])

In [None]:
# 세로로 평균
np.mean(a2d, axis=0)

array([0.66666667, 5.        , 0.        ])

In [None]:
# 전체 평균
np.mean(a2d)

1.8888888888888888

In [None]:
# 세로로 표준편차
np.std(a2d, axis=0)

array([4.64279609, 2.44948974, 6.4807407 ])

In [None]:
# 전체 표준편차
np.std(a2d)

5.30082686305625

In [None]:
# 세로로 분산
np.var(a2d, axis=0)

array([21.55555556,  6.        , 42.        ])

In [None]:
# 세로로 최소값
# 실제로 많이 사용
np.min(a2d, axis=0)

array([-4,  2, -9])

In [None]:
# 세로로 최대값
# 실제로 많이 사용
np.max(a2d, axis=0)

array([7, 8, 6])

In [None]:
# 전체의 최소값과 최대값
np.min(a2d), np.max(a2d)

(-9, 8)

In [None]:
# 최소값 인덱스
# argmax보다는 덜 쓰이지만 자주 보임
# 세로로 가장작은 값의 위치(인덱스)
np.argmin(a2d, axis=0)

array([1, 0, 2])

In [None]:
# 자주 사용합니다.
# 최대값 존재하고 있는 인덱스 넘버를 리턴
# 출력값이 인덱스
# 세로로 가장큰 값의 위치(인덱스)
np.argmax(a2d, axis=0)

array([2, 2, 1])

In [None]:
# 세로로 누적합
np.cumsum(a2d, axis=0)

array([[-1,  2,  3],
       [-5,  7,  9],
       [ 2, 15,  0]])

In [None]:
# 세로로 누적곱
np.cumprod(a2d, axis=0)

array([[  -1,    2,    3],
       [   4,   10,   18],
       [  28,   80, -162]])

In [None]:
a2d = np.array([[-1,2,3],[-4,5,6],[7,8,-9]])
b2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
display(a2d, b2d)

array([[-1,  2,  3],
       [-4,  5,  6],
       [ 7,  8, -9]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
# 세로로 붙이기
c2d = np.concatenate((a2d, b2d), axis=0)
c2d

array([[-1,  2,  3],
       [-4,  5,  6],
       [ 7,  8, -9],
       [ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9]])

In [None]:
# 가로로 붙이기
c2d = np.concatenate((a2d, b2d), axis=1)
c2d

array([[-1,  2,  3,  1,  2,  3],
       [-4,  5,  6,  4,  5,  6],
       [ 7,  8, -9,  7,  8,  9]])

In [None]:
# 크기/형태 변경
c2d.reshape((9,2))

array([[-1,  2],
       [ 3,  1],
       [ 2,  3],
       [-4,  5],
       [ 6,  4],
       [ 5,  6],
       [ 7,  8],
       [-9,  7],
       [ 8,  9]])

In [None]:
# 크기/형태 변경
# 함수 사용해서 변경 가능
# 어떤 조건에서 reshape가능한가? 데이터 내부에 존재하는 속성 갯수가 같아야 함.
np.reshape(c2d, (9,2))

array([[-1,  2],
       [ 3,  1],
       [ 2,  3],
       [-4,  5],
       [ 6,  4],
       [ 5,  6],
       [ 7,  8],
       [-9,  7],
       [ 8,  9]])

In [None]:
a2d = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13 ,14 ,15, 16]])
a2d

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [None]:
# 세로로 배열 분리하기
np.split(a2d, 2, axis=0)

[array([[1, 2, 3, 4],
        [5, 6, 7, 8]]),
 array([[ 9, 10, 11, 12],
        [13, 14, 15, 16]])]

In [None]:
# 가로로 배열 분리하기
np.split(a2d, 2, axis=1)

[array([[ 1,  2],
        [ 5,  6],
        [ 9, 10],
        [13, 14]]),
 array([[ 3,  4],
        [ 7,  8],
        [11, 12],
        [15, 16]])]

## Questions

- **데이터 정보**

> - **파일명:** Industry_MonthlyElectricUsage.txt
> - **파일위치:** r'.\Data\Energy\Industry_MonthlyElectricUsage.txt'
> - **포함정보:** 아래와 같이 5개의 열(컬럼,변수)이 차례대로 포함
>> (1) 년월    
>> (2) 가구수    
>> (3) 사용량    
>> (4) 전기요금    
>> (5) 평균판매단가    

In [None]:
# 데이터 불러오기 실행
import numpy as np
### raw = np.loadtxt(r'/Users/suuup/Desktop/newminy/FC2022code/FC2204soil/Data/Energy/Industry_MonthlyElectricUsage.txt', delimiter='\t')
### 경로찾는법 "./" 입력한 상태에서 탭 눌러서 찾아다니기
### float말고 int 로 보이려면 dtype=np.int 추가하면됨
raw = np.loadtxt(r'./Data/Energy/Industry_MonthlyElectricUsage.txt', delimiter='\t')
raw

array([[2.02001000e+05, 1.30000000e+01, 1.11140000e+04, 1.70977500e+06,
        1.54000000e+02],
       [2.02001000e+05, 5.05200000e+03, 1.66106290e+07, 2.29918341e+09,
        1.38000000e+02],
       [2.02001000e+05, 5.57000000e+03, 6.51106010e+07, 8.23555475e+09,
        1.27000000e+02],
       ...,
       [2.02012000e+05, 9.00000000e+00, 0.00000000e+00, 0.00000000e+00,
        0.00000000e+00],
       [2.02012000e+05, 4.00000000e+00, 0.00000000e+00, 0.00000000e+00,
        0.00000000e+00],
       [2.02012000e+05, 1.30000000e+01, 0.00000000e+00, 0.00000000e+00,
        0.00000000e+00]])

In [None]:
# 데이터의 크기 확인하여 행과 열의 갯수 출력
raw.shape

(4473, 5)

In [None]:
# 결측값의 갯수를 출력
np.isnan(raw).sum()

0

In [None]:
# ### 타입 변환시킴
# raw.dtype
# raw = np.array(raw, dtype=np.int)
# raw

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  This is separate from the ipykernel package so we can avoid doing imports until


array([[    202001,         13,      11114,    1709775,        154],
       [    202001,       5052,   16610629, 2299183410,        138],
       [    202001,       5570,   65110601, 8235554751,        127],
       ...,
       [    202012,          9,          0,          0,          0],
       [    202012,          4,          0,          0,          0],
       [    202012,         13,          0,          0,          0]])

In [None]:
# 1) 중복되지 않은 년월 값들 출력
### date_arr = np.split(raw,5,axis=1)
date_arr = np.unique(np.split(raw,5,axis=1)[0])
date_arr

array([202001., 202002., 202003., 202004., 202005., 202006., 202007.,
       202008., 202009., 202010., 202011., 202012.])

In [None]:
### 전치행렬사용해보기
np.unique(raw.T[0,:])

array([202001., 202002., 202003., 202004., 202005., 202006., 202007.,
       202008., 202009., 202010., 202011., 202012.])

In [None]:
# 2) 1)의 출력값 갯수 출력
# date_arr.shape[0]
# np.shape(date_arr)[0]
len(date_arr)

12

In [None]:
# 전체 기간의 가구수 평균과 사용량 평균 출력
# 0(1) 년월
# 1(2) 가구수
# 2(3) 사용량
# 3(4) 전기요금
# 4(5) 평균판매단가
a = np.mean(np.split(raw,5,axis=1)[1])
b = np.mean(np.split(raw,5,axis=1)[2])
print("가구수 평균: {}\ 사용량 평균: {}".format(round(a,3),round(b,3)))

가구수 평균: 30198.262\ 사용량 평균: 185754100.524


In [None]:
# 사용량 최대값과 최소값 출력
np.min(np.split(raw,5,axis=1)[2]),\
np.max(np.split(raw,5,axis=1)[2])

(-17844180.0, 9193268214.0)

In [None]:
# 1) raw에서 사용량이 음수인 행 출력
# 2) raw에서 사용량이 음수인 행을 모두 양수로 바꾸어 출력(raw에 저장이 아닌 오로지 출력만!)
# 3) (2)의 결과를 raw에 저장하지 않고 음수 행이 존재하는)raw에서, 
# 4) raw_filter의 데이터 크기 확인하여 행과 열의 갯수 출력(raw의 행과 열 갯수와 다름)

In [None]:
# 1) raw에서 사용량이 음수인 행 출력
filter = raw[:,2] < 0
raw[filter]

array([[ 2.02011000e+05,  6.43300000e+03, -1.78441800e+07,
         1.56945295e+09, -8.80000000e+01]])

In [None]:
# 2) raw에서 사용량이 음수인 행을 모두 양수로 바꾸어 출력(raw에 저장이 아닌 오로지 출력만!)
np.abs(raw[filter])
# raw[raw<0]*(-1)

array([[2.02011000e+05, 6.43300000e+03, 1.78441800e+07, 1.56945295e+09,
        8.80000000e+01]])

In [None]:
# 3) (2)의 결과를 raw에 저장하지 않고 음수 행이 존재하는)raw에서, 
#    사용량이 음수인 행을 필터/삭제하고 나머지를 새로운 raw_filter 이름으로 저장
mask = (raw[:,2]<0)
mask
raw_filter = raw[~mask]
raw_filter

array([[2.02001000e+05, 1.30000000e+01, 1.11140000e+04, 1.70977500e+06,
        1.54000000e+02],
       [2.02001000e+05, 5.05200000e+03, 1.66106290e+07, 2.29918341e+09,
        1.38000000e+02],
       [2.02001000e+05, 5.57000000e+03, 6.51106010e+07, 8.23555475e+09,
        1.27000000e+02],
       ...,
       [2.02012000e+05, 9.00000000e+00, 0.00000000e+00, 0.00000000e+00,
        0.00000000e+00],
       [2.02012000e+05, 4.00000000e+00, 0.00000000e+00, 0.00000000e+00,
        0.00000000e+00],
       [2.02012000e+05, 1.30000000e+01, 0.00000000e+00, 0.00000000e+00,
        0.00000000e+00]])

In [None]:
# 4) raw_filter의 데이터 크기 확인하여 행과 열의 갯수 출력(raw의 행과 열 갯수와 다름)
raw_filter.shape

(4472, 5)

In [None]:
# raw_filter의 전기요금 최대값과 최소값 출력
# 0(1) 년월
# 1(2) 가구수
# 2(3) 사용량
# 3(4) 전기요금
# 4(5) 평균판매단가
np.min(np.split(raw_filter,5,axis=1)[3]),\
np.max(np.split(raw_filter,5,axis=1)[3])

(0.0, 1103271084397.0)

In [None]:
# raw_filter에서 전기요금으로 1조가 넘는 비용을 지불한 년월 출력
# 1) raw_filter에서 전기요금으로 1조가 넘는 비용을 지불한 년월의 가구수 출력
mask = (raw_filter[:,3]>10000*10000*10000)
arr_a = np.array(np.split(raw_filter[mask],5,axis=1)[1], dtype=int)
arr_a

array([[1047085],
       [1048124],
       [1058508],
       [1061014],
       [1083600]])

In [None]:
# 2) 1)에서 구한 가구수들 중 최대값과 최대값의 인덱스(순번) 출력
### https://stackoverflow.com/questions/65745624/python-adding-index-as-new-column-to-2d-array
new = np.array(range(1,len(raw_filter)+1))[...,None] # reshape
new
new_raw = np.append(new, raw_filter, axis=1)
mask1 = (new_raw[:,2]==np.max(arr_a))
# elec_max = np.split(new_raw[mask1],6,axis=1)
# # np.max(elec_max[2])
# elec_max[0], elec_max[2]
"인덱스: ", new_raw[mask1,0], "가구수 최대값: ",new_raw[mask1,2]

('인덱스: ', array([4143.]), '가구수 최대값: ', array([1083600.]))

In [None]:
### 최대값인덱스 함수 쓰는건가본데?
# raw_filter[raw_filter[:,3]>(10000*10000*10000)]
np.argmax(raw_filter[raw_filter[:,3]>(10000*10000*10000)],axis=0) 

array([4, 4, 4, 4, 2])

In [None]:
raw_filter[raw_filter[:,3]>(10000*10000*10000)][4,:]

array([2.02012000e+05, 1.08360000e+06, 9.19326821e+09, 1.10327108e+12,
       1.20000000e+02])

In [None]:
# 3) 2)에서 구한 최대값에 해당되는 년월 출력
# elec_max[1]
raw_filter[4143,0], new_raw[mask1,1], raw_filter[raw_filter[:,3]>(10000*10000*10000)][4,0]

(202012.0, array([202012.]), 202012.0)

In [None]:
### slice : https://note.nkmk.me/en/python-slice-usage/
ans = list(new_raw[mask1,1])
date_ans = str(ans[0])
date_ans[0:4],"년 ",date_ans[4:7],"월"

('2020', '년 ', '12.', '월')

In [None]:
# raw_filter 데이터에서,
# 각 년월별, 아래 출력결과의 형식과 동일하게 년월 + 전기요금 최대값 + 전기요금 최소값 출력
# 년월은 정수로 출력하고 나머지는 실수로 출력
# 출력결과: '년월: 202001 , 전기요금최대값: 100000 , 전기요금최소값: 0'
#           '년월: 202002 , 전기요금최대값: 110000 , 전기요금최소값: 100'
#             ...
