#### Numpy

- Pandas : https://pandas.pydata.org/

- Numpy : https://numpy.org/

- 수치해석, 수학적 처리를 위한 라이브러리(모듈) - Scipy, Pandas, Matplotlib

In [7]:
# 현재 버전 확인
!pip install numpy



In [8]:
!pip install pandas



In [9]:
# import

import pandas as pd
import numpy as np

##### numpy를 쓰는 이유
- python으로 리스트를 만들면 (1,000,000건) - 대략 200ms
- numpy로 배열을 만들면(1,000,000건) - 대략 20ms (10배정도 빠름)

In [10]:
py_list = list(range(1_000_000)) # 100만건 리스트 만들기

In [11]:
np_arr = np.arange(1_000_000)

In [12]:
### 파이썬 리스트 사용

%timeit for _ in range(10): py_list2 = py_list * 2

165 ms ± 4.64 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [None]:
## 넘파이로 리스트 사용
%timeit for _ in range(10): np_arr2 = np_arr * 2

13.7 ms ± 144 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


##### 넘파이로 배열 생성, 연산 등

- 파이썬 리스트는 +(리스트끼리), *(숫자만) 연산 밖에 없음

- 행렬(벡터)로 연산을 하고 싶으면 numpy배열로 형변환 후 처리할 것

In [None]:
# 1차원 배열 생성
np_arr1 = np.array([1, 3, 5])
np_arr1

array([1, 3, 5])

In [None]:
# 2차원 배열 생성
np_arr2 = np.array([[1, 3, 5], [1, 3, 5]])
np_arr2

array([[1, 3, 5],
       [1, 3, 5]])

In [None]:
# 3차원 배열 생성
np_arr3 = np.array([[[1, 5, 7], [2, 3, 4]], [[1, 3 , 5],[2, 4, 8]]])
np_arr3

array([[[1, 5, 7],
        [2, 3, 4]],

       [[1, 3, 5],
        [2, 4, 8]]])

In [None]:
#파이썬 기본 리스트(배열)
list1 = [1, 3, 5]
list1

[1, 3, 5]

In [None]:
# [1, 3, 5], [2, 4, 8] 는 튜플로 1차원 배열이 두 개 만들어짐 -> numpy에서는 허용 안 됨
# [[1, 3, 5], [2, 4, 8]] 2차원 배열
list2 = [[1, 3, 5], [2, 4, 8]]
list2

[[1, 3, 5], [2, 4, 8]]

In [None]:
# 길이 4의 1차원 배열을 전부 0으로 채울 것
np_arr4 = np.zeros(4)
np_arr4

array([0., 0., 0., 0.])

In [None]:
np_arr5 = np.zeros([2, 3])
np_arr5

array([[0., 0., 0.],
       [0., 0., 0.]])

In [None]:
np_arr6 = np.empty([2, 3])
np_arr6

array([[1.35425881, 1.63404155, 0.60425939],
       [0.9487838 , 0.34072937, 2.12608364]])

In [None]:
# random은 활용도 있음
np.random.randn(2, 3)

array([[-1.78218012, -2.06594173,  1.45703472],
       [-0.46028998,  0.80193269, -2.33896035]])

In [None]:
np_arr7 = np.arange(10)
np_arr7

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
# 파이썬에서 리스트만든 다음에 numpy형태의 배열로 변경
np.array(list(range(10)))

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
# 연산
np_arr7 + 2

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [None]:
np_arr7 * 3

array([ 0,  3,  6,  9, 12, 15, 18, 21, 24, 27])

In [None]:
np_arr7 / 4

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  , 2.25])

In [None]:
np_arr7 // 2

array([0, 0, 1, 1, 2, 2, 3, 3, 4, 4], dtype=int32)

In [None]:
# numpy배열은 더하기 연산
np_arr7 + np_arr7

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [None]:
# 파이썬 리스트의 +는 concat역할을 함 (두 리스트를 합침)
list(range(10)) + list(range(10)) 

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
# 비교연산
(np_arr7 + np_arr7) < 9

array([ True,  True,  True,  True,  True, False, False, False, False,
       False])

In [None]:
(np_arr7 + np_arr7) != 10

array([ True,  True,  True,  True,  True, False,  True,  True,  True,
        True])

In [None]:
# 조회
np_arr7[1]

1

In [13]:
# 인덱스 크기를 벗어나면 IndexError 예외발생
np_arr7[10]

NameError: name 'np_arr7' is not defined

In [None]:
np_arr7[np_arr7 < 5]

array([0, 1, 2, 3, 4])

In [None]:
list2 = list(range(10))
list2

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
[x for x in range(10) if x < 5] #리스트 내포

[0, 1, 2, 3, 4]

In [None]:
np_arr7[3:9] # 뒤에 인덱스는 항상 -1

array([3, 4, 5, 6, 7, 8])

In [None]:
# 2차원 배열에서 값 조회
np_arr2[1][2]

5

In [None]:
np_arr2[1, 2]

5

In [None]:
# 값 변경(치환)
np_arr7[np_arr7 < 5] = 100
np_arr7

array([100, 100, 100, 100, 100,   5,   6,   7,   8,   9])

##### 속성
- shape, dtype, T

In [None]:
# 1차원
np_arr1.shape

(3,)

In [None]:
# 2차원
np_arr2.shape

(2, 3)

In [None]:
np_arr2.dtype

dtype('int32')

In [None]:
# Pivot
np_arr2.T

array([[1, 1],
       [3, 3],
       [5, 5]])

In [None]:
np_arr2.T.shape

(3, 2)

##### 기타함수

In [None]:
np_arr8 = np.arange(10)
np_arr8

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np_arr8.mean()

4.5

In [None]:
np_arr8.sum()

45

In [None]:
np_arr8.cumsum()

array([ 0,  1,  3,  6, 10, 15, 21, 28, 36, 45])

In [None]:
np_arr9 = np.random.randn(10)
np_arr9

array([-1.7686821 , -1.22987089,  0.112097  , -0.19328257,  0.67661795,
        1.2943844 ,  1.38339385,  0.21406749,  0.11390233, -1.04040355])

In [None]:
# 오름차순 정렬
np_arr9.sort()

In [None]:
np_arr9

array([-1.7686821 , -1.22987089, -1.04040355, -0.19328257,  0.112097  ,
        0.11390233,  0.21406749,  0.67661795,  1.2943844 ,  1.38339385])

In [None]:
# 내림차순 정렬
-np.sort(-np_arr9)

array([ 1.38339385,  1.2943844 ,  0.67661795,  0.21406749,  0.11390233,
        0.112097  , -0.19328257, -1.04040355, -1.22987089, -1.7686821 ])

##### 테스트용 데이터 프레임 예제

In [None]:
# 테스트용 더미데이터프레임 만들기
# 판다스와 조합해서 생성

size = 10
df = pd.DataFrame({
    'class': [['A', 'B', 'C', 'D', 'F'][np.random.randint(0, 5)] for i in range(0, size)],
    'year' : [np.random.randint(2010, 2024) for i in range(0, size)],
    'month' : [np.random.randint(1, 13) for i in range(0, size)],
    'val1' : [np.random.randint(1, 11) for i in range(0, size)],
    'val2' : [np.random.randint(100, 1000) for i in range(0, size)],
    'val3' : [np.random.randint(10000, 20000) for i in range(0, size)]
})

df

Unnamed: 0,class,year,month,val1,val2,val3
0,C,2022,12,3,285,19444
1,C,2016,7,10,831,18368
2,D,2017,9,9,458,16591
3,A,2013,3,10,662,11321
4,A,2010,3,7,653,16378
5,D,2011,1,10,330,16293
6,F,2016,2,8,885,11842
7,D,2016,1,9,529,14410
8,C,2021,2,6,389,13589
9,B,2021,5,10,134,13189


In [None]:
df.dtypes

class    object
year      int64
month     int64
val1      int64
val2      int64
val3      int64
dtype: object

In [None]:
df.shape

(10, 6)

In [None]:
df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
class,C,C,D,A,A,D,F,D,C,B
year,2022,2016,2017,2013,2010,2011,2016,2016,2021,2021
month,12,7,9,3,3,1,2,1,2,5
val1,3,10,9,10,7,10,8,9,6,10
val2,285,831,458,662,653,330,885,529,389,134
val3,19444,18368,16591,11321,16378,16293,11842,14410,13589,13189
