- Pandas : https://pandas.pydata.org/
- Numpy : https://numpy.org/

#### Numpy
- 수치 해석, 수학적 처리, 통계 등을 위한 라이브러리(모듈) 
- Scipy, Pandas, Matplotlib

##### Numpy 설치
```python
!pip install numpy
```

In [2]:
# 현재 버전 확인
!pip list

Package           Version
----------------- -------
asttokens         2.2.1
backcall          0.2.0
colorama          0.4.6
comm              0.1.3
contourpy         1.1.0
cycler            0.11.0
debugpy           1.6.7
decorator         5.1.1
et-xmlfile        1.1.0
executing         1.2.0
Faker             18.11.1
fonttools         4.40.0
ipykernel         6.23.2
ipython           8.14.0
jedi              0.18.2
Jinja2            3.1.2
jupyter_client    8.2.0
jupyter_core      5.3.1
kiwisolver        1.4.4
MarkupSafe        2.1.3
matplotlib        3.7.1
matplotlib-inline 0.1.6
nest-asyncio      1.5.6
numpy             1.25.0
openpyxl          3.1.2
packaging         23.1
pandas            2.0.2
parso             0.8.3
pickleshare       0.7.5
Pillow            9.5.0
pip               23.1.2
platformdirs      3.7.0
prompt-toolkit    3.0.38
psutil            5.9.5
pure-eval         0.2.2
Pygments          2.15.1
PyMySQL           1.0.3
pyparsing         3.1.0
python-dateutil   2.8.2
py

In [5]:
!pip install numpy



In [6]:
!pip install pandas



In [7]:
# import
import pandas as pd
import numpy as np

##### Numpy를 쓰는 이유
###### 시간은 컴퓨터 사양마다 다름!
- python 리스트를 만들고 사용처리(1,000,000건) -> 260ms 
- numpy 배열을 만들고 사용처리(1,000,000건) -> 34.3ms (8배 정도 빠름)

In [10]:
# 숫자 표현시 쉼표(,) 대신 언더바(_) 사용 가능!
# py_list = list(range(1000000))
py_list = list(range(1_000_000)) # 100만건 리스트 만들기

In [11]:
np_arr = np.arange(1_000_000) # 100만건 배열 만들기

In [12]:
# 파이썬 리스트 사용
%timeit for _ in range(10): py_list2 = py_list * 2

167 ms ± 4.32 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [13]:
# 넘파이로 리스트 사용
%timeit for _ in range(10): np_arr2 = np_arr * 2

15.1 ms ± 397 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


#### Numpy로 배열 생성, 연산 등

- 파이썬 리스트
    - 더하기(+) : 리스트끼리
    - 곱하기(*) : 숫자만
    - 행렬(벡터)로 연산을 하고 싶으면 numpy 배열로 형 변환 후에 처리할 것

In [14]:
# 1차원 배열 생성
np_arr1 = np.array([1, 3, 5])
np_arr1

array([1, 3, 5])

In [17]:
# 2차원 배열 생성
np_arr2 = np.array([[1, 3, 5], [7, 9, 12]])
np_arr2

array([[ 1,  3,  5],
       [ 7,  9, 12]])

In [19]:
# 3차원 배열 생성
np_arr3 = np.array([[[0, 2, 4], [8, 10, 12]], [[1, 3, 5], [7, 9, 12]]])
np_arr3

array([[[ 0,  2,  4],
        [ 8, 10, 12]],

       [[ 1,  3,  5],
        [ 7,  9, 12]]])

In [20]:
# 파이썬 기본 리스트
list1 = [1, 3, 5]
list1

[1, 3, 5]

In [21]:
# [1, 3, 5], [1, 3, 5]는 튜플로 1차원 배열이 두개 만들어짐 -> numpy에서는 허용 안됨
# [[1, 3, 5], [1, 3, 5]]는 2차원 배열
list2 = [[1, 3, 5], [1, 3, 5]]
list2

[[1, 3, 5], [1, 3, 5]]

In [22]:
# zeros : 1차원 배열의 값을 모두 0으로 채워서 생성
np_arr4 = np.zeros(4)
np_arr4

array([0., 0., 0., 0.])

In [23]:
# 2행 3열의 2차원 배열의 값을 모두 0으로 채워서 생성
np_arr5 = np.zeros([2, 3])
np_arr5

array([[0., 0., 0.],
       [0., 0., 0.]])

In [25]:
np_arr6 = np.empty([2, 3])
np_arr6

array([[0., 0., 0.],
       [0., 0., 0.]])

In [26]:
np.random.randn(2, 3)

array([[ 3.39354754, -0.76158064,  0.95128052],
       [ 1.73901864,  0.28891608, -0.35579572]])

In [37]:
np_arr7 = np.arange(10)
np_arr7

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [31]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [32]:
list(np.arange(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [33]:
# 파이썬에서 리스트 만든 다음에 numpy 형태의 배열로 변경
np.array(list(range(10)))

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]:
# 연산
np_arr7 + 2

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [39]:
np_arr7 * 3

array([ 0,  3,  6,  9, 12, 15, 18, 21, 24, 27])

In [40]:
np_arr7 / 4

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  , 2.25])

In [41]:
np_arr7 // 2

array([0, 0, 1, 1, 2, 2, 3, 3, 4, 4], dtype=int32)

In [42]:
# numpy 배열 + => 더하기 연산
np_arr7 + np_arr7

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [45]:
# 파이썬 리스트 + => concat (두 리스트를 합침)
list(np_arr7) + list(np_arr7)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [43]:
# 비교 연산
(np_arr7 + np_arr7) < 9

array([ True,  True,  True,  True,  True, False, False, False, False,
       False])

In [44]:
(np_arr7 + np_arr7) != 10

array([ True,  True,  True,  True,  True, False,  True,  True,  True,
        True])

In [46]:
# 조회
np_arr7[1]

1

In [47]:
# 인덱스 크기를 벗어나면 IndexError 예외발생
np_arr7[10]

IndexError: index 10 is out of bounds for axis 0 with size 10

In [48]:
np_arr7[np_arr7 < 5]

array([0, 1, 2, 3, 4])

In [49]:
list2 = list(range(10))
list2

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [50]:
[x for x in range(10) if x < 5] # 리스트 내포

[0, 1, 2, 3, 4]

In [51]:
np_arr7[3:9]

array([3, 4, 5, 6, 7, 8])

In [54]:
# 2차원 배열에서 값 조회
np_arr2

array([[ 1,  3,  5],
       [ 7,  9, 12]])

In [55]:
np_arr2[1][2]

12

In [53]:
np_arr2[1, 2]

12

In [57]:
np_arr2[1, 2] = 9
np_arr2

array([[1, 3, 5],
       [7, 9, 9]])

In [56]:
# 값 변경(치환)
np_arr7[np_arr7 < 5] = 100
np_arr7

array([100, 100, 100, 100, 100,   5,   6,   7,   8,   9])

#### 속성
- shape
- dtype
- T

In [60]:
np_arr1 

array([1, 3, 5])

In [61]:
# (1) shape
# (3,) => 3열
np_arr1.shape   

(3,)

In [62]:
np_arr2

array([[1, 3, 5],
       [7, 9, 9]])

In [63]:
np_arr2.shape

(2, 3)

In [64]:
# (2) dtype
np_arr2.dtype

dtype('int32')

In [65]:
# (3) T
np_arr2.T

array([[1, 7],
       [3, 9],
       [5, 9]])

In [66]:
np_arr2.T.shape

(3, 2)

#### 기타 함수

In [67]:
np_arr8 = np.arange(10)
np_arr8

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [68]:
np_arr8.mean()

4.5

In [69]:
np_arr8.sum()

45

In [70]:
# 누적 합계
np_arr8.cumsum()

array([ 0,  1,  3,  6, 10, 15, 21, 28, 36, 45])

In [71]:
np_arr9 = np.random.randn(10)
np_arr9

array([-0.38366566, -0.36589752, -0.05888902,  0.6390775 ,  0.72361429,
       -0.01839796, -0.84938059,  0.98801571,  0.51950747,  0.95374023])

In [74]:
# 오름차순 정렬
np_arr9.sort()
np_arr9

array([-0.84938059, -0.38366566, -0.36589752, -0.05888902, -0.01839796,
        0.51950747,  0.6390775 ,  0.72361429,  0.95374023,  0.98801571])

In [79]:
# 내림차순 정렬
-np.sort(-np_arr9)

array([ 0.98801571,  0.95374023,  0.72361429,  0.6390775 ,  0.51950747,
       -0.01839796, -0.05888902, -0.36589752, -0.38366566, -0.84938059])

#### 테스트용 데이터 프레임 예제

In [88]:
# 테스트용 더미 데이터 프레임 만들기
# pandas와 조합해서 생성
size = 10

df = pd.DataFrame({
    'class' : [['A', 'B', 'C', 'D', 'F'][np.random.randint(0, 5)] for i in range(0, size)],
    'year' : [np.random.randint(2010, 2024) for i in range(0, size)],
    'month' : [np.random.randint(1, 13) for i in range(0, size)],
    'val1' : [np.random.randint(1, 11) for i in range(0, size)],
    'val2' : [np.random.randint(100, 1000) for i in range(0, size)],
    'val3' : [np.random.randint(10000, 20000) for i in range(0, size)]
})

df

Unnamed: 0,class,year,month,val1,val2,val3
0,D,2021,5,4,772,16241
1,B,2020,6,7,474,13352
2,C,2017,11,4,355,17723
3,A,2019,6,3,824,19128
4,A,2019,8,8,139,13791
5,F,2016,9,5,808,11401
6,A,2019,12,2,815,19846
7,D,2021,11,4,835,14226
8,A,2014,7,8,151,17388
9,F,2012,8,7,485,11026


In [90]:
df.shape

(10, 6)

In [91]:
df.dtypes

class    object
year      int64
month     int64
val1      int64
val2      int64
val3      int64
dtype: object

In [92]:
df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
class,D,B,C,A,A,F,A,D,A,F
year,2021,2020,2017,2019,2019,2016,2019,2021,2014,2012
month,5,6,11,6,8,9,12,11,7,8
val1,4,7,4,3,8,5,2,4,8,7
val2,772,474,355,824,139,808,815,835,151,485
val3,16241,13352,17723,19128,13791,11401,19846,14226,17388,11026
