#### Numpy

- Pandas : https://pandas.pydata.org/
- Numpy : https://numpy.org/
- 수치해석, 수학적 처리, 통계 등을 위한 라이브러리(모듈) - Scipy, Pandas, Matplopib 에 쓰인다

##### Numpy 설치
```python
!pip install numpy
```

In [1]:
# 현재 버전 확인

!pip install pandas


Collecting pandas
  Downloading pandas-2.0.2-cp311-cp311-win_amd64.whl (10.6 MB)
                                              0.0/10.6 MB ? eta -:--:--
                                              0.1/10.6 MB 2.6 MB/s eta 0:00:04
     -                                        0.4/10.6 MB 4.9 MB/s eta 0:00:03
     --                                       0.7/10.6 MB 6.8 MB/s eta 0:00:02
     ---                                      1.0/10.6 MB 6.6 MB/s eta 0:00:02
     ---                                      1.0/10.6 MB 6.0 MB/s eta 0:00:02
     ----                                     1.2/10.6 MB 4.4 MB/s eta 0:00:03
     -----                                    1.5/10.6 MB 5.1 MB/s eta 0:00:02
     -------                                  1.9/10.6 MB 5.5 MB/s eta 0:00:02
     --------                                 2.3/10.6 MB 5.8 MB/s eta 0:00:02
     -----------                              3.0/10.6 MB 6.8 MB/s eta 0:00:02
     ----------------                         4.5/10.6 MB

In [3]:
# import
import pandas as pd
import numpy as np 

##### numpy를 쓰는 이유
- python 리스트를 만들면(1,000,000건) - 200ms
- numpy 배열을 만들면(1,000,000건) - 20ms (8~10배 정도 빠름)

In [4]:
py_list = list(range(1_000_000)) # 100만건 리스트 만들기


In [5]:
np_arr = np.arange(1_000_000)

In [6]:
# 파이썬 리스트 사용
%timeit for _ in range(10): py_list2 = py_list *  2

142 ms ± 2.97 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [8]:
# np로 리스트 사용
%timeit for _ in range(10): np_arr2=np_arr * 2

12.8 ms ± 84.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


##### 넘파이로 배열생성, 연산 등 

In [9]:
# 생성
## 1차원 배열
np_arr1 = np.array([1, 3, 5])
np_arr1

array([1, 3, 5])

In [10]:
# 2차원 배열
np_arr2 = np.array([[1,3,5],[5,9,7]])
np_arr2

array([[1, 3, 5],
       [5, 9, 7]])

In [49]:
# 3차원 배열
np_arr3 = np.array([[[1,3,5],[5,9,7]], [[1,3,5],[5,9,7]]])
np_arr3

array([[[1, 3, 5],
        [5, 9, 7]],

       [[1, 3, 5],
        [5, 9, 7]]])

In [15]:
# 파이썬 기본 리스트(배열)
list1 = [1,3,5]
list1

[1, 3, 5]

In [16]:
# 파이썬 기본 리스트(배열) : 해당 경우에는 튜플로 1차원 배열이 두개 만들어진다. 넘파이에서는 허용되지 않는다.
list2 = [1,3,5],[5,9,7]
list2

([1, 3, 5], [5, 9, 7])

In [17]:
# zeros(길이) : 길이만큼의 1차원 배열을 전부 0으로 채우는 배열
np_arr4 = np.zeros(4)
np_arr4

array([0., 0., 0., 0.])

In [18]:
# zeros([행 , 열]) :
np_arr5 = np.zeros([2, 3])
np_arr5

array([[0., 0., 0.],
       [0., 0., 0.]])

In [24]:
np.empty([2, 3])

array([[1.26202764, 0.10255047, 0.28079868],
       [1.5654729 , 0.18526433, 0.11692328]])

In [23]:
# random 랜덤
np.random.randn(2,3)

array([[ 1.26202764,  0.10255047,  0.28079868],
       [ 1.5654729 , -0.18526433, -0.11692328]])

In [30]:
# 
np_arr7 = np.arange(10)

In [28]:
# 파이썬에서 리스트를 만든 다음 numpy 형태의 배열로 변경
np.array(list(range(10)))

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [31]:
# 연산 : 각각 2가 더해짐
np_arr7 + 2

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [32]:
# 연산 : 각각 2가 곱해짐
np_arr7 * 2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [33]:
# 연산 : 각각 2가 나눠짐
np_arr7 / 2

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [34]:
# 연산 : 각각 2로 나눈 몫만 나옴
np_arr7 // 2

array([0, 0, 1, 1, 2, 2, 3, 3, 4, 4], dtype=int32)

In [36]:
# 연산 : 
np_arr7 + np_arr7

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [37]:
# 비교연산 : True /False 두가지로 나옴
(np_arr7 + np_arr7) <9

array([ True,  True,  True,  True,  True, False, False, False, False,
       False])

In [38]:
# 비교연산 : True /False 두가지로 나옴
(np_arr7 + np_arr7) != 9

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True])

In [39]:
# 비교연산 : True /False 두가지로 나옴
(np_arr7 + np_arr7) != 9

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True])

##### 넘파이로 배열 생성 연산 등
- 파이썬 리스트는 파이썬 리스트끼리 +랑 *밖에 없음
- 넘파이는 다 가능


In [40]:
# 조회
np_arr7[1]

1

In [41]:
# 인덱스 크기를 벗어나면 IndexError발생
np_arr7[10]

IndexError: index 10 is out of bounds for axis 0 with size 10

In [42]:
np_arr7[np_arr7 <5]


array([0, 1, 2, 3, 4])

In [46]:
# 
[X for X in range(10) if X <5]

[0, 1, 2, 3, 4]

In [47]:
np_arr7[3:9] # 뒤에 인덱스는 항상 -1

array([3, 4, 5, 6, 7, 8])

In [58]:
# 2차원 배열에서 값 조회
# 2차원 배열
np_arr2 = np.array([[1,3,5],[5,9,7]])
np_arr2
np_arr2[1][2]

7

In [59]:
# 값 변경(치환)
np_arr7[np_arr7 < 5] = 100
np_arr7

array([100, 100, 100, 100, 100,   5,   6,   7,   8,   9])

##### 속성
- shape, type

In [60]:
# 1차원 (행 열)
# (3,) : 행만 있고 열은 
np_arr1.shape

(3,)

In [61]:
# 2차원
np_arr2.shape

(2, 3)

In [63]:
np_arr2.dtype

dtype('int32')

In [64]:
# pivot
# 2행 3열을 3행 2열로 치환(피벗)
np_arr2.T

array([[1, 5],
       [3, 9],
       [5, 7]])

##### 기타함수

In [67]:
np_arr8 = np.arange(10)
np_arr8

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [68]:
np_arr8.mean()

4.5

In [69]:
np_arr8.sum()

45

In [70]:
np_arr8.cumsum()

array([ 0,  1,  3,  6, 10, 15, 21, 28, 36, 45])

In [72]:
np_arr9 = np.random.randn(10)
np_arr9

array([ 1.58825961, -0.1617473 , -0.37894927,  0.5522909 ,  0.43699056,
       -0.3741299 , -1.87302475, -0.00713817,  0.55774284,  0.94571431])

In [73]:
np_arr9.sort() #정렬

In [74]:
np_arr9

array([-1.87302475, -0.37894927, -0.3741299 , -0.1617473 , -0.00713817,
        0.43699056,  0.5522909 ,  0.55774284,  0.94571431,  1.58825961])

In [75]:
# 역정렬 
-np.sort(-np_arr9)

array([ 1.58825961,  0.94571431,  0.55774284,  0.5522909 ,  0.43699056,
       -0.00713817, -0.1617473 , -0.3741299 , -0.37894927, -1.87302475])

##### 테스트용 데이터프레임 예제

In [85]:
# 테스트용 더미데이터 프레임 만들기 : 판다스랑 조합해서 생성
size =100
df = pd.DataFrame({
    'class':[['A', 'B', 'C', 'D', 'E', 'F'][np.random.randint(0, 5)] for i in range(0, size)],
    'year' :[np.random.randint(2010, 2024) for i in range(0, size)],
    'month' :[np.random.randint(1, 13) for i in range(0, size)],
    'val1': [np.random.randint(1,11) for i in range(0, size)],
    'val2': [np.random.randint(100,1000) for i in range(0, size)],
    'val3': [np.random.randint(10000,20000) for i in range(0, size)]
})

df

Unnamed: 0,class,year,month,val1,val2,val3
0,A,2011,9,3,665,18186
1,C,2017,3,9,407,12997
2,C,2012,7,10,472,13561
3,E,2017,12,1,338,19672
4,B,2015,4,1,405,13005
...,...,...,...,...,...,...
95,A,2018,9,7,798,17919
96,C,2013,11,7,788,12532
97,D,2022,6,5,171,16894
98,B,2018,2,1,777,18732


In [86]:
df.shape

(100, 6)

In [87]:
df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,90,91,92,93,94,95,96,97,98,99
class,A,C,C,E,B,B,A,B,B,D,...,E,D,B,A,C,A,C,D,B,E
year,2011,2017,2012,2017,2015,2016,2010,2019,2012,2020,...,2016,2016,2023,2022,2013,2018,2013,2022,2018,2019
month,9,3,7,12,4,1,6,6,11,8,...,5,9,1,5,1,9,11,6,2,3
val1,3,9,10,1,1,1,5,9,3,7,...,1,5,1,5,4,7,7,5,1,4
val2,665,407,472,338,405,156,926,384,905,758,...,749,711,280,735,120,798,788,171,777,413
val3,18186,12997,13561,19672,13005,12804,17862,10295,11163,17553,...,19960,17793,19006,18233,11118,17919,12532,16894,18732,18381
