#### Numpy

- Pandas : https://pandas.pydata.org/
- Numpy : https://numpy.org/ 
- 수치해석, 수학적 처리, 통계 등을 위한 라이브러리(모듈) - Scipy, Pandas, Matploplib

numpy 설치

!pip install numpy

In [1]:
# 현재 버전 확인
!pip list

Package           Version
----------------- -------
asttokens         2.2.1
backcall          0.2.0
colorama          0.4.6
comm              0.1.3
debugpy           1.6.7
decorator         5.1.1
et-xmlfile        1.1.0
executing         1.2.0
ipykernel         6.23.2
ipython           8.14.0
jedi              0.18.2
jupyter_client    8.2.0
jupyter_core      5.3.1
matplotlib-inline 0.1.6
nest-asyncio      1.5.6
numpy             1.25.0
openpyxl          3.1.2
packaging         23.1
pandas            2.0.2
parso             0.8.3
pickleshare       0.7.5
pip               23.1.2
platformdirs      3.7.0
prompt-toolkit    3.0.38
psutil            5.9.5
pure-eval         0.2.2
Pygments          2.15.1
python-dateutil   2.8.2
pytz              2023.3
pywin32           306
pyzmq             25.1.0
setuptools        65.5.0
six               1.16.0
stack-data        0.6.2
tornado           6.3.2
traitlets         5.9.0
tzdata            2023.3
wcwidth           0.2.6


In [2]:
# numpy 다운하는 법
!pip install numpy



In [3]:
# pandas 다운하는 법
!pip install pandas



In [10]:
# import
import pandas as pd
import numpy as np

#### numpy를 쓰는 이유
- python 리스트를 만들고 사용처리(1,000,000건) - 대략 200ms
- numpy 배율을 만들면(1,000,000건) - 대략 20ms(10배정도 빠름)

In [8]:
py_list = list(range(1_000_000)) # 100만건 리스트 만들기

In [11]:
np_arr = np.arange(1_000_000)

In [12]:
## 파이썬 리스트 사용
%timeit for _ in range(10): py_list2 = py_list * 2

145 ms ± 3.08 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [13]:
## numpy(넘파이)로 리스트 사용
%timeit for _ in range(10) : np_arr2 = np_arr * 2

13 ms ± 64.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


#### 넘파이로 배열 생성, 연산 등

- 파이썬 리스트는 +(리스트끼리), *(숫자만) 연산 밖에 없음
- 행렬(백터)로 연산을 하고 싶으면 numpy 배열로 형변환 후에 처리할 것

In [14]:
# 1차원 배열생성
np_arr1 = np.array([1, 3, 5])
np_arr1

array([1, 3, 5])

In [15]:
# 2차원 배열
np_arr2 = np.array([[1, 3, 5], [5, 9, 12]])
np_arr2

array([[ 1,  3,  5],
       [ 5,  9, 12]])

In [17]:
# 3차원 배열
np_arr3 = np.array([[[[0,2,4],[8,9,10]],[[11,13,15],[7,9,12]]]])
np_arr3

array([[[[ 0,  2,  4],
         [ 8,  9, 10]],

        [[11, 13, 15],
         [ 7,  9, 12]]]])

In [18]:
#파이썬 기본 리스트(배열)
list1 = [1,3,5]
list1

[1, 3, 5]

In [20]:
# [1,3,5],[2,4,6]는 튜플로 1차원 배열이 두개 만들어짐 -> numpy에서는 허용안됨
# [[1,3,5],[1,3,5]] 2차원 배열
list2 = [[1,3,5],[1,3,5]]
list2

[[1, 3, 5], [1, 3, 5]]

In [21]:
# 길의 4의 1차원 배열을 전부 0으로 채울것
np_arr4 = np.zeros(4)
np_arr4

array([0., 0., 0., 0.])

In [22]:
np_arr5 = np.zeros([2, 3])
np_arr5

array([[0., 0., 0.],
       [0., 0., 0.]])

In [23]:
np_arr6 = np.empty((2,3,1))
np_arr6

array([[[0.],
        [0.],
        [0.]],

       [[0.],
        [0.],
        [0.]]])

In [24]:
# 랜덤은 활용도 있음
np.random.randn(2,3)

array([[ 1.67884379,  0.78478751,  1.06346877],
       [ 0.05437436, -0.78642932,  1.19698694]])

In [25]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [26]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [28]:
np_arr7 = np.arange(10)
np_arr7

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [27]:
# 파이썬에서 리스트만든 다음에 numpy형태의 배열로 변경
np.array(list(range(10)))

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [29]:
# 연산
np_arr7 + 2

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [38]:
# 파이썬 리스트는 +(리스트끼리), *(숫자만)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [30]:
np_arr7 * 3

array([ 0,  3,  6,  9, 12, 15, 18, 21, 24, 27])

In [31]:
np_arr7 / 4

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  , 2.25])

In [32]:
np_arr7 // 2

array([0, 0, 1, 1, 2, 2, 3, 3, 4, 4], dtype=int32)

In [33]:
# numpy배열은 +더하기 연산
np_arr7 + np_arr7

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [37]:
# 파이썬 리스트 + concat(두 리스트를 합침)
list(range(10)) + list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [35]:
list(np_arr7) + list(np_arr7)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [34]:
# 비교연산
(np_arr7 + np_arr7) < 9

array([ True,  True,  True,  True,  True, False, False, False, False,
       False])

In [36]:
(np_arr7 + np_arr7) != 10

array([ True,  True,  True,  True,  True, False,  True,  True,  True,
        True])

In [39]:
#조회
np_arr7[1]

1

In [41]:
# index(인덱스) 크기를 벗어나면 IndexError 예외 발생
np_arr7[10]

IndexError: index 10 is out of bounds for axis 0 with size 10

In [42]:
np_arr7[np_arr7 < 5]

array([0, 1, 2, 3, 4])

In [44]:
list2 = list(range(10))
list2

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [46]:
[x for x in range(10) if x <5] # 리스트 내포

[0, 1, 2, 3, 4]

In [47]:
np_arr7[3:9] # 뒤의 index(인덱스)는 항상 -1

array([3, 4, 5, 6, 7, 8])

In [49]:
# 2차원 배열에서 값 조회
np_arr2[1][2]

12

In [52]:
np_arr2[1,2] = 9
np_arr2

array([[1, 3, 5],
       [5, 9, 9]])

In [51]:
# 값 변경(치환)
np_arr7[np_arr7 < 5] = 100
np_arr7

array([100, 100, 100, 100, 100,   5,   6,   7,   8,   9])

#### 속성
- shape, dtype, T

In [54]:
# 1차원
np_arr1.shape

(3,)

In [55]:
np_arr2.shape

(2, 3)

In [56]:
# dtype은 값이 뭔지 알려주는 역활
np_arr2.dtype

dtype('int32')

In [57]:
# Pivot
np_arr2.T

array([[1, 5],
       [3, 9],
       [5, 9]])

In [58]:
np_arr2.T.shape

(3, 2)

#### 기타 함수

In [59]:
np_arr8 = np.arange(10)
np_arr8

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [60]:
np_arr8.mean()

4.5

In [61]:
np_arr8.sum()

45

In [63]:
np_arr8.cumsum()

array([ 0,  1,  3,  6, 10, 15, 21, 28, 36, 45])

In [64]:
np_arr9 = np.random.randn(10)
np_arr9

array([ 0.90511276, -0.2646793 ,  0.62527032,  0.61125843, -1.56683673,
        0.30743075,  2.6197702 ,  0.23201347, -1.39751054, -0.02447793])

In [65]:

np_arr9.sort()

In [66]:
np_arr9

array([-1.56683673, -1.39751054, -0.2646793 , -0.02447793,  0.23201347,
        0.30743075,  0.61125843,  0.62527032,  0.90511276,  2.6197702 ])

In [67]:
# 내림차순 정렬
-np.sort(-np_arr9)

array([ 2.6197702 ,  0.90511276,  0.62527032,  0.61125843,  0.30743075,
        0.23201347, -0.02447793, -0.2646793 , -1.39751054, -1.56683673])

#### 테스터용 데이터프레임 예제

In [68]:
# 테스트용 더미데이터프레임 만들기
size = 10
df = pd.DataFrame({
    'class' : [['A','B','C','D','F'][np.random.randint(0,5)]for i in range(0, size)],
    'year' : [np.random.randint(2010,2014) for i in range(0, size)],
    'month' : [np.random.randint(1,13) for i in range(0, size)],
    'val1' : [np.random.randint(1,13) for i in range(0, size)],
    'val2' : [np.random.randint(100,1000) for i in range(0, size)],
    'val3' : [np.random.randint(10000,20000) for i in range(0, size)],
})

df

Unnamed: 0,class,year,month,val1,val2,val3
0,F,2011,2,8,777,18553
1,B,2010,12,9,579,15355
2,B,2013,7,5,158,17963
3,C,2010,10,3,139,19887
4,A,2013,12,5,269,10129
5,F,2013,1,8,430,17230
6,C,2012,10,4,603,14419
7,F,2010,1,5,799,19104
8,D,2012,12,4,919,10273
9,C,2013,2,5,138,12777


In [69]:
df.dtypes

class    object
year      int64
month     int64
val1      int64
val2      int64
val3      int64
dtype: object

In [70]:
df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
class,F,B,B,C,A,F,C,F,D,C
year,2011,2010,2013,2010,2013,2013,2012,2010,2012,2013
month,2,12,7,10,12,1,10,1,12,2
val1,8,9,5,3,5,8,4,5,4,5
val2,777,579,158,139,269,430,603,799,919,138
val3,18553,15355,17963,19887,10129,17230,14419,19104,10273,12777
