# Numpy
- C언어로 구현된 파이썬 라이브러리
- 고성능 수치계산을 위해 제작
- Numerical Python 
- 벡터 및 행렬 연산에 매우 편리한 기능 제공
- Pandas와 matplotlib과 더불어 데이터분석에 필수 라이브러리
- 기본적으로 array 단위로 데이터 처리
- 대표적인 자료형 : ndarray 객체

## Numpy

In [3]:
# numpy 모듈 불러오기
import numpy as np

In [2]:
# Python의 List 이용
a = [1, 2, 3, 4, 5]
a

[1, 2, 3, 4, 5]

In [3]:
arr1 = np.array(a)

In [4]:
arr1

array([1, 2, 3, 4, 5])

In [6]:
arr2 = np.array([1, 2, 3, 4, 5])
arr2

array([1, 2, 3, 4, 5])

In [7]:
# array 형태(크기) 확인
arr1.shape

(5,)

In [8]:
#array 자료형 확인
arr1.dtype

dtype('int32')

## 배열 생성 : Numpy가 제공하는 함수를 이용한 단순 배열 생성
- zeros, ones
- zeros_like, ones_like
- empty
- arange
- linspace, logspace

In [9]:
# 0인 배열 생성 : zeros(배열크기)
a = np.zeros(5)
a

array([0., 0., 0., 0., 0.])

In [11]:
b = np.zeros(5, dtype = "i")
b

array([0, 0, 0, 0, 0], dtype=int32)

- numpy 자료형, dtype의 접두사
- "i": 정수형
- "u": unit(unsign int), 부호가 없는 정수
- "f": float
- "b": 논리형(bool)
- "c": 복소수(complex)
- "s": 문자열(string)

In [12]:
x = np.array([1,2,3], dtype='f')
x.dtype

dtype('float32')

In [13]:
b = np.zeros((2,3))
b

array([[0., 0., 0.],
       [0., 0., 0.]])

In [14]:
c = np.zeros((5,2), dtype= "i")
c

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int32)

In [15]:
e = np.ones((2,3,4))
e

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])

In [16]:
# 기존의 배열의 크기를 그대로 사용하여 배열 생성
# zeros_like
# ones_like


In [18]:
f = np.ones_like(b)
f

array([[1., 1., 1.],
       [1., 1., 1.]])

In [19]:
g = np.empty((4,3))

In [20]:
g

array([[1.02543565e-311, 2.81617418e-322, 0.00000000e+000],
       [0.00000000e+000, 9.45737026e-308, 1.33664410e+160],
       [5.20172218e-090, 9.33114435e+164, 4.31809829e-038],
       [1.53154680e-047, 6.48224660e+170, 4.93432906e+257]])

In [21]:
# range() : 순차리스트, 수열생성함수
# range(5) : 0, 1, 2, 3, 4
# range(1, 10) : 1, 2, 3, 4, 5, 6 ,7, 8, 9
# arange() : Numpy의 range명령어이다.

In [23]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [24]:
np.linspace(0, 100, 5)

array([  0.,  25.,  50.,  75., 100.])

In [26]:
np.logspace(0.1, 1, 10)

array([ 1.25892541,  1.58489319,  1.99526231,  2.51188643,  3.16227766,
        3.98107171,  5.01187234,  6.30957344,  7.94328235, 10.        ])

## 전치행렬
- 행과 열을 바꾸는 기능
- T

In [27]:
A = np.array([[1, 2 ,3],[4, 5, 6]])
A

array([[1, 2, 3],
       [4, 5, 6]])

In [28]:
A.T

array([[1, 4],
       [2, 5],
       [3, 6]])

## 배열의 크기 변형
- 배열의 크기 속성 : shape, 배열명.속성
- 배열의 크기 변경 : reshape

In [29]:
a = np.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [30]:
a.shape

(12,)

In [31]:
b = a.reshape(3,4)

In [32]:
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [33]:
a.reshape(3, -1)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [34]:
a.reshape(2,2,-1)

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [35]:
a.reshape(2, -1, 2)

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

In [39]:
#다차원 배열을 1차원 배열로 생성하는 flatten, ravel 메서드
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [37]:
a = a.reshape(3,4)

In [38]:
a.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [40]:
a.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [41]:
x = np.arange(5)
x

array([0, 1, 2, 3, 4])

In [42]:
x.shape

(5,)

In [43]:
x.reshape(1,5)

array([[0, 1, 2, 3, 4]])

In [44]:
x.reshape(5,1)

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [45]:
# 차원만 증가시키는 newaxis
x

array([0, 1, 2, 3, 4])

In [46]:
x[:,np.newaxis]

array([[0],
       [1],
       [2],
       [3],
       [4]])

# Numpy 배열의 연산

In [48]:
x = np.arange(1,10001)
y = np.arange(1001,2001)

In [49]:
%%time
res= np.zeros_like(x)

CPU times: total: 0 ns
Wall time: 0 ns


In [50]:
res[:10]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

TypeError: 'list' object is not callable

In [55]:
np.all(a==b)

True

In [56]:
a = np.arange(5)

In [57]:
a

array([0, 1, 2, 3, 4])

In [58]:
np.exp(b)

array([[1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01],
       [5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03],
       [2.98095799e+03, 8.10308393e+03, 2.20264658e+04, 5.98741417e+04]])

In [59]:
np.log(a+1)

array([0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791])

In [60]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [61]:
100*x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [62]:
x = np.arange(12).reshape(3,4)

In [63]:
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [64]:
100*x

array([[   0,  100,  200,  300],
       [ 400,  500,  600,  700],
       [ 800,  900, 1000, 1100]])

## 브로드캐스팅(broadcasting)
- 서로 크기가 다른 배열의 사칙연산을 수행하는 기능
- 크기가 작은 배열이 자동적으로 큰 배열의 크기로 맞춰지는 기능

In [65]:
x=np.arange(5)

In [66]:
x

array([0, 1, 2, 3, 4])

In [67]:
y = np.ones_like(x)

In [68]:
y

array([1, 1, 1, 1, 1])

In [69]:
x + 1

array([1, 2, 3, 4, 5])

In [71]:
y = np.arange(12).reshape(3,4)

In [72]:
y

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [73]:
y +1

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [74]:
z = np.ones_like(y)

In [75]:
z

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]])

## 그룹함수 or 자원축소연산
- 최대/최소 : min, max, argmin,argmax
- 기초통계 : sum, mean, medium, std, var
- 논리연산 : all, any

In [82]:
np.median(x)

2.0

In [4]:
a = np.zeros((100,100), dtype='i')

In [92]:
a

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int32)

In [5]:
np.any(a!=0)

False

In [6]:
a = np.array([1,2,3,2])

In [7]:
b = np.array([2, 2, 3, 4])
c = np.array([6, 4, 4, 5])

In [12]:
((a<=b) & (b<= c)).all()

True

-축(axis) : axis = 0(열), axis = 1(행), default(axis=0)

In [13]:
x = np.array([[1,1],[2,2]])
x

array([[1, 1],
       [2, 2]])

In [14]:
x.sum()

6

In [15]:
x.sum(axis=0)

array([3, 3])

In [16]:
x.sum(axis=1)

array([2, 4])

## 정렬(sort)
- 2차원 이상일 경우 행이나 열을 각각 따로 정렬한다.
- axis = 0이면 각 열을 기준으로 정렬, axis = 1이면 각 행을 기준으로 정렬
- 생략은 axis = 1
- axis = -1이면 안쪽차원이 기준(axis = 1)

In [23]:
a = np.array([[4, 5, 6, 7],[1, 13, 11, 9],[2, 5, 15, 7]])

In [18]:
a

array([[ 4,  5,  6,  7],
       [ 1, 13, 11,  9],
       [ 2,  5, 15,  7]])

In [19]:
np.sort(a, axis=0)

array([[ 1,  5,  6,  7],
       [ 2,  5, 11,  7],
       [ 4, 13, 15,  9]])

In [20]:
np.sort(a, axis=-1)

array([[ 4,  5,  6,  7],
       [ 1,  9, 11, 13],
       [ 2,  5,  7, 15]])

In [22]:
a.sort()
a

array([[ 4,  5,  6,  7],
       [ 1,  9, 11, 13],
       [ 2,  5,  7, 15]])

In [24]:
a.sort(axis=1)
a

array([[ 4,  5,  6,  7],
       [ 1,  9, 11, 13],
       [ 2,  5,  7, 15]])

In [25]:
# 정렬을 하지 않고 순서만 알고싶다면 argsort 명령을 한다.
a = np.array([4,2,3,8])
b = np.argsort(a)
b

array([1, 2, 0, 3], dtype=int64)

In [26]:
a[b]

array([2, 3, 4, 8])

In [27]:
np.sort(a)

array([2, 3, 4, 8])

## Fancy Indexing : 펜시인덱싱
- boolean 인덱싱을 이용하는 것
- 마스크 인덱싱
- 규칙이 일정하지 않지만 원하는 데이터를 추출하고자 할때 사용한다.

In [28]:
names = np.array(['park','park','kim','joan','lee','park','hong','park'])

In [29]:
names

array(['park', 'park', 'kim', 'joan', 'lee', 'park', 'hong', 'park'],
      dtype='<U4')

In [30]:
names.shape

(8,)

In [32]:
# 정규분포 : np.random.randn(), 평균 = 0, 표준편차 = 1
# 0~1 사이의 난수
data = np.random.randn(8,4)

In [33]:
data

array([[ 0.55342959,  0.30102088,  1.55375108,  0.63871031],
       [-1.86749275,  2.51666243,  2.71762633, -0.929189  ],
       [-0.28926574, -1.28957392, -0.75132033, -0.33970197],
       [ 0.79699018,  1.20946978,  0.10268288, -0.77352104],
       [-0.48022052,  0.47515436,  0.64918256, -0.32026489],
       [-0.59369323,  0.94892446, -1.78110959,  0.66724738],
       [ 0.54227259, -0.0858003 , -1.11940864, -0.32919689],
       [-0.4535945 , -0.95494005,  0.96462653,  1.31579678]])

In [34]:
data.shape

(8, 4)

In [35]:
index = (names == 'park')
data[index,:]

array([[ 0.55342959,  0.30102088,  1.55375108,  0.63871031],
       [-1.86749275,  2.51666243,  2.71762633, -0.929189  ],
       [-0.59369323,  0.94892446, -1.78110959,  0.66724738],
       [-0.4535945 , -0.95494005,  0.96462653,  1.31579678]])

In [36]:
#요소가 'kim'인 행의 데이터만 추출
data[names=='kim',:]

array([[-0.28926574, -1.28957392, -0.75132033, -0.33970197]])

In [37]:
#'kim''hong'
data[(names =='kim')| (names =='hong'),:]

array([[-0.28926574, -1.28957392, -0.75132033, -0.33970197],
       [ 0.54227259, -0.0858003 , -1.11940864, -0.32919689]])

In [41]:
#0번째 열의 값이 0보다 작은 행을 추출
data[:,0] < 0

array([False,  True,  True, False,  True,  True, False,  True])

In [42]:
data[data[:,0] < 0, :]

array([[-1.86749275,  2.51666243,  2.71762633, -0.929189  ],
       [-0.28926574, -1.28957392, -0.75132033, -0.33970197],
       [-0.48022052,  0.47515436,  0.64918256, -0.32026489],
       [-0.59369323,  0.94892446, -1.78110959,  0.66724738],
       [-0.4535945 , -0.95494005,  0.96462653,  1.31579678]])

In [43]:
#0번째 열의 값이 0보다 작은 행의 2,3번째 열의 값만 추출
data[data[:,0]<0,2:4]

array([[ 2.71762633, -0.929189  ],
       [-0.75132033, -0.33970197],
       [ 0.64918256, -0.32026489],
       [-1.78110959,  0.66724738],
       [ 0.96462653,  1.31579678]])

# 기술통계분석

In [44]:
x = np.array([18, 5, 10, 23, 19, -8, 10, 0, 0, 5, 2, 15, 8, 2, 5, 4, 15, -1, 4, -7, -24, 7, 9, -6, 23, -13])
x

array([ 18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
         2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

## 데이터의 개수 : len

In [45]:
len(x)

26

## 평균: mean

In [46]:
np.mean(x)

4.8076923076923075

## 분산 : var

In [47]:
np.var(x)

115.23224852071006

## 표준편차 : std

In [48]:
np.std(x)

10.734628476137871

## 최대값과 최소값 : max, min

In [49]:
np.max(x)
np.min(x)

-24

## 중앙값 : median

In [50]:
np.median(x)

5.0

## 사분위수 : quantile

In [51]:
np.percentile(x,0) #최소값

-24.0

In [52]:
np.percentile(x,25)

0.0

# 난수(rendom number)

## 시드설정(seed) : 0과 같거나 큰 정수


In [53]:
np.random.seed(0)

In [54]:
np.random.rand(5)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [55]:
np.random.rand(10)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

In [56]:
np.random.seed(0)

In [57]:
np.random.rand(5)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [58]:
np.random.rand(10)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

In [59]:
np.random.rand(10)

array([0.0871293 , 0.0202184 , 0.83261985, 0.77815675, 0.87001215,
       0.97861834, 0.79915856, 0.46147936, 0.78052918, 0.11827443])

In [60]:
arr1 = np.random.random((3,3))

In [61]:
arr2 = np.random.normal(2,1,(3,2))

In [62]:
arr1

array([[0.63992102, 0.14335329, 0.94466892],
       [0.52184832, 0.41466194, 0.26455561],
       [0.77423369, 0.45615033, 0.56843395]])

In [63]:
arr2

array([[2.04575852, 1.81281615],
       [3.53277921, 3.46935877],
       [2.15494743, 2.37816252]])

In [66]:
arr3=np.random.randn(2,3) # 표준정규분포, 평균(0) 편차(1)


## 데이터 샘플링(sampling), shuffle 명령과 같다.
- np.choice(배열, size, reqlace, p)
- 배열 : arange(n)


In [68]:
np.random.choice(5, 5, replace=False)

array([4, 2, 3, 1, 0])

In [69]:
np.random.choice(5, 3, replace=False)

array([2, 4, 1])

In [72]:
np.random.choice(5, 10, p=[0.1,0, 0.3,0.6,0])

array([0, 3, 0, 3, 3, 3, 3, 3, 0, 2])

In [73]:
#0과 1사이 균일분포
np.random.rand(10)

array([0.12019656, 0.2961402 , 0.11872772, 0.31798318, 0.41426299,
       0.0641475 , 0.69247212, 0.56660145, 0.26538949, 0.52324805])

In [74]:
np.random.randint(10)

9

In [75]:
np.random.randint(10, size=10)

array([1, 4, 6, 8, 2, 3, 0, 0, 6, 0])

In [76]:
np.random.randint(10,20,size=10)

array([16, 13, 13, 18, 18, 18, 12, 13, 12, 10])

In [77]:
np.random.randint(10,20,size=(3,5))

array([[18, 18, 13, 18, 12],
       [18, 14, 13, 10, 14],
       [13, 16, 19, 18, 10]])

## 정수 데이터 카운팅
- unique : 중복 제거 중복되지 않은 값
- return_counts = True, 각 값의 개수

In [78]:
np.unique([11,11,2,2,3,3])

array([ 2,  3, 11])

In [80]:
a = np.array(['a', 'b', 'b', 'c', 'a'])
a

array(['a', 'b', 'b', 'c', 'a'], dtype='<U1')

In [81]:
np.unique(a)

array(['a', 'b', 'c'], dtype='<U1')

In [82]:
index, count = np.unique(a, return_counts=True)

In [83]:
index

array(['a', 'b', 'c'], dtype='<U1')

In [84]:
count

array([2, 2, 1], dtype=int64)

# Data Analysis - 2nd

In [85]:
#zeros, ones, full, eye
a = np.full((2,3),5)

In [86]:
a

array([[5, 5, 5],
       [5, 5, 5]])

In [87]:
#정방행렬
b = np.eye(3)

In [89]:
b

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [90]:
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])

In [91]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [92]:
arr2d[2][0]

7

In [93]:
arr2d[2,0]

7

In [94]:
a = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])

In [95]:
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [96]:
b = a

In [97]:
b

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [98]:
a[0,0]=100

In [99]:
a

array([[100,   2,   3,   4],
       [  5,   6,   7,   8],
       [  9,  10,  11,  12]])

In [100]:
b

array([[100,   2,   3,   4],
       [  5,   6,   7,   8],
       [  9,  10,  11,  12]])

In [101]:
#copy() : 깊은복사
c = a.copy()

In [102]:
c

array([[100,   2,   3,   4],
       [  5,   6,   7,   8],
       [  9,  10,  11,  12]])

In [103]:
c[0,0]=1

In [104]:
c

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [105]:
a

array([[100,   2,   3,   4],
       [  5,   6,   7,   8],
       [  9,  10,  11,  12]])

In [108]:
arr=np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])

In [109]:
arr1 = arr[0].copy()

In [110]:
arr1

array([[1, 2, 3],
       [4, 5, 6]])

In [112]:
arr[0][1]

array([4, 5, 6])

In [113]:
arr[0,1,:]

array([4, 5, 6])