### 빅데이터 분석을 위한 파이썬 라이브러리

- Numpy : 과학계산 및 수학계산
- pandas : 데이터 처리 및 분석
- matplotlib, seaborn : 데이터 시각화
- plotly : 오픈 소스인 대화형의 고품질 도면 및 인터렉티브한 그래픽 라이브러리
- SciPy : 신초 처리, 최적화, 과학 계산 및 통계 처리
- BeautifulSoup : HTML과 XML 에서 정보를 수집
- Scrapy : 웹 크롤링 및 데이터 수집
- TensorFlow : 머신러닝 및 딥러닝
- Keras : 신경망 라이브러리 및 딥러닝
- NLTK : 자연어 처리

### Numpy (Numerical Python)

- 파이썬의 수치 해석 프로그램인 Numeric 를 개선, 보완한 패키지
- 산술 계산을 위한 가장 중요한 필수 패키지
- 효율적인 다차원 배열인 ndarray는 빠른 배열 계산과 유연한 브로트캐스팅 기능 제공
- 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산할 수 있는 표준 수학 함수
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 적재된 파일을 다루는 도구
- 선형대수, 난수 생성기, 푸리에 변환 기능
- 이미지와 컴퓨터 그래픽을 빠르게 처리
- C, C++, 포트란으로 작성한 코드를 연결할 수 있는 C API 제공

###  [참고] <a href='https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf'>NumPy Cheat Sheet</a>

### 1. 넘파이 배열
    - 벡터와 매트릭스를 배열이라고 함
    - 벡터(1차원), 매트릭스(2차원), 텐서(3차원 이상)
    - 논리적이고 통계적인 연산과 푸리에 변환 같은 연산을 매우 효율적으로 처리
    - 머신러닝에서 사용되는 주요 데이터 구조

### 2. ndarray 클래스 - 넘파이 배열 클래스 타입

- 다차원 배열을 쉽게 생성하고 다양한 연산 수행
- np.array(ndarray로 변환을 원하는 객체)
- shape - 차원과 크기를 튜플 형태로 돌려줌
- ndim - n dimesion(차원 확인)

<img src="https://velog.velcdn.com/images%2Fbotry%2Fpost%2F592b114f-145e-47dd-8d5e-bd5ddb179864%2Farray.png" width="720" height="404">

In [1]:
import numpy as np

#### 1) np.array([리스트]) : python의 리스트를 이용해 배열 생성

**1차원 배열(벡터)**

In [2]:
array1 = np.array([1,2,3,4,5,6])
array1 

array([1, 2, 3, 4, 5, 6])

In [3]:
# 클래스 타입 확인

'type: {}'.format(type(array1))

"type: <class 'numpy.ndarray'>"

In [4]:
# 튜플로 나옴

'shape : {}'.format(array1.shape)

'shape : (6,)'

#### 2) 2차원 배열 매트릭스

In [5]:
array2 = np.array([[1,2,3,],[4,5,6]])
array2

array([[1, 2, 3],
       [4, 5, 6]])

In [6]:
# 마지막 줄만 실행 되기 때문에 print

print('type: {}'.format(type(array2)))
'shape : {}'.format(array2.shape)

type: <class 'numpy.ndarray'>


'shape : (2, 3)'

In [7]:
array2 = np.array([[1,2,3,]])
array2

array([[1, 2, 3]])

In [8]:
print('type: {}'.format(type(array2)))
print('shape : {}'.format(array2.shape))

type: <class 'numpy.ndarray'>
shape : (1, 3)


#### 2) ndim : 차원 수

In [9]:
print('array1 : {} 차원, array2 : {} 차원'.format(array1.ndim, array2.ndim))

array1 : 1 차원, array2 : 2 차원


#### 3) dtype : data type
- 파이썬의 리스트와 넘파이 배열과의 가장 큰 차이점은 넘파이 경우에는 같은 타입으로만 구성되어야함

In [10]:
print('array1 dtype : {}, array2 dtype : {}'.format(array1.dtype, array2.dtype))

array1 dtype : int32, array2 dtype : int32


In [11]:
array3 = np.array([1,"2",3,4.0,5,6])
array3 

array(['1', '2', '3', '4.0', '5', '6'], dtype='<U32')

In [12]:
array4 = np.array([1,2,3,4.0,5,6])
array4 

array([1., 2., 3., 4., 5., 6.])

In [13]:
array4.dtype

dtype('float64')

#### astype(변환할 타입)

In [14]:
array1 = np.array([1,2,3])
array1.dtype

dtype('int32')

In [15]:
# 8 byte float로 만들기
array1_float = array1.astype('float64')
array1_float.dtype

dtype('float64')

In [16]:
# float를 int로 변경
array1_int = array1_float.astype('int32')
array1_int.dtype

dtype('int32')

In [17]:
array2 = np.array([1.2,2.2,3.2])
array2_int = array2.astype('int32')
print(array2.dtype, array2_int.dtype)

float64 int32


In [18]:
array2_int

array([1, 2, 3])

### 넘파이 배열 생성 함수
#### 1) arange(n) : 0 ~ n-1 까지 값을 순차적으로 ndarray 값으로 생성
####    arange == python에서 range

In [19]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [20]:
np.arange(5,10)

array([5, 6, 7, 8, 9])

In [21]:
# 1~10 2씩 건너 뛰면서 생성
np.arange(1,11,2)

array([1, 3, 5, 7, 9])

In [22]:
# 5의 배수(1~100)
np.arange(5,101,5)

array([  5,  10,  15,  20,  25,  30,  35,  40,  45,  50,  55,  60,  65,
        70,  75,  80,  85,  90,  95, 100])

#### 2) zeros(행,열) : 0으로 채워서 ndarray 반환

In [23]:
# 기본은 float 타입
np.zeros(3)

array([0., 0., 0.])

In [24]:
np.zeros(3,dtype='int32')

array([0, 0, 0])

In [25]:
np.zeros((2,1))

array([[0.],
       [0.]])

In [26]:
np.zeros((3,2,3))

array([[[0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.]]])

#### 3) ones(행,열) : 1로 채워서 ndarray반환

In [27]:
np.ones(4)

array([1., 1., 1., 1.])

In [28]:
np.ones(4,dtype="int")

array([1, 1, 1, 1])

In [29]:
np.ones((3,4), dtype="int")

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]])

#### 4) np.empty(행,열) : 무작위 값으로 ndarray 생성

In [30]:
np.empty(4)

array([1., 1., 1., 1.])

In [31]:
np.empty((3,4))

array([[7.66939483e-312, 2.47032823e-322, 0.00000000e+000,
        0.00000000e+000],
       [1.01855798e-312, 2.46567317e+179, 5.58527918e-091,
        3.85589019e-057],
       [8.46157467e+164, 6.34527902e-066, 3.99910963e+252,
        1.90979636e-312]])

In [32]:
np.empty((3,4), dtype="int")

array([[         0, 1072693248,          0, 1073741824],
       [         0, 1074266112,          0, 1074790400],
       [         0, 1075052544,          0, 1075314688]])

In [33]:
# 시간측정 % timeit
%timeit np.zeros(4)

305 ns ± 2.88 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [34]:
%timeit np.ones(4)

1.15 µs ± 26.8 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [35]:
%timeit np.empty(4)

327 ns ± 13.8 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


#### 5) np.full((행,열), 채울값) : 지정된 값으로 채워서 ndarray 생성

In [46]:
# 2차원
np.full((3,4),7)

array([[7, 7, 7, 7],
       [7, 7, 7, 7],
       [7, 7, 7, 7]])

In [45]:
# 1차원
np.full(5,3)

array([3, 3, 3, 3, 3])

#### 6) np.eye() : 단위행렬로 ndarray 생성
- 가운데 값이 1

In [47]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [48]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [49]:
# - : 기준보다 아래
np.eye(5, k=-1)

array([[0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.]])

In [50]:
# + : 기준보다 위
np.eye(5, k=1)

array([[0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 0.]])

#### 7) np.linspace(시작값, 마지막값, 전체개수) : 명시된 간격으로 균등하게 분할된 ndarray 생성

In [51]:
# 1에서 10까지 5개
np.linspace(1,10,5)

array([ 1.  ,  3.25,  5.5 ,  7.75, 10.  ])

In [52]:
# 1에서 10까지 4개
np.linspace(1,10,4)

array([ 1.,  4.,  7., 10.])

In [53]:
# 1에서 10까지 3개
np.linspace(1,10,3)

array([ 1. ,  5.5, 10. ])

#### 8-1) np.random.rand(행,열) : 0~1사이의 숫자가 랜덤으로 생성

In [54]:
np.random.rand(2,3)

array([[0.19456934, 0.94007306, 0.52717069],
       [0.84870598, 0.85569447, 0.76799422]])

#### 8-2) np.random.randn((행,열)) :정규분포로 샘플링 된 랜덤 ndarray 생성

In [55]:
# 1차원
np.random.randn(5)

array([-0.84641342, -0.23340321, -0.22794275,  1.98581056,  1.6031246 ])

In [56]:
# 3차원
np.random.randn(3,4,2)

array([[[ 0.2679407 , -0.20511159],
        [ 0.56710366,  0.11140925],
        [-0.61431845,  2.37891222],
        [-0.61108276,  1.89008209]],

       [[ 0.89633853,  0.27546945],
        [-0.77921733,  1.2032052 ],
        [ 1.38458002, -0.52414057],
        [ 0.51268921,  0.38445414]],

       [[-0.481376  ,  1.48523017],
        [ 1.46344137, -1.03160271],
        [-0.66168826, -0.77218113],
        [-0.74982344, -0.13850132]]])

#### 9) np.random.randint(시작값, 마지막값,(행,열)) : 지정해 준 정수로 된 랜던 ndarray 생성
####      random 실행할 때마다 값이 다름

In [57]:
# 1에서 10 사이에 숫자 5개. 중복도 가능
np.random.randint(1,10,5)

array([6, 6, 2, 4, 4])

In [59]:
# 1에서 100 사이에 3행 5열 생성
np.random.randint(1,100,(3,5))

array([[36, 64, 73, 51, 91],
       [10, 48, 35, 81, 95],
       [80, 90, 92,  5,  4]])

#### seed (임의의 수) : 랜덤한 값을 동일하게 다시 생성하고자 할 때 사용

In [55]:
np.random.seed(42)
np.random.randn(3,4)

array([[ 0.49671415, -0.1382643 ,  0.64768854,  1.52302986],
       [-0.23415337, -0.23413696,  1.57921282,  0.76743473],
       [-0.46947439,  0.54256004, -0.46341769, -0.46572975]])

#### 10) choice() : 주어진 1차원 ndarray로부터 랜덤하게 샘플링

In [56]:
# 정수 : np.arange(100)
# 0~99까지 숫자 중에서 무작위로 3행 4열 생성

np.random.choice(100, size=(3,4)) 

array([[75, 57, 21, 88],
       [48, 90, 58, 41],
       [91, 59, 79, 14]])

In [57]:
# 직접 값을 만들어도 됨
array1 = np.array([1,2,3,1.5,2.6,4.9])
np.random.choice(array1, size=(2,2))

array([[4.9, 4.9],
       [4.9, 3. ]])

In [58]:
# replace=False : 주어진 리스트에서 중복 추출 불가

np.random.choice(array1, size=(2,2),replace = False)

array([[2. , 3. ],
       [1. , 2.6]])

#### 인덱싱

- 특정한 데이터 추출 : 원하는 위치의 인덱스 값 지정
- 슬라이싱(slicing) : 연속된 인덱싱 상의 ndarray 추출
- 팬시 인덱싱(Fancy Indexing) : 일정한 인덱싱 집합을 리스트로 또는 ndarray 형태로 지정해 해당 위치에 있는 데이터의 ndarray 반환
- 불린 인덱싱(Boolean Indexing) : 특정 조건에 해당하는지 여부인 True/False 값 인덱싱 집합을 기반으로 True에 해당하는 인덱스 위치에 있는 데이터의 ndarray 반환

In [59]:
array1 = np.arange(1,10)
array1

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [60]:
# array1에서 3번 가지고 오기
array1[3]

4

In [61]:
type(array1[3])

numpy.int32

In [62]:
# 뒤에서 3번
array1[-3]

7

In [63]:
# 어떤 특정 값 변경
# 2번자리에 10으로 변경

array1[2] = 10
array1

array([ 1,  2, 10,  4,  5,  6,  7,  8,  9])

In [64]:
array1 = np.arange(1,10)
array1

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [77]:
# reshape : 행렬 설정 가능
array_2d = array1.reshape(3,3)
array_2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [78]:
array_2d[1]

array([4, 5, 6])

In [79]:
array_2d[0,0]

1

In [80]:
array_2d[1,1]

5

In [81]:
array_2d[2,2]

9

In [82]:
array_2d[2,-1]

9

In [83]:
array_3d = np.arange(36).reshape(3,4,3)
array_3d

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]],

       [[12, 13, 14],
        [15, 16, 17],
        [18, 19, 20],
        [21, 22, 23]],

       [[24, 25, 26],
        [27, 28, 29],
        [30, 31, 32],
        [33, 34, 35]]])

In [72]:
array_3d[0]

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [73]:
array_3d[2]

array([[24, 25, 26],
       [27, 28, 29],
       [30, 31, 32],
       [33, 34, 35]])

In [74]:
array_3d[0,1]

array([3, 4, 5])

In [75]:
array_3d[0,1,-1]

5

In [83]:
array_3d[1,1,1]

16

### 슬라이싱(slicing) : 연속된 인덱싱 상의 ndarray 추출

In [84]:
array1 = np.arange(1,10)
array1

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [85]:
# 뒷자리 숫자는 포함하지 않음

array1[:3]

array([1, 2, 3])

In [86]:
# 시작 위치만 지정
array1[3:]

array([4, 5, 6, 7, 8, 9])

In [87]:
# 전체 출력 
array1[:]

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [88]:
array2 = array1.reshape(3,3)
array2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [89]:
array2[0]

array([1, 2, 3])

In [90]:
# 0,1,2 중에서 [0:2] = > 1,4, [0:1] => 0번자리만 출력
array2[0:2, 0:1]

array([[1],
       [4]])

In [91]:
# 행은 1,2 번 열은 다 표현
array2[1:3,:]

array([[4, 5, 6],
       [7, 8, 9]])

In [92]:
# 행 0,1 출력 열, 1,2번 출력
array2[0:2,1:3]

array([[2, 3],
       [5, 6]])

In [93]:
# 다른 방법 1)
array2[:2,1:3]

array([[2, 3],
       [5, 6]])

In [94]:
# 다른 방법 2)
array2[:2,1:]

array([[2, 3],
       [5, 6]])

### 팬시 인덱싱(Fancy Indexing) : 일정한 인덱싱 집합을 리스트로 또는 ndarray 형태로 지정해 해당 위치에 있는 데이터의 ndarray 반환

In [18]:
# [행.열] ==> 리스트로 넣을 수 있음
array2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [19]:
# 행 0,1번 중에서 열 2번
array2[[0,1],2]

array([3, 6])

In [20]:
array2[[0,1],0:2]

array([[1, 2],
       [4, 5]])

In [21]:
array2[[0,1]]

array([[1, 2, 3],
       [4, 5, 6]])

### boolean 인덱싱


In [23]:
array1

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [24]:
array1[array1 > 5]

array([6, 7, 8, 9])

In [27]:
s = np.random.randint(1,100,size=10)
s

array([57, 40, 15,  4, 14, 45, 57, 27, 50,  8])

In [28]:
# 짝수만 출력. 각각의 반영
s % 2 ==0

array([False,  True, False,  True,  True, False, False, False,  True,
        True])

In [29]:
# true인 개념만 출력
s[s%2 == 0]

array([40,  4, 14, 50,  8])

In [31]:
# 40보다 큰 숫자 출력
s[s > 40]

array([57, 45, 57, 50])

In [35]:
#짝수면서 40보다 작은 숫자 출력
# and, or, not 키워드는 사용 불가
# and == &, or == | , 

s[(s%2==0) & (s < 40)]

array([ 4, 14,  8])

### 데이터 형태 변경

#### ravel / flatten
- 다차원 배열을 1차원으로 변경

In [36]:
# 1차원을 다차원으로
x = np.arange(15).reshape(3,5)
x

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [37]:
# 3차원을 1차원으로 변경
# 수행 결과만 보임
x.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [39]:
# 다차원을 1차원으로
np.ravel(x)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [40]:
# 1차원으로 출력
x.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [41]:
np.flatten(x) # 가지고 있지 않음

AttributeError: module 'numpy' has no attribute 'flatten'

In [42]:
x.reshape(-1)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

- ravel과 flatten 차이
    - ravel : 원본의 데이터와 연결됨
    - flatten : 원본의 데이터를 복사해서 가지고 있음(연결되지 않음)

In [43]:
# 1차원 생성
temp_x = x.ravel()
temp_x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [44]:
temp_x[0] = 100
temp_x

array([100,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14])

In [45]:
# ravel 실행 후 같이 바뀜
x

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

In [46]:
temp_y = x.flatten()
temp_y

array([100,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14])

In [47]:
temp_y[0] = 0
temp_y

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [48]:
# flatten 실행 후 바뀌지 않음
x

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

In [49]:
# F : 행 기준으로 출력
# 기본 C : 열기준으로 읽기

x.ravel(order='F')

array([100,   5,  10,   1,   6,  11,   2,   7,  12,   3,   8,  13,   4,
         9,  14])

In [50]:
x.flatten(order = 'F')

array([100,   5,  10,   1,   6,  11,   2,   7,  12,   3,   8,  13,   4,
         9,  14])

In [51]:
x = np.arange(30).reshape(2,3,5)
x

array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14]],

       [[15, 16, 17, 18, 19],
        [20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29]]])

In [52]:
# 원본으로 사용
x.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [53]:
# 복사본으로 사용
x.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

### reshape() : ndarray 차원 변경
    - reshape 한 후 결과의 전체 원소 개수와 이전 개수가 같아야 가능 

In [54]:
array1 = np.arange(10)
array1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [55]:
# ndim 몇 차원인지?
array1.ndim

1

In [56]:
# 2차원, 2행 5열로 바꾸기
array1.reshape(2,5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [57]:
array1.reshape(5,2)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [58]:
# 차원의 개수가 같아야 변경이 가능
array1.reshape(3,5)

ValueError: cannot reshape array of size 10 into shape (3,5)

In [59]:
# 열을 5개 나오게 해주고 행은 알아서 넣어줘
array1.reshape(-1,5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [60]:
# 행은 5행 뒤는 알아서 해줘
array1.reshape(5,-1)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

###  기본함수 - 행렬 사칙연산
- add(), subtract(), multiply(), divide()

In [100]:
# 기본 함수 생성
x = np.array([[4,4,4],[8,8,8]])
y = np.array([[1,1,1],[2,2,2]])

In [101]:
np.add(x,y)

array([[ 5,  5,  5],
       [10, 10, 10]])

In [102]:
x+y

array([[ 5,  5,  5],
       [10, 10, 10]])

In [103]:
np.subtract(x,y)

array([[3, 3, 3],
       [6, 6, 6]])

In [104]:
x - y

array([[3, 3, 3],
       [6, 6, 6]])

In [105]:
np.multiply(x,y)

array([[ 4,  4,  4],
       [16, 16, 16]])

In [106]:
x * y

array([[ 4,  4,  4],
       [16, 16, 16]])

In [107]:
np.divide(x,y)

array([[4., 4., 4.],
       [4., 4., 4.]])

In [108]:
x / y

array([[4., 4., 4.],
       [4., 4., 4.]])

### 통계함수
- 평균, 최대값, 최솟값.. 

In [109]:
# 행렬 생성
x = np.random.rand(15).reshape(3,5)
x

array([[0.85994041, 0.68030754, 0.45049925, 0.01326496, 0.94220176],
       [0.56328822, 0.3854165 , 0.01596625, 0.23089383, 0.24102547],
       [0.68326352, 0.60999666, 0.83319491, 0.17336465, 0.39106061]])

In [110]:
# 평균
x.mean()

0.4715789685211634

In [111]:
# 최댓값
x.max()

0.9422017556848528

In [112]:
# 1차원으로 변경
x.ravel()

array([0.85994041, 0.68030754, 0.45049925, 0.01326496, 0.94220176,
       0.56328822, 0.3854165 , 0.01596625, 0.23089383, 0.24102547,
       0.68326352, 0.60999666, 0.83319491, 0.17336465, 0.39106061])

In [113]:
# 가지고 있는 값의 최대값의 위치 번호
# .argmax : 1차원 배열로 바꾼 후 최대값의 index 값
np.argmax(x)

4

In [114]:
# 분산
np.var(x)

0.0834017836023707

In [115]:
# 중앙값
np.median(x)

0.450499251969543

In [116]:
# 표준편차
x.std()

0.28879366960231434

### 집계 함수 - 합계, 누적합계

In [117]:
# 합계
np.sum(x)

7.07368452781745

In [118]:
# 누적 합계
np.cumsum(x)

array([0.85994041, 1.54024795, 1.9907472 , 2.00401216, 2.94621391,
       3.50950213, 3.89491863, 3.91088489, 4.14177871, 4.38280418,
       5.0660677 , 5.67606436, 6.50925927, 6.68262392, 7.07368453])

##### 축

In [119]:
# 생성
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [120]:
# 2행 5열 변경
array1 = x.reshape(2,5)
array1

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [121]:
# 전체 합
array1.sum()

45

In [122]:
# axis 축 방향 0 ==> 행
array1.sum(axis=0)

array([ 5,  7,  9, 11, 13])

In [123]:
# axis 축 방향 1 ==> 열
array1.sum(axis=1)

array([10, 35])

In [124]:
# 3차원 행렬 생성
array2 = np.arange(36).reshape(3,4,3)
array2

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]],

       [[12, 13, 14],
        [15, 16, 17],
        [18, 19, 20],
        [21, 22, 23]],

       [[24, 25, 26],
        [27, 28, 29],
        [30, 31, 32],
        [33, 34, 35]]])

In [125]:
# 전체 합계
np.sum(array2)

630

In [126]:
# 행 기준 합계
np.sum(array2, axis = 0)

array([[36, 39, 42],
       [45, 48, 51],
       [54, 57, 60],
       [63, 66, 69]])

In [127]:
# 열 기준 합계
np.sum(array2, axis= 1)

array([[ 18,  22,  26],
       [ 66,  70,  74],
       [114, 118, 122]])

In [128]:
# 면 기준 합계
np.sum(array2, axis=2)

array([[  3,  12,  21,  30],
       [ 39,  48,  57,  66],
       [ 75,  84,  93, 102]])

### 브로드 캐스팅 rules
- https://numpy.org/doc/stable/user/basics.broadcasting.html
-  뒷 차원에서 부터 비교하여 Shape 이 같거나, 차원 중 값이 1인 것이 존재하면 가능
- 확대해서 연산을 함
<img src='https://numpy.org/doc/stable/_images/broadcasting_2.png'>
<img src='https://numpy.org/doc/stable/_images/broadcasting_3.png'>


In [129]:
# 생성
x = np.arange(15).reshape(3,5)
y = np.random.rand(15).reshape(3,5)

In [130]:
# 정수
x

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [131]:
y

array([[0.18223609, 0.75536141, 0.42515587, 0.20794166, 0.56770033],
       [0.03131329, 0.84228477, 0.44975413, 0.39515024, 0.92665887],
       [0.727272  , 0.32654077, 0.57044397, 0.52083426, 0.96117202]])

In [132]:
# 개수가 맞으니 계산됨
x + y

array([[ 0.18223609,  1.75536141,  2.42515587,  3.20794166,  4.56770033],
       [ 5.03131329,  6.84228477,  7.44975413,  8.39515024,  9.92665887],
       [10.727272  , 11.32654077, 12.57044397, 13.52083426, 14.96117202]])

In [133]:
x + 2

array([[ 2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16]])

In [134]:
x * 2

array([[ 0,  2,  4,  6,  8],
       [10, 12, 14, 16, 18],
       [20, 22, 24, 26, 28]])

In [135]:
x / 2

array([[0. , 0.5, 1. , 1.5, 2. ],
       [2.5, 3. , 3.5, 4. , 4.5],
       [5. , 5.5, 6. , 6.5, 7. ]])

In [136]:
# Shape이 다른 행렬
a = np.arange(12).reshape(4,3)
b = np.arange(100,103)

In [137]:
a

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [138]:
b

array([100, 101, 102])

In [139]:
# 확장이 일어나면서 계산을 해줌
a + b

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

In [140]:
# 추가 생성
c = np.arange(1000,1004)
c

array([1000, 1001, 1002, 1003])

In [141]:
a + c

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

### [실습]

#### 1) 서울의 한달 온도에 대한 데이터 생성
- 31개의 온도 데이터 20~32 사이의 데이터 생성

In [142]:
# temp = np.random.randint(20,32,31)
temp = np.random.choice(np.arange(20,33),size = 31)
temp

array([24, 32, 21, 24, 27, 29, 28, 31, 31, 31, 32, 28, 32, 32, 20, 28, 26,
       28, 27, 20, 31, 27, 27, 30, 22, 20, 27, 22, 22, 20, 30])

In [143]:
temp2 = np.linspace(20,32,31)
temp2

array([20. , 20.4, 20.8, 21.2, 21.6, 22. , 22.4, 22.8, 23.2, 23.6, 24. ,
       24.4, 24.8, 25.2, 25.6, 26. , 26.4, 26.8, 27.2, 27.6, 28. , 28.4,
       28.8, 29.2, 29.6, 30. , 30.4, 30.8, 31.2, 31.6, 32. ])

#### 2) 기온이 25도를 넘는 날의 수 출력

In [144]:
len(temp2 [temp2 > 25])

18

#### 3) 기온이 25도를 넘는 날의 평균 기온

In [145]:
temp2[temp2 > 25].mean()

28.599999999999998

### 행렬정렬
- sort(), argsort()
- np.sort(ndarray) : 원본은 변경하지 않음
- ndarray.sort() : 원본이 변경됨

In [146]:
# 행렬 생성
array1 = np.array([3,1,9,5,2])
array1

array([3, 1, 9, 5, 2])

In [147]:
# 새로 담기
array1_sort = np.sort(array1)
array1_sort

array([1, 2, 3, 5, 9])

In [148]:
# 원본은 그대로
array1

array([3, 1, 9, 5, 2])

In [149]:
# 아무것도 출력 되지 않음
# 파이썬 리스트 방식
array1_sort1 = array1.sort()
array1_sort1

In [150]:
array1 = np.array([3,1,9,5,2])
array1

array([3, 1, 9, 5, 2])

In [151]:
# 내림차순 정렬
sort1 = np.sort(array1)[:: -1]
sort1

array([9, 5, 3, 2, 1])

In [152]:
array2 = np.array([[8,12],[7,1]])
array2

array([[ 8, 12],
       [ 7,  1]])

In [153]:
# 열 기준으로 정리
np.sort(array2)

array([[ 8, 12],
       [ 1,  7]])

In [154]:
# 축 방향 지정이 가능
# 0 == 행 기준
np.sort(array2, axis = 0)

array([[ 7,  1],
       [ 8, 12]])

In [155]:
# 1 ==  열 기준, 기본 정리
np.sort(array2, axis = 1)

array([[ 8, 12],
       [ 1,  7]])

#### np.argsort() : 정렬된 후의 인덱스 찾기

In [160]:
array1 = np.array([3,1,9,5,2])
array1

array([3, 1, 9, 5, 2])

In [161]:
np.sort(array1)

array([1, 2, 3, 5, 9])

In [162]:
# 원본 행렬의 인덱스 값을 알 수 있음
sort_indices = np.argsort(array1)
sort_indices

array([1, 4, 0, 3, 2], dtype=int64)

In [163]:
# 성적 샘플 생성
name_array = np.array(['John','Mike','Sarah','Kate','Samuel'])
score_array = np.array([78,95,84,98,88])

In [164]:
# 오름차순 정렬
score_indices = np.argsort(score_array)
score_indices

array([0, 2, 4, 1, 3], dtype=int64)

In [165]:
name_array[score_indices]

array(['John', 'Sarah', 'Samuel', 'Mike', 'Kate'], dtype='<U6')

In [166]:
# 내림차순 정렬
score_indices_desc = np.argsort(score_array)[::-1]
score_indices_desc

array([3, 1, 4, 2, 0], dtype=int64)

In [167]:
name_array[score_indices_desc]

array(['Kate', 'Mike', 'Samuel', 'Sarah', 'John'], dtype='<U6')

### 행렬 내적(행렬 곱)
<img src='https://miro.medium.com/max/1400/1*YGcMQSr0ge_DGn96WnEkZw.png'>

In [168]:
a = np.array([[1,2,3],[4,5,6]])
b = np.array([[10,11],[20,21],[30,31]])

In [169]:
a

array([[1, 2, 3],
       [4, 5, 6]])

In [170]:
b

array([[10, 11],
       [20, 21],
       [30, 31]])

In [171]:
# 행렬 곱 == dot
np.dot(a,b)

array([[140, 146],
       [320, 335]])

### 전치행렬 : 원 행렬에서 행과 열 위치를 교환한 원소
<img src='https://www.w3resource.com/w3r_images/numpy-manipulation-transpose-function-image-a.png'>

In [172]:
a = np.array([[1,2,],[3,4]])
a

array([[1, 2],
       [3, 4]])

In [173]:
np.transpose(a)

array([[1, 3],
       [2, 4]])