### 빅데이터 분석을 위한 파이썬 라이브러리

- Numpy : 과학계산 및 수학계산
- pandas : 데이터 처리 및 분석
- matplotlib, seaborn : 데이터 시각화
- plotly : 오픈 소스인 대화형의 고품질 도면 및 인터렉티브한 그래픽 라이브러리
- SciPy : 신초 처리, 최적화, 과학 계산 및 통계 처리
- BeautifulSoup : HTML과 XML 에서 정보를 수집
- Scrapy : 웹 크롤링 및 데이터 수집
- TensorFlow : 머신러닝 및 딥러닝
- Keras : 신경망 라이브러리 및 딥러닝
- NLTK : 자연어 처리

### Numpy (Numerical Python)

- 파이썬의 수치 해석 프로그램인 Numeric 를 개선, 보완한 패키지
- 산술 계산을 위한 가장 중요한 필수 패키지
- 효율적인 다차원 배열인 ndarray는 빠른 배열 계산과 유연한 브로트캐스팅 기능 제공
- 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산할 수 있는 표준 수학 함수
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 적재된 파일을 다루는 도구
- 선형대수, 난수 생성기, 푸리에 변환 기능
- 이미지와 컴퓨터 그래픽을 빠르게 처리
- C, C++, 포트란으로 작성한 코드를 연결할 수 있는 C API 제공

###  [참고] <a href='https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf'>NumPy Cheat Sheet</a>

### 1. 넘파이 배열
    - 벡터와 매트릭스를 배열이라고 함
    - 벡터(1차원), 매트릭스(2차원), 텐서(3차원 이상)
    - 논리적이고 통계적인 연산과 푸리에 변환 같은 연산을 매우 효율적으로 처리
    - 머신러닝에서 사용되는 주요 데이터 구조

### 2. ndarray 클래스 - 넘파이 배열 클래스 타입

- 다차원 배열을 쉽게 생성하고 다양한 연산 수행
- np.array(ndarray로 변환을 원하는 객체)
- shape - 차원과 크기를 튜플 형태로 돌려줌
- ndim - n dimesion(차원 확인)

<img src="https://velog.velcdn.com/images%2Fbotry%2Fpost%2F592b114f-145e-47dd-8d5e-bd5ddb179864%2Farray.png" width="720" height="404">

In [2]:
import numpy as np

#### 1) np.array([리스트]) : python의 리스트를 이용해 배열 생성

**1차원 배열(벡터)**

In [3]:
array1 = np.array([1,2,3,4,5,6])
array1

array([1, 2, 3, 4, 5, 6])

In [4]:
'type : {}'.format(type(array1))

"type : <class 'numpy.ndarray'>"

In [5]:
'shape : {}'.format(array1.shape)

'shape : (6,)'

#### 2) 2차원 배열(매트릭스)

In [6]:
array2 = np.array([[1,2,3],[4,5,6]])
array2

array([[1, 2, 3],
       [4, 5, 6]])

In [9]:
print('type : {}'.format(type(array2)))
print('shape : {}'.format(array2.shape))

type : <class 'numpy.ndarray'>
shape : (2, 3)


In [10]:
array2 = np.array([[1,2,3]])
array2

array([[1, 2, 3]])

In [11]:
print('type : {}'.format(type(array2)))
print('shape : {}'.format(array2.shape))

type : <class 'numpy.ndarray'>
shape : (1, 3)


**ndim : 차원 수**

In [13]:
print('array1 : {}차원, array2 : {}차원'.format(array1.ndim, array2.ndim))

array1 : 1차원, array2 : 2차원


**dtype : data type**

In [15]:
print('array1 dtype : {}, array2 dtype : {}'.format(array1.dtype, array2.dtype))

array1 dtype : int32, array2 dtype : int32


In [14]:
array3 = np.array([1,"2",3,4.0,5,6])
array3

array(['1', '2', '3', '4.0', '5', '6'], dtype='<U32')

- 파이썬의 리스트와 넘파이 배열과의 가장 큰 차이점은 넘파이 경우에는 같은 타입으로만 구성되어야 함

In [17]:
array4 = np.array([1,2,3,4.0,5,6])
array4

array([1., 2., 3., 4., 5., 6.])

In [18]:
array4.dtype

dtype('float64')

#### astype(변환할 타입)

In [19]:
array1 = np.array([1,2,3])
array1.dtype

dtype('int32')

In [21]:
array1_float = array1.astype('float64')
array1_float.dtype

dtype('float64')

In [23]:
array1_int = array1_float.astype('int32')
array1_int.dtype

dtype('int32')

In [25]:
array2 = np.array([1.2,2.2,3.2])
array2_int = array2.astype('int32')
print(array2.dtype, array2_int.dtype)

float64 int32


In [26]:
array2_int

array([1, 2, 3])

### 넘파이 배열 생성 함수
### 1) arange(n) : 0 ~ n-1 까지 값을 순차적으로 ndarray 값으로 생성

In [27]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [28]:
np.arange(5,10)

array([5, 6, 7, 8, 9])

In [30]:
# 1~10 2씩 건너 뛰면서 생성
np.arange(1,11,2)

array([1, 3, 5, 7, 9])

In [31]:
# 5의 배수 (1~100)
np.arange(5,101,5)

array([  5,  10,  15,  20,  25,  30,  35,  40,  45,  50,  55,  60,  65,
        70,  75,  80,  85,  90,  95, 100])

#### 2) zeros(행,열) : 0으로 채워서 ndarray 반환

In [32]:
np.zeros(3)

array([0., 0., 0.])

In [33]:
np.zeros(3,dtype='int32')

array([0, 0, 0])

In [34]:
np.zeros((2,1))

array([[0.],
       [0.]])

In [35]:
np.zeros((3,2,3))

array([[[0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.]]])

#### 3) ones(행,열) : 1로 채워서 ndarray 반환

In [36]:
np.ones(4)

array([1., 1., 1., 1.])

In [38]:
np.ones(4, dtype='int')

array([1, 1, 1, 1])

In [39]:
np.ones((3,4),dtype='int')

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]])

#### 4) np.empty(행,열) : 무작위 값으로 ndarray 생성 

In [40]:
np.empty(4)

array([1., 1., 1., 1.])

In [41]:
np.empty((3,4))

array([[1.13852964e-311, 2.47032823e-322, 0.00000000e+000,
        0.00000000e+000],
       [1.16709769e-312, 3.69776220e-062, 5.58910877e-091,
        1.16065926e-046],
       [5.41833936e-067, 1.17638732e-047, 3.99910963e+252,
        5.82471487e+257]])

In [42]:
np.empty((3,4), dtype='int')

array([[         0, 1072693248,          0, 1073741824],
       [         0, 1074266112,          0, 1074790400],
       [         0, 1075052544,          0, 1075314688]])

In [43]:
%timeit np.zeros(4)

496 ns ± 56.6 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [44]:
%timeit np.ones(4)

2.74 µs ± 514 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


In [45]:
%timeit np.empty(4)

530 ns ± 51.4 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


#### 5)np.full((행, 열), 채울값) : 지정된 값으로 채워서 ndarray 생성

In [47]:
np.full((3,4),7)

array([[7, 7, 7, 7],
       [7, 7, 7, 7],
       [7, 7, 7, 7]])

In [48]:
np.full(5,3)

array([3, 3, 3, 3, 3])

#### 6) np.eye() : 단위행렬로 ndarray 생성

In [49]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [53]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [54]:
np.eye(5, k=-1)

array([[0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.]])

In [56]:
np.eye(5, k=1)

array([[0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 0.]])

#### 7) np.linspace(시작값, 마지막값, 전체 개수) : 명시된 간격으로 균등하게 분할된 ndarray 생성

In [57]:
np.linspace(1,10,5)

array([ 1.  ,  3.25,  5.5 ,  7.75, 10.  ])

In [58]:
np.linspace(1,10,4)

array([ 1.,  4.,  7., 10.])

In [59]:
np.linspace(1,10,3)

array([ 1. ,  5.5, 10. ])

#### 8) np.random.rand(행,열) : 0 ~ 1 사이의 숫자가 랜덤으로 생성

In [64]:
np.random.rand(2,3)

array([[0.3997459 , 0.16965797, 0.24348482],
       [0.14941207, 0.99571247, 0.07300116]])

#### 8) np.random.randn((행, 열), n)  : 정규분포로 샘플링 된 랜덤 ndarray생성

In [65]:
np.random.randn(5)

array([ 0.54861321, -0.11051687, -0.88429806,  1.52804265, -0.87189157])

In [67]:
np.random.randn(3,4,2)

array([[[ 1.13875718,  0.23245508],
        [-0.89690902,  0.06887756],
        [-0.91450525, -0.31045746],
        [ 0.87208066, -0.22445792]],

       [[ 0.22239369,  1.15310979],
        [-0.12081665, -0.99021791],
        [ 0.28729866, -0.54455386],
        [ 1.44781816,  0.460476  ]],

       [[-0.86306553, -1.58540955],
        [-0.31247085, -1.12627439],
        [-0.11161121, -0.90367647],
        [ 0.2046026 , -1.40603314]]])

#### 9) np.random.randint(시작값, 마지막값, (행, 열)) : 지정해 준 정수로 된 랜덤 ndarray 생성

In [68]:
np.random.randint(1, 10, 5)

array([2, 7, 6, 4, 5])

In [185]:
np.random.randint(1, 100, (3,5))

array([[66, 57, 92, 79, 75],
       [66, 79, 13, 61,  2],
       [94, 86, 49, 90,  8]])

#### seed(임의의 수) : 랜덤한 값을 동일하게 다시 생성하고자 할 때 사용

In [210]:
np.random.seed(42)
np.random.randn(3,4)

array([[ 0.49671415, -0.1382643 ,  0.64768854,  1.52302986],
       [-0.23415337, -0.23413696,  1.57921282,  0.76743473],
       [-0.46947439,  0.54256004, -0.46341769, -0.46572975]])

#### 10) choice() : 주어진 1차원 ndarray로 부터 랜덤하게 샘플링 

In [215]:
# 정수 : np.arange(100)

np.random.choice(100, size = (3,4)) # 0~99까지 숫자 중에서 무작위로 3행 열 생성

array([[ 5, 53,  3, 53],
       [92, 62, 17, 89],
       [43, 33, 73, 61]])

In [223]:
array1 = np.array([1,2,3,1.5,2.6,4.9])
np.random.choice(array1, size = (2,2))

array([[3., 3.],
       [1., 3.]])

In [228]:
# replace = False : 주어진 리스트에서 중복 추출 불가

np.random.choice(array1, size = (2,2), replace=False)

array([[2. , 1.5],
       [2.6, 4.9]])

### 인덱싱
- 특정한 데이터 추출 : 원하는 위치의 인덱스 값 지정
- 슬라이싱(slicing) : 연속된 인덱싱 상의 ndarray 추출
- 팬시 인덱싱(Fancy Indexing) : 일정한 인덱싱 집합을 리스트로 또는 ndarray 형태로 지정해 해당 위치에 있는 데이터의 ndarray 반환
- 불린 인덱싱(Boolean Indexing) : 특정 조건에 해당하는지 여부인 True/False 값 인덱싱 집합을 기반으로 True에 해당하는 인덱스 위치에 있는
데이터의 ndarray 반환

In [229]:
array1 = np.arange(1, 10)
array1

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [230]:
array1[3]

4

In [231]:
type(array1[3])

numpy.int32

In [232]:
array1[-3]

7

In [234]:
array1[2] = 10
array1

array([ 1,  2, 10,  4,  5,  6,  7,  8,  9])

In [235]:
array_2d = array1.reshape(3,3)
array_2d

array([[ 1,  2, 10],
       [ 4,  5,  6],
       [ 7,  8,  9]])

In [236]:
array_2d[1]

array([4, 5, 6])

In [237]:
array_2d[0,0]

1

In [238]:
array_2d[1,1]

5

In [240]:
array_2d[2,2]

9

In [241]:
array_2d[2,-1]

9

In [253]:
array_3d = np.arange(36).reshape(3,4,3)
array_3d

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]],

       [[12, 13, 14],
        [15, 16, 17],
        [18, 19, 20],
        [21, 22, 23]],

       [[24, 25, 26],
        [27, 28, 29],
        [30, 31, 32],
        [33, 34, 35]]])

In [243]:
array_3d[0]

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [247]:
array_3d[2]

array([[24, 25, 26],
       [27, 28, 29],
       [30, 31, 32],
       [33, 34, 35]])

In [249]:
array_3d[0,1]

array([3, 4, 5])

In [250]:
array_3d[0,1,-1]

5

In [251]:
array_3d[1,1,1]

16

### 슬라이싱(slicing) : 연속된 인덱싱 상의 ndarray 추출

In [3]:
array1 = np.arange(1,10)
array1

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [4]:
# 뒷자리 숫자는 포함하지 않음

array1[:3]

array([1, 2, 3])

In [7]:
array1[3:]

array([4, 5, 6, 7, 8, 9])

In [8]:
array1[:]

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [9]:
array2 = array1.reshape(3,3)
array2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [10]:
array2[0:2, 0:1]

array([[1],
       [4]])

In [13]:
array2[1:3, :]

array([[4, 5, 6],
       [7, 8, 9]])

In [15]:
array2[0:2, 1:]

array([[2, 3],
       [5, 6]])

In [18]:
array2[[0,1],2]

array([3, 6, 9])

In [19]:
array2[[0,1],0:2]

array([[1, 2],
       [4, 5]])

In [20]:
array2[[0,1]]

array([[1, 2, 3],
       [4, 5, 6]])

### 불린 인덱싱

In [21]:
array1

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [22]:
array1[array1 > 5]

array([6, 7, 8, 9])

In [23]:
s = np.random.randint(1,100,size=10)
s

array([77, 17, 26,  1, 64, 75, 98,  5, 19, 26])

In [24]:
s % 2 == 0

array([False, False,  True, False,  True, False,  True, False, False,
        True])

In [25]:
s[s % 2 == 0]

array([26, 64, 98, 26])

In [26]:
s[s > 40]

array([77, 64, 75, 98])

In [30]:
# 짝수이면서 60보다 작은 요소 추출
# and, or, not 키워드 사용 불가

s[(s % 2 == 0) & (s < 60)]

array([26, 26])

### 데이터 형태 변경
#### ravel
- 다차원 배열을 1차원으로 변경

In [31]:
x = np.arange(15).reshape(3,5)
x

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [32]:
x.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [33]:
x

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [34]:
np.ravel(x)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [35]:
x.flatten() # np.flatten(x) 없음

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [45]:
x.reshape(-1)

array([100,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14])

- ravel과 flatten 차이
     - ravel : 원본의 데이터와 연결됨
     - flattrn : 원본의 데이터를 복제함 연결은 안됨

In [38]:
temp_x = x.ravel()
temp_x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [39]:
temp_x[0] = 100
temp_x

array([100,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14])

In [40]:
x

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

In [42]:
temp_y = x.flatten()
temp_y

array([100,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14])

In [43]:
temp_y[0] = 0
temp_y

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [44]:
x

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

In [47]:
x.ravel(order='F') # 기본 C

array([100,   5,  10,   1,   6,  11,   2,   7,  12,   3,   8,  13,   4,
         9,  14])

In [49]:
x = np.arange(30).reshape(2,3,5)
x

array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14]],

       [[15, 16, 17, 18, 19],
        [20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29]]])

In [50]:
x.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [52]:
x.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

### reshape() : ndarray 차원 변경
    - reshape 한 후의 결과의 전체 원소 개수와 이전 개수가 같아야 가능 

In [53]:
array1 = np.arange(10)
array1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [54]:
array1.ndim

1

In [55]:
array1.reshape(2,5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [56]:
array1.reshape(5,2)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [61]:
array1.reshape(-1,5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [62]:
array1.reshape(5,-1)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

### 기본함수 - 행렬 사칙 연산
- add(), subtract(), multiply(), divide()

In [64]:
x = np.array([[4,4,4],[8,8,8]])
y = np.array([[1,1,1],[2,2,2]])

In [65]:
np.add(x,y)

array([[ 5,  5,  5],
       [10, 10, 10]])

In [66]:
x + y

array([[ 5,  5,  5],
       [10, 10, 10]])

In [67]:
np.multiply(x,y)

array([[ 4,  4,  4],
       [16, 16, 16]])

In [68]:
x * y

array([[ 4,  4,  4],
       [16, 16, 16]])

In [69]:
np.divide(x,y)

array([[4., 4., 4.],
       [4., 4., 4.]])

In [70]:
x / y

array([[4., 4., 4.],
       [4., 4., 4.]])

In [71]:
x = np.random.rand(15).reshape(3,5)
x

array([[0.20661017, 0.7029835 , 0.371695  , 0.70504924, 0.11018186],
       [0.82956197, 0.90820195, 0.59401974, 0.66845156, 0.33139974],
       [0.33122788, 0.46952737, 0.29657662, 0.79402654, 0.25585979]])

In [72]:
x.mean()

0.5050248617095207

In [73]:
x.ravel()

array([0.20661017, 0.7029835 , 0.371695  , 0.70504924, 0.11018186,
       0.82956197, 0.90820195, 0.59401974, 0.66845156, 0.33139974,
       0.33122788, 0.46952737, 0.29657662, 0.79402654, 0.25585979])

In [75]:
np.argmax(x) # 1차원 배열로 바꾼 후의 최대값의 Index값

6

In [76]:
np.var(x) # 분산

0.05967320312010229

In [77]:
np.median(x) # 중앙값

0.4695273679816334

In [79]:
x.std() # 표준편차

0.24428099213836163

### 집계함수 - 합계, 누적합계

In [80]:
np.sum(x)

7.575372925642809

In [81]:
np.cumsum(x)

array([0.20661017, 0.90959367, 1.28128867, 1.98633791, 2.09651977,
       2.92608174, 3.83428369, 4.42830343, 5.09675499, 5.42815473,
       5.75938261, 6.22890998, 6.5254866 , 7.31951313, 7.57537293])

In [82]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [84]:
array1 = x.reshape(2,5)
array1

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [85]:
array1.sum()

45

In [86]:
array1.sum(axis=0) # y 축 개념의 더하기

array([ 5,  7,  9, 11, 13])

In [87]:
array1.sum(axis=1) # x 축?

array([10, 35])

In [89]:
array2 = np.arange(36).reshape(3,4,3)
array2

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]],

       [[12, 13, 14],
        [15, 16, 17],
        [18, 19, 20],
        [21, 22, 23]],

       [[24, 25, 26],
        [27, 28, 29],
        [30, 31, 32],
        [33, 34, 35]]])

In [90]:
np.sum(array2)

630

In [91]:
np.sum(array2, axis = 0)

array([[36, 39, 42],
       [45, 48, 51],
       [54, 57, 60],
       [63, 66, 69]])

In [92]:
np.sum(array2, axis = 1)

array([[ 18,  22,  26],
       [ 66,  70,  74],
       [114, 118, 122]])

In [93]:
np.sum(array2, axis = 2)

array([[  3,  12,  21,  30],
       [ 39,  48,  57,  66],
       [ 75,  84,  93, 102]])

### 브로드 캐스팅 rules
- https://numpy.org/doc/stable/user/basics.broadcasting.html
-  뒷 차원에서 부터 비교하여 Shape 이 같거나, 차원 중 값이 1인 것이 존재하면 가능
<img src='https://numpy.org/doc/stable/_images/broadcasting_2.png'>
<img src='https://numpy.org/doc/stable/_images/broadcasting_3.png'>

In [94]:
x = np.arange(15).reshape(3,5)
y = np.random.rand(15).reshape(3,5)

In [95]:
x

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [96]:
y

array([[0.54096257, 0.10922538, 0.7552649 , 0.50192954, 0.70344752],
       [0.71820378, 0.92621177, 0.35862599, 0.20524138, 0.85701289],
       [0.0728028 , 0.94562796, 0.16988702, 0.05142091, 0.98880271]])

In [97]:
x + y

array([[ 0.54096257,  1.10922538,  2.7552649 ,  3.50192954,  4.70344752],
       [ 5.71820378,  6.92621177,  7.35862599,  8.20524138,  9.85701289],
       [10.0728028 , 11.94562796, 12.16988702, 13.05142091, 14.98880271]])

In [98]:
x + 2

array([[ 2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16]])

In [99]:
x * 2

array([[ 0,  2,  4,  6,  8],
       [10, 12, 14, 16, 18],
       [20, 22, 24, 26, 28]])

In [100]:
x/2

array([[0. , 0.5, 1. , 1.5, 2. ],
       [2.5, 3. , 3.5, 4. , 4.5],
       [5. , 5.5, 6. , 6.5, 7. ]])

In [102]:
a = np.arange(12).reshape(4,3)
b = np.arange(100,103)

In [103]:
a

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [104]:
b

array([100, 101, 102])

In [105]:
a + b

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

In [107]:
c = np.arange(1000,1004)
c

array([1000, 1001, 1002, 1003])

In [108]:
a + c

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

### [실습]

#### 1) 서울의 한달 온도에 대한 데이터 생성
- 31개의 온도 데이터 20~32 사이의 데이터 생성

In [118]:
array1 = np.random.randint(20, 32, 31)
array1

array([21, 21, 29, 31, 30, 27, 30, 24, 28, 20, 31, 22, 22, 30, 30, 20, 24,
       30, 25, 24, 22, 24, 23, 31, 29, 20, 25, 25, 22, 22, 26])

#### 2) 기온이 25도를 넘는 날의 수 출력 

In [112]:
len(array1[array1 > 25])

12

#### 3) 기온이 25도를 넘는 날의 평균 기온

In [116]:
round(np.sum(array1[array1 > 25]) / len(array1[array1 > 25]),2)
# array1[array1 > 25].mean() -> 평균값

28.08

### 행렬 정렬 - sort(), argsort()
- np.sort(ndarray) : 원본은 변경하지 않음
- ndarray.srot() : 원본도 변경됨

In [125]:
array1 = np.array([3,1,9,5,2])
array1

array([3, 1, 9, 5, 2])

In [121]:
array1_sort = np.sort(array1)
array1_sort

array([1, 2, 3, 5, 9])

In [122]:
array1

array([3, 1, 9, 5, 2])

In [123]:
array1_sort1 = array1.sort()
array1_sort1

In [126]:
array1

array([3, 1, 9, 5, 2])

In [127]:
sort1 = np.sort(array1)[::-1]
sort1

array([9, 5, 3, 2, 1])

In [128]:
array2 = np.array([[8,12], [7,1]])
array2

array([[ 8, 12],
       [ 7,  1]])

In [129]:
np.sort(array2)

array([[ 8, 12],
       [ 1,  7]])

In [130]:
np.sort(array2, axis = 0)

array([[ 7,  1],
       [ 8, 12]])

In [131]:
np.sort(array2, axis = 1)

array([[ 8, 12],
       [ 1,  7]])

### np.argsort() : 정렬된 후의 인덱스 찾기

In [132]:
array1

array([3, 1, 9, 5, 2])

In [134]:
np.sort(array1)

array([1, 2, 3, 5, 9])

In [133]:
sort_indices = np.argsort(array1)
sort_indices

array([1, 4, 0, 3, 2], dtype=int64)

In [135]:
name_array = np.array(["John","Mike","Sarah","Kate","Samuel"])
score_array = np.array([78,95,84,98,88])

In [136]:
score_indices = np.argsort(score_array)
score_indices

array([0, 2, 4, 1, 3], dtype=int64)

In [137]:
name_array[score_indices]

array(['John', 'Sarah', 'Samuel', 'Mike', 'Kate'], dtype='<U6')

In [139]:
score_indices_desc = np.argsort(score_array)[::-1]
score_indices_desc

array([3, 1, 4, 2, 0], dtype=int64)

In [140]:
name_array[score_indices_desc]

array(['Kate', 'Mike', 'Samuel', 'Sarah', 'John'], dtype='<U6')

### 행렬 내적(행렬 곱)
<img src='https://miro.medium.com/max/1400/1*YGcMQSr0ge_DGn96WnEkZw.png'>

In [142]:
a = np.array([[1,2,3],[4,5,6]])
b = np.array([[10,11],[20,21],[30,31]])

In [143]:
a

array([[1, 2, 3],
       [4, 5, 6]])

In [144]:
b

array([[10, 11],
       [20, 21],
       [30, 31]])

In [145]:
np.dot(a,b)

array([[140, 146],
       [320, 335]])

### 전치행렬 : 원 행렬에서 행과 열 위치를 교환한 원소
<img src='https://www.w3resource.com/w3r_images/numpy-manipulation-transpose-function-image-a.png'>

In [None]:
a = np.array([[1,2],[3,4]])