### Aspect-oriented programming(AOP)

In [None]:
# 객체지향, 함수형 과 같은 프로그래밍. 생각하는 방식이 다르고 구현하는 방식이 다름.
# cross-cutting, core(concern)에 대해 알아야 함.
# 크로스 커팅은 이 내용에 핵심적이지 않은 코드
# 코드에 핵심적인 내용이 있을 것이고, 호환을 위해 추가되어야 하는 공통된 기능들이 있을 것.
# 그 기능들을 모아서 새로운 애를 만드는 것. 그것이 데코레이터랑 유사한 부분이 있음.
# 다른 곳에 작성해놓고 나는 핵심 로직에만 관심을 두고 데코레이터만 붙혀버리면 유지보수 하기도 좋고
# 중복도 작아질 것. 중복된, 공통된 애들을 모아서 새롭게(aspect) 만들어서 하는 프로그래밍이 AOP
# 우리는 주소를 어떻게 처리할지는 안만들고 핵심로직만 만들고 주소 처리하는 데코레이터 붙이면 되는 테크닉이 한 종류임
# 이게 왜 중요?
# 파이썬에서는 별로 안 중요함. 자바에서 중요. 자바는 다중상속도 아니고 함수형 패러다임도 약해서.
# 파이썬은 다중상속, 함수형 패러다임 지원하기 때문에 AOP가 아주 쉽게 구현됨.

In [None]:
# 어떻게 구현할까? 핵심로직만 분리시키고, 나머지 공통된 것은 데코레이터로 가져다 붙히는 것 => 데코레이터와 매우 유사

In [2]:
# Mixins => sklearn 에서 많이 쓰임
# mixin 이 뒤에 붙은 함수가 많음 => 다중상속 테크닉.
# 아무 기능도 없고 딱 한개의 기능만 가진 클래스를 다양하게 섞어서 사용하다보니 MixIn.
# 기존에 공통된 것들을 만들어 놓고 상속만 받으면 된다는 것.
# 파이토치, 텐서플로에도 있음. AOP

In [None]:
from sklearn.base import # Mixin 뒤에 들어간 이름의 파일들이 매우 많음
# 어디에나 우리 주위에는 mixin 이 있다.
# 그걸 보면 감잡고 다중상속 테크닉임을 알면 됨.
# 다중상속은 골치아프기 때문에 우리는 mro() 만 치면 됨.
# mro()를 치면 다중상속 받았음을 알 수 있음. __super__ 도 다중상속 관점으로 볼 수 있음.

In [None]:
# 텐서플로나 파이토치 가서 좀 더 볼 것.

### 빅데이터 파이프라인 구축1

#### Array

- numpy 와 pandas 에 대해서 심도있게 다룰 것.
- 파이썬에는 Array Programming(Vectorizing) 이 있음.
- 분석은 2차원만 해도 되니까 상관없음
- 그러나 딥러닝 하려면 3, 4, 5차원에 대해서 이해해야 함.

In [6]:
import array

In [None]:
# array 가 뭘까? => 배열.
# 1. homo squence 임. 
# 그러면 array 는 데이터 타입의 일부분임.
# 시퀀스 연산 => +는 뒤에 붙힘.
# 파이썬에서 array는 수학적 컨셉처럼 원소끼리 더하는 것은 아님.
# 데이터 구조로서는 의미가 있음. 그러나 수학적 컨셉에서는 적용을 할 수 없음.
# 새로운 데이터 구조의 필요성이 생김 => 수학적 컨셉을 구현하기 위해서

In [5]:
[1,2,3] + [4,5,6] # element-wise

[1, 2, 3, 4, 5, 6]

In [None]:
# 파이썬으로 수치연산도 하고 싶다! 그러면 이게 지원되어야 함
[1,2,3] + [4,5,6] = [5,7,9]
# + 같은 경우는 element-wise (요소끼리) 형태로 만들 수 있음. 연산자 오버로딩을 통해서.
# 그러나 파이썬은 느린 언어. 수치 해석에 효율적이지 않음.
# 연산자 오버로딩을 통하면 연산을 할 수는 있지만 속도는 느림(아주 큰 데이터 처리하는데)
# 그래서 속도를 빠르게 하는 연구들을 많이 함

In [None]:
# 그 속도를 빠르게 하는 방법!!
# 1. 하드웨어에 맞게 만드는 것. 돈만 있으면 빠르게 처리할 수 있음.
# 2. 같은 기능을 써도 속도가 다름. 알고리즘 + 자료구조 이걸로 성능을 극대화. => 돈과 알고리즘/자료구조
# 3. 파이썬 변형. 파이썬은 명세서라는 이야기를 함
#   => 컴파일 형태의 언어로 확장시킴(속도가 더 빠름) => 호환성이 좀 떨어짐(언어가 좀 변화해서)
# 4. 속도가 요구되면 C를 씀 (파이썬 공식문서에 파이썬/C API)

In [None]:
# 파이썬은 수치연산 클래스를 만들어봤자 속도가 느림. 그래서 위 4가지 기법을 수치연산에 쓸 수 있도록 적용함.
# 그것이 94년부터 시작함. 그래서 2005년에 Numpy가 등장함.
# MATLAB 불편한 점이 있음. 파이썬 써보니 기똥참. 그래서 넘파이 만듦.
# 넘파이는 풍부한 파이썬 문법을 가짐. 카피를 만들지 않는 슬라이싱. 즉 mutable임.
# 자료구조가 매우 많음.
# MATLAB 의 강점이 general purpose

In [None]:
# 여기까지가 numpy의 철학. 이 철학을 기본으로 numpy를 만들어냄.
# 모든 수치해석의 가장 기본적인 것은 벡터와 메트릭스.
# 벡터 기반의 numpy를 보자

In [7]:
import numpy as np

In [8]:
# array 면서 element-wise 연산을 지원함.
a = np.array([1,2,3])  # [] 형태로 n 차원 형태 다 만들 수 있음

In [9]:
a  # __repr__
# 데이터 타입은 array 지만 컨셉은 벡터

array([1, 2, 3])

In [10]:
print(a)  # __str__

[1 2 3]


In [None]:
# array([1, 2, 3]) 이렇게 쓰이면 numpy로 만들었다고 보면 됨.
# 너무 잘만들어서 파이썬이 움직일 정도였음. numpy를 위해서 파이썬이 @ 연산자를 만들어줌.
# 파이썬이 언어적으로 단점들이 많았음(현대적 테크닉을 지원못할 정도로)
# 파이썬 3 버전이 2008년도에 나왔는데 2020년도에 2버전이 종료되었다는 것은 3로 라이브러리로 이전 안한게 많았음.
# 그 중 대표적인 것이 numpy.
# numpy 를 위한 @ 연산자를 볼 것임.

In [11]:
# tensor 도 torch 도 numpy 기반으로 만들었음. => 수치해석의 기본적인 벡터, 행렬을 너무 잘 만들었음.
# 어떻게 만들었는지 보자.
# 이게 왜 안될까?
b = np.array([1,'1',2])

In [12]:
b # homo 이기 때문에 아래 보면 다 문자열로 바뀌어져 있음. => 자기가 알아서 데이터 타입을 같게 만들어줌.

array(['1', '1', '2'], dtype='<U21')

In [14]:
import torch
x = torch.Tensor([1,2,3.4])
x   # 정수인데 float으로 바뀜. homo 라서.

tensor([1.0000, 2.0000, 3.4000])

In [None]:
# 시퀀스는 __len__, __get__ 을 가짐.
# 인덱스와 슬라이싱을 위해서.
# 따라서 np 도 homo sequence 이기 때문에 인덱스와 슬라이싱 가능. 또한 mutable
# 그러나 딥러닝에서는 mutable 없애버림.

In [None]:
# 다시, array는 homo, sequence 한 자료구조 형태를 가짐. element-wise(원소끼리) 연산을 함.
# 이 element-wise 가 컴퓨터 과학에서 매우 많이 씀.
# 코덱 지원 => cpu에 벡터 연산을 빠르게 해주는 기능을 지원해주는 것.
# 너무나 기본적 기능이라 당연함. 어떻게 지원을 해줄까?
# 넘파이의 데이터적인 특성을 보고 있는 것. vectorized => CPU 에 이런게 많으면 많을수록 빠름
# GPU 에는 보통 쿠다 개수. 동시에 처리하기 때문에 빠름.
# 넘파이가 이런 기법을 지원해줌. 그런데 GPU 를 지원안함. 90년대 만들어져서.
# 근데 파이토치, 텐서플로는 넘파이를 기반으로 GPU 겨냥.
# 그러나 GPU 가 능사가 아님. 동시 계산은 효율적인데 개별적은 그렇지 않음.
# 그러나 개별적으로 계산하는 머신러닝이 월등히 많음.
# GPU 를 사용하는 알고리즘은 한정되어 있음. 

In [15]:
# 요즘에는 넘파이를 GPU로 돌아가게 하는 것도 나옴.
# 이제부터 a 는 여러개가 동시에 있는 형태가 대부분일 것.
a = np.array([1,2,3])
a

array([1, 2, 3])

In [None]:
# 컴퓨터과학의 일반적인 array는 homo, sequence. 우리는 수학적 컨셉이 더해진 array를 배우는 것 => 속도가 빠르게 하기 위해서. 
# 내부적 구조는 싹 다 C 언어임. 그래서 속도가 빠름.
# 근데 C는 매워 어려움. 그래서 numpy가 대세가 된 것.
# 하여튼 쉽고 빠르다!!

#### numpy의 특징

In [None]:
# 넘파이는 C 언어 자료형을 가져다 씀. 파이썬은 숫자형 4개.
# 넘파이는 C로 만들어졌기 때문에.
# 그렇다면 C의 데이터타입에는 뭐가 있을까?

In [16]:
np.sctypes
# 크기 별로 있음.
# u 는 부호가 없는 것. -값이 없고 0부터 시작.(unsign)
# 이것들은 c 언어에서 가져온 것.
# 이제부터는 데이터 타입이 중요하다는 것.
# 즉 넘파이는 파이썬 + C 의 구조체를 다 가지고 있음.

{'int': [numpy.int8, numpy.int16, numpy.int32, numpy.int64],
 'uint': [numpy.uint8, numpy.uint16, numpy.uint32, numpy.uint64],
 'float': [numpy.float16, numpy.float32, numpy.float64, numpy.float128],
 'complex': [numpy.complex64, numpy.complex128, numpy.complex256],
 'others': [bool, object, bytes, str, numpy.void]}

In [None]:
# C 언어는 일렬로 나열되어 있음. homo기 때문에 header에 어떤 데이터 타입이고 어떤 모양인지 보여주면 됨.
# linked list는 파이썬 - 하나하나 주소값 찾아감
# 넘파이는 C로 만들어진 데이터 구조 특징 떄문에 속도가 매우 빠름. -> 그래서 C의 데이터 타입 쓰는 것
# 텐서나 넘파이나 다 똑같은데 GPU 지원!

In [20]:
import tensorflow as tf

In [28]:
# tensorflow 는 노골적으로 데이터 타입 알려줌
a = tf.constant([1,2,3,4])
a, type(a)
# 연산에 최적화. 벡터, 매트릭스를 연산하는데 최적화.

(<tf.Tensor: shape=(4,), dtype=int32, numpy=array([1, 2, 3, 4], dtype=int32)>,
 tensorflow.python.framework.ops.EagerTensor)

#### 넘파이 본격적 내용

In [23]:
a = np.array([1,2,3])
a  # __repr__
# array가 나옴.

array([1, 2, 3])

In [24]:
# 데이터 타입을 아는 방법
type(a), a.__class__

(numpy.ndarray, numpy.ndarray)

In [27]:
# 거슬리는디
np.ndarray((2,3))
# C 언어에서는 메모리에 남아도는 값으로 초기화가 됨.
# array로 만드는 것은 클래스에서 인스턴스 만드는 것처럼 보임.
# 이렇게 인스턴스를 만드는 것을 factory method 라고 함.
# 사용자가 편하게. 객체로 인스턴스화 하지 말고 편하게 만들 수 있는 기능을 제공해주는 것.
# 직접적으로 클래스 인스턴스화 하지 않고 이렇게 만드는 것 np.array([1.2.3])

array([[0., 0., 0.],
       [0., 0., 0.]])

In [None]:
# 값 만드는 방식
# 인스턴스화 하는 방식 => 클래스에 괄호
# 두번째는 literal 방식
# 세번째가 factory method 방식
# 즉 세번째 방식 때문에 가장 편하게 만드는데 그게 실제로 클래스로 인스턴스 하는 것이 아님.
# 그래서 항상 type() 쳐봐야 함. dir(), vars()  이 3총사에 익숙해져야 함.
# array에서 값을 만드는 방식은 factory method 방식!

In [None]:
a = np.array([1,2,3])
#array(object, dtype=None, *, copy=True, order='K', subok=False, ndmin=0, like=None)

# 여기에는 Initsignature 가 안나옴. 클래스가 아님
# factory method로 하는 이유가 C 언어 구조대로 하려다보니 사용하기 힘들어서 이런 기능을 제공해준 것
# copy 자체를 옵션을 둬버림.
# order. C언어 포인터(메모리 구조). 메모리를 저장하는 방식. C 언어는 123  포트란 방식은 135  => 사용자들이 많이 사용하는 스타일로 만들어줌
#                                                       456             246

In [None]:
# 0차원 스칼라, 1차원 벡터, 2차원 매트릭스, 3차부터는 텐서 통칭
# array는 데이터 구조 개념. 벡터/매트릭스/텐서는 수학적 개념.
# cube <- 3차원 텐서. 4차원은 cube의 벡터. 5차원은 cube의 매트릭스
# n 차원 array 는 ndarray => 이걸로 모든 차원을 만들 수 있다는 것.
# ndarray 로 차원은 대괄호 개수로 만듦

In [32]:
aa = np.array([[1, 2, 3], [4, 5, 6]])
aa
# 앞 대괄호의 개수를 세면 차원의 수를 알 수 있음.

array([[1, 2, 3],
       [4, 5, 6]])

In [33]:
# 데이터프레임은 하나의 열이 같은 데이터형태로 이루어진 것.
# 분석의 기본은 2차원.
# 분석은 2차원 (데이터프레임) 까지만 만들면 되지만, 인공지능을 하려면 3차원 이상 해야함.
# 오늘은 3차원 까지.

In [36]:
# 넘파이에서도 3차원 관련해서 MATLAB 의 관례를 따름.
# 3차원은 대괄호 세개
aa=np.array([[[1,2,3], [4,5,6]], [[1,2,3], [4,5,6]]])
aa
# MATLAB 은 항상 2차원 관점에서 생각함. 그래서 결과출력 보면 공백 보임. 공백이 보이면 3차원.

array([[[1, 2, 3],
        [4, 5, 6]],

       [[1, 2, 3],
        [4, 5, 6]]])

In [37]:
aa.shape
# 2차원으로 생각해보자. (2,3)이 2개다. 뒤의 (2,3)을 하나로 생각하는 것이다.
# 즉 2행 3열이 2개다. 이를 명확히 보여주기 위해서 공백으로 표현해줌. 그게 MATLAB 관례임.
# 항상 2차원으로 생각해라! 2차원 짜리가 2개다!

(2, 2, 3)

In [38]:
aa.dtype

dtype('int64')

In [39]:
# 또 다른 설명
# 맨 안에 들어있는게 3개. [1,2,3]        => 3
# 그런게 2묶음 [[1,2,3], [4,5,6]]      => 2
# 또 이런 게 두 묶음.  [[[1,2,3], [4,5,6]],  [[1,2,3], [4,5,6]]]  => 2
# 모르면 shape 치는 것이 중요함.
aa.shape

(2, 2, 3)

In [40]:
# ragged nested sequences
aa=np.array([[[1,2,3], [4,5,6]], [[1,2,3], [4,5,]]])

  aa=np.array([[[1,2,3], [4,5,6]], [[1,2,3], [4,5,]]])


In [41]:
aa  # 내부구조가 유연하게 바뀜. 무조건 데이터 형태는 직사각형 형태로 만들어줌.
# 즉 넘파이는 에러메시지를 내지 않고 제일 유연한 구조로 바꿔줌.

array([[list([1, 2, 3]), list([4, 5, 6])],
       [list([1, 2, 3]), list([4, 5])]], dtype=object)

In [42]:
aa.shape

(2, 2)

In [None]:
# 위와 같은 것은 자연어 처리 할 때 많이 씀. 내부구조가 유연하게 바뀜.

In [None]:
# array 의 가장 중요한 것은 2개. shape과 dtype.
# 모르면 shape 과 dtype을 쓰자. 

In [43]:
aa=np.array([[[1,2,3], [4,5,6]], [[1,2,3], [4,5,6]]])

In [44]:
aa

array([[[1, 2, 3],
        [4, 5, 6]],

       [[1, 2, 3],
        [4, 5, 6]]])

In [45]:
aa.shape

(2, 2, 3)

In [46]:
aa.size   # 원소의 개수 (2x2x3) => 2행 3열이 2개.
# 이것은 shape 만 알면 됨.

12

In [47]:
aa.ndim  # 너 몇차원이니?!

3

In [49]:
type(aa)

numpy.ndarray

In [None]:
# shape 을 항상 알고 있어야 함. 왜냐면 행렬의 연산, 곱셈에서 모양이 중요하기 때문

In [None]:
# 넘파이의 특징은 빠르고 쉽다. 행렬의 종류: 영행렬

In [51]:
# 모양만 만들면 안에거 다 정해줌.
c = np.zeros((4,2,5))
c

array([[[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]]])

In [52]:
# 이 동네에서는 모양이 중요함.
np.ones_like(c)

array([[[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]],

       [[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]],

       [[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]],

       [[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]]])

In [54]:
# 이렇게 쉽게 만드는 기능들을 다양하게 제공함
np.full((3,3), 6)

array([[6, 6, 6],
       [6, 6, 6],
       [6, 6, 6]])

In [56]:
# 넘파이가 편한 이유는 전문가 입장에서 쓰기 편함
# 상삼각행렬, 하삼각행렬..?
np.triu([[1,2,3],[4,5,6],[7,8,9],[10,11,12]], -1)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 0,  8,  9],
       [ 0,  0, 12]])

In [55]:
# 너무 많아서 다 못외움. 그래서 나온 것
np.lookfor('tri')
# 이 lookfor 을 꼭 기억하쟈!!
# 이게 넘파이가 쉽다는 이유

Search results for 'tri'
------------------------
numpy.tril
    Lower triangle of an array.
numpy.triu
    Upper triangle of an array.
numpy.matrix
    .. note:: It is no longer recommended to use this class, even for linear
numpy.asmatrix
    Interpret the input as a matrix.
numpy.cov
    Estimate a covariance matrix, given data and weights.
numpy.sin
    Trigonometric sine, element-wise.
numpy.std
    Compute the standard deviation along the specified axis.
numpy.bmat
    Build a matrix object from a string, nested sequence, or array.
numpy.fromstring
    A new 1-D array initialized from text data in a string.
numpy.str0
    A unicode string.
numpy.trim_zeros
    Trim the leading and/or trailing zeros from a 1-D array or sequence.
numpy.empty
    Return a new array of given shape and type, without initializing entries.
numpy.hypot
    Given the "legs" of a right triangle, return its hypotenuse.
numpy.arccos
    Trigonometric inverse cosine, element-wise.
numpy.arctan
    Trigonometr

In [57]:
help(np.tril)

Help on function tril in module numpy:

tril(m, k=0)
    Lower triangle of an array.
    
    Return a copy of an array with elements above the `k`-th diagonal zeroed.
    For arrays with ``ndim`` exceeding 2, `tril` will apply to the final two
    axes.
    
    Parameters
    ----------
    m : array_like, shape (..., M, N)
        Input array.
    k : int, optional
        Diagonal above which to zero elements.  `k = 0` (the default) is the
        main diagonal, `k < 0` is below it and `k > 0` is above.
    
    Returns
    -------
    tril : ndarray, shape (..., M, N)
        Lower triangle of `m`, of same shape and data-type as `m`.
    
    See Also
    --------
    triu : same thing, only for the upper triangle
    
    Examples
    --------
    >>> np.tril([[1,2,3],[4,5,6],[7,8,9],[10,11,12]], -1)
    array([[ 0,  0,  0],
           [ 4,  0,  0],
           [ 7,  8,  0],
           [10, 11, 12]])
    
    >>> np.tril(np.arange(3*4*5).reshape(3, 4, 5))
    array([[[ 0,  0,  0, 

In [None]:
# 만드는 방법이 엄청나게 많음.

#### Numpy quickstart (공식문서)

In [None]:
# quickstart 맥락잡기
# 제일 처음 객체지향 방식으로 만들었음. 근데 만들었더니 객체지향 방식의 인스턴스가 아님.
# 팩토리 메소드로 array 만듦.

In [None]:
# 데이터 분석의 기본은 데이터프레임.
# 제일 먼저 처음하는 것이 데이터 선택하는 것. 인덱싱과 슬라이싱을 가장 먼저 함. 그래서 처음부터 array 형태로 만든 것.
# array는 homo, sequence. 시퀀스는 인덱싱과 슬라이싱 가능.
# 넘파이도 인덱싱과 슬라이싱이 중요힘. 파이썬은 기본적으로 vectorize 연산을 잘 안함. 그리고 기본적으로 1차원
# 근데 넘파이는 n차원이 기본. 그래서 인덱싱과 슬라이싱 기법들이 파이썬보다 훨씬 많음.

##### Numpy의 indexing과 slicing

In [58]:
# 5개로 인덱싱과 슬라이싱 하는 방법을 배울 수 있음.(데이터 처리)
# 우리는 만드는 것은 하지 않음. 수집할 것이기 때문에.
dir(aa)   # __len__, __getitem__ 있음

['T',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_finalize__',
 '__array_function__',
 '__array_interface__',
 '__array_prepare__',
 '__array_priority__',
 '__array_struct__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__class_getitem__',
 '__complex__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__divmod__',
 '__dlpack__',
 '__dlpack_device__',
 '__doc__',
 '__eq__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__ilshift__',
 '__imatmul__',
 '__imod__',
 '__imul__',
 '__index__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__irshift__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lshift__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__or__',
 '__pos__',

In [59]:
a = np.arange(20)
a  # 파이썬의 range와 비슷

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [62]:
a = a.reshape(4, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [63]:
a[1][0]

5

In [64]:
# 첫번째 방법 - 콤마 인덱싱
# 넘파이에서는 차원만큼 콤마를 써줄 수 있음.
a[1,0]

5

In [73]:
a[1,2:5]  # 인덱싱과 슬라이싱 같이 할 수 있음.

array([7, 8, 9])

In [65]:
# 두번째 방법 - boolean 인덱싱
a>5 # 이 방법을 브로드캐스팅이라고 함.

array([[False, False, False, False, False],
       [False,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True]])

In [66]:
a[a>5] # True 만 나옴.
# 이런 방식을 boolean 인덱싱이라고 함.
# 내 조건에 따라서 원하는 값 뽑아내는 것.

array([ 6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [67]:
# 세번째 방법 - fancy 인덱싱 (=advanced indexing)
a[[1]]
# 인덱싱은 항상 내 차원보다 낮게 가져왔음. 그런데 이것은 자기 차원을 그대로 유지함.
# 굉장히 중요한 테크닉. 나중에 판다스, sklearn 에서 많이 나옴. 차원을 유지한다.

array([[5, 6, 7, 8, 9]])

In [68]:
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [69]:
a[[1,2]]  # 1행 2행을 뽑아줌

array([[ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [70]:
a[[3,1,2]] # 새로운 데이터 구조를 만들어줌

array([[15, 16, 17, 18, 19],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [71]:
# 네번째 방법
a[(0,1),(2,3)] # 앞의 것이 행 뒤의 것이 열  (0,2)=2 (1,3)=8

array([2, 8])

In [72]:
# 튜플 대신 리스트 써도 같은 결과가 나옴
a[[0,1],[2,3]]

array([2, 8])

In [None]:
# 다섯번째 방법 -> 딥러닝에서 제일 잘 나옴 [..., ] 이렇게 나옴.
# 여기까지 기본적으로 5가지의 인덱싱과 슬라이싱.

In [None]:
# 인덱싱과 슬라이싱을 하면 데이터를 만들 수도 있음. 엄청나게 많은 메소드가 있음.

#### 넘파이의 연산

In [74]:
a = np.arange(6).reshape(2,3)
b = np.arange(6, 12).reshape(2,3)

In [75]:
a

array([[0, 1, 2],
       [3, 4, 5]])

In [76]:
b

array([[ 6,  7,  8],
       [ 9, 10, 11]])

In [None]:
# 연산자가 있으면 그 연산자에 대응하는 메소드가 있음. 또 메소드에 대응하는 함수가 있다.

In [77]:
a+b

array([[ 6,  8, 10],
       [12, 14, 16]])

In [78]:
a.__add__(b)

array([[ 6,  8, 10],
       [12, 14, 16]])

In [79]:
np.add(a, b)

array([[ 6,  8, 10],
       [12, 14, 16]])

In [None]:
# 즉 이런 개념은 파이썬 개념이랑 똑같다.
# 연산자 오버로딩 -> 연산자의 기능을 바꿀 수 있다.
# 원래 더하기는 시퀀스 형에서는 뒤에 가져다 붙히는데, element-wise 하게 바꿔놓는 것 => 연산자 오버로딩

In [80]:
[1,2] + [3,4,5,6]  # 모양 달라도 연산 가능. 갖다 붙히니까.

[1, 2, 3, 4, 5, 6]

In [81]:
# 그런데 element-wise 는 모양이 같아야 함. 짝이 맞아야 하니까. shape 이 같아야 함.
aa = np.arange(6).reshape(2,3)
bb = np.arange(6, 12).reshape(3,2)

In [None]:
# 우리는 array 를 배움. vectorize(element-wise)한 array. 수학적 컨셉도 표현할 수 있는 array를 배우고 있음.

In [82]:
aa + bb
# could not be broadcast

ValueError: operands could not be broadcast together with shapes (2,3) (3,2) 

In [None]:
# 브로드캐스트는 모양을 맞춰주는 것이라고 생각하면 됨.
# 넘파이의 특징 1. 강력하다, 효율적이다. 2. 쉽다
# 브로드캐스트가 특수한 경우에 자동적으로 모양을 맞춰줌

In [83]:
aa

array([[0, 1, 2],
       [3, 4, 5]])

In [84]:
# 브로드캐스팅 때문에 가능함
aa + 1  # 스칼라랑 더하면, 앞의 shape 과 똑같이 만들어줌.

array([[1, 2, 3],
       [4, 5, 6]])

In [85]:
a > 3 # 이것도 자동으로 모양맞춰서 연산하는 것. 즉, 브로드캐스팅
# 브로드캐스팅은 조건이 여러가지가 있음.
# 연산할 때 모양을 자동으로 맞춰주기 때문에 넘파이가 쉬움.

array([[False, False, False],
       [False,  True,  True]])

In [None]:
# 행렬곱 - 모양 맞추기.

In [86]:
aa * bb  # * 가 행렬곱은 아니라는 것.

ValueError: operands could not be broadcast together with shapes (2,3) (3,2) 

In [87]:
aa @ bb  # 이 @가 행렬곱. 파이썬 재단에서 넘파이를 위해 만들어준 애

array([[ 28,  31],
       [100, 112]])

In [88]:
a

array([[0, 1, 2],
       [3, 4, 5]])

In [89]:
b

array([[ 6,  7,  8],
       [ 9, 10, 11]])

In [90]:
a * b  # 이것은 element-wise 곱

array([[ 0,  7, 16],
       [27, 40, 55]])

In [91]:
a @ b  # 이게 행렬곱

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 2 is different from 3)

In [None]:
# 연산자 몰라도, 파이썬은 연산자/함수/메소드가 있기 때문에 괜찮음.
# 연산의 법칙 첫번째는 모양을 맞춰야 하는 것!! 행렬 연산은 모양 맞추기!
# 그런데 예외는, 넘파이는 브로드캐스팅을 지원해서 특수한 상황에서 자동적으로 모양을 맞춰주더라.

In [92]:
# 이 두번째는 꼭 기억해야 함!!
a = np.array([1,2,3])
b = np.array([1,2,3])

In [93]:
a * b  # dot.product 이것이 바로 내적연산. 순서대로 곱하는 것

array([1, 4, 9])

In [94]:
a.dot(b)  # 1*1 + 2*2 + 3*3

14

In [95]:
np.dot(a,b)

14

In [96]:
np.multiply(a,b)  # 서로 위치 맞는 것 곱해서 전체 더하는 것. => 내적

array([1, 4, 9])

In [97]:
aa

array([[0, 1, 2],
       [3, 4, 5]])

In [98]:
bb

array([[ 6,  7],
       [ 8,  9],
       [10, 11]])

In [99]:
np.multiply(aa,bb)  # 모양 안 맞으니까 안됨

ValueError: operands could not be broadcast together with shapes (2,3) (3,2) 

In [100]:
np.dot(aa,bb)  # dot이 행렬곱 연산이 됨.

array([[ 28,  31],
       [100, 112]])

In [101]:
# 그러면 같은 메소드지만, shape에 따라서 결과값이 다르게 나옴.
aa.dot(bb)

array([[ 28,  31],
       [100, 112]])

In [None]:
# 이런 것은 파이썬의 다형성과 같아보임!! 다형성 때문에 이렇게 만들어 놓은 것.
# 1. 연산은 기본적으로 shape 이 중요. 브로드캐스팅이 있어서 모양 달라도 괜찮은 경우가 있음.
# 2. shape 에 따라서 연산결과 다를 수 있다. 다형성 때문에. 따라서 연산을 조심해야 함
#   => tensor, torch 도 다 똑같음. numpy 기반으로 만들었기 때문에.

In [102]:
a @ b  # @ 는 행렬곱인데 벡터에 연산을 하면 내적이 됨.

14

In [106]:
# 다형성은 데이터 타입에 따라서 연산결과 다른 것.
# 넘파이의 어떤 데이터 타입도 있냐면, 매트릭스
aa = np.mat([[1,2,3],[3,4,5]])
bb = np.mat([[1,2,],[3,4,], [4,5]])

In [107]:
aa

matrix([[1, 2, 3],
        [3, 4, 5]])

In [108]:
aa @ bb

matrix([[19, 25],
        [35, 47]])

In [110]:
aa * bb

matrix([[19, 25],
        [35, 47]])

In [None]:
# 매트릭스는 곱하는 것을 행렬곱으로 인식해버린다. 그게 바로 다형성. 데이터 타입에 따라서 연산결과 달라지는 것.
# 객체지향이 이런 것 때문에 쉬울 수도 있고 어려울 수도 있음

In [111]:
np.multiply(aa, bb)  # 이거는 또 안됨.

ValueError: operands could not be broadcast together with shapes (2,3) (3,2) 

In [None]:
# 넘파이의 u-function.
# ufunc => u는 universial 이라는 뜻
# 어떠한 데이터타입에서 잘 사용할 수 있는 함수

In [112]:
np.add(1,3)
# Type:            ufunc

4

In [115]:
np.add([1,2,3], [4,5,6])
# 어떠한 데이터 타입이라도 쓸 수 있게 만들어주는 함수.

array([5, 7, 9])

In [None]:
# 넘파이여도 없는 게 있다. 좀 고차원적인 애들은, 넘파이 기반으로 Scipy 에 있다!

In [116]:
import scipy

In [117]:
dir(scipy)

['LowLevelCallable',
 '__numpy_version__',
 '__version__',
 'cluster',
 'datasets',
 'fft',
 'fftpack',
 'integrate',
 'interpolate',
 'io',
 'linalg',
 'misc',
 'ndimage',
 'odr',
 'optimize',
 'show_config',
 'signal',
 'sparse',
 'spatial',
 'special',
 'stats',
 'test']

In [None]:
# scipy 는 넘파이로 만들어져 있다!
from scipy import 

In [None]:
# 벡터 매트릭스를 어떻게 프로그래밍을 통해서 표현하는가를 배우는 것과 똑같다!!
# 모든 게 객체다!!!!
# 판다스는 넘파이의 기법 그대로 가져와서 만들었음