# 1. Data input pipeline


## Machine Learning Overall Process


- 데이터 처리 컴포넌트(component)들이 연속되어 있는 것을 **데이터 파이프라인(pipeline)**이라고 한다.

- 컴포넌트는 머신러닝 처리과정의 하나 하나의 독립적인 역할이 있는 처리 영역 또는 과정이라 할 수 있다.
 
- 위키본 리서치(Wikibon Research)의 분석가 조지 길버트에서는 머신러닝 파이프라인은 4개의 단계로 구성된다고 한다. 

<img src="img/ml_pipeline.png" style="height:300px">

#### 1. 데이터 흡수
#### 2. 데이터 준비(데이터 탐색 및 거버넌스 포함)
#### 3. 모델 학습
#### 4. 예측 제공

In [0]:
from google.colab import drive
drive.mount('/content/drive')

## 1-1. map 함수

- **내장함수**
- 입력받은 자료형의 각 요소가 합수에 의해 수행된 결과를 묶어서 **map iterator** 객체로 리턴

# 문법
map(f, iterable)
# 함수(f)와 반복 가능한 (iterable) 자료형을 입력으로 받는다.

### (1) 일반적인 list 사용

In [0]:
import time

In [0]:
x_list = [1,2,3,4,5]

In [0]:
x_plus_list = [x**2 for x in x_list]
for x in x_plus_list:
    print(x)

1
4
9
16
25


### (2) map 함수 사용

- **map**으로 짜면 게으른 연산을 진행해서 메모리를 크게 절약할 수 있다.
    - 필요할 때 가져다 쓴다.(예: map함수의 결과 객체)
- **map**의 연산 결과는 **map iterator** 객체로 리턴한다.
    - **next()** 메소드로 데이터를 순차적으로 호출 가능한 object
    - 마지막 데이터까지 불러 오면 다음은 StopIteration exception 발생
    - iterable한 객체를 iterator 로 변환하고 싶다면, iter() 라는 built-in function 을 사용
    - for 문으로 looping 하는 동안, python 내부에서는 임시로 list를 iterator로 자동 변환

In [0]:
def square(x):
    return x**2

x_plus_list = map(square, x_list)
print(x_plus_list)

<map object at 0x107494e48>


In [0]:
for x in x_plus_list:
    print(x)

1
4
9
16
25


In [0]:
x_list = [i for i in range(10000000)]

In [0]:
t1 = time.clock()
x_plus_list = [x**2 for x in x_list]
t2 = time.clock()
print("{} seconds".format(t2-t1))

2.460337 seconds


In [0]:
t1 = time.clock()
x_plus_list = map(lambda x : x**2, x_list)
t2 = time.clock()
print("{} seconds".format(t2-t1))

0.12451599999999985 seconds


In [0]:
input_list = [["I","go","to","school"],["I","love","you"],["I","go","to","school","with","you"]]

In [0]:
word2idx = {"I":0, "go":1, "to":2, "school":3, "love":4, "<unk>":5}

def sent2idx(sent):
    return [word2idx[word] if word in word2idx else word2idx["<unk>"] for word in sent]

In [0]:
list(map(sent2idx, input_list))

[[0, 1, 2, 3], [0, 4, 5], [0, 1, 2, 3, 5, 5]]

## 1-2. filter 함수

- filter(함수, literable)
- 두번째 인수인 반복 가능한 자료형 요소들을 첫번째 인자 함수에 하나씩 입력하여 리턴값이 참인 것만 묶어서 돌려준다.
- 함수의 리턴 값은 참이나 거짓이어야 한다.

In [0]:
input_list = [["I","go","to","school"],["I","love","you"],["I","go","to","school","with","you"]]

In [0]:
list(filter(lambda x : len(x) > 5, input_list))

[['I', 'go', 'to', 'school', 'with', 'you']]

In [0]:
list(filter(lambda x : len(x) < 5, input_list))

[['I', 'go', 'to', 'school'], ['I', 'love', 'you']]

### - filter, map 함수 이용

In [0]:
data = filter(lambda x : len(x) < 5, input_list)

In [0]:
data = map(sent2idx, data)

In [0]:
for x in data:
    print(x)

[0, 1, 2, 3]
[0, 4, 5]


## 1-3. yield (generator)

- **iterator** 를 생성해 주는 function
- **memory**를 효율적으로 사용할 수 있다
- **list** 는 **list** 안에 속한 모든 데이터를 메모리에 적재하기 때문에 **list**의 크기 만큼 차지하는 메모리 사이즈가 늘어나게 된다
- **generator** 의 경우 데이터 값을 한꺼번에 메모리에 적재 하는 것이 아니라 **next()** 메소드를 통해 차례로 값에 접근할 때마다 메모리에 적재하는 방식이다

In [0]:
def square_numbers(nums):
    result = []
    for i in nums:
        result.append(i**2)
    return result

my_nums = square_numbers([1, 2, 3, 4, 5])
print(my_nums)

[1, 4, 9, 16, 25]


In [0]:
def square_numbers(nums):
    for i in nums:
        yield i * i

my_nums = square_numbers([1, 2, 3, 4, 5])

In [0]:
my_nums

<generator object square_numbers at 0x11b6c1150>

In [0]:
next(my_nums)

1

In [0]:
next(my_nums)

4

In [0]:
next(my_nums)

9

In [0]:
next(my_nums)

16

In [0]:
next(my_nums)

25

In [0]:
next(my_nums)

StopIteration: 

In [0]:
my_nums = square_numbers([1, 2, 3, 4, 5])

for num in my_nums:
    print(num)

1
4
9
16
25


In [0]:
!pip install psutil



In [0]:
import psutil
import time
import os

In [0]:
def file_io_list(file_path):
    result = []
    with open(file_path, "r") as f:
        for sent in f:
            result.append(sent.strip().split())
    return result

In [0]:
def file_io_generator(file_path):
    with open(file_path, "r") as f:
        for sent in f:
            yield sent.strip().split()

In [0]:
process = psutil.Process(os.getpid()
mem_before = process.memory_info().rss / 1024 / 1024

In [0]:
t1 = time.clock()
result = file_io_list("train.en")
t2 = time.clock()
mem_after = process.memory_info().rss / 1024 / 1024
total_time = t2 - t1

print("시작 전 메모리 사용량: {} MB".format(mem_before))
print("종료 후 메모리 사용량: {} MB".format(mem_after))
print("총 소요된 시간: {:.6f} 초".format(total_time))

시작 전 메모리 사용량: 48.140625 MB
종료 후 메모리 사용량: 2549.109375 MB
총 소요된 시간: 8.675388 초


In [0]:
result[0]

['She', 'has', 'a', 'quite', 'long', 'career.']

In [0]:
del result
process = psutil.Process(os.getpid())
mem_before = process.memory_info().rss / 1024 / 1024

In [0]:
t1 = time.clock()
result = file_io_generator("train.en")
t2 = time.clock()
mem_after = process.memory_info().rss / 1024 / 1024
total_time = t2 - t1

print("시작 전 메모리 사용량: {} MB".format(mem_before))
print("종료 후 메모리 사용량: {} MB".format(mem_after))
print("총 소요된 시간: {:.6f} 초".format(total_time))

시작 전 메모리 사용량: 48.765625 MB
종료 후 메모리 사용량: 48.796875 MB
총 소요된 시간: 0.000082 초


In [0]:
next(result)

['She', 'has', 'a', 'quite', 'long', 'career.']

## 1-4. Overall

In [0]:
import numpy as np

def data_input_generator(file_path, vocab_path, max_len):
    word2idx = {}
    with open(vocab_path, "r") as f_vocab:
        for word in f_vocab:
            word2idx[word.strip()] = len(word2idx)
            
    def sent2idx(sent):
        result = [word2idx[word] if word in word2idx else word2idx["<unk>"] for word in sent]
        return result + [word2idx["<pad>"]] * (max_len - len(result))
    
    with open(file_path, "r") as f_file:
        for sent in f_file:
            word_list = [sent.strip().split()]
            ## 최대 길이 필터링
            data = filter(lambda x : len(x) <= max_len, word_list)
            ## 단어를 index로
            data = map(sent2idx, data)
            ## generator 생성
            yield np.array(list(data))

In [0]:
data_fn = data_input_generator("train.en.bpe", "bpe.en.vocab", 128)

In [0]:
next(data_fn)

array([[ 2636,   185,     7,  4699,   845,  3836, 31958,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
      

In [0]:
next(data_fn)

array([[   51,   637,   139,    35,  1623,     7, 16826,    39, 31687,
          613,    94, 31966, 31943,  6246, 31958,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
      

In [0]:
next(data_fn)

array([[ 1888, 31956,    51, 31966, 31946,   911,   462,    35,   703,
            7,   929,     7,  2141, 31958,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
      