# 웹스크레핑 고급

- 웹사이트에서 바이너리 데이터를 직접 원하는 위치에 다운로드
    - http://yann.lecun.com/exdb/mnist/
- 압축해제
- 바이너리 데이터 디코딩 처리
    - 바이너리 데이터의 구조(포멧)를 알고 있어야 한다
    

## 1. 수집할 데이터 URL 획득 

In [2]:
# 1. 해당 사이트에서 *.gz 링크 4개를 획득하시오
# 1-1. soup 생성
# 1-1-1. 모듈가져오기
from bs4 import BeautifulSoup
from urllib.request import urlopen

# 1-1-2. 요청(해당사이트)
target_url = 'http://yann.lecun.com/exdb/mnist/'
res        = urlopen( target_url )

# 1-1-3. soup 생성
soup = BeautifulSoup( res, 'html5lib' )
soup

<html><head>
   <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
   <title>MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges</title>
<script type="text/javascript">
var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www.");
document.write(unescape("%3Cscript src='" + gaJsHost + "google-analytics.com/ga.js' type='text/javascript'%3E%3C/script%3E"));
</script><script type="text/javascript">
var pageTracker = _gat._getTracker("UA-6178702-1");
pageTracker._trackPageview();
</script></head>




<body alink="#111111" background="wm5b.gif" bgcolor="#FFFFFF" link="#FF0000" vlink="#820594">

<center>
<h1>
<font color="#FF0000"><font size="+4">THE MNIST DATABASE</font></font></h1></center>

<center><font color="#FF0000"><font size="+4">of handwritten digits</font></font></center>

<center><font color="#FF0000"><font size="+4"></font></font></center>

<center><font color="#3366FF"><font size="+1"><a href="http://yann

In [3]:
# 1-2. *.gz 추출
# 1-2-1. HTML을 검사하여 *.gz를 특정한다(css selector or xpath)
files = list()
for tt in soup.select('tt')[:4]:
    # 1-2-2 : *.gz 추출
    #print( tt.a.string )
    # 1-2-3 : 다운로드가 가능한 완전한 형태의 URL로 추출->조사
    # http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
    # 다음 단계에서 연속적으로 다운로드 받기 쉽게 하기 위해 
    # 리스트로 구성했다
    files.append( tt.a.string)
files

['train-images-idx3-ubyte.gz',
 'train-labels-idx1-ubyte.gz',
 't10k-images-idx3-ubyte.gz',
 't10k-labels-idx1-ubyte.gz']

## 2. 압축 데이터 다운로드 

- *.gz 파일(파일 덩어리)을 원하는 위치에 다운로드 한다

In [4]:
# 2-1. 모듈 가져오기
import os, os.path

In [5]:
# 2-2. 저장된 파일 위치 선정
savedPath = './data/mnist'
# 2-2-1. 해당 디렉토리가 없으면 생성하라
# 2-2-1-1. 폴더 체크, False 상황을 잡는다
if not os.path.exists(savedPath):
    # 2-2-1-2. 디렉토리 생성
    os.makedirs( savedPath )
    print('디렉토리 생성')

In [6]:
try:
    os.makedirs( savedPath )
except Exception as e:
    print('error', e)
else:
    print('정상적으로 디렉토리를 생성했다')
finally:
    print('무조건 수행')

error [WinError 183] 파일이 이미 있으므로 만들 수 없습니다: './data/mnist'
무조건 수행


In [7]:
# 2-3. 저장
import tqdm.notebook 
# tqdm은 진행율을 보기 위함
print(tqdm.__version__)
import urllib.request as req
#for file in tqdm.tqdm_notebook(files):
for file in tqdm.notebook.tqdm(files):
    # 2-3-1. 이미 파일이 존재한다면, 진행하지 않는다
    # 중간에 파일이 중단될 경우 문제점이 존재한다
    local_path = f'{savedPath}/{file}' 
    if not os.path.exists( local_path ):
        # 파일 저장
        req.urlretrieve( target_url+file , local_path )
    print( local_path ) 

4.42.1


HBox(children=(FloatProgress(value=0.0, max=4.0), HTML(value='')))

./data/mnist/train-images-idx3-ubyte.gz
./data/mnist/train-labels-idx1-ubyte.gz
./data/mnist/t10k-images-idx3-ubyte.gz
./data/mnist/t10k-labels-idx1-ubyte.gz



## 3. 압축 데이터 압축 해제

- gzip 파일 압축 해제
- train-images-idx3-ubyte.gz => 압축해제 => train-images-idx3-ubyte

In [8]:
# 3-1. 모듈가져오기
import gzip
import tqdm

In [9]:
# 3-2. 반복적으로 압축파일을 풀어서 기록한다
for file in tqdm.tqdm_notebook(files):
    # 3-2-1. 원본파일 경로
    ori_path = f'{savedPath}/{file}' 
    # 3-2-2. 대상파일 경로
    raw_path = f'{savedPath}/{file[:-3]}'
    # 3-2-3. 압축파일 오픈=> I/O => with => 자동 close()
    with gzip.open(ori_path, 'rb') as fg:
        # 3-2-3-1. 읽기
        tmp = fg.read()
        # 3-2-3-2. 저장될 파일을 열어서
        with open(raw_path, 'wb') as f:
            # 3-2-3-2-1. 기록한다
            f.write( tmp )
    
    print( raw_path )

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  


HBox(children=(FloatProgress(value=0.0, max=4.0), HTML(value='')))

./data/mnist/train-images-idx3-ubyte
./data/mnist/train-labels-idx1-ubyte
./data/mnist/t10k-images-idx3-ubyte
./data/mnist/t10k-labels-idx1-ubyte



## 4. 데이터 디코딩

- 데이터를 읽어서 *.csv에 저장한다
- 데이터는 2종류
    - 이미지 파일들을 뭉쳐 놓은  파일 (훈련용 데이터)
    - 레이블 데이터들을 뭉쳐 놓은  파일 (정답데이터)
    - 스타일 (훈련용, 테스트용으로 구분)
- 레이블 파일 포멧
    - 기본적으로 모든 정수값은 (high(big) endian)으로 기록되어 있다
    - > : 빅에디안
    - 최초 4바이트는 매직코드(이파일은 XX 파일이다라는 표식)
    - 그다음 4바이트 데이터의 총개수
    - 그다음부터 1바이트는 정답 데이터( 0 ~ 9 )
    - 이것을 읽어서 csv에 기록한다

- 0x12345678, 빅에디언으로 메모리에 기록

|주소|...|0x100|0x101|0x102|0x103|...|
|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
|값|...|0x12|0x34|0x56|0x78|...|

- 0x12345678, 리틀 에디언으로 메모리에 기록

|주소|...|0x100|0x101|0x102|0x103|...|
|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
|값|...|0x78|0x56|0x34|0x12|...|

In [10]:
# 4-1. 모듈가져오기
import struct

In [11]:
# 디코딩 => *.csv
# 4-2파일 오픈, 기본 모드는 읽기모드 
with open('./data/mnist/train-labels-idx1-ubyte', 'rb') as f:
    # 4-2-1. 매직코드 읽기 => 4 byte
    # > : 빅에디안, < : 리틀 에디안
    # I : 4바이트 읽는 표식
    magic_code = struct.unpack('>I', f.read(4))
    print( magic_code )
    # 4-2-2. 아이템의 개수 읽기 => 4 byte
    label_count = struct.unpack('>I', f.read(4))
    print( label_count[0] )
    # 4-2-3. 아이템(정답, label) 읽기 => 개수만큼 => for문 => 1 byte
        # 4-2-3-1. csv에 기록    
    pass 

(2049,)
60000


In [12]:
# 4바이트를 2(II)번 읽어서 한번에 각각 값을 추출하겟다
with open('./data/mnist/train-labels-idx1-ubyte', 'rb') as f:
    mgic_code, label_count = struct.unpack('>II', f.read(8))     
    print( label_count )
    pass 

60000


In [13]:
# train-labels-idx1-ubyte 의 파일 크기는?
f'{4 + 4 + 60000}bytes'

'60008bytes'

In [14]:
with open('./data/mnist/train-labels-idx1-ubyte', 'rb') as f:
    mgic_code, label_count = struct.unpack('>II', f.read(8))     
    # 0 <= idx < label_count
    for idx in range(label_count):
        # 1 Byte 추출 => unsigned byte => 부호없는 바이트 : 0 ~ 255 
        (label,)= struct.unpack('B', f.read(1)) 
        print( label )
        break
    pass 

5


In [15]:
# train-labels-idx1-ubyte.csv에 정답을 추출해서 기록한다(파일생성)
with open('./data/mnist/train-labels-idx1-ubyte', 'rb') as f:
    # 4-2-0-1. csv 파일 오픈
    with open( f'{savedPath}/train-labels-idx1-ubyte.csv','w' ) as fp:
        
        mgic_code, label_count = struct.unpack('>II', f.read(8))     
        for idx in range(label_count):        
            (label,) = struct.unpack('B', f.read(1)) 
            # csv 파일에 기록, int->str, '\n' :줄바꿈
            fp.write( str(label) + '\n' )
            #break
        pass 

In [16]:
# 이미지 데이터의 크기
# 4 byte : magic code
# 4 byte: image 개수
# 4 byte: 이미지의 h
# 4 byte: 이미지의 w
# 28 pixel: 이미지의 가로크기, 세로크기 => 읽어서 알게 된 값
# 60000 개: image 개수를 읽어서 알게 된 값
4 + 4 + 4 + 4 + (28*28*60000)

47040016

In [17]:
# 이미지가 뭉쳐서 있는 덩어리 파일 오픈
with open('./data/mnist/train-images-idx3-ubyte', 'rb') as f:
    # 1. magic code, 이미지개수, 이미지의 높이, 이미지의 가로
    #    기호 : >IIII
    _, imgCnts, img_h, img_w = struct.unpack('>IIII', f.read(4*4))
    print( _, imgCnts, img_h, img_w  ) 
    pass

2051 60000 28 28


In [18]:
with open('./data/mnist/train-images-idx3-ubyte', 'rb') as f:
    _, imgCnts, img_h, img_w = struct.unpack('>IIII', f.read(4*4))
    # 이미지 1개 총 데이터크기, 총 픽셀의 개수
    pixels = img_h*img_w
    for idx in range(imgCnts):
        # 이미지를 파일로 저장, pgm 파일
        # 이미지 1개당 데이터크기는? img_h*img_w
        header = 'P2 28 28 255\n'
        # 1 byte단위로 pixel만큼 읽어야 하는데, 데이터 자체가 1ubyte
        # 이므로 오더링이 필요없다. 그래서 한번에 다 읽는다
        body   = f.read(pixels)
        # body를 봣더닌 bytes로 표현된 문자열이다 => 한
        #src    = header + body
        print( body )
        #with open('test.pgm', 'w', encoding='utf-8') as fp:
        #    fp.write( src )        
        break

b"\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x03\x12\x12\x12~\x88\xaf\x1a\xa6\xff\xf7\x7f\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x1e$^\x9a\xaa\xfd\xfd\xfd\xfd\xfd\xe1\xac\xfd\xf2\xc3@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x001\xee\xfd\xfd\xfd\xfd\xfd\xfd\xfd\xfd\xfb]RR8'\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x12\xdb\xfd\xfd\xfd\xfd\xfd\xc6\xb6\xf7\xf1\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00

In [19]:
tmp = (1, 2)
tmp[1]

2

In [20]:
# 튜플을 분해해서 가각 변수에 담아라
a, b = (1, 2)
b

2

- java primitive type(원시 타입)
    - byte : -2^7  ~ 2^7-1
    - short: -2^15 ~ 2^15-1
    - int  : -2^31 ~ 2^31-1
    - long : -2^63 ~ 2^63-1
    - float: -2^31 ~ 2^31-1
    - double: -2^63 ~ 2^63-1
    - boolean: 1 bit
    - char:    0 ~ 2^16-1 : 유일하게 모든 값이 양수