# 파싱?

파싱(parsing) 은 의미없는 문자열 속에서 내가 원하는 데이터를 특정 패턴 혹은 순서로 추출하는 것을 말합니다. 이렇게 파싱을 하는 객체 혹은 주체를 파서라고 합니다. 쉽게 한국말로 말하자면 구문분석 이런의미로 사용된다고 볼 수 있습니다.

HTML 문서 혹은 XML 문서에서 특정 Element 를 추출할때도 파싱이라는 단어를 사용합니다. 우리가 자주 사용하는 BeautifulSoup("컨텐츠", "lxml") 에서 lxml 이 파서가 되며 lxml 내부적으로는 넘겨받은 "컨텐츠" 데이터를 파싱하여 HTML Dom 형태의 구조를 작성하게 됩니다. 물론 lxml 대신 html.parser 를 사용하기도 하며 역할은 비슷합니다. 어쨌든 파싱은 크롤링과 데이터 분석 같은 분야에서 기본적이며 필수적인 분야 입니다.


## 유튜브 재생목록

![image](images/25.jpg)

유튜브 재생목록은 위의 이미지에서 처럼 https://www.youtube.com/playlist?list=PLoYqJvK3JVbVpYhQssPppz84DvHcO94PW 이러한 주소 체계를 갖고 있으며 해당 주소로 접속을 하면 재생목록에 등록해놓은 여러개의 동영상이 리스트 형식으로 출력됩니다.

![image](images/26.jpg)

이전 동영상 다운로드 분석에서 알 수 있듯이 유튜브 사이트의 데이터는 자바스크립트에 의해 출력되기 때문에 보여지는 HTML 은 의미 없다고 판단되므로 재생목록 역시 분석을 위해서 크롬 개발자모드의 Network 탭을 열고 페이지를 새로고침 한 후 ```playlist``` 로 시작하는 주소의 Response 탭에서 우클릭 후 ```Save as...``` 를 통해 일반 텍스트 파일로 저장합니다. 

![image](images/27.jpg)

서브라임텍스트로 저장된 파일을 불러온 후 일단은 동영상 목록의 첫번째 제목을 무작정 검색해봤더니 검색 결과를 찾을 수 있었고 해당 동영상의 제목은 ```var yInitialData``` 라는 변수에 JSON 형태로 저장되는것을 확인 할 수 있습니다. 이제 동영상 다운로드 때와 마찬가지로 해당 문자열을 파싱하여 어떤 값들이 존재하는지 확인해봐야 할듯 합니다.

In [None]:
import requests

idx = "PLoYqJvK3JVbVpYhQssPppz84DvHcO94PW"
url = "https://www.youtube.com/playlist?list={}".format(idx)

header = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}
r = requests.get(url, headers=header)

find_text = 'var ytInitialData = '
start_index = r.text.find(find_text)
if start_index >= 0:
    end_index = r.text.find("};", start_index)
    if end_index > start_index:
        str_data = r.text[start_index + len(find_text) : end_index + 1]
        print(str_data)

일단 우리가 필요한건 ```var ytInitialData = {};``` 에 설정되는 변수의 값이 필요하므로 문서 전체에서 ```var ytInitialData =``` 가 등장하는 위치를 찾아야 합니다.

<pre style="background-color:#eeeeee;margin:0px;padding:10px;margin-top:15px;">
start_pos = r.text.find(parse)
if start_index >= 0:
    end_index = r.text.find("};", start_index)
</pre>

```find_text``` 라는 변수에는 단순히 ```var ytInitialData = ``` 문자열 값이 들어가 있게 되고 이렇게 ```var ytInitialData =``` 가 시작하는 위치의 값을 찾아서 ```start_index``` 변수에 저장합니다. 그리고 ```start_index``` 부터 가장 가까운 ```};``` 에 해당 데이터의 끝을 찾아 ```end_index``` 변수에 저장합니다. 

<pre style="background-color:#eeeeee;margin:0px;padding:10px;margin-top:15px;">
if end_index > start_index:
    str_data = r.text[start_index + len(find_text) : end_index + 1]
    print(str_data)
</pre>

```start_index``` 와 ```end_index``` 가 정상적으로 찾아졌다면 ```end_index``` 는 ```start_index``` 뒤에 나와야 하니 값이 커야 정상입니다. 우리가 필요로 하는 값은 ```var ytInitialData = { 데이터 };```  에서 ```{데이터}``` 이 부분이므로 ```var ytInitialData =``` 가 포함되지 않아야 하고 마지막은 ```}``` 가 포함되야 하니 ```start_index + len(find_text)``` 부터 ```end_index + 1``` 까지 문자열을 슬라이싱 합니다. 물론 이렇게 추출된 데이터를 이전 동영상 다운로드에서 처럼 JSON 으로 설정해서 사용하는게 더 편합니다만 이번에는 먼저 문자열을 직접 파싱하는 방법으로 진행해보도록 하겠습니다.

### 필요 데이터 찾기

![2.jpg](images/28.jpg)

우리가 재생목록에서 가장 필요한 데이터는 watch?v= 에 넘겨줄 각 동영상의 인덱스 값 입니다. 위의 데이터를 살펴보면 videoId 라는 키의 값(빨간박스)으로 동영상의 인덱스 값이 있는걸 확인 할 수 있습니다. 그리고 그 값은 playlistVideoRenderer(파란박스) 라는 더 큰 요소에 속해 있는걸 알 수 있습니다. Ctrl + F 키를 눌러 playlistVideoRenderer 를 찾아보면 우리가 원하는 패턴대로 존재하는지 먼저 눈으로 확인해봐야 합니다. 결과적으로 우리가 필요한건 이 playlistVideoRenderer 의 안에 있는 정보 입니다.

In [None]:
import requests

idx = "PLoYqJvK3JVbVpYhQssPppz84DvHcO94PW"
url = "https://www.youtube.com/playlist?list={}".format(idx)

header = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}
r = requests.get(url, headers=header)

find_text = 'var ytInitialData = '
start_index = r.text.find(find_text)
if start_index >= 0:
    end_index = r.text.find("};", start_index)
    if end_index > start_index:
        str_data = r.text[start_index + len(find_text) : end_index + 1]
        list_str = str_data.split('playlistVideoRenderer":{')[1:]
        for l in list_str:
            print(l)

일단 나머지 데이터는 우리에게 필요가 없으니 파싱해온 문자열 전체를 playlistVideoRenderer 를 기준으로 과감히 split 해서 반복문을 돌려 봅니다. 결론적으로는 우리가 필요한 동영상 갯수 만큼의 playlistVideoRenderer 덩어리로 split 되어있음을 확인 할 수 있습니다. 그런데 리스트의 0번째는 최초 ```playlistVideoRenderer":{``` 문자열이 등장하기 이전의 모든 문자열이니 리스트의 0번째 요소는 제외시켰습니다. 이제 그럼 이렇게 split 된 문자열 속에서 우리에게 필요한 videoId, title, lengthSeconds 값을 추출해야 합니다.

![image](images/29.jpg)

이런 방식이 파싱하는 가장 단순하고 원초적인 방법 입니다. 위의 이미지를 보면 수많은 문자열 중에서 우리가 필요로 하는 문자열 데이터의 바깥쪽을 감싸는 문자열을 ```find()``` 하여 슬라이싱 하는 방법입니다. 물론 필요한 문자열의 좌측에 있는 시작 기준 문자열이 다른곳에서 중복 사용되서는 안됩니다. 반드시 우리가 찾는 문자열의 좌측을 감싸는데만 사용되어야 이 규칙성이 유지됩니다. 종료 문자열은 시작문자열 기준 가장 가까운 위치에서 찾기 때문에 다른데서 반복되도 상관은 없습니다. 

In [None]:
import requests
import pprint

idx = "PLoYqJvK3JVbVpYhQssPppz84DvHcO94PW"
url = "https://www.youtube.com/playlist?list={}".format(idx)

header = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}
r = requests.get(url, headers=header)

results = []
find_text = 'var ytInitialData = '
start_index = r.text.find(find_text)
if start_index >= 0:
    end_index = r.text.find("};", start_index)
    if end_index > start_index:
        str_data = r.text[start_index + len(find_text) : end_index + 1]
        list_str = str_data.split('playlistVideoRenderer":{')[1:]

        find_1 = ('"videoId":', ',')
        find_2 = ('{"text":"', '"}')
        find_3 = ('"lengthSeconds":', ',')

        for i, t in enumerate(list_str):
            start_index_find_1 = t.find(find_1[0]) + len(find_1[0])
            start_index_find_2 = t.find(find_2[0]) + len(find_2[0])
            start_index_find_3 = t.find(find_3[0]) + len(find_3[0])
            
            end_index_find_1 = t.find(find_1[1], start_index_find_1)
            end_index_find_2 = t.find(find_2[1], start_index_find_2)
            end_index_find_3 = t.find(find_3[1], start_index_find_3)
            
            vid = t[start_index_find_1 : end_index_find_1].replace('"', "").strip()
            title = t[start_index_find_2 : end_index_find_2].strip()
            length = t[start_index_find_3 : end_index_find_3].replace('"', "").strip()

            if length.isnumeric():
                results.append({
                    "vid": vid,
                    "title": title,
                    "length": length,
                    "url": "https://www.youtube.com/watch?v={}".format(vid)
                })
pprint.pprint(results)

위의 코드는 원론적인 파싱기법으로 큰 문자열 데이터 속에서 우리가 원하는 문자열 데이터를 추출하는 샘플 코드 입니다.

<pre style="background-color:#eeeeee;margin:0px;padding:10px;margin-top:15px;">
find_1 = ('"videoId":', ',')
find_2 = ('{"text":"', '"}')
find_3 = ('"lengthSeconds":', ',')
</pre>

우리는 videoId, text, lengthSeconds 3가지의 데이터를 추출할 예정인데 위의 코드에서처럼 시작문자열과 종료 문자열을 튜플형태로 선언해서 저장해놨습니다.

<pre style="background-color:#eeeeee;margin:0px;padding:10px;margin-top:15px;">
for i, t in enumerate(list_str):
    start_index_find_1 = t.find(find_1[0]) + len(find_1[0])
    start_index_find_2 = t.find(find_2[0]) + len(find_2[0])
    start_index_find_3 = t.find(find_3[0]) + len(find_3[0])

    end_index_find_1 = t.find(find_1[1], start_index_find_1)
    end_index_find_2 = t.find(find_2[1], start_index_find_2)
    end_index_find_3 = t.find(find_3[1], start_index_find_3)
    
    vid = t[start_index_find_1 : end_index_find_1].replace('"', "").strip()
    title = t[start_index_find_2 : end_index_find_2].strip()
    length = t[start_index_find_3 : end_index_find_3].replace('"', "").strip()

    print(i, vid, title[:10], length)
</pre>

반복문을 돌며 시작위치와 끝 위치 값을 구해 해당 위치값을 기준으로 문자열에서 슬라이싱 한 후 ```replace()``` 함수를 사용하여 불필요한 문자들을 제거합니다. 이렇게 파싱에는 정답이 없기 때문에 많은 경험과 노력이 필요한 분야 입니다. 위에서는 아주 기본적이며 단순한 방법으로 파싱을 했지만 중간에 정규식을 섞어서 사용해도 되고 좀 더 고도화된 수학적 알고리즘을 구현할 수도 있습니다. 결론적으로 문자열에서 어떤 데이터를 추출하기 위해선 문자열에서 패턴을 찾는 연습을 하고 그 패턴에 맞는 방법을 찾아야 합니다.

In [None]:
import requests
import pprint

def get_playlist_str(idx):
    url = "https://www.youtube.com/playlist?list={}".format(idx)
    header = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}
    r = requests.get(url, headers=header)

    results = []
    find_text = 'var ytInitialData = '
    start_index = r.text.find(find_text)
    if start_index >= 0:
        end_index = r.text.find("};", start_index)
        if end_index > start_index:
            str_data = r.text[start_index + len(find_text) : end_index + 1]
            list_str = str_data.split('playlistVideoRenderer":{')[1:]

            find_1 = ('"videoId":', ',')
            find_2 = ('{"text":"', '"}')
            find_3 = ('"lengthSeconds":', ',')

            for i, t in enumerate(list_str):
                start_index_find_1 = t.find(find_1[0]) + len(find_1[0])
                start_index_find_2 = t.find(find_2[0]) + len(find_2[0])
                start_index_find_3 = t.find(find_3[0]) + len(find_3[0])

                end_index_find_1 = t.find(find_1[1], start_index_find_1)
                end_index_find_2 = t.find(find_2[1], start_index_find_2)
                end_index_find_3 = t.find(find_3[1], start_index_find_3)

                vid = t[start_index_find_1 : end_index_find_1].replace('"', "").strip()
                title = t[start_index_find_2 : end_index_find_2].strip()
                length = t[start_index_find_3 : end_index_find_3].replace('"', "").strip()

                if length.isnumeric():
                    results.append({
                        "vid": vid,
                        "title": title,
                        "length": length,
                        "url": "https://www.youtube.com/watch?v={}".format(vid)
                    })
    return results

idx = "PLoYqJvK3JVbVpYhQssPppz84DvHcO94PW"
results = get_playlist_str(idx)
for r in results:
    pprint.pprint(r)


위의 코드를 ```get_playlist_str()``` 이라는 이름의 함수로 작성해서 이제 playlist 의 ID 값만 넘겨주면 구해올 수 있게 코드를 수정했습니다.

In [None]:
import requests
import json

def get_playlist_json(idx):
    results = []
    url = "https://www.youtube.com/playlist?list={}".format(idx)
    r = requests.get(url, headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"})
    find_text = 'var ytInitialData = '
    start_index = r.text.find(find_text)
    if start_index >= 0:
        end_index = r.text.find("};", start_index)
        if end_index > start_index:
            str_data = r.text[start_index + len(find_text) : end_index + 1]
            json_data = json.loads(str_data)
            datas = json_data["contents"]["twoColumnBrowseResultsRenderer"]["tabs"][0]["tabRenderer"]["content"]["sectionListRenderer"]["contents"][0]["itemSectionRenderer"]["contents"][0]["playlistVideoListRenderer"]["contents"]
            
            for d in datas:
                vid = d["playlistVideoRenderer"]["videoId"]
                title = d["playlistVideoRenderer"]["title"]["runs"][0]["text"]
                length = d["playlistVideoRenderer"]["lengthSeconds"]
                results.append({
                    "vid": vid,
                    "title": title,
                    "length": length,
                    "url": "https://www.youtube.com/watch?v={}".format(vid)
                })
    return results
        
idx = "PLoYqJvK3JVbVpYhQssPppz84DvHcO94PW"
results = get_playlist_json(idx)
for r in results:
    print(r)

위의 코드는 최초 서버에서 받은 문자열 데이터를 JSON 형태로 변환하여 처리하는 샘플 코드 입니다. 