# 로그 데이터를 터치 좌표 정보로 변환하기

## 템플릿을 반영한 로그 데이터(지난 포스트 결과)

저번 포스트에서는 action의 유형을 나타내는 .func 값에 따라 서로 다른 필드(키값)를 저장하는 데이터 로그 속성에 맞게 템플릿을 구성하고, 그 템플릿에 맞게 로그 데이터를 변형했었습니다.


In [1]:
from pyspark.sql import SparkSession
spark=SparkSession.builder\
    .master('local')\
    .appName('Word Count')\
    .getOrCreate()

In [10]:
import json
path="../data/sample_data_template.json"
with open(path, "r") as my_json:
    my_list=json.load(my_json)
rdd_transformed=spark.sparkContext.parallelize(my_list)
rdd_transformed.take(1)

[{'appName': 'xprize',
  'timeStamp': 1578385676,
  'sntp': -1,
  'user': 'user0',
  'event': {'category': None,
   '1.answer': None,
   '0.oldStars': None,
   '1.workPath': None,
   '0.nodeName': 'GameSelectScene',
   '2.param': None,
   '1.correctAnswer': None,
   '_localTimestamp': 1578385676.836173,
   '.func': 'touchEvent_Begin_End',
   'label': None,
   '2.choiceIndex': None,
   '0.levelID': None,
   '1.newStars': None,
   '3.result': None,
   '_userName': 'user0',
   '2.result': None,
   '1.duration': None,
   '2.userAnswer': None,
   '2.myAnswer': None,
   '1.dayID': None,
   '3.answerIndex': None,
   '0.problemIndex': None,
   '3.correctAnswer': None,
   'value': None,
   '2.targetCount': None,
   '1.gameLevel': None,
   'action': 'StrictLogManager',
   '1.data': 'LmB5LmB6LmB8LnCILnCI',
   '!datetime': '2020-01-07T08:27:56Z',
   '2.answerIndex': None,
   '0.videoName': None,
   '2.duration': None,
   '1.openCount': None,
   '0.gameName': None}}]

## 터치 정보를 가진 로그 데이터

위 로그 데이터의 경우 터치 정보가 없습니다. 위 데이터의 필드 중에서 'event'하위의 '1.data'필드를 보면, []로 비어있는 것을 볼 수 있습니다. 위 데이터는 .func 필드가 'game_Peek_Answer'로, 터치와는 상관없는 액션 결과이기 때문입니다. 반면, .func 필드가 'touchEvent_Begin_End'인 로그는 화면을 터치하는 액션으로 인해 발생하는 데이터 로그이기 때문에 '1.data'필드에 정보가 저장되어 있습니다. 아래 로그 데이터를 보면, `'1.data': 'R1EIR1EJRzEMRlEaRSEuQ+FBQlFWQHFtPlGFO+GlOUHKNlH2NOINM5IjMQJQLpJ6LHKgKmLGKVLZJ2L/JcMmJENKIvNqIfOGIQOiIEO4H8PJH4PSH4PS'`가 저장되어 있는 것을 알 수 있습니다.

```python
{'appName': 'xprize',
 'timeStamp': 1577963986,
 'sntp': -1,
 'user': 'user0',
 'event': {'0.videoName': None,
  '1.newStars': None,
  '2.choiceIndex': None,
  '_userName': 'user0',
  '0.nodeName': 'EggQuizMathScene',
  '1.gameLevel': None,
  'value': None,
  '2.result': None,
  '1.data': 'R1EIR1EJRzEMRlEaRSEuQ+FBQlFWQHFtPlGFO+GlOUHKNlH2NOINM5IjMQJQLpJ6LHKgKmLGKVLZJ2L/JcMmJENKIvNqIfOGIQOiIEO4H8PJH4PSH4PS',
  '2.myAnswer': None,
  '2.userAnswer': None,
  '3.result': None,
  '2.answerIndex': None,
  '1.duration': None,
  '0.problemIndex': None,
  '1.openCount': None,
  '2.targetCount': None,
  '2.duration': None,
  'category': None,
  'label': None,
  '2.param': None,
  '0.oldStars': None,
  '1.dayID': None,
  '0.gameName': None,
  'action': 'StrictLogManager',
  '_localTimestamp': 1577963986.0481,
  '3.correctAnswer': None,
  '1.correctAnswer': None,
  '1.workPath': None,
  '0.levelID': None,
  '!datetime': '2020-01-02T11:19:46Z',
  '3.answerIndex': None,
  '.func': 'touchEvent_Begin_End',
  '1.answer': None}}
```

## BASE64 디코딩

위에서 확인했듯 터치 정보가 `'R1EIR1EJRzEMRlEaRSEuQ+FBQlFWQHFtPlGFO+GlOUHKNlH2NOINM5IjMQJQLpJ6LHKgKmLGKVLZJ2L/JcMmJENKIvNqIfOGIQOiIEO4H8PJH4PSH4PS'`로 저장되어 있습니다. 정말로 알아볼 수 없는 생소한 문자로 되어있는데요, x y 좌표로 저장되어 있을 것으로 기대한것과 전혀 다른 결과입니다. 

그것은, 이 터치 정보가 BASE64 방식으로 인코딩되어 있기 때문입니다. BASE 64 방식이란, `8비트 이진 데이터를 문자 코드에 영향을 받지 않는 공통 ASCII 영역의 문자들로만 이루어진 일련의 문자열로 바꾸는 인코딩 방식`을 가리키는 개념이다.

말이 너무 어려운데, 쉽게 말해서  `64가지의 문자를 이용한 64진법 숫자로 되어 있다`는 뜻입니다 아래의 표를 화면 어떻게 암호화되어 있는지 알 수 있습니다. 
<center>
<img src="https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Fbb585862-e085-4ad6-ba6b-025a3b024845%2FUntitled.png?table=block&id=37fbb538-d201-4819-9c09-69a5726ae2dc&width=2560&userId=10d22bd9-710f-48bb-8672-165904a5c44e&cache=v2" align="center" width="30%"></img></center>


 그럼 이제, 긴 암호를 어떻게 해석하는지 알려드리겠습니다. 

- 2개의 문자가 하나의 좌표를 의미합니다.
- 2개의 문자는 64진법의 2자리 수라고 생각하면 됩니다. 64*앞자리 수 + 뒷자리 수와 같습니다.
- x좌표 - y좌표 - x좌표 - y좌표 ....순으로 이어집니다.  따라서, xxyy+xxyy+xxyy...이렇게 되겠죠.

위 표를 보면 0부터 A로 시작해서 알파벳 순으로 이어지며, 51에서 z로 끝난 후에 52부터는 0~9로 이어지고, 마지막으로 +,/가 쓰이는 것을 확인할 수 있습니다. 표의 문자를 순서대로 나열해보면

```python
TOUCH_BASE="ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/"
```

위의 string을 indexing함으로써 문자를 숫자로 변환할 수 있습니다. 예를들어, `TOUCH_BASE.index("A")`는 string에서 "A"가 차지하는 위치를 돌려주기 때문에 표에서  "A"와 맵핑되는 숫자와 일치하는 값을 돌려줍니다. 이 성질을 이용하면, 문자를 숫자로 디코딩할 수 있습니다. 정리하면, 문자 디코딩을 다음과 같은 순서로 가능할 것입니다. 

- 터치 정보를 4글자씩 끊습니다 → 하나의 좌표 포인트(x좌표,y좌표)가 됨! (ex.`R1EI`)
- 4글자를 다시 2글자 단어 2개로 쪼갭니다 → x좌표, y좌표로 구분됩니다! (ex.`R1`)
- 2글자의 문자를 64진수 수로 간주하여 10진수로 변환합니다 
→ (TOUCH_BASE.index(`R`)+64) + (TOUCH_BASE.index(`1`)) = 17*64 + 53

In [16]:
TOUCH_BASE="ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/"

def decoding_base64(touch_string):
    
    touch_log = []
    
    #4글자씩 쪼갭니다 -> ex.touch_string[0~3]="R","1","E","I"
    for i in range(len(touch_string)//4):
        #x좌표 = TOUCH_BASE.index("R") * 64 + TOUCH_BASE.index("I")
        x_coord = TOUCH_BASE.index(touch_string[i * 4]) * 64 +\
                  TOUCH_BASE.index(touch_string[i * 4 + 1])
        #y좌표 = TOUCH_BASE.index("E") * 64 + TOUCH_BASE.index("I")
        y_coord = TOUCH_BASE.index(touch_string[i * 4 + 2]) * 64 +\
                  TOUCH_BASE.index(touch_string[i * 4 + 3])
        #[{'x':x좌표,'y':y좌표}]
        touch_log.append({'x': x_coord, 'y': y_coord})

    return touch_log

예시 터치 정보를 함수에 넣어볼까요 

In [17]:
decoding_base64('R1EIR1EJRzEMRlEaRSEuQ+FBQlFWQHFtPlGFO+GlOUHKNlH2NOINM5IjMQJQLpJ6LHKgKmLGKVLZJ2L/JcMmJENKIvNqIfOGIQOiIEO4H8PJH4PSH4PS')

[{'x': 1141, 'y': 264},
 {'x': 1141, 'y': 265},
 {'x': 1139, 'y': 268},
 {'x': 1125, 'y': 282},
 {'x': 1106, 'y': 302},
 {'x': 1086, 'y': 321},
 {'x': 1061, 'y': 342},
 {'x': 1031, 'y': 365},
 {'x': 997, 'y': 389},
 {'x': 958, 'y': 421},
 {'x': 916, 'y': 458},
 {'x': 869, 'y': 502},
 {'x': 846, 'y': 525},
 {'x': 825, 'y': 547},
 {'x': 784, 'y': 592},
 {'x': 745, 'y': 634},
 {'x': 711, 'y': 672},
 {'x': 678, 'y': 710},
 {'x': 661, 'y': 729},
 {'x': 630, 'y': 767},
 {'x': 604, 'y': 806},
 {'x': 580, 'y': 842},
 {'x': 559, 'y': 874},
 {'x': 543, 'y': 902},
 {'x': 528, 'y': 930},
 {'x': 516, 'y': 952},
 {'x': 508, 'y': 969},
 {'x': 504, 'y': 978},
 {'x': 504, 'y': 978}]

## 터치 정보 변환 함수를 RDD에 적용

map을 통해 함수를 적용하면, '1.data'필드에 변환된 좌표를 저장하게됩니다.

In [20]:
def apply_decoding_base64(raw_data): 
    if raw_data['event']['1.data'] == None:
        return raw_data
    else:
        raw_data['event']['1.data'] = decoding_base64(raw_data['event']['1.data'])
        return raw_data

rdd_decoded=rdd_transformed.map(apply_decoding_base64)

In [21]:
rdd_decoded.take(1)

[{'appName': 'xprize',
  'timeStamp': 1578385676,
  'sntp': -1,
  'user': 'user0',
  'event': {'category': None,
   '1.answer': None,
   '0.oldStars': None,
   '1.workPath': None,
   '0.nodeName': 'GameSelectScene',
   '2.param': None,
   '1.correctAnswer': None,
   '_localTimestamp': 1578385676.836173,
   '.func': 'touchEvent_Begin_End',
   'label': None,
   '2.choiceIndex': None,
   '0.levelID': None,
   '1.newStars': None,
   '3.result': None,
   '_userName': 'user0',
   '2.result': None,
   '1.duration': None,
   '2.userAnswer': None,
   '2.myAnswer': None,
   '1.dayID': None,
   '3.answerIndex': None,
   '0.problemIndex': None,
   '3.correctAnswer': None,
   'value': None,
   '2.targetCount': None,
   '1.gameLevel': None,
   'action': 'StrictLogManager',
   '1.data': [{'x': 742, 'y': 121},
    {'x': 742, 'y': 122},
    {'x': 742, 'y': 124},
    {'x': 743, 'y': 136},
    {'x': 743, 'y': 136}],
   '!datetime': '2020-01-07T08:27:56Z',
   '2.answerIndex': None,
   '0.videoName': None,

In [23]:
import json
rdd_collected=rdd_decoded.collect()
file_path="../data/sample_data_touch_decoded.json"
with open(file_path, 'w') as outfile:
    json.dump(rdd_collected, outfile, indent=4)