## 로그 데이터란?
- 최근 사용자의 사용성 및 행동 패턴을 확인하거나 유저 클러스터링, 모델링 등 다양한 목적으로 사용되는 행동 기반 데이터

### 장점
- 설문과 같은 사용자 응답 및 기억에 의존하는 데이터 수집 방법 대비, 행동을 정확하게 파악/예측할 수 있음
- 특정 결과에 이르는 과정과 흐름을 상세히 파악할 수 있어, 서비스를 개선하는 데 매우 유용한 자료

### 단점
 - 데이터 용량이 크기 때문에 스토리지 관련 비용/리소스가 발생
 - JSON, CSV, TSV와 같은 비정형 텍스트 형태이므로 기존 RDB와는 다른 수집/처리 시스템과 전문 인력이 요구됨

## JSON
 - 최근 로그의 형태는 대부분 JSON(JavaScript Object Notation)이다.
 -  Pandas의 Dictionary와 거의 유사하게 Key, Value로 구성되어 있으며, Hierchial 구조를 가질 수 있다,

In [13]:
# 로그 스키마 예시
{
 "memid": " ", # int 
 "sessionid": " ", # string 
 "ver": " ", # string
 "screen": "Main", # string
 "event": "View", # string
 "area": "Seoul", # string
 "group": "A", # string, A or B ...
 "params": {
            "isGuest": "T", # boolean 
            "UserType": " " # string
            }
}

{'area': 'Seoul',
 'event': 'View',
 'group': 'A',
 'memid': ' ',
 'params': {'UserType': ' ', 'isGuest': 'T'},
 'screen': 'Main',
 'sessionid': ' ',
 'ver': ' '}

## 수집
 - 로그 정의 후 수집이 이루어지면,JSON과 Pandas Library를 통해 Pandas DataFrame 형태로 아래와 같이 파싱


In [9]:
import json
import pandas as pd

data= []
mydf = pd.DataFrame()

# to parse json files
with open('/content/sample_data/train.json') as f:
    data.append(json.loads(f.read()))

    # convert json to df
    for i in range(0, len(data)):
        df = pd.DataFrame.from_dict([data[i]])
        mydf = mydf.append(df)

# reset index
mydf.reset_index(drop=True, inplace=True)



In [17]:
mydf[0]

0    {'id': 1000, 'title': '제207회 완주군의회(임시회) 제 1 차 ...
Name: 0, dtype: object

## Json 파일은 아래와 같이 체계적으로 확인 가능하다.

In [10]:
def print_json_tree(data, indent=""):
    for key, value in data.items():
        if type(value) == list:     # list 형태의 item은 첫번째 item만 출력
            print(f'{indent}- {key}: [{len(value)}]')
            print_json_tree(value[0], indent + "  ")
        else:
            print(f'{indent}- {key}: {value}')

In [12]:
print_json_tree(data[0][0])

- id: 1000
- title: 제207회 완주군의회(임시회) 제 1 차 본회의회의록
- region: 완주
- num_agenda: 4
- context: {'AGENDA_1': {'0': '의석을 정돈하여 주시기 바랍니다. 성원이 되었으므로 제207회 완주군의회 임시회 제1차 본회의 개의를 선포합니다. 먼저 의사팀장으로부터 의회 관련 사항에 대한 보고가 있겠습니다. 의사팀장은 보고하여 주시기 바랍니다.', '1': '의사팀장 이은미 입니다. 의회관련 사항을 보고 드리겠습니다. 먼저 제207회 완주군의회 임시회 소집경위를 보고 드리겠습니다. 지방자치법 제45조 제2항의 규정에 의거 서남용 의원님 외 4인의 의원님으로부터 임시회 집회 요구가 있어 지난 8월6일 집회 공고를 하고 오늘 집회를 갖게 되었습니다. 다음은 의안접수 및 회부사항입니다. 먼저 의원발의 안건입니다. 완주군의회 의원 의정활동비등 지급에 관한 조례 일부개정 조례안, 완주군 향토문화유산 보호 및 관리 조례안, 완주군 싸움소 육성 지원에 관한 조례안 등 총 3건으로, 해당 상임의원회로 회부 하였습니다. 다음은 완주군수로부터 제출된 안건입니다. 삼례문화예술촌 설치 및 운영조례 일부개정 조례안 등 총 40건으로 해당 상임의원회로 회부하였습니다. 자세한 내용은 배부해 드린 유인물을 참조하여 주시기 바랍니다. 이상 보고를 마치겠습니다.'}, 'AGENDA_2': {'0': '의사팀장 수고하셨습니다. 먼저 의사일정 제1항 제207회 완주군의회 임시회 회기 결정의 건을 상정합니다. 제207회 완주군의회 임시회 회기 결정의 건에 대하여는 서남용 의원님 외 4인의 의원님이 발의한대로 8월 26일부터 9월 4일까지 10일간의 회기를 결정하고자 합니다. 의원 여러분 이의 있으십니까?', '1': '(『없습니다』하는 의원 있음)', '2': '이의가 없으므로 가결되었음을 선포합니다.'}, 'AGENDA_3': {'0': '다음은 의사일정 제2항 제207회 완주군의회 임시회 회의록 서명의원 선출의 건을 상정합니다.