## LBox 데이터 크롤링

### 데이터 크롤링

**기본 상수 설정**
* `LOGIN_TOKEN` : 사용자 로그인 세션을 증명하는 토큰입니다.

**법원 리스트**
* 서울중앙지방법원
* 서울동부지방법원
* 서울남부지방법원
* 서울북부지방법원
* 서울서부지방법원
* 의정부지방법원
* 인천지방법원
* 춘천지방법원
* 대전지방법원
* 청주지방법원
* 대구지방법원
* 부산지방법원
* 울산지방법원
* 창원지방법원
* 광주지방법원
* 전주지방법원
* 제주지방법원
* 수원지방법원

In [80]:
from tqdm import trange # 프로그레스바 출력을 위한 라이브러리
import pandas as pd
import requests
import time
import random
import os


#################
# 상수
#################
# 크롤링 관련 상수
LOGIN_TOKEN = "eyJ0eXAiOiJKV1QiLCJhbGciOiJSUzI1NiJ9.eyJuYW1lIjoi7Jyk7KSA7JiBIiwiaXNzIjoibGJveCIsImlkIjo5MDc0OCwiZXhwIjoxNzAwOTE0MjM3LCJ1dWlkIjoibEdtVFhxbngiLCJlbWFpbCI6InlwanVuMTAwQG5hdmVyLmNvbSIsImxib3hVc2VyRGF0YSI6dHJ1ZX0.FMjArKMwBZSmgYKtcmbmNlExPJ4SY-_FZp9JBAto3ngq9BdZQ2grU473jgNHF6JhyMhKxh3GF6h1mAdDCTiNRw"
COURT_NAMES = ["서울중앙지방법원", "서울동부지방법원", "서울남부지방법원", "서울북부지방법원", "서울서부지방법원", "의정부지방법원", "인천지방법원", "춘천지방법원", "대전지방법원", "청주지방법원", "대구지방법원", "부산지방법원", "울산지방법원", "창원지방법원", "광주지방법원", "전주지방법원", "제주지방법원", "수원지방법원"] # 크롤링할 법원명 리스트. 리스트 내에 있는 법원들만 크롤링함
OUTPUT_PATH = "output/"     # 결과가 저장될 폴더 경로


#############
# 초기화
#############
# 결과 디렉토리가 없으면 생성
if not os.path.exists(OUTPUT_PATH):
    os.makedirs(OUTPUT_PATH)


##############
# 크롤링
##############
for (court_index, court_name) in enumerate(COURT_NAMES):
    request_payload = {"query":"도로교통법위반","page":0,"size":10,"caseType":"criminal","courtType":"","trialType":"판결","data":court_name,"range":"3"} # 기본 요청 데이터

    # 총 판례 수 가져오기
    case_list_response = requests.post("https://lbox.kr/api/case/search", json=request_payload).json()
    number_of_precedents = int(case_list_response['count'])
    
    # 총 페이지 수 계산
    number_of_pages = (number_of_precedents // 10) + (0 if number_of_precedents % 10 == 0 else 1)

    print("[{} / {}] {} {}개".format(court_index + 1, len(COURT_NAMES), court_name, number_of_precedents))

    # 판례 데이터 크롤링
    dataframe = pd.DataFrame() # 최종 데이터가 저장될 데이터프레임
    for page in trange(number_of_pages):
        # 페이지 변경
        request_payload["page"] = page
        case_list_response = requests.post("https://lbox.kr/api/case/search", json=request_payload).json()

        # 해당 페이지의 판례들 가져오기
        for case in case_list_response["caseList"]:
            time.sleep(random.randint(1, 3)) # 잠시 대기
            case_response = requests.get("https://lbox.kr/api/case?id={}&searchKeyword=도로교통법위반&hasLimit=false".format(case['id']), cookies={"lboxToken": LOGIN_TOKEN}).json()

            # 사건번호
            case_number = case_response['case']['doc_id'][case_response['case']['doc_id'].index("-") + 1:]

            # 사건결과
            case_result = case['result']

            # 위반 그룹 (여러개일 수 있음)
            violation_groups = case_response['case']['casename_groups']

            # 위반 내용
            violations = case_response['case']['casename_list']

            # 판결선고, 주문, 이유, 변호인
            judgement_date, judgement_decision, judgement_reason, attorney_name = "", "", "", ""
            for section in case_response['case']['section_list']:
                if section['title'] == "판결선고":
                    judgement_date = section['text']
                elif section['title'] == "주문":
                    judgement_decision = section['text']
                elif section['title'] == "이유":
                    judgement_reason = section['text']
                elif section['title'] == "변호인":
                    attorney_name = section['text']

            # 판사 이름
            judge_name = case_response['case']['judges']

            # 증거 URL
            evidence_urls = case_response['case']['evidence_list']


            # 임시 데이터프레임 생성 및 저장
            _dataframe = pd.DataFrame({
                "court_name" : court_name,
                "case_number" : case_number,
                "case_result" : case_result,
                "violation_groups" : [violation_groups],
                "violations" : [violations],
                "judgement_date" : judgement_date,
                "judgement_decision" : judgement_decision,
                "judgement_reason" : judgement_reason,
                "judge_name" : judge_name,
                "attorney_name" : attorney_name,
                "evidence_urls" : [evidence_urls]
            })
            dataframe = pd.concat([dataframe, _dataframe])

    # 데이터 파일로 저장
    dataframe.to_excel(os.path.join(OUTPUT_PATH, "data_{}.xlsx".format(court_name)), index=False)
    print("Output file : " + os.path.join(OUTPUT_PATH, "data_{}.xlsx".format(court_name)))
    break

  0%|          | 0/292 [00:00<?, ?it/s]

[1 / 18] 서울중앙지방법원 2913개


  0%|          | 0/292 [00:21<?, ?it/s]

Output file : output/data_서울중앙지방법원.xlsx



