In [36]:
import requests
import lxml
from bs4 import BeautifulSoup
import re
import pandas as pd
from tqdm import tqdm, trange
import os
import pdfplumber


def read_pdf(file_name):
    with pdfplumber.open(f"./pdf_hwp/{file_name}") as pdf:
        pages = pdf.pages
        text = ""
        for page in pages:
            text += page.extract_text()
        if len(text) < 10:
            text = f"{file_name} 한글 인식 불가 ! OCR 필요"
    return text


# file_id = '1138672129786_104849.pdf'
# file_name = 'down.pdf'
def download_file(file_id, file_name=None):
    if not file_name:
        return
    download_url = f"https://file.scourt.go.kr//AttachDownload?&name=downForm&file={file_id}&path=003&downFile={file_name}"

    with open(f"./pdf_hwp/{file_name}", "wb") as file:
        response = requests.get(download_url)
        file.write(response.content)


def make_csv_file(body_content, file_name=None):
    if not file_name:
        return
    file_name = re.sub(r".pdf", r".csv", file_name)
    pd_body_content = pd.DataFrame(body_content)
    pd_body_content.to_csv(path_or_buf=f"./pdf_hwp/{file_name}", index=False)


for i in tqdm(range(20000, 20010)):
    base_url = "https://busan.scourt.go.kr/dcboard/new/DcNewsViewAction.work?&gubun=44&cbub_code=000410&searchWord=&pageIndex=1"
    params = {"seqnum": i}
    print(i)
    resp = requests.get(base_url, params=params)
    soup = BeautifulSoup(resp.content, "lxml")
    tbody_list = []
    tbody = soup.find("tbody")
    title = tbody.find("td", class_="title").text
    print(title)
    court = tbody.select_one("tr:nth-child(2) > td:nth-child(2)").text
    print(court)
    downloads = tbody.select("tr:nth-child(3) > td > a")
    print((downloads))
    url_regex = re.compile(r"\'(.*\.pdf)\'\,\'(.*.pdf)\'")
    body = tbody.find("div", class_="view_content").getText()
    print(body)
    file_list = []
    for download in downloads:
        file_id = url_regex.search(str(download)).group(1)
        file_name = url_regex.search(str(download)).group(2)
        file_list.append(file_name)

        print(file_id)
        print(file_name)
        download_file(file_id, file_name)

    body_content = [
        {
            "제목": title,
            "법원": court,
            "내용": body,
            "file_name": file_list,
            "file_body": None,
        }
    ]
    text_list = []
    for file_name in file_list:
        text_list.append(read_pdf(file_name))

    body_content[0]["file_body"] = text_list

    make_csv_file(body_content, file_name)


  0%|          | 0/10 [00:00<?, ?it/s]

20000
[형사] 사기 등 사건(전주지법, 2017노1590)
전주지방법원
[<a href="javascript:download('1531100227238_103707.pdf','전주지방법원_2017노1590.pdf')" title="전주지방법원_2017노1590.pdf">전주지방법원_2017노1590.pdf</a>]


피고인들이 대한민국공예품대전에 작품을 출품하여 대상을 수상하였으나, 출품한 작품 중 직접 제작하지 않은 부분이 있음에도 마치 모두 직접 제작한 것처럼 출품한 사안에 대하여 사기죄, 위계공무집행방해죄, 업무방해죄를 인정한 판결입니다.

1531100227238_103707.pdf
전주지방법원_2017노1590.pdf


 10%|█         | 1/10 [00:00<00:08,  1.00it/s]

20001
[형사] 의료법위반사건(전주지법, 2017노1766)
전주지방법원
[<a href="javascript:download('1531100301773_103821.pdf','전주지방법원_2017노1766.pdf')" title="전주지방법원_2017노1766.pdf">전주지방법원_2017노1766.pdf</a>]


의사가 다른 병원에서 정기적으로 의료행위를 한 경우 의료법위반죄로 처벌대상이 되는지에 대해서 1심에서는 무죄를, 2심에서는 유죄를 인정한 사안으로, 현재 이 사건은 피고인의 상고로 대법원 심리가 예정되어 있습니다. 1, 2심의 논리를 비교하여 보고 나름의 결론을 생각해 보시면 법률해석의 재미를 느끼실 수 있을 것입니다.

1531100301773_103821.pdf
전주지방법원_2017노1766.pdf


 20%|██        | 2/10 [00:01<00:07,  1.12it/s]

20002
[형사] 변호사법위반 등 사건(전주지법, 2017노1783)
전주지방법원
[<a href="javascript:download('1531100373335_103933.pdf','전주지방법원_2017노1783.pdf')" title="전주지방법원_2017노1783.pdf">전주지방법원_2017노1783.pdf</a>]


피고인들이 전북도의회 의원 등에게 로비를 제공하여 관급공사를 독식하고 제품 납품업체들로부터 과다한 수수료를 받고 있다고 보아 수사가 개시되어 기소까지 되었으나, 피고인들이 공무원들에 대하여 일반적인 홍보나 영업을 한 것 외에 구체적인 청탁이나 알선을 한 내용이 드러나지 않고, 단순히 높은 수수료율만으로 그와 같은 청탁이나 알선이 있음을 추인할 수 없다는 이유로 변호사법위반죄에 대하여 무죄로 판단한 판결입니다.

1531100373335_103933.pdf
전주지방법원_2017노1783.pdf


 30%|███       | 3/10 [00:02<00:06,  1.08it/s]

20003
과거에 당시의 구 건축법상 도로의 요건을 갖추어 '건축법상 도로'가 되었다면, 개정된 현행 건축법상 도로 요건을 갖추지 않았더라도, 확정적으로 건축법상의 도로로 된 법률효과가 실효되지 않는다고 판단한 사례
서울행정법원
[<a href="javascript:download('1531100847439_104727.pdf','서울행정법원_2017구합79226.pdf')" title="서울행정법원_2017구합79226.pdf">서울행정법원_2017구합79226.pdf</a>]

서울행정법원 2018. 6. 29. 선고 2017구합79226 판결
 
1. 사안의 개요(이해를 쉽게 하기 위하여 사안을 단순화)
 
  - 원고는 다가구 주택 건축을 위하여 피고에게 건축허가를 신청
  - 건축허가 신청이 받아들여지기 위하여는 원칙적으로 현행 건축법에 따라 너비 2미터 이상의 공로에 접하여야 함(건축법 제44조 제1항)
  - 피고는 원고의 건축물이 위 요건을 갖추지 못하였다고 보아 원고의 건축허가 신청을 반려함
  - 원고는 서울특별시 행정심판위원회에 행정심판을 제기하였으나, 받아들여지지 아니하자 서울행정법원에 행정소송을 제기
 
2. 법원의 판단
 
  - 과거의 구 건축법과 건축법 시행령상 1976. 2. 1. 이전에는 주민들의 통행로로 사실상 이용되고 있던 도로의 경우에는 시장이나 군수가 도로로 지정하지 않았더라도 '건축법상의 도로'에 해당하였음
  - 현행법상 원고의 건축법이 건축법상의 도로에 해당하지 않았더라도, 1976. 2. 1. 이전에 이미 건축법상의 도로에 해당하였다면, 법 개정으로 그러한 법률효과가 소멸하지 않음
  - 원고의 건축물은 1976. 2. 1. 이전에 건축법상의 도로에 해당하게 된 도로에 접하고 있는 이상, 피고의 건축허가 반려처분은 위법함(원고 승소) 

1531100847439_104727.pdf
서울행정법원_2017구합79226.pdf


 40%|████      | 4/10 [00:03<00:05,  1.17it/s]

20004
[행정] 행정처분 사전통지에 대한 의견서가 제출된 직후에 처분서가 교부된 경우, 의견제출기회 부여에 관한 절차적 하자가 있는지 여부(대구고등법원 2018누2477)
대구고등법원
[<a href="javascript:download('1531100988596_104948.pdf','2018누2477.pdf')" title="2018누2477.pdf">2018누2477.pdf</a>]

  
[판결요지]
  
행정절차법이 정한 청문, 공청회 및 의견제출기회 부여 등의 제도는 행정처분의 사유에 대하여 당사자에게 변명과 유리한 자료를 제출할 기회를 부여함으로써 위법사유의 시정가능성을 고려하고, 처분의 신중과 적정을 기하려는 데 그 취지가 있다. 따라서 행정청이 침해적 행정처분을 하면서 당사자에게 사전통지를 하거나 의견제출의 기회를 주지 아니하였다면, 사전통지나 의견제출의 예외적인 경우에 해당하지 아니하는 한, 처분은 위법하여 취소를 면할 수 없다.
비록 이 사건 처분은 행정처분 사전통지에 대한 의견서가 제출된 직후에 처분서가 교부된 사정이 있지만, 증거에 의하여 알 수 있는 여러 사정들을 종합하여 보면, 행정청은 원고에게 사전통지와 의견제출기회를 부여한 뒤 적법하게 이 사건 처분을 하였다고 할 것이고, 단순히 피고가 충분한 시간을 두고 접수된 의견서를 검토하지 않았다는 이유만으로 이를 위법하다고 볼 수는 없다.
따라서 이와 다른 전제에 선 원고의 이 부분 주장은 이유 없고, 제1심판결은 이와 결론이 달라 위법하므로 취소되어야 한다.
  

1531100988596_104948.pdf
2018누2477.pdf


 50%|█████     | 5/10 [00:04<00:04,  1.07it/s]

20005
[형사] 제주 4·3 사건 희생자 추모 방해 사건(창원지방법원 2018고단796)
창원지방법원
[<a href="javascript:download('1531101524852_105844.pdf','2018고단796_검수완료.pdf')" title="2018고단796_검수완료.pdf">2018고단796_검수완료.pdf</a>]


★창원지방법원 2018. 5. 18. 선고 2018고단796 판결
  
제목 [형사] 제주 4·3 사건 희생자 추모 방해 사건
  
[사안의 개요] 
피고인이 제주 4·3 사건의 희생자를 추모하기 위한 분향소를 알루미늄 파이프로 손괴하고 분향소 천막에 대통령을 악의적으로 모욕하는 문구를 기재하는 등으로 재물을 손괴하고 추모문화제를 방해하여 징역형의 집행유예를 선고받은 사안
  

1531101524852_105844.pdf
2018고단796_검수완료.pdf


 60%|██████    | 6/10 [00:05<00:03,  1.23it/s]

20006
[형사] 반달가슴곰 쓸개액 밀수 사건(창원지방법원 2018고단781)
창원지방법원
[<a href="javascript:download('1531101569529_105929.pdf','2018고단781_검수완료.pdf')" title="2018고단781_검수완료.pdf">2018고단781_검수완료.pdf</a>]


★창원지방법원 2018. 5. 11. 선고 2018고단781 판결
  
제목 [형사] 반달가슴곰 쓸개액 밀수 사건
  
[사안의 개요]
베트남인들이 고향에서 반달가슴곰 쓸개액을 밀수하여 판매하려다 징역형의 집행유예를 선고받은 사안
  

1531101569529_105929.pdf
2018고단781_검수완료.pdf


 70%|███████   | 7/10 [00:05<00:02,  1.41it/s]

20007
[형사] 보행자 신호에 우회전하는 차량에 고의로 교통사고를 야기한 사건(창원지방법원 2018고단197, 699(병합), 799(병합))
창원지방법원
[<a href="javascript:download('1531101622984_110022.pdf','2018고단197_검수완료.pdf')" title="2018고단197_검수완료.pdf">2018고단197_검수완료.pdf</a>]


★창원지방법원 2018. 5. 16. 선고 2018고단197, 699(병합), 799(병합) 판결
  
제목 [형사] 보행자 신호에 우회전하는 차량에 고의로 교통사고를 야기한 사건
  
[사안의 개요] 
횡단보도 보행자 신호에 우회전하는 차량들에 달려들어 사고를 야기하고 합의금 명목으로 돈을 편취하다 징역형을 선고받은 사안
  

1531101622984_110022.pdf
2018고단197_검수완료.pdf


 80%|████████  | 8/10 [00:06<00:01,  1.19it/s]

20008
[형사] 전 동거녀와 사귀는 남성에 대한 살인미수 사건(창원지방법원 2018고합9)
창원지방법원
[<a href="javascript:download('1531101664723_110104.pdf','2018고합9_검수완료.pdf')" title="2018고합9_검수완료.pdf">2018고합9_검수완료.pdf</a>]


★창원지방법원 2018. 4. 17. 선고 2018고합9 판결
  
제목 [형사] 전 동거녀와 사귀는 남성에 대한 살인미수 사건
  
[사안의 개요] 
피고인이 자신의 전 동거녀 집에 흉기를 들고 침입한 후 전 동거녀를 때리고 전 동거녀와 사귀고 있는 남성을 칼로 찔러 살해하려다 미수에 그쳐 징역형을 선고받은 사안
  

1531101664723_110104.pdf
2018고합9_검수완료.pdf


 90%|█████████ | 9/10 [00:07<00:00,  1.24it/s]

20009
[형사] 지하주차장에서 혼자 있는 피해자를 강제추행한 사건(창원지방법원 2018고단1061)
창원지방법원
[<a href="javascript:download('1531101734727_110214.pdf','2018고단1061_검수완료.pdf')" title="2018고단1061_검수완료.pdf">2018고단1061_검수완료.pdf</a>]

  ★창원지방법원 2018. 6. 28. 선고 2018고단1061 판결
  
제목 [형사] 지하주차장에서 혼자 있는 피해자를 강제추행한 사건
  
[사안의 개요] 
피고인이 상남동 빌딩 지하주차장에서 피해자 차량의 창문을 두드려, 문을 열고 "왜요?"라고 묻는 피해자에게 뽀뽀를 하고 치마 속에 손을 넣는 등 추행하였다가 징역형의 집행유예를 선고받은 사안
  
  

1531101734727_110214.pdf
2018고단1061_검수완료.pdf


100%|██████████| 10/10 [00:07<00:00,  1.25it/s]


In [18]:


# print(read_pdf('2005허5860.pdf'))
# with open('./pdf_hwp/eee.txt', 'w') as f:
#     text_desc = read_pdf('2005허5860.pdf')
#     f.write(text_desc)
    


2005허5860.pdf 한글 인식 불가 ! OCR 필요
