## CNU 공공데이터 open API 데이터 가져오기 예제
Vector DB에 쓰일 데이터를 충남대학교 API를 사용하여 가져옵니다.
credential.json의 "API_KEY" 필드에 본인의 API_KEY를 대입하여 사용하세요
충남대학교 정보화본부 API 신청 홈페이지 : https://cic.cnu.ac.kr/cic/data/api-app.do?mode=list&&articleLimit=10&article.offset=0

### Output
다음의 데이터를 가져옵니다.
-   충남대학교 게시판 번호
-   충남대학교 게시판 번호 별 내용

위의 데이터를 종합하여 .csv 파일을 생성합니다.

In [None]:
pip install requests pandas

In [1]:
import requests, json
from datetime import datetime

"""
    credential.json에 요청 URL, API KEY 등을 입력하여
    file open으로 불러오는 방식을 사용합니다.
"""

with open('credential.json','r') as file:
    credentials = json.load(file)

print(credentials)

API_KEY = credentials["API_KEY"] # CNU API KEY
POST_NUM_URL = credentials["POST_NUM_URL"] # 게시판 목록 불러오기
POST_CONTENT_URL = credentials["POST_CONTENT_URL"] # 게시판 내용 불러오기

{'POST_NUM_URL': 'https://api.cnu.ac.kr/svc/offcam/pub/cmsBoard', 'POST_CONTENT_URL': 'https://api.cnu.ac.kr/svc/offcam/pub/homepageboardContents', 'API_KEY': '62E7DD21612148E0B5766DDEE9110FF06A5E0311', 'OPENAI_API_KEY': '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', 'LLAMA_PATH': '/c/Users/dnlab/.ollama/models/blobs/sha256-8934d96d3f08982e95922b2b7a2c626a1fe873d7c3b06e8e56d7bc0a1fef9246'}


In [2]:
"""
    게시판 목록 불러오기 API를 사용하여 데이터를 가져옵니다.
"""

request_body = requests.post(url = POST_NUM_URL, params={"AUTH_KEY" : API_KEY})

In [None]:
"""
    게시판 목록 불러오기 API를 사용하여 데이터를 가져온 이후,
    게시판 내용 불러오기 API를 사용하여 번호에 해당하는 데이터를 가져옵니다.
"""

results = request_body.json()["RESULT"] # 가져온 데이터의 결과
data_to_save = list()

for idx, result in enumerate(results):

    post_num_data = {
        "site_name" : result["site_nm"],
        "board_number" : result["board_no"],
        "board_name" : result["board_nm"]
    }
    
    print(f"Processing for post_num {post_num_data.get('board_number')}.. {idx}/{len(results)}")

    if idx == 129: # 1170 == post_num_data["board_number"] 
        print(f"too many datas in {post_num_data.get('board_number')}")
        continue

    content_request_body = requests.post(url = POST_CONTENT_URL, 
                                 params={
                                     "AUTH_KEY" : API_KEY,
                                     "P_board_no":post_num_data["board_number"]
                                     })
        
    # content_results = content_request_body.json()["RESULT"]
    content_results_string = content_request_body.text
    cleaned_string = ''.join(char for char in content_results_string if (31 < ord(char) < 127) or (char in '\r\n\t') or ('\uAC00' <= char <= '\uD7A3'))
    content_results = json.loads(cleaned_string).get('RESULT')

    if content_results is None:
        print(content_results_string)
        continue

    """
        해당 게시판 번호를 통해 게시판 내용 불러오기
        예) 컴퓨터 융합학부 학사공지 게시판 번호 -> 컴융 학사 공지에 대한 모든 게시글 불러옴
    """
    for content_idx, content_result in enumerate(content_results):
        print(f"Processing for post_content_data.. {content_idx}/{len(content_results)}")
        post_num_data = {
            "site_name" : post_num_data["site_name"],
            "board_name" : post_num_data["board_name"],
            "article_number" : content_result["article_no"],
            "article_title" : content_result["article_title"],
            "article_text" : content_result["article_text"],
            "writer_name" : content_result["writer_nm"],
            "click_count" : content_result["click_cnt"],
            "update_date" : content_result["update_dt"],
        }

        post_num_data["article_text"] = post_num_data["article_text"].replace("\n", " ")
        post_num_data["article_text"] = post_num_data["article_text"].replace("\r", "")

        # 밀리초 단위의 타임스탬프
        timestamp_ms = post_num_data["update_date"]["time"]

        # 밀리초를 초로 변환
        timestamp_s = timestamp_ms / 1000

        # 타임스탬프를 datetime 객체로 변환
        datetime_obj = datetime.fromtimestamp(timestamp_s)

        # YYYY-MM-DD hh:mm:ss 형식으로 변환하여 반환
        post_num_data["update_date"] = datetime_obj.strftime('%Y-%m-%d %H:%M:%S')

        data_to_save.append(post_num_data)

In [10]:
import pandas as pd

"""
    pandas를 통해 파이썬 리스트를 json 파일로 변환하고, csv파일로 저장한다. 
"""

df = pd.json_normalize(data_to_save)
print(df)

written_data = df.to_csv('cnu_article_data.csv', index=True)

       site_name  article_number                   article_title  \
0             87          510239     [충남대 정보보호교육센터] 2024년도 교육 일정   
1             87          503074                  소프트웨어 점검용 프로그램   
2             87          454722       MS Onedrive 가정용(1TB) 구매방법   
3             87          454707                노후 개인 홈페이지 폐지 안내   
4             87          444132    충남대학교 OneDrive 운영 정책 안내 (변경)   
...          ...             ...                             ...   
71166       3721          186072  교육연구논총 제 40권 1호 원고 모집 마감되었습니다.   
71167       3721          186071      [접수마감]교육연구논총제 40권 1호 공모 안내   
71168       3721          186070  교육연구논총 제 39권 4호 원고 모집 마감되었습니다.   
71169       3721          186069                    2018.03 발간규정   
71170       3721          186068      [접수마감]교육연구논총제 39권 4호 공모 안내   

                                            article_text writer_name  \
0      <div class="fr-view"><p><strong><span style="f...       정보화본부   
1      <div class="fr-view"><p>소프트웨어 점검