#### (*)함수화

In [13]:
# 1. 모듈 가져오기
import urllib # 한글의 url 인코딩 처리 함수 사용
import json   # 통신 결과가 json으로 도착 -> 파싱 -> 추출
import urllib.request as req      # 통신용, API키 세팅
# from google.colab import userdata # 코랩에 저장된 API키 추출

# 2. API키 획득 (어직 코랩에서만 사용됨, 로컬에서는 변경 필요(하드코딩 일단))
CLIENT_ID = 'AIbZxkeOZuzcvtyhDOQI'
CLIENT_SECRET = 'lyTJIT6xWO'
# 3. 네이버 요청 url 주소 (만약, XML이면 news.xml로 변경됨)
NAVER_DEV_URL = "https://openapi.naver.com/v1/search/news.json"

# 4. 검색어 입력 => 네이버 요청 => 결과 획득 => [{}, {}, ..]형태로 응답하는 함수
# 함수의 주석 및 입력, 출력에 대한 가이드 제시
def get_news(keyword:str) -> list:
  '''
    네이버 뉴스 api를 활용하여 뉴스의 제목만 추출하는 함수
    단, 200이 아닌 경우 대처 x, 통신 오류인 경우 대처 x => 예외처리 try/except
    paramters:
      - keyword : 검색어
    return:
      - 뉴스 제목 리스트
  '''
  # 구현, 위의 코드를 배치하여 구성 (4분)
  try:
    # 4-1. 검색어를 URL 인코딩 처리(가 => %3A%2)
    enc_keyword = urllib.parse.quote(keyword)
    # 4-2. 요청 URL 최종 형태 완성 (문자열 포멧팅 사용)
    url = f'{NAVER_DEV_URL}?query={enc_keyword}'
    # 4-3. 요청 객체를 생성한다 -> 왜 -> 헤더에 API를 심어야 하니까
    request = req.Request(url)
    # 4-4.  API 키 세팅(네이버에서 제시하는 가이드)
    request.add_header('X-Naver-Client-id', CLIENT_ID)
    request.add_header('X-Naver-Client-Secret',CLIENT_SECRET)
    # 4-5. urlopen() 통신요청 처리 함수, 리턴값은 응답(json을 받아서 응답)
    response = req.urlopen(request) # 통신.네트워크 => I/O
    # 4-6. 응답코드 (100번대 ~ 500번대) => 200번은 정상응답
    if response.getcode() == 200:
    # 4-7. 응답 결과 -> json 파싱 -> [{},{}...] or {...}
      res_json = json.load(response)

    # 4-8. 검색 결과만 반환함(최신순으로 10개 <- 자동세팅되어 있음)
    return res_json['items']
  except Exception as e:
    # 4-9. 검색 결과 없음. 로그기록 남길 필요 있음 => 차후 대처
    return []

today_news = get_news('관세')
today_news

[{'title': "[72돌 SK그룹] 최태원 '혁신 DNA' 심는다",
  'originallink': 'http://www.00news.co.kr/news/articleView.html?idxno=93373',
  'link': 'http://www.00news.co.kr/news/articleView.html?idxno=93373',
  'description': "최근 경제를 둘러싼 대내외 불확실성이 짙어지는 가운데 최태원 회장은 미국 도널드 트럼프 2기 행정부발(發) <b>관세</b>전쟁과 인플레이션, 인공지능(AI) 기술혁신 등 '삼각파도'를 넘기 위해 또 다른 도약을 준비 중이다.... ",
  'pubDate': 'Tue, 08 Apr 2025 15:26:00 +0900'},
 {'title': '금감원장 &quot;美 <b>관세</b> 피해 정밀 분석…시장안정 총력&quot;',
  'originallink': 'http://www.efnews.co.kr/news/articleView.html?idxno=119178',
  'link': 'http://www.efnews.co.kr/news/articleView.html?idxno=119178',
  'description': "상호<b>관세</b>와 관련해 산업별 피해를 정밀히 분석하고 필요시 시정안정조치를 적시에 시행할 수 있도록 사전 대비할 것을 강조했다. 8일 금감원은 이복현 원장이 F4(Finance 4) 회의 직후 여의도 본원에서 '美 상호<b>관세</b> 대응 점검... ",
  'pubDate': 'Tue, 08 Apr 2025 15:26:00 +0900'},
 {'title': '[경북24시] 경북도, 추경 예산안 편성...민생·산불 피해 극복',
  'originallink': 'https://www.sisajournal.com/news/articleView.html?idxno=329532',
  'link': 'https://n.news.naver.com/mnews/arti

In [14]:
import html
import re
pattern = re.compile("<[a-z0-9]+>|</[a-z0-9]+>", re.IGNORECASE)

def clean_str2( x ):
  '''
    데이터 클리닝 함수
      - &qout; => " 대체
      - <b>, </b> => 제거
    parameters
      x : 원본 문자열 (raw data)
    returns
      정제된(클리닝 처리된) 문자열을 반환
  '''
  x = html.unescape(x)   # &qout; => "
  x = pattern.sub('', x) # <b>, </b> => 제거
  return x
### 최종 마무리 함수
# 실습 아래 코드를 기반
def final_proc(data):
  '''
    - 1단계 => 제목, 요약, 공개일 추출 => { } 구조로 구성
    - 2단계 => 데이터 클린 적용 (위의 함수 사용)
    - 3단계 => 이를 이용하여 [ {},{}, {}, ... ] 이런 내용이 나오도록 구성
    parameters
      - data : [ {}, ... ]
    returns
      [ {
          'title':'...',
          'description':'',
          'pubDate':'...'
        },{}, {}, ... ]
  '''
  # 1. 결과를 담을 그릇 => [] 준비
  results = list()
  # 2. data -> 반복문 처리 -> 뉴스 1개씩 추출
  for news in data:
    # 2-1. 뉴스 데이터(dict) 에서  제목, 요약, 공개일 추출
    t = news['title']
    d = news['description']
    p = news['pubDate']
    # 2-2. 해당 데이터에 클리닝 작업, 공개일은 시간정보라서 클리닝 작업 제외
    t = clean_str2( t )
    d = clean_str2( d )
    # 2-3. 이 데이터를 다시 dict로 묶음
    news_dict = {
        'title':t,
        'description':d,
        'pubDate':p
    }
    # 2-4.  결과를 담는 그릇에 2-3에서 만든 dict를 담는다
    results.append( news_dict )
    pass
  # 3. 결과를 담은 그릇을 반환
  return  results

final_proc( today_news )
def final_proc2(data):
  results = list()
  for news in data:
    results.append( {
        'title'      :clean_str2( news['title'] ),
        'description':clean_str2( news['description'] ),
        'pubDate'    :news['pubDate']
    } )
  return  results

final_news = final_proc2( today_news )
# 1개만 샘플링
today_news[:1]

[{'title': "[72돌 SK그룹] 최태원 '혁신 DNA' 심는다",
  'originallink': 'http://www.00news.co.kr/news/articleView.html?idxno=93373',
  'link': 'http://www.00news.co.kr/news/articleView.html?idxno=93373',
  'description': "최근 경제를 둘러싼 대내외 불확실성이 짙어지는 가운데 최태원 회장은 미국 도널드 트럼프 2기 행정부발(發) <b>관세</b>전쟁과 인플레이션, 인공지능(AI) 기술혁신 등 '삼각파도'를 넘기 위해 또 다른 도약을 준비 중이다.... ",
  'pubDate': 'Tue, 08 Apr 2025 15:26:00 +0900'}]

# pandas의 DataFrame으로 변환 처리

In [15]:
import pandas as pd
df = pd.DataFrame.from_dict( final_news )

# 데이터베이스에 데이터 입력

In [16]:
import pymysql
from sqlalchemy import create_engine

# 2. 접속 정보 준비
HOST = '127.0.0.1' # "localhost"
ID   = 'root'
PW   = '12341234'
PORT = 3306
DB_NAME    = 'news'
TABLE_NAME = 'tbl_news' # 여기서 설정함
PROTOCAL   = 'mysql+pymysql' # db 제품이 변경되면 내용도 변경됨

# 3. 접속 URL
db_url = f'{PROTOCAL}://{ID}:{PW}@{HOST}:{PORT}/{DB_NAME}' # db_url = '{}://{}:{}@{}:{}/{}'.format(PROTOCAL, ID, PW, HOST, PORT, DB_NAME)
db_url

'mysql+pymysql://root:12341234@127.0.0.1:3306/news'

In [17]:
# 4. 디비에 데이터 입력 작업
# 4-1. 엔진생성
engine = create_engine(db_url)
# 4-2. 실제 접속 -> 커넥션 객체 획득
#      접속 오류 => 디비는 로컬 PC, 코랩 => 구글 클라우드, 인식못함
#      - 디비를 AWS(아마존 클라우드)와 같은 곳에 생성
#      - 코랩 코드->덤프->로컬 PC에서 진행
conn = engine.connect()
# 4-3. 데이터 밀어 넣기
df.to_sql(name=TABLE_NAME, con=conn, if_exists='append', index=False)
# 4-4. 커넥션 닫기
conn.close()