# 개요

- 상황
  - 필요한 데이터가 open api를 통해서 제공해줌
  - ex) **뉴스**, 블로그, 검색결과, 플레이스, ....

- 목표
  - open api 사용
  - 데이터 수집(level 2~4) => 약간의 전처리(클리닝, 구조화:[{},{},..]) => pandas의 DataFrame 변환 => DB 적제
    - 데이터 수집 파이프라인
  - DB : 마리아DB(mysql 계열)
  - 수집 내용
    - 뉴스
      - 텍스트 -> 자연어 처리 대상
      - 카테고리 분류, 키워드 추출, 요약, 헤드라인 생성, ... 자연어 작업의 모델 구성 가능
    - 포털에서 언론사 뉴스 공급
    - 네이버 dev api 사용
    - 자동화 처리
      - 뉴스 요청 -> 전처리 ->  db 적제(윈도우 기준)

# 네이버 open api 신청

- 절차
  - dev.naver.com
    - 어플리케이션 신청 > 검색기능 추가
    - client id, secret 키 발급 노트 저장
  
  - 키가 정상적인지 점검
    - 요청 진행(테스트)
      - https://developers.naver.com/docs/serviceapi/search/news/news.md#%EB%89%B4%EC%8A%A4
    - URL
      - https://openapi.naver.com/v1/search/news.json

In [None]:
# 리눅스 기반에서 url 요청 수행하여 결과 획득
# query=%EC%A3%BC%EC%8B%9D : 질의한 내용, 한글 -> 깨지기 때문에 인코딩 처리된것
'''
  - GET 방식 웹 페이지 요청시 데이터를 전달하는 샘플
  - URL?키=값&키=값&키=값... <= GET방식으로 통함
  ...news.xml?query=%EC%A3%BC%EC%8B%9D&display=10&start=1&sort=sim
'''

# 연동 테스트 => 키 정상임 확인
!curl "https://openapi.naver.com/v1/search/news.json?query=%EC%A3%BC%EC%8B%9D&display=10&start=1&sort=sim" \


# 파이썬 구현

In [None]:
# 1. 필요한 모듈(통신용) 가져오기 (기본 모듈 사용)
import urllib.request as req

In [None]:
# 2. 네이버 api 사용하기 위해서 키 획득
from google.colab import userdata

CLIENT_ID = userdata.get('NAVER_CLIENT_ID')
CLIENT_SECRET = userdata.get('NAVER_SECRET')
NAVER_DEV_URL = "https://openapi.naver.com/v1/search/news.json"

CLIENT_ID, CLIENT_SECRET, NAVER_DEV_URL

In [None]:
import urllib

# 3. 검색어 (뉴스 수집 => 검색어)
#    검색어 : 관세
keyword = '관세'
# 한글이 깨지지 않고 네이버 서버까지 도착 => 인코딩 처리
enc_keyword = urllib.parse.quote(keyword)
enc_keyword

'%EA%B4%80%EC%84%B8'

In [None]:
# 최종 요청 URL 구성 가능
# url과 query만 구성된 형태
# url?키=값
url = f'{NAVER_DEV_URL}?query={enc_keyword}' # 실습 url = .... 여기를 채우시오

url

'https://openapi.naver.com/v1/search/news.json?query=%EA%B4%80%EC%84%B8'

In [None]:
# 위의 url에 요청할때 반드시 키를 전달해야 한다
# 키(외부에 노출되면 안된다) 전달
# api 키는 https 프로토콜(헤더가 존재, 여기에 세팅해서 전달)

# 통신 코드 작성
# 1. 요청 객체 생성
request = req.Request(url)

# 2. 키 설정 -> 헤더
request.add_header('X-Naver-Client-id', CLIENT_ID)
request.add_header('X-Naver-Client-Secret',CLIENT_SECRET)

# 3. 실제 요청 수행 -> 응답
response = req.urlopen(request)

In [None]:
# 4. 응답코드 확인
response.getcode()
# 200 -> 성공

200

In [None]:
# 5. 응답 객체 => 데이터 추출 : 파싱
#    응답데이터 => JSON (딕셔너리.[딕셔너리]) 요청
import json

if response.getcode() == 200: # 성공
  # 응답결과 파싱
  res_json = json.load(response)

In [None]:
# 6. 확인 및 필요 데이터 추출
res_json

{'lastBuildDate': 'Mon, 07 Apr 2025 14:46:56 +0900',
 'total': 1130532,
 'start': 1,
 'display': 8,
 'items': [{'title': '삼성운용, 금융고배당TOP10타겟위클리커버드콜 ETF 개인 순매수 1000억 돌...',
   'originallink': 'http://www.fieldnews.kr/news/articleView.html?idxno=14977',
   'link': 'http://www.fieldnews.kr/news/articleView.html?idxno=14977',
   'description': '글로벌 <b>관세</b>전쟁으로 증시 변동성이 커지는 가운데 상대적으로 안정성이 높은 배당주에 대한 관심도... 이대환 삼성자산운용 매니저는 &quot;최근 미국발 <b>관세</b>전쟁으로 글로벌 증시의 변동성이 커진 시장 상황에서... ',
   'pubDate': 'Mon, 07 Apr 2025 14:46:00 +0900'},
  {'title': "재닛 옐런 '현 <b>관세</b>, 경기침체로 이어지지 않을 것' 미국 경제 낙관론 피...",
   'originallink': 'https://www.tokenpost.kr/news/cryptocurrency/235383',
   'link': 'https://www.tokenpost.kr/news/cryptocurrency/235383',
   'description': '재닛 옐런(Janet Yellen) 전 미국 재무장관이 현재의 <b>관세</b>가 경기침체로 이어지지 않을 것이라고 선언했다고 NBC뉴스가 보도했다. 6일(현지시간) 코인CU에 따르면, 옐런 재무장관이 경제에 대한 <b>관세</b> 정책의 더 넓은 의미에... ',
   'pubDate': 'Mon, 07 Apr 2025 14:46:00 +0900'},
  {'title': '美 재무 &quot;<b>관세</b>, 경기침체 고려할 이유

In [None]:
# res_json 로부터 뉴스의 제목(title)만 추출하시오
# 해당 구조는 리스트로 담아서 출력

# 기사 목록 -> 리스트 -> 반복문. 개수 정해져 있음 -> for
for news in res_json['items']: # [{}. {}, ...]
  print(news['title']) # {...}
  # 제목 추출 실습

  break # 1번만 반복

삼성운용, 금융고배당TOP10타겟위클리커버드콜 ETF 개인 순매수 1000억 돌...


In [None]:
# 결과물 => 리스트 => 컴프리핸션 적용
[
  news['title']
  for news in res_json['items']
 ]

['삼성운용, 금융고배당TOP10타겟위클리커버드콜 ETF 개인 순매수 1000억 돌...',
 "재닛 옐런 '현 <b>관세</b>, 경기침체로 이어지지 않을 것' 미국 경제 낙관론 피...",
 '美 재무 &quot;<b>관세</b>, 경기침체 고려할 이유 없어&quot;… 뒤숭숭한 공화당',
 '안덕근 산업부 장관, 필리핀과 공급망 협력 강화…바탄원전 재개도 논의',
 '트럼프 &quot;중국과 1조달러 무역 적자 …해결 안 되면 협상 없다&quot;',
 '통상본부장 내일 또 방미...이러다 결국 FTA재협상·무기수입 카드 나오...',
 '[포토]트럼프발 충격파… 코스피 5%↓·코스닥 4%↓ 폭락세',
 '&quot;300만원 아이폰은 안돼&quot;…애플, <b>관세</b> 피해 생산지 옮길까']

#### (*)함수화

In [1]:
# 1. 모듈 가져오기
import urllib # 한글의 url 인코딩 처리 함수 사용
import json   # 통신 결과가 json으로 도착 -> 파싱 -> 추출
import urllib.request as req      # 통신용, API키 세팅
from google.colab import userdata # 코랩에 저장된 API키 추출

# 2. API키 획득 (아직 코랩에서만 사용됨, 로컬에서는 변경 필요(하드코딩 일단))
CLIENT_ID = userdata.get('NAVER_CLIENT_ID')
CLIENT_SECRET = userdata.get('NAVER_SECRET')
# 3. 네이버 요청 url 주소 (만약, XML이면 news.xml로 변경됨)
NAVER_DEV_URL = "https://openapi.naver.com/v1/search/news.json"

# 4. 검색어 입력 => 네이버 요청 => 결과 획득 => [{}, {}, ..]형태로 응답하는 함수
# 함수의 주석 및 입력, 출력에 대한 가이드 제시
def get_news(keyword:str) -> list:
  '''
    네이버 뉴스 api를 활용하여 뉴스의 제목만 추출하는 함수
    단, 200이 아닌 경우 대처 x, 통신 오류인 경우 대처 x => 예외처리 try/except
    paramters:
      - keyword : 검색어
    return:
      - 뉴스 제목 리스트
  '''
  # 구현, 위의 코드를 배치하여 구성 (4분)
  try:
    # 4-1. 검색어를 URL 인코딩 처리(가 => %3A%2)
    enc_keyword = urllib.parse.quote(keyword)
    # 4-2. 요청 URL 최종 형태 완성 (문자열 포멧팅 사용)
    url = f'{NAVER_DEV_URL}?query={enc_keyword}'
    # 4-3. 요청 객체를 생성한다 -> 왜 -> 헤더에 API를 심어야 하니까
    request = req.Request(url)
    # 4-4.  API 키 세팅(네이버에서 제시하는 가이드)
    request.add_header('X-Naver-Client-id', CLIENT_ID)
    request.add_header('X-Naver-Client-Secret',CLIENT_SECRET)
    # 4-5. urlopen() 통신요청 처리 함수, 리턴값은 응답(json을 받아서 응답)
    response = req.urlopen(request) # 통신.네트워크 => I/O
    # 4-6. 응답코드 (100번대 ~ 500번대) => 200번은 정상응답
    if response.getcode() == 200:
    # 4-7. 응답 결과 -> json 파싱 -> [{},{}...] or {...}
      res_json = json.load(response)

    # 4-8. 검색 결과만 반환함(최신순으로 10개 <- 자동세팅되어 있음)
    return res_json['items']
  except Exception as e:
    # 4-9. 검색 결과 없음. 로그기록 남길 필요 있음 => 차후 대처
    return []

today_news = get_news('관세')
today_news

[{'title': "尹 파면으로 정치리스크 줄었지만 '美 <b>관세</b>'가 암초… 한은 &quot;경상수지,...",
  'originallink': 'https://www.ddaily.co.kr/page/view/2025041716411021618',
  'link': 'https://n.news.naver.com/mnews/article/138/0002194869?sid=101',
  'description': '경제심리 회복이 지연되는 가운데, 미국발 <b>관세</b>전쟁 등 글로벌 통상여건도 악화되면서 올해 우리경제... 세계경제는 미 <b>관세</b>정책의 추진 강도와 불확실성이 크게 높아지면서 성장세가 위축될 것으로 관측됐다. 미국은... ',
  'pubDate': 'Thu, 17 Apr 2025 16:43:00 +0900'},
 {'title': "박정원 두산그룹 회장 두산밥캣에 '혁신 DNA' 강조 ...유럽 인프라 및 방...",
  'originallink': 'http://www.lkp.news/news/articleView.html?idxno=63099',
  'link': 'http://www.lkp.news/news/articleView.html?idxno=63099',
  'description': '<b>관세</b>정책의 영향이 제한적이고 유럽의 인프라 및 방위산업 등에 대한 재정집행 효과로 수요 회복이... ◆ <b>관세</b> 영향 제한적...하반기 점진적인 실적 개선 전망 15일 KB증권이 두산밥캣의 12개월 목표주가를 기존 52... ',
  'pubDate': 'Thu, 17 Apr 2025 16:42:00 +0900'},
 {'title': "한은, 1분기 역성장 '경고'…&quot;사실상 5월 인하 예고한 것&quot;",
  'originallink': 'http://www.edaily.co.kr/news/newspath.asp?newsid=03706406642137104',
  'link': 'https://

In [None]:
# 제목만 추출
[
  news['title']
  for news in today_news
]

# 제목에 노이즈가 존재한다 -> <b>관세</b>, &quot; -> 클리닝(여기서는 제거)

['10조 추경 나선 정부 &quot;<b>관세</b> 전쟁 피해 심각&quot;',
 '최상목 부총리…국회에 10조원 규모 추가경정예산안 조속 처리 요청',
 '정부·한국은행, 금융시장 불안정성 속 긴급 대응 방안 논의',
 "<b>관세</b> 가짜 뉴스에…미국 증시 3천500조 원이 '왔다갔다'",
 '[인터뷰] &quot;트럼프 <b>관세</b> 중도 포기? OO에 달렸다&quot;',
 'KB증권, LG전자 목표가 하향…&quot;美<b>관세</b> 우려&quot;',
 "美재무 &quot;70개국이 <b>관세</b>협상 요청&quot;…1순위는 '일본'",
 "'美증시 진정에 안도' 코스피 장 초반 1.5% 반등…코스닥도↑(종합)"]

- 데이터 검토
  - 웹 검색 결과물 => 노이즈 존재함
    ```
      &quot;향후 美 <b>관세</b>정책 불확실성 확대·장기화 가능성&quot;

      &quot; => ' OR "
      <b>관세</b> => 두껍게 표현
    ```
  - 해당 내용은 정규식, 기타 라이브러리로 정리 (데이터 클리닝 작업)
    - 단순하게 대체 "".replace()
    - html 라이브러리 사용 &quot; 처리가능

In [None]:
# 참고

# 1. 엔티티 문자 처리
import html

# &quot; => " 교체
data = "&quot;향후 美 <b>관세</b>정책 불확실성 확대·장기화 가능성&quot;"
data = html.unescape(data)
data

'"향후 美 <b>관세</b>정책 불확실성 확대·장기화 가능성"'

In [None]:
# 정규식 참고
import re # 정규식 라이브러리

# 정규식 정의 => HTML 태그 정의
pattern = re.compile("<[a-z0-9]+>|</[a-z0-9]+>", re.IGNORECASE)

# HTML 태그 제거 -> 노이즈 제거 -> 원 텍스트만 추출
# 태그가 발견되면 => '' 대체
pattern.sub('', data)

# 데이터 클리닝을 완성한 텍스트 데이터

'"향후 美 관세정책 불확실성 확대·장기화 가능성"'

In [None]:
# 최종 디비에 적재할 데이터
'''
  최종구조 -> DataFrame로 한번에 변경 -> DB에 한번에 입력됨
    [
      {}, {}, {}
    ]
  내용
    [
      {
        'title':'뉴스제목',
        'desc':'요약',
        'pub_date':'공개일'
      }
      ,...
    ]
'''
# 데이터 클린 함수 -> 람다 함수
clean_str = lambda x:pattern.sub('',html.unescape(x))

# 데이터 클린 함수 -> 일반 함수
def clean_str2(x):
  x = html.unescape(x)      # &qout; => "
  x = pattern.sub('',(x)) # <b>, </b> => 제거
  return x

clean_str(data), clean_str2(data)

('"향후 美 관세정책 불확실성 확대·장기화 가능성"', '"향후 美 관세정책 불확실성 확대·장기화 가능성"')

In [None]:
import html
import re
pattern = re.compile("<[a-z0-9]+>|</[a-z0-9]+>", re.IGNORECASE)

def clean_str2( x ):
  '''
    데이터 클리닝 함수
      - &qout; => " 대체
      - <b>, </b> => 제거
    parameters
      x : 원본 문자열 (raw data)
    returns
      정제된(클리닝 처리된) 문자열을 반환
  '''
  x = html.unescape(x)   # &qout; => "
  x = pattern.sub('', x) # <b>, </b> => 제거
  return x

### 최종 마무리 함수

In [None]:
# 실습 아래 코드를 기반
def final_proc(data):
  '''
    - 1단계 => 제목, 요약, 공개일 추출 => { } 구조로 구성
    - 2단계 => 데이터 클린 적용 (위의 함수 사용)
    - 3단계 => 이를 이용하여 [ {},{}, {}, ... ] 이런 내용이 나오도록 구성
    parameters
      - data : [ {}, ... ]
    returns
      [ {
          'title':'...',
          'description':'',
          'pubDate':'...'
        },{}, {}, ... ]
  '''
  # 1. 결과를 담을 그릇 => [] 준비
  results = list()
  # 2. data -> 반복문 처리 -> 뉴스 1개씩 추출
  for news in data:
    # 2-1. 뉴스 데이터(dict) 에서  제목, 요약, 공개일 추출
    t = news['title']
    d = news['description']
    p = news['pubDate']
    # 2-2. 해당 데이터에 클리닝 작업, 공개일은 시간정보라서 클리닝 작업 제외
    t = clean_str2( t )
    d = clean_str2( d )
    # 2-3. 이 데이터를 다시 dict로 묶음
    news_dict = {
        'title':t,
        'description':d,
        'pubDate':p
    }
    # 2-4.  결과를 담는 그릇에 2-3에서 만든 dict를 담는다
    results.append( news_dict )
    pass
  # 3. 결과를 담은 그릇을 반환
  return  results

final_proc( today_news )

[{'title': '10조 추경 나선 정부 "관세 전쟁 피해 심각"',
  'description': "'관세 대응 및 수출 바우처'를 확대하고, AI 생태계 혁신을 위해 올해 안에 고성능 GPU를 1만 장 이상 추가하는 등의 내용이다. 아울러 내수 부진으로 어려움을 겪는 서민 및 소상공인 지원에 약 3~4조 원을 집행하는 내용도... ",
  'pubDate': 'Tue, 08 Apr 2025 09:36:00 +0900'},
 {'title': '최상목 부총리…국회에 10조원 규모 추가경정예산안 조속 처리 요청',
  'description': '그는 특히 "관세 피해를 입은 중소기업을 지원하기 위한 관세 대응 및 수출 바우처를 확대"하고, 정책금융도 추가로 공급하겠다고 전했다. 이를 통해 핵심 품목의 공급망을 안정화하고 첨단 산업의 소재ㆍ부품ㆍ장비 등에... ',
  'pubDate': 'Tue, 08 Apr 2025 09:36:00 +0900'},
 {'title': '정부·한국은행, 금융시장 불안정성 속 긴급 대응 방안 논의',
  'description': '지난 3일 미국의 상호관세 부과조치 발표 이후, 미국을 비롯한 유럽과 아시아 지역의 주식시장이 하락세를 보이면서 전체적으로 불안정한 양상을 보이고 있다. 최 부총리는 세계 통상환경 변화가 주요 국가들의 경제 성장... ',
  'pubDate': 'Tue, 08 Apr 2025 09:36:00 +0900'},
 {'title': "관세 가짜 뉴스에…미국 증시 3천500조 원이 '왔다갔다'",
  'description': "▲ 미국 나스닥 시장 트럼프 미 행정부의 관세 정책 불확실성으로 7일(현지시간) 뉴욕증시가 '롤러코스터... 투자자들이 관세 정책 관련 뉴스에 시선을 집중하며 저점 매수 기회를 노리는 과정에서 다우지수는 사상... ",
  'pubDate': 'Tue, 08 Apr 2025 09:36:00 +0900'},
 {'title': '[인터뷰] "트럼프 관세 중도 포기? OO에 달렸

In [None]:
# 1개만 샘플링
today_news[:1]

[{'title': '10조 추경 나선 정부 &quot;<b>관세</b> 전쟁 피해 심각&quot;',
  'originallink': 'http://www.wowtv.co.kr/NewsCenter/News/Read?articleId=A202504080250&t=NN',
  'link': 'https://n.news.naver.com/mnews/article/215/0001204940?sid=101',
  'description': "'<b>관세</b> 대응 및 수출 바우처'를 확대하고, AI 생태계 혁신을 위해 올해 안에 고성능 GPU를 1만 장 이상 추가하는 등의 내용이다. 아울러 내수 부진으로 어려움을 겪는 서민 및 소상공인 지원에 약 3~4조 원을 집행하는 내용도... ",
  'pubDate': 'Tue, 08 Apr 2025 09:36:00 +0900'}]

In [None]:
def final_proc2(data):
  results = list()
  for news in data:
    results.append( {
        'title'      :clean_str2( news['title'] ),
        'description':clean_str2( news['description'] ),
        'pubDate'    :news['pubDate']
    } )
  return  results

final_news = final_proc2( today_news )

# pandas의 DataFrame으로 변환 처리

- db에 쉽개 넣기 위해서 변환
- 배우기 전이므로, 과정으로만 이해

In [None]:
# 1. 모듈 가져오기
# pandas : 데이터 분석 및 사이언스용 라이브러리
import pandas as pd

In [None]:
# 2. [{},{},...] => DataFrame으로 변환
df = pd.DataFrame.from_dict( final_news )

# 3. 상위값 2개만 출력
df.head(2)

Unnamed: 0,title,description,pubDate
0,"10조 추경 나선 정부 ""관세 전쟁 피해 심각""","'관세 대응 및 수출 바우처'를 확대하고, AI 생태계 혁신을 위해 올해 안에 고성...","Tue, 08 Apr 2025 09:36:00 +0900"
1,최상목 부총리…국회에 10조원 규모 추가경정예산안 조속 처리 요청,"그는 특히 ""관세 피해를 입은 중소기업을 지원하기 위한 관세 대응 및 수출 바우처를...","Tue, 08 Apr 2025 09:36:00 +0900"


# 데이터베이스 설치

- 데이터 저장소

- 제품명
  - 마리아 DB 다운로드
    - https://mariadb.org/download/?t=mariadb&p=mariadb&r=11.7.2&os=windows&cpu=x86_64&pkg=msi&mirror=blendbyte
  - 설치
    - root 계정의 비번
      - 12341234
    - 원격 접속 허용 체크 박스 -> 체크
  - 설치 후
    - HeidSQL 실행 (바탕화면, 윈도우 검색 후 실행)
    - 새로운 세션
      - 127.0.0.1
      - root
      - 12341234
      - 3306
    - 연결 버튼 클릭
  - HeidSQL 화면에서
    - unnamed > 우클릭 > 새로생성 > 데이터베이스
      - news
      - utf8mb4_general_ci

# 로컬 환경에 python 사용되게 구성(개발환경)

- 파이썬 설치
  - (*)python.org
  ```
    # 파워쉘, 명령프롬프트 구동 후 확인
    python -V
  ```
  - anaconda
- IDE 설치
  - 파이참 (전용툴)
  - VSCODE (범용툴)

# 데이터베이스에 데이터 입력

In [None]:
!pip install pymysql -q

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/45.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.0/45.0 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# 1. 필요한 모듈 가져오기
import pymysql # 파이썬 <-> pymysql | .... <-> maria db
# 파이썬 <-> sqlalchemy <-> pymysql <-> maria db
# sqlalchemy를 이용하여 고급 기능 사용할 수 있다
# sqlalchemy를 pymysql와 브릿지하여 사용
from sqlalchemy import create_engine

In [None]:
# 2. 접속 정보 준비
HOST = '127.0.0.1' # "localhost"
ID   = 'root'
PW   = '12341234'
PORT = 3306
DB_NAME    = 'news'
TABLE_NAME = 'tbl_news' # 여기서 설정함
PROTOCAL   = 'mysql+pymysql' # db 제품이 변경되면 내용도 변경됨

# 3. 접속 URL
db_url = f'{PROTOCAL}://{ID}:{PW}@{HOST}:{PORT}/{DB_NAME}' # db_url = '{}://{}:{}@{}:{}/{}'.format(PROTOCAL, ID, PW, HOST, PORT, DB_NAME)
db_url

'mysql+pymysql://root:12341234@127.0.0.1:3306/news'

In [None]:
# 4. 디비에 데이터 입력 작업
# 4-1. 엔진생성
engine = create_enginer(db_url)
# 4-2. 실제 접속 -> 커넥션 객체 획득
#      접속 오류 => 디비는 로컬 PC, 코랩 => 구글 클라우드, 인식못함
#      - 디비를 AWS(아마존 클라우드)와 같은 곳에 생성
#      - 코랩 코드->덤프->로컬 PC에서 진행
conn = engine.connect()
# 4-3. 데이터 밀어 넣기
df.to_sql(name=TABLE_NAME, con=conn, if_exists='append', index=False)
# 4-4. 커넥션 닫기
conn.close()

NameError: name 'create_enginer' is not defined