# (공통)목표

- 데이터 분석 플로우 2단계 과정 마스터
  - 사내에서 간혹 발생할수 있는 데이터 수집 과정을 진행
  - 교육 과정상 자유 프로젝트의 데이터가 없는 경우에도 level 2 ~ 4  까지 사용가능
  - 파이썬 사용 능력 업그레이드 
  - 웹에 대한 이해

# 데이터 수집 level 2 

## 네이버 open API를 활용하여 뉴스 수집

- 데이터 : 뉴스
  - 자연어 처리 용도
  - 관련주제
    - 카테고리 분류, 키워드 추출, 텍스트 요약, 헤드라인 생성, 글의 논조 분석, 성향 분석,..
- 출처
  - dev.naver.com
  - 가입 > 인증 > 애플리케이션 생성 > 등록
    - API 신청 : 검색만 신청
    - Client ID : hGlPB6Huk36yzxu6O2gM
    - Client Secret : 6FNqlETwhB

### 데이터 요청 테스트

In [1]:
# step 1. 필요한 모듈 가져오기
# 운영체계 관련된 모듈
import os
# 시스템 관련 모듈
import sys
# url을 이용한 라이브러리중 요청 모듈
# 데이터는 http or https라는 프로토콜을 통해서 데이터를 가져오게 정의되어 있어서
# 파이썬에서 웹기반으로 http or https 프로토콜을 통해 통신을 수행한다면
import urllib.request

In [2]:
# 네이버에서 검색 수행시 기본으로 넣어야 하는 키값(해시)
# 관리 주의, 누출 금지
CLIENT_ID     = "hGlPB6Huk36yzxu6O2gM"
CLIENT_SECRET = "6FNqlETwhB"

- GET 방식으로 서버측에 뉴스를 검색 요청할때 데이터를 전송한다
  - https://URL?query=키워드

In [3]:
# urllib.parse.quote() : URL 인코딩 처리 함수
# 특수문자, 한글(유니코드계열) 등 처리가됨
# encText = urllib.parse.quote("AB12ab!@연말연시")
encText = urllib.parse.quote("연말연시")
encText
# 한글을 전송하면 경우에 따라서는 깨져서 갈수도 있다(서버측에서 이해를 못할수 있다)
# 한글 => %AC%AA....  URL 인코딩 처리

'%EC%97%B0%EB%A7%90%EC%97%B0%EC%8B%9C'

In [4]:
# 서버측에 데이터를 요청하기 위한 프로토콜 구성
# https 기반 (참고 OSI 7 layer) 주소법을 기반으로 구성된다

url = "https://openapi.naver.com/v1/search/news.json?query=" + encText # JSON 결과
# url = "https://openapi.naver.com/v1/search/news.xml?query=" + encText # XML 결과
url

'https://openapi.naver.com/v1/search/news.json?query=%EC%97%B0%EB%A7%90%EC%97%B0%EC%8B%9C'

- 위에 생성된 최종 주소를 브라우저 주소창에 넣고 바로 요청해보기

In [5]:
# API를 요청하는 유저의 정보를 삽입하여 요청
# 이런 정보는 어디에 넣는가? => 프로토콜 헤더에 삽입한다(일반적)

# 요청 객체 생성( url )
request = urllib.request.Request(url)

# 프로토콜 헤더에 정보를 세팅한다
request.add_header("X-Naver-Client-Id", CLIENT_ID)
request.add_header("X-Naver-Client-Secret", CLIENT_SECRET)

# urlopen() 실제적으로 서버에 요청하는 함수
# 브라우저에 주소창에 주소넣고 엔터와 같은 동작
response = urllib.request.urlopen(request)

# 서버의 응답값은 response

- 참고
  - https://ko.wikipedia.org/wiki/HTTP

In [6]:
# 응답데이터 => 해석, 필요한 결과를 추출 => 파싱한다
# 응답 코드 획득, 100~500까지 존재, 200은 성공, 404(페이지없다), 500(서버측오류)
# 403(권한없음), 405(메소드없음),...
rescode = response.getcode()

# 통신이 정상적으로 수행되었다면
if(rescode==200):
    # 서버가 보낸 내용을 읽어라+
    response_body = response.read()
    # utf-8(완성형코드<->조합형코드) 형태로 
    print(response_body.decode('utf-8'))
else:
    print("Error Code:" + rescode)

{
	"lastBuildDate":"Tue, 27 Dec 2022 08:55:28 +0900",
	"total":264499,
	"start":1,
	"display":10,
	"items":[
		{
			"title":"경산시건축사회, 이웃돕기 성금 기탁",
			"originallink":"http:\/\/www.idaegu.com\/newsView\/idg202212260063",
			"link":"http:\/\/www.idaegu.com\/newsView\/idg202212260063",
			"description":"경산시건축사회가 지난 26일 <b>연말연시<\/b>를 맞아 어려운 이웃을 위한 성금 300만 원을 경산시에 기탁했다.",
			"pubDate":"Tue, 27 Dec 2022 08:50:00 +0900"
		},
		{
			"title":"&quot;23년 전 받은 사랑 돌려드려요&quot;…자선진료비 23배로 기부",
			"originallink":"http:\/\/sports.chosun.com\/news\/ntype.htm?id=202212280100178530022355&servicedate=20221227",
			"link":"https:\/\/n.news.naver.com\/mnews\/article\/076\/0003954211?sid=102",
			"description":"은평성모병원은 박씨 가족의 기부금을 자선진료기금으로 활용해 경제적, 의료적 취약계층들이 질병과 생활고라는 악순환 속에서 고립되지 않도록 도울 예정이며, <b>연말연시<\/b>를 맞아 사회사업팀을 통한 자선진료와... ",
			"pubDate":"Tue, 27 Dec 2022 08:49:00 +0900"
		},
		{
			"title":"[생활경제 이슈] 풀무원, 식품표시사항 자동완성 플랫폼 개발 外",
			"originallink":"http:\/\/www.lawissue.co.kr\/view.php?ud=20221227084631

- 요청후 응답처리까지 1번에 진행해야 정상 작동
- 자동화 처리를 위해서, 단독 프로그램형태로 구성해야한다(함수지향적코드등 적용 필요)
- 입력, 출력에 대한 명확한 정의
  - 입력 : 키워드
  - 출력 : json 모듈을 활용해서 필요한 부분만 추출 => items 이하만 사용 => 구조이해

In [7]:
# 리눅스 명령으로 직접 요청 시도
# !curl "주소" 
!curl "https://openapi.naver.com/v1/search/news.json?query=%EC%97%B0%EB%A7%90%EC%97%B0%EC%8B%9C" \
  -H "X-Naver-Client-Id: hGlPB6Huk36yzxu6O2gM" \
  -H "X-Naver-Client-Secret: 6FNqlETwhB" -v

# 데이터 추출형태 : res[ "items" ] => [ {},{},{},..... ]

*   Trying 110.93.147.11...
* TCP_NODELAY set
* Connected to openapi.naver.com (110.93.147.11) port 443 (#0)
* ALPN, offering h2
* ALPN, offering http/1.1
* successfully set certificate verify locations:
*   CAfile: /etc/ssl/certs/ca-certificates.crt
  CApath: /etc/ssl/certs
* TLSv1.3 (OUT), TLS handshake, Client hello (1):
* TLSv1.3 (IN), TLS handshake, Server hello (2):
* TLSv1.2 (IN), TLS handshake, Certificate (11):
* TLSv1.2 (IN), TLS handshake, Server key exchange (12):
* TLSv1.2 (IN), TLS handshake, Server finished (14):
* TLSv1.2 (OUT), TLS handshake, Client key exchange (16):
* TLSv1.2 (OUT), TLS change cipher, Client hello (1):
* TLSv1.2 (OUT), TLS handshake, Finished (20):
* TLSv1.2 (IN), TLS handshake, Finished (20):
* SSL connection using TLSv1.2 / ECDHE-RSA-AES128-GCM-SHA256
* ALPN, server accepted to use h2
* Server certificate:
*  subject: C=KR; ST=Gyeonggi-do; L=Seongnam-si; O=NAVER Corp.; CN=*.openapi.naver.com
*  start date: Dec  6 00:00:00 2022 GMT
*  expire date: D

### 함수화 처리

- 입력
  - 키워드
- 연산
  - 네이버 API를 이용하여 뉴스 검색
- 출력
  - 뉴스 목록, 자료구조는 리스트내에 맴버로 딕셔너리형태
- 함수명
  - get_search_news

In [8]:
import os
import sys
import urllib.request
# 서버에서 응답온 데이터는 json 포멧=>받아서=>파이썬타입으로변환처리=>리스트/딕셔너리구조로 표현
import json 

CLIENT_ID             = "hGlPB6Huk36yzxu6O2gM"
CLIENT_SECRET         = "6FNqlETwhB"
NAVER_NEWS_QUERY_URL  = 'openapi.naver.com/v1/search/news.json'

def get_search_news(keyword:str, dp_cnt=20, sort='date') -> list:
  '''
    검색어를 넣어서 네이버 뉴스를 수집해서 가져온다
    검색할때 20개 가져오고, 최신순으로 가져온다 => 단 변경가능하다(외부조정가능)
      Args
        keyword `str` : 검색어
        ...
      Returns
        ...
  '''
  # 키워드 인자값을 인코딩 변환에 삽입
  encText = urllib.parse.quote(keyword)
  # 파라미터 구성 : 키=값&키=값&키=값 <- http에서 GET 방식으로 데이터 전송시 포멧
  PARAM   = f'display={dp_cnt}&sort={sort}&query={encText}' # 구조가 보인다
  url     = f"https://{NAVER_NEWS_QUERY_URL}?{PARAM}" # https 프로토콜 구조

  request = urllib.request.Request(url)  
  request.add_header("X-Naver-Client-Id", CLIENT_ID)
  request.add_header("X-Naver-Client-Secret", CLIENT_SECRET)  
  response = urllib.request.urlopen(request)
  rescode = response.getcode()  
  if(rescode==200): 
    tmp = json.load( response )
    #print( tmp['items'] )
    return tmp.get('items')
  else:
    # 단 통신 오류등의 문제라면 로그 처리
    return []
  
  pass

if __name__ == '__main__':
  tmp = get_search_news( '2023', dp_cnt=5 )
  print( tmp )

[{'title': '크립토닷컴, 코리안NFT와 국내 유명 아티스트 NFT 독점 발행', 'originallink': 'https://www.khgames.co.kr/news/articleView.html?idxno=207363', 'link': 'https://www.khgames.co.kr/news/articleView.html?idxno=207363', 'description': '또한, 코리안NFT와 인천광역시가 <b>2023</b>년 국립세계문자박물관 개관에 맞춰 개최한 &apos;2022 세계문자 디자인 공모전&apos;의 초청작 및 수상작이 NFT로 출시된다. 패트릭 윤 크립토닷컴 코리아 사장은 &quot;코리안NFT와의 협업을... ', 'pubDate': 'Tue, 27 Dec 2022 08:54:00 +0900'}, {'title': '[CES<b>2023</b>] SK하이닉스 &quot;PS1010 등 고효율·고성능 메모리 공개&quot;', 'originallink': 'https://www.dailian.co.kr/news/view/1187178/?sc=Naver', 'link': 'https://n.news.naver.com/mnews/article/119/0002670353?sid=101', 'description': 'SK하이닉스는 미국 라스베이거스에서 열리는 세계 최대 전자∙IT 전시회 ‘CES <b>2023</b>’에서 주력 메모리 제품과 신규 라인업을 대거 선보인다고 27일 밝혔다. SK하이닉스는 “이번 CES에서 당사는 ‘탄소 없는... ', 'pubDate': 'Tue, 27 Dec 2022 08:54:00 +0900'}, {'title': '라이브커넥트, 올해 온라인 공연 25% 증가', 'originallink': 'https://www.cstimes.com/news/articleView.html?idxno=524871', 'link': 'https://www.cstimes.com/news/articleView.html

In [20]:
type(tmp), len(tmp), type(tmp[0]), tmp[0]['title']

(list, 5, dict, '크립토닷컴, 코리안NFT와 국내 유명 아티스트 NFT 독점 발행')

In [38]:
# 텍스트에서 정규식 없이 잡음(불필요한 데이터, 가비지) 제거
pattern = [ ('<b>',''), ('</b>',''), ('&quot;','"'), ('&apos;',"'"), ('&amp;', '&') ]

def clean_str_ex( ori_txt, pattern ):

  while pattern:
    old_str, new_str = pattern.pop() # 뒤에서 하나씩 제거하여 리턴
    #print( old_str, new_str )
    ori_txt = ori_txt.replace( old_str, new_str )

  return ori_txt

clean_str_ex( '양평군, <b>2023</b>년', pattern[:] )

'양평군, 2023년'

In [39]:
# &xxx; => html에서 사전 정의한 엔티티문자 & => &amp;  공백 => &nbsp;, ...

# 제목만 추출해서, 리스트에 담으시오
# pattern의 사본을 넣어서 처리
[ clean_str_ex( n.get('title'), pattern[:] )
  for n in tmp ]

['크립토닷컴, 코리안NFT와 국내 유명 아티스트 NFT 독점 발행',
 '[CES2023] SK하이닉스 "PS1010 등 고효율·고성능 메모리 공개"',
 '라이브커넥트, 올해 온라인 공연 25% 증가',
 '현대차證 “F&F, 단기 실적 부진하겠지만 중장기 관점 저점 매수 접근 유효”',
 "CGV, 뮤지컬 기획전 연다…내달부터 '시네마 스테이지'"]

In [9]:
# <b> 제거 => 정규식 없이 처리
# 함수화 하기 => 입력 [ '<b>', '</b>' ], 원본문자열 => 출력 => 클린한 문자열
'양평군, <b>2023</b>년'.replace('<b>','').replace('</b>','')

def clean_str( rm_strs, ori_str ):
  # 제거 문자열이 늘어나도 자동대응되게 구성
  # 리뷰 시간에 실습 
  #print('rm_strs =>', rm_strs, type(rm_strs))
  for rm_str in rm_strs:
    ##print( rm_str, ori_str.replace( rm_str, '') )
    # 문자열은 수정이 않되므로 -> 조작 -> 다시 대입해야 원본이 변경된것처럼보인다
    # 중간에 작업한 문자열이 가비지로 남는 문제는 있다
    ori_str = ori_str.replace( rm_str, '')
  return ori_str

clean_str( [ '<b>', '</b>', '&apos;' ],  '양평군, <b>2023</b>년' )

'양평군, 2023년'

In [41]:
# 데이터들 중에서 제목, 설명, pubDate까지 추출하시오
# 필요한 데이터만 추출해서, 이름변경등 활동이 있다면 유용
newDatas = [ {   'tit': clean_str_ex( n.get('title'),  pattern.copy() ) , 
     'desc': clean_str_ex( n['description'],  pattern[:] )   ,
     'date': clean_str_ex( n.get('pubDate'),  pattern[:] )   , 
  } for n in tmp ]

# (공통) 데이터 적제 처리

- 적제
  - 데이터를 읽어서 메모리에 로드(분석관점)
  - **데이터를 수집에서 파일/디비에 저장(수집관점)**
    - [ {}, {}, .... ]
      - DataFrame 형태로 변환
        - DB 테이블에 insert 처리

In [11]:
# 리스트 딕셔너리 형태의 데이터를 DataFrame으로 변환 (과도기적 형태)
import pandas as pd

In [42]:
df = pd.DataFrame.from_dict( newDatas )
df.head(2)

Unnamed: 0,tit,desc,date
0,"크립토닷컴, 코리안NFT와 국내 유명 아티스트 NFT 독점 발행","또한, 코리안NFT와 인천광역시가 2023년 국립세계문자박물관 개관에 맞춰 개최한 ...","Tue, 27 Dec 2022 08:54:00 +0900"
1,"[CES2023] SK하이닉스 ""PS1010 등 고효율·고성능 메모리 공개""",SK하이닉스는 미국 라스베이거스에서 열리는 세계 최대 전자∙IT 전시회 ‘CES 2...,"Tue, 27 Dec 2022 08:54:00 +0900"


### RDBMS에 저장

- 관계형 데이터베이스에 저장
  - 데이터를 정형 데이터로 저장하겠다
- 종류
  - mariadb ( mysql 계열 )
- 절차
  - 디비설치, 드라이버(파이썬모듈)설치, 저장처리

In [43]:
# 파이썬에서 mysql 계열에 접근하기 위한 모듈 설치
# pip install 모듈명
!pip install pymysql

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [14]:
# 필요한 모듈 가져오기
# 파이썬 <-> mysql 계열 데이터베이스
import pymysql
# 고급 디비관련 모듈
# sqlalchemy + pymysql 브릿지하여 데이터베이스 연결
from sqlalchemy import create_engine
# pandas에서 데이터베이스로 데이터를 전송하는 모듈 
import pandas.io.sql as pSql

In [45]:
# 접속정보
ip = '127.0.0.1' # or 'localhost'
id = 'root'      # 사용자 계정
pw = '12341234'  # 계정 비밀번호
port = 3306      # 포트는 1 ~ 65525 번 (2^31 - 1)
dbname = 'new_data_db' # 접속하고자 하는 데이터베이스명
# 데이터베이스 하위에는 n개의 테이블이 존재할수 있다
# 테이블은 고객 테이블, 상품 테이블, 접속 테이블, ...
table = 'tbl_news'     # 뉴스를 저장하는 테이블명
protocal = 'mysql+pymysql'  # 통신규약, 상호간 통신하는 규칙을 정한것

In [46]:
# 접속 URL 구성
# 프로토콜명://아이디:비밀번호@주소:포트/데이터베이스?파라미터들...
db_url = f'{protocal}://{id}:{pw}@{ip}:{port}/{dbname}'
db_url

'mysql+pymysql://root:12341234@127.0.0.1:3306/new_data_db'

In [14]:
# 엔진 생성
engine = create_engine( db_url, encoding='utf8' )

In [14]:
# 실제 연결
conn = engine.connect()

In [None]:
# 데이터 입력( 파이썬 -> 데이터베이스로 수집한 데이터를 밀어 넣는다 )
# 데이터를 보고 알아서 테이블 만들어서 알아서 삽입한다
# 데이터 => json 형식 text(반정형 데이터) => 리스트(딕서녀리 맴버로존재) 
# => DataFrame변환 => 데이터베이스의 특정 테이블에 삽입 => 정형 데이터
# if_exists : 기존 테이블에 데이터가 존재하면 > 계속 추가한다
# index : DF를 만드는 과정에 생긴 값으로 원래 데이터 아님 => 추가 않한다
df.to_sql( name=table, con=conn, if_exists='append', index=False)

In [None]:
# 연결 닫기
conn.close()

# (공통)자동화

- 준비사항
  - 가상환경 
    - 파이썬이 단독으로 실행될때 환경의 영향을 받지 않는 환경 -> (base) 활용
  - 해당 가상환경의 python.exe or pythonw.exe 의 절대경로
    - C:\Users\USER\anaconda3\pythonw.exe
  - 파이썬 실행 파일 위치
    - C:\Users\USER\Desktop\Py_Projects\data_research
  - 파이썬 파일
    - news_search.py
- 세팅
  - 윈도우
    - 작업 스케줄러
      - 세부 내용은 같이 진행
        - 일반 
          - 제목, 내용
        - 트리거
          - 이벤트 발생 시간 , 주기 지정
        - 동작
          - 실행 명령(파이썬, 실행파일, 경로)
  - 리눅스