<a href="https://colab.research.google.com/github/spaceofsilver/crawling/blob/main/1_%EB%8D%B0%EC%9D%B4%ED%84%B0_%ED%9A%8D%EB%93%9D_lv2_openAPI.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 개요

- 데이터 수집을 해서 혼자 사용하면 (비공개, 비상업적) 문제가 없다.
- 수집한 내용을 (공공데이터를 제외하고는) 공개/상업적 이용은 문제의 소지가 있음


- 데이터 수집(수~금)
    - 데이터 사이언스 과정
        - 1. **요구사항 분석**
        - 2. **데이터 수집** <- (수~금) : 난이도에 따라 4가지 분류
          - level 1 : 데이터를 제공 받는 케이스
            - 공공데이터, 공모전 데이터(활용x), 연구기관/교육기관 제공
            - 사내 데이터(회사 내부 데이터) 
            -------------- 이하는 웹에서 ------------------
          - level 2 : open API존재하는 케이스 
            - 인증키를 통해 하루에 적정량의 데이터를 질의하여 활용할 수 있는 경우
            - 데이터는 통상적으로 json or xml로 제공해준다. -> 반정형 데이터(데이터 구조에 에 구조가 포함되어 있다)
            - 공개되어 있찌 않지만, 웹을 분석하고 http로 통신되는 부분을 체킹하여 수집할수도 있다ㅏ.( 합적적인지 파악)
            - wireshark(프로그램) <- 서비스 구축하는 곳에서 https + 암호화
          - level 3 : 해당 웹페이지에서 바로 데이터를 수집할 수 있다면 ?
            - Web Scrapping(웹 스크레핑)
            - request모듈, beautifulsoup(bs4) 
            - 비정형 데이터( 날것의 데이터, 구조가 스키마가 없다)
          - level 4 : 해당 웹페이지가 사용자와 인터렉션을 통해서(반응해서) 데이터가 노출된 경우
            - 더보기, 스크롤, 로그인, 검색, .... => ajax를 사용한 사이트
            - selenium(셀리니움) 모듈 + 웹드라이버(브라우저 회사별로 제공해줌)
            - 매크로( 이 기술을 좋지 못한 목적으로 사용하는 자동화 프로그램)
            - 고급기술 : proxy를 중계하여 작업을 요청한 클라이언트를 숨기는 기술
          + 자동화(lv4가 끝나면)
              - os(운영체계) 레벨에서 자동으로 데이터를 수집하게 하는 활동을 작성/운용
              - level 3/level 4 같은 경우는 단시간에 빠른 접속을 지속적으로 시도하면 디도스로 간주될 가능성 존재(주의) => 시간 조절
              - or 고급방법(접속한 유저의 ip를 우회하여(플락시 서버) 처리 )

  - 3. 데이터 준비/전처리/적제
    - 전처리, 정제, 적제
    - 이상치, 결측치 처리
  - 4. 데이터 분석
    - EDA
    - 인과분석
    - 시각적 분석
  - 5. 모델구축(모형)
    - 통계모델
    - 머신러닝 모델
    - 딥러닝 모델

  - 6. 시스템 구축/서비스 구성/레포트 => 산출물

# 데이터 수집/획득 - level 2

## 사용 기술
- open API필요
  - 관련 사이트
    - dev.naver.com / dev.kakao.com
  - Client_ID (관리)     
    - DJf51o95uszG0ouywcqf
  - Client_Secret(관리)
    - ZaTvMslcQP
  - API 문서 
   - https://developers.naver.com/docs/search/news/
  - 검색 URL(응답 데이터 json )
   - https://openapi.naver.com/v1/search/news.json 

  - 예시


```
curl "https://openapi.naver.com/v1/search/news.xml?query=%EC%A3%BC%EC%8B%9D&display=10&start=1&sort=sim" \
    -H "X-Naver-Client-Id: {애플리케이션 등록 시 발급받은 client id 값}" \
    -H "X-Naver-Client-Secret: {애플리케이션 등록 시 발급받은 client secret 값}" -v
```


- request모듈 필요 -> 통신 수행(프로토콜 -> http기반으로 통신:GET,POST방식)
  - 우리는 GET 방식을 주로 사용
  - 개인별 인증키는 헤더에 숨겨서 전송하는 방식을 취한다

## 구현

In [None]:
# 1. 필요한 모듈 가져오기
import urllib.request 
import os
import sys

In [None]:
# 2. 환경변수 : 통신에 필요한 키를 정의
Client_ID     = 'DJf51o95uszG0ouywcqf'
Client_Secret = 'ZaTvMslcQP'

In [None]:
# 3.URL 정의
naver_news_url = 'https://openapi.naver.com/v1/search/news.json'
naver_news_url

'https://openapi.naver.com/v1/search/news.json'

In [None]:
# 4. 파라미터 정의
# (! 중요 ) 한글이 검색어인 경우 utf-8 인코딩 처리를 해야한다.
# 한글 -> %EA%AA%EF... 이런 형식으로 전송이 되어야 함.

# 검색어 처리( 한글 안 깨지게끔 인코딩 처리)
keyword = urllib.parse.quote('코로나')
keyword

# 파라미터 정의
param   = 'query=' + keyword
param

'query=%EC%BD%94%EB%A1%9C%EB%82%98'

In [None]:
# 5. 최종 GET방식으로 요청하는 url만들기
req_url = f'{naver_news_url}?{param}'
req_url

'https://openapi.naver.com/v1/search/news.json?query=%EC%BD%94%EB%A1%9C%EB%82%98'

In [None]:
# 6. 통신객체 생성
# from urllib.request import Request와 같은 의미
request = urllib.request.Request( req_url )

In [None]:
# 7. 클라이언트 키, 보안 키를 헤더에 등록
'''
  curl "https://openapi.naver.com/v1/search/news.xml?query=%EC%A3%BC%EC%8B%9D&display=10&start=1&sort=sim" \
      -H "X-Naver-Client-Id: {애플리케이션 등록 시 발급받은 client id 값}" \
      -H "X-Naver-Client-Secret: {애플리케이션 등록 시 발급받은 client secret 값}" -v
'''
request.add_header( 'X-Naver-Client-Id',     Client_ID     )
request.add_header( 'X-Naver-Client-Secret', Client_Secret )

In [None]:
# 8. 통신
response = urllib.request.urlopen( request )

In [None]:
# 9. 응답코드 확인 -> 200: http로 통신하고 나서 오든 응답코드 중 정상을 의미
# 404: 해당 페이지가 없다.
# 405: 해당 권한이 없다.
# 500: 서버 내부 에러 
# 401: 권한 오류, 인증오류( ex. 인증키 없을 때 )
response.getcode()

200

In [None]:
# 10. 응답 데이터를 json 객체로 로드하겠다 -> 딕셔너리, 리스트 조합으로 구성
import json
if response.getcode() == 200:
  res =  json.load( response ) 
else:
  print('error', response.getcode())

In [None]:
# 11. 파싱
# Q. 응답된 데이터에서 dexcription 항목을 모두 출력
res # 딕셔너리 형태

{'display': 10,
 'items': [{'description': '화이자 <b>코로나</b>19 백신 관련 소식이 계속 이어지고 있다. 따라서 투자자들의 화이자 관련주에 대한 관심도 높게 나타나고 있다. 캐나다 정부가 9일(현지시간) 세계에서 세 번째로 미국 제약사 화이자의 <b>코로나</b>19 백신을... ',
   'link': 'http://kpenews.com/View.aspx?No=1375412',
   'originallink': 'http://kpenews.com/View.aspx?No=1375412',
   'pubDate': 'Thu, 10 Dec 2020 09:25:00 +0900',
   'title': '화이자 관련주 변동 눈길, <b>코로나</b> 백신 소식 계속 &quot;캐나다도 접종 시작한다&quot;'},
  {'description': '이해근 신명아이마루 원장은 “<b>코로나</b>19로 인해 바깥출입이 제한되고 원내에서만 생활하면서 자원봉사자 및 후원자의 손길이 뜸해져 다가오는 크리스마스와 연말연시를 맞아 더욱더 소외감을 느끼고 있을 우리... ',
   'link': 'http://www.beyondpost.co.kr/view.php?ud=20201210092128865246a9e4dd7f_30',
   'originallink': 'http://www.beyondpost.co.kr/view.php?ud=20201210092128865246a9e4dd7f_30',
   'pubDate': 'Thu, 10 Dec 2020 09:25:00 +0900',
   'title': '손오공, 아동양육시설 신명아이마루에 완구 기부'},
  {'description': '이날 성금 전달식에 참석한 김정태 하나금융그룹 회장은 “<b>코로나</b>19의 장기화로 경제적 충격을 동반한... <b>코로나</b>19로 인해 도움의 손길이 필요한 곳은 늘어난 반면 기업들의 기부 참여는 줄어들고 있는 상황에서... ',
   'link

## json 형태 파악하기

- http://json.parser.online.fr/

In [None]:
len( res['items'] )

10

In [None]:
res2 = res['items']
for news in res2:
    print( news['title'] )
    print( news['description'].replace('<b>','').replace('</b>','') )
    # 문자열 정규표현식 없이 텍스트 정제
    print(' ')
    # 데이터를 좀더 가공해서 데이터베이스에 적재 <- 전처리(정규식, 기타)

화이자 관련주 변동 눈길, <b>코로나</b> 백신 소식 계속 &quot;캐나다도 접종 시작한다&quot;
화이자 코로나19 백신 관련 소식이 계속 이어지고 있다. 따라서 투자자들의 화이자 관련주에 대한 관심도 높게 나타나고 있다. 캐나다 정부가 9일(현지시간) 세계에서 세 번째로 미국 제약사 화이자의 코로나19 백신을... 
 
손오공, 아동양육시설 신명아이마루에 완구 기부
이해근 신명아이마루 원장은 “코로나19로 인해 바깥출입이 제한되고 원내에서만 생활하면서 자원봉사자 및 후원자의 손길이 뜸해져 다가오는 크리스마스와 연말연시를 맞아 더욱더 소외감을 느끼고 있을 우리... 
 
하나금융, 연말 이웃돕기 성금 100억원 전달
이날 성금 전달식에 참석한 김정태 하나금융그룹 회장은 “코로나19의 장기화로 경제적 충격을 동반한... 코로나19로 인해 도움의 손길이 필요한 곳은 늘어난 반면 기업들의 기부 참여는 줄어들고 있는 상황에서... 
 
옥천군, ‘희망 2021 나눔 캠페인’ 비대면 모금 전개
올해는 코로나19 확산 예방을 위해 현장 성금 접수를 하지 않고 비대면 모금으로 대신한다. 군은 9일을 ‘옥천군 나눔 참여의 날’로 지정하고, 군청 중앙 현관에서... 
 
포스코에너지, '지속가능경영유공 정부포상'서 장관상 수상
정기섭 포스코에너지 사장은 &quot;올해 코로나19 영향으로 어려움이 많았음에도 불구하고 기업시민 경영이념 실천과 확산에 노력해준 임직원들에게 감사하다&quot;며 &quot;지속가능경영은 선택이 아닌 필수인 만큼 앞으로도... 
 
완도군, 2021 청정완도 해맞이 행사 전면 취소
전남 완도군은 코로나19 확산 방지를 위해 2021 청정완도 해맞이 행사를 전면... 군은 코로나19 대유행으로 인한 지역 내 확산을 방지하고자 취소하기로 결정했다. 특히... 
 
롯데제과 오트밀 '퀘이커', 올해 100억 원 판매액 돌파
여기에 코로나19 여파로 올해 이커머스 채널을 통한 퀘이커 판매가 급증해 올해 1~11월 온라인 판매가 전년 대비 4배가량 

## 데이터 적재

- 파일( 반정형 형태로 )
  - 반정형은 파일 자체에 구조가 잡혀있음
  - csv, xls(x)
  - json
- 데이터 베이스
  - 스키마가 외부에 존재
  - RDBMS
    - 기업형 데이터베이스(ex 오라클, mysql)
    - 현재 작업 기준에서는 코랩에서 작동시 **고정 IP나 도메인**을 가진 데이터베이스를 활용하여 저장해야함
    - AWS 사용할거다.
  - NoSQL
    - 몽고DB -> 로그 저장. 구조는 딕셔너리로 생각하면 편하다.

- 절차
  - 데이터 구조: [ { },{ },{ } ] 준비
  - pandas를 이용하여 dataFrame을 생성
  - pymysql + sqlalchemy 이용하여 접속
  - 데이터를 DB에 적재
  - 연결종료

In [None]:
# 1. 수집한 데이터를 데이터프레임으로 일단 변형
import pandas as pd

In [None]:
df = pd.DataFrame.from_dict( res['items'] )
df.head(3)

Unnamed: 0,title,originallink,link,description,pubDate
0,"화이자 관련주 변동 눈길, <b>코로나</b> 백신 소식 계속 &quot;캐나다도 ...",http://kpenews.com/View.aspx?No=1375412,http://kpenews.com/View.aspx?No=1375412,화이자 <b>코로나</b>19 백신 관련 소식이 계속 이어지고 있다. 따라서 투자자...,"Thu, 10 Dec 2020 09:25:00 +0900"
1,"손오공, 아동양육시설 신명아이마루에 완구 기부",http://www.beyondpost.co.kr/view.php?ud=202012...,http://www.beyondpost.co.kr/view.php?ud=202012...,이해근 신명아이마루 원장은 “<b>코로나</b>19로 인해 바깥출입이 제한되고 원내...,"Thu, 10 Dec 2020 09:25:00 +0900"
2,"하나금융, 연말 이웃돕기 성금 100억원 전달",http://www.edaily.co.kr/news/newspath.asp?news...,https://news.naver.com/main/read.nhn?mode=LSD&...,이날 성금 전달식에 참석한 김정태 하나금융그룹 회장은 “<b>코로나</b>19의 장...,"Thu, 10 Dec 2020 09:25:00 +0900"


In [None]:
# 적재-1. 데이터베이스 연결에 필요한 모듈 가져오기
# ! pip install pymysql

Collecting pymysql
[?25l  Downloading https://files.pythonhosted.org/packages/1a/ea/dd9c81e2d85efd03cfbf808736dd055bd9ea1a78aea9968888b1055c3263/PyMySQL-0.10.1-py2.py3-none-any.whl (47kB)
[K     |██████▉                         | 10kB 15.9MB/s eta 0:00:01[K     |█████████████▊                  | 20kB 20.8MB/s eta 0:00:01[K     |████████████████████▌           | 30kB 13.5MB/s eta 0:00:01[K     |███████████████████████████▍    | 40kB 8.2MB/s eta 0:00:01[K     |████████████████████████████████| 51kB 3.6MB/s 
[?25hInstalling collected packages: pymysql
Successfully installed pymysql-0.10.1


In [None]:
import pymysql
from sqlalchemy import create_engine
import pandas.io.sql as pSql

In [None]:
# 적재-2. 데이터베이스 연결문자열 준비

id        = 'root'
pw        = '12341234'
domain    = 'database-1.cpgj48ezgdbl.ap-northeast-2.rds.amazonaws.com'
port      =  3306
database  = 'python_db'

In [None]:
db_url = f'mysql+pymysql://{id}:{pw}@{domain}:{port}/{database}'
db_url

'mysql+pymysql://root:12341234@database-1.cpgj48ezgdbl.ap-northeast-2.rds.amazonaws.com:3306/python_db'

In [None]:
# 적재-3. 데이터베이스 연결

In [None]:
engine = create_engine( db_url, encoding='utf8' )

In [None]:
conn = engine.connect()

In [None]:
# 적재-4. 데이터 입력

In [None]:
df.to_sql( name='tbl_news', con=conn, if_exists='append', index=False )
# name은 테이블 이름이다.

In [None]:
# 적재-5. 데이터베이스 닫기

In [None]:
conn.close()

## 단일 모듈로 덤프

- xxx.py로 저장한다는 의미
- 필요 없는 코드는 삭제
- 동적으로 외부에서 입력되는 데이터가 있다면 (키워드, 검색어), 이에 맞게 수정
- 자동화로 수집활동을 수행할 경우, 해당 os단에서 정상적으로 구동될 수 있게 환경변수에서 path, python의 절대경로 등을 잘 조절하여 구동시킨다. 

## 자동화
- OS 레벨에서 정해진 스케쥴에 의해 자동으로 수집하게끔 구성
- 윈도우 > 작업스케쥴러
- 리눅스 > cronetab cron 명령어를 통해 가능
  - * * * * * * 수행할 명령어( shell  파일을 작성 -> *.sh <-> MS *.sat)