# 다양한 데이터 불러오기 방법

<br>


## 1. DB connection과 SQL 쿼리 실행(시연, 참고) 

일반적으로 **Database**를 활용할 때 SQL Client에 접속해서 **SQL query**를 실행합니다. 보안상 이슈가 있지만, Python에서 DB에 직접 연결한 다음 SQL query를 실행할 수 있습니다. **pandas**의 *read_sql()*를 활용하면 결과물을 바로 DataFrame 형식으로 받아와 활용할 수 있습니다.

In [None]:
# 라이브러리 설치
!pip install PyMySQL

In [None]:
# connection 생성
    ## 강사 집에 임시로 만든 데이터베이스에 접속
import pandas as pd
import pymysql

conn = pymysql.connect(
    host="dataart.asuscomm.com",
    port = 3306, 
    user="test1",
    passwd="1234"
)

In [None]:
query = "SELECT * FROM sales.customers"
pd.read_sql(query, conn)

<br>

## 2. API의 활용 및 json의 활용(시연, 참고)

API로 데이터를 받아올 수도 있습니다. API는 정해진 약속에 따라 데이터를 요청하는 방법으로 결과 데이터는 json 등의 형식으로 들어옵니다. json 형식은 적절한 방법으로 DataFrame 형식으로 바꿔 활용할 수 있습니다.  

기상청 API를 활용해서 **서초동**의 날씨 예보를 데이터로 가져와 보겠습니다.
 * 참고: [기상청 API](https://www.data.go.kr/tcs/dss/selectApiDataDetailView.do?publicDataPk=15084084)

In [None]:
# 기준 날짜, 기준 시간 설정
from datetime import datetime, timedelta
time1 = datetime.now()
bs_date = time1.strftime('%Y%m%d')
time2 = time1 - timedelta(minutes=12)
bs_time = ['0800', '1100', '1400', '1700'][(time2.hour>=11) + (time2.hour>=14) + (time2.hour>=17)]
bs_date, bs_time

In [None]:
# 기상청 
import requests

url = 'http://apis.data.go.kr/1360000/VilageFcstInfoService_2.0/getVilageFcst'
params ={'serviceKey':'1HcH5lG+R0QgBAxXB3jcBBOkcUbN61xgza6VbyQruMEVrTmgX1JQ9LsIeUFBHLG0/12ZmN5uKAfhPDMPjk+gaQ==', 
         'numOfRows':'1000', 
         'dataType':'JSON', # XML도 활용 가능
         'base_date':bs_date, 
         'base_time':bs_time, 
         'nx':'61', 
         'ny':'125'} 

response = requests.get(url, params=params)
print(response.content)

In [None]:
import json
json.loads(response.content)

In [None]:
# key 활용 부분 선택 
json.loads(response.content)['response']['body']['items']['item']

In [None]:
pd.DataFrame(json.loads(response.content)['response']['body']['items']['item'])

<br>

## 3.  BeautifulSoup을 활용한 웹스크랩/웹크롤링


*BeautifulSoup*은 네이버 뉴스처럼 별도의 로그인 절차 등이 없는 열린 페이지를 스크랩할 때 주로 활용합니다.  
<br> 



In [None]:
# 라이브러리 설치
!pip install beautifulsoup4 lxml

In [None]:
# 라이브러리 불러오기
from bs4 import BeautifulSoup
from urllib.request import urlopen


<br> 


## 3.1. 네이버 뉴스 스크랩 예제

네이버 등 포털사이트의 검색 결과 등을 간단히 스크랩 할 수 있습니다. 

In [None]:
# 네이버 검색 후 URL 복사, 붙여넣기
url1 = 'https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90'
page1 = urlopen(url1)
soup1 = BeautifulSoup(page1, 'html.parser')


In [None]:
soup1

In [None]:
# 클래스를 활용한 선택 
title_list = soup1.find_all(class_='news_tit')
title_list

In [None]:
# 첫번째만 선택 후 구조 확인
title_list[0]

In [None]:
# .attrs를 활용한 어트리뷰트 확인
title_list[0].attrs

In [None]:
# 어트리뷰트를 활용한 선택
title_list[0]['href']

In [None]:
title_list[0]['title']

In [None]:
# for를 활용한 전체 기사의 제목만  리스트 형식으로 추출
# [x.get_text() for x in title_list]
[x['title'] for x in title_list]

<br>

for문을 활용해서 페이지를 바꿔가며 제목을 추가하는 것도 가능합니다.

In [None]:
# 잠시멈춤을 위한 sleep 불러오기
from time import sleep

In [None]:
# 빈 리스트 만들기
newstitle = list()

In [None]:
# 웹사이트의 특성을 활용한 url 지정 후 스크랩
for i in range(0, 5):
    stt_value = str(1 + i*10)
    url_ = 'https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90&start=' + stt_value
    page_ = urlopen(url_)
    soup_ = BeautifulSoup(page_, 'html.parser')
    title_list_ = soup_.find_all(class_='news_tit')
    
    newstitle.extend([x['title'] for x in title_list_])
    print('{}번째 페이지 스크랩 완료'.format(i+1))
    sleep(3) ## 3초 멈춤

In [None]:
newstitle

In [None]:
pd.DataFrame({'title':newstitle})

#### [참고] 하나의 파일로 저장 후 활용 

In [None]:
from bs4 import BeautifulSoup
from urllib.request import urlopen
import pandas as pd
import time
from datetime import datetime 

url1 = 'https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90'
page1 = urlopen(url1)
soup1 = BeautifulSoup(page1, 'html.parser')

# 클래스를 활용한 선택 
title_list = soup1.find_all(class_='news_tit')
df_temp = pd.DataFrame({'title':[x['title'] for x in title_list]})

filename1 = datetime.now().strftime("title_%Y%m%d-%H%M%S.txt")
df_temp.to_csv(filename1)

In [None]:
# EXE 만들기
# auto-py-to-exe


#### [참고] Selenium의 활용

[python selenium](https://www.google.com/search?q=python+selenium)
