# api 크롤링

기존의 크롤링 방식은

1. 내가 직접 홈페이지에 브라우저를 켜서 접근하거나 (selenium)

혹은

2. 파이썬 자체적으로 호출을 요청해서 (requests)

데이터를 가지고 오는 방식이었습니다

이 방식은 서버에 부하가 많이 갈 뿐더러 나에게 필요없는 데이터까지 한 번에 호출해서 가져오는 문제가 있습니다

따라서 서비스 제공자측에서는 서버 부하를 줄이고, 사용자에게 맞춤형 데이터를 제공하기 위해 api서버를 운영합니다

api서버는 인가된 데이터만을 개발자에게 넘겨서 서버도 안정적으로 유지하며(횟수 제한이 있는 사이트도 있습니다)
(라이엇 데이터는 1초에 5회, 2분에 100회로 제한됩니다)
필요없는 동영상자료나 그림자료를 호출하지 않으므로 트래픽을 줄일 수 있습니다


api 서버 접근시 보통 urllib.request를 이용하게 됩니다

In [1]:
# 사이트에 자료 요청
import urllib.request
# json 데이터 핸들링
import json
# DataFrame 자료형 활용
import pandas as pd
# json 데이터를 pandasDataFrame 변환
from pandas.io.json import json_normalize

# 영진위 api신청

http://www.kobis.or.kr/kobisopenapi/homepg/main/main.do

1. 접속 후 가입 및 로그인

2. 키발급 텝에서 키 발급하기

3. 요청 api종류 보고 요청양식 및 데이터 확인하기

In [2]:
api_key = "cb38ebad17f6f72f4ea682c05a8bc8df"
request_data = "20220622"
url = "https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=%s&targetDt=%s" % (api_key, request_data)
print(url)

https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220622


# json 데이터를 팬더스 데이터프레임으로 변환
- api데이터는 보통 json(JavaScript Object Notation) 타입으로 받아집니다
- 쉽게 말하면 자바스크립트 데이터를 전달하기 좋게 설정한 자료형인데
- 파이썬의 딕셔너리와 거의 같다고 보시면 됩니다
- 따라서 json 데이터를 팬더스 데이터로 변환한다는 것은 사실상
- 딕셔너리 데이터를 팬더스 데이터프레임으로 변환하는것입니다.

In [3]:
# 위의 url 변수를 이용해 데이터를 요청합니다
r = urllib.request.urlopen(url)

# 요청 페이지의 결과 데이터를 파이썬 내부 데이터로 바꿉니다
json_raw = r.read()

In [4]:
# b'~~~~~~~~~~'로 시작하는 이 데이터는 파이썬으로 byte자료형으로 처리되고
# 데이터프레임으로는 바로 변환이 불가능합니다
json_utf8 = json_raw.decode("utf-8")

In [5]:
json_utf8

'{"boxOfficeResult":{"boxofficeType":"일별 박스오피스","showRange":"20220622~20220622","dailyBoxOfficeList":[{"rnum":"1","rank":"1","rankInten":"0","rankOldAndNew":"NEW","movieCd":"20194376","movieNm":"탑건: 매버릭","openDt":"2022-06-22","salesAmt":"1976049530","salesShare":"54.3","salesInten":"1976049530","salesChange":"100","salesAcc":"2716938360","audiCnt":"188312","audiInten":"188312","audiChange":"100","audiAcc":"253016","scrnCnt":"1975","showCnt":"9158"},{"rnum":"2","rank":"2","rankInten":"-1","rankOldAndNew":"OLD","movieCd":"20224882","movieNm":"마녀(魔女) Part2. The Other One","openDt":"2022-06-15","salesAmt":"836476290","salesShare":"23.0","salesInten":"-253649090","salesChange":"-23.3","salesAcc":"18226409650","audiCnt":"82691","audiInten":"-25491","audiChange":"-23.6","audiAcc":"1769461","scrnCnt":"976","showCnt":"3502"},{"rnum":"3","rank":"3","rankInten":"-1","rankOldAndNew":"OLD","movieCd":"20204548","movieNm":"범죄도시 2","openDt":"2022-05-18","salesAmt":"577713370","salesShare":"15.9","sale

In [6]:
# json.loads(딕셔너리 형태의 문자열 자료)
# 딕셔너리 형태로 적힌 문자열 자료를 딕셔너리형으로 변환
json_complete = json.loads(json_utf8)

In [7]:
# 딕셔너리(json)변환 완료 확인
type(json_complete)

dict

In [8]:
# json_normalize(딕셔너리 자료)
# 딕셔너리 자료를 데이터프레임 형태로 변환해줌
    pd.json_normalize(json_complete)

Unnamed: 0,boxOfficeResult.boxofficeType,boxOfficeResult.showRange,boxOfficeResult.dailyBoxOfficeList
0,일별 박스오피스,20220622~20220622,"[{'rnum': '1', 'rank': '1', 'rankInten': '0', ..."


In [9]:
# boxOfficeResult.dailyBoxOfficeList 컬럼 내부에 딕셔너리가 여럿 묶인 리스트가 보이므로
# boxOfficeResult.dailyBoxOfficeList 컬럼을 타겟으로 데이터프레임화 합니다
box_result = pd.json_normalize(json_complete['boxOfficeResult']['dailyBoxOfficeList'])

In [10]:
# json_normalize()는 pd.DataFrame()으로 대체 가능합니다
pd.DataFrame(json_complete)

Unnamed: 0,boxOfficeResult
boxofficeType,일별 박스오피스
dailyBoxOfficeList,"[{'rnum': '1', 'rank': '1', 'rankInten': '0', ..."
showRange,20220622~20220622


In [11]:
url

'https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220622'

api 크롤링으로 서비스 제공시

사용자가 조회할때마다 매번 API서버에 요청을 넣어서 데이터를 가져오면

호출횟수를 금방 소모하게 됩니다

따라서 , 보통 API를 활용한 서비스는 미리 데이터를 DB에 적재해놓고

사용자가 요청시 내 DB에 있는 데이터를 우선적으로 보여주고, 없으면 외부서버에 

요청해서  내 DB에 INSERT한 다음 다시 내 DB데이터를 사용자에게 보여줍니다

날짜 데이터는 28일까지인 달 (2월), 30일까지인 달, 31일까지인 달 들이 있어서

단순히 문자열에 1씩 더하거나 날짜처리를 하기도 어렵고

위의 처리를 다 했다고 해도 4년에 1번 윤달이 있습니다(2월 29일)

그래서, 날짜는 전적으로 날짜데이터를 이용해 처리해야만 합니다

파이썬에서는 datetime을 이용해 처리합니다.(자바는 java.util.Date를 써서 처리)

In [12]:
import time
import datetime # 파이썬 날짜 자료형

In [13]:
start_datetime = datetime.datetime(2021, 8, 9) # 년 월 일 순으로 넣어줍니다
# 형식 바꾸기
target_date = start_datetime.strftime('%Y%m%d') # 영진위 형식으로  변경
print(target_date)
next_datetime = start_datetime + datetime.timedelta(days=1)
next_datetime

20210809


datetime.datetime(2021, 8, 10, 0, 0)

In [14]:
target_dates = ['20220805','20220806','20220807']
# 날짜는 시작날짜와 + 며칠을 처리할지 결정할 수 있습니다
# 3일치 데이터를 얻은 다음 to_csv나 to_excel로 저장해주세요

# 반복문과 append를 이용해서 3일치 데이터를 요청해서 합쳐보세요
# target_date 컬럼에 조회 날짜를 추가해주세요
# 빈 데이터프레임을 하나 생성해놓고(pd.DataFrame())
merged_data = pd.DataFrame()
for date in target_dates:
    api_key = "cb38ebad17f6f72f4ea682c05a8bc8df"
    request_data = date
    url = "https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=%s&targetDt=%s" % (api_key, request_data)
    print(url)
    rr = urllib.request.urlopen(url)
    json_raws = rr.read();
    json_utf8 = json_raws.decode("utf-8")
    json_complete = json.loads(json_utf8)
    box_result = pd.json_normalize(json_complete['boxOfficeResult']['dailyBoxOfficeList'])
    # box_result에 날짜 컬럼 추가해 날짜 정보 넣기
    box_result['날짜'] = date
    merged_data = pd.concat([merged_data, box_result])
merged_data

https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220805
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220806
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220807


Unnamed: 0,rnum,rank,rankInten,rankOldAndNew,movieCd,movieNm,openDt,salesAmt,salesShare,salesInten,salesChange,salesAcc,audiCnt,audiInten,audiChange,audiAcc,scrnCnt,showCnt,날짜
0,1,1,1,OLD,20209343,한산: 용의 출현,2022-07-27,2565550184,41.6,530985656,26.1,37567514644,250627,41280,19.7,3692258,1530,6343,20220805
1,2,2,-1,OLD,20196410,비상선언,2022-08-03,2094794151,34.0,71338791,3.5,7693545482,213574,-8542,-3.8,794759,1718,7281,20220805
2,3,3,1,OLD,20194376,탑건: 매버릭,2022-06-22,504483247,8.2,148299938,41.6,77905758474,46942,12422,36.0,7305825,605,1238,20220805
3,4,4,-1,OLD,20205362,미니언즈2,2022-07-20,413915957,6.7,948579,0.2,17793954400,43092,-1769,-3.9,1837970,783,1595,20220805
4,5,5,0,OLD,20225190,뽀로로 극장판 드래곤캐슬 대모험,2022-07-28,167553618,2.7,-5960802,-3.4,2909201168,18088,-1181,-6.1,312147,537,779,20220805
5,6,6,0,OLD,20209654,헤어질 결심,2022-06-29,142017614,2.3,34703455,32.3,18014179742,13226,3017,29.6,1741846,265,432,20220805
6,7,7,0,OLD,20208446,외계+인 1부,2022-07-20,113278760,1.8,22370761,24.6,15283607796,11557,2267,24.4,1466378,407,576,20220805
7,8,8,0,OLD,20226107,극장판 도라에몽: 진구의 우주소전쟁 리틀스타워즈 2021,2022-08-03,49992320,0.8,-4086959,-7.6,192969299,5266,-680,-11.4,20859,362,513,20220805
8,9,9,0,OLD,20225237,명탐정 코난: 할로윈의 신부,2022-07-13,27421500,0.4,3966180,16.9,4509942774,2517,232,10.2,434339,75,94,20220805
9,10,10,26,OLD,20224882,마녀(魔女) Part2. The Other One,2022-06-15,12398000,0.2,11939500,2604.0,28919650670,2433,2378,4323.6,2806159,20,20,20220805


In [15]:
start_datetime = datetime.datetime(2021, 8, 9)

# 날짜는 시작날짜와 + 며칠을 처리할지 결정할 수 있습니다
# 1년치 데이터를 얻은 다음 to_csv나 to_excel로 저장해주세요

# 반복문과 append를 이용해서 1년치 데이터를 요청해서 합쳐보세요
# target_date 컬럼에 조회 날짜를 추가해주세요
# 빈 데이터프레임을 하나 생성해놓고(pd.DataFrame())
merged_data = pd.DataFrame()
for idx in range(1, 366):
 # 년 월 일 순으로 넣어줍니다
    # 형식 바꾸기
    target_date = start_datetime.strftime('%Y%m%d') # 영진위 형식으로  변경
    print(target_date)

    api_key = "cb38ebad17f6f72f4ea682c05a8bc8df"

    url = "https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=%s&targetDt=%s" % (api_key, target_date)
    print(url)
    rr = urllib.request.urlopen(url)
    json_raws = rr.read();
    json_utf8 = json_raws.decode("utf-8")
    json_complete = json.loads(json_utf8)
    box_result = pd.json_normalize(json_complete['boxOfficeResult']['dailyBoxOfficeList'])
    # box_result에 날짜 컬럼 추가해 날짜 정보 넣기
    box_result['날짜'] = date
    merged_data = pd.concat([merged_data, box_result])
    start_datetime = start_datetime + datetime.timedelta(days=1)
    time.sleep(1)
merged_data

20210809
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20210809
20210810
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20210810
20210811
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20210811
20210812
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20210812
20210813
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20210813
20210814
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20210814
20210815
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBox

20211002
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20211002
20211003
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20211003
20211004
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20211004
20211005
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20211005
20211006
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20211006
20211007
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20211007
20211008
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBox

20211125
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20211125
20211126
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20211126
20211127
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20211127
20211128
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20211128
20211129
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20211129
20211130
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20211130
20211201
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBox

20220118
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220118
20220119
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220119
20220120
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220120
20220121
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220121
20220122
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220122
20220123
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220123
20220124
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBox

20220313
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220313
20220314
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220314
20220315
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220315
20220316
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220316
20220317
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220317
20220318
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220318
20220319
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBox

20220506
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220506
20220507
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220507
20220508
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220508
20220509
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220509
20220510
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220510
20220511
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220511
20220512
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBox

20220629
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220629
20220630
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220630
20220701
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220701
20220702
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220702
20220703
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220703
20220704
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=cb38ebad17f6f72f4ea682c05a8bc8df&targetDt=20220704
20220705
https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBox

Unnamed: 0,rnum,rank,rankInten,rankOldAndNew,movieCd,movieNm,openDt,salesAmt,salesShare,salesInten,salesChange,salesAcc,audiCnt,audiInten,audiChange,audiAcc,scrnCnt,showCnt,날짜
0,1,1,0,OLD,20204117,모가디슈,2021-07-28,709693260,55.3,-1291136120,-64.5,17288767790,75348,-121324,-61.7,1787723,1559,6247,20220807
1,2,2,0,OLD,20217845,더 수어사이드 스쿼드,2021-08-04,248909890,19.4,-427887350,-63.2,3191163840,24477,-38618,-61.2,305854,962,3007,20220807
2,3,3,0,OLD,20218391,보스 베이비 2,2021-07-21,84519500,6.6,-199686520,-70.3,7595918080,9547,-20499,-68.2,846352,655,1315,20220807
3,4,4,0,OLD,20191951,블랙 위도우,2021-07-07,74063300,5.8,-120426480,-61.9,29531394670,7568,-11172,-59.6,2916247,494,873,20220807
4,5,5,1,OLD,20218349,정글 크루즈,2021-07-28,28406200,2.2,-68337650,-70.6,2228562490,3150,-6675,-67.9,241040,426,569,20220807
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5,6,6,-1,OLD,20225190,뽀로로 극장판 드래곤캐슬 대모험,2022-07-28,63100299,1.9,-201077501,-76.1,3498746166,6967,-20624,-74.7,374124,456,679,20220807
6,7,7,0,OLD,20208446,외계+인 1부,2022-07-20,49356700,1.5,-74608418,-60.2,15679219151,4842,-6848,-58.6,1501777,351,485,20220807
7,8,8,0,OLD,20226107,극장판 도라에몽: 진구의 우주소전쟁 리틀스타워즈 2021,2022-08-03,22953320,0.7,-54773879,-70.5,369206618,2534,-5369,-67.9,38951,315,373,20220807
8,9,9,0,NEW,20224965,DC 리그 오브 슈퍼-펫,2022-08-10,20148000,0.6,20148000,100,24405000,2117,2117,100,2590,9,11,20220807


In [16]:
# 스크린당 평균 관객이 제일 많았던 영화를 뽑아주세요
#관객 총합 / 스크린 총합 = 스크린당 관객이 나옵니다
# 컬럼 타입이 object 이므로, 집계함수를 쓸 수 있도록 int로 컬럼 전체 자료형을 바꿔줘야 합니다
# 현재 수치데이터도 전부 문자로 간주되고 있기 때문에 int로 자료형을 바꿔서 계산해야함
merged_data['audiCnt'] = merged_data['audiCnt'].astype(int)
merged_data['scrnCnt'] = merged_data['scrnCnt'].astype(int)

In [17]:
result = merged_data.pivot_table(index=['movieNm'], aggfunc='sum', values=['scrnCnt','audiCnt'])

In [18]:
result['scrnMean'] = result['audiCnt'] / result['scrnCnt']

In [19]:
result[result['scrnCnt'] > 100].sort_values('scrnMean', ascending=False).head(30)

Unnamed: 0_level_0,audiCnt,scrnCnt,scrnMean
movieNm,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
한산: 용의 출현,4759474,24231,196.420866
범죄도시 2,12686014,81645,155.38017
비상선언,1495289,9971,149.963795
탑건: 매버릭,7477414,58469,127.886812
닥터 스트레인지: 대혼돈의 멀티버스,5880700,48993,120.031433
쥬라기 월드: 도미니언,2832531,24893,113.788254
마녀(魔女) Part2. The Other One,2795796,27322,102.327648
토르: 러브 앤 썬더,2711863,26516,102.272703
미니언즈2,1994072,20169,98.868164
스파이더맨: 노 웨이 홈,7541536,90668,83.177483


In [20]:
# 스크린당 관객수가 평균이상이면서 스크린 개수가 50개 이상인 영화만 나열해주세요
final_data = result[(result['scrnCnt'] >= 50) & (result['scrnMean'] >= 26.5)].head(50)

In [21]:
result[result['scrnCnt'] >= 50]['scrnMean'].mean()

26.58979572944519

In [22]:
# csv로 export하기
final_data.to_csv('평균이상영화.csv', encoding="utf-8")

In [23]:
# excel로 export하기
final_data.to_excel('평균이상영화.xlsx', encoding="utf-8")

# 가져온 데이터 mysql에 연동하기

- import pymysql
- 을 활용해서 연동할 수 잇습니다

- 임포트가 되지 않는 다면 다시 설치를 해야합니다
- 1. Anaconda Navigator에서 좌측 탭의 enviroments를 누릅니다
- 2. Open terminal을 이용해 cmd창 같은 창을 켭니다(터미널창이라고 부릅니다
- 3. pip install pymysql 을 입력하고 실행합니다

### 오라클 연동

위와 같은데 3번에서
- pip install cx.Oracle
- 을 대신 입력해서 설치하면 됩니다.

In [24]:
import pymysql

In [42]:
# MySql 연결에 필요한 정보를 입력합니다
con = pymysql.connect(host='localhost', user='root', password='mysql', db='pyprac2', charset='utf8',
                     cursorclass=pymysql.cursors.DictCursor) # 컬럼명까지 받아올지 여부

In [43]:
# SQL구문을 받아주는 cursor 객체를 사용합니다
cur = con.cursor()

In [44]:
# SQL구문은 문자로 cur.execute()를 실행해서 수행시킵니다
cur.execute("SELECT * FROM test_tbl2")

9

In [28]:
# execute가 실행되면, cur가 데이터를 저장하고 있는데이걸 파이썬 형식으로 빼야합니다
mysql_data = cur.fetchall()
mysql_data

[{'tno': 1, 'tname': 'a'},
 {'tno': 2, 'tname': 'b'},
 {'tno': 3, 'tname': 'c'},
 {'tno': 4, 'tname': 'd'},
 {'tno': 5, 'tname': 'e'},
 {'tno': 6, 'tname': 'f'},
 {'tno': 7, 'tname': 'g'},
 {'tno': 8, 'tname': 'g'}]

In [29]:
# 데이터프레임 형태로 변환
pd.DataFrame(mysql_data)

Unnamed: 0,tno,tname
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e
5,6,f
6,7,g
7,8,g


In [30]:
cur.execute("INSERT INTO test_tbl2(tname) VALUES ('g')")

1

In [31]:
# 커서가 아닌 커넥션에 commit을 주는것에 주의해주세요
con.commit()

In [32]:
cur.execute("SELECT * FROM test_tbl2")

9

In [33]:
mysql_data = cur.fetchall()

In [34]:
mysql_data

[{'tno': 1, 'tname': 'a'},
 {'tno': 2, 'tname': 'b'},
 {'tno': 3, 'tname': 'c'},
 {'tno': 4, 'tname': 'd'},
 {'tno': 5, 'tname': 'e'},
 {'tno': 6, 'tname': 'f'},
 {'tno': 7, 'tname': 'g'},
 {'tno': 8, 'tname': 'g'},
 {'tno': 9, 'tname': 'g'}]

In [35]:
pd.DataFrame(mysql_data)

Unnamed: 0,tno,tname
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e
5,6,f
6,7,g
7,8,g
8,9,g


In [36]:
merged_data.head()

Unnamed: 0,rnum,rank,rankInten,rankOldAndNew,movieCd,movieNm,openDt,salesAmt,salesShare,salesInten,salesChange,salesAcc,audiCnt,audiInten,audiChange,audiAcc,scrnCnt,showCnt,날짜
0,1,1,0,OLD,20204117,모가디슈,2021-07-28,709693260,55.3,-1291136120,-64.5,17288767790,75348,-121324,-61.7,1787723,1559,6247,20220807
1,2,2,0,OLD,20217845,더 수어사이드 스쿼드,2021-08-04,248909890,19.4,-427887350,-63.2,3191163840,24477,-38618,-61.2,305854,962,3007,20220807
2,3,3,0,OLD,20218391,보스 베이비 2,2021-07-21,84519500,6.6,-199686520,-70.3,7595918080,9547,-20499,-68.2,846352,655,1315,20220807
3,4,4,0,OLD,20191951,블랙 위도우,2021-07-07,74063300,5.8,-120426480,-61.9,29531394670,7568,-11172,-59.6,2916247,494,873,20220807
4,5,5,1,OLD,20218349,정글 크루즈,2021-07-28,28406200,2.2,-68337650,-70.6,2228562490,3150,-6675,-67.9,241040,426,569,20220807


In [37]:
# 로우개수
len(merged_data) # 3650번 반복해야 DB에 insert가 된다는걸 알 수 있음
# iloc[], .loc[] 를 이용하면 특정 로우자료를 조회할 수 있고, 거기서 ['컬럼명']을 집어넣으면
# 특정 로우의 특정 컬럼값을 조회할 수 있습니다
merged_data.iloc[4]['movieNm']

'정글 크루즈'

In [38]:
# 과제, MySQL이나 Oracle SQL에 현재 보고있는 db_insert 데이터를
# 테이블 생성 및 반복문을 이용해서 다 DB에 넣어주시면 됩니다
# 반복문을 이용해서 merged_data의 모든 데이터를 MySQL에 집어넣어주세요
# 집어넣을 컬럼은 rnum, movieNm, openDt, audiCnt, showCnt, date

In [39]:
merged_data['openDt']

0    2021-07-28
1    2021-08-04
2    2021-07-21
3    2021-07-07
4    2021-07-28
        ...    
5    2022-07-28
6    2022-07-20
7    2022-08-03
8    2022-08-10
9    2022-07-13
Name: openDt, Length: 3650, dtype: object

In [97]:
for i in range(len(merged_data)):
    selected_data = merged_data.iloc[i]
    cur.execute("INSERT INTO moviechart(movieNm, openDt, audiCnt, showCnt, dataDate) VALUES ('%s','%s', %s, %s, '%s')" %  (selected_data['movieNm'], selected_data['openDt'], selected_data['audiCnt'], selected_data['showCnt'], selected_data['날짜']))

In [63]:
# 날짜가 안들어가는 이유눈, 개봉날짜가 빈 칸으로(날짜형식이 아닌) 집계뙤는 부분이 있어서입니다.
# 따라서 결측치나 이상값을 집계가능한 값으로 돌려놓고(1900-01-01) 다시 insert 하면 됩니다
# 반복문으로 인덱스번호, 날짜 형식으로 출력하도록 해서 몇 번 인덱스가 결측치인지 파악해보겠습니다
for i in range(len(merged_data)):
    print(i, merged_data['movieNm'].iloc[i])

0 모가디슈
1 더 수어사이드 스쿼드
2 보스 베이비 2
3 블랙 위도우
4 정글 크루즈
5 싱크홀
6 극장판 도라에몽: 진구의 신공룡
7 방법: 재차의
8 그린 나이트
9 랑종
10 모가디슈
11 더 수어사이드 스쿼드
12 보스 베이비 2
13 블랙 위도우
14 극장판 도라에몽: 진구의 신공룡
15 정글 크루즈
16 싱크홀
17 방법: 재차의
18 그린 나이트
19 랑종
20 싱크홀
21 모가디슈
22 프리 가이 
23 더 수어사이드 스쿼드
24 보스 베이비 2
25 블랙 위도우
26 극장판 도라에몽: 진구의 신공룡
27 그린 나이트
28 블랙핑크 더 무비
29 팜 스프링스
30 싱크홀
31 모가디슈
32 프리 가이 
33 더 수어사이드 스쿼드
34 하이큐!! 땅 VS 하늘
35 보스 베이비 2
36 블랙 위도우
37 극장판 도라에몽: 진구의 신공룡
38 웬디
39 그린 나이트
40 싱크홀
41 모가디슈
42 프리 가이 
43 더 수어사이드 스쿼드
44 보스 베이비 2
45 블랙 위도우
46 인질
47 하이큐!! 땅 VS 하늘
48 극장판 도라에몽: 진구의 신공룡
49 캐시트럭
50 싱크홀
51 모가디슈
52 프리 가이 
53 더 수어사이드 스쿼드
54 보스 베이비 2
55 블랙 위도우
56 극장판 도라에몽: 진구의 신공룡
57 하이큐!! 땅 VS 하늘
58 킬러의 보디가드 2
59 인질
60 싱크홀
61 모가디슈
62 프리 가이 
63 더 수어사이드 스쿼드
64 보스 베이비 2
65 블랙 위도우
66 극장판 도라에몽: 진구의 신공룡
67 인질
68 그린 나이트
69 하이큐!! 땅 VS 하늘
70 싱크홀
71 모가디슈
72 프리 가이 
73 보스 베이비 2
74 더 수어사이드 스쿼드
75 블랙 위도우
76 극장판 도라에몽: 진구의 신공룡
77 그린 나이트
78 하이큐!! 땅 VS 하늘
79 정글 크루즈
80 싱크홀
81 모가디슈
82 프리 가이 
83 더 수어사이드 스쿼드
84 보스 베이비 2
85 블랙 위도우
86 극장판 도라에몽: 진구의 신공룡
87 그린

2038 킹메이커
2039 나일 강의 죽음
2040 더 배트맨
2041 언차티드
2042 극장판 주술회전 0
2043 안테벨룸
2044 인민을 위해 복무하라
2045 해적: 도깨비 깃발
2046 나이트메어 앨리
2047 극장판 바다 탐험대 옥토넛 : 해저동굴 대탈출	
2048 스파이더맨: 노 웨이 홈
2049 씽2게더
2050 더 배트맨
2051 극장판 주술회전 0
2052 언차티드
2053 이상한 나라의 수학자
2054 안테벨룸
2055 인민을 위해 복무하라
2056 나이트메어 앨리
2057 킹메이커
2058 해적: 도깨비 깃발
2059 나일 강의 죽음
2060 더 배트맨
2061 극장판 주술회전 0
2062 언차티드
2063 인민을 위해 복무하라
2064 안테벨룸
2065 에이핑크 스페셜 무비 : 혼
2066 나이트메어 앨리
2067 이상한 나라의 수학자
2068 나이트 레이더스
2069 소피의 세계
2070 더 배트맨
2071 극장판 주술회전 0
2072 언차티드
2073 안테벨룸
2074 인민을 위해 복무하라
2075 해적: 도깨비 깃발
2076 나이트메어 앨리
2077 스파이더맨: 노 웨이 홈
2078 킹메이커
2079 에이핑크 스페셜 무비 : 혼
2080 더 배트맨
2081 극장판 주술회전 0
2082 언차티드
2083 안테벨룸
2084 인민을 위해 복무하라
2085 스파이더맨: 노 웨이 홈
2086 나이트메어 앨리
2087 킹메이커
2088 해적: 도깨비 깃발
2089 극장판 바다 탐험대 옥토넛 : 해저동굴 대탈출	
2090 더 배트맨
2091 언차티드
2092 극장판 주술회전 0
2093 안테벨룸
2094 인민을 위해 복무하라
2095 스파이더맨: 노 웨이 홈
2096 나이트메어 앨리
2097 해적: 도깨비 깃발
2098 킹메이커
2099 극장판 바다 탐험대 옥토넛 : 해저동굴 대탈출	
2100 더 배트맨
2101 극장판 주술회전 0
2102 언차티드
2103 이상한 나라의 수학자
2104 안테벨룸
2105 인민을 위해 복무하라
2106 스파이더

In [54]:
# 조건색인으로 날짜가 빈 요소만 체크해서 1900-01-01로 집어넣어보세요
merged_data['openDt'][merged_data['openDt'] == ' '] = '1900-01-01'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  merged_data['openDt'][merged_data['openDt'] == ' '] = '1900-01-01'


In [90]:
for i in range(len(merged_data)):
    print(merged_data['movieNm'].iloc[i])

모가디슈
더 수어사이드 스쿼드
보스 베이비 2
블랙 위도우
정글 크루즈
싱크홀
극장판 도라에몽: 진구의 신공룡
방법: 재차의
그린 나이트
랑종
모가디슈
더 수어사이드 스쿼드
보스 베이비 2
블랙 위도우
극장판 도라에몽: 진구의 신공룡
정글 크루즈
싱크홀
방법: 재차의
그린 나이트
랑종
싱크홀
모가디슈
프리 가이 
더 수어사이드 스쿼드
보스 베이비 2
블랙 위도우
극장판 도라에몽: 진구의 신공룡
그린 나이트
블랙핑크 더 무비
팜 스프링스
싱크홀
모가디슈
프리 가이 
더 수어사이드 스쿼드
하이큐!! 땅 VS 하늘
보스 베이비 2
블랙 위도우
극장판 도라에몽: 진구의 신공룡
웬디
그린 나이트
싱크홀
모가디슈
프리 가이 
더 수어사이드 스쿼드
보스 베이비 2
블랙 위도우
인질
하이큐!! 땅 VS 하늘
극장판 도라에몽: 진구의 신공룡
캐시트럭
싱크홀
모가디슈
프리 가이 
더 수어사이드 스쿼드
보스 베이비 2
블랙 위도우
극장판 도라에몽: 진구의 신공룡
하이큐!! 땅 VS 하늘
킬러의 보디가드 2
인질
싱크홀
모가디슈
프리 가이 
더 수어사이드 스쿼드
보스 베이비 2
블랙 위도우
극장판 도라에몽: 진구의 신공룡
인질
그린 나이트
하이큐!! 땅 VS 하늘
싱크홀
모가디슈
프리 가이 
보스 베이비 2
더 수어사이드 스쿼드
블랙 위도우
극장판 도라에몽: 진구의 신공룡
그린 나이트
하이큐!! 땅 VS 하늘
정글 크루즈
싱크홀
모가디슈
프리 가이 
더 수어사이드 스쿼드
보스 베이비 2
블랙 위도우
극장판 도라에몽: 진구의 신공룡
그린 나이트
박강아름 결혼하다
코다
인질
싱크홀
모가디슈
올드
프리 가이 
퍼피 구조대 더 무비
더 수어사이드 스쿼드
남색대문
보스 베이비 2
더 스파이
인질
싱크홀
모가디슈
올드
프리 가이 
퍼피 구조대 더 무비
하이큐!! 땅 VS 하늘
더 수어사이드 스쿼드
남색대문
팜 스프링스
인질
싱크홀
모가디슈
올드
프리 가이 
퍼피 구조대 더 무비
더 수어사이드 스쿼드
팜 스프링스
남색대문
보스 베이비 2
인질
싱크홀
모가디슈
올드
프리 가이 
퍼피 구조대 더 

In [89]:
# 특정 요소에 특정한 문자가 포함되었는지는
# .str.contains("조회문자") 형식으로 확인 가능합니다
merged_data['movieNm'] = merged_data['movieNm'][merged_data['movieNm'].str.contains("'")].str.replace("'"," ")

  merged_data['movieNm'] = merged_data['movieNm'][merged_data['movieNm'].str.contains("'")].str.replace("'"," ")


ValueError: cannot reindex on an axis with duplicate labels

In [None]:
# 인덱스가 365일치를 겹쳐서 받아오기 때문에 중복인덱스가 생기므로, 초기화
merged_data.reset()

In [None]:
# apply()를 이용한 전처리
# .apply()는 데이터프레임에 적용해서, 사용자가 전처리 형식을 직접 지정해 적용할 수 있도록 도와줍니다
# 함수를 이용해 처리합니다
# 지금같은 경우 '가 포함도된 문자열을 '를 제거한 형태로 바꾸려 하므로 해당 로직을 함수로 만들어 저장하고
# 그 다음 적용하고 싶은 컬럼에 .apply()를 걸어 적용하면 됩니다

In [92]:
# 요소를 읽어서, '가 포함된 경우 삭제한 다음 리턴하는 함수 작성
def deletion_char(target):
    return target.replace("'", "")

In [93]:
# 함수가 만들어졌으면, 수정해줄 컬럼을 지정하고, 거기에 apply()를 쓴 다음 함수명을 내부에 파라미터로 줍니다
merged_data['movieNm'] = merged_data['movieNm'].apply(deletion_char)

In [98]:
con.commit()

In [99]:
# SELECT구문 날려서 DataFrame으로 다시받아오기
cur.execute("SELECT * FROM moviechart")

3650

In [100]:
movie_sql_data = cur.fetchall()

In [101]:
movie_sql_data

[{'rnum': 1,
  'movieNm': '모가디슈',
  'openDt': datetime.date(2021, 7, 28),
  'audiCnt': 75348,
  'showCnt': 6247,
  'dataDate': datetime.date(2022, 8, 7)},
 {'rnum': 2,
  'movieNm': '더 수어사이드 스쿼드',
  'openDt': datetime.date(2021, 8, 4),
  'audiCnt': 24477,
  'showCnt': 3007,
  'dataDate': datetime.date(2022, 8, 7)},
 {'rnum': 3,
  'movieNm': '보스 베이비 2',
  'openDt': datetime.date(2021, 7, 21),
  'audiCnt': 9547,
  'showCnt': 1315,
  'dataDate': datetime.date(2022, 8, 7)},
 {'rnum': 4,
  'movieNm': '블랙 위도우',
  'openDt': datetime.date(2021, 7, 7),
  'audiCnt': 7568,
  'showCnt': 873,
  'dataDate': datetime.date(2022, 8, 7)},
 {'rnum': 5,
  'movieNm': '정글 크루즈',
  'openDt': datetime.date(2021, 7, 28),
  'audiCnt': 3150,
  'showCnt': 569,
  'dataDate': datetime.date(2022, 8, 7)},
 {'rnum': 6,
  'movieNm': '싱크홀',
  'openDt': datetime.date(2021, 8, 11),
  'audiCnt': 3092,
  'showCnt': 31,
  'dataDate': datetime.date(2022, 8, 7)},
 {'rnum': 7,
  'movieNm': '극장판 도라에몽: 진구의 신공룡',
  'openDt': datetim

In [102]:
pd.DataFrame(movie_sql_data)

Unnamed: 0,rnum,movieNm,openDt,audiCnt,showCnt,dataDate
0,1,모가디슈,2021-07-28,75348,6247,2022-08-07
1,2,더 수어사이드 스쿼드,2021-08-04,24477,3007,2022-08-07
2,3,보스 베이비 2,2021-07-21,9547,1315,2022-08-07
3,4,블랙 위도우,2021-07-07,7568,873,2022-08-07
4,5,정글 크루즈,2021-07-28,3150,569,2022-08-07
...,...,...,...,...,...,...
3645,3646,뽀로로 극장판 드래곤캐슬 대모험,2022-07-28,6967,679,2022-08-07
3646,3647,외계+인 1부,2022-07-20,4842,485,2022-08-07
3647,3648,극장판 도라에몽: 진구의 우주소전쟁 리틀스타워즈 2021,2022-08-03,2534,373,2022-08-07
3648,3649,DC 리그 오브 슈퍼-펫,2022-08-10,2117,11,2022-08-07


In [110]:
con.close()
cur.close()

In [106]:
import cx_Oracle

In [111]:
# Oracle 연동
# 11버전은 localhost:1521/XE
# 18버전은 localhost:1521/XEPDB1
con_oracle = cx_Oracle.connect("mytest", "mytest", "localhost:1521/XEPDB1")

In [112]:
# 커서 얻어온 뒤부터는 mysql과 동일하게 cur.fetchall() 등을 이용해 처리할 수 있음
cur_oracle = con_oracle.cursor()

In [116]:
# oracle을 켜서 테이블을 똑같이 만들어주시고, 위의 mysql로직에서 얻어온 merged_data 를 역시
# oracle DB에도 적재해주시고 다시 꺼내서 DataFrame화를 시켜주시면 됩니다
cur_oracle.execute("SELECT * FROM movieTbl")

<cx_Oracle.Cursor on <cx_Oracle.Connection to mytest@localhost:1521/XEPDB1>>

In [118]:
for i in range(len(merged_data)):
    selected_data = merged_data.iloc[i]
    cur_oracle.execute("INSERT INTO movieTbl(rnum, movieNm, openDt, audiCnt, showCnt, dataDate) VALUES (rnum.nextval, '%s','%s', %s, %s, '%s')" %  (selected_data['movieNm'], selected_data['openDt'], selected_data['audiCnt'], selected_data['showCnt'], selected_data['날짜']))

In [120]:
con_oracle.commit()

In [125]:
movie_db_data = pd.DataFrame(cur_oracle.execute("SELECT * FROM movieTbl"))

In [138]:
movie_db_data.colunms = ['rnum','movieNm','openDt','audiCnt','showCnt','dataDate']
movie_db_data.colunms

['rnum', 'movieNm', 'openDt', 'audiCnt', 'showCnt', 'dataDate']

In [139]:
movie_db_data

Unnamed: 0,0,1,2,3,4,5
0,426,극장판 짱구는 못말려: 격돌! 낙서왕국과 얼추 네 명의 용사들,2021-09-15,13907,938,2022-08-07
1,427,인질,2021-08-18,9196,724,2022-08-07
2,428,해리포터와 마법사의 돌,2001-12-13,4422,179,2022-08-07
3,429,말리그넌트,2021-09-15,3680,568,2022-08-07
4,430,너의 이름은.,2017-01-04,1359,49,2022-08-07
...,...,...,...,...,...,...
3645,3646,뽀로로 극장판 드래곤캐슬 대모험,2022-07-28,6967,679,2022-08-07
3646,3647,외계+인 1부,2022-07-20,4842,485,2022-08-07
3647,3648,극장판 도라에몽: 진구의 우주소전쟁 리틀스타워즈 2021,2022-08-03,2534,373,2022-08-07
3648,3649,DC 리그 오브 슈퍼-펫,2022-08-10,2117,11,2022-08-07
