# api 크롤링

기존의 크롤링 방식은 

1. 내가 직접 홈페이지에 브라우저를 켜서 접근하거나(selenium)

혹은 

2. 파이썬 자체적으로 호출을 요청해서(requests)

데이터를 가지고 오는 방식이었습니다.

이 방식은 서버에 부하가 많이 갈 뿐더러 나에게 필요없는 데이터까지 한 번에 호출해서 가져오는 문제가 있습니다.

따라서 서비스 제공자 측에서는 서버 부하를 줄이고, 사용자에게 맞춤형의 데이터를 제공하기 위해 api서버를 운영합니다.

api서버는 인가된 데이터만을 개발자에게 넘겨서 서버도 안정적으로 유지하며(횟수 제한이 있는 사이트도 많습니다. 라이엇 데이터는 1초에 5회, 2분에 100회로 제한됩니다.)

필요없는 동영상 자료나 그림 자료를 호출하지 않으므로 트래픽을 줄일 수 있습니다.


api 서버 접근시 보통 urllib.request 를 이용하게 됩니다.

In [1]:
# 사이트에 자료 요청
import urllib.request
#json 데이터 핸들링
import json
# DataFrame 자료형 활용
import pandas as pd 
# json 데이터를 pandas DataFrame으로 변환
from pandas.io.json import json_normalize

# 영진위 api 신청

https://www.kobis.or.kr/kobisopenapi/homepg/main/main.do

1. 접속 후 가입 및 로그인 

2. 키발급 탭에서 키 발급하기 

3. 요청 api종류 보고 요청양식 및 데이터 확인하기 

In [2]:
api_key = "5c6ac9b9844cd60b13a5ea12c2eede98" # 발급받은 키만 복붙하세요.
request_date = "20220802" # 조회날짜를  xxxxyydd 20220802 형식으로 넣어주세요.
url = "https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=%s&targetDt=%s" % (api_key, request_date)
print(url)

https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=5c6ac9b9844cd60b13a5ea12c2eede98&targetDt=20220802


# json데이터를 팬더스 데이터프레임으로 변환

api 데이터는 보통 json(JavaScript Object Notation) 타입으로 받아집니다.

쉽게 말하면 자바스크립트 데이터를 전달하기 좋게 설정한 자료형인데

파이썬의 딕셔너리와 거의 같다고 보시면 됩니다.

따라서 json 데이터를 팬더스 데이터로 변환한다는 것은 사실상

딕셔너리 데이터를 팬더스 데이터프레임으로 변환하는것입니다.

In [3]:
# 위의 url 변수를 이용해 데이터를 요청합니다.
r = urllib.request.urlopen(url)

# 요청 페이지의 결과 데이터를 파이썬 내부 데이터로 바꿉니다.
json_raw =r.read()

In [4]:
# b'~~~~~~~'로 시작하는 이 데이터는 파이썬에서 byte자료형으로 처리되고
# 데이터프레임으로는 바로 변환이 불가능합니다.
json_raw

b'{"boxOfficeResult":{"boxofficeType":"\xec\x9d\xbc\xeb\xb3\x84 \xeb\xb0\x95\xec\x8a\xa4\xec\x98\xa4\xed\x94\xbc\xec\x8a\xa4","showRange":"20220802~20220802","dailyBoxOfficeList":[{"rnum":"1","rank":"1","rankInten":"0","rankOldAndNew":"OLD","movieCd":"20209343","movieNm":"\xed\x95\x9c\xec\x82\xb0: \xec\x9a\xa9\xec\x9d\x98 \xec\xb6\x9c\xed\x98\x84","openDt":"2022-07-27","salesAmt":"3418297205","salesShare":"56.5","salesInten":"-445775729","salesChange":"-11.5","salesAcc":"30675855831","audiCnt":"340707","audiInten":"-45277","audiChange":"-11.7","audiAcc":"2996648","scrnCnt":"2030","showCnt":"9659"},{"rnum":"2","rank":"2","rankInten":"0","rankOldAndNew":"OLD","movieCd":"20205362","movieNm":"\xeb\xaf\xb8\xeb\x8b\x88\xec\x96\xb8\xec\xa6\x882","openDt":"2022-07-20","salesAmt":"843554512","salesShare":"13.9","salesInten":"-60441616","salesChange":"-6.7","salesAcc":"16439332847","audiCnt":"90863","audiInten":"-6344","audiChange":"-6.5","audiAcc":"1693081","scrnCnt":"945","showCnt":"2837"},{"r

In [5]:
# 바이트자료형임을 확인 
type(json_raw)

bytes

In [6]:
# 따라서 utf-8 형식으로 고쳐줘야 합니다. .decode()를 이용합니다.
# encode => 우리가 쓰는 문자를 컴퓨터가 쓰는 형태로 변환 
# decode => 컴퓨터가 쓰는 형태의 문자를 우리가 쓰는 형태로 변환
json_utf8 = json_raw.decode("utf-8")

In [7]:
# 딕셔너리 구조를 유지하고 있는 문자로 변환됨
type(json_utf8)

str

In [8]:
json_utf8

'{"boxOfficeResult":{"boxofficeType":"일별 박스오피스","showRange":"20220802~20220802","dailyBoxOfficeList":[{"rnum":"1","rank":"1","rankInten":"0","rankOldAndNew":"OLD","movieCd":"20209343","movieNm":"한산: 용의 출현","openDt":"2022-07-27","salesAmt":"3418297205","salesShare":"56.5","salesInten":"-445775729","salesChange":"-11.5","salesAcc":"30675855831","audiCnt":"340707","audiInten":"-45277","audiChange":"-11.7","audiAcc":"2996648","scrnCnt":"2030","showCnt":"9659"},{"rnum":"2","rank":"2","rankInten":"0","rankOldAndNew":"OLD","movieCd":"20205362","movieNm":"미니언즈2","openDt":"2022-07-20","salesAmt":"843554512","salesShare":"13.9","salesInten":"-60441616","salesChange":"-6.7","salesAcc":"16439332847","audiCnt":"90863","audiInten":"-6344","audiChange":"-6.5","audiAcc":"1693081","scrnCnt":"945","showCnt":"2837"},{"rnum":"3","rank":"3","rankInten":"0","rankOldAndNew":"OLD","movieCd":"20194376","movieNm":"탑건: 매버릭","openDt":"2022-06-22","salesAmt":"678686098","salesShare":"11.2","salesInten":"-52390711"

In [9]:
# json.loads(딕셔너리 형태의 문자열 자료)
# 딕셔너리 형태로 적힌 문자열 자료를 딕셔너리형으로 변환 
json_complete = json.loads(json_utf8)

In [10]:
# 딕셔너리(json) 변환 완료 확인
type(json_complete)

dict

In [11]:
# json_normalize(딕셔너리 자료)
# 딕셔너리 자료를 데이터프레임 형태로 변환해줌
pd.json_normalize(json_complete) # 보통 json 데이터를 받아오면 list화 되어있는 컬럼이 하나 들어옴. 해당 list 데이터를 타켓해서 데이터 가져오기

Unnamed: 0,boxOfficeResult.boxofficeType,boxOfficeResult.showRange,boxOfficeResult.dailyBoxOfficeList
0,일별 박스오피스,20220802~20220802,"[{'rnum': '1', 'rank': '1', 'rankInten': '0', ..."


In [12]:
# boxOfficeResult.dailyBoxOfficeList 컬럼 내부에 딕셔너리가 여럿 묶인 리스트가 보이므로
# boxOfficeResult.dailyBoxOfficeList 컬럼을 타겟으로 데이터프레임화 합니다.
pd.json_normalize(json_complete['boxOfficeResult']['dailyBoxOfficeList'])

Unnamed: 0,rnum,rank,rankInten,rankOldAndNew,movieCd,movieNm,openDt,salesAmt,salesShare,salesInten,salesChange,salesAcc,audiCnt,audiInten,audiChange,audiAcc,scrnCnt,showCnt
0,1,1,0,OLD,20209343,한산: 용의 출현,2022-07-27,3418297205,56.5,-445775729,-11.5,30675855831,340707,-45277,-11.7,2996648,2030,9659
1,2,2,0,OLD,20205362,미니언즈2,2022-07-20,843554512,13.9,-60441616,-6.7,16439332847,90863,-6344,-6.5,1693081,945,2837
2,3,3,0,OLD,20194376,탑건: 매버릭,2022-06-22,678686098,11.2,-52390711,-7.2,76661927793,66646,-4845,-6.8,7187502,802,2072
3,4,4,0,OLD,20225190,뽀로로 극장판 드래곤캐슬 대모험,2022-07-28,351444239,5.8,-19020699,-5.1,2356729812,38807,-1971,-4.8,251109,677,1440
4,5,5,0,OLD,20208446,외계+인 1부,2022-07-20,363649895,6.0,-40994799,-10.1,14968860621,36506,-3867,-9.6,1434566,712,1804
5,6,6,0,OLD,20209654,헤어질 결심,2022-06-29,190209473,3.1,-155223,-0.1,17660546672,18263,43,0.2,1708582,412,752
6,7,7,0,OLD,20225237,명탐정 코난: 할로윈의 신부,2022-07-13,81394059,1.3,5183642,6.8,4434849457,8088,617,8.3,427202,185,271
7,8,8,1,OLD,20211792,헌트,2022-08-10,30461000,0.5,-5962000,-16.4,94710000,4277,230,5.7,10685,17,17
8,9,9,-1,OLD,20196410,비상선언,2022-08-03,26522000,0.4,-46635300,-63.7,247169216,1681,-3204,-65.6,22329,5,7
9,10,10,0,OLD,20224662,토르: 러브 앤 썬더,2022-07-06,12040299,0.2,-151561,-1.2,29461697403,1082,1,0.1,2711863,38,51


In [13]:
# json_normalize()는 pd.DataFrame()으로 대체 가능합니다.
pd.DataFrame(json_complete)

Unnamed: 0,boxOfficeResult
boxofficeType,일별 박스오피스
dailyBoxOfficeList,"[{'rnum': '1', 'rank': '1', 'rankInten': '0', ..."
showRange,20220802~20220802


In [14]:
url

'https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=5c6ac9b9844cd60b13a5ea12c2eede98&targetDt=20220802'

## DB에 데이터를 저장하는 이유

### API 크롤링으로 서비스 제공시 

### 사용자가 조회할때마다 매번 API서버에 요청을 넣어서 

### 데이터를 가져오면 호출횟수를 금방 소모하게 됩니다. 

### 따라서, 보통 API를 활용한 서비스는 미리 데이터를  DB에 적재해놓고 

### 사용자가 요청시 내 DB에 있는 데이터를 우선적으로 보여주고, 

### 없으면 외부서버에 요청해서 내 DB에 INSERT한 다음 다시 내 DB 데이터를 사용자에게 보여줍니다.

날짜 데이터는 28까지인 달(2월), 30일까지인 달, 31일까지인 달 들이 있어서

단순히 문자열에 1씩 더하거나 날짜처리를 하기도 어렵고

위의 처리를 다 했다고 해도 4년에 1번 윤달이 있습니다.(2월 29일)

그래서, 날짜는 전적으로 날짜데이터를 이용해 처리해야만 합니다.

파이썬에서는 datetime을 이용해 처리합니다.(자바는 java.util.Date를 써서 처리)

In [15]:
import time
import datetime  # 파이썬 날짜 자료형

In [16]:
start_datetime = datetime.datetime(2021, 8, 9) # 년 월 일 순으로 넣어줍니다.
# 형식 바꾸기
target_date = start_datetime.strftime('%Y%m%d') # 영진위 형식으로 변경   
print(target_date)
# 날짜 하루 올리기
next_datetime = start_datetime + datetime.timedelta(days=1) # 날짜 자료형을 이용하면 일수만 입력하면 월별 날짜를 알아서 계산해줌
next_datetime

20210809


datetime.datetime(2021, 8, 10, 0, 0)

In [17]:
# target_dates = ['20220805', '20220806', '20220807']
# 날짜는 시작날짜와 + 며칠 을 처리할지 결정할 수 있습니다.
# 3일치 데이터를 얻은 다음 to_csv나 to_excel로 저장해주세요.
target_dates = ['20220805', '20220806', '20220807']
for date in target_dates : 
    request_date = date
    url = "https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=%s&targetDt=%s" % (api_key, request_date)

    # 위의 url 변수를 이용해 데이터를 요청합니다.
    r = urllib.request.urlopen(url)

    # 요청 페이지의 결과 데이터를 파이썬 내부 데이터로 바꿉니다.
    json_raw =r.read()

    # 한글 형식으로 변환, str 자료형
    json_utf8 = json_raw.decode("utf-8")

    # 딕셔너리 형태로 적힌 문자열 자료를 딕셔너리형으로 변환 
    json_complete = json.loads(json_utf8)

    # boxOfficeResult.dailyBoxOfficeList 컬럼을 타겟으로 데이터프레임화 합니다.
    data = pd.json_normalize(json_complete['boxOfficeResult']['dailyBoxOfficeList'])
    
    data.to_excel('movie_data%s.xlsx' % request_date)


In [18]:
# 반복문과 append를 이용해서 3일치 데이터를 요청해서 합쳐보세요.
# target_date 컬럼에 조회 날짜를 추가해주세요.
# 빈 데이터프레임을 하나 생성해놓고[pd.DataFrame()]
data0805 = pd.read_excel('data/movie_data20220805.xlsx') 
data0806 = pd.read_excel('data/movie_data20220806.xlsx') 
data0807 = pd.read_excel('data/movie_data20220807.xlsx') 
data_result = data0805.append([data0806, data0807], ignore_index=True) 
data_result

  data_result = data0805.append([data0806, data0807], ignore_index=True)


Unnamed: 0.1,Unnamed: 0,rnum,rank,rankInten,rankOldAndNew,movieCd,movieNm,openDt,salesAmt,salesShare,salesInten,salesChange,salesAcc,audiCnt,audiInten,audiChange,audiAcc,scrnCnt,showCnt
0,0,1,1,1,OLD,20209343,한산: 용의 출현,2022-07-27,2565550184,41.6,530985656,26.1,37567514644,250627,41280,19.7,3692258,1530,6343
1,1,2,2,-1,OLD,20196410,비상선언,2022-08-03,2094794151,34.0,71338791,3.5,7693545482,213574,-8542,-3.8,794759,1718,7281
2,2,3,3,1,OLD,20194376,탑건: 매버릭,2022-06-22,504483247,8.2,148299938,41.6,77905758474,46942,12422,36.0,7305825,605,1238
3,3,4,4,-1,OLD,20205362,미니언즈2,2022-07-20,413915957,6.7,948579,0.2,17793954400,43092,-1769,-3.9,1837970,783,1595
4,4,5,5,0,OLD,20225190,뽀로로 극장판 드래곤캐슬 대모험,2022-07-28,167553618,2.7,-5960802,-3.4,2909201168,18088,-1181,-6.1,312147,537,779
5,5,6,6,0,OLD,20209654,헤어질 결심,2022-06-29,142017614,2.3,34703455,32.3,18014179742,13226,3017,29.6,1741846,265,432
6,6,7,7,0,OLD,20208446,외계+인 1부,2022-07-20,113278760,1.8,22370761,24.6,15283607796,11557,2267,24.4,1466378,407,576
7,7,8,8,0,OLD,20226107,극장판 도라에몽: 진구의 우주소전쟁 리틀스타워즈 2021,2022-08-03,49992320,0.8,-4086959,-7.6,192969299,5266,-680,-11.4,20859,362,513
8,8,9,9,0,OLD,20225237,명탐정 코난: 할로윈의 신부,2022-07-13,27421500,0.4,3966180,16.9,4509942774,2517,232,10.2,434339,75,94
9,9,10,10,26,OLD,20224882,마녀(魔女) Part2. The Other One,2022-06-15,12398000,0.2,11939500,2604.0,28919650670,2433,2378,4323.6,2806159,20,20


In [19]:
print(type(data_result))

<class 'pandas.core.frame.DataFrame'>


In [20]:
# 강사님께서 진행한 풀이

# target_dates = ['20220805', '20220806', '20220807']
# 날짜는 시작날짜와 + 며칠 을 처리할지 결정할 수 있습니다.
# 3일치 데이터를 얻은 다음 to_csv나 to_excel로 저장해주세요.
target_dates = ['20220805', '20220806', '20220807']

merged_data = pd.DataFrame()
for date in target_dates : 
    request_date = date
    url = "https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=%s&targetDt=%s" % (api_key, request_date)

    # 위의 url 변수를 이용해 데이터를 요청합니다.
    r = urllib.request.urlopen(url)

    # 요청 페이지의 결과 데이터를 파이썬 내부 데이터로 바꿉니다.
    json_raw =r.read()

    # 한글 형식으로 변환, str 자료형
    json_utf8 = json_raw.decode("utf-8")

    # 딕셔너리 형태로 적힌 문자열 자료를 딕셔너리형으로 변환 
    json_complete = json.loads(json_utf8)

    # boxOfficeResult.dailyBoxOfficeList 컬럼을 타겟으로 데이터프레임화 합니다.
    box_result = pd.json_normalize(json_complete['boxOfficeResult']['dailyBoxOfficeList'])
    
    # box_result에 날짜 컬럼 추가해 날짜 정보 넣기
    box_result['날짜'] = date
    
    merged_data = pd.concat([merged_data, box_result])

# 결과
merged_data


Unnamed: 0,rnum,rank,rankInten,rankOldAndNew,movieCd,movieNm,openDt,salesAmt,salesShare,salesInten,salesChange,salesAcc,audiCnt,audiInten,audiChange,audiAcc,scrnCnt,showCnt,날짜
0,1,1,0,OLD,20209343,한산: 용의 출현,2022-07-27,2565528184,41.8,531096656,26.1,37566516644,250625,41291,19.7,3692104,1530,6343,20220805
1,2,2,0,OLD,20196410,비상선언,2022-08-03,2064794151,33.7,71422791,3.6,7633426482,198574,-8538,-4.1,764752,1666,7169,20220805
2,3,3,1,OLD,20194376,탑건: 매버릭,2022-06-22,504483247,8.2,148299938,41.6,77905566974,46942,12422,36.0,7305810,605,1238,20220805
3,4,4,-1,OLD,20205362,미니언즈2,2022-07-20,413915957,6.7,948579,0.2,17793920900,43092,-1769,-3.9,1837967,783,1595,20220805
4,5,5,0,OLD,20225190,뽀로로 극장판 드래곤캐슬 대모험,2022-07-28,167553618,2.7,-5960802,-3.4,2909201168,18088,-1181,-6.1,312147,537,779,20220805
5,6,6,0,OLD,20209654,헤어질 결심,2022-06-29,142017614,2.3,34703455,32.3,18014151742,13226,3017,29.6,1741844,265,432,20220805
6,7,7,0,OLD,20208446,외계+인 1부,2022-07-20,113278760,1.8,22370761,24.6,15283552796,11557,2267,24.4,1466374,407,576,20220805
7,8,8,0,OLD,20226107,극장판 도라에몽: 진구의 우주소전쟁 리틀스타워즈 2021,2022-08-03,49992320,0.8,-4086959,-7.6,192969299,5266,-680,-11.4,20859,362,513,20220805
8,9,9,0,OLD,20225237,명탐정 코난: 할로윈의 신부,2022-07-13,27421500,0.4,3966180,16.9,4509942774,2517,232,10.2,434339,75,94,20220805
9,10,10,26,OLD,20224882,마녀(魔女) Part2. The Other One,2022-06-15,12398000,0.2,11939500,2604.0,28919650670,2433,2378,4323.6,2806159,20,20,20220805


In [22]:
# 날짜는 시작날짜와 + 며칠 을 처리할지 결정할 수 있습니다.
# 1년치 데이터를 얻은 다음 to_csv나 to_excel로 저장해주세요.
start_datetime = datetime.datetime(2021, 8, 8) # 년 월 일 순으로 넣어줍니다.

# 반복문과 append를 이용해서 3일치 데이터를 요청해서 합쳐보세요.
# target_date 컬럼에 조회 날짜를 추가해주세요.
# 빈 데이터프레임을 하나 생성해놓고[pd.DataFrame()]
merged_data = pd.DataFrame()
for idx in range(365) : 
    # 날짜를 문자로 변경
    target_date = start_datetime.strftime('%Y%m%d')
    
    # 요청을 넣을 날짜
    request_date = target_date
    url = "https://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=%s&targetDt=%s" % (api_key, request_date)
    
    # 위의 url 변수를 이용해 데이터를 요청합니다.
    r = urllib.request.urlopen(url)

    # 요청 페이지의 결과 데이터를 파이썬 내부 데이터로 바꿉니다.
    json_raw =r.read()

    # 한글 형식으로 변환, str 자료형
    json_utf8 = json_raw.decode("utf-8")

    # 딕셔너리 형태로 적힌 문자열 자료를 딕셔너리형으로 변환 
    json_complete = json.loads(json_utf8)

    # boxOfficeResult.dailyBoxOfficeList 컬럼을 타겟으로 데이터프레임화 합니다.
    box_result = pd.json_normalize(json_complete['boxOfficeResult']['dailyBoxOfficeList'])
    
    # box_result에 날짜 컬럼 추가해 날짜 정보 넣기
    box_result['날짜'] = date
    
    merged_data = pd.concat([merged_data, box_result])
    
    # 해당 날짜 데이터를 가져와 통합한 뒤에는 날짜를 하루 더해주기
    start_datetime = start_datetime + datetime.timedelta(days=1) # 날짜
    print("%s일차 자료 수집 완료" % idx)
    
    # 너무 자주 크롤링시 블록먹을 가능성이 있음
    time.sleep(1)
    
# 결과
merged_data


0일차 자료 수집 완료
1일차 자료 수집 완료
2일차 자료 수집 완료
3일차 자료 수집 완료
4일차 자료 수집 완료
5일차 자료 수집 완료
6일차 자료 수집 완료
7일차 자료 수집 완료
8일차 자료 수집 완료
9일차 자료 수집 완료
10일차 자료 수집 완료
11일차 자료 수집 완료
12일차 자료 수집 완료
13일차 자료 수집 완료
14일차 자료 수집 완료
15일차 자료 수집 완료
16일차 자료 수집 완료
17일차 자료 수집 완료
18일차 자료 수집 완료
19일차 자료 수집 완료
20일차 자료 수집 완료
21일차 자료 수집 완료
22일차 자료 수집 완료
23일차 자료 수집 완료
24일차 자료 수집 완료
25일차 자료 수집 완료
26일차 자료 수집 완료
27일차 자료 수집 완료
28일차 자료 수집 완료
29일차 자료 수집 완료
30일차 자료 수집 완료
31일차 자료 수집 완료
32일차 자료 수집 완료
33일차 자료 수집 완료
34일차 자료 수집 완료
35일차 자료 수집 완료
36일차 자료 수집 완료
37일차 자료 수집 완료
38일차 자료 수집 완료
39일차 자료 수집 완료
40일차 자료 수집 완료
41일차 자료 수집 완료
42일차 자료 수집 완료
43일차 자료 수집 완료
44일차 자료 수집 완료
45일차 자료 수집 완료
46일차 자료 수집 완료
47일차 자료 수집 완료
48일차 자료 수집 완료
49일차 자료 수집 완료
50일차 자료 수집 완료
51일차 자료 수집 완료
52일차 자료 수집 완료
53일차 자료 수집 완료
54일차 자료 수집 완료
55일차 자료 수집 완료
56일차 자료 수집 완료
57일차 자료 수집 완료
58일차 자료 수집 완료
59일차 자료 수집 완료
60일차 자료 수집 완료
61일차 자료 수집 완료
62일차 자료 수집 완료
63일차 자료 수집 완료
64일차 자료 수집 완료
65일차 자료 수집 완료
66일차 자료 수집 완료
67일차 자료 수집 완료
68일차 자료 수집 완료
69일차 자료 수집 완료
70일차 자료 수집 완료
71일차 자료 수집 완료
72

Unnamed: 0,rnum,rank,rankInten,rankOldAndNew,movieCd,movieNm,openDt,salesAmt,salesShare,salesInten,salesChange,salesAcc,audiCnt,audiInten,audiChange,audiAcc,scrnCnt,showCnt,날짜
0,1,1,0,OLD,20204117,모가디슈,2021-07-28,2000829380,56.5,38859180,2,16579074530,196672,4041,2.1,1712375,1639,6757,20220807
1,2,2,0,OLD,20217845,더 수어사이드 스쿼드,2021-08-04,676797240,19.1,-127499190,-15.9,2942253950,63095,-12197,-16.2,281377,1033,3306,20220807
2,3,3,0,OLD,20218391,보스 베이비 2,2021-07-21,284206020,8.0,1506480,0.5,7511398580,30046,108,0.4,836805,777,1654,20220807
3,4,4,0,OLD,20191951,블랙 위도우,2021-07-07,194489780,5.5,-28197330,-12.7,29457331370,18740,-2673,-12.5,2908679,540,924,20220807
4,5,5,0,OLD,20218875,극장판 도라에몽: 진구의 신공룡,2021-08-05,88917620,2.5,-4415810,-4.7,337195080,9837,-612,-5.9,38669,502,781,20220807
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5,6,6,1,OLD,20209654,헤어질 결심,2022-06-29,169174033,1.7,-32677140,-16.2,18385176948,15203,-2798,-15.5,1775048,266,426,20220807
6,7,7,-1,OLD,20208446,외계+인 1부,2022-07-20,123965118,1.3,-98324419,-44.2,15629807451,11690,-7177,-38,1496931,374,499,20220807
7,8,8,0,OLD,20226107,극장판 도라에몽: 진구의 우주소전쟁 리틀스타워즈 2021,2022-08-03,77727199,0.8,2170399,2.9,346253298,7903,248,3.2,36417,357,466,20220807
8,9,9,0,OLD,20225237,명탐정 코난: 할로윈의 신부,2022-07-13,44635198,0.5,623298,1.4,4598589872,4122,13,0.3,442570,91,115,20220807


In [24]:
# 스크린당 평균 관객이 제일 많았던 영화를 뽑아주세요.
# 관객 총합 / 스크린 총합 = 스크린당 관객이 나옵니다.
# 컬럼 타입 object이므로, 집계함수를 쓸 수 있도록 int로 컬럼 전체 자료형을 바꿔줘야 합니다.
# 현재 수치데이터도 전부 문자로 간주되고 있기 때문에 int로 자료형을 바꿔서 계산해야함
merged_data['audiCnt'] = merged_data['audiCnt'].astype(int)
merged_data['scrnCnt'] = merged_data['scrnCnt'].astype(int) 
movie_table = merged_data.pivot_table(index='movieNm', values=['audiCnt', 'scrnCnt'], aggfunc='sum')
movie_table['screenMean'] = movie_table['audiCnt'] / movie_table['scrnCnt']
movie_table.sort_values(by='audiCnt', ascending=False)

Unnamed: 0_level_0,audiCnt,scrnCnt,screenMean
movieNm,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
범죄도시 2,12686014,81645,155.380170
스파이더맨: 노 웨이 홈,7541536,90668,83.177483
탑건: 매버릭,7448579,57863,128.727840
닥터 스트레인지: 대혼돈의 멀티버스,5880700,48993,120.031433
한산: 용의 출현,4597669,22656,202.933837
...,...,...,...
지지,334,1,334.000000
포 언투 어스,300,1,300.000000
맛있는 여동생,259,20,12.950000
아이 스틸 빌리브,217,2,108.500000


In [23]:
# 강사님 풀이 , 따로 나누는 이유는 내 풀이와의 차이점을 알고 다시 봤을때
# "이때 이런 실수를 했구나"를 알기 위함

# 스크린당 평균 관객이 제일 많았던 영화를 뽑아주세요.
# 관객 총합 / 스크린 총합 = 스크린당 관객이 나옵니다.
# 컬럼 타입 object이므로, 집계함수를 쓸 수 있도록 int로 컬럼 전체 자료형을 바꿔줘야 합니다.
# 현재 수치데이터도 전부 문자로 간주되고 있기 때문에 int로 자료형을 바꿔서 계산해야함

# 데이터 분석에서 가장 중요한 것은 쓸 데이터를 잘 뽑아내는 것이 정말 중요함
# 원하는 데이터를 원하는 곳에 가져오는 능력이 능숙해야 적절한 데이터 분석이 가능
merged_data['audiCnt'] = merged_data['audiCnt'].astype(int)
merged_data['scrnCnt'] = merged_data['scrnCnt'].astype(int) 
audi_scrn_sum = merged_data.pivot_table(index='movieNm', values=['audiCnt', 'scrnCnt'], aggfunc='sum').sort_values(by='audiCnt', ascending=False)
audi_scrn_sum['audiPerScrn'] = audi_scrn_sum['audiCnt'] / audi_scrn_sum['scrnCnt']
audi_scrn_sum

Unnamed: 0_level_0,audiCnt,scrnCnt,audiPerScrn
movieNm,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
범죄도시 2,12686014,81645,155.380170
스파이더맨: 노 웨이 홈,7541536,90668,83.177483
탑건: 매버릭,7448579,57863,128.727840
닥터 스트레인지: 대혼돈의 멀티버스,5880700,48993,120.031433
한산: 용의 출현,4597669,22656,202.933837
...,...,...,...
지지,334,1,334.000000
포 언투 어스,300,1,300.000000
맛있는 여동생,259,20,12.950000
아이 스틸 빌리브,217,2,108.500000


In [26]:
# 스크린당 관객수로 정렬해 가장 효율이 좋았던 영화들을 뽑아주세요.
# 집계대상의 스크린 개수는 최소 100개로 하겠습니다.
final_data = audi_scrn_sum[audi_scrn_sum['scrnCnt'] >= 100].sort_values(by=
                'audiPerScrn', ascending=False)
final_data

Unnamed: 0_level_0,audiCnt,scrnCnt,audiPerScrn
movieNm,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
한산: 용의 출현,4597669,22656,202.933837
비상선언,1367956,8395,162.948898
범죄도시 2,12686014,81645,155.380170
탑건: 매버릭,7448579,57863,128.727840
닥터 스트레인지: 대혼돈의 멀티버스,5880700,48993,120.031433
...,...,...,...
리디밍 러브,1442,224,6.437500
도어맨,2679,449,5.966592
드림걸즈,1243,212,5.863208
벨파스트,9355,1776,5.267455


In [27]:
# 스크린 개수가 50개 이상인 영화 중 스크린당 관객수가 평균이상인 영화만 나열해주세요.
final_data2 = final_data[(final_data['scrnCnt'] >= 50) & (final_data['audiPerScrn'] >= 26.8)].sort_values(by=
                'audiPerScrn', ascending=False).head(50)
final_data2

Unnamed: 0_level_0,audiCnt,scrnCnt,audiPerScrn
movieNm,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
한산: 용의 출현,4597669,22656,202.933837
비상선언,1367956,8395,162.948898
범죄도시 2,12686014,81645,155.38017
탑건: 매버릭,7448579,57863,128.72784
닥터 스트레인지: 대혼돈의 멀티버스,5880700,48993,120.031433
쥬라기 월드: 도미니언,2832531,24893,113.788254
마녀(魔女) Part2. The Other One,2795796,27322,102.327648
토르: 러브 앤 썬더,2711863,26516,102.272703
미니언즈2,1971475,19463,101.29348
스파이더맨: 노 웨이 홈,7541536,90668,83.177483


In [28]:
# csv로 export 하기
final_data2.to_csv('평균이상영화.csv', encoding='utf-8')

In [29]:
# excel로 export하기
final_data2.to_excel('평균이상영화.xlsx', encoding="utf-8")

# 가져온 데이터 mysql에 연동하기

- import pymysql
- 을 활용해서 연동할 수 있습니다.

- 임포트가 되지 않는다면 다시 설치를 해야합니다.
1. Anaconda Navigator에서 좌측 탭의 enviroments를 누릅니다.
2. Open terminal을 이용해 cmd창 같은 창을 켭니다.(터미널창이라고 부릅니다.)
3. pip install pymysql 을 입력하고 실행합니다.

### 오라클 연동

위와 같은데 3번에서 
- pip install cx_Oracle
- 을 대신 입력해서 설치하면 됩니다.

In [30]:
# pymysql 실행을 해야 DB와 연결할 수 있습니다.
import pymysql

In [31]:
# MySQL 연결에 필요한 정보를 입력합니다.
con = pymysql.connect(host='localhost', user='root', password='1111', db='pyprac', charset='utf8',
                        cursorclass=pymysql.cursors.DictCursor) # 컬럼명까지 받아올지 여부

In [32]:
# SQL 구문을 받아주는 cursor 객체를 사용합니다.
cur = con.cursor()

In [33]:
# SQL 구문은 문자로 cur.execute()를 실행해서 수행시킵니다.
cur.execute("SELECT * FROM test_tbl2")

7

In [34]:
# execute가 실행되면, cur가 데이터를 저장하고 있는데 이걸 파이썬 형식으로 빼야합니다.
mysql_data = cur.fetchall()

In [35]:
mysql_data # 딕셔너리 형태로 전달되는 것을 확인할 수 있습니다.

[{'tno': 1, 'tname': 'a'},
 {'tno': 2, 'tname': 'b'},
 {'tno': 3, 'tname': 'c'},
 {'tno': 4, 'tname': 'd'},
 {'tno': 5, 'tname': 'e'},
 {'tno': 6, 'tname': 'f'},
 {'tno': 7, 'tname': 'g'}]

In [36]:
# 데이터프레임 형태로 변환 
pd.DataFrame(mysql_data)

Unnamed: 0,tno,tname
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e
5,6,f
6,7,g


In [37]:
# 여러분들이 data 'g'를 넣어보세요.
cur.execute("INSERT INTO test_tbl2(tname) VALUES(null, 'g')")

OperationalError: (1136, "Column count doesn't match value count at row 1")

In [38]:
# 커서가 아닌 커넥션에 commit을 주는 것에 주의해주세요.
con.commit()

In [39]:
# 다시 select 구문을 날려서 DB에 추가되었는지 확인까지 해주세요
cur.execute("SELECT * FROM test_tbl2")

7

In [40]:
result_data = cur.fetchall()
pd.DataFrame(result_data)

Unnamed: 0,tno,tname
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e
5,6,f
6,7,g


In [41]:
merged_data.head()

Unnamed: 0,rnum,rank,rankInten,rankOldAndNew,movieCd,movieNm,openDt,salesAmt,salesShare,salesInten,salesChange,salesAcc,audiCnt,audiInten,audiChange,audiAcc,scrnCnt,showCnt,날짜
0,1,1,0,OLD,20204117,모가디슈,2021-07-28,2000829380,56.5,38859180,2.0,16579074530,196672,4041,2.1,1712375,1639,6757,20220807
1,2,2,0,OLD,20217845,더 수어사이드 스쿼드,2021-08-04,676797240,19.1,-127499190,-15.9,2942253950,63095,-12197,-16.2,281377,1033,3306,20220807
2,3,3,0,OLD,20218391,보스 베이비 2,2021-07-21,284206020,8.0,1506480,0.5,7511398580,30046,108,0.4,836805,777,1654,20220807
3,4,4,0,OLD,20191951,블랙 위도우,2021-07-07,194489780,5.5,-28197330,-12.7,29457331370,18740,-2673,-12.5,2908679,540,924,20220807
4,5,5,0,OLD,20218875,극장판 도라에몽: 진구의 신공룡,2021-08-05,88917620,2.5,-4415810,-4.7,337195080,9837,-612,-5.9,38669,502,781,20220807


In [42]:
# movie_tbl 데이터를 다 삭제하는 쿼리문을 날려주세요.
cur.execute("DELETE FROM movie_tbl")
con.commit()

In [43]:
con.commit()

In [44]:
# 로우개수
len(merged_data) # 3650번 반복해야 DB에 insert가 된다는걸 알 수 있음
# iloc[], loc[] 를 이용하면 특정 로우자료를 조회할 수 있고, 거기서 ['컬럼명']을 집어넣으면
# 특정 로우의 특정 컬럼값을 조회할 수 있습니다.
merged_data.iloc[4]['movieNm']

'극장판 도라에몽: 진구의 신공룡'

In [45]:
# 과제, MySQL이나 Oracle SQL에 현재 보고있는 db_insert데이터를
# 테이블 생성 및 반복문을 이용해서 다 DB에 넣어주시면 됩니다.
# 반복문을 이용해서 merged_data의 모든 데이터를 MySQL에 집어넣어주세요.
# 집어넣을 컬럼은 rnum, movieNm, openDt, audiCnt, showCnt, date
merged_data['rnum'] = merged_data['rnum'].astype(int)
merged_data['audiCnt'] = merged_data['audiCnt'].astype(int)
merged_data['scrnCnt'] = merged_data['scrnCnt'].astype(int) 
db_insert_data = merged_data[['rnum', 'movieNm', 'openDt', 'audiCnt', 'showCnt', '날짜']] # 데이터를 다음과 같이 정제시킨 것은 매우 좋았음
db_insert_data.iloc[0]['openDt'] # DataFrame형태의 데이터

'2021-07-28'

In [46]:
# 반복문을 통해 DB에 3650개의 데이터 넣기
for i in range(len(db_insert_data)):
    data = db_insert_data.iloc[i]
    
    # 각 데이터 가져오기
    movieNm = data['movieNm']
    openDt = data['openDt']
    audiCnt = data['audiCnt']
    showCnt = data['showCnt']
    date = data['날짜']
    # 쿼리문 작성
    cur.execute("INSERT INTO movie_tbl(movieNm, openDt, audiCnt, showCnt, dataDate) VALUES('%s', '%s', %s, %s, '%s')" % (movieNm, openDt, audiCnt, showCnt, date))

# 커서가 아닌 커넥션에 commit을 주는 것에 주의해주세요.
con.commit()

OperationalError: (1292, "Incorrect date value: ' ' for column 'openDt' at row 1")

In [47]:
# 강사님 풀이

# 과제, MySQL이나 Oracle SQL에 현재 보고있는 db_insert데이터를
# 테이블 생성 및 반복문을 이용해서 다 DB에 넣어주시면 됩니다.
# 반복문을 이용해서 merged_data의 모든 데이터를 MySQL에 집어넣어주세요.
# 집어넣을 컬럼은 rnum, movieNm, openDt, audiCnt, showCnt, date

In [48]:
cur.execute("INSERT INTO movie_tbl(movieNm, openDt, audiCnt, showCnt, dataDate) VALUES('%s', '%s', %s, %s, '%s')" % ("테스트", '2022-08-10', 300, 1, '20220810'))

1

In [49]:
con.commit()

In [50]:
# merged_data변수 내부의 영화 제목만 한 줄 한 줄 콘솔에 찍어보세요.
# len() 을 이용해 데이터프레임의 로우 개수를 구할 수 있습니다.
range(len(merged_data))
# 위 range를 이용해 iloc[번호]로 로우를 순서대로 조회가능합니다.
for i in range(len(merged_data)):      
    selected_data = merged_data.iloc[i]
    print((selected_data['movieNm']))
    # 나머지(개봉일, 관객수, 상영수, 데이터 날짜)
    print((selected_data['openDt']))
    print((selected_data['audiCnt']))
    print((selected_data['showCnt']))
    print((selected_data['날짜']))
    print("--------------------------------------")


모가디슈
2021-07-28
196672
6757
20220807
--------------------------------------
더 수어사이드 스쿼드
2021-08-04
63095
3306
20220807
--------------------------------------
보스 베이비 2
2021-07-21
30046
1654
20220807
--------------------------------------
블랙 위도우
2021-07-07
18740
924
20220807
--------------------------------------
극장판 도라에몽: 진구의 신공룡
2021-08-05
9837
781
20220807
--------------------------------------
정글 크루즈
2021-07-28
9825
704
20220807
--------------------------------------
방법: 재차의
2021-07-28
5122
427
20220807
--------------------------------------
블랙핑크 더 무비
2021-08-04
3081
194
20220807
--------------------------------------
그린 나이트
2021-08-05
1855
234
20220807
--------------------------------------
랑종
2021-07-14
1508
105
20220807
--------------------------------------
모가디슈
2021-07-28
75348
6247
20220807
--------------------------------------
더 수어사이드 스쿼드
2021-08-04
24477
3007
20220807
--------------------------------------
보스 베이비 2
2021-07-21
9547
1315
20220807
------------------------------

기적
2021-09-15
1594
10
20220807
--------------------------------------
귀문
2021-08-25
1026
126
20220807
--------------------------------------
샹치와 텐 링즈의 전설
2021-09-01
43484
5731
20220807
--------------------------------------
인질
2021-08-18
15039
2334
20220807
--------------------------------------
모가디슈
2021-07-28
13792
1881
20220807
--------------------------------------
싱크홀
2021-08-11
6104
1272
20220807
--------------------------------------
맨 인 더 다크 2
2021-09-01
3851
529
20220807
--------------------------------------
보이스
2021-09-15
2449
21
20220807
--------------------------------------
코다
2021-08-31
2208
364
20220807
--------------------------------------
최선의 삶
2021-09-01
651
123
20220807
--------------------------------------
여름날 우리
2021-08-25
628
118
20220807
--------------------------------------
프리 가이 
2021-08-11
347
58
20220807
--------------------------------------
샹치와 텐 링즈의 전설
2021-09-01
41445
5240
20220807
--------------------------------------
인질
2021-08-18
13096
2106
202208

샹치와 텐 링즈의 전설
2021-09-01
4095
408
20220807
--------------------------------------
용과 주근깨 공주
2021-09-29
3876
367
20220807
--------------------------------------
모가디슈
2021-07-28
2550
303
20220807
--------------------------------------
매직 스쿨: 초보마법사 아우라의 대모험
2021-10-07
2525
230
20220807
--------------------------------------
스틸워터
2021-10-06
1991
469
20220807
--------------------------------------
007 노 타임 투 다이
2021-09-29
17465
3966
20220807
--------------------------------------
보이스
2021-09-15
8200
1880
20220807
--------------------------------------
기적
2021-09-15
4624
1130
20220807
--------------------------------------
F20
2021-10-06
4154
263
20220807
--------------------------------------
노회찬6411
2021-10-14
2602
26
20220807
--------------------------------------
스틸워터
2021-10-06
1721
422
20220807
--------------------------------------
모가디슈
2021-07-28
1078
251
20220807
--------------------------------------
샹치와 텐 링즈의 전설
2021-09-01
1032
287
20220807
--------------------------------------
용과

3459
107
20220807
--------------------------------------
고장난 론
2021-10-27
2268
389
20220807
--------------------------------------
강릉
2021-11-10
936
7
20220807
--------------------------------------
기적
2021-09-15
897
88
20220807
--------------------------------------
보이스
2021-09-15
655
152
20220807
--------------------------------------
싱크홀
2021-08-11
520
2
20220807
--------------------------------------
빌리 홀리데이
2021-11-04
433
87
20220807
--------------------------------------
이터널스
2021-11-03
84299
9046
20220807
--------------------------------------
듄
2021-10-20
18998
1628
20220807
--------------------------------------
베놈 2: 렛 데어 비 카니지
2021-10-13
6271
1060
20220807
--------------------------------------
고장난 론
2021-10-27
2767
446
20220807
--------------------------------------
디어 에반 핸슨
2021-11-17
1300
9
20220807
--------------------------------------
보이스
2021-09-15
939
178
20220807
--------------------------------------
강릉
2021-11-10
795
7
20220807
------------------------------------

2021-11-24
15882
3030
20220807
--------------------------------------
연애 빠진 로맨스
2021-11-24
12404
2261
20220807
--------------------------------------
엔칸토: 마법의 세계
2021-11-24
8612
1441
20220807
--------------------------------------
고스트버스터즈 라이즈
2021-12-01
4929
1256
20220807
--------------------------------------
듄
2021-10-20
4821
554
20220807
--------------------------------------
태일이
2021-12-01
2945
450
20220807
--------------------------------------
라스트 나잇 인 소호
2021-12-01
2253
732
20220807
--------------------------------------
이터널스
2021-11-03
2171
476
20220807
--------------------------------------
장르만 로맨스
2021-11-17
1522
401
20220807
--------------------------------------
킬링 카인드: 킬러의 수제자
2021-12-01
1062
156
20220807
--------------------------------------
유체이탈자
2021-11-24
14168
2888
20220807
--------------------------------------
연애 빠진 로맨스
2021-11-24
13418
2368
20220807
--------------------------------------
돈 룩 업
2021-12-08
12265
1940
20220807
--------------------------------------
엔

50399
4314
20220807
--------------------------------------
씽2게더
2022-01-05
44221
3156
20220807
--------------------------------------
킹스맨: 퍼스트 에이전트
2021-12-22
13916
1481
20220807
--------------------------------------
해피 뉴 이어
2021-12-29
4152
643
20220807
--------------------------------------
특송
2022-01-12
1213
4
20220807
--------------------------------------
드라이브 마이 카
2021-12-23
1013
99
20220807
--------------------------------------
피드백
2022-01-05
748
41
20220807
--------------------------------------
램
2021-12-29
329
49
20220807
--------------------------------------
엔칸토: 마법의 세계
2021-11-24
291
24
20220807
--------------------------------------
스파이더맨: 노 웨이 홈
2021-12-15
47165
4256
20220807
--------------------------------------
경관의 피
2022-01-05
45201
4291
20220807
--------------------------------------
씽2게더
2022-01-05
33707
3113
20220807
--------------------------------------
킹스맨: 퍼스트 에이전트
2021-12-22
13327
1455
20220807
--------------------------------------
해피 뉴 이어
2021-12-29
3803
6

씽2게더
2022-01-05
5370
912
20220807
--------------------------------------
극장판 안녕 자두야: 제주도의 비밀
2022-01-27
3375
592
20220807
--------------------------------------
프리! 더 파이널 스트로크 전편
2022-01-20
885
50
20220807
--------------------------------------
어나더 라운드
2022-01-19
822
72
20220807
--------------------------------------
하우스 오브 구찌
2022-01-12
807
97
20220807
--------------------------------------
타오르는 여인의 초상
2020-01-16
782
30
20220807
--------------------------------------
인어가 잠든 집
2022-01-28
751
73
20220807
--------------------------------------
해적: 도깨비 깃발
2022-01-26
34420
5514
20220807
--------------------------------------
킹메이커
2022-01-26
21662
3618
20220807
--------------------------------------
스파이더맨: 노 웨이 홈
2021-12-15
10277
1484
20220807
--------------------------------------
씽2게더
2022-01-05
5335
934
20220807
--------------------------------------
극장판 안녕 자두야: 제주도의 비밀
2022-01-27
3238
578
20220807
--------------------------------------
하우스 오브 구찌
2022-01-12
1023
101
20220807
------------

2022-02-23
3830
497
20220807
--------------------------------------
해적: 도깨비 깃발
2022-01-26
3617
188
20220807
--------------------------------------
나이트메어 앨리
2022-02-23
2211
275
20220807
--------------------------------------
극장판 바다 탐험대 옥토넛 : 해저동굴 대탈출	
2022-02-17
1842
159
20220807
--------------------------------------
스파이더맨: 노 웨이 홈
2021-12-15
1606
105
20220807
--------------------------------------
씽2게더
2022-01-05
1269
92
20220807
--------------------------------------
더 배트맨
2022-03-01
38915
6288
20220807
--------------------------------------
극장판 주술회전 0
2022-02-17
4966
921
20220807
--------------------------------------
언차티드
2022-02-16
4820
1207
20220807
--------------------------------------
이상한 나라의 수학자
2022-03-09
4685
43
20220807
--------------------------------------
안테벨룸
2022-02-23
2122
458
20220807
--------------------------------------
인민을 위해 복무하라
2022-02-23
1641
455
20220807
--------------------------------------
나이트메어 앨리
2022-02-23
1001
196
20220807
----------------------------

--------------------------------------
벨파스트
2022-03-23
1353
403
20220807
--------------------------------------
킹 리차드
2022-03-24
927
249
20220807
--------------------------------------
해적: 도깨비 깃발
2022-01-26
900
3
20220807
--------------------------------------
뜨거운 피
2022-03-23
28780
4447
20220807
--------------------------------------
이상한 나라의 수학자
2022-03-09
8114
1815
20220807
--------------------------------------
더 배트맨
2022-03-01
5373
1031
20220807
--------------------------------------
문폴
2022-03-16
4275
1334
20220807
--------------------------------------
극장판 주술회전 0
2022-02-17
3821
843
20220807
--------------------------------------
스펜서
2022-03-16
2407
566
20220807
--------------------------------------
벨파스트
2022-03-23
1150
392
20220807
--------------------------------------
뱅드림! 팝핀' 드림!
2022-03-24
774
165
20220807
--------------------------------------
킹 리차드
2022-03-24
715
235
20220807
--------------------------------------
리디밍 러브
2022-03-23
702
135
20220807
-----------------------

스텔라
2022-04-06
4957
827
20220807
--------------------------------------
앰뷸런스
2022-04-06
4502
780
20220807
--------------------------------------
뜨거운 피
2022-03-23
1541
204
20220807
--------------------------------------
루이스 웨인: 사랑을 그린 고양이 화가
2022-04-06
1354
229
20220807
--------------------------------------
말임씨를 부탁해
2022-04-13
1272
255
20220807
--------------------------------------
복지식당
2022-04-14
399
69
20220807
--------------------------------------
신비한 동물들과 덤블도어의 비밀
2022-04-13
120508
8172
20220807
--------------------------------------
수퍼 소닉2
2022-04-06
31064
2066
20220807
--------------------------------------
모비우스
2022-03-30
6619
924
20220807
--------------------------------------
스텔라
2022-04-06
4751
806
20220807
--------------------------------------
앰뷸런스
2022-04-06
3821
736
20220807
--------------------------------------
극장판 주술회전 0
2022-02-17
2631
209
20220807
--------------------------------------
뜨거운 피
2022-03-23
1479
194
20220807
--------------------------------------
말임씨를 부

--------------------------------------
우연과 상상
2022-05-04
796
92
20220807
--------------------------------------
광대: 소리꾼
2022-02-24
565
6
20220807
--------------------------------------
앵커
2022-04-20
517
40
20220807
--------------------------------------
공기살인
2022-04-22
360
72
20220807
--------------------------------------
닥터 스트레인지: 대혼돈의 멀티버스
2022-05-04
139123
11270
20220807
--------------------------------------
니 부모 얼굴이 보고 싶다
2022-04-27
6080
987
20220807
--------------------------------------
배드 가이즈
2022-05-04
3834
966
20220807
--------------------------------------
신비한 동물들과 덤블도어의 비밀
2022-04-13
3235
642
20220807
--------------------------------------
극장판 엉덩이 탐정: 수플레 섬의 비밀
2022-05-05
1464
294
20220807
--------------------------------------
서울괴담
2022-04-27
1286
207
20220807
--------------------------------------
우연과 상상
2022-05-04
928
98
20220807
--------------------------------------
봄날
2022-04-27
890
23
20220807
--------------------------------------
광대: 소리꾼
2022-02-24
612
5
20220807


2022-04-27
1015
7
20220807
--------------------------------------
뜨거운 피: 디 오리지널
2022-05-26
1000
22
20220807
--------------------------------------
범죄도시 2
2022-05-18
219326
6366
20220807
--------------------------------------
쥬라기 월드: 도미니언
2022-06-01
152450
8611
20220807
--------------------------------------
그대가 조국
2022-05-25
10809
264
20220807
--------------------------------------
극장판 포켓몬스터DP: 기라티나와 하늘의 꽃다발 쉐이미
2022-06-01
7429
741
20220807
--------------------------------------
닥터 스트레인지: 대혼돈의 멀티버스
2022-05-04
5812
267
20220807
--------------------------------------
카시오페아
2022-06-01
2483
252
20220807
--------------------------------------
애프터 양
2022-06-01
1798
252
20220807
--------------------------------------
니 부모 얼굴이 보고 싶다
2022-04-27
1648
13
20220807
--------------------------------------
더 컨트랙터
2022-04-28
1468
8
20220807
--------------------------------------
봄날
2022-04-27
1427
8
20220807
--------------------------------------
범죄도시 2
2022-05-18
466932
7648
20220807
-----------------

20220807
--------------------------------------
탑건: 매버릭
2022-06-22
225696
6302
20220807
--------------------------------------
헤어질 결심
2022-06-29
76354
5032
20220807
--------------------------------------
마녀(魔女) Part2. The Other One
2022-06-15
52313
2415
20220807
--------------------------------------
범죄도시 2
2022-05-18
48236
2153
20220807
--------------------------------------
버즈 라이트이어
2022-06-15
4012
135
20220807
--------------------------------------
브로커
2022-06-08
3435
203
20220807
--------------------------------------
위대한 침묵
2022-06-29
1495
56
20220807
--------------------------------------
컴온 컴온
2022-06-30
1249
204
20220807
--------------------------------------
쥬라기 월드: 도미니언
2022-06-01
1068
63
20220807
--------------------------------------
비욘드 라이브 더 무비 : 샤이니 월드
2022-06-29
873
16
20220807
--------------------------------------
탑건: 매버릭
2022-06-22
480279
7224
20220807
--------------------------------------
헤어질 결심
2022-06-29
132535
4466
20220807
--------------------------------------

2303
184
20220807
--------------------------------------
썸머 필름을 타고!
2022-07-20
1599
98
20220807
--------------------------------------
엘비스
2022-07-13
1146
52
20220807
--------------------------------------
그레이 맨
2022-07-13
860
61
20220807
--------------------------------------
외계+인 1부
2022-07-20
253707
6967
20220807
--------------------------------------
미니언즈2
2022-07-20
253053
6051
20220807
--------------------------------------
탑건: 매버릭
2022-06-22
181301
3276
20220807
--------------------------------------
헤어질 결심
2022-06-29
53056
1212
20220807
--------------------------------------
토르: 러브 앤 썬더
2022-07-06
28708
928
20220807
--------------------------------------
명탐정 코난: 할로윈의 신부
2022-07-13
21617
638
20220807
--------------------------------------
범죄도시 2
2022-05-18
3516
173
20220807
--------------------------------------
엘비스
2022-07-13
2399
48
20220807
--------------------------------------
썸머 필름을 타고!
2022-07-20
2143
98
20220807
--------------------------------------
한산: 용의 출현
2022-07-27

In [51]:
# 날짜형으로 바꾸고 싶은 컬럼을 pd.to_datetime()에 넣어주면 변환됩니다.
merged_data['openDt'] = merged_data['openDt'].astype('datetime64[ns]')

ParserError: String does not contain a date:  

In [52]:
# 날짜가 안 들어가는 이유는, 개봉날짜가 빈 칸으로(날짜 형식이 아닌) 집계되는 부분이 있어서입니다.
# 따라서 결측치나 이상값을 집계 가능한 값으로 돌려놓고(ex.1900-01-01) 다시 insert를 하면 됩니다.
# 반복문으로 인덱스번호, 날짜 형식으로 출력하도록 해서 몇 번 인덱스가 결측치인지 파악해보겠습니다.
for i in range(len(merged_data)):
    print(i, merged_data['openDt'].iloc[i])

0 2021-07-28
1 2021-08-04
2 2021-07-21
3 2021-07-07
4 2021-08-05
5 2021-07-28
6 2021-07-28
7 2021-08-04
8 2021-08-05
9 2021-07-14
10 2021-07-28
11 2021-08-04
12 2021-07-21
13 2021-07-07
14 2021-07-28
15 2021-08-11
16 2021-08-05
17 2021-07-28
18 2021-08-05
19 2021-07-14
20 2021-07-28
21 2021-08-04
22 2021-07-21
23 2021-07-07
24 2021-08-05
25 2021-07-28
26 2021-08-11
27 2021-07-28
28 2021-08-05
29 2021-07-14
30 2021-08-11
31 2021-07-28
32 2021-08-11
33 2021-08-04
34 2021-07-21
35 2021-07-07
36 2021-08-05
37 2021-08-05
38 2021-08-04
39 2021-08-19
40 2021-08-11
41 2021-07-28
42 2021-08-11
43 2021-08-04
44 2020-01-23
45 2021-07-21
46 2021-07-07
47 2021-08-05
48 2021-06-30
49 2021-08-05
50 2021-08-11
51 2021-07-28
52 2021-08-11
53 2021-08-04
54 2021-07-21
55 2021-07-07
56 2021-08-18
57 2020-01-23
58 2021-08-05
59 2021-06-09
60 2021-08-11
61 2021-07-28
62 2021-08-11
63 2021-08-04
64 2021-07-21
65 2021-07-07
66 2021-08-05
67 2020-01-23
68 2021-06-23
69 2021-08-18
70 2021-08-11
71 2021-07-28
72

1104 2021-11-17
1105 2021-10-20
1106 2021-11-18
1107 2021-11-24
1108 2021-11-17
1109 2021-11-10
1110 2021-11-24
1111 2021-11-24
1112 2021-11-24
1113 2021-11-03
1114 2021-11-17
1115 2021-10-20
1116 2021-11-18
1117 2021-11-17
1118 2021-11-18
1119 2021-11-17
1120 2021-11-24
1121 2021-11-24
1122 2021-11-24
1123 2021-11-03
1124 2021-11-17
1125 2021-10-20
1126 2021-11-18
1127 2021-11-17
1128 2021-11-10
1129 2021-11-17
1130 2021-11-24
1131 2021-11-24
1132 2021-11-24
1133 2021-11-03
1134 2021-11-17
1135 2021-10-20
1136 2021-11-24
1137 2021-11-18
1138 2021-11-17
1139 2021-12-01
1140 2021-11-24
1141 2021-11-24
1142 2021-11-24
1143 2021-11-03
1144 2021-11-17
1145 2021-10-20
1146 2021-11-18
1147 2021-11-17
1148 2021-11-10
1149 2021-11-24
1150 2021-11-24
1151 2021-11-24
1152 2021-12-01
1153 2021-11-24
1154 2021-12-01
1155 2021-10-20
1156 2021-12-01
1157 2021-12-01
1158 2021-11-03
1159 2021-11-17
1160 2021-11-24
1161 2021-11-24
1162 2021-11-24
1163 2021-12-01
1164 2021-10-20
1165 2021-12-01
1166 202

2211 2022-03-09
2212 2022-03-01
2213 2022-03-16
2214 2022-02-17
2215 2022-03-16
2216 2022-03-09
2217 2022-02-16
2218 2022-02-09
2219 2022-03-16
2220 2022-03-16
2221 2022-03-09
2222 2022-03-01
2223 2022-03-16
2224 2022-02-17
2225 2022-03-16
2226 2022-02-16
2227 2022-03-16
2228 2022-02-23
2229 2022-03-16
2230 2022-03-16
2231 2022-03-09
2232 2022-03-01
2233 2022-03-16
2234 2022-02-17
2235 2022-03-09
2236 2022-03-16
2237 2022-02-16
2238 2022-03-16
2239 2022-02-23
2240 2022-03-09
2241 2022-03-16
2242 2022-03-01
2243 2022-03-16
2244 2022-02-17
2245 2022-03-09
2246 2022-03-16
2247 2022-02-16
2248 2022-03-16
2249 2022-02-23
2250 2022-03-09
2251 2022-03-16
2252 2022-03-01
2253 2022-03-16
2254 2022-02-17
2255 2022-03-16
2256 2022-03-09
2257 2022-03-16
2258 2022-01-26
2259 2022-03-16
2260 2022-03-09
2261 2022-03-16
2262 2022-03-01
2263 2022-03-16
2264 2022-03-23
2265 2022-02-17
2266 2022-03-16
2267 2022-01-26
2268 2022-03-16
2269 2022-03-09
2270 2022-03-23
2271 2022-03-09
2272 2022-03-16
2273 202

3315 2022-06-15
3316 2022-07-06
3317 2022-05-25
3318 2022-06-30
3319 2022-06-29
3320 2022-07-06
3321 2022-06-22
3322 2022-06-29
3323 2022-05-18
3324 2022-06-15
3325 2022-07-06
3326 2022-06-08
3327 2022-06-15
3328 2022-07-06
3329 2022-06-16
3330 2022-07-06
3331 2022-06-22
3332 2022-06-29
3333 2022-05-18
3334 2022-06-15
3335 2022-07-06
3336 2022-06-30
3337 2022-07-06
3338  
3339  
3340 2022-07-06
3341 2022-06-22
3342 2022-06-29
3343 2022-05-18
3344 2022-06-15
3345 2022-07-06
3346 2022-07-06
3347  
3348  
3349 2022-05-25
3350 2022-07-06
3351 2022-06-22
3352 2022-06-29
3353 2022-05-18
3354 2022-06-15
3355 2022-07-06
3356 2022-07-06
3357  
3358  
3359  
3360 2022-07-06
3361 2022-06-22
3362 2022-06-29
3363 2022-05-18
3364 2022-06-15
3365 2022-07-06
3366 2022-07-06
3367 2022-06-15
3368  
3369  
3370 2022-07-06
3371 2022-06-22
3372 2022-06-29
3373 2022-05-18
3374 2022-06-15
3375 2022-07-06
3376  
3377  
3378 2022-07-06
3379 2022-07-13
3380 2022-06-22
3381 2022-07-06
3382 2022-06-29
3383 2022-0

In [53]:
# 조건색인으로 날짜가 빈 요소만 체크해서 1900-01-01로 집어넣어보세요.
merged_data['openDt'][merged_data['openDt'] == ' '] = '1900-01-01'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  merged_data['openDt'][merged_data['openDt'] == ' '] = '1900-01-01'


In [54]:
# 뱅드림 팝핀 드림 찾아서 ' 를 제거해주세요.
# 힌트 : .str.contains("'") 을 이용해 해당 요소에 홀따옴표가 포함되었는지 True False로 받을 수 있습니다.
merged_data['movieNm'][merged_data['movieNm'].str.contains("'")]

6    뱅드림! 팝핀' 드림!
7    뱅드림! 팝핀' 드림!
8    뱅드림! 팝핀' 드림!
7    뱅드림! 팝핀' 드림!
9    뱅드림! 팝핀' 드림!
Name: movieNm, dtype: object

In [55]:
# 인덱스가 365일치를 겹쳐서 받아오기 때문에 중복인덱스가 생기므로, 초기화
merged_data = merged_data.reset_index()
merged_data

Unnamed: 0,index,rnum,rank,rankInten,rankOldAndNew,movieCd,movieNm,openDt,salesAmt,salesShare,salesInten,salesChange,salesAcc,audiCnt,audiInten,audiChange,audiAcc,scrnCnt,showCnt,날짜
0,0,1,1,0,OLD,20204117,모가디슈,2021-07-28,2000829380,56.5,38859180,2,16579074530,196672,4041,2.1,1712375,1639,6757,20220807
1,1,2,2,0,OLD,20217845,더 수어사이드 스쿼드,2021-08-04,676797240,19.1,-127499190,-15.9,2942253950,63095,-12197,-16.2,281377,1033,3306,20220807
2,2,3,3,0,OLD,20218391,보스 베이비 2,2021-07-21,284206020,8.0,1506480,0.5,7511398580,30046,108,0.4,836805,777,1654,20220807
3,3,4,4,0,OLD,20191951,블랙 위도우,2021-07-07,194489780,5.5,-28197330,-12.7,29457331370,18740,-2673,-12.5,2908679,540,924,20220807
4,4,5,5,0,OLD,20218875,극장판 도라에몽: 진구의 신공룡,2021-08-05,88917620,2.5,-4415810,-4.7,337195080,9837,-612,-5.9,38669,502,781,20220807
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3645,5,6,6,1,OLD,20209654,헤어질 결심,2022-06-29,169174033,1.7,-32677140,-16.2,18385176948,15203,-2798,-15.5,1775048,266,426,20220807
3646,6,7,7,-1,OLD,20208446,외계+인 1부,2022-07-20,123965118,1.3,-98324419,-44.2,15629807451,11690,-7177,-38,1496931,374,499,20220807
3647,7,8,8,0,OLD,20226107,극장판 도라에몽: 진구의 우주소전쟁 리틀스타워즈 2021,2022-08-03,77727199,0.8,2170399,2.9,346253298,7903,248,3.2,36417,357,466,20220807
3648,8,9,9,0,OLD,20225237,명탐정 코난: 할로윈의 신부,2022-07-13,44635198,0.5,623298,1.4,4598589872,4122,13,0.3,442570,91,115,20220807


In [56]:
# 특정 요소에 특정한 문자가 포함되었는지는 
# .str.contains("조회문자") 형식으로 확인 가능합니다.
merged_data[['rnum', 'movieNm']][merged_data['movieNm'].str.contains("'")]

Unnamed: 0,rnum,movieNm
2286,7,뱅드림! 팝핀' 드림!
2297,8,뱅드림! 팝핀' 드림!
2308,9,뱅드림! 팝핀' 드림!
2317,8,뱅드림! 팝핀' 드림!
2379,10,뱅드림! 팝핀' 드림!


In [57]:
# 위의 방식으로 우리가 수정해야할 movieNm의 인덱스번호만 얻어올 수 있음
target_rnum = merged_data[['rnum', 'movieNm']][merged_data['movieNm'].str.contains("'")].index

In [58]:
target_rnum

Int64Index([2286, 2297, 2308, 2317, 2379], dtype='int64')

In [59]:
for i in target_rnum:
    merged_data.iloc[i]['movieNm'] =  merged_data['movieNm'][merged_data['movieNm'].str.contains("'")].str.replace("'", " ")

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  merged_data.iloc[i]['movieNm'] =  merged_data['movieNm'][merged_data['movieNm'].str.contains("'")].str.replace("'", " ")


In [60]:
merged_data.iloc[target_rnum]

Unnamed: 0,index,rnum,rank,rankInten,rankOldAndNew,movieCd,movieNm,openDt,salesAmt,salesShare,salesInten,salesChange,salesAcc,audiCnt,audiInten,audiChange,audiAcc,scrnCnt,showCnt,날짜
2286,6,7,7,0,NEW,20224069,뱅드림! 팝핀' 드림!,2022-03-24,13856540,2.3,13856540,100.0,13856540,1444,1444,100.0,1444,104,210,20220807
2297,7,8,8,-1,OLD,20224069,뱅드림! 팝핀' 드림!,2022-03-24,8210700,1.4,-5645840,-40.7,22067240,774,-670,-46.4,2218,89,165,20220807
2308,8,9,9,-1,OLD,20224069,뱅드림! 팝핀' 드림!,2022-03-24,14980130,0.9,6769430,82.4,37047370,1531,757,97.8,3749,105,197,20220807
2317,7,8,8,1,OLD,20224069,뱅드림! 팝핀' 드림!,2022-03-24,12110600,0.9,-2869530,-19.2,49157970,1216,-315,-20.6,4965,102,184,20220807
2379,9,10,10,5,OLD,20224069,뱅드림! 팝핀' 드림!,2022-03-24,8868760,0.6,5754260,184.8,68896440,856,563,192.2,6916,61,78,20220807


In [61]:
# apply()를 이용한 전처리
# .apply()는 데이터프레임에 적용해서, 사용자가 전처리 형식을 직접 지정해 적용할 수 있도록 도와줍니다.
# 함수를 이용해 처리합니다.
# 지금같은경우, '가 포함된 문자열을 '를 제거한 형태로 바꾸려 하므로 해당 로직을 함수로 만들어 저장하고
# 그 다음 적용하고 싶은 컬럼에 .apply()를 걸어 적용하면 됩니다.

In [62]:
# 요소를 읽어서, '가 포함된 경우 삭제한 다음 리턴하는 함수 작성
def deletion_char(target):
    return target.replace("'", "")

In [63]:
# 함수가 만들어졌으면, 수정해줄 컬럼을 지정하고, 거기에 apply()를 쓴 다음 함수명을 내부에 파라미터로 줍니다.
merged_data['movieNm'] = merged_data['movieNm'].apply(deletion_char)

In [64]:
merged_data.iloc[target_rnum]

Unnamed: 0,index,rnum,rank,rankInten,rankOldAndNew,movieCd,movieNm,openDt,salesAmt,salesShare,salesInten,salesChange,salesAcc,audiCnt,audiInten,audiChange,audiAcc,scrnCnt,showCnt,날짜
2286,6,7,7,0,NEW,20224069,뱅드림! 팝핀 드림!,2022-03-24,13856540,2.3,13856540,100.0,13856540,1444,1444,100.0,1444,104,210,20220807
2297,7,8,8,-1,OLD,20224069,뱅드림! 팝핀 드림!,2022-03-24,8210700,1.4,-5645840,-40.7,22067240,774,-670,-46.4,2218,89,165,20220807
2308,8,9,9,-1,OLD,20224069,뱅드림! 팝핀 드림!,2022-03-24,14980130,0.9,6769430,82.4,37047370,1531,757,97.8,3749,105,197,20220807
2317,7,8,8,1,OLD,20224069,뱅드림! 팝핀 드림!,2022-03-24,12110600,0.9,-2869530,-19.2,49157970,1216,-315,-20.6,4965,102,184,20220807
2379,9,10,10,5,OLD,20224069,뱅드림! 팝핀 드림!,2022-03-24,8868760,0.6,5754260,184.8,68896440,856,563,192.2,6916,61,78,20220807


In [77]:
# 위의 반복문 코드를 응용해 전체 데이터를 다 DB에 넣고 확인해주세요.

for i in range(len(merged_data)):      
    selected_row = merged_data.iloc[i]
    movieNm = selected_row['movieNm']
    # 나머지(개봉일, 관객수, 상영수, 데이터 날짜)
    openDt = selected_row['openDt']
    audiCnt = selected_row['audiCnt']
    showCnt = selected_row['showCnt']
    datadate = selected_row['날짜']
    cur.execute("INSERT INTO movie_tbl(movieNm, openDt, audiCnt, showCnt, dataDate) VALUES('%s', '%s', %s, %s, '%s')" % (selected_row['movieNm'], selected_row['openDt'], selected_row['audiCnt'], selected_row['showCnt'], selected_row['날짜']))
con.commit()    

In [66]:
# 강사님 트러블 슈팅, 10월 23일 날짜 오류에 대해서, 해당 문제에 대해서 오류가 발생하지 않았기 때문에 참고만 할 것
# apply로 해결
def set_date(target):
    if(target == ' '):
        return '1900-01-01'
    return target

In [67]:
# 조건색인으로 2021년 10월 23일 데이터를 다시봅니다.
merged_data['openDt'] = merged_data['openDt'].apply(set_date)

In [68]:
merged_data['openDt']

0       2021-07-28
1       2021-08-04
2       2021-07-21
3       2021-07-07
4       2021-08-05
           ...    
3645    2022-06-29
3646    2022-07-20
3647    2022-08-03
3648    2022-07-13
3649    2022-08-10
Name: openDt, Length: 3650, dtype: object

In [69]:
merged_data.iloc[768]['openDt']

'1900-01-01'

In [70]:
# SELECT 구문 날려서 DataFrame으로 다시 받아오기
cur.execute("SELECT * FROM movie_tbl WHERE rnum > 8800")
con.commit()

In [71]:
db_data = cur.fetchall()

In [72]:
pd.DataFrame(db_data)

Unnamed: 0,rnum,movieNm,openDt,audiCnt,showCnt,dataDate
0,16138,모가디슈,2021-07-28,196672,6757,2022-08-07
1,16139,더 수어사이드 스쿼드,2021-08-04,63095,3306,2022-08-07
2,16140,보스 베이비 2,2021-07-21,30046,1654,2022-08-07
3,16141,블랙 위도우,2021-07-07,18740,924,2022-08-07
4,16142,극장판 도라에몽: 진구의 신공룡,2021-08-05,9837,781,2022-08-07
...,...,...,...,...,...,...
4414,20552,헤어질 결심,2022-06-29,15203,426,2022-08-07
4415,20553,외계+인 1부,2022-07-20,11690,499,2022-08-07
4416,20554,극장판 도라에몽: 진구의 우주소전쟁 리틀스타워즈 2021,2022-08-03,7903,466,2022-08-07
4417,20555,명탐정 코난: 할로윈의 신부,2022-07-13,4122,115,2022-08-07


In [73]:
con.commit()

# 위 로직을 똑같이 오라클에서도 활용할 수 있습니다. 직접 해 보세요.

In [79]:
# Oracle DB와의 연동
import cx_Oracle

In [85]:
# Oracle 연동
# 11버전은 localhost:1521/XE
# 18버전은 localhost:1521/XEPDB1
con_oracle = cx_Oracle.connect("mytest", "mytest", "localhost:1521/XEPDB1")

In [81]:
# 커서 얻어온 뒤부터는 mysql과 동일하게 cur.fetchall()등을 이용해 처리할 수 있음
cur_oracle = con_oracle.cursor()

In [87]:
# oracle을 켜서 테이블을 똑같이 만들어주시고, 위의 mysql로직에서 얻어온 merged_data를 역시
# oracle DB에도 적재해주시고 다시 꺼내서 DataFrame화를 시켜주시면 됩니다.
#위의 반복문 코드를 응용해 전체 데이터를 다 DB에 넣고 확인해주세요.
for i in range(len(merged_data)):
    selected_row = merged_data.iloc[i]
    cur_oracle.execute("INSERT INTO movie_tbl VALUES (movieNum.nextval, '%s', '%s', %s, %s, '%s')" % (selected_row['movieNm'], 
                                                                                                                           selected_row['openDt'], 
                                                                                                                           selected_row['audiCnt'], 
                                                                                                                           selected_row['showCnt'], 
                                                                                                                           selected_row['date']))
con_oracle.commit()