# ⬛ api 크롤링

- 기존의 크롤링 방식은 아래와 같은 방법으로 데이터를 가지고 오는 방식이었습니다.

    - 1. 내가 직접 홈페이지에 브라우저를 켜서 접근하거나(selenium) 

    - 2. 파이썬 자체적으로 호출을 요청해서(requests)



이 방식은 서버에 부하가 많이 갈 뿐더러 나에게 필요없는 데이터까지 한 번에 호출해서 가져오는 문제가 있습니다.

따라서 서비스 제공자측에서는 서버 부하를 줄이고, 사용자에게 맞춤형을 데이터를 제공하기 위해 api서버를 운영합니다.

api서버는 인가된 데이터만을 개발자에게 넘겨서 서버도 안정적으로 유지하며(횟수 제한이 있는 사이트도 많습니다. 라이엇 데이터는 1초에 5회, 2분에 100회로 제한됩니다.) 

필요없는 동영상자료나 그림자료를 호출하지 않으므로 트래픽을 줄일 수 있습니다.

api 서버 접근시 보통 urllib.request 를 이용하게 됩니다.


(+) 우리가 프로젝트에서 쓰던 레스트 컨트롤러 자체가 api 였음

## ◾ import

In [1]:
# 🔴 사이트에 자료 요청

import urllib.request

# 🔴 json 데이터 핸들링
import json

# 🔴 DataFrame 자료형 활용
import pandas as pd

# 🔴 json 데이터를 pandas DataFrame으로 변환
from pandas.io.json import json_normalize

In [2]:
# 🔴 키워드 (스스로 실습 할 수 있음)

## 🔸 파이썬 라이엇 api
## 🔸 영진위 api
## 🔸 공공데이터포털 파이썬 api

In [3]:
# 🔴 영진위에 가입하고 키 발급 받음

## 🔸 d0b4cf155e05a50729437d3526dc88d2

# ⬛ 영진위 api 신청

https://www.kobis.or.kr/kobisopenapi/homepg/main/main.do

1. 접속 후 가입 및 로그인
2. 상단의 <키 발급/관리> 탭에서 키 발급하기
3. 요청 api 종류 보고 요청양식 및 데이터 확인하기

In [4]:
# 🔴 발급 받은 키 복붙
api_key = "d0b4cf155e05a50729437d3526dc88d2"

# 🔴 요청 날짜를 xxxxyydd 형식으로 넣어주세요
request_date = "20220622"

# 🔴 url 변수 생성
url = "http://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=%s&targetDt=%s" % (api_key, request_date)

In [5]:
# 🔴 아래 주소를 클릭했을 때 json 데이터들이 뜨면 됨!

print(url)

http://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=d0b4cf155e05a50729437d3526dc88d2&targetDt=20220622


# ⬛ json 데이터를 팬더스 데이터프레임으로 변환

api 데이터는 보통 json(javaScript Object Notation) 타입으로 받아집니다.

쉽게 말하면 자바스크립트 데이터를 전달하기 좋게 설정한 자료형인데, 파이썬 딕셔너리와 거의 같다고 보시면 됩니다.

따라서 json 데이터를 팬더스 데이터로 변환한다는 것은, 사실상 딕셔너리 데이터를 팬더스 데이터 프레임으로 변환하는 것입니다.

In [6]:
# 🔴 1. 위의 url을 이용해 데이터를 요청합니다. (getJSON과 비슷한 느낌이라고 생각하면 됨)

r = urllib.request.urlopen(url)

In [7]:
# 🔴 2. 요청 페이지의 결과 데이터를 파이썬 내부 데이터로 바꿉니다.

json_raw = r.read()

In [8]:
# 🔴 3. 제이슨 데이터가 바이너리 타입으로 들어오는 것을 볼 수 있습니다.
json_raw

b'{"boxOfficeResult":{"boxofficeType":"\xec\x9d\xbc\xeb\xb3\x84 \xeb\xb0\x95\xec\x8a\xa4\xec\x98\xa4\xed\x94\xbc\xec\x8a\xa4","showRange":"20220622~20220622","dailyBoxOfficeList":[{"rnum":"1","rank":"1","rankInten":"0","rankOldAndNew":"NEW","movieCd":"20194376","movieNm":"\xed\x83\x91\xea\xb1\xb4: \xeb\xa7\xa4\xeb\xb2\x84\xeb\xa6\xad","openDt":"2022-06-22","salesAmt":"1976138530","salesShare":"54.3","salesInten":"1976138530","salesChange":"100","salesAcc":"2717027360","audiCnt":"188320","audiInten":"188320","audiChange":"100","audiAcc":"253024","scrnCnt":"1975","showCnt":"9158"},{"rnum":"2","rank":"2","rankInten":"-1","rankOldAndNew":"OLD","movieCd":"20224882","movieNm":"\xeb\xa7\x88\xeb\x85\x80(\xe9\xad\x94\xe5\xa5\xb3) Part2. The Other One","openDt":"2022-06-15","salesAmt":"836530290","salesShare":"23.0","salesInten":"-253595090","salesChange":"-23.3","salesAcc":"18226709650","audiCnt":"82697","audiInten":"-25485","audiChange":"-23.6","audiAcc":"1769487","scrnCnt":"977","showCnt":"35

In [9]:
## 🔸 현재는 바이트 자료형임 => 문자도 아니고 json도 아님
## 🔸 print 해보면 b'~~~~~'로 시작하는 데이터. 
## 🔸 (문제) 데이터 프레임으로 바로 변환이 불가능하다.

type(json_raw)

bytes

In [10]:
# 🔴 (해결) 4. utf-8 형식으로 고쳐줘야한다.

## 🔸문법🔸 .decode()를 이용
## 🔸 encode => 우리가 쓰는 문자->컴퓨터가 쓰는 형태
## 🔸 decode => 컴퓨터가 쓰는 형태의 문자 -> 우리가 쓰는 형태로 변환

json_utf8 = json_raw.decode("utf-8")

In [11]:
## 🔸 데이터 타입 확인 (자료형 : 딕셔너리 구조를 유지하고 있는 문자)

type(json_utf8)

str

In [12]:
# 🔴 5. 딕셔너리 형태로 적힌 '문자열 자료'를 '딕셔너리' 형태로 변환
## 🔸문법🔸 json.loads(딕셔너리 형태의 문자열 자료)

json_complete = json.loads(json_utf8)

In [13]:
# 🔴 6. 최종 변환 완료
json_complete

{'boxOfficeResult': {'boxofficeType': '일별 박스오피스',
  'showRange': '20220622~20220622',
  'dailyBoxOfficeList': [{'rnum': '1',
    'rank': '1',
    'rankInten': '0',
    'rankOldAndNew': 'NEW',
    'movieCd': '20194376',
    'movieNm': '탑건: 매버릭',
    'openDt': '2022-06-22',
    'salesAmt': '1976138530',
    'salesShare': '54.3',
    'salesInten': '1976138530',
    'salesChange': '100',
    'salesAcc': '2717027360',
    'audiCnt': '188320',
    'audiInten': '188320',
    'audiChange': '100',
    'audiAcc': '253024',
    'scrnCnt': '1975',
    'showCnt': '9158'},
   {'rnum': '2',
    'rank': '2',
    'rankInten': '-1',
    'rankOldAndNew': 'OLD',
    'movieCd': '20224882',
    'movieNm': '마녀(魔女) Part2. The Other One',
    'openDt': '2022-06-15',
    'salesAmt': '836530290',
    'salesShare': '23.0',
    'salesInten': '-253595090',
    'salesChange': '-23.3',
    'salesAcc': '18226709650',
    'audiCnt': '82697',
    'audiInten': '-25485',
    'audiChange': '-23.6',
    'audiAcc': '1769487'

In [14]:
## 🔸 타입 확인
type(json_complete)

dict

In [15]:
# 🔴 7. 딕셔너리 자료를 데이터프레임 형태로 변환해줌.

## 🔸문법🔸 json_normalize(딕셔너리 자료)

pd.json_normalize(json_complete)

Unnamed: 0,boxOfficeResult.boxofficeType,boxOfficeResult.showRange,boxOfficeResult.dailyBoxOfficeList
0,일별 박스오피스,20220622~20220622,"[{'rnum': '1', 'rank': '1', 'rankInten': '0', ..."


In [16]:
# 🔴 8. boxOfficeResult.dailyBoxOfficeList 컬럼 내부에 딕셔너리가 여럿 묶인 리스트가 보이므로
#        boxOfficeResult.dailyBoxOfficeList 컬럼을 타겟으로 데이터 프레임화 합니다

## 🔸 한 번 더 normalize를 사용
json_complete['boxOfficeResult']['dailyBoxOfficeList']

[{'rnum': '1',
  'rank': '1',
  'rankInten': '0',
  'rankOldAndNew': 'NEW',
  'movieCd': '20194376',
  'movieNm': '탑건: 매버릭',
  'openDt': '2022-06-22',
  'salesAmt': '1976138530',
  'salesShare': '54.3',
  'salesInten': '1976138530',
  'salesChange': '100',
  'salesAcc': '2717027360',
  'audiCnt': '188320',
  'audiInten': '188320',
  'audiChange': '100',
  'audiAcc': '253024',
  'scrnCnt': '1975',
  'showCnt': '9158'},
 {'rnum': '2',
  'rank': '2',
  'rankInten': '-1',
  'rankOldAndNew': 'OLD',
  'movieCd': '20224882',
  'movieNm': '마녀(魔女) Part2. The Other One',
  'openDt': '2022-06-15',
  'salesAmt': '836530290',
  'salesShare': '23.0',
  'salesInten': '-253595090',
  'salesChange': '-23.3',
  'salesAcc': '18226709650',
  'audiCnt': '82697',
  'audiInten': '-25485',
  'audiChange': '-23.6',
  'audiAcc': '1769487',
  'scrnCnt': '977',
  'showCnt': '3503'},
 {'rnum': '3',
  'rank': '3',
  'rankInten': '-1',
  'rankOldAndNew': 'OLD',
  'movieCd': '20204548',
  'movieNm': '범죄도시 2',
  'open

In [17]:
# 🔴 9. 일일 데이터를 데이터프레임화한 결과

box_result = pd.json_normalize(json_complete['boxOfficeResult']['dailyBoxOfficeList'])

In [18]:
box_result

Unnamed: 0,rnum,rank,rankInten,rankOldAndNew,movieCd,movieNm,openDt,salesAmt,salesShare,salesInten,salesChange,salesAcc,audiCnt,audiInten,audiChange,audiAcc,scrnCnt,showCnt
0,1,1,0,NEW,20194376,탑건: 매버릭,2022-06-22,1976138530,54.3,1976138530,100.0,2717027360,188320,188320,100.0,253024,1975,9158
1,2,2,-1,OLD,20224882,마녀(魔女) Part2. The Other One,2022-06-15,836530290,23.0,-253595090,-23.3,18226709650,82697,-25485,-23.6,1769487,977,3503
2,3,3,-1,OLD,20204548,범죄도시 2,2022-05-18,577713370,15.9,-158610060,-21.5,120661898940,57874,-15996,-21.7,11671565,774,2531
3,4,4,-1,OLD,20206257,브로커,2022-06-08,96980760,2.7,-120734520,-55.5,11616483360,9993,-12369,-55.3,1160661,449,674
4,5,5,-1,OLD,20223839,버즈 라이트이어,2022-06-15,34719200,1.0,-99957740,-74.2,2494001690,3952,-8455,-68.1,233281,287,375
5,6,6,-1,OLD,20206061,쥬라기 월드: 도미니언,2022-06-01,21223800,0.6,-76011160,-78.2,28777481910,2271,-7685,-77.2,2788543,117,141
6,7,7,0,NEW,20224757,룸 쉐어링,2022-06-22,13283560,0.4,13283560,100.0,33442560,1586,1586,100.0,3937,122,190
7,8,8,12,OLD,20178501,니 부모 얼굴이 보고 싶다,2022-04-27,5090000,0.1,3590000,239.3,3912819280,1015,715,238.3,409303,3,4
8,9,9,5,OLD,20199500,뜨거운 피,2022-03-23,5000000,0.1,2500000,100.0,3788794970,1000,500,100.0,399272,4,5
9,10,9,5,OLD,20212783,로스트 시티,2022-04-20,5000000,0.1,2500000,100.0,1006394850,1000,500,100.0,109848,4,5


In [19]:
## 🔸 json_normalize()는 pd.DataFrame()으로 대체 가능합니다.

pd.DataFrame(json_complete).loc[['dailyBoxOfficeList']]

Unnamed: 0,boxOfficeResult
dailyBoxOfficeList,"[{'rnum': '1', 'rank': '1', 'rankInten': '0', ..."


In [20]:
# 🔴 10. 데이터프레임을 확인해보면 '당일 날짜'가 없음
## 🔸 나중에 반복문으로 당일날짜 컬럼을 넣어주어야 함.

## 🔸 데이터프레임에서 남겨야 할 데이터

### 1. rank
### 2. movieCd
### 3. movieNm
### 4. openDt
### 5. salesShare
### ...

In [21]:
import time

# 🔴 파이썬 날짜 자료형 💛
import datetime

In [22]:
## 🔸 날짜는 시작날짜와 + 며칠을 처리할지 결정할 수 있습니다.
start_datetime = datetime.datetime(2021, 6, 22) 
start_datetime

## 🔸 20210622 형식으로 바꿔주어야 함. (영진위 형식)
target_date = start_datetime.strftime('%Y%m%d') 
target_date

## 🔸 날짜 하루 올리기
next_datetime = start_datetime + datetime.timedelta(days=1)
next_datetime

datetime.datetime(2021, 6, 23, 0, 0)

In [23]:
# 🔴 (실습) 날짜별로 가져오기

## 🔸 ['20220620', '20220621', '20220622']
## 🔸 반복문과 append를 이용해서 3일치 데이터를 요청해서 합쳐보세요
## 🔸 빈 데이터 프레임을 하나 생성해놓기



target_dates = ['20220620', '20220621', '20220622'] # <<- 날짜를 하나하나 입력했다면 이제는 다른 방법을 사용
## 먼저 위의 셀에 datetime을 import 한다.

box_result2 = pd.DataFrame()

for date in target_dates :
    print(date)
    url = "http://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=%s&targetDt=%s" % (api_key, date)
    
    # 위의 url 변수를 이용해 데이터를 요청
    r = urllib.request.urlopen(url)
    
    # 요청 페이지의 결과 데이터를 파이썬 내부 데이터로 바꿈
    json_raw = r.read()
    json_utf8 = json_raw.decode("utf-8")
    json_complete = json.loads(json_utf8)
    pd.json_normalize(json_complete)
    result = pd.json_normalize(json_complete['boxOfficeResult']['dailyBoxOfficeList'])
    
    # 얻어온 데이터에 날짜 컬럼 추가
    result['target_date'] = date
    print(result)
    
    # 날짜별 데이터프레임을 하나로 통합
    box_result2 = box_result2.append(result)
    # 혹은 concat 사용 : box_result = pd.concat([box_result, result])
    
    # 2초간 유지
    time.sleep(2)
    
    
    

20220620
  rnum rank rankInten rankOldAndNew   movieCd                         movieNm  \
0    1    1         0           OLD  20224882     마녀(魔女) Part2. The Other One   
1    2    2         0           OLD  20204548                          범죄도시 2   
2    3    3         1           OLD  20206257                             브로커   
3    4    4        -1           OLD  20223839                        버즈 라이트이어   
4    5    5         0           OLD  20206061                    쥬라기 월드: 도미니언   
5    6    6         0           NEW  20224757                           룸 쉐어링   
6    7    7         1           OLD  20212855             닥터 스트레인지: 대혼돈의 멀티버스   
7    8    8        -1           OLD  20135304  극장판 포켓몬스터DP: 기라티나와 하늘의 꽃다발 쉐이미   
8    9    9         1           OLD  20210843                              실종   
9   10   10         0           NEW  20204845                            공기살인   

       openDt    salesAmt salesShare   salesInten salesChange      salesAcc  \
0  2022-06-15  12163

In [24]:
box_result2

Unnamed: 0,rnum,rank,rankInten,rankOldAndNew,movieCd,movieNm,openDt,salesAmt,salesShare,salesInten,salesChange,salesAcc,audiCnt,audiInten,audiChange,audiAcc,scrnCnt,showCnt,target_date
0,1,1,0,OLD,20224882,마녀(魔女) Part2. The Other One,2022-06-15,1216354070,48.6,-2562333160,-67.8,16300053980,120498,-239499,-66.5,1578608,1606,6662,20220620
1,2,2,0,OLD,20204548,범죄도시 2,2022-05-18,794129780,31.7,-1302133400,-62.1,119347862140,79527,-118201,-59.8,11539821,1086,4491,20220620
2,3,3,1,OLD,20206257,브로커,2022-06-08,202641120,8.1,-375080830,-64.9,11301787320,20822,-35102,-62.8,1128306,641,1960,20220620
3,4,4,-1,OLD,20223839,버즈 라이트이어,2022-06-15,127941660,5.1,-558633730,-81.4,2324605550,11155,-53569,-82.8,216922,637,1790,20220620
4,5,5,0,OLD,20206061,쥬라기 월드: 도미니언,2022-06-01,87756380,3.5,-248609510,-73.9,28659023150,8701,-24258,-73.6,2776316,421,760,20220620
5,6,6,0,NEW,20224757,룸 쉐어링,2022-06-22,7388000,0.3,7388000,100.0,20159000,932,932,100.0,2351,5,5,20220620
6,7,7,1,OLD,20212855,닥터 스트레인지: 대혼돈의 멀티버스,2022-05-04,7585870,0.3,-9381290,-55.3,62620414010,741,-787,-51.5,5881766,29,48,20220620
7,8,8,-1,OLD,20135304,극장판 포켓몬스터DP: 기라티나와 하늘의 꽃다발 쉐이미,2022-06-01,4965200,0.2,-152059950,-96.8,5279421290,562,-15548,-96.5,560385,68,81,20220620
8,9,9,1,OLD,20210843,실종,2022-06-15,5409000,0.2,-6284700,-53.7,60907300,541,-586,-52.0,6047,60,82,20220620
9,10,10,0,NEW,20204845,공기살인,2022-04-22,2590000,0.1,2590000,100.0,1473339250,518,518,100.0,158265,1,2,20220620


In [25]:
# 파이프라인

## raw 데이터부터 들고와서 데이터 프레임으로 완성시켜서 뱉어내는 일련의 자동화된 공정을 만다는 것
## 데이터 파이프라인 데이터 구축

In [28]:
# 🔴 (실습) 날짜별로 가져오기

## 🔸 ['20220620', '20220621', '20220622']
## 🔸 반복문과 append를 이용해서 3일치 데이터를 요청해서 합쳐보세요
## 🔸 빈 데이터 프레임을 하나 생성해놓기
## 🔸 1년치 데이터를 얻은 다음 to_csv나 to_excel로 저장해주세요.



box_result2 = pd.DataFrame()

## 🔸 날짜는 시작날짜와 + 며칠을 처리할지 결정할 수 있습니다.
start_datetime = datetime.datetime(2021, 6, 22) 

for i in range(365) :
    
    ## 🔸 20210622 형식으로 바꿔주어야 함. (영진위 형식)
    target_date = start_datetime.strftime('%Y%m%d') 
    target_date
    print("크롤링한 날짜" + target_date)
    
    url = "http://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=%s&targetDt=%s" % (api_key, target_date)
    
    # 위의 url 변수를 이용해 데이터를 요청
    r = urllib.request.urlopen(url)
    
    # 요청 페이지의 결과 데이터를 파이썬 내부 데이터로 바꿈
    json_raw = r.read()
    json_utf8 = json_raw.decode("utf-8")
    json_complete = json.loads(json_utf8)
    pd.json_normalize(json_complete)
    result = pd.json_normalize(json_complete['boxOfficeResult']['dailyBoxOfficeList'])
    
    # 얻어온 데이터에 날짜 컬럼 추가
    result['target_date'] = target_date
    #print(result)
    
    # 날짜별 데이터프레임을 하나로 통합
    box_result2 = box_result2.append(result)
    # 혹은 concat 사용 : box_result = pd.concat([box_result, result])
    
    # 2초간 유지
    time.sleep(3)
    
    ## 🔸 날짜 하루 올리기
    start_datetime = start_datetime + datetime.timedelta(days=1)
    #print("+1된 start_datetime ▼ ")
    #print(start_datetime)
    
    print("--------------------------------------------------")

    
box_result2.to_excel('C:/python_cr/test.xlsx')
    
    

크롤링한 날짜20210622
--------------------------------------------------
크롤링한 날짜20210623
--------------------------------------------------
크롤링한 날짜20210624
--------------------------------------------------
크롤링한 날짜20210625
--------------------------------------------------
크롤링한 날짜20210626
--------------------------------------------------
크롤링한 날짜20210627
--------------------------------------------------
크롤링한 날짜20210628
--------------------------------------------------
크롤링한 날짜20210629
--------------------------------------------------
크롤링한 날짜20210630
--------------------------------------------------
크롤링한 날짜20210701
--------------------------------------------------
크롤링한 날짜20210702
--------------------------------------------------
크롤링한 날짜20210703
--------------------------------------------------
크롤링한 날짜20210704
--------------------------------------------------
크롤링한 날짜20210705
--------------------------------------------------
크롤링한 날짜20210706
----------------------------------------------

--------------------------------------------------
크롤링한 날짜20211024
--------------------------------------------------
크롤링한 날짜20211025
--------------------------------------------------
크롤링한 날짜20211026
--------------------------------------------------
크롤링한 날짜20211027
--------------------------------------------------
크롤링한 날짜20211028
--------------------------------------------------
크롤링한 날짜20211029
--------------------------------------------------
크롤링한 날짜20211030
--------------------------------------------------
크롤링한 날짜20211031
--------------------------------------------------
크롤링한 날짜20211101
--------------------------------------------------
크롤링한 날짜20211102
--------------------------------------------------
크롤링한 날짜20211103
--------------------------------------------------
크롤링한 날짜20211104
--------------------------------------------------
크롤링한 날짜20211105
--------------------------------------------------
크롤링한 날짜20211106
--------------------------------------------------
크롤링한 날짜2021

--------------------------------------------------
크롤링한 날짜20220224
--------------------------------------------------
크롤링한 날짜20220225
--------------------------------------------------
크롤링한 날짜20220226
--------------------------------------------------
크롤링한 날짜20220227
--------------------------------------------------
크롤링한 날짜20220228
--------------------------------------------------
크롤링한 날짜20220301
--------------------------------------------------
크롤링한 날짜20220302
--------------------------------------------------
크롤링한 날짜20220303
--------------------------------------------------
크롤링한 날짜20220304
--------------------------------------------------
크롤링한 날짜20220305
--------------------------------------------------
크롤링한 날짜20220306
--------------------------------------------------
크롤링한 날짜20220307
--------------------------------------------------
크롤링한 날짜20220308
--------------------------------------------------
크롤링한 날짜20220309
--------------------------------------------------
크롤링한 날짜2022

In [29]:
box_result2

Unnamed: 0,rnum,rank,rankInten,rankOldAndNew,movieCd,movieNm,openDt,salesAmt,salesShare,salesInten,salesChange,salesAcc,audiCnt,audiInten,audiChange,audiAcc,scrnCnt,showCnt,target_date
0,1,1,0,OLD,20204261,콰이어트 플레이스 2,2021-06-16,294889050,31.5,-30865510,-9.5,4421657460,30612,-3293,-9.7,444223,1018,3714,20210622
1,2,2,0,OLD,20216362,크루엘라,2021-05-26,251308720,26.8,2055160,0.8,12310491420,26091,229,0.9,1277523,800,2102,20210622
2,3,3,0,OLD,20216685,루카,2021-06-17,87755080,9.4,2066470,2.4,1395603040,9669,303,3.2,152715,620,1668,20210622
3,4,4,0,OLD,20217736,컨저링3: 악마가 시켰다,2021-06-03,88336660,9.4,-2132260,-2.4,7416374550,8693,-160,-1.8,738471,547,981,20210622
4,5,5,0,OLD,20218240,여고괴담 여섯번째 이야기 : 모교,2021-06-17,52326870,5.6,-4705000,-8.2,697801050,5725,-381,-6.2,77363,466,1307,20210622
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5,6,6,0,NEW,20209654,헤어질 결심,2022-06-29,51374000,2.1,51374000,100,51374000,5706,5706,100,5706,14,23,20220621
6,7,7,1,OLD,20135304,극장판 포켓몬스터DP: 기라티나와 하늘의 꽃다발 쉐이미,2022-06-01,7169000,0.3,2203800,44.4,5286590290,844,282,50.2,561229,77,88,20220621
7,8,8,1,OLD,20210843,실종,2022-06-15,7153500,0.3,1744500,32.3,68060800,749,208,38.4,6796,61,85,20220621
8,9,9,-2,OLD,20212855,닥터 스트레인지: 대혼돈의 멀티버스,2022-05-04,7209400,0.3,-376470,-5,62627623410,738,-3,-0.4,5882504,26,45,20220621


In [None]:
# 스크린당 평균 관객이 제일 많았던 영화를 뽑아주세요
## 관객총합 / 스크린 총합 = 스크린당 관객

In [30]:
## 🔸 컬럼 타입이 object 이므로, 집계 함수를 쓸 수 있도록 int로 컬럼 전체 자료형을 바꿔줘야 합니다.

box_result2['audiCnt'] = box_result2['audiCnt'].astype(int)
box_result2['scrnCnt'] = box_result2['scrnCnt'].astype(int)
# date 타입으로 바꾸는 코드 선생님 파일에서 가져와야함.
box_result2['target_date'] = pd.to_datetime(box_result2['target_date'])

## 💛 지금은 하지 않고 넘어가지만, 숫자 타입의 컬럼들을 위와 같이 인트로 바꿔주는 작업이 필요함

In [31]:
box_result2[['movieNm','audiCnt', 'scrnCnt']]

Unnamed: 0,movieNm,audiCnt,scrnCnt
0,콰이어트 플레이스 2,30612,1018
1,크루엘라,26091,800
2,루카,9669,620
3,컨저링3: 악마가 시켰다,8693,547
4,여고괴담 여섯번째 이야기 : 모교,5725,466
...,...,...,...
5,헤어질 결심,5706,14
6,극장판 포켓몬스터DP: 기라티나와 하늘의 꽃다발 쉐이미,844,77
7,실종,749,61
8,닥터 스트레인지: 대혼돈의 멀티버스,738,26


In [32]:
mean_data = box_result2.groupby('movieNm')[['audiCnt', 'scrnCnt']].sum()
mean_data

Unnamed: 0_level_0,audiCnt,scrnCnt
movieNm,Unnamed: 1_level_1,Unnamed: 2_level_1
007 노 타임 투 다이,1222296,36288
1984 최동원,4429,494
355,37910,3440
BIAF2021 부천국제애니메이션페스티벌 기획상영展,539,3
BIAF2021 한국 단편 경쟁 B,3582,9
...,...,...
호빗: 스마우그의 폐허,1824,70
호스트: 접속금지,13218,965
화양연화,3858,88
화이트데이: 부서진 결계,4292,934


In [33]:
mean_data['audiCnt'] = mean_data['audiCnt'].astype(int)
mean_data['scrnCnt'] = mean_data['scrnCnt'].astype(int)

mean_data['result'] = mean_data['audiCnt']/mean_data['scrnCnt']

In [34]:
# 🔴 mysql DB에 넣기 위해 변수에 넣어줌 💛

db_insert_data = mean_data[['audiCnt','scrnCnt','result']].sort_values(by='result', ascending=False)
db_insert_data

Unnamed: 0_level_0,audiCnt,scrnCnt,result
movieNm,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
내일의 기억,1392,1,1392.000000
파이프라인,1238,1,1238.000000
비긴 어게인,2000,2,1000.000000
어바웃 타임,2000,2,1000.000000
더 스파이,710,1,710.000000
...,...,...,...
리디밍 러브,1442,224,6.437500
도어맨,2679,449,5.966592
드림걸즈,1243,212,5.863208
벨파스트,9355,1776,5.267455


# ⬛ 가져온 데이터 MySQL에 연동하기


- import pymysql을 활용해서 연동할 수 있습니다

- ▲ 임포트가 되지 않는다면 다시 설치를 해야합니다.


- 설치 절차
    - 1. Anaconda Navigator에서 좌측의 environments를 누릅니다.
    - 2. Open terminal을 이용해 cmd창 같은 창을 켭니다 ( 터미널 창이라고 부릅니다. )
    - 3. pip install pymysql을 입력하고 실행합니다.
    
    
  

    
# ⬛ 오라클 연동

- 위와 같은데 pip install cx_Oracle <= 로 설치하면 된다.

In [35]:
# 🔴 1. pymysql 실행을 해야 DB와 연결할 수 있습니다.

import pymysql

In [36]:
# 🔴 2. MySQL 연결에 필요한 정보를 입력합니다.

## 🔸 mysql에 들어가서 새로운 스키마 pyprac1을 만들고 디폴트 스키마로 지정한 후 아래 코드 실행

con = pymysql.connect(host='localhost', user='root', password='mysql', db='pyprac1', charset='utf8',
                      cursorclass=pymysql.cursors.DictCursor) # <<-- 컬럼명까지 받아올지 여부


In [37]:
# 🔴 import 오라클

import cx_Oracle

In [38]:
# 🔴 추가 (오라클 연동 하는 방법) (계정명, 비밀번호, 접속주소)

## 🔸 11버전은 localhost:1521/XE
## 🔸 18버전은 localhost:1521/XEPDB1
con_oracle = cx_Oracle.connect("mytest", "mytest", "localhost:1521/XEPDB1")

In [39]:
# 🔴 3. (MySQL) SQL 구문을 받아주는 cursor 객체를 사용합니다.

cur = con.cursor()

In [40]:
# 🔴 4. sql 구문을 문자로 cur.execute()를 실행해서 수행시킵니다.

cur.execute("SELECT * FROM test_tbl")

## 🔸 cur에 데이터가 저장됩니다.

6

In [41]:
# 🔴 5. execute가 실행되면, cur가 데이터를 저장하고 있는데, 이걸 파이썬 형식으로 빼야합니다.

mysql_data = cur.fetchall()

In [42]:
# 🔴 6. 데이터 확인

mysql_data

[{'tno': 1, 'tname': 'a'},
 {'tno': 2, 'tname': 'b'},
 {'tno': 3, 'tname': 'c'},
 {'tno': 4, 'tname': 'd'},
 {'tno': 7, 'tname': 'e'},
 {'tno': 12, 'tname': 'e'}]

In [43]:
# 🔴 7. 데이터프레임 형태로 변환

dp = pd.DataFrame(mysql_data)
dp

Unnamed: 0,tno,tname
0,1,a
1,2,b
2,3,c
3,4,d
4,7,e
5,12,e


In [44]:
# 🟡 실습

## 🔸 여러분들이 data 'e'를 넣어보세요

In [45]:
## 🔸 구문
cur.execute("insert into test_tbl VALUES (null, 'e')")

1

In [46]:
## 🔸 커서가 아닌, 커넥션에 commit을 주는 것에 주의해주세요
con.commit()

In [47]:
# 🔴 위에서 뽑은 데이터프레임 DB에 넣기

## 🔸 원래는 테이블 생성해서 for문으로 하나하나 넣어야겠찌만, 너무 시간이 걸리니 간소하게 할 것.
db_insert_data

Unnamed: 0_level_0,audiCnt,scrnCnt,result
movieNm,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
내일의 기억,1392,1,1392.000000
파이프라인,1238,1,1238.000000
비긴 어게인,2000,2,1000.000000
어바웃 타임,2000,2,1000.000000
더 스파이,710,1,710.000000
...,...,...,...
리디밍 러브,1442,224,6.437500
도어맨,2679,449,5.966592
드림걸즈,1243,212,5.863208
벨파스트,9355,1776,5.267455


In [48]:
# 🔴 현재 db_insert_data에는 movieNm이라는 로우가 있는데, 컬럼으로 바꾸는게 Db에 넣을 때 유리함

## 🔸 1. row 이름만 나오게 함.
db_insert_data.index

Index(['내일의 기억', '파이프라인', '비긴 어게인', '어바웃 타임', '더 스파이',
       'BIFAN2021 판타스틱 단편 걸작선 1', '라라랜드', '헤어질 결심', 'BIAF2021 한국 단편 경쟁 B',
       '지지',
       ...
       '최선의 삶', '블랙라이트', '킹 리차드', '애프터: 관계의 함정', '스페이스 잼: 새로운 시대', '리디밍 러브',
       '도어맨', '드림걸즈', '벨파스트', '화이트데이: 부서진 결계'],
      dtype='object', name='movieNm', length=300)

In [49]:
## 🔸 2. 새로운 컬럼을 만들어줌

db_insert_data['movieNm'] = db_insert_data.index
db_insert_data.index

Index(['내일의 기억', '파이프라인', '비긴 어게인', '어바웃 타임', '더 스파이',
       'BIFAN2021 판타스틱 단편 걸작선 1', '라라랜드', '헤어질 결심', 'BIAF2021 한국 단편 경쟁 B',
       '지지',
       ...
       '최선의 삶', '블랙라이트', '킹 리차드', '애프터: 관계의 함정', '스페이스 잼: 새로운 시대', '리디밍 러브',
       '도어맨', '드림걸즈', '벨파스트', '화이트데이: 부서진 결계'],
      dtype='object', name='movieNm', length=300)

In [50]:
## 🔸 3. reset_index로 로우 삭제하기

db_insert_data = db_insert_data.reset_index(drop=True)

In [51]:
db_insert_data

Unnamed: 0,audiCnt,scrnCnt,result,movieNm
0,1392,1,1392.000000,내일의 기억
1,1238,1,1238.000000,파이프라인
2,2000,2,1000.000000,비긴 어게인
3,2000,2,1000.000000,어바웃 타임
4,710,1,710.000000,더 스파이
...,...,...,...,...
295,1442,224,6.437500,리디밍 러브
296,2679,449,5.966592,도어맨
297,1243,212,5.863208,드림걸즈
298,9355,1776,5.267455,벨파스트


In [52]:
# 🟡 실습

## 

In [53]:
## 🔸 정확한 로우 개수 확인
len(db_insert_data)

300

In [54]:
## 🔸 이렇게 row 단위로 하나씩 넣으면 됨

db_insert_data.loc[0]

audiCnt      1392
scrnCnt         1
result     1392.0
movieNm    내일의 기억
Name: 0, dtype: object

In [55]:
## 🔸 가져온 row 하나에 대해서 특정 로우의 특정 컬럼 값을 조회할 수 있다.
db_insert_data.loc[0]['movieNm']

'내일의 기억'

In [56]:
## 🔸 과제

### MySQL이나 Oracle SQL에 현재 보고 있는 db_insert 데이터를, 테이블 생성 및 반복문을 이용해서 DB에 넣어주시면 됩니다(300개 데이터)

for i in range(300) :
    cur.execute("insert into test3_tbl(audiCnt, scrnCnt, result, movieNm) VALUES ('%d', '%d', '%d', '%s')" % (db_insert_data.loc[i]['audiCnt'], db_insert_data.loc[i]['scrnCnt'], db_insert_data.loc[i]['result'], db_insert_data.loc[i]['movieNm'].replace("'","")))
    print(i)

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
27

In [57]:
for i in range(300) :

    print(db_insert_data.loc[i]['movieNm'])
    print(i)

내일의 기억
0
파이프라인
1
비긴 어게인
2
어바웃 타임
3
더 스파이
4
BIFAN2021 판타스틱 단편 걸작선 1
5
라라랜드
6
헤어질 결심
7
BIAF2021 한국 단편 경쟁 B
8
지지
9
윤시내가 사라졌다
10
포 언투 어스
11
웬디
12
감동주의보
13
니얼굴
14
광대: 소리꾼
15
스피릿
16
원샷
17
미싱타는 여자들
18
시네마 천국
19
괴짜들의 로맨스
20
룸 쉐어링
21
범죄도시 2
22
BIAF2021 부천국제애니메이션페스티벌 기획상영展
23
마녀(魔女) Part2. The Other One
24
파이어스타터
25
자산어보
26
박강아름 결혼하다
27
닥터 스트레인지: 대혼돈의 멀티버스
28
쥬라기 월드: 도미니언
29
아이 스틸 빌리브
30
더 하더 데이 폴
31
그림자꽃
32
스파이더맨: 노 웨이 홈
33
너의 이름은.
34
뜨거운 피: 디 오리지널
35
덩케르크
36
탑건: 매버릭
37
브로커
38
극장판 포켓몬스터DP: 기라티나와 하늘의 꽃다발 쉐이미
39
비욘드라이브 더 무비 : 엔시티 레조넌스
40
블랙 위도우
41
이터널스
42
싱크홀
43
스파이 캣
44
학교 가는 길
45
캐롤
46
그대가 조국
47
모가디슈
48
베놈 2: 렛 데어 비 카니지
49
타오르는 여인의 초상
50
마세티 킬즈
51
무녀도
52
EBS 댄스파티! 
53
해리포터와 마법사의 돌
54
랑종
55
날씨의 아이
56
인질
57
샹치와 텐 링즈의 전설
58
킹스맨: 퍼스트 에이전트
59
호빗: 뜻밖의 여정
60
발신제한
61
화양연화
62
버즈 라이트이어
63
몬스타엑스 : 더 드리밍
64
피어썸
65
보스 베이비 2
66
동백
67
듄
68
해적: 도깨비 깃발
69
보이스
70
경관의 피
71
더 수어사이드 스쿼드
72
에이핑크 스페셜 무비 : 혼
73
크루엘라
74
배드 가이즈
75
극장판 금빛 모자이크 땡큐!!
76
리스펙트
77
신비한 동물들과 덤블도어의 비밀
78
해리 포터와 불사조 기사단
79
007 노 타임 투 다이
80
장민호 드라

In [58]:
# 팝핀' 드림!을 없애기 위해 사용할 구문 (시도)
## https://blog.naver.com/PostView.nhn?blogId=wideeyed&logNo=221817400937

# 무시
pd.set_option('mode.chained_assignment',  None)

## 그냥 포매팅에서 .replace 사용했더니 됨

In [59]:
db_insert_data.loc[220]['movieNm'] = db_insert_data.loc[220]['movieNm'].replace("'","\'")
db_insert_data.loc[220]['movieNm']

"뱅드림! 팝핀' 드림!"

In [60]:
con.commit()

# ⬛ 위 로직을 오라클에서 활용하기

In [61]:
import cx_Oracle

In [62]:
# 🔴 추가 (오라클 연동 하는 방법) (계정명, 비밀번호, 접속주소)

## 🔸 11버전은 localhost:1521/XE
## 🔸 18버전은 localhost:1521/XEPDB1
cur_oracle = cx_Oracle.connect("mytest", "mytest", "localhost:1521/XEPDB1")

In [63]:
cur_oracle = cur_oracle.cursor()

In [64]:
cur_oracle.execute("SELECT * FROM movie_tbl")

<cx_Oracle.Cursor on <cx_Oracle.Connection to mytest@localhost:1521/XEPDB1>>

In [65]:
cur_oracle.fetchall()

[('테스트 영화', 1, 1, 1)]

In [66]:
db_insert_data.head(220)

Unnamed: 0,audiCnt,scrnCnt,result,movieNm
0,1392,1,1392.000000,내일의 기억
1,1238,1,1238.000000,파이프라인
2,2000,2,1000.000000,비긴 어게인
3,2000,2,1000.000000,어바웃 타임
4,710,1,710.000000,더 스파이
...,...,...,...,...
215,259,20,12.950000,맛있는 여동생
216,1313,102,12.872549,한창나이 선녀님
217,3960,311,12.733119,극장판 시그널
218,69617,5487,12.687625,돈 룩 업


In [67]:
# cur_oracle.execute("INSERT INTO movie_tbl VALUES (%s, %s, %s, %s)" %())

In [69]:
#for row_num in range(len(db_insert_data)):
    # movieNm

SyntaxError: unexpected EOF while parsing (<ipython-input-69-bf531b7936e7>, line 2)

In [None]:
# 🔴

for row_num in range(len(db_insert_data)):  # range(300이 됨)
    #print(row_num)
    #print(db_insert_data.iloc[row_num])
    #print(db_insert_data.iloc[row_num]['movieNm'])
    
    movie_nm = db_insert_data.iloc[row_num]['movieNm'].replace("'", "")
    audi_cnt = db_insert_data.iloc[row_num]['audiCnt']
    scrn_cnt = db_insert_data.iloc[row_num]['scrnCnt']
    audi_mean = db_insert_data.iloc[row_num]['result']
    
    cur_oracle.execute("INSERT INTO movie_tbl VALUES ('%s', '%s', '%s', '%s')" %(movie_nm, audi_cnt, scrn_cnt, audi_mean))
    print(row_num)
    
con_oracle.commit()

In [None]:
# 파핀' 드림 뭐시기 처리하기 (선생님 방법) : 근데 안됨. 방법은 알아두자

def change_quote(column) :
    return column['movieNm'].replace("'","\'")

In [None]:
# 끄기

cur_oracle.close()
con_oracle.close()

In [None]:
# 이렇게 하면 된다고 함.

db_insert_data['movieNm'][220] = db_insert_data[220]['movieNm'].replace("'","")

In [None]:
# 선생님 파일보고 코드 보충해야함.