- pandas에서 Dataframe을 만드는 여러가지 방법
1. python의 dict를 직접 작성해서 생성
2. csv파일을 이용해서 생성하는 방법
3. database안에 있는 데이터를 이용해서 생성하는 방법
    - mysql을 이용하여 사용
    - 우리가 database라고 부르는 것들은 실제로 DBMS
    - 오라클사의 oracle, IBM의 DB2, MS의 SQL Server
    - MySQL, 마리아디비, postgres, infomix, cybase
    - Database : 논리적인 데이터의 집합체
        - toad를 이용해서 db의 데이터 확인(toad edge이용)
        - new connection에서 MySQL탭으로
        - database에 database이름을 넣기(library)
        - Username - 어제 만든 ID, PW - 어제 만든 PW
---

- MySQL에서 data를 읽어와서 DataFrame으로 만들기
- python에서 MySQL DBMS에 접속해야함
- 이를 위해 외부 모듈을 사용(pymysql)

In [9]:
import pymysql
import numpy as np
import pandas as pd

# 데이터베이스 연결
conn = pymysql.connect(user='data', password='data1234!', 
                       host='localhost', db='library', charset='utf8')

# 데이터 가져오기
# 책 제목에 특정 키워드가 들어가 있는 책을 검색해서
# 책의 ISBN, 제목, 저자, 가격정보를 가져오기

keyword = '여행'
# db에서 데이터를 가져오려면 db에서 사용하는 언어로 질의(query)를 전달 
# SQL(데이터베이스용 프로그래밍 언어)

sql = "SELECT bisbn, btitle, bauthor, bprice FROM library.book WHERE btitle LIKE '%{}%'".format(keyword)

# 파이썬의 예외처리를 이용하는게 좋다
# 코드를 작성하는 시점에서는 잘 작동할것 같지만
# 데이터 베이스가 꺼져있는 경우 오류
try:
    df = pd.read_sql(sql, con=conn)
except Exception as err:
    print(err)
finally:
    conn.close()

Unnamed: 0,bisbn,btitle,bauthor,bprice
0,978-89-98756-21-5,"IT CookBook, C++ 하이킹 : 객체지향과 만나는 여행","성윤정, 김태은",25000
1,979-11-85933-01-6,게스트하우스 창업 A to Z : 청춘여행자의 낭만적 밥벌이,김아람,15000
2,979-11-85933-10-8,크로아티아의 작은 마을을 여행하다 : 자다르의 일몰부터 두브로브니크의 붉은 성벽까지,양미석,15800
3,979-11-951538-1-7,도쿄의 오래된 상점을 여행하다 : 소세키의 당고집부터 백 년 된 여관까지,"여지영, 이진숙",15000


- DataFrame을 JSON형식으로 파일에 저장
- 몇가지 형식으로 데이터를 저장할 수 있다
- 파이썬으로 파일처리
1. 파일오픈 (file = open(''))
2. 파일 처리 (file.readline())
3. 파일 close (file.close())
- 원래 이런식으로 처리해야하나 코드 방식을 바꾸면 좀더 효율적으로 처리가능
- with구문을 사용하면 파일 close가 자동적으로 진행

In [11]:
with open('./data/book_orient_column.json', 'w', encoding='utf-8') as file1:
    # column명을 json의 key값으로 이용해서 json을 생성
    df.to_json(file1, force_ascii=False, orient='columns')
    
with open('./data/book_orient_records.json', 'w', encoding='utf-8') as file2:
    # 한 행에 대한 정보를 이용하여 json을 생성
    df.to_json(file2, force_ascii=False, orient='records')

- 이러한 방식으로 dataframe이 가지고 있는 데이터를 json으로 바꿀 수 있다
- json 사용이유 - 다른 사람과 공유하기 위해서 이러한 표준형태의 표현방식으로 변환시켜 사용
---
- 내가 JSON파일을 가지고 있을때 파일을 읽어서 pandas의 dataframe으로 만들기

In [16]:
import json # json은 내장 모듈

with open('./data/book_orient_column.json', 'r', encoding='utf-8') as file1:
    # json을 읽어서 python의 dict로 변환
    dict_book = json.load(file1)
    print(type(dict_book))
    df1 = pd.DataFrame(dict_book)
    display(df1)

<class 'dict'>


Unnamed: 0,bisbn,btitle,bauthor,bprice
0,978-89-98756-21-5,"IT CookBook, C++ 하이킹 : 객체지향과 만나는 여행","성윤정, 김태은",25000
1,979-11-85933-01-6,게스트하우스 창업 A to Z : 청춘여행자의 낭만적 밥벌이,김아람,15000
2,979-11-85933-10-8,크로아티아의 작은 마을을 여행하다 : 자다르의 일몰부터 두브로브니크의 붉은 성벽까지,양미석,15800
3,979-11-951538-1-7,도쿄의 오래된 상점을 여행하다 : 소세키의 당고집부터 백 년 된 여관까지,"여지영, 이진숙",15000


In [17]:
with open('./data/book_orient_records.json', 'r', encoding='utf-8') as file2:
    list_book = json.load(file2)
    # json의 리스트를 받음
    print(type(list_book))
    df2 = pd.DataFrame(list_book)
    display(df2)

<class 'list'>


Unnamed: 0,bisbn,btitle,bauthor,bprice
0,978-89-98756-21-5,"IT CookBook, C++ 하이킹 : 객체지향과 만나는 여행","성윤정, 김태은",25000
1,979-11-85933-01-6,게스트하우스 창업 A to Z : 청춘여행자의 낭만적 밥벌이,김아람,15000
2,979-11-85933-10-8,크로아티아의 작은 마을을 여행하다 : 자다르의 일몰부터 두브로브니크의 붉은 성벽까지,양미석,15800
3,979-11-951538-1-7,도쿄의 오래된 상점을 여행하다 : 소세키의 당고집부터 백 년 된 여관까지,"여지영, 이진숙",15000


In [24]:
# 또는 pandas의 read_json()을 이용
df = pd.read_json("data/book_orient_column.json")
display(df)

Unnamed: 0,bisbn,btitle,bauthor,bprice
0,978-89-98756-21-5,"IT CookBook, C++ 하이킹 : 객체지향과 만나는 여행","성윤정, 김태은",25000
1,979-11-85933-01-6,게스트하우스 창업 A to Z : 청춘여행자의 낭만적 밥벌이,김아람,15000
2,979-11-85933-10-8,크로아티아의 작은 마을을 여행하다 : 자다르의 일몰부터 두브로브니크의 붉은 성벽까지,양미석,15800
3,979-11-951538-1-7,도쿄의 오래된 상점을 여행하다 : 소세키의 당고집부터 백 년 된 여관까지,"여지영, 이진숙",15000


- dataframe을 만드는 방법(Open API를 이용)
- Open API : 공개적으로 누구나 사용할 수 있는 웹 프로그램
- 영화진흥원위원회에서 제공하는 일일 박스오피스 순위에 대한 Open API를 이용
---

- 요청 : http://www.kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json

- 요청변수
    - key : c802b4cefc5c250d90a13ca769e658871
    - targetDt : 20210113

- GET방식으로 호출
- Query String을 이용해서 호출
- ?로 시작
- ?key=c802b4cefc5c250d9013ca769e658871&targetdt=20210113

- 최종 요청 : http://www.kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=c802b4cefc5c250d90a13ca769e658871&targetDt=20210113