In [None]:
# pandas에서 DataFrame을 만드는 여러가지 방법
# 1. python의 dict(dictionary)를 직접 작성해서 DataFrame을 생성
# 2. CSV파일을 이용해서 DataFrame을 생성하는 방법
# 3. Database안에 있는 데이터를 이용해서 DataFrame을 생성
#    Database를 설정했어요! => mysql을 사용할꺼예요!
#    우리가 Database라고 부르는것들은 실제로 DBMS라고 불러야 해요!
#    오라클사의 Oracle
#    IBM의 DB2, MS의 SQL Server
#    MySQL, 마리아디비, Postgres, infomix, cybase, ...
#    Database : 논리적인 데이터들의 집합체
#    DBMS는 이런 데이터의 집합체인 Database를 관리하는 프로그램들의 집합


In [18]:
# MySQL에서 data를 읽어와서 DataFrame으로 만들꺼예요!
# python프로그램이 MySQL DBMS에 접속해야 해요!
# 필요한 module을 설치할 꺼예요!!
# 그러면 이런 모듈을 어떻게 아나요?? 
# 학습, 책을통해서, 구글링을 통해 모듈을 찾으면 되요!
# 우리는 pymysql이라는 모듈을 이용할 꺼에요!
import pymysql
import numpy as np
import pandas as pd

# 데이터베이스 접속
# 만약 연결에 성공하면 연결객체가 생성되요!!
conn = pymysql.connect(host='localhost',
                       user='data',
                       password='data',
                       db='library',
                       charset='utf8')

# 접속이 성공했으면 데이터를 가져와 보아요!
# 책 제목에 특정 키워드가 들어가 있는 책들을 검색해서 해당 책의
# isbn, 제목, 저자, 가격 정보를 가져올 꺼예요!
keyword = '파이썬'
# database에서 데이터를 가져오려면 database에서 사용되어지는 언어로
# 질의(query)를 전달해야 해요! => SQL(데이터베이스용 프로그래밍 언어)
sql = "SELECT bisbn, btitle, bauthor, bprice FROM book WHERE btitle LIKE '%{}%'".format(keyword)

# python의 예외처리를 이용하는게 좋아요!
# 코드를 작성하는 시점에서는 잘 될거같아요! 실행할때 만약
# 데이터베이스가 중지되어 있으면 당연히 오류
try:
    df = pd.read_sql(sql, con=conn)
    display(df)
except Exception as err:    
    print(err)
finally:
    conn.close()
    
# 강사님이 보내주신 .sql 파일은 어떤 형식의 데이터파일인건가요?? 
# 어떤식으로 작성이 된건지 어떻게 데이터가 읽히는 건지 궁금해서요
    

Unnamed: 0,bisbn,btitle,bauthor,bprice
0,978-89-6848-047-8,파이썬 라이브러리를 활용한 데이터 분석,웨스 맥키니(Wes Mckinney),33000
1,978-89-6848-114-7,파이썬을 활용한 베이지안 통계: 동전 던지기와 하키 승률로 배우는 데이터 분석,앨런 B. 다우니,18000
2,978-89-6848-181-9,파이썬 웹 프로그래밍: Django(장고)로 배우는 쉽고 빠른 웹 개발,김석훈,20000
3,978-89-7914-819-0,Head First Programming : 파이썬으로 처음 배우는 프로그래밍,"폴 배리, 데이빗 그리피스",26000
4,978-89-7914-868-8,Head First Python : 머리에 쏙쏙 들어오는 파이썬 안내서,폴 배리,30000


In [21]:
# Database로부터 얻어온 데이터를 가지고 DataFrame을 생성한 후
# JSON형태로 파일에 저장할꺼예요!

conn = pymysql.connect(host='localhost',
                       user='data',
                       password='data',
                       db='library',
                       charset='utf8')

keyword = '여행'
sql = "SELECT bisbn, btitle, bauthor, bprice FROM book WHERE btitle LIKE '%{}%'".format(keyword)
try:
    df = pd.read_sql(sql, con=conn)
except Exception as err:    
    print(err)
finally:
    conn.close()
    
# DataFrame을 JSON형식으로 파일에 저장
# 몇가지 형식으로 데이터를 저장할 수 있어요!

# python으로 파일처리를 하려면
# 1. 파일 오픈 ( file1 = open('test.txt') )
# 2. 파일 처리 ( file1.readline() )
# 3. 파일 close ( file1.close() )
# 원래 이렇게 처리해야 하는데 코드 방식을 좀 바꾸면 조금 더 효율적으로
# 처리할 수 있어요!
# 예전 파일 처리

# column명을 json의 key값으로 이용해서 JSON을 생성
with open('./data/books_orient_column.json', 'w', encoding='utf-8') as file1:
    df.to_json(file1, force_ascii=False, orient='columns')

with open('./data/books_orient_records.json', 'w', encoding='utf-8') as file2:
    df.to_json(file2, force_ascii=False, orient='records')
    
# open을 이용해서 file을 'w' 하면, 
# 이후 print나 write를 이용한 출력내용(?)이 해당 
# 파일로 생성되는것으로 아는데, 
# with의 경우는 이전 코딩으로 만들어진 DataFrame이 
# 파일로 만들어 지는건가요??
# 이전에 만든 DataFrame을 따로 with 구문에서 
# 지정하지 않은것 같아서요

In [None]:
# 아하!! 위의 방식으로 DataFrame이 가지고 있는 데이터를
# JSON으로 바꿀 수 있어요!
# 왜 JSON으로 바꾸나요???
# 데이터 표현방식은 크게 3가지 => CSV, XML, JSON
# 내가 가진 DataFrame의 내용을 다른 컴퓨터나 다른 사람에게 전달하기
# 위해서는 이런 표준형태의 데이터 표현방식으로 변환시켜서 전달해야 해요!


In [27]:
# JSON파일을 가지고 있을때 파일을 읽어서 pandas의 DataFrame으로
# 만들어 볼꺼예요!!
import numpy as np   # 외장 모듈이기때문에 설치작업이 필요
import pandas as pd  # 외장 모듈이기때문에 설치작업이 필요
import json   # json은 내장 모듈

with open('./data/books_orient_records.json', 'r', encoding='utf-8') as file1:
    dict_book = json.load(file1)  # json을 읽어서 python의 dict로 변환
    
print(dict_book)    
print(type(dict_book))   

# DataFrame은 일반 dict를 이용해서 만들 수 있어요!
df = pd.DataFrame(dict_book)
display(df)

[{'bisbn': '978-89-98756-21-5', 'btitle': 'IT CookBook, C++ 하이킹 : 객체지향과 만나는 여행', 'bauthor': '성윤정, 김태은', 'bprice': 25000}, {'bisbn': '979-11-85933-01-6', 'btitle': '게스트하우스 창업 A to Z : 청춘여행자의 낭만적 밥벌이', 'bauthor': '김아람', 'bprice': 15000}, {'bisbn': '979-11-85933-10-8', 'btitle': '크로아티아의 작은 마을을 여행하다 : 자다르의 일몰부터 두브로브니크의 붉은 성벽까지', 'bauthor': '양미석', 'bprice': 15800}, {'bisbn': '979-11-951538-1-7', 'btitle': '도쿄의 오래된 상점을 여행하다 : 소세키의 당고집부터 백 년 된 여관까지', 'bauthor': '여지영, 이진숙', 'bprice': 15000}]
<class 'list'>


Unnamed: 0,bisbn,btitle,bauthor,bprice
0,978-89-98756-21-5,"IT CookBook, C++ 하이킹 : 객체지향과 만나는 여행","성윤정, 김태은",25000
1,979-11-85933-01-6,게스트하우스 창업 A to Z : 청춘여행자의 낭만적 밥벌이,김아람,15000
2,979-11-85933-10-8,크로아티아의 작은 마을을 여행하다 : 자다르의 일몰부터 두브로브니크의 붉은 성벽까지,양미석,15800
3,979-11-951538-1-7,도쿄의 오래된 상점을 여행하다 : 소세키의 당고집부터 백 년 된 여관까지,"여지영, 이진숙",15000


In [None]:
######### Database, JSON, DataFrame 변환 ###############

# DataFrame을 만드는 이유는 뭔가요??
# 데이터 핸들링 표준방법은 없나요?
# CSV 파일의 경우 pd.read_csv() 를 이용했는데, 
# 그러면 JSON도 pandas의 method를 이용할순 없나요?? 
# 예를들어 pd.read_json()같은....
# pd.read_json("books_orient_records.json")


In [None]:
## DataFrame을 만드는 또 다른 방법
## Open API를 이용해서 그 결과를 가지고 DataFrame으로 만들꺼예요!
## Open API (공개적으로 누구나 사용할 수 있는 웹 프로그램)

## 영화진흥위원회에서 제공하는 일일 박스오피스 순위에 대한
## Open API를 이용해 보아요!

# 요청URL : http://www.kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json

# 요청변수
# key    629d53a9d31fcd5c14481b3797a7f22f
# targetDt      20210113

# GET방식으로 호출!!!!!
# => Query String을 이용해서 호출
# => Query String은 요청인자를 전달하기 위한 특별한 형식
# => ?key=629d53a9d31fcd5c14481b3797a7f22f&targetDt=20210113

# http://www.kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=629d53a9d31fcd5c14481b3797a7f22f&targetDt=20210113