1. 파일 포맷으로는 json, json lines, pickle에 대해서 살펴보며, Pandas를 활용한 CSV/XLSX 저장에 대해서도 살펴본다.

2. 추가로 RDB로의 저장방법을 살펴보는데, dataset 라이브러리를 활용하여 sqlite 기준으로 코드를 보여주나, 

3. MySQL/PostgreSQL 등의 서버로 세팅이 되어있다면 계정정보 변경만으로 손쉽게 insert를 할 수 있다.

In [1]:
import requests
from bs4 import BeautifulSoup

headers = {
    'User-Agent': ('Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) '
                   'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'),
}
res = requests.get("http://www.melon.com/chart/index.htm", headers=headers)
html = res.text
soup = BeautifulSoup(html, 'html.parser')
tr_tag_list = soup.select('.d_song_list tbody tr')

song_list = []

for rank, tr_tag in enumerate(tr_tag_list, 1):
    song_tag = tr_tag.select_one('a[href*=playSong]')
    album_tag = tr_tag.select_one('.wrap_song_info a[href*=goAlbumDetail]')
    artist_tag = tr_tag.select_one('a[href*=goArtistDetail]')

    song = {
        'title': song_tag.text,
        'album': album_tag.text,
        'artist': artist_tag.text,
        'rank': rank,
    }
    song_list.append(song)

song_list

[{'title': '어떻게 이별까지 사랑하겠어, 널 사랑하는 거지',
  'album': '항해',
  'artist': 'AKMU (악동뮤지션)',
  'rank': 1},
 {'title': '새 사랑', 'album': '새 사랑', 'artist': '송하예', 'rank': 2},
 {'title': '흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야',
  'album': '멜로가 체질 OST Part 3',
  'artist': '장범준',
  'rank': 3},
 {'title': '떨어지는 낙엽까지도', 'album': '만추', 'artist': '헤이즈 (Heize)', 'rank': 4},
 {'title': '있어줘요', 'album': '있어줘요', 'artist': '장덕철', 'rank': 5},
 {'title': '조금 취했어 (Prod. 2soo)',
  'album': '조금 취했어',
  'artist': '임재현',
  'rank': 6},
 {'title': '허전해', 'album': "정규 2집 '마음, 하나'", 'artist': '폴킴', 'rank': 7},
 {'title': '사랑이란 멜로는 없어', 'album': '사랑이란 멜로는 없어', 'artist': '전상근', 'rank': 8},
 {'title': '워커홀릭', 'album': 'Two Five', 'artist': '볼빨간사춘기', 'rank': 9},
 {'title': '안녕', 'album': '호텔 델루나 OST Part.10', 'artist': '폴킴', 'rank': 10},
 {'title': '오늘도 빛나는 너에게 (To You My Light) (Feat.이라온)',
  'album': 'Red Moon : To You My Light',
  'artist': '마크툽 (MAKTUB)',
  'rank': 11},
 {'title': '시든 꽃에 물을 주듯',
  'album': '시든 꽃에 물을 주듯',
  'artist'

## 데이터를 저장하는 다양한 방법
* 파일 : json 포맷, json lines 포맷, pickle 포맷 등
* CSV 포맷 엑셀
* 데이터베이스

## JSON 포맷
* XML과 함께 주요 데이터 포맷
* 언어 독립적이며 Numbers/String/Boolean/Array/Object/null 타입 지원
* 웹에서 Ajax 통신 시에 주요 활용
* 데이터 객체를 아무리 커도 한번에 변환 -> 데이터 append 시에도 전체 변환이 필요

In [2]:
import json

# song_list 객체를 한번에 JSON 포맷 문자열로 변환
# song_list의 경우 json이 지원하는 타입만 입력해야 함
# ensure_ascii=False : string 원래 타입으로 변환, 지정하지 않으면 bytes 형태로 변환
json_string = json.dumps(song_list, indent=4, ensure_ascii=False) # indent : 띄어쓰기


# 저장할때 ecoding='utf8'을 지정해 두는 것이 좋음
with open("melon_chart.json", "wt", encoding="utf8") as f:  # wt : write text mode
    f.write(json_string)

In [3]:
# JSON 파일 읽어서 객체로 변환
with open("melon_chart.json", "rt", encoding="utf8") as f:
    json_string = f.read()
    song_list = json.loads(json_string)

In [4]:
from pprint import pprint
pprint(song_list)

[{'album': '항해',
  'artist': 'AKMU (악동뮤지션)',
  'rank': 1,
  'title': '어떻게 이별까지 사랑하겠어, 널 사랑하는 거지'},
 {'album': '새 사랑', 'artist': '송하예', 'rank': 2, 'title': '새 사랑'},
 {'album': '멜로가 체질 OST Part 3',
  'artist': '장범준',
  'rank': 3,
  'title': '흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야'},
 {'album': '만추', 'artist': '헤이즈 (Heize)', 'rank': 4, 'title': '떨어지는 낙엽까지도'},
 {'album': '있어줘요', 'artist': '장덕철', 'rank': 5, 'title': '있어줘요'},
 {'album': '조금 취했어',
  'artist': '임재현',
  'rank': 6,
  'title': '조금 취했어 (Prod. 2soo)'},
 {'album': "정규 2집 '마음, 하나'", 'artist': '폴킴', 'rank': 7, 'title': '허전해'},
 {'album': '사랑이란 멜로는 없어', 'artist': '전상근', 'rank': 8, 'title': '사랑이란 멜로는 없어'},
 {'album': 'Two Five', 'artist': '볼빨간사춘기', 'rank': 9, 'title': '워커홀릭'},
 {'album': '호텔 델루나 OST Part.10', 'artist': '폴킴', 'rank': 10, 'title': '안녕'},
 {'album': 'Red Moon : To You My Light',
  'artist': '마크툽 (MAKTUB)',
  'rank': 11,
  'title': '오늘도 빛나는 너에게 (To You My Light) (Feat.이라온)'},
 {'album': '시든 꽃에 물을 주듯',
  'artist': 'HYNN(박혜원)',
  'rank': 1

In [5]:
type(json_string), type(song_list)

(str, list)

In [6]:
print(json_string)  # 하나의 거대한 문자열에 지나지 않아 보이나 json 타입임. 항상 ""를 사용함

[
    {
        "title": "어떻게 이별까지 사랑하겠어, 널 사랑하는 거지",
        "album": "항해",
        "artist": "AKMU (악동뮤지션)",
        "rank": 1
    },
    {
        "title": "새 사랑",
        "album": "새 사랑",
        "artist": "송하예",
        "rank": 2
    },
    {
        "title": "흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야",
        "album": "멜로가 체질 OST Part 3",
        "artist": "장범준",
        "rank": 3
    },
    {
        "title": "떨어지는 낙엽까지도",
        "album": "만추",
        "artist": "헤이즈 (Heize)",
        "rank": 4
    },
    {
        "title": "있어줘요",
        "album": "있어줘요",
        "artist": "장덕철",
        "rank": 5
    },
    {
        "title": "조금 취했어 (Prod. 2soo)",
        "album": "조금 취했어",
        "artist": "임재현",
        "rank": 6
    },
    {
        "title": "허전해",
        "album": "정규 2집 '마음, 하나'",
        "artist": "폴킴",
        "rank": 7
    },
    {
        "title": "사랑이란 멜로는 없어",
        "album": "사랑이란 멜로는 없어",
        "artist": "전상근",
        "rank": 8
    },
    {
        "title": "워커홀릭",
       

## JSON lines 포맷
* JSON 포맷에서는 데이터를 한번에 변환하지만, list 데이터를 개행("\n")으로 구분하여 JSON 포맷으로 구현한다.
* CSV 포맷과 비교하여 json lines 포맷은 중첩된 데이터를 표현할 수 있다.
* 데이터 append 시에 단순히 파일 끝에 추가하면 된다. 로그성 데이터에 편리하다.

In [7]:
import json
with open("melon_char.jsonl", "wt", encoding="utf8") as f:
    for song in song_list:
        json_string_for_song = json.dumps(song, ensure_ascii=False)
        f.write(json_string_for_song + "\n")

In [8]:
# JSON LINES 파일을 읽어서 객체로 변환
with open("melon_char.jsonl", "rt", encoding='utf8') as f:
    song_list = []
    for line in f:
        song = json.loads(line)
        song_list.append(song)

In [9]:
print(open("melon_char.jsonl", "rt", encoding="utf-8").read())

{"title": "어떻게 이별까지 사랑하겠어, 널 사랑하는 거지", "album": "항해", "artist": "AKMU (악동뮤지션)", "rank": 1}
{"title": "새 사랑", "album": "새 사랑", "artist": "송하예", "rank": 2}
{"title": "흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야", "album": "멜로가 체질 OST Part 3", "artist": "장범준", "rank": 3}
{"title": "떨어지는 낙엽까지도", "album": "만추", "artist": "헤이즈 (Heize)", "rank": 4}
{"title": "있어줘요", "album": "있어줘요", "artist": "장덕철", "rank": 5}
{"title": "조금 취했어 (Prod. 2soo)", "album": "조금 취했어", "artist": "임재현", "rank": 6}
{"title": "허전해", "album": "정규 2집 '마음, 하나'", "artist": "폴킴", "rank": 7}
{"title": "사랑이란 멜로는 없어", "album": "사랑이란 멜로는 없어", "artist": "전상근", "rank": 8}
{"title": "워커홀릭", "album": "Two Five", "artist": "볼빨간사춘기", "rank": 9}
{"title": "안녕", "album": "호텔 델루나 OST Part.10", "artist": "폴킴", "rank": 10}
{"title": "오늘도 빛나는 너에게 (To You My Light) (Feat.이라온)", "album": "Red Moon : To You My Light", "artist": "마크툽 (MAKTUB)", "rank": 11}
{"title": "시든 꽃에 물을 주듯", "album": "시든 꽃에 물을 주듯", "artist": "HYNN(박혜원)", "rank": 12}
{"title": "가을밤 떠난 너", "a

## pickle 포멧
* 파이썬 고유 직렬화 포맷으로 거의 모든 파이썬 데이터 타입을 지원한다.
* 파이썬 버전별로 pickle 데이터가 상이할수 있음에 유의한다.
* 데이터 객체를 한번에 변환하고 데이터 append 시에도 전체 변환이 필요하다.

In [10]:
import pickle

# song_list 객체를 한번에 pickle 포맷 데이터로 변환
pickle_data = pickle.dumps(song_list)

with open("melon_chart.pickle", "wb") as f:  # byte 형식으로 저장. 따라서 wb 모드로 저장해야 함
    f.write(pickle_data)

In [11]:
print(pickle_data)

b'\x80\x03]q\x00(}q\x01(X\x05\x00\x00\x00titleq\x02X?\x00\x00\x00\xec\x96\xb4\xeb\x96\xbb\xea\xb2\x8c \xec\x9d\xb4\xeb\xb3\x84\xea\xb9\x8c\xec\xa7\x80 \xec\x82\xac\xeb\x9e\x91\xed\x95\x98\xea\xb2\xa0\xec\x96\xb4, \xeb\x84\x90 \xec\x82\xac\xeb\x9e\x91\xed\x95\x98\xeb\x8a\x94 \xea\xb1\xb0\xec\xa7\x80q\x03X\x05\x00\x00\x00albumq\x04X\x06\x00\x00\x00\xed\x95\xad\xed\x95\xb4q\x05X\x06\x00\x00\x00artistq\x06X\x16\x00\x00\x00AKMU (\xec\x95\x85\xeb\x8f\x99\xeb\xae\xa4\xec\xa7\x80\xec\x85\x98)q\x07X\x04\x00\x00\x00rankq\x08K\x01u}q\t(X\x05\x00\x00\x00titleq\nX\n\x00\x00\x00\xec\x83\x88 \xec\x82\xac\xeb\x9e\x91q\x0bX\x05\x00\x00\x00albumq\x0cX\n\x00\x00\x00\xec\x83\x88 \xec\x82\xac\xeb\x9e\x91q\rX\x06\x00\x00\x00artistq\x0eX\t\x00\x00\x00\xec\x86\xa1\xed\x95\x98\xec\x98\x88q\x0fX\x04\x00\x00\x00rankq\x10K\x02u}q\x11(X\x05\x00\x00\x00titleq\x12X>\x00\x00\x00\xed\x9d\x94\xeb\x93\xa4\xeb\xa6\xac\xeb\x8a\x94 \xea\xbd\x83\xeb\x93\xa4 \xec\x86\x8d\xec\x97\x90\xec\x84\x9c \xeb\x84\xa4 \xec\x83\xb4\xed\

In [12]:
with open("melon_chart.pickle", 'rb') as f:
    pickle_data = f.read()
    song_list = pickle.loads(pickle_data)

In [13]:
print(song_list)

[{'title': '어떻게 이별까지 사랑하겠어, 널 사랑하는 거지', 'album': '항해', 'artist': 'AKMU (악동뮤지션)', 'rank': 1}, {'title': '새 사랑', 'album': '새 사랑', 'artist': '송하예', 'rank': 2}, {'title': '흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야', 'album': '멜로가 체질 OST Part 3', 'artist': '장범준', 'rank': 3}, {'title': '떨어지는 낙엽까지도', 'album': '만추', 'artist': '헤이즈 (Heize)', 'rank': 4}, {'title': '있어줘요', 'album': '있어줘요', 'artist': '장덕철', 'rank': 5}, {'title': '조금 취했어 (Prod. 2soo)', 'album': '조금 취했어', 'artist': '임재현', 'rank': 6}, {'title': '허전해', 'album': "정규 2집 '마음, 하나'", 'artist': '폴킴', 'rank': 7}, {'title': '사랑이란 멜로는 없어', 'album': '사랑이란 멜로는 없어', 'artist': '전상근', 'rank': 8}, {'title': '워커홀릭', 'album': 'Two Five', 'artist': '볼빨간사춘기', 'rank': 9}, {'title': '안녕', 'album': '호텔 델루나 OST Part.10', 'artist': '폴킴', 'rank': 10}, {'title': '오늘도 빛나는 너에게 (To You My Light) (Feat.이라온)', 'album': 'Red Moon : To You My Light', 'artist': '마크툽 (MAKTUB)', 'rank': 11}, {'title': '시든 꽃에 물을 주듯', 'album': '시든 꽃에 물을 주듯', 'artist': 'HYNN(박혜원)', 'rank': 12}, {'title': '

## CSV/엑셀 포맷을 지원하는 다양한 라이브러리
* pyopenxl
* xlrd/xlwt
* pandas : DataFrame 객체에 대해 csv/excel/pickle/json/sql/dict 포맷으로의 저장을 지원. excel 포맷의 경우 내부적으로 xlrd/xlwt를 활용한다.
* pyexcel
* xlwings

### pyexcel을 활용하여 엑셀로 저장
* 설치 : pip install pyexcel

In [14]:
import pyexcel

In [15]:
pyexcel.save_as(records=song_list, dest_file_name="melon_by_pyexcel.xls")

In [16]:
# 파일 생성을 위해 pyexcel-xlsxw 설치 필요
!pip install pyexcel-xlsxw



### pandas

In [17]:
!pip install openpyxl



In [18]:
import pandas as pd

df = pd.DataFrame(song_list)
df.to_excel('melon_chart.xlsx')
df.to_csv('melon_chart.csv')
df.to_pickle('melon_chart.pickle')



In [19]:
df = pd.read_excel('melon_chart.xlsx')
df = pd.read_csv('melon_chart.csv')
df = pd.read_pickle("melon_chart.pickle")

In [20]:
with open("melon_chart.csv", "rt", encoding="utf8") as f:
    print(f.read())

,title,album,artist,rank
0,"어떻게 이별까지 사랑하겠어, 널 사랑하는 거지",항해,AKMU (악동뮤지션),1
1,새 사랑,새 사랑,송하예,2
2,흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야,멜로가 체질 OST Part 3,장범준,3
3,떨어지는 낙엽까지도,만추,헤이즈 (Heize),4
4,있어줘요,있어줘요,장덕철,5
5,조금 취했어 (Prod. 2soo),조금 취했어,임재현,6
6,허전해,"정규 2집 '마음, 하나'",폴킴,7
7,사랑이란 멜로는 없어,사랑이란 멜로는 없어,전상근,8
8,워커홀릭,Two Five,볼빨간사춘기,9
9,안녕,호텔 델루나 OST Part.10,폴킴,10
10,오늘도 빛나는 너에게 (To You My Light) (Feat.이라온),Red Moon : To You My Light,마크툽 (MAKTUB),11
11,시든 꽃에 물을 주듯,시든 꽃에 물을 주듯,HYNN(박혜원),12
12,가을밤 떠난 너,Rewind,케이시 (Kassy),13
13,Feel Special,Feel Special,TWICE (트와이스),14
14,니 소식,니 소식,송하예,15
15,우리 어떻게 할까요,사랑하는 그대에게 - The 2nd Mini Album,첸 (CHEN),16
16,기억해줘요 내 모든 날과 그때를,호텔 델루나 OST Part.7,거미,17
17,포장마차,포장마차,황인욱,18
18,만추 (Feat. Crush),만추,헤이즈 (Heize),19
19,가끔 이러다,가끔 이러다,펀치 (Punch),20
20,헤어지자 (Prod. 정키),soar,휘인 (Whee In),21
21,2002,Speak Your Mind (Deluxe),Anne-Marie,22
22,Señorita,Señorita,Shawn Mendes,23
23,"천둥벌거숭이 (Feat. Jvcki Wai, 염따)",THINKING Part.1,지코 (ZICO),24
24,사랑에 연습이 있었다면 (Prod. 2soo),사랑에 연습이 있었다면,임재현,25
25,그대라는

## 다양한 데이터베이스
* RDB(관계형 데이터베이스) : SQLite, PostgreSQL, MySQL, Oracle, MSSQL 등
* NoSQL : MongoDB, CouchDB, HBase, Redis

### SQLite
* 파일 데이터베이스
* Single User 전용 : 멀티 프로세스/쓰레드에 의해 다중 처리 시에 Database Lock 등의 오류 발생 여지가 있다.

### 파이썬 3 기본에서의 sqlite3 지원

In [24]:
import sqlite3

# 1. 연결
conn = sqlite3.connect('ex1.db')

In [25]:
c = conn.cursor()

In [26]:
# 2. 초기에 테이블 생성
c.execute('''CREATE TABLE stocks
            (date text, trans text, symbol text, qty real, price real)''') # 필드명 + 타입명

<sqlite3.Cursor at 0x11d12f810>

In [27]:
# 3. 데이터 1 Row 추가
c.execute("INSERT INTO stocks VALUES ('2006-01-05', 'BUY', 'RHAT', 100, 35.14)")

<sqlite3.Cursor at 0x11d12f810>

In [28]:
# 4. 변화를 저장
conn.commit()

In [29]:
# 5. 연결 닫기
conn.close()

### 기본 Context Manager를 통한 접근

In [33]:
import sqlite3

with sqlite3.connect('ex2.db') as conn:
    cursor = conn.cursor()
    
    cursor.execute('''CREATE TABLE stocks
                        (date text, trans text, symbol text, qty real, price real)''')
    cursor.execute('''INSERT INTO stocks VALUES
                        ('2006-01-05', 'BUY', 'RHAT', 100, 35.14)''')

#### 위의 코드보다 조금 향상된 코드

* 예외가 발생하면 conn.rollback( ) 수행
* 그렇지 않으면 conn.commit( ) 수행

In [39]:
# 커스텀 context manager를 통한 구현
import sqlite3
from contextlib import contextmanager

@contextmanager
def sqlite_cursor(db_path):
    conn = sqlite3.connect(db_path)
    conn.set_trace_callback(print)  # 실행된 SQL 내역 출력
    cursor = conn.cursor()
    try:
        yield cursor
    except Exception as e:
        conn.rollback()
        raise
    finally:
        conn.commit()
    conn.close()

In [41]:
# 적용 예
with sqlite_cursor('ex5.db') as cursor:
    cursor.execute('CREATE TABLE stocks (date text, trans text, symbol text, qty real, price real)')
    cursor.execute("INSERT INTO stocks VALUES ('2006-01-05', 'BUY', 'RHAT', 100, 35.14)")

CREATE TABLE stocks (date text, trans text, symbol text, qty real, price real)
BEGIN 
INSERT INTO stocks VALUES ('2006-01-05', 'BUY', 'RHAT', 100, 35.14)
COMMIT


## execute many

In [43]:
with sqlite_cursor('ex5.db') as cursor:
    purchases = [
        ('2006-03-08', 'BUY', 'IBM', 1000, 45.00),
        ('2006-04-05', 'BUY', 'MSFT', 1000, 72.00),
        ('2006-04-06', 'SELL', 'IBM', 500, 53.00),
    ]
    
    cursor.executemany('INSERT INTO stocks VALUES (?, ?, ?, ?, ?)', purchases)  # ? = placeholder

BEGIN 
INSERT INTO stocks VALUES ('2006-03-08', 'BUY', 'IBM', 1000, 45.0)
INSERT INTO stocks VALUES ('2006-04-05', 'BUY', 'MSFT', 1000, 72.0)
INSERT INTO stocks VALUES ('2006-04-06', 'SELL', 'IBM', 500, 53.0)
COMMIT


## 조건 조회 - parameterized Query(로그인을 처리하는 SQL)

## 다양한 ORM

ORM : 데이터 베이스와 객체 지향 프로그래밍 언어간의 호환되지 않는 데이터를 변환하는 프로그래밍 기법
* Django ORM : 풀스택 웹프레임워크에 포함된 ORM
* SQLAlchemy : 데이터베이스 툴킷
* dataset : databases for lazy people (편리!!)

### dataset
* 설치 : pip install dataset
* 특징
    * Automatic schema 지원 : 테이블/컬럼이 없을 때 자동으로 생성
    * Upserts 지원 : 추가하려는 데이터가 있다면 업데이트하고, 없으면 insert를 한다.
    * 쉬운 Query 헬퍼 지원
    * 호환성 : SQLAlchemy 기반으로 구현되었기 때문에 주요 DB들을 지원

### dataset 예시(1)

In [45]:
import dataset

In [46]:
db = dataset.connect('sqlite:///mydatabase.db')  # db에 대한 커넥션 발생

table = db['sometable']  # table 명을 지정하면 이미 있으면 그걸 쓰고, 없으면 새로 생성한다.
table.insert(dict(name='John Doe', age=37))  # insert 말고 upsert도 사용가능
table.insert(dict(name='Jane Doe', age=34, gender='female'))

john = table.find_one(name='John Doe')

for row in table.all():
    print(row)

OrderedDict([('id', 1), ('name', 'John Doe'), ('age', 37), ('gender', None)])
OrderedDict([('id', 2), ('name', 'Jane Doe'), ('age', 34), ('gender', 'female')])


### dataset를 쓰지 않을 경우

#### SQLite 데이터베이스와 연결시도
db = dataset.connect("sqlite:///mydatabase.db")

#### MySQL 데이터베이스와 연결시도
db = dataset.connect("mysql://user:password@localhost/mydatabase")

#### PostgreSQL 데이터베이스와 연결시도
db = dataset.connect('postgresql://scott:tiger@localhost:5432/mydatabase')

### Melon chart DB 저장하기

In [49]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

request_headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36',
    'Referer': 'http://www.melon.com'
}
url = "https://www.melon.com/chart/index.htm"
res = requests.get(url, headers=request_headers)
html = res.text

tag_list = soup.select(".d_song_list tr")
del tag_list[0]  # 첫번째 곡은 100위 곡이 아니기 때문에 삭제
song_list = []
for tag in tag_list:
    song = {
        "title" : tag.select_one("a[href*=playSong]").text,
        "rank" : tag.select_one(".rank").text,
        "singer": tag.select_one("a[href*=goArtistDetail]").text,
        "album": tag.select("a[href*=goAlbumDetail]")[1].text,
    }
    song_list.append(song)
    
df = pd.DataFrame(song_list)
df.tail()

Unnamed: 0,title,rank,singer,album
95,사계 (하루살이),96,엠씨더맥스,Circular
96,Love Shot,97,EXO,LOVE SHOT - The 5th Album Repackage
97,XX,98,볼빨간사춘기,Two Five
98,Way Back Home,99,숀 (SHAUN),Take
99,우리 만난다면,100,스무살,낮과 밤


In [50]:
import dataset

In [51]:
db = dataset.connect('sqlite:///melon.db')
table = db['chart']
table.insert?

In [52]:
for song in song_list:
    table.insert(song)

In [53]:
for row in table.all():
    print(row)

OrderedDict([('id', 1), ('title', '어떻게 이별까지 사랑하겠어, 널 사랑하는 거지'), ('rank', '1'), ('singer', 'AKMU (악동뮤지션)'), ('album', '항해')])
OrderedDict([('id', 2), ('title', '새 사랑'), ('rank', '2'), ('singer', '송하예'), ('album', '새 사랑')])
OrderedDict([('id', 3), ('title', '흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야'), ('rank', '3'), ('singer', '장범준'), ('album', '멜로가 체질 OST Part 3')])
OrderedDict([('id', 4), ('title', '떨어지는 낙엽까지도'), ('rank', '4'), ('singer', '헤이즈 (Heize)'), ('album', '만추')])
OrderedDict([('id', 5), ('title', '있어줘요'), ('rank', '5'), ('singer', '장덕철'), ('album', '있어줘요')])
OrderedDict([('id', 6), ('title', '조금 취했어 (Prod. 2soo)'), ('rank', '6'), ('singer', '임재현'), ('album', '조금 취했어')])
OrderedDict([('id', 7), ('title', '허전해'), ('rank', '7'), ('singer', '폴킴'), ('album', "정규 2집 '마음, 하나'")])
OrderedDict([('id', 8), ('title', '사랑이란 멜로는 없어'), ('rank', '8'), ('singer', '전상근'), ('album', '사랑이란 멜로는 없어')])
OrderedDict([('id', 9), ('title', '워커홀릭'), ('rank', '9'), ('singer', '볼빨간사춘기'), ('album', 'Two Five')])
OrderedD

In [54]:
# db 삭제
!rm ex1.db, ex2.db, example1.db

rm: ex1.db,: No such file or directory
rm: ex2.db,: No such file or directory


In [55]:
table.count()

100

### jsonl로 먼저 정리한 후에 모아서 RDB로 보내기

* 크롤링 후에 저장해야 할 양이 방대할 때, 바로 RDB로 저장하기 보다 로컬 파일(jsonl 등)에 저장한 후에 모아서 RDB(로컬 or 외부)로 보낼 수 있다.

In [56]:
# 크롤링한 결과를 지정파일에 계속 누적

def get_melon_chart():
    request_headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36',
    'Referer': 'http://www.melon.com'}
    url = "https://www.melon.com/chart/index.htm"
    res = requests.get(url, headers=request_headers)
    html = res.text

    tag_list = soup.select(".d_song_list tr")
    del tag_list[0]  # 첫번째 곡은 100위 곡이 아니기 때문에 삭제
    song_list = []
    for tag in tag_list:
        song = {
            "title" : tag.select_one("a[href*=playSong]").text,
            "rank" : tag.select_one(".rank").text,
            "singer": tag.select_one("a[href*=goArtistDetail]").text,
            "album": tag.select("a[href*=goAlbumDetail]")[1].text,}
        song_list.append(song)
    return song_list

# 1. json 파일에 저장
import json
with open("melon_chart_20191017.jl", "at", encoding='utf8') as f:
    for song in get_melon_chart():
        json_string = json.dumps(song, ensure_ascii=False)
        f.write(json_string + '\n')

In [57]:
# 2. MySQL, PostgreSQL 데이터베이스로 INSERT
db = dataset.connect("sqlite:///melon.db")

# 일정 주기단위로 모아서 한번에 DB에 저장
with open("melon_chart_20191017.jl", 'rt', encoding="utf8") as f:
    # 지정 파일내 모든 내역을 한번에 리스트화(실행시간/메모리 이슈 등)
    song_list = [json.loads(line) for line in f if line]  # if line 빈줄 인지 아닌지 확인, 빈줄은 무시하겠다.
    table = db['chart']
    table.insert_many(song_list, chunk_size=1000)  # default 1000

In [58]:
table.count()

200

### 개선 : 조금씩 읽어가면서 DB에 저장하기

In [59]:
def chunk_list(iterable, chunk_size):
    chunk = []
    for el in iterable:
        chunk.append(el)
        if len(chunk) == chunk_size:
            yield chunk
            chunk = []
    if chunk:
        yield chunk

In [60]:
# 일정 주기 단위로 모아서 한번에 DB에 저장

with open("melon_chart_20191017.jl", "rt", encoding="utf8") as f:
    table = db["chart"]
    
    for line_list in chunk_list(f, 1000):
        song_list = [json.loads(line) for line in line_list]
        table.insert_many(song_list, chunk_size=1000)  # 1000개 단위로 읽으면서 수행됨

In [61]:
table.count()

300

## 각 클라우드 벤더 서비스 활용 가능
벤더별 NoSQL 데이터베이스와 정적 스토리지
* AWS : DynamoDB, Simple Storage Service(S3) <- AWS Lambda
* Microsoft Azure : Azure Table, Azure Storage <- Azure Function
* Google Cloud : Datastore, Cloud Storage <- Google Cloud Function