In [1]:
import sqlite3 as lite
import pandas as pd
import requests
from pymongo import MongoClient

In [2]:
pd.options.display.max_colwidth = 200

In [61]:
db = lite.connect('./products.db')

## SQL
- products.db에 대해
    - Employees 의 월별 생일의 분포를 구하세요
    - OrderDetails 의 OrderID 별 주문 금액의 합을 구하세요

In [62]:
query = """
SELECT substr(BirthDate, 6,2) "MONTH", count(*) "COUNT"
FROM
    Employees
    GROUP BY substr(BirthDate, 6,2)
;
"""
pd.read_sql(query, db)

Unnamed: 0,MONTH,COUNT
0,1,1
1,2,1
2,3,1
3,5,1
4,7,2
5,8,1
6,9,2
7,12,1


In [64]:
query = """
SELECT D.OrderID, sum(D.Quantity * P.Price) "TOTAL"
FROM
    OrderDetails D
    JOIN
        Products P
        ON
            D.ProductID = P.ProductID
    GROUP BY
        D.OrderID
;
"""
pd.read_sql(query, db).head()

Unnamed: 0,OrderID,TOTAL
0,10248,566.0
1,10249,2329.25
2,10250,2267.25
3,10251,839.5
4,10252,4662.5


## noSQL

- 앞서 저장한 매물정보에서
    - 4층 이상인 건물 중 3층 이상인 매물의 목록을 구하세요
    - 면적이 33 이상이거나, 조회수가 50 이상인 매물의 목록을 구하세요

In [24]:
mongo_uri = "mongodb://strongadmin:admin1234@ds135844.mlab.com:35844/mydbinstance"
client = MongoClient(mongo_uri)
client.mydbinstance.collection_names()

['bigbang', 'system.indexes', 'users', 'nvkwlist']

In [25]:
db = client.mydbinstance
items = db.bigbang

In [27]:
items.find_one({})

{'_id': ObjectId('5c399ae4dabf947b0839b878'),
 'title': '세종시 조치원읍 평리',
 'header': False,
 'header_height': 0,
 'item': {'id': 14359880,
  'images': [{'index': 0,
    'count': 1,
    'url': 'https://ic.zigbang.com/ic/items/14359880/1.jpg'},
   {'index': 1,
    'count': 2,
    'url': 'https://ic.zigbang.com/ic/items/14359880/2.jpg'},
   {'index': 2,
    'count': 3,
    'url': 'https://ic.zigbang.com/ic/items/14359880/3.jpg'},
   {'index': 3,
    'count': 4,
    'url': 'https://ic.zigbang.com/ic/items/14359880/4.jpg'},
   {'index': 4,
    'count': 5,
    'url': 'https://ic.zigbang.com/ic/items/14359880/5.jpg'},
   {'index': 5,
    'count': 6,
    'url': 'https://ic.zigbang.com/ic/items/14359880/6.jpg'}],
  'is_realestate': True,
  'is_direct': False,
  'is_room': False,
  'is_type_room': False,
  'rent': 26,
  'deposit': 200,
  'is_deposit_only': False,
  'floor': '2층',
  '_floor': '2층',
  'floor_all': '4층',
  'local1': '세종시',
  'local2': '세종',
  'local3': '조치원읍',
  'title': '인기구조 원룸. 풀옵션

In [35]:
# pymongo 라이브러리 만으로는 너무 복잡해지므로, 모든 아이템을 불러온 뒤, 전처리 후 카운트
# mongoDB client로는 javaScript문법으로 db.find().forEach()를 활용하여 각 document에 대해 작업지시 가능
# regex 또한 python의 regex와 문법이 달라 regex compile이 불가
# query가 너무 복잡해지지 않는 선에서 가능한 만큼 수행 한 뒤, python으로 추가 수행을 하는 것이 깔끔합니다.

query = {}
count = 0
for item in items.find(query):
    floor = int(item["item"]["floor"].replace("층","").replace("반지하","0"))
    floor_all = int(item["item"]["floor_all"].replace("층",""))
    if floor>=2 and floor_all>=4:
        count+=1

print(count)

49


In [58]:
#위와 같은 이유로 가능한 조건에 대하여 먼저 필터링 한 후, list comprehension으로 재구성

query={
    "$or":[
        {"item.size_m2":{"$gte":33}},
        #{"item.view_count":{"$gte":50}},
    ]
}
result = [
    (item["item"]["size_m2"], item["item"]["view_count"])
    for item in items.find(query) if int(item["item"]["view_count"]) >= 50
]
len(result)

5