# Python으로 MongoDB 이용하기

In [53]:
%%capture
!pip install pymongo
!pip install certifi


## 1.DB연결 - MongoClient
- 1. client = MongoClient("mongdb 주소") 
- 2. db = client["database 이름"] # DATABASE 객체
- 3. collection = db["collection 이름"] # 

- collection 생성시 주의점
    - 기존의 collection이 없는 경우 에러가 발생하지 않는다면 없으면 collection은 생성됨 / 존재하는 경우 해당 collection에 접근
    - 주의: MongoDB는 콘테츠 넣기 전까지는 collection 생성 안 함
    - 최초로 collection 생성 시, 데이터를 넣어야 존재 체크 가능
    - [참고](https://homzzang.com/b/py-53_)
    


In [113]:
from pymongo import MongoClient
import certifi

ca = certifi.where()

# 방법1 - URI
# mongodb_URI = "mongodb://localhost:27017/"
# client = MongoClient(mongodb_URI)

# 방법2 - HOST, PORT
client = MongoClient("mongodb+srv://tjdgks120813:XeUB8y7nSDmerY1K@cluster0.rhkwp2a.mongodb.net/",connect=False)
# client = MongoClient(host='localhost', port=27017)
db = client['musinsa']
collection = db['Bottom']
print(client.list_database_names())
col_list = db.list_collection_names()
Bottom = db.Bottom

['musinsa', 'admin', 'local']


## 2. DB접근

In [114]:
db = client['musinsa']

## 3. Collection 접근

In [115]:
collection = db['Top']

## 4. Documents 

### Documnet 생성

In [116]:
product_1 = {
    "key": 1000697,
    "link": "https://www.musinsa.com/app/goods/1000696",
    "name": "어커버(ACOVER) [세트상품]포인트 오버핏 롱티셔츠",
    "price": 35000,
    "cateogory":{
                "tags": ["긴팔티셔츠", "오버핏티셔츠", "쭉티", "긴팔티", "커플티", "루즈핏#패키지"],
                "type": "Top"} ,
}

### Collection 접근 및 Document 추가

In [117]:
Bottom = db["Bottom"]

In [118]:
# Documnet 추가 - insert_one(Documnet: dict) 메서드 이용
_id = Bottom.insert_one(product_1).inserted_id
print(_id)

64ae0675dde47108ce3e99ba


In [119]:
# db인스턴스의 list_collection_names() 호출시 db에 존재하는 collection의 목록 확인 가능
db.list_collection_names()

['Top', 'Bottom']

In [120]:
import pprint
pprint.pprint(Bottom.find_one())

{'_id': ObjectId('64ae0675dde47108ce3e99ba'),
 'cateogory': {'tags': ['긴팔티셔츠', '오버핏티셔츠', '쭉티', '긴팔티', '커플티', '루즈핏#패키지'],
               'type': 'Top'},
 'key': 1000697,
 'link': 'https://www.musinsa.com/app/goods/1000696',
 'name': '어커버(ACOVER) [세트상품]포인트 오버핏 롱티셔츠',
 'price': 35000}


#### SQL문법의 WHERE 구문과 같이 특정 요소를 필터링할 수 있는 쿼리도 가능함.
- products Collection에서 key값이 1000696인 단일 Document 호출
- dataset에서 key는 Primary key에 해당함으로 사실상 중복된 결과값이 나오지는 않음.

- key로 조회한 이유: image or text or image&text를 proxy server에 넣었을 때 현재 dists, ids가 나오는데 ids가 key와 동일한 속성임. local storage or gcs의 pickle값과 비교해서 유사도를 계산하는데 각 임베딩의 아이디는 keys값으로 매칭시킬 것이므로 pickle, 즉 임베딩의 faiss에서 id가 cloth의 key과 같음.

In [100]:
pprint.pprint(Bottom.find_one({"key": "1009551"}))

None


#### 여러 Documents 추가 - insert_many() 메서드 이용
- 복수 개의 Documents를 Collection에 추가 가능

In [180]:
items = [
{
    "key": 1000225,
    "link": "https://www.musinsa.com/app/goods/1000696",
    "name": "어커버(ACOVER) [세트상품]포인트 오버핏 롱티셔츠",
    "price": 35000,
    "cateogory":{
                "tags": ["긴팔티셔츠", "오버핏티셔츠", "쭉티", "긴팔티", "커플티", "루즈핏#패키지"],
                "type": "Top"} ,
},
{
    "key": 1000235,
    "link": "https://www.musinsa.com/app/goods/1000696",
    "name": "어커버(ACOVER) [세트상품]포인트 오버핏 롱티셔츠",
    "price": 35000,
    "cateogory":{
                "tags": ["긴팔티셔츠", "오버핏티셔츠", "쭉티", "긴팔티", "커플티", "루즈핏#패키지"],
                "type": "Top"} ,
}
]

Bottom.insert_many(items)

<pymongo.results.InsertManyResult at 0x7f1a705edeb0>

#### 여러 Documents 조회 - find()조회

- find()에서도 SQL문법의 WHERE 구문과 같이 특정 요소를 필터링할 수 있는 쿼리도 가능할까?

In [181]:
for item in Bottom.find():
    print(item["key"])

1000697
1000223
1000225
1000235
1000225
1000235


In [182]:
Bottom.find()

<pymongo.cursor.Cursor at 0x7f1a706d68e0>

#### insert한 뒤 중복된 데이터 지우기


In [188]:
%%time
duplicates = Bottom.aggregate([
    {"$group": {"_id": "$key", "count": {"$sum": 1}}},
    {"$match": {"count": {"$gt": 1}}}
])

print(len(list(duplicates)))
# 중복된 key 출력
ans = []
for duplicate in duplicates:
    key = duplicate['_id']
    ans.append(key)
    print(Bottom.find_one({"key": key})["path"])
    duplicates_to_remove = Bottom.find({"key": key})
    for duplicate_to_remove in duplicates_to_remove[1:]:
        Bottom.delete_one({"_id": duplicate_to_remove["_id"]})
print(ans)

2
[]
CPU times: user 4 ms, sys: 0 ns, total: 4 ms
Wall time: 190 ms


##### pymongo에서 SQL문의 WHERE절의 IN 사용하는 방법
- `{"key":{"$in": keys}}`

In [78]:
keys = [1000697, 10001714]
for item in Bottom.find({"key":{"$in": keys}}):
    pprint.pprint(item)

{'_id': ObjectId('64ad743fdde47108ce3e99aa'),
 'cateogory': {'tags': ['긴팔티셔츠', '오버핏티셔츠', '쭉티', '긴팔티', '커플티', '루즈핏#패키지'],
               'type': 'Top'},
 'key': 1000697,
 'link': 'https://www.musinsa.com/app/goods/1000696',
 'name': '어커버(ACOVER) [세트상품]포인트 오버핏 롱티셔츠',
 'price': 35000}
{'_id': ObjectId('64ad74b6dde47108ce3e99ab'),
 'cateogory': {'tags': ['긴팔티셔츠', '오버핏티셔츠', '쭉티', '긴팔티', '커플티', '루즈핏#패키지'],
               'type': 'Top'},
 'key': 10001714,
 'link': 'https://www.musinsa.com/app/goods/1001714',
 'name': '엠엠엘지(MMLG) [Mmlg] MMLG HF-T (BLACK)',
 'price': 25000}


#### 카운팅

In [81]:
Bottom.count_documents({})

5040

##### 쿼리를 통한 document 수 조회

In [83]:
keys = ["1000696", "10001714"]
Bottom.count_documents({"key":{"$in": keys}})

1