# 데이터의 저장

## Pandas 사용

In [1]:
%pip install pandas

import pandas as pd

Note: you may need to restart the kernel to use updated packages.


In [2]:
# 임의의 데이터
data = [{'data_header_word': 'respect', 'data_header_part': 'noun', 'word': 'respect', 'part': 'noun', 'guide': '(ADMIRATION)', 'definition': 'admiration felt or shown for someone or something that you believe has good ideas or qualities:'},
{'data_header_word': 'respect', 'data_header_part': 'noun', 'word': 'respect', 'part': 'noun', 'guide': '(HONOUR)', 'definition': 'politeness, honour, and care shown towards someone or something that is considered important:'},
{'data_header_word': 'respect', 'data_header_part': 'noun', 'word': 'respect', 'part': 'noun', 'guide': '(FEATURE)', 'definition': 'a particular feature or detail:'},
{'data_header_word': 'respect', 'data_header_part': 'verb [ T ]', 'word': 'respect', 'part': 'verb', 'guide': '(ADMIRE)', 'definition': 'to feel or show admiration for someone or something that you believe has good ideas or qualities:'},
{'data_header_word': 'respect', 'data_header_part': 'verb [ T ]', 'word': 'respect', 'part': 'verb', 'guide': '(HONOUR)', 'definition': 'to treat something or someone with kindness and care:'}]

In [3]:
# Pandas로 사전형 데이터의 리스트를 pandas 테이블로 만들 수 있다.
pandas_data = pd.DataFrame(data)
pandas_data

Unnamed: 0,data_header_word,data_header_part,word,part,guide,definition
0,respect,noun,respect,noun,(ADMIRATION),admiration felt or shown for someone or someth...
1,respect,noun,respect,noun,(HONOUR),"politeness, honour, and care shown towards som..."
2,respect,noun,respect,noun,(FEATURE),a particular feature or detail:
3,respect,verb [ T ],respect,verb,(ADMIRE),to feel or show admiration for someone or some...
4,respect,verb [ T ],respect,verb,(HONOUR),to treat something or someone with kindness an...


In [4]:
# Pandas로 데이터를 파일로 저장할 수 있다.
with open("save.csv", 'w') as fp:
  pandas_data.to_csv(fp)

In [5]:
# CSV 파일로의 저장은 크롤링 과정에서는 추천하지 않는다.
# 콤마 등의 구분자로 모든 테이터 줄이 구분이 되는데,
# 크롤링 데이터는 그 구분자가 데이터에 들어가는 경우가 많다.


# 때로는 그냥 JSON으로 저장하는 것이 가장 좋다.
with open("save.json", 'w') as fp:
  pandas_data.to_json(fp)


In [6]:
# 다음 방법을 쓰면 데이터베이스에서 가장 일반적으로 사용되는 JSON 형태로 저장된다.
with open("save_orient_records.json", 'w') as fp:
  pandas_data.to_json(fp, orient='records')

## pymongo를 통한 MongoDB에 데이터 저장

In [7]:
%pip install pymongo

import pymongo

Note: you may need to restart the kernel to use updated packages.


In [8]:
# client: 접속 매니저를 만든다.

# mongodb에서 정해놓은 접속 위치에 대한 규칙이 있다.
# 몰라도 된다.
URI = f'mongodb://root:123qweasdzxc.@localhost:27017'

client = pymongo.MongoClient(URI)

In [9]:
# client[데이터베이스명]으로 데이터베이스에 접근한다.
# 이 함수는 데이터베이스가 없으면 필요시 만들어낸다.
db = client['crawl']

In [10]:
# 데이터베이스[테이블명]으로 테이블에 접근한다.
# 이 함수는 테이블이 없으면 필요시 만들어낸다.
table = db['data_crawled']

In [11]:
import datetime

# 다음 방법으로 사전형의 데이터를 집어넣을 수 있다.
table.insert_one({
  "age": 32,
  "name": "Anna",
  "birthday": datetime.datetime(2011, 5, 14)
})

<pymongo.results.InsertOneResult at 0x10564a070>

In [12]:
# 정말 아무 데이터나 집어넣을 수 있다.
table.insert_one({
  "is_good": False,
  "name": "Junha",
  "reg_date": datetime.datetime.now()
})

<pymongo.results.InsertOneResult at 0x10564a5b0>

In [13]:
# 한번에 여러 데이터도 집어넣을 수 있다.
table.insert_many([{
  "data": 42,
  "name": "Jinri"
}, {
  "time": datetime.datetime.now(),
  "name": "now"
}, {
  "time": 11442233245, # 같은 행의 데이터 타입이 달라져도 상관없다.
  "name": "now" # 일반적인 행은 값이 중복되도 상관없다.
}])

<pymongo.results.InsertManyResult at 0x1221a1c70>

In [14]:
# 다음 방식으로 테이블 데이터를 파이썬 데이터로 바꿀 수 있다.
list(table.find())

[{'_id': ObjectId('62999dbcafa4a77f05597239'),
  'age': 32,
  'name': 'Anna',
  'birthday': datetime.datetime(2011, 5, 14, 0, 0)},
 {'_id': ObjectId('62999dbcafa4a77f0559723a'),
  'is_good': False,
  'name': 'Junha',
  'reg_date': datetime.datetime(2022, 6, 3, 14, 35, 56, 373000)},
 {'_id': ObjectId('62999dbcafa4a77f0559723b'), 'data': 42, 'name': 'Jinri'},
 {'_id': ObjectId('62999dbcafa4a77f0559723c'),
  'time': datetime.datetime(2022, 6, 3, 14, 35, 56, 398000),
  'name': 'now'},
 {'_id': ObjectId('62999dbcafa4a77f0559723d'),
  'time': 11442233245,
  'name': 'now'}]

In [15]:
# 다음 방식으로 테이블 데이터를 순회할 수 있다.
for x in table.find(): print (x)

{'_id': ObjectId('62999dbcafa4a77f05597239'), 'age': 32, 'name': 'Anna', 'birthday': datetime.datetime(2011, 5, 14, 0, 0)}
{'_id': ObjectId('62999dbcafa4a77f0559723a'), 'is_good': False, 'name': 'Junha', 'reg_date': datetime.datetime(2022, 6, 3, 14, 35, 56, 373000)}
{'_id': ObjectId('62999dbcafa4a77f0559723b'), 'data': 42, 'name': 'Jinri'}
{'_id': ObjectId('62999dbcafa4a77f0559723c'), 'time': datetime.datetime(2022, 6, 3, 14, 35, 56, 398000), 'name': 'now'}
{'_id': ObjectId('62999dbcafa4a77f0559723d'), 'time': 11442233245, 'name': 'now'}


In [16]:
# 데이터 수정은 다음 방식으로 이루어진다.

table.update_one({
  "name": "Jinri" # name이 Jinri인 데이터를
}, {
  "$set": { # 다음 데이터들로 바꾼다.
    "data": "57" # data를 57로 바꾼다.
  }
})

for x in table.find(): print (x)

{'_id': ObjectId('62999dbcafa4a77f05597239'), 'age': 32, 'name': 'Anna', 'birthday': datetime.datetime(2011, 5, 14, 0, 0)}
{'_id': ObjectId('62999dbcafa4a77f0559723a'), 'is_good': False, 'name': 'Junha', 'reg_date': datetime.datetime(2022, 6, 3, 14, 35, 56, 373000)}
{'_id': ObjectId('62999dbcafa4a77f0559723b'), 'data': '57', 'name': 'Jinri'}
{'_id': ObjectId('62999dbcafa4a77f0559723c'), 'time': datetime.datetime(2022, 6, 3, 14, 35, 56, 398000), 'name': 'now'}
{'_id': ObjectId('62999dbcafa4a77f0559723d'), 'time': 11442233245, 'name': 'now'}


In [17]:
# 데이터 삭제는 다음 방식으로 이루어진다.
table.delete_one({
  "name": "now" # name이 now인 것을 삭제
})


for x in table.find(): print (x)

{'_id': ObjectId('62999dbcafa4a77f05597239'), 'age': 32, 'name': 'Anna', 'birthday': datetime.datetime(2011, 5, 14, 0, 0)}
{'_id': ObjectId('62999dbcafa4a77f0559723a'), 'is_good': False, 'name': 'Junha', 'reg_date': datetime.datetime(2022, 6, 3, 14, 35, 56, 373000)}
{'_id': ObjectId('62999dbcafa4a77f0559723b'), 'data': '57', 'name': 'Jinri'}
{'_id': ObjectId('62999dbcafa4a77f0559723d'), 'time': 11442233245, 'name': 'now'}


In [18]:
# 다음 방식으로 테이블 데이터를 pandas로도 바꿀 수 있다.
data_frame = pd.DataFrame(table.find())
data_frame

Unnamed: 0,_id,age,name,birthday,is_good,reg_date,data,time
0,62999dbcafa4a77f05597239,32.0,Anna,2011-05-14,,NaT,,
1,62999dbcafa4a77f0559723a,,Junha,NaT,False,2022-06-03 14:35:56.373,,
2,62999dbcafa4a77f0559723b,,Jinri,NaT,,NaT,57.0,
3,62999dbcafa4a77f0559723d,,now,NaT,,NaT,,11442230000.0


In [19]:
# 다음 방식으로 연결을 끊는다.
client.close()

In [20]:
# 요약하면 다음 순서대로 하면 된다.
URI = f'mongodb://root:123qweasdzxc.@localhost:27017'

client = pymongo.MongoClient(URI)
db = client['crawl']
table = db['word']

table.insert_many(data)

print (pd.DataFrame(table.find()))

client.close()

                        _id data_header_word data_header_part     word  part  \
0  62999dbcafa4a77f0559723f          respect             noun  respect  noun   
1  62999dbcafa4a77f05597240          respect             noun  respect  noun   
2  62999dbcafa4a77f05597241          respect             noun  respect  noun   
3  62999dbcafa4a77f05597242          respect       verb [ T ]  respect  verb   
4  62999dbcafa4a77f05597243          respect       verb [ T ]  respect  verb   

          guide                                         definition  
0  (ADMIRATION)  admiration felt or shown for someone or someth...  
1      (HONOUR)  politeness, honour, and care shown towards som...  
2     (FEATURE)                    a particular feature or detail:  
3      (ADMIRE)  to feel or show admiration for someone or some...  
4      (HONOUR)  to treat something or someone with kindness an...  
