In [None]:
# 출처 : https://cloud.google.com/bigquery/docs/managing-datasets?hl=ko#renaming_datasets

**Index**

1. [ ] 환경설정
2. [ ] 테이블 생성
  + [ ] 데이터세트(=스키마)
  + [ ] 테이블
3. 자료 불러오기
4. 자료 업데이트
5. 자료 삭제

### 1.환경설정

In [4]:
###########
# 1.환경설정
####

import os
from google.cloud import bigquery

os.environ["GOOGLE_APPLICATION_CREDENTIALS"]="C:/vision API-06a448b64428.json"
client = bigquery.Client()

In [5]:
# 계정 확인
client.project

'thermal-rain-234004'

### 2.테이터세트 생성/삭제
: RDB의 스키마와 같은 Level(즉, table 상위 Level)

In [7]:
###########
# 데이터세트 만들기
#####

dataset_id = "{}.instagram_data".format(client.project)

# Construct a full Dataset object to send to the API.
dataset = bigquery.Dataset(dataset_id)

# TODO(developer): Specify the geographic location where the dataset should reside.
dataset.location = "US"

# Send the dataset to the API for creation.
# Raises google.api_core.exceptions.Conflict if the Dataset already
# exists within the project.
dataset = client.create_dataset(dataset)  # API request
print("Created dataset {}.{}".format(client.project, dataset.dataset_id))

Created dataset thermal-rain-234004.instagram_data


In [6]:
###########
# 데이터세트 삭제
#####

# client.delete_dataset(dataset_id, delete_contents=True, not_found_ok=True)
# print("Deleted dataset '{}'.".format(dataset_id))

Deleted dataset 'thermal-rain-234004.instagram_test'.


In [4]:
client.project

'thermal-rain-234004'

In [6]:
client.project, dataset.dataset_id

NameError: name 'dataset' is not defined

In [14]:
###########
# 테이블 생성
#####

# TODO(developer): Construct a BigQuery client object.
# client = bigquery.Client()

# Set table_id to the ID of the table to create
project_name = client.project
dataset_name = dataset.dataset_id
table_name = 'hashtag_count'

table_id = project_name + '.' + dataset_name + '.' + table_name

schema = [
    bigquery.SchemaField("DATE",            "DATETIME", mode="REQUIRED"),
    bigquery.SchemaField("keyword",         "STRING",   mode="REQUIRED"),
    bigquery.SchemaField("COUNT",           "INTEGER",  mode="REQUIRED"),
    bigquery.SchemaField("Hashtag_related", "STRING",   mode="REQUIRED"),
]

table = bigquery.Table(table_id, schema=schema)
table = client.create_table(table)  # API request
print(
    "Created table {}.{}.{}".format(table.project, table.dataset_id, table.table_id)
)

Created table thermal-rain-234004.instagram_data.hashtag_count


### 3. 데이터 불러오기

In [7]:
###########
# 데이터세트 내 테이블 정보 가져오기
#####

dataset_id = "{}.instagram_data".format(client.project)
dataset = bigquery.Dataset(dataset_id)

print("Tables:")

tables = list(client.list_tables(dataset))  # API request(s)
if tables:
    for table in tables:
        print("\t{}".format(table.table_id))
else:
    print("\tThis dataset does not contain any tables.")

Tables:
	hashtag_count


In [8]:
# 쿼리 실행
%load_ext google.cloud.bigquery

In [10]:
%%bigquery

SELECT * 
FROM `thermal-rain-234004.instagram_data.hashtag_count` 
where keyword = '바리스타룰스'
order by DATE desc
LIMIT 10

Unnamed: 0,DATE,keyword,COUNT,Hashtag_related
0,2020-07-15 09:08:14,바리스타룰스,0,
1,2020-07-14 09:13:50,바리스타룰스,0,
2,2020-07-14 09:08:13,바리스타룰스,0,
3,2020-07-13 13:53:42,바리스타룰스,0,
4,2020-07-01 01:09:01,바리스타룰스,13044,
5,2020-06-30 16:28:25,바리스타룰스,13045,
6,2020-06-12 09:08:43,바리스타룰스,10085,
7,2020-06-11 09:08:39,바리스타룰스,10037,
8,2020-06-10 09:08:40,바리스타룰스,9961,
9,2020-06-09 09:08:35,바리스타룰스,9903,


In [42]:
# 쿼리 실행 : Pandas DataFrames 형태로 지정

# job_config = bigquery.QueryJobConfig(dry_run=True, use_query_cache=False)

# Start the query, passing in the extra configuration.
sql = """SELECT * 
         FROM `thermal-rain-234004.instagram_data.hashtag_count` 
         where keyword = '바리스타룰스'
         """

df = client.query(sql).to_dataframe()


In [43]:
df.head()

Unnamed: 0,DATE,keyword,COUNT,Hashtag_related
0,2020-03-02 09:53:55,바리스타룰스,8178,#생후499일#유아복쇼핑몰#생후366일#등하원복#유아슈트#음식물쓰레기#둘이라서좋아#...
1,2020-02-21 14:40:32,바리스타룰스,8164,#칠곡군출장샵#유투브채널#외도동카페#브라이언#상주수제케이크#누가보면#뽀드득뽀드득❄️...
2,2020-02-24 09:24:54,바리스타룰스,8165,#안국역육개장#얼베인#막걸리한잔#사쿠사쿠#울산우정사진#엘츠#고기짬뽕#서울예쁜꽃집#기업답례
3,2020-02-24 17:23:18,바리스타룰스,8164,#안국역육개장#얼베인#막걸리한잔#사쿠사쿠#울산우정사진#엘츠#고기짬뽕#서울예쁜꽃집#기업답례
4,2020-02-25 10:25:42,바리스타룰스,8162,#불고기파스타#동대문이베리코맛집#구일역#classypet2019#황도#존잼꿀잼#중상...


In [9]:
# 파일 업로드(local)

# from google.cloud import bigquery
# client = bigquery.Client()
bucket_name = 'khpark_bucket'

project = 'thermal-rain-234004'
dataset_id = 'instagram_data'
table_id = 'hashtag_count'

destination_uri = "gs://{}/{}".format(bucket_name, "insta_test.json")
dataset_ref = client.dataset(dataset_id, project=project)
table_ref = dataset_ref.table(table_id)

In [10]:
table_ref

TableReference(DatasetReference('thermal-rain-234004', 'instagram_data'), 'hashtag_count')

In [11]:
extract_job = client.extract_table(
    table_ref,
    destination_uri,
    # Location must match that of the source table.
    location="US",
)  # API request
extract_job.result()  # Waits for job to complete.

print(
    "Exported {}:{}.{} to {}".format(project, dataset_id, table_id, destination_uri)
)

Exported thermal-rain-234004:instagram_data.hashtag_count to gs://khpark_bucket/insta_test.json


In [None]:
# file 삭제
if os.path.isfile(file):
    os.remove(file)

`표준 SQL 데이터 유형`

| 이름 | 데이터 유형 | 설명 |   
|:---:|:---:|:---:|
| 정수 |	INT64 |	소수 구성요소가 없는 숫자 값  |
| 부동 | 소수점 |	FLOAT64	소수 구성요소가 있는 대략적인 숫자 값  |
| 숫자 |	NUMERIC |	소수 구성요소가 있는 정확한 숫자 값  
| 부울 |	BOOL |	TRUE 또는 FALSE(대소문자 구분)  
| 문자열 |	STRING |	가변 길이 문자(유니코드) 데이터  
| 바이트 |	BYTES |	가변 길이 바이너리 데이터  
| 날짜 |	DATE |	논리적 달력 날짜  
| 날짜/시간 |	DATETIME |	년, 월, 일, 시간, 분, 초, 초 미만  
| 시간 |	TIME |	특정 날짜와 무관한 시간  
| 타임스탬프 |	TIMESTAMP |	마이크로초 정밀도의 절대 시점  
| 구조(레코드) |	STRUCT |	각각 유형(필수)과 필드 이름(선택사항)이 있는 정렬된 필드의 컨테이너  
| 지리 |	GEOGRAPHY |	지구 표면의 점 집합(WGS84 참조 회전 타원체상의 점, 선, 다각형으로 구성된 집합, 측지 에지 포함)  

In [8]:
import json # import json module

# with statement
with open('./insta_test.json') as json_file:
    json_data = json.load(json_file)

In [9]:
json_data

{'DATE': {'0': 1579255472000,
  '1': 1579255472000,
  '2': 1579255472000,
  '3': 1579255472000,
  '4': 1579255472000,
  '5': 1579255472000,
  '6': 1579255472000},
 'keyword': {'0': '더키친살바토레쿠오모',
  '1': '살바토레쿠오모',
  '2': '더키친살바토레앤바',
  '3': '피자는살바토레',
  '4': '살바토레와함께',
  '5': '크리스탈제이드',
  '6': '상하치즈'},
 'COUNT': {'0': 9142,
  '1': 16376,
  '2': 2138,
  '3': 294,
  '4': 161,
  '5': 35274,
  '6': 6080},
 'Hashtag_related': {'0': '#이한치한#한국라면#역곡카페#미미진#빵야빵야',
  '1': '#맛나요#성게알비빔밥#보쌈',
  '2': '',
  '3': '',
  '4': '',
  '5': '#길거리음식#음료수',
  '6': '#우리아이간식#스푼#중상맛#고모가사랑해'}}

In [17]:
json_data["keyword"]

{'0': '더키친살바토레쿠오모',
 '1': '살바토레쿠오모',
 '2': '더키친살바토레앤바',
 '3': '피자는살바토레',
 '4': '살바토레와함께',
 '5': '크리스탈제이드',
 '6': '상하치즈'}

In [6]:
date_value = json_data["DATE"]

In [26]:
from pandas.io.json import json_normalize

json_normalize(json_data["DATE"])

Unnamed: 0,0,1,2,3,4,5,6
0,1579255472000,1579255472000,1579255472000,1579255472000,1579255472000,1579255472000,1579255472000


In [25]:
json_data["DATE"]

{'0': 1579255472000,
 '1': 1579255472000,
 '2': 1579255472000,
 '3': 1579255472000,
 '4': 1579255472000,
 '5': 1579255472000,
 '6': 1579255472000}

In [35]:
###########
# 스트리밍 삽입
#####

project = 'thermal-rain-234004'
dataset_id = 'instagram_data'
table_id = 'hashtag_count'

table_ref = client.dataset(dataset_id).table(table_id)
table = client.get_table(table_ref)  # API request


In [38]:
table

Table(TableReference(DatasetReference('thermal-rain-234004', 'instagram_data'), 'hashtag_count'))

In [47]:
# dummuy file
rows_to_insert = [
    ('2020-01-01', '더키친살바토레쿠오모', 9142, '#이한치한#한국라면#역곡카페#미미진#빵야빵야'),
]

errors = client.insert_rows(table, rows_to_insert)  # API request

In [48]:
errors

[]