## Datalab 퀵투어

___
## Shell을 통해 datalab 접근

- Cloud Datalab은 GCE VM 위에서 동작하는 Jupyter를 기반으로 만들어진 인터렉티브 도구임
- Datalab 을 조작할때는 `datalab`명령어를 사용
- 아래와 같이 Datalab 인스턴스 생성 가능

```
$ datalab create testdatalab --zone asia-northeast1-b
```

- 기본적으로 `n1-standard-1` 머신을 사용하고, 200gb 전용 디스크, 백업 전용 GCS 버킷, 소스공유 전용 리포지터리 생성

### 유용한 명령어
> `%whos`:      할당된 변수 확인 가능  
> `!git clone`: 노트북 디렉터리 아래에 GitHub 복제  
> `%%bash...`:  bash shell script 실행(Datalab 인스턴스 스타트 시 여러 라이브러리를 설치하는 스크립트)  
> `%%bash echo "pip install --force-reinstall google-cloud-vision==0.27.0" >> /content/datalab/.config/startup.sh`  
> `%%bq query`: 셀 전체를 BigQuery 쿼리 입력으로 식별  
>

### numpy 팁

- numpy에서는 for반복문 사용 대신 **유니버셜함수(각 요소에 연산적용)** 사용을 통해 프로세스를 쉽게 처리 가능

In [1]:
a = np.array([[1,2,3],[4,5,6]], dtype = np.int32)
a

array([[1, 2, 3],
       [4, 5, 6]])

In [2]:
np.power(a, 2)

array([[ 1,  4,  9],
       [16, 25, 36]], dtype=int32)

- 파이썬 내장함수나 사용자 정의 함수를 **유니버셜함수**로 적용 가능 `np.fompyfunc`
- `np.frompyfunc(<함수>, <입력수>, <출력수>)(<객체>)` 로 사용

In [3]:
for i in a:
    print(str(i))

[1 2 3]
[4 5 6]


In [4]:
np.frompyfunc(str, 1, 1)(a)

array([['1', '2', '3'],
       ['4', '5', '6']], dtype=object)

### pandas 자료구조

|차원|객체|설명|
|---
|1차원|Series|행방향만 가지는 데이터|
|2차원|DataFrame|일반적인 행과열 테이블|
|3차원|Panel|테이블이 여러 개 중첩되어 있는 구조

In [5]:
import pandas as pd

- DataFrame은 Series의 컨테이너로, Series만 추출 가능

In [6]:
df_a = pd.DataFrame(np.arange(1,7).reshape(2,3), index = ['A', 'B'], columns = list('abc'))
df_a

Unnamed: 0,a,b,c
A,1,2,3
B,4,5,6


In [7]:
df_a.a

A    1
B    4
Name: a, dtype: int32

___
## BigQuery 연동하기

In [8]:
!bq query "select name, count from kidnames2016.names where state = 'CA' and gender = 'F' order by count desc limit 5"

'bq'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.


In [10]:
%whos

Variable   Type         Data/Info
---------------------------------
a          ndarray      2x3: 6 elems, type `int32`, 24 bytes
df_a       DataFrame       a  b  c\nA  1  2  3\nB  4  5  6
i          ndarray      3: 3 elems, type `int32`, 12 bytes
pd         module       <module 'pandas' from 'C:<...>es\\pandas\\__init__.py'>
