<a href="https://colab.research.google.com/github/oceanwise94/SeungHUB/blob/master/Kaggle_Colab_with_Drive.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## I. 개요

- 데이터 시각화와 변환에 대해 짧게 익혔다면 바로 실전 데이터를 활용한다. 
- 이론이 조금 부족하게 느껴질 수 있지만, 모든 것을 다 알려드릴 수는 없다. 
  + 결국 공부는 스스로 해야 한다.
- 이 강의의 목적이 `Kaggle` 데이터를 활용한 Python 포트폴리오 제작 강의임을 잊지 말자. 
- 이번 시간에는 `Kaggle` 데이터를 구글 드라이브로 다운로드 받는 방법에 대해 작성하였다. 

## II. Kaggle KPI 설치
- `Google Colab`에서 `Kaggle API`를 불러오려면 다음 소스코드를 실행한다. 

In [None]:
!pip install kaggle



## III. Kaggle Token 다운로드
- Kaggle에서 `API Token`을 다운로드 받는다. 
- [Kaggle]-[My Account]-[API]-[Create New API Token]을 누르면 kaggle.json 파일이 다운로드 된다. 
- 이 파일을 바탕화면에 옮긴 뒤, 아래 코드를 실행 시킨다.




In [1]:
from google.colab import files
uploaded = files.upload()
for fn in uploaded.keys():
  print('uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))
  
# kaggle.json을 아래 폴더로 옮긴 뒤, file을 사용할 수 있도록 권한을 부여한다. 
!mkdir -p ~/.kaggle/ && mv kaggle.json ~/.kaggle/ && chmod 600 ~/.kaggle/kaggle.json

Saving kaggle.json to kaggle.json
uploaded file "kaggle.json" with length 69 bytes


In [2]:
ls -1ha ~/.kaggle/kaggle.json

/root/.kaggle/kaggle.json


- 에러 메시지가 없으면 성공적으로 `json` 파일이 업로드 되었다는 뜻이다. 

## IV. 구글 드라이브 연동
- 데이터를 불러오기 전에 구글 드라이브와 연동하는 작업을 우선 진행한다. 
- 매우 쉽다. 그러니 천천히 따라와주시기를 바란다. 

### (1) 구글 드라이브 마운트
- 다음 소스코드를 통해서 구글 드라이브와 마운트를 진행한다. 
  + 쉽게 표현하면 구글 코랩에서 드라이브로 접근을 하겠다는 뜻이다.
  + 아래 소스 코드를 실행 하면 본인 인증 절차를 진행하면 된다. 

In [3]:
from google.colab import drive # 패키지 불러오기 

ROOT = "/content/drive"     # 드라이브 기본 경로
print(ROOT)                 # print content of ROOT (Optional)
drive.mount(ROOT)           # 드라이브 기본 경로 Mount

/content/drive
Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&response_type=code&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly

Enter your authorization code:
··········
Mounted at /content/drive


### (2) 프로젝트 파일 생성 및 다운받을 경로 이동
- 구글 코랩을 실행하면 Drive에 `Colab Notebooks` 폴더가 생성이 된다. 
- 일종의 `Colab Project` 폴더로 생각하자. 
- 이 때 본인만의 프로젝트 폴더를 만들자. (주의: 폴더 이름은 반드시 영어명과 공백없이 만든다)
  + 예: `내프로젝트` 또는 `my project`와 같이 만들지 않는다.
  + 강사는 `inflearn_kaggle`이라고 만들었다. 
- 프로젝트 폴더를 생성했으면 이제 아래코드를 실행시킨다.

In [4]:
from os.path import join  

MY_GOOGLE_DRIVE_PATH = 'My Drive/Colab Notebooks/kaggle/data'
PROJECT_PATH = join(ROOT, MY_GOOGLE_DRIVE_PATH)
print(PROJECT_PATH)

/content/drive/My Drive/Colab Notebooks/kaggle/data


- 위 소스코드는 `PROJECT_PATH`를 만드는 코드다.
- 만들어진 `PROJECT_PATH`를 아래와 같이 적용하면 구글 드라이브 내 해당 폴더로 이동하게 된다. 

In [5]:
%cd "{PROJECT_PATH}"

/content/drive/My Drive/Colab Notebooks/kaggle/data


## V. Kaggle 데이터 불러오기
- 먼저 kaggle competition list를 불러온다.

In [6]:
!kaggle competitions list

ref                                               deadline             category            reward  teamCount  userHasEntered  
------------------------------------------------  -------------------  ---------------  ---------  ---------  --------------  
tpu-getting-started                               2030-06-03 23:59:00  Getting Started      Kudos         10           False  
digit-recognizer                                  2030-01-01 00:00:00  Getting Started  Knowledge       3309           False  
titanic                                           2030-01-01 00:00:00  Getting Started  Knowledge      24955           False  
house-prices-advanced-regression-techniques       2030-01-01 00:00:00  Getting Started  Knowledge       5612            True  
connectx                                          2030-01-01 00:00:00  Getting Started  Knowledge        506           False  
nlp-getting-started                               2030-01-01 00:00:00  Getting Started      Kudos       1768   

- 여기에서 참여하기 원하는 대회의 데이터셋을 불러오면 된다. 
- 이번 `basic`강의에서는  `house-prices-advanced-regression-techniques` 데이터를 활용한 `데이터 가공과 시각화`를 연습할 것이기 때문에 아래와 같이 코드를 실행하여 데이터를 불러온다. 

In [16]:
!pip uninstall -y kaggle
!pip install --upgrade pip
!pip install kaggle==1.5.6
!kaggle -v

Uninstalling kaggle-1.5.6:
  Successfully uninstalled kaggle-1.5.6
Collecting pip
[?25l  Downloading https://files.pythonhosted.org/packages/43/84/23ed6a1796480a6f1a2d38f2802901d078266bda38388954d01d3f2e821d/pip-20.1.1-py2.py3-none-any.whl (1.5MB)
[K     |████████████████████████████████| 1.5MB 2.7MB/s 
[?25hInstalling collected packages: pip
  Found existing installation: pip 19.3.1
    Uninstalling pip-19.3.1:
      Successfully uninstalled pip-19.3.1
Successfully installed pip-20.1.1
Collecting kaggle==1.5.6
  Downloading kaggle-1.5.6.tar.gz (58 kB)
[K     |████████████████████████████████| 58 kB 1.7 MB/s 
Building wheels for collected packages: kaggle
  Building wheel for kaggle (setup.py) ... [?25l[?25hdone
  Created wheel for kaggle: filename=kaggle-1.5.6-py3-none-any.whl size=72859 sha256=beb42cb9f6bff01f97cf69187bbc14eb3dae58e42a6ede36f4f8f49fed2b4054
  Stored in directory: /root/.cache/pip/wheels/01/3e/ff/77407ebac3ef71a79b9166a8382aecf88415a0bcbe3c095a01
Successfully bu

In [23]:
!kaggle competitions download -c house-prices-advanced-regression-techniques\


Downloading house-prices-advanced-regression-techniques.zip to /content/drive/My Drive/Colab Notebooks/kaggle/data
  0% 0.00/199k [00:00<?, ?B/s]
100% 199k/199k [00:00<00:00, 17.2MB/s]


In [20]:
!kaggle datasets download -d paresh2047/uci-semcom

Downloading uci-semcom.zip to /content/drive/My Drive/Colab Notebooks/kaggle/data
  0% 0.00/2.03M [00:00<?, ?B/s]
100% 2.03M/2.03M [00:00<00:00, 84.3MB/s]


In [21]:
!unzip uci-semcom.zip

Archive:  uci-semcom.zip
  inflating: uci-secom.csv           


In [24]:
!ls

house-prices-advanced-regression-techniques.zip  test.csv   uci-secom.csv
sample_submission.csv				 train.csv  uci-semcom.zip


- 현재 총 4개의 데이터를 다운로드 받았다. 
  + data_description.txt
  + sample_submission.csv
  + test.csv
  + train.csv

## VI. What's Next
- `Google Colab`에서 `Kaggle API`를 활용하여 데이터를 불러오는 것을 실습하였다. 
- `Kaggle`에서 받은 데이터를 `구글 드라이브`에 바로 저장하는 방법을 배웠다. 
- 다음 시간에는 데이터를 불러온 뒤 이제 본격적인 EDA를 단계별로 진행한다. (Stay with Me)

## VII. 옵션
- 구글 코랩은 참고로 한글폰트를 지원하지 않는다. 따라서, 한글 폰트를 꼭 실무에서 사용하고 싶은 분들은 아래 `Reference`에 관련 내용을 같이 첨부한 것이 있으니 확인하시기를 바란다. 
- 본 튜토리얼에서 Kaggle 데이터는 모두 영어이기에 한글폰트는 따로 사용하지 않는다. 

## Reference

출처: https://chloevan.github.io/settings/kakao_arena_3_eda/