# Kaggle API
- Official github: https://github.com/kaggle/kaggle-api
- 오늘코딩 github (구버전): https://github.com/corazzon/KaggleStruggle/blob/master/kaggle-api.ipynb

해당 API로 캐글 사이트에 접속해서 일일이 데이터셋을 다운로드 받지 않고,<br>
노트북이나 터미널 환경에서 데이터셋 파일을 찾거나 다운로드 받을 수 있으며, 경진대회에 참여할 때 서브미션 파일을 API를 통해 제출할 수 있다.

## 설치 및 API Credentials
```python
# kaggle 설치
python3 -m pip install kaggle

# .kaggle 디렉토리 만들기
mkdir ~/.kaggle

# 파일 옮기기
mv ~/Downloads/kaggle.json ~/.kaggle/kaggle.json

# .kaggle 디렉토리로 이동
cd ~/.kaggle/
chmod 600 ~/.kaggle/kaggle.json

# 권한 보기
ls -al

# 경로 설정
alias kaggle='/opt/anaconda3/bin/kaggle'
```

In [1]:
!pip show kaggle

Name: kaggle
Version: 1.5.12
Summary: Kaggle API
Home-page: https://github.com/Kaggle/kaggle-api
Author: Kaggle
Author-email: support@kaggle.com
License: Apache 2.0
Location: /opt/anaconda3/lib/python3.8/site-packages
Requires: python-slugify, urllib3, requests, six, python-dateutil, tqdm, certifi
Required-by: 


In [2]:
# 캐글 API 설정파일 위치
# .kaggle 이라는 폴더를 ~/ 위치에 만들고 캐글 사이트에서 다운로드 받은파일을 옮겨준다.
!kaggle config path

usage: kaggle config [-h] {view,set,unset} ...
kaggle config: error: argument command: invalid choice: 'path' (choose from 'view', 'set', 'unset')


## Competition
```python
kaggle competitions {list, files, download, submit, submissions}
kaggle datasets {list, files, download}
kaggle config {path}
```

In [3]:
# 경진대회 API의 도움말 보기
!kaggle competitions list -h

usage: kaggle competitions list [-h] [--group GROUP] [--category CATEGORY]
                                [--sort-by SORT_BY] [-p PAGE] [-s SEARCH] [-v]

optional arguments:
  -h, --help            show this help message and exit
  --group GROUP         Search for competitions in a specific group. Default is 'general'. Valid options are 'general', 'entered', and 'inClass'
  --category CATEGORY   Search for competitions of a specific category. Default is 'all'. Valid options are 'all', 'featured', 'research', 'recruitment', 'gettingStarted', 'masters', and 'playground'
  --sort-by SORT_BY     Sort list results. Default is 'latestDeadline'. Valid options are 'grouped', 'prize', 'earliestDeadline', 'latestDeadline', 'numberOfTeams', and 'recentlyCreated'
  -p PAGE, --page PAGE  Page number for results paging. Page size is 20 by default
  -s SEARCH, --search SEARCH
                        Term(s) to search for
  -v, --csv             Print results in CSV format (if not set prin

In [4]:
# health에 해당되는 경진대회를 찾아보기
!kaggle competitions list -s health

ref                                            deadline             category       reward  teamCount  userHasEntered  
---------------------------------------------  -------------------  ----------  ---------  ---------  --------------  
hhp                                            2013-04-04 07:00:00  Featured     $500,000       1350           False  
hubmap-kidney-segmentation                     2021-05-10 23:59:00  Research      $60,000       1456           False  
datasciencebowl                                2015-03-16 23:59:00  Featured     $175,000       1049           False  
ncaam-march-mania-2021                         2021-04-06 04:00:00  Playground     Prizes        707           False  
ncaaw-march-mania-2021                         2021-04-05 12:01:00  Playground     Prizes        451           False  
ncaam-march-mania-2021-spread                  2021-04-06 04:00:00  Playground  Knowledge         96           False  
ncaaw-march-mania-2021-spread           

In [5]:
# nlp와 관련 된 경진대회를 찾아보기
!kaggle competitions list -s nlp

ref                                                deadline             category            reward  teamCount  userHasEntered  
-------------------------------------------------  -------------------  ---------------  ---------  ---------  --------------  
nlp-getting-started                                2030-01-01 00:00:00  Getting Started  Knowledge       2220           False  
jigsaw-unintended-bias-in-toxicity-classification  2019-07-18 19:35:00  Featured           $65,000       3165           False  
google-quest-challenge                             2020-02-10 23:59:00  Featured           $25,000       1571           False  
gendered-pronoun-resolution                        2019-04-22 23:59:00  Research           $25,000        838           False  
word2vec-nlp-tutorial                              2015-06-30 23:59:00  Getting Started  Knowledge        577           False  
trec-covid-information-retrieval                   2020-06-03 11:00:00  Research             Kudo

In [6]:
# 튜토리얼과 관련 된 경진대회를 찾아보기
!kaggle competitions list -s tutorial

ref                                                             deadline             category            reward  teamCount  userHasEntered  
--------------------------------------------------------------  -------------------  ---------------  ---------  ---------  --------------  
word2vec-nlp-tutorial                                           2015-06-30 23:59:00  Getting Started  Knowledge        577           False  
pycon-2015-tutorial-predict-closed-questions-on-stack-overflow  2015-08-04 23:59:00  Playground         $20,000          0           False  


In [7]:
# 타이타닉 경진대회의 데이터셋을 본다.
!kaggle competitions files -c titanic

name                   size  creationDate         
---------------------  ----  -------------------  
train.csv              60KB  2018-04-09 05:33:22  
gender_submission.csv   3KB  2018-04-09 05:33:22  
test.csv               28KB  2018-04-09 05:33:22  


In [8]:
# word2vec-nlp-tutorial의 데이터셋을 본다.
!kaggle competitions files -c word2vec-nlp-tutorial

name                         size  creationDate         
--------------------------  -----  -------------------  
sampleSubmission.csv        276KB  2018-05-05 20:07:07  
testData.tsv.zip             13MB  2018-05-05 20:07:07  
labeledTrainData.tsv.zip     13MB  2018-05-05 20:07:07  
unlabeledTrainData.tsv.zip   26MB  2018-05-05 20:07:07  


In [15]:
# 타이타닉 경진대회 파일을 다운로드 받는다.
!kaggle competitions download -c titanic

Downloading titanic.zip to competitions/titanic
  0%|                                               | 0.00/34.1k [00:00<?, ?B/s]
100%|███████████████████████████████████████| 34.1k/34.1k [00:00<00:00, 882kB/s]


In [12]:
# MACOS를 사용한다면 기본 다운로드 경로는 API credentials을 복사해 놓은 ~/.kaggle 폴더이다.
# 윈도우 에서는 C:\Users\<Windows-username>\.kaggle 에 다운로드 된다.
# 해당 경로에 /competitions/ 이라는 폴더가 생성되었다.
# %ls ~/.kaggle

ls: /cometitions/titanic: No such file or directory


In [11]:
# 다운로드가 제대로 되었는지 확인해 본다.
# ls 명령어는 특정 경로에 어떤 파일이 있는지 확인해 보는 명령어다. 
# %dir # 윈도우 사용자라면 dir로 확인해 본다.
# %ls ~/.kaggle/competitions/titanic

ls: /Users/heekyjung/.kaggle/competitions/titanic: No such file or directory


In [14]:
# 특정 폴더에 다운로드 받고자 한다면 다운로드 받을 경로를 지정해 준다.
# !kaggle competitions download -c titanic -p ./

Downloading titanic.zip to .
100%|███████████████████████████████████████| 34.1k/34.1k [00:00<00:00, 113kB/s]
100%|███████████████████████████████████████| 34.1k/34.1k [00:00<00:00, 113kB/s]


In [17]:
# 제대로 다운로드 받았는지 해당 경로를 찾아본다. 윈도우 사용자라면 %ls 대신 %dir을 사용한다.
%ls ./competitions/titanic

titanic.zip
