## Introdução

É fácil baixar arquivos manualmente no seu computador, porém, em alguns casos, como quando usamos o Google Colab, pode ser mais interessante obtê-los diretamente dos *web servers* em que estão hospedados, como GitHub ou Kaggle. Dessa forma, uma cópia do arquivo é baixada apenas no ambiente do Colab, sendo excluída quando o Notebook é fechado. 

Vamos ver alguns exemplos de como baixar conjuntos de dados para nossas análises.

## Exemplo 1

Esta página do GitHub (https://github.com/vinayak2019/chemistry_python_intermediate) contém um arquivo chamado `H_smiles.dat`, um dataset de estruturas no formato SMILES.

Não é possível visualizar o arquivo clicando nele, pois o GitHub indica que é um arquivo muito grande. Clicando em `Raw`, o GitHub nos redireciona ao link https://raw.githubusercontent.com/vinayak2019/chemistry_python_intermediate/main/H_smiles.dat em que podemos ver o arquivo no formato de texto.

É possível baixar o arquivo no formato "raw" localmente no Google Colab usando o `wget`, um programa que baixa conteúdo presente em *web servers*:

In [None]:
# Baixar o arquivo usando wget
! wget https://raw.githubusercontent.com/vinayak2019/chemistry_python_intermediate/main/H_smiles.dat

Podemos usar as funcionalidades do Python para ler e deixar o arquivo em um formato mais adequado para uso:

In [None]:
# Ler o arquivo
with open("H_smiles.dat", "r") as f:
    smiles_file = f.read()

# Gerar lista de SMILES
smiles_list = smiles_file.strip().split("\n")

print("O número de SMILES na lista é: ", len(smiles_list))
print("Os primeiros 10 SMILES na lista são: ", smiles_list[:10])

## Exemplo 2

Vamos baixar um conjunto de dados mais organizado, um arquivo `.csv` e transformá-lo em um DataFrame do Pandas.

O link para o dataset é https://github.com/rflameiro/Python_e_Quiminformatica/blob/main/datasets/antibiotics_SMILES.csv, e mais uma vez, clicamos em `Raw` para podermos usar o `wget`: https://raw.githubusercontent.com/rflameiro/Python_e_Quiminformatica/main/datasets/antibiotics_SMILES.csv

In [None]:
# Baixar o arquivo usando wget
! wget https://raw.githubusercontent.com/rflameiro/Python_e_Quiminformatica/main/datasets/antibiotics_SMILES.csv

In [None]:
# Ler o arquivo
with open("antibiotics_SMILES.csv", "r") as f:
    csv_file = f.read()

In [None]:
import pandas as pd

df = pd.DataFrame(csv_file)

df.head()

## Exemplo 3

O Kaggle é um site focado em competições para análise de dados. Para baixar um arquivo do Kaggle é necessário criar uma conta e seguir o passo a passo descrito aqui: https://www.kaggle.com/general/74235, traduzido abaixo para o português.

1. Vá até https://www.kaggle.com/settings, role até a seção API e clique em "Expire Token" para remover tokens anteriores

2. Clique no botão ao lado: "Create New Token" - Ele fará o download de um arquivo "kaggle.json" em sua máquina

3. Abra o Google Colab e execute os seguintes comandos:

In [None]:
from google.colab import files
files.upload() 
# Você deve encontrar e selecionar o arquivo kaggle.json

4. Crie um diretório denominado `kaggle`, copie o arquivo kaggle.json para lá e altere as permissões do arquivo. **Atenção:** O primeiro comando abaixo vai apagar o diretório `kaggle` se ele já existir, e criar um novo diretório vazio. Se já tiver criado o diretório e ele possuir arquivos importantes, mantenha a primeira linha com o # para que não seja executada.

In [None]:
# !rm -r ~/.kaggle
!mkdir ~/.kaggle
!mv ./kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

In [None]:
# Verifique se tudo está ok
! kaggle datasets list

5. Baixe os datasets. Alguns exemplos são mostrados abaixo

In [None]:
# Download dataset Playground Series S3 E8
!kaggle competitions download -c playground-series-s3e8

In [None]:
# Download e unzip o dataset sign-language-mnist na pasta '/usr/local'
! kaggle datasets download -d datamunge/sign-language-mnist --path '/usr/local' --unzip

In [None]:
# Caso um arquivo .zip seja baixado, encaminhe os resultados do unzip para outra pasta usando -p
! unzip -q train.zip -d train_folder -p

Em alguns casos, pode ser necessário entrar na competição do Kaggle (aceitar os termos) antes de conseguir baixar os datasets.