[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/Andrei-Aksionov/nanoGPTplus/blob/main/notebooks/examples/run_on_google_colab.ipynb)

<h1><center>RUNNING TRAINING AND SAMPLING</center></h1>
<h5><center>in Google Colaboratory</center></h5>

Se você não possui uma GPU ou não deseja instalar este projeto em sua máquina local, pode executar este notebook no Google Colab. Este serviço fornece uma instância com CPU, GPU e TPU (esta última não usaremos).

Para fazer isso você pode:
1. Clique no emblema `Abrir no Colab`.
2. Copie este notebook para o [Google Colab](https://colab.research.google.com/) manualmente e execute-o lá.

# 1. Preparations

Primeiro precisamos verificar se a instância está pronta, depois clonar o repositório, criar o ambiente virtual e instalar todas as dependências com o próprio projeto.

## 1.1. Runtime type

O Google Colab fornece instâncias de CPU, GPU e TPU.

O código funcionará na CPU e na GPU, mas recomendo usar a instância da GPU apenas por uma questão de velocidade.

Aqui está um [link](https://www.tutorialspoint.com/google_colab/google_colab_using_free_gpu.htm) sobre como alterar o tipo de tempo de execução.

Se a GPU estiver selecionada e disponível, o código abaixo exibirá informações sobre a GPU disponível e seu status atual.

In [1]:
!nvidia-smi

Thu Jun  1 16:08:51 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.85.12    Driver Version: 525.85.12    CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   54C    P8    12W /  70W |      0MiB / 15360MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

## 1.2. Clone repository

In [2]:
!git clone https://github.com/d4rthcyb3r/LLM-palestra-nano-gpt2plus

Cloning into 'LLM-palestra-nano-gpt2plus'...
remote: Enumerating objects: 103, done.[K
remote: Counting objects: 100% (103/103), done.[K
remote: Compressing objects: 100% (91/91), done.[K
remote: Total 103 (delta 4), reused 103 (delta 4), pack-reused 0[K
Receiving objects: 100% (103/103), 997.00 KiB | 28.49 MiB/s, done.
Resolving deltas: 100% (4/4), done.


Colab permite `cd` em um diretório. Isso significa que a partir de agora todos os comandos serão executados a partir deste diretório.

In [4]:
%cd LLM-palestra-nano-gpt2plus/
!ls

/content/LLM-palestra-nano-gpt2plus
data	 logs	 notebooks    pyproject.toml  references  tests
LICENSE  models  poetry.lock  README.md       src


## 1.3. Prepare virtual environment

Cada instância do Google Colab vem com uma infinidade de pacotes pré-instalados. Mas para reprodutibilidade no futuro, como não controlo as versões de todos os pacotes pré-instalados, prefiro criar um novo ambiente virtual vazio e instalar as dependências do projeto nele.

**Nota Importante**: Pode se alterar pacotes, mas definitivamente

---

não pode controlar a versão do interpretador python. Por enquanto é 3,9. Se você tiver algum problema com a execução das células, primeiro verifique se a saída da célula abaixo é `Python 3.9.*`.

O projeto deveria funcionar em python 3.8 e superior, mas 3.8 não foi testado no Colab, apenas 3.9.

In [5]:
!python --version

Python 3.10.11


In [6]:
# instale o pacote que permite criar ambientes virtuais e criar `venv` dentro da pasta do projeto
%pip install --quiet virtualenv
!virtualenv venv

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.3/3.3 MB[0m [31m88.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m468.5/468.5 kB[0m [31m39.5 MB/s[0m eta [36m0:00:00[0m
[?25hcreated virtual environment CPython3.10.11.final.0-64 in 793ms
  creator CPython3Posix(dest=/content/LLM-palestra-nano-gpt2plus/venv, clear=False, no_vcs_ignore=False, global=False)
  seeder FromAppData(download=False, pip=bundle, setuptools=bundle, wheel=bundle, via=copy, app_data_dir=/root/.local/share/virtualenv)
    added seed packages: pip==23.1.2, setuptools==67.7.2, wheel==0.40.0
  activators BashActivator,CShellActivator,FishActivator,NushellActivator,PowerShellActivator,PythonActivator


*Um* truque para ativar o ambiente virtual permanentemente, para que todos os comandos sejam executados dentro deste ambiente, é alterar a variável de ambiente `$PATH`, para que o venv seja o primeiro da linha.

In [7]:
import os

# existem algumas dificuldades com a exportação padrão da variável de ambiente,
# então eu uso o módulo `os` interno do python
os.environ["PATH"] = f"{os.getcwd()}/venv/bin:{os.environ['PATH']}"
!echo $PATH

/content/LLM-palestra-nano-gpt2plus/venv/bin:/opt/bin:/usr/local/nvidia/bin:/usr/local/cuda/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/tools/node/bin:/tools/google-cloud-sdk/bin


*Agora* podemos verificar se o venv está ativado: o comando abaixo mostra que realmente é um ambiente virtual vazio.:

In [8]:
!pip list

Package    Version
---------- -------
pip        23.1.2
setuptools 67.7.2
wheel      0.40.0


Agora podemos instalar as dependências especificadas em `pyproject.toml` em nosso venv.

In [9]:
%pip install --quiet -e .

  Installing build dependencies ... [?25l[?25hdone
  Checking if build backend supports build_editable ... [?25l[?25hdone
  Getting requirements to build editable ... [?25l[?25hdone
  Preparing editable metadata (pyproject.toml) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m149.4/149.4 kB[0m [31m11.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m7.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m11.8/11.8 MB[0m [31m71.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m17.3/17.3 MB[0m [31m89.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.5/79.5 kB[0m [31m10.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.1/12.1 MB[0m [31m100.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━

# 2. Running models

Agora estamos todos prontos.

Podemos treinar o modelo Bigram, extrair dele novos tokens. Faça o mesmo para o GPT e até carregue o peso do modelo GPT2 pré-treinado do Huggingface e use-o para uma nova amostragem de token.

## 2.1. Download dataset

Para simplificar, este projeto usa um pequeno conjunto de dados de Shakespeare. Você pode definitivamente usar o seu próprio. Você pode verificar o README sobre o que precisa ser feito.

In [10]:
!python src/data/scripts/download_tiny_shakespeare.py

[32m2023-06-01 16:25:29.396[0m | [34m[1mDEBUG   [0m | [36msrc.data.downloader[0m:[36mdownload[0m:[36m34[0m - [34m[1mDownloading https://raw.githubusercontent.com/karpathy/char-rnn/master/data/tinyshakespeare/input.txt into /content/LLM-palestra-nano-gpt2plus/data/raw/tiny_shakespeare[0m
[32m2023-06-01 16:25:29.848[0m | [34m[1mDEBUG   [0m | [36msrc.data.downloader[0m:[36mdownload[0m:[36m44[0m - [34m[1mDownloading is finished[0m


## 2.2. Bigram language model - TEST

Primeiro, começamos com algo bastante simples: modelo de linguagem bigrama. Esse modelo apenas aprende qual token é o mais frequente após o atual e usa essas estatísticas durante a amostragem. Mais sobre isso em `src/model/bigram_language_model/README.md`.

In [None]:
# para bigrama, apenas o tamanho grande está disponível
!python src/model/train.py bigram --size large

[32m2023-03-18 14:16:44.527[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36mtrain[0m:[36m60[0m - [34m[1mRandom seed is fixed for training.[0m
[32m2023-03-18 14:16:44.528[0m | [1mINFO    [0m | [36m__main__[0m:[36mtrain[0m:[36m66[0m - [1mLoading the data...[0m
[32m2023-03-18 14:16:44.533[0m | [1mINFO    [0m | [36m__main__[0m:[36mtrain[0m:[36m70[0m - [1mData is loaded.[0m
[32m2023-03-18 14:16:44.533[0m | [1mINFO    [0m | [36m__main__[0m:[36mtrain[0m:[36m73[0m - [1mStarting tokenizing...[0m
[32m2023-03-18 14:16:44.662[0m | [1mINFO    [0m | [36m__main__[0m:[36mtrain[0m:[36m76[0m - [1mTokenizing is done.[0m
[32m2023-03-18 14:16:44.663[0m | [1mINFO    [0m | [36m__main__[0m:[36mtrain[0m:[36m79[0m - [1mSaving tokenizer...[0m
[32m2023-03-18 14:16:44.665[0m | [1mINFO    [0m | [36m__main__[0m:[36mtrain[0m:[36m81[0m - [1mTokenizer is saved.[0m
[32m2023-03-18 14:16:44.666[0m | [1mINFO    [0m | [36m__main__[0m:

E agora podemos amostrar do modelo treinado.

In [12]:
!python src/model/generate.py bigram --size large --max-new-tokens 100 --fix-seed

[32m2023-06-01 16:26:26.246[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36mgenerate_new_tokens[0m:[36m69[0m - [34m[1mRandom seed is fixed for token generation.[0m
[32m2023-06-01 16:26:27.870[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36mgenerate_new_tokens[0m:[36m104[0m - [34m[1mGenerating tokens on 'cuda' device[0m
[32m2023-06-01 16:26:27.900[0m | [1mINFO    [0m | [36m__main__[0m:[36mgenerate_new_tokens[0m:[36m120[0m - [1mNew generated tokens:  d
O: as; nte tis, te othut mod thand he, preckn,

Henthif o--wishelapinisers we s, orean,
TAUCluprt,[0m
[32m2023-06-01 16:26:27.900[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36mgenerate_new_tokens[0m:[36m121[0m - [34m[1mToken generation took: 0.0305 seconds[0m


Sim, o modelo é rápido.
A saída é um pouco semelhante a palavras reais, o que é bom para um modelo tão simples.

Mas ainda assim, não é algo entendivel.

Vamos verificar o que o GPT pode oferecer.

## 2.3. GPT

**GPT** aceita três tamanhos: `small`, `medium` e `large`.

Pequeno é bom para depuração, enquanto para resultados mais ou menos bons, é claro, quanto maior o modelo, melhor. Além disso, você pode jogar com o argumento `--dataset-fraction`, que especifica qual porção/fração do conjunto de dados usar para treinamento.

Como o tokenizador é bastante simples e o treinamento pode demorar um pouco, vamos usar apenas 10% do conjunto de dados. Embora você possa tentar usar o conjunto de dados completo se tiver uma GPU mais poderosa em sua posse (por exemplo, no Google Colab Pro/Pro+).

In [13]:
os.environ["gpt_size"] = "medium"

In [None]:
!python src/model/train.py gpt --size $gpt_size --dataset-fraction 0.1

[32m2023-06-01 16:27:00.025[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36mtrain[0m:[36m60[0m - [34m[1mRandom seed is fixed for training.[0m
[32m2023-06-01 16:27:00.026[0m | [1mINFO    [0m | [36m__main__[0m:[36mtrain[0m:[36m66[0m - [1mLoading the data...[0m
[32m2023-06-01 16:27:00.032[0m | [1mINFO    [0m | [36m__main__[0m:[36mtrain[0m:[36m70[0m - [1mData is loaded.[0m
[32m2023-06-01 16:27:00.032[0m | [1mINFO    [0m | [36m__main__[0m:[36mtrain[0m:[36m73[0m - [1mStarting tokenizing...[0m
[32m2023-06-01 16:27:00.183[0m | [1mINFO    [0m | [36m__main__[0m:[36mtrain[0m:[36m76[0m - [1mTokenizing is done.[0m
[32m2023-06-01 16:27:00.183[0m | [1mINFO    [0m | [36m__main__[0m:[36mtrain[0m:[36m79[0m - [1mSaving tokenizer...[0m
[32m2023-06-01 16:27:00.186[0m | [1mINFO    [0m | [36m__main__[0m:[36mtrain[0m:[36m81[0m - [1mTokenizer is saved.[0m
[32m2023-06-01 16:27:00.186[0m | [1mINFO    [0m | [36m__main__[0m:

*E* os novos tokens são:

In [None]:
!python src/model/generate.py gpt --size $gpt_size --max-new-tokens 1000 --fix-seed

Ok, isso parece muito melhor do que o que o Bigram LM fez. Não se esqueça de que o conjunto de dados é bem pequeno e o tokenizer é básico. Portanto, o poder do GPT não é totalmente utilizado.

Além disso, você pode obter melhores resultados com modelo maior e treinamento no conjunto de dados completo, mas levará um tempo no Nvidia T4.

## 2.4. GPT with pretrained weights

Esta implementação GPT oferece suporte ao carregamento de pesos pré-treinados para o modelo GPT2 do Huggingface (os pesos são fornecidos pela OpenAI). Esse modelo foi treinado em um grande corpo de dados e usa um [tokenizador de pares de bytes] muito mais sofisticado (https://huggingface.co/course/chapter6/5?fw=pt).

**Observação**: os pesos não são pré-treinados no conjunto de dados de Shakespeare, então a saída será diferente do que vimos antes.

**GPT2** tem 4 configurações:
1. gpt2 (124M parameters) 
2. gpt2-medium (350M)
3. gpt2-large (774M)
4. gpt2-xl (1.5B)

*O Google Colab com Nvidia T4 suporta até gpt2-large.
Embora seja possível usar até mesmo o maior, será necessário alterar a forma como o modelo é carregado.*

Quanto maior o modelo, melhor a amostragem, mas significa que o consumo de memória também será aumentado.

In [None]:
os.environ["gpt2_config"] = "gpt2-medium"
os.environ["max_new_tokens"] = "1000"
os.environ["continue_tokens"] = "My name is Henrique Cyber but everybody calls me "

In [None]:
!python src/model/generate.py gpt --gpt2-config $gpt2_config --max-new-tokens "$((max_new_tokens))" --fix-seed --continue-tokens "$continue_tokens"

### 2.4.1. Key-Value cache

Para GPT é possível usar kv-cache para acelerar a geração de novos tokens.

In [None]:
!python src/model/generate.py gpt --gpt2-config $gpt2_config --max-new-tokens "$((max_new_tokens))" --fix-seed --continue-tokens "$continue_tokens" --use-kv-cache

[32m2023-03-18 14:54:23.120[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36mgenerate_new_tokens[0m:[36m69[0m - [34m[1mRandom seed is fixed for token generation.[0m
[32m2023-03-18 14:54:25.108[0m | [34m[1mDEBUG   [0m | [36msrc.model.gpt_language_model.gpt[0m:[36mfrom_pretrained[0m:[36m340[0m - [34m[1mCreating GPT model with parameters: {'vocab_size': 50257, 'embeddings_size': 1024, 'context_size': 1024, 'num_layers': 24, 'num_heads': 16, 'head_size': None, 'feed_forward_scaling': 4, 'bias': True, 'dropout': 0.1}[0m
[32m2023-03-18 14:54:35.310[0m | [34m[1mDEBUG   [0m | [36msrc.model.gpt_language_model.gpt[0m:[36m__init__[0m:[36m114[0m - [34m[1mGPT language model is created with number of parameters: 353.77 million[0m
[32m2023-03-18 14:54:35.312[0m | [34m[1mDEBUG   [0m | [36msrc.model.gpt_language_model.gpt[0m:[36mfrom_pretrained[0m:[36m348[0m - [34m[1mLoading pretrained Huggingface model of size 'gpt2-medium' ...[0m
[32m2023-03-18 14

Veja a diferença: 120-150 segundos sem cache, 18-19 segundos - com. É por isso que o kv-caching é amplamente adotado.