**Aeronautics Institute of Technology ‚Äì ITA**

**Computer Vision ‚Äì CM-203**

**Professors:** 

Marcos Ricardo Omena de Albuquerque Maximo

Gabriel Adriano de Melo


**Instructions:**

Before submitting your lab, be sure that everything is running correctly (in sequence): first, **restart the kernel** (`Runtime->Restart Runtime` in Colab or `Kernel->Restart` in Jupyter). Then, execute all cells (`Runtime->Run All` in Colab or `Cell->Run All` in Jupyter) and verifies that all cells run without any errors, expecially the automatic grading ones, i.e. the ones with `assert`s.

**Do not delete the answer cells**, i.e. the ones that contains `WRITE YOUR CODE HERE` or `WRITE YOUR ANSWER HERE`, because they contain metadata with the ids of the cells for the grading system. For the same reason, **do not delete the test cells**, i.e. the ones with `assert`s. The autograding system executes all the code sequentially, adding extra tests in the test cells. There is no problem in creating new cells, as long as you do not delete answer or test cells. Moreover, keep your solutions within the reserved spaces.

The notebooks are implemented to be compatible with Google Colab, and they install the dependencies and download the datasets automatically. The commands which start with ! (exclamation mark) are bash commands and can be executed in a Linux terminal.

---

# Redes Neurais Convolucionais (CNNs)

Neste lab j√° come√ßaramos e entender o que o FastAI faz por debaixo dos panos, isto √©, desvendar os segredos do classificador Deep do Lab 1. Isto √©, vamos explorar essas '3 linhas' de fun√ß√µes para definir e instanciar o nosso conjunto de dados (1¬™ linha), definir a arquitetura de rede com transfer learning (2¬™ linha) e efetivamente realizar o treinamento (3¬™ linha).

```python
dados = DataBlock(
    blocks=(ImageBlock, CategoryBlock),
    get_items=get_image_files,
    splitter=RandomSplitter(valid_pct=0.2, seed=19),
    get_y=parent_label,
    item_tfms=[Resize(192, method='squish')],
    batch_tfms=aug_transforms()
).dataloaders(base_path/'train')
caixa_preta = vision_learner(dados, resnet18, metrics=error_rate)
caixa_preta.fine_tune(1)
```

A ideia do lab √© implementarmos uma vers√£o bem simplificada do que o FastAI realiza, para entendermos a ess√™ncia das partes principais de seu funcionamento, sem ter que gastar tempo implementando outras fun√ß√µes auxiliares.

**CUIDADO!!!**

Neste lab voc√™ j√° vai adquirir conhecimento suficiente para se tornar perigoso, utilize o conhecimento com cuidado!

Brincadeiras a parte (mas √© verdade mesmo), as fun√ß√µes implementadas aqui no lab s√£o vers√µes muito simplificadas das presentes nas bibliotecas, em produ√ß√£o opte por usar as fun√ß√µes j√° prontas da biblioteca do que implementar por si pr√≥prio.

Novamente revisitando os feedbacks dos labs anteriores, deixamos o lab mais passo a passo e mais r√°pido (com esperan√ßa). Ent√£o atente-se: √© poss√≠vel que voc√™ consiga completar o lab sem entender os conceitos da forma como gostar√≠amos, todo o c√≥digo escrito pelos professores tem um prop√≥sito, e gostar√≠amos que voc√™ lesse e entendesse cada linha do que ele faz (a menos que especificado o contr√°rio, por exemplo, c√≥digos de plot).

**SpeedRunners** : primeiro tome um tempo (sem contar/antes do seu speedrun) para apreciar o lab.

## Imports and data downloading

Todos os nossos imports ser√£o realizados automaticamente pela FastAI. Enquanto ma maior parte das bibliotecas pode ser uma m√° ideia utilizar um star import (`*`) pois ir√° poluir o seu ambiente, o FastAI toma cuidado de limitar o que √© exportado (importado pelo `*`) por meio da defini√ß√£o da vari√°vel `__all__` dentro de um m√≥dulo. Assim, tudo que √© exportado/importado por ele √© intencional.

In [None]:
from fastai.vision.all import *

O nosso dataset √© um superset do Lab 1, com mais imagens que n√£o est√£o enviesadas pela luminosidade. Esses comandos de bash iniciados por ponto de exclama√ß√£o voc√™ n√£o precisa se preocupar.

Eu coloco essa boleana chamada `RETRAIN` porque na corre√ß√£o do lab eu seto o valor dela igual a Falso para n√£o precisar executar o treinamento final do notebook e exibir algumas imagens.

In [None]:
# dataset_lab read_only

! [ ! -d "/content/cats_vs_dogs2" ] && gdown -O /content/cats_vs_dogs2.zip "1com0nmog6FJ2KVfaGvbSPuC1j1vewNnx" &&  unzip -q /content/cats_vs_dogs2.zip -d /content && rm /content/cats_vs_dogs2.zip
! [ ! -d "/content/cats_vs_dogs2" ] && wget -P /content/ "http://ia.gam.dev/cm203/23/lab05/cats_vs_dogs2.zip" &&  unzip -q /content/cats_vs_dogs2.zip -d /content  && rm /content/cats_vs_dogs2.zip
base_path = Path("/content/cats_vs_dogs2")
RETRAIN = True
%cd /content

O device padr√£o a ser utilizado no treinamento:

In [None]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device

## Dataset (2 points)

**Explica√ß√£o sobre o assunto**

A primeira parte do lab √© definir como os dados devem ser carregados e pre-processados desde o momento de sua leitura (em disco ou mem√≥ria) at√© estar no formato exato a ser entregue ao modelo neural.

O FastAI define uma classe b√°sica chamada de `DataBlock` que funciona como uma F√°brica Abstrata para definir o `Dataset`. A ideia √© que o `DataBlock` define uma *blueprint* de como um dataset deve ser, isto √©, se ele √© composto de imagens `ImageBlock`, de categorias `CategoryBlock`, de bounding boxes `BBoxBlock`, de pontos `PointBlock`, de texto `TextBlock`, de categorias n√£o-exclusivas `Block`, de m√°scaras `MaskBlock`, entre outros.

Dessa forma, temos uma API de alto n√≠vel que consegue definir uma ampla gama de poss√≠veis combina√ß√µes de tipos de dados que voc√™ estiver trabalhando.

Contudo, para simplificar o lab, e por se tratar apenas de um problema de classifica√ß√£o de imagens, vamos trabalhar apenas com um `ImageBlock` e um `CategoryBlock` e por isso j√° iremos criar um `DataBlock` simplificado espec√≠fico apenas para .

In [None]:
class ImageClassDataBlock:
    def __init__(self, get_items, splitter, get_x, get_y, item_tfms, batch_tfms):
        self.get_items = get_items
        self.splitter = splitter
        self.get_x = get_x
        self.get_y = get_y
        self.item_tfms = Pipeline(item_tfms)
        self.batch_tfms = Pipeline(batch_tfms)

Para evitar desgaste desnecess√°rio, n√£o vamos implementar as fun√ß√µes `get_items`, `splitter`, `get_x`, `get_y`, `item_tfms`, `batch_tfms`, mas vamos entender como elas funcionam (argumentos e valores de retorno) justamente para podermos construir o pipeline:

Em primeiro lugar, temos a fun√ß√£o `get_items`, que em sua forma gen√©rica, recebe um 'ponteiro' para os dados (pode ser para uma matriz de dados na mem√≥ria ou um caminho no sistema de arquivos em disco) e retorna uma lista com os 'ponteiros' individuais para cada item do seu conjunto de dados.

Por exemplo, neste laborat√≥rio iremos ler os dados do disco, ent√£o passamos um caminho de uma pasta com as imagens e recebemos de volta uma lista com o caminho de cada imagem. Veja o exemplo abaixo da fun√ß√£o `get_image_files` do FastAI que retorna todas os arquivos de imagem de uma pasta (e subpastas recursivamente).

In [None]:
get_image_files(base_path)

Um bizu que eu n√£o me lembro se escrevi mas pelo menos eu havia tentado falar, nos notebooks voc√™ pode usar o `??` antes ou depois do nome de uma fun√ß√£o para abrir o `help` dela

In [None]:
??get_image_files

Observe acima que at√© a capivara, que estava na raiz do diret√≥rio tamb√©m foi encontrada, s√£o todas os arquivos de imagens. Inclusive esse foi um erro que alguns alunos cometeram no Lab 1 que s√≥ percebi agora, em vez de passar apenas o `base_path/'train'` para o learner, alguns passaram o `base_path` todo e ele n√£o faz a divis√£o das subpastas `train`, `val`, `fora_distribuicao` como eu havia suposto e apenas pega todas as imagens, o que acabaria pegando tamb√©m uma suposta pasta de `test` que estaria dentro desse diret√≥rio e enviesando os resultados. A menos que voc√™ deixasse o splitter com None, nesse caso ele tentaria usar o `GrandParentSplitter` que verifica se h√° pastas com o nome de `train` e `valid`.

Agora para o pr√≥ximo item do pipeline, temos a nossa fun√ß√£o `splitter`, 

Veja que o random spliter cria uma fun√ß√£o espec√≠fica com os hiperpar√¢metros da semente aleat√≥ria e a fra√ß√£o de dados a ser utilizada na valida√ß√£o.

In [None]:
random_splitter = RandomSplitter(valid_pct=0.2, seed=19)
random_splitter

Veja o exemplo de sua aplica√ß√£o abaixo, ele recebe uma lista de qualquer coisa e retorna os √≠ndices dos items repartidos entre treino e valida√ß√£o. Obs: `L` √© uma lista melhorada do FastAI que d√° para indexar os √≠ndices tal qual no NumPy.

In [None]:
lista_items = L('ola0', 'tudo1', 'bem2', 'com3', 'voc√™4', 'eu5', 'sou6', 'uma7', 'lista8', 'de9', 'qualquer10', 'coisa11', 'imagine12', 'caminhos13', '/root/teste/img14.png')
idx_train, idx_val = random_splitter(lista_items)
idx_train, idx_val, lista_items[idx_val]

A fun√ß√£o `get_x` vai receber um item (no formato de ponteiro) e retorn√°-la no formato de tensor. No FastAI ele j√° faz isso automaticamente com base nos `blocks` que voc√™ passou para ele, por isso o `get_x` dele default √© `None`, na na realidade √© substitu√≠do por uma fun√ß√£o identidade `lambda x: x`.

No nosso caso, como n√£o temos essa cria√ß√£o e infer√™ncia autom√°tica dos tipos pelos `blocks`, estamos apenas simplificando, vamos carregar manualmente a imagem do caminho no formato de uma imagem Pillow, que √© o que o FastAI usa. O Jeremy gosta de redefinir os tipos das bibliotecas para acrescentar novas funcionalidades, por exemplo verificar o tipo durante as transforma√ß√µes que veremos a seguir (o `ToTensor()`).
Se for usar o tipo primitivo do Pillow, n√£o esque√ßa o `.copy()` pois quando carrega uma Imagem no PIL ele guarda os metadados (`PIL.JpegImagePlugin.JpegImageFile`) mas o FastAI faz coer√ß√£o dos tipos e espera que seja simplesmente (`PIL.Image.Image`).

In [None]:
def path_to_pil_img(path: Path):
    return PILImage.create(path) # Image.open(path).copy()

capivara = path_to_pil_img(base_path / 'capivara.jpg')
type(capivara)

A fun√ß√£o `get_y` tamb√©m faz um trabalho semelhante ao `get_x`, s√≥ que agora √© o Label. Para n√£o quebrar tanto a compatibilidade quanto no caso do `get_x`, vamos mant√™-lo retornando uma string, que no caso √© o nome da pasta.

In [None]:
caminho_item = base_path/'train'/'cat'/'482.jpg'
parent_label(caminho_item), caminho_item.parent.name

O `item_tfms` do FastAI realiza a transforma√ß√£o de um √∫nico item. O item j√° deve estar carregado no formato correto, no nosso caso, uma `PIL.Image`.

In [None]:
item_transform_simples = Resize(192, method='squish')
item_transform_simples

Veja ela operando sobre a imagem PIL (que deve ser do tipo `PIL.Image.Image`)

In [None]:
item_transform_simples(capivara)

Podemos tamb√©m compor v√°rias transforma√ß√µes por meio de um Pipeline que retorna a fun√ß√£o resultante da aplica√ß√£o sequencial dos seus componentes:

In [None]:
item_transform  = Pipeline([Resize(192, method='squish'), ToTensor()])
item_transform

Observe agora que o nosso resultado √© um Tensor, pois colocamos a transforma√ß√£o `ToTensor()` no final. No nosso caso em que estamos 'reimplementando' o FastAI √© necess√°rio colocar essa transforma√ß√£o explicitamente, mas ele j√° faz isso automaticamente quando voc√™ o usa.

Perceba que pelo fato da nossa capivara ser uma imagem do tipo `fastai.vision.core.PILImage` ele j√° √© esperto para usar RGB e colocar os canais primeiro, com shape `[3, 192, 192]`. Mas o dtype ainda continua `uint8`.

In [None]:
capivara_tensor = item_transform(capivara)
capivara_tensor, capivara_tensor.shape

Uma coisa que pode confundi-lo (n√£o aqui no lab), mas na sua vida real quando estiver usando a biblioteca, √© que o `item_tfms` √© chamado para cada elemento do argumento `blocks`, ou seja, tanto para a imagem quanto para o label, e isso acontece de forma separada se for uma fun√ß√£o. Por isso ele faz verifica√ß√£o e coer√ß√£o de tipos, porque voc√™ pode passar qualquer besteira para ele e ele vai retorna o pr√≥prio valor de entrada. Quando voc√™ passa uma tupla, ela opera nos valores da tupla (aten√ß√£o, deve ser tupla por causa da coer√ß√£o de tipo e n√£o lista). Agora se for um objeto subclasse do `ItemTransform` ele recebe a tupla inteira e aplica da forma como quiser.

In [None]:
item_transform('capimisc'), item_transform_simples((capivara, 'capimisc'))

Agora o `batch_tfms` √© aplicada j√° em um batch de dados, diferentemente do item_transform que √© aplicado sobre um item individualmente. Dessa forma ele √© melhor quando voc√™ for alterar os dados na forma de tensor e n√£o na forma arbitr√°ria (de imagem pillow ou string). A aplica√ß√£o dele √© semelhante √†s tuplas e verifica√ß√£o e coer√ß√£o de tipos, de tal forma que o exemplo abaixo s√≥ muda os valores dos tipos `TensorImage`, `TensorMask`, `TensorBBox`, `TensorPoint`. E para que ele mude simultaneamente deve-se passar uma tupla com esses tensores 

In [None]:
batch_transforms = Pipeline([IntToFloatTensor()] + aug_transforms())
[IntToFloatTensor()] + aug_transforms(), batch_transforms

Como √© uma transforma√ß√£o de batches, a dimens√£o esperada √© de `(Batches, Channels, Height, Width)` temos que usar a nossa indexa√ß√£o com `None` para criar um novo eixo unit√°rio das dimens√µes de batch:

In [None]:
capi_aug = batch_transforms(capivara_tensor[None])
capi_aug, capi_aug.shape

O `.show()` dessa TensorImagem apenas realoca a imagem em CPU e transpo·∫Ωm os canais de volta para virar (H, W, C) e cria uma imagem do Pillow

In [None]:
if RETRAIN:
    capi_aug[0].show()

Para os labels categ√≥ricos, o FastAI tem um `CategoryBlock`, mas para simplificar e tamb√©m entender como ele funciona, implementaremos essa funcionalidade manualmente por meio de um dicion√°rio que relaciona o label (poder ser qualquer coisa, no caso √© string) com um tensor. Para classifica√ß√£o simples com v√°rios labels, em geral se utiliza o one-hot encodding, no qual √© uma representa√ß√£o da distribui√ß√£o de probabilidade entre os labels que √© de 100% para apenas um.

In [None]:
TensorCategory(10)

Para este lab n√£o √© necess√°rio, mas para a vida, se voc√™ for usar a biblioteca FastAI e precisar criar a suas pr√≥prias fun√ß√µes de transforma√ß√µes, seja de itens ou de batches, d√™ uma olhada na documenta√ß√£o: [Data block tutorial](https://docs.fast.ai/tutorial.datablock.html), [Custom transforms](https://docs.fast.ai/tutorial.albumentations.html)

Pode ver o c√≥digo (e copiar) do FastAI sem problemas, embora a implementa√ß√£o completa deles √© muito mais geral do que a requerida para esse lab.

**Enunciado da Quest√£o**

Conforme descrito acima, implemente a fun√ß√£o `transform` abaixo. Ela representa o pipeline da transforma√ß√£o de um √∫nico item do seu formato de ponteiro para o seu formato final de tensor j√° transformado. No nosso caso concreto ele recebe um caminho `Path` de uma imagem e retorna essa imagem j√° carregada e transformada, no formato de `torch.tensor` e conjunto com o seu label tamb√©m j√° no formato de tensor.

**N√ÉO** use LLMs (ChatGPT) para pegar a resposta pronta.

**Pode** olhar a documenta√ß√£o das bibliotecas (PyTorch mas todas as fun√ß√µes que voc√™ precisa est√° nas **dicas**) e **pode** (aconselhado) olhar o material de aula (slides e refer√™ncias).

<details><summary><b>Dica para a resposta</b></summary>
<p>
Basta chamar as fun√ß√µes com os argumentos corretos, coletando os seus valores de retorno e atribuindo para o pr√≥ximo est√°gio do pipeline segundo a sua l√≥gica de implementa√ß√£o explicada na descri√ß√£o. Atente-se que √© apenas um item. Acesse os atributos pertinentes do objeto, o `self.item_tfms` por exemplo.

Eu consegui implementar em uma linha, e se voc√™ for muito esperto vai ver que tamb√©m a solu√ß√£o dessa quest√£o est√° dentro de um dos testes de uma quest√£o posterior.
</p>
</details>

In [None]:
# questao_dataset autograded_answer

@patch_to(ImageClassDataBlock)
def transform(self: ImageClassDataBlock, item, label_to_tensor: dict[any, torch.tensor]) -> tuple[torch.tensor, torch.tensor]:
    """ Realiza a transforma√ß√£o de apenas um item e retorna tensores (se as transforma√ß√µes retornarem tensores)
    Dado o item, voc√™ primeiro precisa extrair os valores iniciais de x e y.
    Depois para o y que √© o label, voc√™ precisa mape√°-lo a um tensor utilizado o seu dicion√°rio
    Por fim voc√™ deve realizar a transforma√ß√£o conjunta e retorna o resultado final.
    
    Args:
        self: √â uma refer√™ncia ao pr√≥prio objeto, imagina que este m√©todo est√° dentro da classe
        item: √â o item a ser processado, pode ser de qualquer tipo desde que seja aceito por get_x e get_y
        label_to_tensor: √â um mapeamento que associa o label retornado pelo get_y a um tensor
    
    Returns:
        Tupla com os tensores x e y. Mas quem realmente garante que √© tensor s√£o as transforma√ß√µes.
    """
    # WRITE YOUR CODE HERE! (you can delete this comment, but do not delete this cell so the ID is not lost)
    raise NotImplementedError()

Se voc√™ usou uma LLM, escreva a sua conversa com ela aqui nesta pr√≥pria c√©lula de texto (copie a conversa inteira) ou exporte o link da conversa:

**Escreva aqui**

Lembre-se que os testes tamb√©m s√£o documenta√ß√£o. Agrade√ßo ao feedback de um aluno que sugeriu que os testes fossem quebrados e explicados passo-a-passo. (Se tiverem sugest√µes n√£o esque√ßam de escrev√™-las).

Nesse primeiro teste iremos usar opera√ß√µes mais simples poss√≠vel: fun√ß√£o identidade (`noop`) que retorna exatamente o mesmo valor de entrada e uma fun√ß√£o `cte` que retorna sempre o mesmo tensor constante n√£o importa o argumento de entrada.

N√≥s passamos um item definido por uma string 'ok' e um dicion√°rio que mapeia o retorno do `get_y` a um tensor e esperamos obter justamente o tensor constante para x e para y, pois o item_tfms √© aplicado na tupla que cont√©m (x, y)

OBS: lambda √© uma nota√ß√£o de Python (one-liner) para fun√ß√µes an√¥nimas, a sintaxe √© `lambda valores_de_argumentos: valores_de_retorno` que √© exatamente igual a definir uma fun√ß√£o com `def nome_funcao(valores_de_argumentos: return valores_de_retorno;`, s√≥ que no primeiro caso do lambda a fun√ß√£o n√£o tem nome.

In [None]:
# testa_1_questao_dataset autograder_tests 0.5

noop = lambda obj: obj
cte = lambda xy: tensor(7)

dblock0 = ImageClassDataBlock(None, None, noop, noop, cte, noop)

xres0, yres0 = dblock0.transform('ok', {'ok': tensor([19])})

assert xres0 == tensor(7)
assert yres0 == tensor(7)


Agora vamos ver se voc√™ est√° passando certo os argumentos para o item_transform, vou pegar uma que espera receber a tupla com o (x, y) pois ele modifica ambos de forma diferente. Como a nossa transforma√ß√£o j√° n√£o √© uma fun√ß√£o comum, ela espera receber uma tupla com o x, y e retorna uma tupla com os valores de x e y transformados.

In [None]:
# testa_2_questao_dataset autograder_tests 0.5

class TransformaDoido(ItemTransform):
    def encodes(self, xy):
        x, y = xy
        return tensor(14), y * 2

dblock0 = ImageClassDataBlock(None, None, noop, noop, TransformaDoido(), noop)

xres0, yres0 = dblock0.transform('ok', {'ok': tensor([19])})

assert xres0 == tensor(14)
assert yres0 == tensor(19 * 2)


E finalmente aplicamos em um exemplo mais pr√≥ximo da realidade, lendo imagens do sistema de arquivos, pegando o label do nome da pasta, fazendo o resize e transformando em tensores:

In [None]:
# testa_3_questao_dataset autograder_tests 1

dblock1 = ImageClassDataBlock(None, None,
    path_to_pil_img, 
    parent_label, 
    [Resize(192, method='squish'), ToTensor()],
    None)

xres, yres = dblock1.transform(base_path/'train'/'cat'/'00000.jpg', {'cat':tensor([1.,0]), 'dog': tensor([0.,1])})

assert xres.dtype == torch.uint8
assert xres.shape == (3, 192, 192)
assert torch.all(xres[0, 0, :3] == tensor([203, 206, 209]))
assert torch.all(yres == tensor([1., 0]))

if RETRAIN:
    xres.show()
yres

OBS: o nosso simples bloco de dados (`ImageClassDataBlock`) √© uma f√°brica concreta e apenas para Imagem com Classifica√ß√£o. O do FastAI √© *abstrato* no sentido de que essa l√≥gica que implementamos nele de `transform` n√£o est√° presente e na realidade ele cria um outro objeto chamado `Dataset` que a√≠ sim tem essa l√≥gica que implementamos.

## Dataloader (2 points)

**Explica√ß√£o sobre o assunto**

Agora que n√≥s j√° conseguimos transformar os nossos itens em tensores, n√≥s temos que agrup√°-los em batch, e tamb√©m fazer isso de uma forma inteligente para n√£o ocupar muito espa√ßo na mem√≥ria, isto √©, s√≥ ir carregando √† medida que forem pedindo.

√â para isso que definimos o DataLoader, ele redebe uma lista de items `list_items` (obs essa lista pode ser indexada por outra lista), a transforma√ß√£o de itens implementada na quest√£o anterior `transform`, a transforma√ß√£o a ser aplicada sobre um batch `batch_tfms`, o tamanho do batch `bs` e para onde deve ser enviado esse batch `device`.

In [None]:
class SimpleDataLoader:
    def __init__(self, list_items, transform, batch_tfms, batch_size, device):
        self.list_items = list_items
        self.transform = transform
        self.batch_tfms = batch_tfms
        self.batch_size = batch_size
        self.device = device
        self.iteracao_atual = 0

Uma das etapas importantes que o DataLoader realiza √© enviar os tensores do batch para o device especificado que no caso de ser GPU (cuda), esse comando envia o tensor para a GPU. No caso de ser CPU ele continua na mem√≥ria RAM, que √© o default.

In [None]:
tensor([4, 3, 2]).to(device)

**Enunciado da Quest√£o**

Implemente a fun√ß√£o `get_batch_at` da classe `SimpleDataLoader` abaixo. Essencialmente esse m√©todo utiliza o `transform` implementado na quest√£o anterior para gerar os tensores `x` e `y` de cada item, sendo que o essencial aqui √© formar um batch, ou seja, aglutinar esses tensores em apenas um grande tensor `X`e outro `Y`, levando-os para o `device` especificado e posteriormente aplicando a transforma√ß√£o do batch. Para mais instru√ß√µes detalhadas est√£o na docstring do m√©todo e dicas no dropdown abaixo.

**N√ÉO** use LLMs (ChatGPT) para pegar a resposta pronta.

Aten√ß√£o, nessa quest√£o se voc√™ esquecer de colocar os tensores do `device` correto, ser√£o descontados 0,5 pontos da resposta. Basta voc√™ fazer `.to(my_device)` em cada tensor. Se esquecer de acessar o atributo do objeto e acessar a vari√°vel global diretamente perde 0,1 pontos.

**Pode** olhar a documenta√ß√£o das biblitocas (PyTorch mas todas as fun√ß√µes que voc√™ precisa est√° nas **dicas**) e **pode** (aconselhado) olhar o material de aula (slides e refer√™ncias).

<details><summary><b>Dica para a resposta</b></summary>
<p>
Use a fun√ß√£o `torch.stack` para concatenar v√°rios tensores ao longo de uma nova dimens√£o. Use o `.to` para enviar o tensor para o dispositivo especificado. Utilize slices para indexar. Acesse os atributos pertinentes do objeto.
</p>
</details>

In [None]:
# questao_dataloader autograded_answer

@patch_to(SimpleDataLoader)
def get_batch_at(self: SimpleDataLoader, idx: int) -> tuple[torch.tensor, torch.tensor]:
    """ Aglutina v√°rios items em um batch cujo primeiro elemento √© indexado por idx.
    Realiza todas as tranforma√ß√µes pertinentes, tanto para obter o tensor a partir de
    um item quanto sobre o batch como um todo.
    
    Args:
        self: Refer√™ncia ao pr√≥prio objeto, esse tamb√©m √© um m√©todo da classe SimpleDataLoader
        idx: Inteiro positivo que define o √≠ndice do primeiro item, entre 0 e len(list_items)-1
    
    Returns:
        Tupla com os tensores X, Y j√° agrupados por batch na dimens√£o 0
    """
    # WRITE YOUR CODE HERE! (you can delete this comment, but do not delete this cell so the ID is not lost)
    raise NotImplementedError()

Se voc√™ usou uma LLM, escreva a sua conversa com ela aqui nesta pr√≥pria c√©lula de texto (copie a conversa inteira) ou exporte o link da conversa:

**Escreva aqui**

Novamente vamos iniciar os nossos testes pelo exemplo mais simples, que s√£o fun√ß√µes identidades. Veja que nesse primeiro teste tamb√©m j√° estamos for√ßando a barra, pois estamos passando tensores como a lista de itens.

In [None]:
# testa_1_questao_dataloader autograder_tests 0.25

noop = lambda t: t
noop2 = lambda t: (t, t)
data0 = [tensor(8), tensor(7), tensor(3), tensor(19)]

dl0 = SimpleDataLoader(data0, noop2, noop, 4, 'cpu')

batch_x0, batch_y0 = dl0.get_batch_at(0)

assert batch_x0.device.type == 'cpu'
assert batch_y0.device.type == 'cpu'
assert torch.all(batch_x0 == tensor([ 8,  7,  3, 19]))
assert torch.all(batch_y0 == tensor([ 8,  7,  3, 19]))


Aqui vamos verificar se de fato voc√™ colocou no device correto (s√≥ testa de verdade se voc√™ tiver uma GPU para o device ficar diferente da CPU).

In [None]:
# testa_2_questao_dataloader autograder_tests 0.25

dl1 = SimpleDataLoader(data0, noop2, noop, 4, device)

batch_x1, batch_y1 = dl1.get_batch_at(0)

assert batch_x1.device.type == device.type
assert batch_y1.device.type == device.type
assert torch.all(batch_x1 == tensor([ 8,  7,  3, 19], device=device))
assert torch.all(batch_y1 == tensor([ 8,  7,  3, 19], device=device))


Vamos ver se voc√™ est√° realizando a transforma√ß√£o do batch corretamente. Perceba que agora que estamos bypassando a chamada do `Pipeline` a nossa fun√ß√£o de `batch_tfms` √© normal, mas isso s√≥ nesse teste mesmo, na vida real com o FastAI voc√™ teria que fazer igual l√° em cima na quest√£o anterior e usar uma subclasse de `Transform`.

In [None]:
# testa_3_questao_dataloader autograder_tests 0.25

divide_y_por_2 = lambda t: (t, t//2)
data2 = [tensor([8, 3]), tensor([7, 9]), tensor([3, 2]), tensor([19, 23])]

dl2 = SimpleDataLoader(data2, divide_y_por_2, noop, 2, 'cpu')

batch_x2, batch_y2 = dl2.get_batch_at(2)

assert torch.all(batch_x2 == tensor([[ 3,  2], [19, 23]]))
assert torch.all(batch_y2 == tensor([[ 1,  1], [9, 11]]))


Vamos testar com tensores de dimens√£o maiores, para ver se voc√™ est√° fazendo o stacking corretamente.

In [None]:
# testa_4_questao_dataloader autograder_tests 0.25

soma_no_batch = lambda t: (t[0] + 1, t[1] + 2)

dl3 = SimpleDataLoader(data2, noop2, soma_no_batch, 1, 'cpu')

batch_x3, batch_y3 = dl3.get_batch_at(3)

assert torch.all(batch_x3 == tensor([[ 20,  24]]))
assert torch.all(batch_y3 == tensor([[ 21,  25]]))


E finalmente um teste que se aproxima mais da realidade, carregando um batch de imagens a partir da lista de itens que na realidade √© uma lista dos caminhos para os arquivos de imagens.

In [None]:
# testa_5_questao_dataloader autograder_tests 1

itemtran  = Pipeline([Resize(192, method='squish'), ToTensor()])
dic = {'cat':tensor([1,0]), 'dog': tensor([0,1])}
transform = lambda p: (itemtran(PILImage.create(p)), dic[p.parent.name])
bstran = Pipeline([IntToFloatTensor()] + aug_transforms())
data4= [base_path/'train'/'cat'/'00004.jpg', base_path/'train'/'dog'/'00001.jpg']

dl4 = SimpleDataLoader(data4, transform, bstran, 2, 'cpu')

batch_x4, batch_y4 = dl4.get_batch_at(0)
assert batch_x4.dtype == torch.float32
assert batch_x4.shape == (2, 3, 192, 192)
assert torch.all(batch_y4 == torch.tensor([[1, 0],
                                           [0, 1]]))
if RETRAIN:
    batch_x4[0].show(), batch_x4[1].show()
batch_y4

Voc√™ deve ter percebido que os valores de inicializa√ß√£o do nosso `SimpleDataLoader` s√£o diferentes do que o nosso `ImageClassDataBlock`, est√° faltando a lista de dados e os outros par√¢metros. Al√©m disso, a ideia √© que n√≥s queremos percorrer os valores do dataloader em um loop.

Antes disso, vamos definir aquele nossos mapeamento (dicion√°rio) que relaciona o label com um tensor. Entenda que esse tensor representa na realidade uma distribui√ß√£o de probabilidade entre as classes. No caso de ser uma classifica√ß√£o mutuamente exclusiva, ent√£o o somat√≥rio delas tem que dar igual a 1. Por exemplo, se temos 4 classes $(capivara, papagaio, gato, cachorro)$ podemos ter uma representa√ß√£o de probabilidade $(0.1, 0.7, 0.05, 0.15)$ que d√° 10% de probabilidade para capivara, 70% para papagaio, 5% para gato e 15% para chachorro.

Assim vamos definir uma fun√ß√£o que retorna um tensor no formato one-hot encodding, que √© justamente colocar 100% de probabilidade em apenas uma classe (representada pelo √≠ndice), que √© a classe que algu√©m anotou manualmente.

Veja o exemplo abaixo que apenas o valor na posi√ß√£o de √≠ndice 3 √© unit√°rio.

In [None]:
def cria_one_hot(idx: int, tamanho: int):
    x = torch.zeros(tamanho)
    x[idx] = 1
    return x

cria_one_hot(3, 10)

Agora assim podemos carregar todos os items por meio do `get_items` e separ√°-los em treino e valida√ß√£o por meio do `splitter`, al√©m de criarmos nosso dicion√°rio. √â imprescind√≠vel fazer o shuffle dos train_idx, pois se o splitter n√£o fizer, o seu dataset ficar√° comprometido, isto √©, 2400 gatos e depois 2400 cachorros nessa ordem. A rede vai aprender s√≥ o vi√©s.

O `DataLoaders` cria dois `DataLoader` por padr√£o, um para treino e outro para valida√ß√£o. Essa funcionalidade (de separar em treino e valida√ß√£o) no FastAI est√° encapsulada na classe `Dataset`, aqui ficou com esse nome apenas por simplifica√ß√£o. E s√≥ para deixar claro, o FastAI tem sim o `.train` e o `.valid` nos `DataLoaders`.

In [None]:
class SimpleDataLoaders:
    def __init__(self, icdb: ImageClassDataBlock, data_pointer, batch_size: int, device):
        self.icdb = icdb
        self.items = icdb.get_items(data_pointer)
        self.train_idx, self.val_idx = icdb.splitter(self.items)
        np.random.shuffle(self.train_idx)
        self.labels = sorted(list(set((icdb.get_y(d) for d in self.items[self.train_idx]))))
        labels_len = len(self.labels)
        self.label_to_tensor = {label: cria_one_hot(idx, labels_len) for idx, label in enumerate(self.labels)}
        self.train = SimpleDataLoader(self.items[self.train_idx], self.transform, icdb.batch_tfms, batch_size, device)
        self.valid = SimpleDataLoader(self.items[self.val_idx], self.transform, icdb.batch_tfms, batch_size, device)

    def transform(self, item):
        return self.icdb.transform(item, self.label_to_tensor)

Vamos acrescentar um novo m√©todo na classe `ImageClassDataBlock` para que ela instancie um `DataLoader` para n√≥s. Observe que o DataLoader recebe j√° a lista de dados que vem do `self.get_items(self.data_pointer)`.

In [None]:
@patch_to(ImageClassDataBlock)
def dataloaders(self: ImageClassDataBlock, data_pointer, bs=64, device=device) -> DataLoader:
    return SimpleDataLoaders(self, data_pointer, bs, device)

Cada `DataLoader` √© um objeto iter√°vel `iterable`, √© por isso que usamos `for x, y in dataloder:` . Para podermos deixar iter√°vel, temos que implementar um m√©todo `__iter__`, al√©m disso, ele precisa retornar um objeto iterador. Para simplificar vamos deix√°-lo como sendo um pr√≥prio iterador (ele cria uma nova c√≥pia de si mesmo com o contador zerado).

In [None]:
@patch_to(SimpleDataLoader)
def __iter__(self: SimpleDataLoader):
    return SimpleDataLoader(self.list_items, self.transform, self.batch_tfms, self.batch_size, self.device)

S√≥ por comodidade tamb√©m vamos definir a fun√ß√£o `len` para o nosso dataloader, que d√° a quantidade de itera√ß√µes totais que ele tem. Esteja ciente de que a √∫ltima itera√ß√£o pode conter uma quantidade menor de batch, justamente se o n√∫mero do batch_size n√£o for m√∫ltiplo da quantidade de elementos.

In [None]:
@patch_to(SimpleDataLoader)
def __len__(self: SimpleDataLoader):
    return math.ceil(len(self.list_items) / self.batch_size)

E finalmente tornamos ele um iterador, que √© simplementente incrementar o contador e retorna o batch:

In [None]:
@patch_to(SimpleDataLoader)
def __next__(self: SimpleDataLoader):
    if self.iteracao_atual >= len(self):
        raise StopIteration
    batch = self.get_batch_at(self.iteracao_atual * self.batch_size)
    self.iteracao_atual += 1
    return batch

Assim a implementa√ß√£o final fica similar ao que o FastAI faz (mas √© uma apenas uma simplifica√ß√£o para o nosso problema):

In [None]:
simples_data_block = ImageClassDataBlock(
    get_image_files,
    RandomSplitter(valid_pct=0.2, seed=19), 
    path_to_pil_img, 
    parent_label, 
    [Resize(192, method='squish'), ToTensor()],
    [IntToFloatTensor()] + aug_transforms())

simples_dataloaders = simples_data_block.dataloaders(base_path/'valid')

if RETRAIN:
    for x, y in simples_dataloaders.valid:
        print(x.shape, y.shape, x.device)

Al√©m do FastAI, o pr√≥prio PyTorch j√° tem classes de Dataset e de DataLoader, mas eu recomendo usar a do FastAI pela interface de mais alto n√≠vel.

## Architecture (2 points)

**Explica√ß√£o sobre o assunto**

Vamos implementar manualmente a arquitetura da ResNet-18, que √© pequena e relativamente simples, e tem uma performance 'razo√°vel'.

<a href="https://www.researchgate.net/figure/Original-ResNet-18-Architecture_fig1_336642248"><img src="https://www.researchgate.net/profile/Sajid-Iqbal-13/publication/336642248/figure/fig1/AS:839151377203201@1577080687133/Original-ResNet-18-Architecture.png" alt="Original ResNet-18 Architecture"/></a>

Em vez de utilizarmos um average pooling local de tamanho fixo 7x7, vamos utilizar uma average pooling global, isto √©, reduzindo todas as dimens√µes espaciais. Essa √© o bizu (*trick*) para que n√≥s possamos classificar uma imagem de qualquer tamanho. No exemplo abaixo ele utilizou imagens com tamanho de entrada 224.

<a href="https://www.researchgate.net/figure/ResNet-18-Architecture_tbl1_322476121"><img src="https://www.researchgate.net/profile/Paolo-Napoletano/publication/322476121/figure/tbl1/AS:668726449946625@1536448218498/ResNet-18-Architecture.png" alt="ResNet-18 Architecture."/></a>

Em vez de implementar toda a arquitetura voc√™s ir√£o implementar apenas o m√≥dulo residual. Mas √© importante que voc√™s entendam a arquitetura como um todo, que √© a aplica√ß√£o desses v√°rios blocos residuais.

Vejamos aqui em baixo o `state_dict` que s√£o apenas os pesos da rede j√° treinada. Ele √© um `dict` normal de python, onde as chaves s√£o strings que definem o nome do par√¢metro e os valores s√£o tensores que cont√©m os pesos neurais. Veja os nomes de todos os par√¢metros, um slice e o shape do bias da √∫ltima camada. Voc√™ consegu√™ saber porque a dimens√£o √© de 1000 elementos (perceba o dataset que ele foi treinado `IMAGENET1K_V1`).

In [None]:
weights = ResNet18_Weights.verify(ResNet18_Weights.IMAGENET1K_V1).get_state_dict("pretrained")
weights.keys(), weights['fc.bias'][:10], weights['fc.bias'].shape

Observe no `layer2` que temos uma mudan√ßa de 64 canais para 128 canais da `conv1` para a `conv2`.

In [None]:
weights['layer2.0.conv1.weight'].shape, weights['layer2.0.conv2.weight'].shape

Entenda que se f√¥ssemos fazer a conex√£o residual de forma ing√™nua, ter√≠amos um descasamento das nossas dimens√µes, pois a dimens√£o de sa√≠da √© menor do que a de entrada, por isso precisamos de um layer de casamento (chamado de `downsample`) que √© um simples kernel 1x1, ou seja, atua apenas nas dimes√µes dos canais e n√£o interfere nas dimens√µes espaciais.

O bizu (trick) na inicializa√ß√£o dessa camada (n√£o √© o caso pois n√£o estamos treinando do zero) √© utilizar uma matriz identidade, para que a entrada possa ser transferida para a sa√≠da. Ainda √© necess√°rio somar um pouco de ru√≠do para quebrar a simetria dos pesos (pois os outros canais zerados acabariam continuando com valores iguais durante o treino).

In [None]:
weights['layer2.0.downsample.0.weight'].shape

A √∫ltima camada ainda √© uma completamente conectada s√≥ pela heran√ßa do state_dict que n√£o quis alterar a√≠ em cima, √© o default do pr√≥prio PyTorch. Mas l√° embaixo, depois da √∫ltima quest√£o mostro como transform√°-la em uma camada convolucional (neste caso ter√≠amos uma rede completamente convolucional).

O nome que o PyTorch pega √© justamente o nome que n√≥s damos para as nossas vari√°veis, perceba o `state_dict` a√≠ em cima. Isso acontece quando atribu√≠mos um `nn.Module` (`nn.Conv2d`, `nn.Linear`, `nn.Sequential` entre outros `nn.`) a algum atributo do nosso pr√≥prio objeto. Assim quando vamos carregar ou salvar o nosso objeto ele verifica todos os atributos e verifica se √© um `nn.Module`, se for, ele aplica recursivamente, e vai registrando todos os par√¢metros (que s√£o os tensores onde `requires_grad=True` e que foram devidamente adicionados ao m√≥dulo).

O `nn.Sequential` √© um m√≥dulo do PyTorch que simplesmente faz a aplica√ß√£o sequencial dos m√≥dulos que voc√™ para como argumento para ele (lembra o Pipeline, mas agora s√£o m√≥dulos da rede neural). Ent√£o no caso abaixo, o `self.layer1` na realidade √© composto por dois `BlocoResidual`, sendo que cada `BlocoResidual` √© composto por duas camadas convolucionais.

In [None]:
class ResNet18(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
        self.bn1 = nn.BatchNorm2d(64)
        self.layer1 = nn.Sequential(BlocoResidual(64)         , BlocoResidual(64))
        self.layer2 = nn.Sequential(BlocoResidual(128, 64, 2) , BlocoResidual(128))
        self.layer3 = nn.Sequential(BlocoResidual(256, 128, 2), BlocoResidual(256))
        self.layer4 = nn.Sequential(BlocoResidual(512, 256, 2), BlocoResidual(512))
        self.fc = nn.Linear(512, 1000)

A propaga√ß√£o direta da rede √© definida pela aplica√ß√£o sequencial das suas camadas, primeiro a convolu√ß√£o `conv1` seguida da normaliza√ß√£o `bn1`, da fun√ß√£o de ativa√ß√£o ReLU e de um Max Pooling que diminui a dimens√£o espacial pela metade.

Assim, temos a aplica√ß√£o sequencial dos m√≥dulos `layer1`,  `layer2`, `layer3` e `layer4`, sendo que cada m√≥dulo desses √© composto por dois Blocos Residuais. A cada layer desses a quantidade de canais vai dobrando e as dimens√µes espaciais v√£o diminuindo pela metade.

Por final temos um pooling global no resto das dimens√µes espaciais, reduzindo-as para valores unit√°rios, isto √© (1, 1). Essa redu√ß√£o ocorre por Average Pooling (tirar a m√©dia de todas as dimens√µes espaciais). Aqui no PyTorch ele n√£o tem uma fun√ß√£o com o nome de GlobalPooling, mas tem outra mais poderosa: `adaptive_x_poolNd` no qual voc√™ pode especificar exatamente as dimens√µes de sa√≠da espaciais.

Perceba que esse pooling permite que passemos imagens de quaiquer tamanhos para ela (s√≥ cuidado para ser m√∫ltiplo de $2**5 = 32$ que foi a quantidade de pooling que fizemos sen√£o a rede pode desprezar (truncar) um pouco das bordas direita e do fundo da imagem.

O final dela na realidade √© uma camada densa (fully-connected) linear, que poderia ser substitu√≠da por uma convolu√ß√£o com kernel 1x1 de mesmos pesos se f√¥ssemos tentar fazer uma detec√ß√£o. Nesse caso, a fineza das janelas de detec√ß√£o dependeriam justamente do tamanho do kernel do average pooling que agora n√£o seria global mas com um stride bem definido, mas isso ser√° assunto do pr√≥ximo lab.

In [None]:
@patch_to(ResNet18)
def forward(self: ResNet18, x: Tensor) -> Tensor:
    x = F.relu(self.bn1(self.conv1(x)))
    x = F.max_pool2d(x, kernel_size=3, stride=2, padding=1)
    x = self.layer1(x)
    x = self.layer2(x)
    x = self.layer3(x)
    x = self.layer4(x)
    x = F.adaptive_avg_pool2d(x, (1, 1))
    x = torch.flatten(x, 1)
    return self.fc(x)

**Enunciado da Quest√£o**

Implemente a fun√ß√£o `forward` do `BlocoResidual` abaixo que realiza a propaga√ß√£o direta desse m√≥dulo. A primeira camada convolucional deve ser aplicada em conjunto com a normaliza√ß√£o `bn1` e a fun√ß√£o de ativa√ß√£o ReLU. Na segunda camada convolucional, aplique apenas a normaliza√ß√£o, e em seguida some com a entrada inicial do bloco (corrigida as dimens√µes). A fun√ß√£o de ativa√ß√£o ReLU deve ser aplicada apenas ap√≥s a conex√£o residual.

<a href="https://www.researchgate.net/figure/Illustration-of-the-residual-learning-between-a-plain-network-and-b-a-residual_fig1_330750910"><img src="https://www.researchgate.net/profile/Olarik-Surinta/publication/330750910/figure/fig1/AS:720960386781185@1548901759330/Illustration-of-the-residual-learning-between-a-plain-network-and-b-a-residual.ppm" alt="Illustration of the residual learning between (a) plain network and (b) a residual network."/></a>

Nessa implementa√ß√£o, a camada de `downsample` realiza uma transforma√ß√£o identidade se a entrada tiver as mesmas dimens√µes da sa√≠da, se n√£o ela realiza uma convolu√ß√£o para fazer as dimens√µes tanto do canal quando as espaciais serem iguais.

**N√ÉO** use LLMs (ChatGPT) para pegar a resposta pronta.

**Pode** olhar a documenta√ß√£o das biblitocas (PyTorch mas todas as fun√ß√µes que voc√™ precisa est√° nas **dicas**) e **pode** (aconselhado) olhar o material de aula (slides e refer√™ncias).

<details><summary><b>Dica para a resposta</b></summary>
<p>
Use F.relu para a fun√ß√£o de ativa√ß√£o ReLU e chame as camadas adequadamente.
</p>
</details>

In [None]:
# questao_arquitetura autograded_answer

class BlocoResidual(nn.Module):
    def __init__(self, canais:int, entrada=-1, stride=1):
        super().__init__()
        self.conv1 = nn.Conv2d(canais if entrada==-1 else entrada, canais, 3, stride, padding=1, bias=False)
        self.bn1 = nn.BatchNorm2d(canais)
        self.conv2 = nn.Conv2d(canais, canais, 3, padding=1, bias=False)
        self.bn2 = nn.BatchNorm2d(canais)
        self.downsample = (lambda x: x) if entrada==-1 else \
          nn.Sequential(nn.Conv2d(entrada, canais, 1, stride, bias=False), nn.BatchNorm2d(canais))

    def forward(self, x: Tensor) -> Tensor:
        """ Realiza a propaga√ß√£o direta do bloco residual de acordo com as equa√ß√µes acima.
        Aplique sequencialmente as transforma√ß√µes, e utiliza fun√ß√£o de ativa√ß√£o relu ap√≥s bn
        No final, fa√ßa a conex√£o residual antes da aplica√ß√£o da fun√ß√£o de ativa√ß√£o.
        
        Args:
            x: Tensor de entrada do bloco residual
        
        Returns:
            Tensor resultado das opera√ß√µes
        """
        # WRITE YOUR CODE HERE! (you can delete this comment, but do not delete this cell so the ID is not lost)
        raise NotImplementedError()
    

Se voc√™ usou uma LLM, escreva a sua conversa com ela aqui nesta pr√≥pria c√©lula de texto (copie a conversa inteira) ou exporte o link da conversa:

**Escreva aqui**

Vamos testar se as dimens√µes sem o `downsample` est√£o casando, vamos apenas instanciar e propagar uma imagem aleat√≥ria:

In [None]:
# testa_1_questao_arquitetura autograder_tests 0.2

bloco1 = BlocoResidual(32)
sa√≠da1 = bloco1(torch.rand((3, 32, 7, 7)))
assert sa√≠da1.shape == (3, 32, 7, 7)


Agora vamos testar quando a dimens√£o da sa√≠da muda:

In [None]:
# testa_2_questao_arquitetura autograder_tests 0.2

bloco2 = BlocoResidual(64, entrada = 32, stride = 2)
sa√≠da2 = bloco2(torch.rand((3, 32, 8, 8)))
assert sa√≠da2.shape == (3, 64, 4, 4)


Agora vamos ver se al√©m das dimens√µes, voc√™ realmente implementou corretamente as opera√ß√µes (e sua ordem, por exemplo). Para isso vamos carregar pesos iguais.

Preste aten√ß√£o na sua arquitetura, pode ser que o teste passe mas mesmo assim esteja errado, aqui o bloco √© de apenas um canal, bem pequeno s√≥ para voc√™ olhar os par√¢metros dele e entender.

In [None]:
# testa_3_questao_arquitetura autograder_tests 0.6

bloco3 = BlocoResidual(1)

bloco3.load_state_dict(OrderedDict([
             ('conv1.weight',
              tensor([[[[ 0.1038,  0.1669, -0.0433],
                        [ 0.2729,  0.2088,  0.0134],
                        [-0.0115, -0.1043, -0.2675]]]])),
             ('bn1.weight', tensor([1.])),
             ('bn1.bias', tensor([0.])),
             ('bn1.running_mean', tensor([0.])),
             ('bn1.running_var', tensor([1.])),
             ('bn1.num_batches_tracked', tensor(0)),
             ('conv2.weight',
              tensor([[[[ 0.3080, -0.1464,  0.1728],
                        [-0.0989,  0.2278,  0.0424],
                        [-0.0991, -0.0931,  0.0043]]]])),
             ('bn2.weight', tensor([1.])),
             ('bn2.bias', tensor([0.])),
             ('bn2.running_mean', tensor([0.])),
             ('bn2.running_var', tensor([1.])),
             ('bn2.num_batches_tracked', tensor(0))]))
entrada = tensor([[[[-1.3950,  0.8202,  0.1999, -0.0679,  0.4585],
                    [ 1.7895,  0.8287, -2.3500,  0.0324, -1.1553],
                    [ 1.1633,  1.4155,  0.0830, -0.7297,  0.9657],
                    [-0.8818,  0.2879, -0.2637, -0.0935,  0.2247],
                    [-1.0390, -0.9874, -0.2633, -0.3821,  0.6705]]]])

sa√≠da3 = bloco3(entrada)

assert sa√≠da3.shape == (1, 1, 5, 5)
assert torch.linalg.norm(sa√≠da3 - tensor(
      [[[[0.        , 0.72686297, 0.11289545, 0.        , 0.        ],
         [1.4164188 , 0.        , 0.        , 0.6236053 , 0.        ],
         [2.8595443 , 1.6284161 , 0.        , 0.        , 0.26629412],
         [0.6389845 , 0.6245868 , 3.0763602 , 0.        , 0.        ],
         [0.        , 0.        , 0.        , 0.23913431, 0.0933522 ]]]])) < 1e-6


Agora vamos testar com a rede inteira que n√≥s mesmos definimos ali em cima, com o BlocoResidual que voc√™ implementou, vamos carregar os pesos j√° pretreinados com o Imagenet de 1000 classes e ver se o resultado √© condizente.

Perceba que a rede espera uma imagem normalizada com m√©dia e desvio padr√£o do conjunto de treinamento, que est√° especificado a√≠ embaixo.

Vamos compara a sa√≠da da nossa pr√≥pria implementa√ß√£o da `ResNet18` com a implementa√ß√£o padr√£o do PyTorch `resnet18`. Agora sim se o resultado for semelhante (diferen√ßa menor que $10^{-6}$) podemos ter alta confian√ßa de que a nossa implementa√ß√£o est√° correta.

In [None]:
# testa_4_questao_arquitetura autograder_tests 1

nossa_resnet18 = ResNet18()

weights = ResNet18_Weights.verify(ResNet18_Weights.IMAGENET1K_V1).get_state_dict("pretrained")
nossa_resnet18.load_state_dict(weights)

media = tensor([0.485, 0.456, 0.406]).reshape(1, 3, 1, 1)
sigma = tensor([0.229, 0.224, 0.225]).reshape(1, 3, 1, 1)
img0 = IntToFloatTensor()(ToTensor()(Resize(192, method='squish')(PILImage.create(base_path/'train'/'cat'/'00003.jpg'))))
img = ((img0 - media) / sigma)

res18_pytorch = resnet18(weights=ResNet18_Weights.IMAGENET1K_V1)

nossa_resnet18.eval()
res18_pytorch.eval()

with torch.no_grad():
    nossa_sa√≠da1000 = nossa_resnet18(img)
    pytorch_sa√≠da1000 = res18_pytorch(img)

assert torch.linalg.norm(nossa_sa√≠da1000 - pytorch_sa√≠da1000) < 1e-6


Al√©m do `no_grad` para infer√™ncia, voc√™ deve estar se perguntando o que serve o `.eval()` chamada nos pr√≥prios modelos. √â justamente por causa das camadas de normaliza√ß√£o por batch `BatchNorm` que durante o treinamento (modo default), elas atualizam as estimativas das m√©dias e dos desvios padr√£o das ativa√ß√µes em um batch.

J√° no modo deinfer√™ncia (`model.eval()`), isso seta a flag `training` de todos os subm√≥dulos recursivamente, e principalmente dos `bn` que agora n√£o ir√£o atualizar mais os valores de m√©dia e desvio padr√£o, que se tornar√£o fixos.

In [None]:
nossa_resnet18.training

Vejamos a sa√≠da da rede, observe qual o √≠ndice  do valor (*logit*) m√°ximo de sa√≠da da rede:

In [None]:
torch.argmax(nossa_sa√≠da1000).item()

O que quer dizer esse n√∫mero? Temos que saber qual o mapeamento entre o √≠ndice da classe e o label textual que n√≥s possamos entender. Se o modelo tiver acertado, deve ser algum gato. Eu poderia colocar um dicion√°rio aqui que mapeasse o √≠ndice (int) em um label (string), mas vou deixar para voc√™ ver isso manualmente.

Acesse o link [https://gist.github.com/yrevar/942d3a0ac09ec9e5eb3a](https://gist.github.com/yrevar/942d3a0ac09ec9e5eb3a) e veja ao que realmente corresponde esse √≠ndice.

Veja tamb√©m a sa√≠da abaixo da rede:

In [None]:
nossa_sa√≠da1000.shape, nossa_sa√≠da1000

Voc√™ deve estar se perguntado: Uai, valores negativos? N√£o deveriam se probabilidades? üò±

Ent√£o, n√≥s *esquecemos* a softmax! Mas tem um motivo para termos deixado-a de fora e veremos adiante no treinamento.

Veja uma representa√ß√£o textual da rede (tem outra por desenho de grafos que mostrarei no pr√≥ximo lab e outra por tabela tamb√©m)

In [None]:
nossa_resnet18

Se voc√™ realmente quiser uma distribui√ß√£o de probabilidades na sa√≠da ter√° que aplicar a softmax, est√° faltando! O que temos nas sa√≠das s√£o apenas os `logits`, isto √©, os valores imediatamentes antes de aplicar a softmax. S√£o chamados de logits pois s√£o justamentes os expoentes da softmax e se voc√™ fosse aplicar o log nela voltaria nos valores (a menos da normaliza√ß√£o).

Mas porque ent√£o a implementa√ß√£o padr√£o j√° n√£o √© com a softmax? Pois j√° podemos inclu√≠-la na pr√≥pria loss function! Ent√£o em vez de termos que fazer uma opera√ß√£o de exponencia√ß√£o para depois aplicarmos o log, podemos j√° diretamente usar os nossos valores. Na √∫ltima se√ß√£o n√≥s iremos detalhar isso.

## Transfer Learning (2 points)

**Explica√ß√£o sobre o assunto**

Nos testes da quest√£o anterior, n√≥s carregamos os pesos de uma rede neural com a mesma arquitetura (e mesmos nomes de par√¢metros)

Perceba que os pesos s√£o apenas um dicion√°rio com o nome do par√¢metro que √© uma string e o seu valor que √© um tensor, se voc√™ criasse uma arquitetura diferente (outras opera√ß√µes) mas cujos nomes dos par√¢metros fosse id√™nticos o PyTorch iria carregar alegremente os pesos, pois ele s√≥ faz o match dos nomes. Isso d√° mais flexibilidade mas tamb√©m pode ser uma fonte silenciosa de erros, pois dependendo do que voc√™ mudar nas opera√ß√µes, pode ser que os pesos pretreinados percam completamente o seu sentido.

A ideia do transfer learning √© justamente essa, mas n√≥s s√≥ iremos mudar as camadas finais, enquanto aproveitamos os pesos de todas as camadas anteriores.

Essa √© a grande sacada: enquanto as camadas iniciais aprendem o que √© uma imagem e quais s√£o as features mais interessantes a serem extra√≠das, as camadas finais apenas escolhem essas features para definir as classes.

Por exemplo, a √∫ltima camada da nossa ResNet18 √© uma uma camada densa (completamente conectada, linear, *MLP*):

In [None]:
list(res18_pytorch.modules())[-1]

**Enunciado da Quest√£o**

Implemente a fun√ß√£o `transfer_weights_new_dim` abaixo de acordo com a sua documenta√ß√£o. A ideia geral √© que voc√™ carregue os pesos pr√©-treinado e substitua a √∫ltima camada densa por uma nova com as dimen√µes de sa√≠da especificadas.

**N√ÉO** use LLMs (ChatGPT) para pegar a resposta pronta. **N√ÉO** pesquise a resposta pronta na internet.

**Pode** olhar a documenta√ß√£o das biblitocas (PyTorch mas todas as fun√ß√µes que voc√™ precisa est√° nas **dicas**) e **pode** (aconselhado) olhar o material de aula (slides e refer√™ncias).

<details><summary><b>Dica para a resposta</b></summary>
<p>
Use o `.load_state_dict` para carregar os pesos j√° treinados na rede original e substitua a √∫ltima camada (a completamente conectada) por outra que tenha a dimens√£o correta. Use `nn.Linear` para criar uma nova camada.
</p>
</details>

In [None]:
# questao_transfer_learning autograded_answer

def transfer_weights_new_dim(model: ResNet18, pretrained_weights: dict[str, tensor], output_dims: int):
    """ Substitui a √∫ltima camada de uma ResNet18 cujos pesos devem ser os pr√©-treinados
    A nova camada de sa√≠da deve ter a dimens√£o especificada pelo par√¢metro output_dims
    
    Args:
        model: Inst√¢ncia de uma ResNet18, pode ser tanto nossa quanto do PyTorch
        pretrained_weights: Dicion√°rio ordenado com os pesos pr√©-treinados
        output_dims: Tamanho da nova dimens√£o de sa√≠da da rede
    
    Returns:
        None : N√£o h√° valor de retorno, mas altera partes do model.
    """
    # WRITE YOUR CODE HERE! (you can delete this comment, but do not delete this cell so the ID is not lost)
    raise NotImplementedError()

Se voc√™ usou uma LLM, escreva a sua conversa com ela aqui nesta pr√≥pria c√©lula de texto (copie a conversa inteira) ou exporte o link da conversa:

**Escreva aqui**

Primeiro vamos verificar se as dimens√µes que voc√™ implementou fazem sentido:

In [None]:
# testa_1_questao_transfer_learning autograder_tests 0.5

res18_pytorch = resnet18()
weights = ResNet18_Weights.verify(ResNet18_Weights.IMAGENET1K_V1).get_state_dict("pretrained")

transfer_weights_new_dim(res18_pytorch, weights, 2023)

assert res18_pytorch.fc.out_features == 2023
assert res18_pytorch.fc.weight.data.shape == (2023, 512)
assert res18_pytorch.fc.bias.data.shape == (2023, )


Vejamos se a rede ainda funciona como o esperado:

In [None]:
# testa_2_questao_transfer_learning autograder_tests 1

img_rand = torch.randn((8, 3, 127, 127))

saida_nova = res18_pytorch(img_rand)

assert saida_nova.shape == (8, 2023)


E por fim se os pesos realmente s√£o os pr√©-treinados

In [None]:
# testa_3_questao_transfer_learning autograder_tests 0.5

assert torch.linalg.norm(weights['conv1.weight'] - res18_pytorch.conv1.weight) < 1e-6
assert torch.linalg.norm(weights['bn1.weight'] - res18_pytorch.bn1.weight) < 1e-6
assert torch.linalg.norm(weights['layer2.0.conv2.weight'] - res18_pytorch.layer2[0].conv2.weight) < 1e-6
assert torch.linalg.norm(weights['layer3.1.conv2.weight'] - res18_pytorch.layer3[1].conv2.weight) < 1e-6


## Fine Tunning (2 points)

**Explica√ß√£o sobre o assunto**

A etapa de fine-tunning √© apenas o treinamento do modelo j√° com transfer learning. Mas existe outro pulo do gato! 

Se n√≥s formos treinar j√° o modelo diretamente, a nossa √∫ltima camada que foi inicializada aleatoriamente vai introduzir ru√≠do no gradiente que ser√° retropropagado para as camadas j√° treinada, e acaba bagun√ßando os pesos que j√° estavam bons.

Dessa forma, a solu√ß√£o √© 'congelar' os pesos j√° treinados, isto √©, impedir que eles sejam atualizados, pois essa atualiza√ß√£o (pelo menos no in√≠cio) potencialmente vai *piorar* os pesos.

Contudo, depois que a sua √∫ltima camada j√° tiver se estabilizado, ent√£o se torna seguro treinar todos os par√¢metros, pois os gradiente j√° se tornaram 'est√°veis' novamente e vai ter menos risco de bagun√ßar os pesos pre-treinados.

No PyTorch, tal qual no lab 2, podemos pegar todos os par√¢metros de um `nn.Module` (a rede inteira, um modelo, uma camada) por meio do `.parameters()`. Veja aqui abaixo os shapes e o `.requires_grad` de cada par√¢metro. Ele inclusive retorna na ordem topol√≥gica.

In [None]:
[(param.shape, param.requires_grad) for param in res18_pytorch.parameters()]

**Enunciado da Quest√£o**

Implemente a fun√ß√£o abaixo `freeze_all_but_last_layer` que congela todos os par√¢metros do modelo, menos aqueles associados √† √∫ltima camada completamente conectada.

**N√ÉO** use LLMs (ChatGPT) para pegar a resposta pronta. **N√ÉO** pesquise a resposta pronta na internet.

**Pode** olhar a documenta√ß√£o das biblitocas (PyTorch mas todas as fun√ß√µes que voc√™ precisa est√° nas **dicas**) e **pode** (aconselhado) olhar o material de aula (slides e refer√™ncias).

<details><summary><b>Dica para a resposta</b></summary>
<p>
Use `model.parameters()` para obter um objeto iter√°vel. Acesse a √∫ltima camada `.fc` do modelo e permita que ela seja trein√°vel.
</p>
</details>

In [None]:
# questao_fine_tunning autograded_answer

def freeze_all_but_last_layer(model: ResNet18):
    """ Congela todos os par√¢metros da rede a menos os da √∫ltima camada
    
    Args:
        model: Modelo da ResNet18 a ser modificado
    
    Return:
        None n√£o h√° valor a ser retornado
    """
    # WRITE YOUR CODE HERE! (you can delete this comment, but do not delete this cell so the ID is not lost)
    raise NotImplementedError()

Se voc√™ usou uma LLM, escreva a sua conversa com ela aqui nesta pr√≥pria c√©lula de texto (copie a conversa inteira) ou exporte o link da conversa:

**Escreva aqui**

O teste √© bem simples, basta ver se os par√¢metros realmente foram impedidos de treinar.

In [None]:
# testa_1_questao_fine_tunning autograder_tests 1

res18_pytorch = resnet18(weights=ResNet18_Weights.IMAGENET1K_V1)

freeze_all_but_last_layer(res18_pytorch)

assert res18_pytorch.conv1.weight.requires_grad == False
assert res18_pytorch.layer3[0].conv2.weight.requires_grad == False


Al√©m disso, **todos** os par√¢metros da √∫ltima camada devem ser trein√°veis, n√£o se esque√ßa de nenhum!

In [None]:
# testa_2_questao_fine_tunning autograder_tests 1

assert res18_pytorch.fc.weight.requires_grad == True


## Treino de Verdade!

**√â recomendado que voc√™ habilite a GPU pelo menos para essa etapa**

Mas se n√£o habilitar n√£o tem problema, s√≥ vai demorar cerca de uns 20 minutos, frente a uns 2 minutos com GPU (estimativas de tempo variam).

Habilite a GPU gratuitamente no Colab ([aula 1 slide 137](https://docs.google.com/presentation/d/1PYRArTIBh9vQ5r7DvEwGgbZp8FCkrwZnkQuFZ-z-snc)) ou utilize a imagem docker com GPU ([jupytergpu.yml](https://github.com/Gabrui/cm203)).

Agora vamos efetivamente treinar a rede, aqui temos a defini√ß√£o do nosso loop de otimiza√ß√£o, algo que voc√™s j√° implementaram no lab 3.

Temos aqui a nossa fun√ß√£o que realiza o treinamento por apenas uma √©poca (ver por uma √∫nica vez todos os dados do conjunto de treinamento). A estrutura dela √© exatamente a mesma que implementada no lab 3: zera os gradientes, calcula a sa√≠da estimada pelo modelo, calcula a loss, realiza a retropropaga√ß√£o e depois a heur√≠stica do gradiente descendente (optimizer). Perceba tamb√©m que para o conjunto de valida√ß√£o basta calcular a loss, com `no_grad` e isso √© realizado apenas no final da √©poca do treinamento.

In [None]:
def one_epoch(model, criterion, dataloaders, optimizer, scheduler):
    train_losses, val_losses = [], []
    
    model.train()
    for x, y in dataloaders.train:
        optimizer.zero_grad() # Zera os gradientes, por causa do += do lab2
        ≈∑ = model(x)
        loss = criterion(≈∑, y)
        loss.backward()
        optimizer.step() # Aqui que os par√¢metros da rede s√£o atualizados
        scheduler.step()
        train_losses.append(loss.item())
        print('%.2e' % loss.item(), end=', ')
    print(f'\nMean loss during training: {np.mean(train_losses)}')
    
    model.eval()
    with torch.no_grad():
        for x, y in dataloaders.valid:
            val_losses.append(criterion(model(x), y).item())
    print(f'Validation loss: {np.mean(val_losses)}\n')
    
    return train_losses, val_losses

Outro pulo do gato no PyTorch, √© que a fun√ß√£o de entropia cruzada deles, `F.cross_entropy` (utilizada na loss) j√° tem uma `softmax` dentro dela mesma! √â por isso que n√£o precisamos colocar uma softmax na sa√≠da da nossa rede. Eu acredito que isso √© por quest√£o de otimiza√ß√£o num√©rica e computacional, por que na softmax n√≥s fazemos a exponencia√ß√£o e no entropia cruzada n√≥s calculamos o log, ent√£o (a menos da normaliza√ß√£o), acaba se cancelando e d√° para implementar como uma opera√ß√£o s√≥!

Veja aqui o resultado da entropia cruzada, observe que os logits n√£o tem restri√ß√£o, podem ser maiores que 1 ou ainda negativos. ATEN√á√ÉO, a ordem importa! O primeiro argumento √© o tensor de logits estimados pela rede e o segundo √© a probabilidade de verdade.

In [None]:
F.cross_entropy(tensor([2., -1, -4, -1]), tensor([1., 0, 0, 0]))

Mas agora se quis√©ssemos calcular as probabilidades n√≥s ter√≠amos que aplicar a softmax sobre os logits:

In [None]:
probabilidades = F.softmax(tensor([2., -1, -4, -1]), dim=-1)
probabilidades

Se calcularmos a entropia cruzada pela f√≥rmula matem√°tica que conhecemos $-\Sigma_c p_c \log \hat{p_c}$ , vemos que o resultado √© exatamente o mesmo:

In [None]:
-torch.sum(tensor([1., 0, 0, 0]) * torch.log(probabilidades))

Agora sim vamos definir a noss√£o fun√ß√£o de fine tunning!

In [None]:
def fine_tune(model, dataloaders: SimpleDataLoaders, epochs = 1):
    freeze_all_but_last_layer(model)
    history = []
    
    optim = torch.optim.Adam(model.parameters())
    sched = torch.optim.lr_scheduler.OneCycleLR(optim, 3e-3, epochs=1, steps_per_epoch=len(dataloaders.train), pct_start=0.05)
    loss = one_epoch(model, F.cross_entropy, dataloaders, optim, sched)
    history.append(loss)
    
    for param in model.parameters():
        param.requires_grad = True
    
    optim = torch.optim.Adam(model.parameters())
    sched = torch.optim.lr_scheduler.OneCycleLR(optim, 3e-4, epochs=epochs, steps_per_epoch=len(dataloaders.train), pct_start=0.2)
    
    for e in range(epochs):
        print(f"Epoch {e+1}/{epochs}")
        losses = one_epoch(model, F.cross_entropy, dataloaders, optim, sched)
        history.append(losses)
    return history

O nosso datablock simplificado com o nosso dataloader, com as duas fun√ß√µes de transforma√ß√£o de um item e de gerar um batch que voc√™ implementou. Aqui vamos usar o `GrandparentSplitter` para separa em treino ou valida√ß√£o com base no nome da pasta que est√° dois n√≠veis acima da imagem (av√≥s) que tem justamente os nomes de `train` e de `valid`. Novamente temos que ter cuidado com a normaliza√ß√£o das imagens, pois o modelo pr√©-treinado precisa da imagem j√° normalizada com base nas m√©dias e desvios padr√µes do Imagenet.

Muita aten√ß√£o que o `GrandparentSplitter` n√£o faz o shuffle do dataset, ent√£o os itens ficam ordenados por ordem alfab√©tica do `get_image_files`. O nosso `SimplesDataLoaders` faz o shuffle, mas no FastAI voc√™ precisa especificar isso. √â uma fonte de erro onde ir√° aparecer uma descontinuidade no seu gr√°fico da loss (quando muda de uma classe para outra) porque a rede s√≥ vai aprender o vi√©s. Experi√™ncia pessoal ao fazer este lab!

Se voc√™ quiser sentir, √© s√≥ apagar a linha do `np.random.shuffle(self.train_idx)` l√° no `SimplesDataLoaders` (rodar a c√©lula l√° novamente) e executar a c√©lula abaixo.

In [None]:
normalize = Normalize.from_stats(
    mean = tensor([0.485, 0.456, 0.406]).reshape(1, 3, 1, 1),
    std = tensor([0.229, 0.224, 0.225]).reshape(1, 3, 1, 1), cuda=torch.cuda.is_available()
)

if RETRAIN:
    nosso_datablock = ImageClassDataBlock(
        get_image_files,
        GrandparentSplitter(train_name='train', valid_name='valid'),
        path_to_pil_img, 
        parent_label, 
        [Resize(192, method='squish'), ToTensor()],
        [IntToFloatTensor(), normalize] + aug_transforms())

    nosso_dataloaders = nosso_datablock.dataloaders(base_path, device=device)

Vamos definir a nossa rede neural e fazer a transfer√™ncia dos pesos com a nova dimens√£o da sa√≠da desejada com a fun√ß√£o que voc√™ implementou:

In [None]:
if RETRAIN:
    nossa_res18 = ResNet18()
    pesos = ResNet18_Weights.verify(ResNet18_Weights.IMAGENET1K_V1).get_state_dict("pretrained")

    transfer_weights_new_dim(nossa_res18, pesos, 2)

    nossa_res18.to(device)

E agora √© s√≥ rodar! Perceba que o treino √© bem 'roubado' porque no Imagenet j√° tem gato e cachorro.

In [None]:
history = []

if RETRAIN:
    
    history = fine_tune(nossa_res18, nosso_dataloaders, epochs=1)
    
    plt.plot([loss for train_history in history for loss in train_history[0]])
    plt.xlabel('Batches')
    plt.ylabel('Entropia Cruzada (nats)')

Perceba que parece que ficou lento, √© verdade! E sabe onde ele est√° gastando mais tempo? √â para carregar as imagens do disco. √â por isso que as implementa√ß√µes padr√µes tanto no FastAI ou no PyTorch utilizam `multiprocessing`, processamento paralelo por meio de subprocessos (pois em Python as Threads n√£o s√£o paralelas por causa do GIL). Assim, enquanto o processo principal est√° treinando, h√° outros processos secund√°rios lendo as imagens do disco.

Sinta-se a vontade para rodar mais ou ainda para avaliar a performance no dataset de test dos alunos, que est√° na pasta `test`.<sub><sup>Reza a lenda que os professores tem um outro dataset de teste escondido</sup></sub> Como acabou que n√£o fiz nenhuma funcionalidade nova para teste, vamos fazer um dataloader normal como se fosse de treino s√≥ que o splitter vai ser 100% pra *treino*

In [None]:
if RETRAIN:
    teste_dataloader = ImageClassDataBlock(
        get_image_files,
        lambda items: (L(range(len(items))), L()),
        path_to_pil_img, 
        parent_label, 
        [Resize(192, method='squish'), ToTensor()],
        [IntToFloatTensor(), normalize] + aug_transforms()).dataloaders(base_path/'test').train

E aqui, um loop simples no nosso dataloader de teste para calcularmos os erros e os acertos. N√≥s escolhemos a classe por meio do `torch.argmax` que faz o contr√°rio do one-hot encoding (ele encontra o argumento, o √≠ndice, que aponta para o maior valor).

In [None]:
acertos = 0
erros = 0
if RETRAIN:
    nossa_res18.eval()
    with torch.no_grad():
        for x, y in teste_dataloader:
            ≈∑ = nossa_res18(x)
            ≈∑_igual_a_y = (torch.argmax(≈∑, dim=-1) == torch.argmax(y, dim=-1))
            acertos += torch.sum(≈∑_igual_a_y).item()
            erros += torch.sum(~≈∑_igual_a_y).item()
acertos, erros

Veja que √© o elemento 0.7 o m√°ximo abaixo, e ele tem √≠ndice 2 (os tensores s√£o indexados do 0).

In [None]:
torch.argmax(tensor([0, 0.2, 0.7, 0.1]))

# Your data and feedback:

Write a feedback for the lab so we can make it better for the next years.

In the following variables, write the number of hours spent on this lab, the perceived difficulty, and the expected grade (you may delete the `raise` and the comments):

In [None]:
# meta_eval manual_graded_answer 0

horas_gastas = None    # 1.5   - Float number with the number of hours spent 
dificuldade_lab = None # 0     - Float number from 0.0 to 10.0 (inclusive)
nota_esperada = None   # 10    - Float number from 0.0 to 10.0 (inclusive)

# WRITE YOUR CODE HERE! (you can delete this comment, but do not delete this cell so the ID is not lost)
raise NotImplementedError()

Write below other comments or feedbacks about the lab. If you did not understand anything about the lab, please also comment here.

If you find any typo or bug in the lab, please comment below so we can fix it.

WRITE YOUR SOLUTION HERE! (do not change this first line):

**ATTENTION**

**ATTENTION**

**ATTENTION**

**ATTENTION**

**DISCURSIVE QUESTION**

WRITE YOUR ANSWER HERE (do not delete this cell so the ID is not lost)

**ATTENTION**

**ATTENTION**


**End of the lab!**