# Instalações e importações

In [None]:
!pip install fiftyone

In [None]:
import fiftyone
from fiftyone.zoo import load_zoo_dataset
fiftyone.__version__

In [None]:
import matplotlib
import matplotlib.image as mpimg
import matplotlib.pyplot as plt
matplotlib.__version__

In [None]:
import numpy as np
np.__version__

In [None]:
import pandas as pd
pd.__version__

In [None]:
import seaborn as sns
sns.__version__

In [None]:
import sklearn
from sklearn.datasets import fetch_california_housing
from sklearn.decomposition import PCA
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import StandardScaler
sklearn.__version__

In [None]:
import transformers
from transformers import CLIPModel, CLIPProcessor
transformers.__version__

In [None]:
import torch
torch.__version__

# Sistemas lineares

Vamos começar importando um dataset real, que relaciona o preço de casas na Califórnia com algumas de suas características. [Mais detalhes aqui!](https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset)

In [None]:
A, y = fetch_california_housing(return_X_y=True, as_frame=True)

Exiba as variáveis `A` e `y`, para ver que elas foram importadas em formato de dataframe.

In [None]:
___

In [None]:
___

Exiba também em formato de NumPy array, utilizando o método apropriado em cada dataframe.

In [None]:
A.___

In [None]:
___

Agora vamos supor que cada atributo das casas tem uma relação linear com o preço, de forma que as matrizes `A` e `y` podem ser usadas para descobrir qual é o preço, por unidade, de cada atributo `x`.

Ou seja, esses dados podem ser representados como um sistema linear do tipo $y = Ax$.

Comece determinando a matriz inversa de `A`.

In [None]:
A_inv = ___

Agora determine os valores de `x`, fazendo a multiplicação matricial de `A_inv` com `y`.

In [None]:
x = ___
x

Para facilitar a interpretação, arredonde os valores de `x` para 2 casas decimais.

In [None]:
x.___

Agora, calcule uma variável `y_pred`, que é obtida multiplicado `A` por `x`. Essa variável representa o valor das casas previsto com base nos atributos que possui. Se nossa suposição de que a relação entre os atributos e o preço das casas é perfeitamente linear fosse verdadeiro, então os valores de `y_pred` e `y` (o preço real) seriam idênticos.

In [None]:
y_pred = ___
y_pred

Compare os preços previstos com os preços reais. Como este dataset é muito extenso, exiba somente os 100 primeiros valores.

Para isso, use a função `plt.plot` duas vezes, uma para cada variável. Use o parâmetro `label` para adicionar um rótulo a cada plot, e no final a função `plt.legend` para exibir os rótulos.

In [None]:
plt.plot(y[:100], label=___)
plt.plot(___)
plt.___

Observe que, apesar de alguns valores bastante errados, ainda assim os preços preditos seguem a tendência mostrada pelos preços reais. Ou seja, nossa suposição inicial não estava tão errada assim!

# Redes neurais

Vamos agora tentar outra abordagem, implementando uma rede neural simples. A vantagem das redes neurais é que elas são capazes de estimar valores mesmo quando a relação não é linear.

Exiba a matriz `A` de novo.

In [None]:
___

Veja que os valores estão em diferentes ordens de grandeza. O desempenho das redes neurais é bastante prejudicado nestas situações. Por isso, é prática comum normalizar os valores antes de passá-los para a rede.

Comece instanciando um scaler do tipo `StandardScaler`.

In [None]:
scaler = ___

Agora utilize o scaler para escalonar os dados de `A` e `y`. No caso de `y`, como o scaler espera receber um array com 2 dimensões, nós precisamos primeiro recuperar o array de `y`, depois aplicar o método `reshape` para transformá-lo em um vetor coluna, e no final podemos aplicar `reshape` de novo para ele voltar a ser um array 1-D (vetor).

In [None]:
A_scaled = scaler.fit_transform(___)
y_scaled = ___(___.___.___).___

Agora crie 3 camadas de uma rede neural: a primeira com 20 neurônios, a segunda também com 20, e a terceira sendo nossa camada de saída. Neste caso, como a variável de saída é numérica, este é um problema de regressão, portanto a camada de saída deve ter um único neurônio.

Não se esqueça de, antes de tudo, fixar a semente de números aleatórios! Utilize a semente = `6`.

In [None]:
np.___

W_1 = np.random.randn(___)
b_1 = ___

W_2 = ___
b_2 = ___

W_3 = ___
b_3 = ___

Agora calcule os valores de saída após cada camada. Para ter certeza de que está tudo certo, exiba o `shape` de cada saída logo após calculá-la.

In [None]:
out_1 = ___
out_1.___

In [None]:
___
___

In [None]:
___
___

Assim como no exercício dos Sistemas lineares, compare os valores da camada de saída com os valores reais. Neste caso, temos que comparar com os valores escalonados.

In [None]:
plt.plot(___, label=___)
___
___

Observe que, neste caso, os valores preditos são bem diferentes dos valores reais. De fato, são tão extremos que os valore reais parecem achatados. Isso é normal, já que as redes neurais começam sem qualquer conhecimento, sendo refinadas ao longo do processo de treinamento. No final, a expectativa é que o erro seja o menor possível, e por consequência, as duas linhas sejam o mais idênticas possível também.

Para ter uma ideia do tamanho do erro nessa primeira iteração da rede neural, calcule o erro como a diferença entre os valores, e exiba sua média.

In [None]:
error = ___
error.___

Isso significa que, para cada casa, a rede neural errou em média em 2.63 pontos na escala escalonada de `y`.

# Eigendecomposition

Neste exercício nós vamos vamos aplicar a técnica de eigendecomposition a textos.

Vamos começar gerando duas coleções de 25 frases cada, uma relacionada a tecnologia, outra relacionada a esportes. Depois, juntamos as duas coleções em uma única lista.

In [None]:
corpus_technology = [
    "A inovação tecnológica tem sido impulsionada pelo processamento rápido de grandes volumes de dados, permitindo avanços notáveis.",
    "O uso de redes integradas facilita a automatização de processos e melhora a eficiência na análise de dados.",
    "As empresas estão cada vez mais voltadas para a inovação, investindo em processamento avançado e na coleta de dados em larga escala.",
    "Com o crescimento das redes digitais, o processamento de dados em tempo real tornou-se essencial para a competitividade das empresas.",
    "A automatização de tarefas rotineiras permite que os profissionais foquem em inovação, gerando novas maneiras de analisar dados.",
    "A inovação em sistemas de processamento de dados tornou possível o uso de redes neurais para resolver problemas complexos.",
    "A coleta e processamento de dados em redes descentralizadas ajudam a garantir maior segurança e confiabilidade nas transações digitais.",
    "A automatização de processos depende da integração de redes eficientes e do acesso rápido aos dados necessários.",
    "A inovação digital exige um processamento de dados rápido, principalmente em redes que atendem a milhares de usuários simultaneamente.",
    "A automatização permite que grandes volumes de dados sejam processados de forma ágil e eficiente, aprimorando o desempenho da rede.",
    "Os avanços no processamento de dados têm possibilitado o desenvolvimento de redes mais seguras e confiáveis para troca de informações.",
    "A inovação está presente em todos os setores que utilizam processamento de dados em tempo real, especialmente nas redes empresariais.",
    "A automatização vem se tornando mais acessível com o avanço das redes e da capacidade de processamento de dados.",
    "A análise de grandes volumes de dados torna-se mais eficaz com redes interligadas e processamentos otimizados.",
    "Com o aumento da inovação tecnológica, novas redes de processamento de dados surgem para suportar a demanda crescente.",
    "A automatização de processos industriais depende de redes avançadas e do rápido processamento de dados para manter a eficiência.",
    "A inovação nas redes digitais e o processamento ágil de dados permitem o desenvolvimento de novas ferramentas de gestão.",
    "A automatização e o uso de redes conectadas são fundamentais para o processamento eficiente de dados no ambiente corporativo.",
    "O avanço na inovação tecnológica tem permitido que redes mais seguras realizem processamento de dados de forma eficaz.",
    "A integração entre redes de dados e a automatização dos sistemas tem otimizado a operação de diversas indústrias.",
    "O uso de redes digitais promove a inovação e melhora o processamento de dados, facilitando a tomada de decisões.",
    "A automatização torna-se cada vez mais eficiente com redes e processamento de dados em nuvem, otimizando o armazenamento.",
    "A inovação em redes de dados e o processamento em alta velocidade são essenciais para o sucesso de projetos de grande escala.",
    "A automatização dos processos e o processamento de grandes volumes de dados ajudam as empresas a expandir sua rede de atuação.",
    "As redes modernas permitem a coleta e o processamento de dados em tempo real, promovendo a inovação na experiência do usuário."
]

corpus_sports = [
    "A disciplina é um dos fatores mais importantes para que o atleta consiga um desempenho de excelência contra seus adversários.",
    "Para alcançar a vitória, o atleta precisa de uma tática sólida e da disciplina em manter seu treinamento.",
    "A análise das táticas do adversário ajuda o atleta a preparar melhor sua própria estratégia para aumentar o desempenho.",
    "A vitória só é alcançada quando o atleta alia disciplina com uma tática eficiente para vencer o adversário.",
    "O desempenho do atleta em uma competição é reflexo direto da disciplina e do foco em aprimorar suas táticas.",
    "Contra adversários experientes, a vitória depende de uma combinação de disciplina e ajustes rápidos de tática.",
    "Para enfrentar um adversário à altura, é necessário muito treinamento e disciplina, além de desenvolver boas táticas.",
    "A vitória não vem sem esforço; é preciso disciplina para melhorar o desempenho e planejar táticas eficazes.",
    "A disciplina no treinamento permite que o atleta mantenha seu melhordesempenho ao longo de toda a competição.",
    "Estudar o estilo do adversário faz parte da preparação tática para maximizar o desempenho e buscar a vitória.",
    "A tática em jogo e a disciplina são essenciais para superar o desempenho do adversário em partidas decisivas.",
    "A vitória requer não apenas habilidade física, mas também uma estratégia que use a tática certa contra cada adversário.",
    "Com disciplina, o atleta desenvolve sua tática e melhora o desempenho, tornando-se um adversário mais difícil.",
    "A tática e a disciplina no treino constante são os principais fatores que garantem um desempenho sólido em competições.",
    "A vitória é resultado de um bom desempenho, que se constrói com muita disciplina e uma tática bem planejada.",
    "Estudar o adversário é fundamental para desenvolver uma tática que melhore o desempenho e aumente as chances de vitória.",
    "A disciplina permite ao atleta aperfeiçoar suas táticas e preparar-se para qualquer adversário que encontrar.",
    "Para garantir um bom desempenho, o atleta precisa de uma tática que considere as possíveis jogadas do adversário.",
    "A vitória em competições exige disciplina constante e o desenvolvimento de uma tática eficaz contra adversários fortes.",
    "O desempenho do atleta depende de sua capacidade de adaptar a tática conforme a estratégia do adversário.",
    "A disciplina nos treinos permite que o atleta encontre a tática ideal para superar o desempenho do adversário.",
    "Com disciplina e determinação, o atleta aprimora seu desempenho e desenvolve táticas para cada tipo de adversário.",
    "A vitória é o resultado de uma combinação de disciplina, tática e um desempenho consistente contra qualquer adversário.",
    "Conhecer a tática do adversário é um diferencial que ajuda o atleta a planejar sua própria estratégia para a vitória.",
    "A disciplina ajuda o atleta a aprimorar suas habilidades e buscar a vitória mesmo contra adversários difíceis."
]

corpus = corpus_technology + corpus_sports

Agora nós temos que representar esses textos em uma forma numérica. Para isso, vamos utilizar a técnica de vectorização TF-IDF. Basicamente, esta técnica cria uma coluna para cada palavra que aparece no texto, e cada frase recebe uma pontuação para indicar que ela contém a palavra. Esse score é afetado para refletir se a palavra aparece em muitas ou poucas frases, já que, se aparecer em poucas, ela tem, teoricamente, maior potencial para diferenciar as frases. Para mais detalhes sobre a técnica, [acesse aqui](https://scikit-learn.org/stable/modules/feature_extraction.html#tfidf-term-weighting).

In [None]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
X = X.toarray()
X.shape

Veja que o array `X` contém 50 linhas, correspondente às 50 frases, e 285 colunas, correspondente às 285 palavras que aparecem nos textos.

Por curiosidade, nós podemos inspecionar qual é o vocabulário que o `vectorizer` encontrou, junto com seu índice correspondente em `X`.

In [None]:
vectorizer.vocabulary_

Agora vamos inspecionar esses valores, nas 4 primeiras frases de cada categoria.

In [None]:
fig, ax = plt.subplots(2, 4, figsize=(10, 3))
for i in range(4):
    ax[0, i].imshow(X[i].reshape(15, 19), cmap='gray') # este `reshape` só tem como objetivo melhorar a visualização, para transformar o vetor em uma matriz retangular.
    ax[0, i].set_title('Tecnologia')
    ax[0, i].axis('off')
    ax[1, i].imshow(X[25+i].reshape(15, 19), cmap='gray') # as frases de esporte começam no índice 25.
    ax[1, i].set_title('Esportes')
    ax[1, i].axis('off')

Perceba que, primeiro, a maioria dos "pixels" nessa visualização são pretos, o que indica que as frases **não têm** a palavra correspondente (o score é 0). Segundo, os demais pixels são algum tom de cinza, o que indica um valor entre 0 e 1 (branco). Isso indica o score para cada palavra que aparece na frase. Terceiro, observe que não existe uma diferença visível entre os textos de tecnologia e esportes. É por isso que vamos aplicar a técnica de eigendecomposition, tentando encontrar os eigenvectors mais influentes na composição desse dataset.

Agora é sua vez! Calcule a matriz de covarância para o array `X`, que representa o dataset. Lembre-se que essa matriz precisa correlacionar os scores de TF-IDF; você precisa fazer alguma transformação em `X` antes?

In [None]:
X_cov = ___

Que tal agora visualizar essa matriz no formato de um heatmap?

In [None]:
___

Essa matriz sozinha não é muito informativa...

Agora, aplique a técnica de eigendecomposition na matriz de covariância. Use a função adequada para garantir que os valores sejam reais.

In [None]:
___

A próxima etapa é ordenar os eigenvalues em `Q` e os eigenvalues em `l` em função do valor dos eigenvalues.

In [None]:
___
___
___

Crie um plot no formato de barras para visualizar os primeiros 10 eigenvalues.

In [None]:
___

Isso nos mostra que o primeiro eigenvalue (e seu respectivo eigenvector) tem praticamente o dobro da influência do segundo, o que indica que ele pode ser suficiente para caracterizar esse dataset. Será?

Você pode agora visualizar as primeiras 5 "eigenphrases" como plots. Não se esqueça de aplicar o mesmo `reshape` que aplicamos para visualizar as frases.

In [None]:
fig, ax = plt.subplots(1, 5, figsize=(12, 6))
for ___:
    ___
    ___.axis('off')

Veja que o "perfil" dessas "eigenphrases" é bem distinto, o que era de se esperar já que eles são os que melhor caracterizam esse dataset.

Agora, projete os textos (representados pelo array `X`) no espaço das eigenphrases. Na sequência, plote essas projeções para as primeiras 4 frases de cada categoria.

In [None]:
___

In [None]:
fig, ax = plt.subplots(2, 4, figsize=(10, 3))
for ___:
    ___
    ___.set_title(___)
    ___.axis('off')
    ___
    ___
    ___

Plote de novo, mas agora dando um zoom apenas nos 15 primeiros "pixels". Perceba que você vai ter que adequar o parâmetro de `reshape` para refletir que agora são só 15 pixels.

In [None]:
fig, ax = plt.subplots(2, 4, figsize=(12, 6))
for ___:
    ___
    ___
    ___
    ___
    ___
    ___

Observe que, de fato, o primeiro pixel se revela o mais informativo. Nas frases de tecnologia, ele é mais claro, revelando um score baixo; nas frases de esportes, ele é mais escuro, correspondente a um score alto. O segundo pixel também carrega uma parcela de informação; com exceção da terceira frase nas duas categorias, também parece haver um padrão: tecnologia mais escuro, esporte mais claro.

Só por curiosidade, o plot abaixo mostra os 15 primeiros pixels (colunas) das 25 frases (linhas) de tecnologia e de esportes. Observe que, de fato, o primeiro pixel é extremamente informativo, sendo discriminativo da categoria da frase para todos os casos!

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(12, 6))
ax[0].imshow(X_projected[:25, :15], cmap='gray')
ax[0].set_title('Tecnologia')
ax[0].axis('off')
ax[1].imshow(X_projected[25:, :15], cmap='gray')
ax[1].set_title('Esportes')
ax[1].axis('off')

# Singular value decomposition

Desta vez, você vai aplicar a técnica singular value decomposition para compactar uma imagem colorida.

Vamos começar baixando uma imagem nova.

In [None]:
!wget https://upload.wikimedia.org/wikipedia/commons/0/0f/Greater_white-fronted_goose_in_flight-1045.jpg

© [Imagem](https://en.wikipedia.org/wiki/File:Greater_white-fronted_goose_in_flight-1045.jpg) | Frank Schulenburg | [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/)

Use a biblioteca `mpimg` para visualizar a imagem. Printe também o formato (`shape`) da versão em array da imagem.

In [None]:
image = mpimg.___
print(image.___)
plt.___

Observe que esta imagem é ainda maior que a anterior: 2851 x 3689 pixels. Isso resulta em $2851 \times 3689 \times 3 = 31.552.017$ bytes necessários para armazená-la. Vamos ver como a compactação se sai!

A primeira coisa que você vai precisar fazer é transformar a imagem, que agora é um tensor com 3 dimensões, em uma matriz 2D. Para isso, você pode simplesmente aplicar `reshape` para transformar as duas últimas dimensões em uma só. Você pode informar a `reshape`, como primeiro parâmetro, o número de pixels horizontais da imagem (ou `image.shape[0]`), e como segundo, `-1`. Com `-1`, o próprio NumPy se encarrega de calcular o tamanho daquela dimensão.

Faça isso, e depois separe o `shape` do array que representa a imagem nas variáveis `w` e `h`. Printe essas variáveis.

In [None]:
image = image.reshape(___, ___)
___
print(___, ___)

Observe que o array continua tendo 2851 linhas, mas agora, temos 11067 colunas, ou seja, as 3689 colunas originais x 3 canais de cor.

Agora, aplique a técnica SVD para decompor este array. Aqui, você também vai precisar usar o parâmetro `full_matrices=False`. Para garantir que está tudo dando certo, printe os `shape`s de `U`, `S` e `Vh`.

In [None]:
___
___

Visualize as reconstruções utilizando apenas os primeiros valores singulares. Como neste exemplo a imagem é maior, plote 10 imagens reconstruídas com valores singulares de 1 até 50, tomados 5 a 5. Após a reconstrução, você também terá que fazer o `reshape` das imagens, para voltar a separar a dimensão das cores. Para isso, você pode usar `reshape(w, -1, 3)`. Aqui você também vai ter que converter os valores dos pixels para números inteiros com `astype(int)`. Não deixe de colocar no título de cada imagem a quantidade de dados necessários para armazenar cada reconstrução.

In [None]:
fig, axes = plt.subplots(2, 5, figsize=(20, 7))
for i, n in enumerate(range(___)):
    ___
    ___
    ___
    ___
    ___
    ___.imshow(___.reshape(___).astype(int))
    ___
    ___

(Não se preocupe com o WARNING, ele é exibido porque, na reconstrução, por questões de arredondamento, alguns valores saem ligeiramente do intervalo $[0, 1]$, então a biblioteca precisa corrigi-los para ficar dentro deste intervalo.)

Observe que, mesmo utilizando 46 valores singulares, a imagem compactada ainda apresenta alguns artefatos. Entretanto, a economia de dados é enorme. Calcule a economia percentual resultante.

In [None]:
___

Ou seja, a economia é de 98%!

# PCA

Para o exercício de PCA, você vai trabalhar com um dataset mais desafiador, o mesmo dataset dos preços das casas utilizado nos 3 primeiros exercícios.

Comece fazendo a normalização dos atributos previsores (matriz `A`) utilizando a técnica de escalonamento. Depois, coloque os dados escalonados em um DataFrame, adicione a variável alvo (`y`) com o mesmo nome original, e exiba o DataFrame resultante.

In [None]:
scaler = ___
A_scaled = ___
A_scaled = pd.DataFrame(___)
housing_scaled = ___
___
___

Desta vez, nós temos 8 variáveis preditoras. O PCA revela seu potencial justamente quando o número de variáveis é maior.

Comece exibindo um "pairplot" para inspecionar a correlação dessas 8 variáveis entre si. Use a variável alvo como cor do plot.

In [None]:
___

Devido à quantidade de variáveis, as correlações são as mais variadas. Observamos pelo menos uma correlação linear (AveRooms x AveBedrms), uma variável que parece não ser afetadas pelas demais (AveOccup), a presença de alguns outliers em algumas comparações (AveRooms, AveBedrms, Population, AveOccup), e também uma curiosidade: o plot Latitude x Longitude representa exatamente o mapa da região geográfica coberta, como era de se esperar. Também observe que, em algumas correlações, a cor que representa o preço das casas apresenta um claro gradiente, ou seja, o preço das casas tende a aumentar conforme o valor de uma das variáveis, ou de ambas, varia.

Agora aplique o PCA para gerar os PCs deste dataset. Novamente, apresente os dados transformados em um DataFrame, com o nome das colunas sendo o nome dos PCs correspondentes. Lembre-se, como temos 8 variáveis, teremos 8 PCs.

In [None]:
pca = ___
pca.___(___)
A_scaled_pca = ___
___

Gere um novo DataFrame contendo os dados dos PCs, mais a variável alvo. Depois, plote as correlações entre os PCs, usando o preço das casas como escala de cor.

In [None]:
housing_scaled_pca = ___
___
___

Veja que, até a inclusão de PC5, parece haver alguma correlação entre os PCs. Depois disso, pouca informação é adicionada. Observe também que os gradientes de cor sumiram. Isto é um resultado comum do PCA, já que ele não leva em consideração a variável alvo.

Agora exiba a variância explicada por cada PC, e depois sua soma acumulada.

In [None]:
___

In [None]:
___

Observe que, de fato, até PC5 nós temos 90% da variância acumulada. PC6 ainda adiciona mais 8% de variância, mas os dois últimos PCs têm apenas os 2% de variância remanescentes. Isso indica que esse dataset poderia ser representado com no máximo 6 PCs, já que os últimos 2 são pouco informativos.

Ainda assim, são precisos 6 PCs para representar 8 variáveis. Alguém pode argumentar que a economia não é tão grande assim. Isto aconteceu porque, como nós vimos nos pairplots das variáveis, havia pouca correlação entre elas. Como uma das consequências do PCA é incorporar as correlações no eixos, havia pouco a incorporar, por isso são necessários mais PCs para manter a variância original do dataset.

Para visualizar esses efeitos isolados, faça um *scatterplot* de PC1 x PC2, e depois de PC6 x PC7. Novamente, use a variável alvo `y` como gradiente de cor.

In [None]:
___
___
___
___

In [None]:
___
___
___
___

A correlação de PC1 x PC2 é evidente, mas PC6 x PC7 parece não ter qualquer correlação evidente, o que confirma nossas conclusões anteriores. Observe mais uma vez que o gradiente de cor foi "destruído" durante o processo.

# Semelhança entre dados estruturados

Para este exercício, você vai comparar imagens, utilizando um dataset chamado [Coco 2017](https://github.com/voxel51/coco-2017). Como exemplo, vamos utilizar apenas 100 imagens do split de teste desse dataset. Vamos utilizar a biblioteca `fiftyone` para baixar esses dados.

In [None]:
import fiftyone as fo

In [None]:
dataset = fo.zoo.load_zoo_dataset("coco-2017", split="test", overwrite=True, max_samples=100, shuffle=True, seed=0)

O objeto `dataset` contém somente o caminho das imagens baixadas. Então, vamos coletar as imagens propriamente ditas em uma lista.

In [None]:
images = []
for sample in dataset:
    images.append(mpimg.imread(sample.filepath))

Agora vamos visualizar as 5 primeiras imagens.

In [None]:
fig, ax = plt.subplots(1, 5, figsize=(20, 3))
for i in range(5):
    ax[i].imshow(images[i])
    ax[i].axis('off')

Observe que são imagens de conteúdo bem variado.

Para geração dos embeddings, nós vamos recorrer a um modelo chamado CLIP, da OpenAI. Vamos utilizar a API da biblioteca `transformers` para carregar este modelo. Também vamos carregar o pré-processador, que faz as normalizações necessárias nas imagens, para que elas sejam adequadamente comparáveis.

In [None]:
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

Os inputs para o modelo são o resultado de passar as imagens pelo `processor`. Aqui, nós pedimos para `processor` retornar o resultado como tensores de PyTorch.

In [None]:
inputs = processor(images=images, return_tensors="pt")

Para gerar os embeddings, nós passamos o conteúdo de `inputs` ao método `get_image_features` do modelo. Esta operação deve ser feita dentro do contexto `torch.no_grad()`, que indica ao modelo que ele não precisa armazenar os gradientes das operações, já que estamos usando o modelo em modo inferência, e não treinamento.

In [None]:
with torch.no_grad():
    embeddings = model.get_image_features(**inputs)

Agora, exiba o `shape` dos embeddings.

In [None]:
___

Observe que cada uma das 100 imagens é representada por um vetor com 512 dimensões.

Calcule a similaridade de coseno entre esses embeddings. Por conveniência, a função `cosine_similarity` do NumPy aceita tensores do PyTorch. Depois, exiba o `shape` da matriz obtida.

In [None]:
___
___.___

Esta matriz apresenta o índice de similaridade das 100 imagens entre si.

Desta vez, nós estamos interessados em encontrar a imagem mais similar a cada uma das imagens desta pequena amostra. Como toda imagem é idêntica a ela mesma, nós precisamos primeiro zerar a diagonal principal da matriz de similaridade, que representa exatamente a similaridade da imagem a ela mesma.

In [None]:
np.fill_diagonal(similarity, 0)

Agora, plote as 5 primeiras imagens do dataset, pareadas com a sua imagem mais similar. Organize as imagens em uma grid 2x5, com a linha superior sendo as 5 primeiras imagens, e a linha inferior exibindo a imagem similar. Para encontrar a imagem similar, nós usamos a função `np.argmax`, que retorna o índice correspondente ao valor máximo de um array. Este array, no caso, é a linha da matriz `similarity` correspondente à imagem original. Mãos à obra!

In [None]:
fig, ax = plt.subplots(2, 5, figsize=(20, 7))
for i in range(___):
    image = images[___]
    i_max_sim = np.argmax(similarity[___])
    similar_image = images[i_max_sim]
    ___.imshow(image)
    ___.axis('off')
    ___.___(similar_image)
    ___

Os resultados são de fato muito úteis! A imagem mais parecida com a primeira também contém ovelhas; a segunda também mostra um avião; a terceira também mostra uma pessoa; a quarta também mostra o mar e um barco; e a quinta também mostra comida. Impressionante, não?

---

Com isso nós terminamos este curso. Esperamos que você tenha aprendido a importância da Álgebra Linear para a área de Machine Learning, e que possa levar esse conhecimento para sua carreira.

Até a próxima!