# Data Manipulation - Manipulação dos Dados

* Lembrete de como ativar o miniconda: conda activate d2l
* Para desativar: conda deactivate

Formas de armazenar e manipular os dados que iremos utilizar. Para armezanar esses dados podemos utilizar _vetores n-dimensionais_ chamados de **Tensors**.  Para isso, iremos utilizar bastante a biblioteca NumPy:

[Guia inicial da biblioteca NumPy.](https://numpy.org/devdocs/user/quickstart.html)

**PyTorch** - É um conjunto de ferramentas, bibliotecas e outras coisas que fornece uma estrutura para o desenvolvimento de modelos de IA. É baseado na estrutura dos tensores, citados anteriormente, e fornece várias tools para trabalhar com os dados nesse formato. O tensor apresenta algumas similaridades com os arrays do NumPy.

Súmario:
- Começando:
    - Como criar tensores;
- Index e Fatias:
    - Como selecionar os elementos;
    - Indexação;
    - Fatias;
- Operações:
    - Realizar operações com os dados dos tensores;

## Começando:

In [None]:
import torch # Estou importanto esse conjunto de ferramentas citado;

Um tensor pode ser classificado como um vetor, uma matriz ou um objeto de k<sup>th</sup> order-tensor. Veja abaixo algumas operações:

In [None]:
x = torch.arange(12, dtype=torch.float32) 
# Cria um tensor com valores de 0 a 11, com tipo de float;

y = torch.arange(10, 100, 4, dtype=int)
# Cria um tensor com valores inteiros de 10 a 100 dando um step de 4;

print(x)
print(y)

Para saber qual o número de elementos de um tensor:

In [None]:
print(x.numel()) # Informa o número de elementos;
print(y.numel()) 

Para acessar o comprimento de um tensor ao longo do eixo x:

In [None]:
# Para acessar o comprimento de um tensor ao lonfgo do eixo x:
x.shape

Para mudar o formato de um tensor:

In [None]:
X = x.reshape(3, 4)
print(X) # O tamanho deve continuar o mesmo 12 = 3.4;

# Para não ter que especificar o tamanho, podemos usar o -1 no lugar do valor 
# que queremos que seja calculado automaticamente.


In [None]:
torch.zeros((2, 3, 4))

In [None]:
torch.ones((3, 4, 3))

Para iniciar um tensor de parâmetros aleatórios (que é como começa os parâmetros de uma rede neural geralmente) podemos fazer:

In [None]:
torch.randn(5, 4)# Os valores vem de uma distribuição normal.


Podemos também criar um tensor especificando os elementos:

In [None]:
torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

## Index e Fatias:

Para acessar, podemos fazer como uma lista normal do Python. O primeiro elemento começa em zero. Para acessar a partir do final pode-se usar valores negativos. E também é possível cortar fatias:

In [None]:
print(X[0])
print(X[1:3])
print(X[-1])

Elementos da matriz por índices:

In [None]:
print(X[-1, 2])
X[-1, 2] = 499 # Mudando o valor
print(X[-1, 2])

Também é possível mudar tudo com fatias:

In [None]:
X[:2, 1:3] = 42 # Da 0 até a 1 linha, preencher os elementos da posição 1 até a 2 com 12;
print(X)

## Operações

Agora que sabemos criar e acessar os dados por meios dos índices, podemos estudar as operações com tensores. 

Temos as operações **elementwise** que operações escalares serão aplicadas em cada elemento do tensor. Para operações que envolvem 2 tensores, as operações **elementwise** aplicam uma operação binária entre os elementos correspondentes.

A função abaixo é f : $\mathbb{R}$ -> $\mathbb{R}$ com:

$$
f(x) = e^x
$$

Onde x representa cada elemento do tensor:

In [None]:
t1 = torch.arange(1, 100, dtype=int)
print(t1)

print(torch.exp(t1))
# Faz a operação e^x com x sendo cada elemento;


Também podemos ter função do tipo f : $\mathbb{R}, \mathbb{R}$ -> $\mathbb{R}$ que chamamos de *binary scalar operator*. Assim, podemos por exemplo receber vetores de $\mathbb{R}^d$ e realizar operações entre os mesmos. Que é o caso das operações entre elementos correspondentes dos tensores:

In [None]:
a = torch.tensor([1, 2, 3, 4])
b = torch.tensor([10, 20, 30, 4])

print(a + b)
print(b - a)
print(a * b)
print(b / a)
print(a ** b)

Também é possível, ainda nessa categoria de operações, realizar algumas de algebra linear como *dot product* e *multplicação de matrizes*.

Podemos também concatenar tensores:

In [None]:
X = torch.arange(12, dtype=torch.float32).reshape((3,4))
print(X) # Temos uma matriz que começa a11 em 0 e termina em 11;
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
print(Y) # Temos outra matriz cujas 3 linhas são as acima;

# Abaixo estamos concatenando pelo eixo x:
print(torch.cat((X, Y), dim=0))
# Teremos uma matriz de 6 linhas e 4 colunas;

# Abaixo pelo eixo y:
print(torch.cat((X, Y), dim=1))
# Teremos uma matriz de 8 colunas e 3 linhas;

Também é possível utilizar comparadores lógicos:

In [None]:
X = torch.arange(12, dtype=int).reshape(3, 4)

X[0][3] = 11
print(X)

y = torch.arange(0, 24, 2, dtype=int).reshape(3, 4)
print(y)

print(X <= y)

Somando todos os elementos em um só valor:

In [None]:
X.sum()

## Broadcasting 

É possível realizar operações elementares em tensores com formas diferentes. Sob algumas condições, é possível alterar um dos vetores, o expandindo para que fiquem com a mesma forma e depois realizando a operação.

In [None]:
a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))

print(a)
print(b)

O que vai ocorrer é o seguinte: a vai ganhar uma nova coluna com os seus valores repetidos e b vai ganhar 2 linhas com seus valores repetidos e essas matrizes irão ser somadas.

In [None]:
print(a + b)

## Salvando Memória

Fazer algumas operações pode fazer com que mais memória seja alocada. Em Python, não é necessário lidar com ponteiros, então utilizamos referências aos objetos. Exemplo:

> x = 5

Se escrevermos isso em Python, o que estamos fazendo é dizer que x é uma referência ao objeto inteiro contendo o valor 5. 

O processo de *dereferenciar* refere-se a quando queremos obter o valor de um objeto por meio de uma referência. Exemplo:

> y = x + 3

A dereferência que ocorre automaticamente nesse caso é a utilização do x (que referencia o objeto inteiro de valor 5).

Sejam Y e X referências para dois objetos do tipo tensor. Se fizermos:

> Y = X + Y 

A gente dereferencia Y e faz Y referenciar a nova memória alocada, pois em Python, ele computa primeiro o valor X + Y, aloca a memória para esse resultado e depois faz Y apontar para esse novo local. Ou seja, ainda existe uma memória alocada para o valor anterior de Y. 

Usando a função id é fácil verificar isso (Essa função retorna o endereço exato de um objeto referenciado na memória).

In [None]:
x = 5
antes = id(x)
x = x + 5
print(id(x) == antes)

Queremos evitar que isso ocorra. Como lidamos com muitos dados, queremos evitar alocar memórias demias, e como usamos muitas referências para um mesmo objeto, desejamos performar as atualizações nele de forma *in place*, para não afetar seu valor em todas as referências. 

Para realizar essas operações *in place* podemos atribuir o resultado de uma operação ao array Y alocado previamente usando a notação de slice. Veja o exemplo abaixo:


In [None]:
Y = (torch.arange(12)).reshape((3, 4))
X = (torch.arange(12)).reshape((3, 4))

# Cria um tensor cheio de zeros com o mesmo formato de Y:
Z = torch.zeros_like(Y)
endereco_antes = id(Z)

Z[:] = X + Y
endereco_depois = id(Z)

print(endereco_antes == endereco_depois)

Caso o valor de X não fosse utilizado em operações seguintes, tambḿe poderíamos fazer:

In [None]:
antes = id(X)
X += Y   # Ou X[:] = X + Y
depois = id(X)

print(antes == depois)

## Conversões para outros Objetos do Python

Para converter um tensor para um NumPy tensor (ndarray) basta:

In [None]:
A = X.numpy()
print(A)
print(type(A))

B = torch.from_numpy(A)
print(B)
print(type(B))

Para converter um tensor de tamanho 1 para um escalar do Python, podemos usar as seguintes funções:

In [51]:
A = torch.tensor([4.21])
print(A)
print(float(A))
print(int(A))

tensor([4.2100])
4.210000038146973
4
