<a href="https://colab.research.google.com/github/osmarbraz/exemplos_python/blob/master/ExemplosPythonPytorch.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Exemplos de uso Pytorch

O [PyTorch](https://en.wikipedia.org/wiki/PyTorch) tem  o objetivo de realizar cálculos em tensores sendo disponibilizado como uma biblioteca para o Python neste [link](https://pytorch.org/). 

[Tensores](https://pt.wikipedia.org/wiki/Tensor) são arrays  que no PyTorch foram projetados com duas propriedades adicionais: eles podem carregar a informação de todas as operações realizadas neles, e podem ser operados em GPU.

O PyTorch faz com tensores o que o Numpy faz com arrays, mas com a propriedade adicional de guardar o histórico das operações matemáticas nos próprios objetos manipulados, e de ser mais rápido pelo processamento em GPU.

Essa característica do PyTorch o habilita para sua principal função: a de ser uma biblioteca para o desenvolvimento de redes neurais.


Exemplos de manipulação em tensores com o Pytorch.
- Operações básicas com Tensores
- Carregamento de dados com Pytorch
  - Criando a Classe Dataset e DataLoader
  - Utilizando TensorDataset e DataLoader

Tutorial de introdução a tensores: https://www.tensorflow.org/guide/tensor

https://www.slideshare.net/khsol92/pytorch-touch-to-pytorch

-----------------------------------------
**Guia Colab Iniciante:**

https://medium.com/machina-sapiens/google-colab-guia-do-iniciante-334d70aad531

**Documentação oficial:**

https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/01.01-Help-And-Documentation.ipynb

**Características :**

https://colab.research.google.com/notebooks/basic_features_overview.ipynb


# Instalação dos pacotes das biblioteca Pytorch

Muitos ambientes com o Google Colaboratory já trazem o Pytorch instalado.

Abaixo a instação da última versão no sistema operacional Linux com o instaldor pip e uso do Cuda versão 10.2

In [1]:
!pip install torch torchvision



Versão do Pytorch instaladas

In [2]:
import torch

print(torch.__version__)

1.7.0+cu101


# Operações Básicas com Tensores em PyTorch


## Criando Tensor PyTorch de valor 0

In [3]:
# Bibliotecas
import torch
    
# Cria um tensor de tamanho e 3 por 3 de valor 0
A = torch.zeros(3,3)
print(type(A))

# Mostra os dados da matriz de Tensores
print(">>> Matriz")
print(A)

<class 'torch.Tensor'>
>>> Matriz
tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])


## Criando Tensor PyTorch de valor 1

In [4]:
# Bibliotecas
import torch
    
# Cria um tensor de tamanho e 3 por 3 de valor 1
A = torch.ones(3,3)
print(type(A))

# Mostra os dados da matriz de Tensores
print(">>> Matriz")
print(A)

<class 'torch.Tensor'>
>>> Matriz
tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])


## Criando tensor a partir de Numpy

In [5]:
# Bibliotecas
import torch
import numpy as np
    
# Cria um nympy matriz de tamanho e 3 por 3 de valor 1
A = np.ones((3,3))
print(type(A))

print(">>> Matriz A")
print(A)

# Converte a lista de lista de matriz em um tensor
TA = torch.from_numpy(A)
print(type(TA))

# Mostra os dados da matriz de Tensores
print(">>> Matriz TA")
print(TA)


<class 'numpy.ndarray'>
>>> Matriz A
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
<class 'torch.Tensor'>
>>> Matriz TA
tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)


## Converte matriz de 2 dimensões para Tensores PyTorch

`torch.tensor` cria uma cópia e `torch.as_tensor` retorna uma referência do tensor criado.

https://medium.com/secure-and-private-ai-writing-challenge/introduction-to-tensors-2-using-pytorch-2b6270a838f

In [6]:
# Bibliotecas
import torch

A =  [
        [11, 12, 13],
        [14, 15, 16],
        [17, 18, 19]
     ]
    
# Converte a lista de lista de matriz em um tensor
B = torch.as_tensor(A)
print(type(B))

# Mostra os dados da matriz de Tensores
print(">>> Matriz")
print(B)
print(B[0:3,0:3])
print(B[:,:])

print(">>> Linha")
print(B[0:1,0:3])
print(B[0:1,:])
print(B[0:1,0:3])

print(">> Coluna")
print(B[0:3,0:1])
print(B[:,0:1])
print(B[0:3,0:1])

<class 'torch.Tensor'>
>>> Matriz
tensor([[11, 12, 13],
        [14, 15, 16],
        [17, 18, 19]])
tensor([[11, 12, 13],
        [14, 15, 16],
        [17, 18, 19]])
tensor([[11, 12, 13],
        [14, 15, 16],
        [17, 18, 19]])
>>> Linha
tensor([[11, 12, 13]])
tensor([[11, 12, 13]])
tensor([[11, 12, 13]])
>> Coluna
tensor([[11],
        [14],
        [17]])
tensor([[11],
        [14],
        [17]])
tensor([[11],
        [14],
        [17]])


## Converte matriz de 3 dimensões para Tensores PyTorch

In [7]:
# Bibliotecas
import torch

A = [
      [
        [11, 12, 13],
        [14, 15, 16],
        [17, 18, 19]
      ],
      [
        [21, 22, 23],
        [24, 25, 26],
        [27, 28, 29]
      ],
      [
        [31, 32, 33],
        [33, 34, 36],
        [37, 38 ,39]
      ]
    ]
    
# Converte a lista de lista de matriz em um tensor
B = torch.as_tensor(A)
print(type(B))

# Mostra os dados da matriz de Tensores
print(">>> Lista de matrizes")
print(B)
print(B[0:3,0:3,0:3])
print(B[:,:,:])

print(">>> Matrizes")
print(B[0])
print(B[0][0:3,0:3])
print(B[0,:,:])

print(">>> Linha")
print(B[0][0:1,0:3])
print(B[0:1,0:1,:])
print(B[0:1,0:1,0:3])

print(">> Coluna")
print(B[0][0:3,0:1])
print(B[0][:,0:1])
print(B[0:1,0:3,0:1])

<class 'torch.Tensor'>
>>> Lista de matrizes
tensor([[[11, 12, 13],
         [14, 15, 16],
         [17, 18, 19]],

        [[21, 22, 23],
         [24, 25, 26],
         [27, 28, 29]],

        [[31, 32, 33],
         [33, 34, 36],
         [37, 38, 39]]])
tensor([[[11, 12, 13],
         [14, 15, 16],
         [17, 18, 19]],

        [[21, 22, 23],
         [24, 25, 26],
         [27, 28, 29]],

        [[31, 32, 33],
         [33, 34, 36],
         [37, 38, 39]]])
tensor([[[11, 12, 13],
         [14, 15, 16],
         [17, 18, 19]],

        [[21, 22, 23],
         [24, 25, 26],
         [27, 28, 29]],

        [[31, 32, 33],
         [33, 34, 36],
         [37, 38, 39]]])
>>> Matrizes
tensor([[11, 12, 13],
        [14, 15, 16],
        [17, 18, 19]])
tensor([[11, 12, 13],
        [14, 15, 16],
        [17, 18, 19]])
tensor([[11, 12, 13],
        [14, 15, 16],
        [17, 18, 19]])
>>> Linha
tensor([[11, 12, 13]])
tensor([[[11, 12, 13]]])
tensor([[[11, 12, 13]]])
>> Coluna
tensor([[

## Converte matriz de 4 dimensões para Tensores PyTorch

In [8]:
# Bibliotecas
import torch

A = [
      [
        [[11, 12, 13],[14, 15, 16],[17, 18, 19]],
        [[21, 22, 23],[24, 25, 26],[27, 28, 29]],
        [[31, 32, 33],[34, 35, 36],[37, 38, 39]]
      ],

      [
        [[41, 42, 43],[44, 45, 46],[47, 48, 49]],
        [[51, 52, 53],[54, 55, 56],[57, 58, 59]],
        [[61, 62, 63],[64, 65, 66],[67, 68, 69]]
      ]
    ]

# Converte a lista de lista de matriz em um tensor
B = torch.as_tensor(A)
print(type(B))

# Mostra os dados da matriz de Tensores
print(">>> Lista de lista de matrizes")
print(B)
print(B[0:3,0:3,0:3,0:3])
print(B[:,:,:,:])

print(">>> Lista de matrizes")
print(B[0])
print(B[0][0:3,0:3,0:3])
print(B[0:1,0:3,0:3,0:3])
print(B[0][:,:,:])

print(">>> Matrizes")
print(B[0][0])
print(B[0][0][0:3,0:3])
print(B[0][0,:,:])
print(B[0,0,:,:])

print(">>> Linha")
print(B[0][0][0:1,0:3])
print(B[0][0:1,0:1,:])
print(B[0][0:1,0:1,0:3])
print(B[0:1,0:1,0:1,0:3])
print(B[0,0,0:1,0:3])

print(">> Coluna")
print(B[0][0][0:3,0:1])
print(B[0][0][:,0:1])
print(B[0][0:1,0:3,0:1])
print(B[0:1,0:1,0:3,0:1])
print(B[0,0,0:3,0:1])

<class 'torch.Tensor'>
>>> Lista de lista de matrizes
tensor([[[[11, 12, 13],
          [14, 15, 16],
          [17, 18, 19]],

         [[21, 22, 23],
          [24, 25, 26],
          [27, 28, 29]],

         [[31, 32, 33],
          [34, 35, 36],
          [37, 38, 39]]],


        [[[41, 42, 43],
          [44, 45, 46],
          [47, 48, 49]],

         [[51, 52, 53],
          [54, 55, 56],
          [57, 58, 59]],

         [[61, 62, 63],
          [64, 65, 66],
          [67, 68, 69]]]])
tensor([[[[11, 12, 13],
          [14, 15, 16],
          [17, 18, 19]],

         [[21, 22, 23],
          [24, 25, 26],
          [27, 28, 29]],

         [[31, 32, 33],
          [34, 35, 36],
          [37, 38, 39]]],


        [[[41, 42, 43],
          [44, 45, 46],
          [47, 48, 49]],

         [[51, 52, 53],
          [54, 55, 56],
          [57, 58, 59]],

         [[61, 62, 63],
          [64, 65, 66],
          [67, 68, 69]]]])
tensor([[[[11, 12, 13],
          [14, 15, 16],
    

## Operações com tensores

https://s3-sa-east-1.amazonaws.com/thedevconf/presentations/TDC2019SP/machine/FMB-8122_2019-07-19T015516_Machine%20Learning%20-%20Uso%20de%20Pytorch%20para%20Aplica%C3%A7%C3%B5es%20de%20Vis%C3%A3o%20Computacional.pdf

https://github.com/torch/torch7/blob/master/doc/maths.md#torcheqa-b


###Tamanho do tensor

In [9]:
# Bibliotecas
import torch

# Declaração da matriz
A = [
      [
        [1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]
      ],
      [
        [10, 11, 12],
        [13, 14, 15],
        [16, 17, 18]
      ]
    ]

# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)

# Mostra o tamanho do tensor em todas as dimensões
print(TA)
print(type(TA))
print(TA.size())

tensor([[[ 1,  2,  3],
         [ 4,  5,  6],
         [ 7,  8,  9]],

        [[10, 11, 12],
         [13, 14, 15],
         [16, 17, 18]]])
<class 'torch.Tensor'>
torch.Size([2, 3, 3])


### Comparando

In [10]:
# Bibliotecas
import torch

# Declaração da matriz
A = [
      [
        [1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]
      ]
    ]
B = [
      [
        [1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]
      ]
    ]

C = [
      [
        [1, 2, 3],
        [4, 5, 6],
        [7, 8, -1]
      ]
    ]    

# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)
TB = torch.as_tensor(B)
TC = torch.as_tensor(C)

# Mostra o tamanho do tensor em todas as dimensões
print(TA)
print(type(TA))
print(TA.size())

print(TB)
print(type(TB))
print(TB.size())

print(TC)
print(type(TC))
print(TC.size())

# Mostra o resultado da comparação dos elementos dos tensores
print(torch.eq(TA, TB))
print(torch.eq(TA, TC))

#if torch.all(torch.eq(TA, TB)):
if TA.equal(TB):
  print("Tensores TA e TB são iguais")
else:
  print("Tensores TA e TB são diferentes")

#if torch.all(torch.eq(TA, TC)):
if TA.equal(TC):
  print("Tensores TA e TC são iguais")
else:
  print("Tensores TA e TC são diferentes")  

tensor([[[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]]])
<class 'torch.Tensor'>
torch.Size([1, 3, 3])
tensor([[[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]]])
<class 'torch.Tensor'>
torch.Size([1, 3, 3])
tensor([[[ 1,  2,  3],
         [ 4,  5,  6],
         [ 7,  8, -1]]])
<class 'torch.Tensor'>
torch.Size([1, 3, 3])
tensor([[[True, True, True],
         [True, True, True],
         [True, True, True]]])
tensor([[[ True,  True,  True],
         [ True,  True,  True],
         [ True,  True, False]]])
Tensores TA e TB são iguais
Tensores TA e TC são diferentes


###Adição

https://towardsdatascience.com/understanding-dimensions-in-pytorch-6edf9972d3be

#### Adição de dois tensores diferentes

In [11]:
# Bibliotecas
import torch

# Declaração da matriz
A =  [
        [1.0, 2.0],
        [3.0, 4.0]
     ]
    
B =  [
        [5.0, 6.0],
        [7.0, 8.0]
     ]

# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)
TB = torch.as_tensor(B)

# Mostra os tensores
print(TA)
print(type(TA))
print(TA.size())

print(TB)
print(type(TB))
print(TB.size())

# Soma os vetores
C = TA + TB
# ou
D = torch.add(TA, TB)
# ou
E = TA.add(TB)

# Mostra a soma
print(C)
print(D)
print(E)

tensor([[1., 2.],
        [3., 4.]])
<class 'torch.Tensor'>
torch.Size([2, 2])
tensor([[5., 6.],
        [7., 8.]])
<class 'torch.Tensor'>
torch.Size([2, 2])
tensor([[ 6.,  8.],
        [10., 12.]])
tensor([[ 6.,  8.],
        [10., 12.]])
tensor([[ 6.,  8.],
        [10., 12.]])


#### Adição de duas ou mais dimensões de um mesmo tensor

In [12]:
# Bibliotecas
import torch

# Declaração da matriz
A =  [
        [
          [1.0, 1.0],
          [1.0, 2.0],
          [1.0, 3.0]
        ],
        [
          [2.0, 2.0],
          [2.0, 1.0],
          [2.0, 0.0]
        ],
        [
          [3.0, 3.0],
          [3.0, 2.0],
          [3.0, 1.0]
        ]
     ]

# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)

# Mostra os tensores
print(TA)
print(type(TA))
print(TA.size())

# Soma os tensores por linha das duas últimas dimensões
C = torch.sum(TA[-2::], dim=0)

# Mostra a soma das linhas
print("Soma pela dimensão 0(linhas)")
print(C)

# Soma os tensores por coluna das duas últimas dimensões
D = torch.sum(TA[-2::], dim=1)

# Mostra a soma das colunas
print("Soma pela dimensão 1(colunas)")
print(D)

tensor([[[1., 1.],
         [1., 2.],
         [1., 3.]],

        [[2., 2.],
         [2., 1.],
         [2., 0.]],

        [[3., 3.],
         [3., 2.],
         [3., 1.]]])
<class 'torch.Tensor'>
torch.Size([3, 3, 2])
Soma pela dimensão 0(linhas)
tensor([[5., 5.],
        [5., 3.],
        [5., 1.]])
Soma pela dimensão 1(colunas)
tensor([[6., 3.],
        [9., 6.]])


#### Adição de quatro ou mais dimensões de um mesmo tensor

In [13]:
# Bibliotecas
import torch

A =   [
        [ 
          [ 
            [1.0, 2.0, 3.0],
            [4.0, 5.0, 6.0]               
          ],
          [ 
            [1.0, 2.0, 3.0],
            [4.0, 5.0, 6.0]               
          ]
        ]
      ]      
    
    
# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)

# Mostra os tensores
print(TA)
print(type(TA))
print(TA.size())

# Soma os vetores
TC0 = torch.sum(TA, dim=0)
TC1 = torch.sum(TA, dim=1)
TC2 = torch.sum(TA, dim=2)
TC3 = torch.sum(TA, dim=3)

# Mostra as somas
print("Soma pela dimensão 0")
print(TC0)
print("Soma pela dimensão 1")
print(TC1)
print("Soma pela dimensão 2")
print(TC2)
print("Soma pela dimensão 3")
print(TC3)

tensor([[[[1., 2., 3.],
          [4., 5., 6.]],

         [[1., 2., 3.],
          [4., 5., 6.]]]])
<class 'torch.Tensor'>
torch.Size([1, 2, 2, 3])
Soma pela dimensão 0
tensor([[[1., 2., 3.],
         [4., 5., 6.]],

        [[1., 2., 3.],
         [4., 5., 6.]]])
Soma pela dimensão 1
tensor([[[ 2.,  4.,  6.],
         [ 8., 10., 12.]]])
Soma pela dimensão 2
tensor([[[5., 7., 9.],
         [5., 7., 9.]]])
Soma pela dimensão 3
tensor([[[ 6., 15.],
         [ 6., 15.]]])


###Subtração

In [14]:
# Bibliotecas
import torch

# Declaração da matriz
A =  [
        [1.0, 2.0],
        [3.0, 4.0]
     ]
    
B =  [
        [5.0, 6.0],
        [7.0, 8.0]
     ]

# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)
TB = torch.as_tensor(B)

# Mostra os tensores
print(TA)
print(type(TA))
print(TA.size())
print(TB)
print(type(TB))
print(TB.size())

# Subtração os vetores
C = TB - TA
# ou
D = torch.sub(TB, TA)
# ou
E = TB.sub(TA)

# Mostra a subtração
print(C)
print(D)
print(E)

tensor([[1., 2.],
        [3., 4.]])
<class 'torch.Tensor'>
torch.Size([2, 2])
tensor([[5., 6.],
        [7., 8.]])
<class 'torch.Tensor'>
torch.Size([2, 2])
tensor([[4., 4.],
        [4., 4.]])
tensor([[4., 4.],
        [4., 4.]])
tensor([[4., 4.],
        [4., 4.]])


###Produto

In [15]:
# Bibliotecas
import torch

# Declaração da matriz
A =  [
        [1.0, 2.0],
        [3.0, 4.0]
     ]
    
B =  [
        [5.0, 6.0],
        [7.0, 8.0]
     ]

# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)
TB = torch.as_tensor(B)

# Mostra os tensores
print(TA)
print(type(TA))
print(TA.size())
print(TB)
print(type(TB))
print(TB.size())

# Mutiplicação os vetores
C = TA * TB
# ou
D = torch.mul(TA, TB)
# ou
E = TA.mul(TB)

# Mostra a multiplicação
print(C)
print(D)
print(E)

tensor([[1., 2.],
        [3., 4.]])
<class 'torch.Tensor'>
torch.Size([2, 2])
tensor([[5., 6.],
        [7., 8.]])
<class 'torch.Tensor'>
torch.Size([2, 2])
tensor([[ 5., 12.],
        [21., 32.]])
tensor([[ 5., 12.],
        [21., 32.]])
tensor([[ 5., 12.],
        [21., 32.]])


###Produto de matrizes de ordem diferente

In [16]:
# Bibliotecas
import torch

# Declaração da matriz
A =  [
        [1.0, 2.0],
        [3.0, 4.0],
        [5.0, 6.0]
     ]
    
B =  [
        [5.0, 6.0],
        [7.0, 8.0]
     ]

# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)
TB = torch.as_tensor(B)

# Mostra os tensores
print(TA)
print(type(TA))
print(TA.size())
print(TB)
print(type(TB))
print(TB.size())

# Mutiplicação os vetores
C = torch.matmul(TA, TB)
# ou
D = TA.matmul(TB)

# Mostra a multiplicação
print(C)
print(C.size())
print(D)
print(D.size())


tensor([[1., 2.],
        [3., 4.],
        [5., 6.]])
<class 'torch.Tensor'>
torch.Size([3, 2])
tensor([[5., 6.],
        [7., 8.]])
<class 'torch.Tensor'>
torch.Size([2, 2])
tensor([[19., 22.],
        [43., 50.],
        [67., 78.]])
torch.Size([3, 2])
tensor([[19., 22.],
        [43., 50.],
        [67., 78.]])
torch.Size([3, 2])


###Divisão

In [17]:
# Bibliotecas
import torch

# Declaração da matriz
A =  [
        [1.0, 2.0],
        [3.0, 4.0]
     ]
    
B =  [
        [5.0, 6.0],
        [7.0, 8.0]
     ]

# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)
TB = torch.as_tensor(B)

# Mostra os tensores
print(TA)
print(type(TA))
print(TA.size())
print(TB)
print(type(TB))
print(TB.size())

# Divisão os vetores
C = TB / TA
# ou
D = torch.div(TB, TA)
# ou
E = TB.div(TA)

# Mostra a divisão
print(C)
print(D)
print(E)

tensor([[1., 2.],
        [3., 4.]])
<class 'torch.Tensor'>
torch.Size([2, 2])
tensor([[5., 6.],
        [7., 8.]])
<class 'torch.Tensor'>
torch.Size([2, 2])
tensor([[5.0000, 3.0000],
        [2.3333, 2.0000]])
tensor([[5.0000, 3.0000],
        [2.3333, 2.0000]])
tensor([[5.0000, 3.0000],
        [2.3333, 2.0000]])


###Concatenação

Concatena a sequência fornecida de tensores na dimensão fornecida.

https://pytorch.org/docs/stable/generated/torch.cat.html

In [18]:
# Bibliotecas
import torch

# Declaração da matriz
A =  [
        [1.0, 2.0],
        [3.0, 4.0]
     ]
    
B =  [
        [5.0, 6.0],
        [7.0, 8.0]
     ]

# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)
TB = torch.as_tensor(B)

# Mostra os tensores
print(TA)
print(type(TA))
print(TA.size())
print(TB)
print(type(TB))
print(TB.size())

# Concatena os vetores (ou seja, juntando-os) 
TC0 = torch.cat((TA, TB), dim=0)
TC1 = torch.cat((TA, TB), dim=1)

# Mostra as concatenações
print("Concatenação pela dimensão 0")
print(TC0)
print("Concatenação pela dimensão 1")
print(TC1)

tensor([[1., 2.],
        [3., 4.]])
<class 'torch.Tensor'>
torch.Size([2, 2])
tensor([[5., 6.],
        [7., 8.]])
<class 'torch.Tensor'>
torch.Size([2, 2])
Concatenação pela dimensão 0
tensor([[1., 2.],
        [3., 4.],
        [5., 6.],
        [7., 8.]])
Concatenação pela dimensão 1
tensor([[1., 2., 5., 6.],
        [3., 4., 7., 8.]])


### Concatenação de uma lista de tensores

In [19]:
# Bibliotecas
import torch

# Declaração da matriz
A =  [
        [
          [1.0, 2.0],
          [3.0, 4.0]
        ],
        [
          [5.0, 6.0],
          [7.0, 8.0]
        ],
        [
          [9.0, 10.0],
          [11.0,12.0]
        ],
        [
          [13.0, 14.0],
          [15.0, 16.0]
        ]
      ]

# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)

# Mostra os tensores
print(TA)
print(type(TA))
print(TA.size())

# Concatena os vetores da última e penúltima posição
TC0 = torch.cat((TA[-1], TA[-2]), dim=0)

#C Cria uma lista com os vetores do final para a posição
posicao = 2
lista = []
for x in range(1,posicao+1):
    lista.append(TA[-x])

# Concatena os vetores da lista
TC1 = torch.cat(lista, dim=0)

# Mostra as concatenações
print("Concatenação pela dimensão 0")
print(TC0)
print("Concatenação pela dimensão 0")
print(TC1)

tensor([[[ 1.,  2.],
         [ 3.,  4.]],

        [[ 5.,  6.],
         [ 7.,  8.]],

        [[ 9., 10.],
         [11., 12.]],

        [[13., 14.],
         [15., 16.]]])
<class 'torch.Tensor'>
torch.Size([4, 2, 2])
Concatenação pela dimensão 0
tensor([[13., 14.],
        [15., 16.],
        [ 9., 10.],
        [11., 12.]])
Concatenação pela dimensão 0
tensor([[13., 14.],
        [15., 16.],
        [ 9., 10.],
        [11., 12.]])


### Stack

Concatena a sequência de tensores ao longo de uma nova dimensão. **Cria uma nova dimensão.**

 * torch.stack(TA, TB], dim = 0) == torch.cat(TA.unsqueeze(0), TB.unsqueeze(0)], dim = 0)
 * torch.stack(TA).sum() == torch.cat(TA).sum()

In [20]:
# Bibliotecas
import torch

# Declaração da matriz
A =  [
        [1.0, 2.0],
        [3.0, 4.0]
     ]
    
B =  [
        [5.0, 6.0],
        [7.0, 8.0]
     ]

# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)
TB = torch.as_tensor(B)

# Mostra os tensores
print(TA)
print(type(TA))
print(TA.size())
print(TB)
print(type(TB))
print(TB.size())

# Stack dos vetores (ou seja, juntando-os) 
TC0 = torch.stack((TA, TB), dim=0)
TC1 = torch.stack((TA, TB), dim=1)

# Mostra os stacks
print("Stack pela dimensão 0")
print(TC0)
print(TC0.shape)
print("Stack pela dimensão 1")
print(TC1)
print(TC1.shape)

tensor([[1., 2.],
        [3., 4.]])
<class 'torch.Tensor'>
torch.Size([2, 2])
tensor([[5., 6.],
        [7., 8.]])
<class 'torch.Tensor'>
torch.Size([2, 2])
Stack pela dimensão 0
tensor([[[1., 2.],
         [3., 4.]],

        [[5., 6.],
         [7., 8.]]])
torch.Size([2, 2, 2])
Stack pela dimensão 1
tensor([[[1., 2.],
         [5., 6.]],

        [[3., 4.],
         [7., 8.]]])
torch.Size([2, 2, 2])


### Cat

Concatena a sequência de tensores dada na dimensão fornecida. **Não cria uma nova dimensão.**

In [21]:
# Bibliotecas
import torch

# Declaração da matriz
A =  [
        [1.0, 2.0],
        [3.0, 4.0]
     ]
    
B =  [
        [5.0, 6.0],
        [7.0, 8.0]
     ]

# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)
TB = torch.as_tensor(B)

# Mostra os tensores
print(TA)
print(type(TA))
print(TA.size())
print(TB)
print(type(TB))
print(TB.size())

# Stack dos vetores (ou seja, juntando-os) 
TC0 = torch.cat((TA, TB), dim=0)
TC1 = torch.cat((TA, TB), dim=1)

# Mostra os stacks
print("Cat pela dimensão 0")
print(TC0)
print(TC0.shape)
print("Cat pela dimensão 1")
print(TC1)
print(TC1.shape)

tensor([[1., 2.],
        [3., 4.]])
<class 'torch.Tensor'>
torch.Size([2, 2])
tensor([[5., 6.],
        [7., 8.]])
<class 'torch.Tensor'>
torch.Size([2, 2])
Cat pela dimensão 0
tensor([[1., 2.],
        [3., 4.],
        [5., 6.],
        [7., 8.]])
torch.Size([4, 2])
Cat pela dimensão 1
tensor([[1., 2., 5., 6.],
        [3., 4., 7., 8.]])
torch.Size([2, 4])


###Média

####Média de um tensor

In [22]:
# Bibliotecas
import torch

A =   [
        [1.0, 2.0, 3.0],
        [4.0, 5.0, 6.0]               
      ]
            
    
# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)

# Mostra os tensores
print(TA)
print(type(TA))
print(TA.size())

# Média dos vetores por coluna
TC0 = torch.mean(TA, dim=0)

# Média dos vetores por coluna
TC1 = torch.mean(TA, dim=1)

# Mostra as médias
print("Média pela dimensão 0(coluna)")
print(TC0)
print(TC0.size())

print("Média pela dimensão 1(linha)")
print(TC1)
print(TC1.size())

tensor([[1., 2., 3.],
        [4., 5., 6.]])
<class 'torch.Tensor'>
torch.Size([2, 3])
Média pela dimensão 0(coluna)
tensor([2.5000, 3.5000, 4.5000])
torch.Size([3])
Média pela dimensão 1(linha)
tensor([2., 5.])
torch.Size([2])


####Média de duas ou mais dimensões de um mesmo tensor

In [23]:
# Bibliotecas
import torch

A =   [
        [ 
          [ 
            [1.0, 2.0, 3.0],
            [4.0, 5.0, 6.0]               
          ],
          [ 
            [1.0, 2.0, 3.0],
            [4.0, 5.0, 6.0]               
          ]
        ]
      ]      
    
# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)

# Mostra os tensores
print(TA)
print(type(TA))
print(TA.size())

# Média dos vetores
TC0 = torch.mean(TA, dim=0)
TC1 = torch.mean(TA, dim=1)
TC2 = torch.mean(TA, dim=2)
TC3 = torch.mean(TA, dim=3)

# Mostra as médias
print("Média pela dimensão 0")
print(TC0)
print(TC0.size())

print("Média pela dimensão 1")
print(TC1)
print(TC1.size())

print("Média pela dimensão 2")
print(TC2)
print(TC2.size())

print("Média pela dimensão 3")
print(TC3)
print(TC3.size())

tensor([[[[1., 2., 3.],
          [4., 5., 6.]],

         [[1., 2., 3.],
          [4., 5., 6.]]]])
<class 'torch.Tensor'>
torch.Size([1, 2, 2, 3])
Média pela dimensão 0
tensor([[[1., 2., 3.],
         [4., 5., 6.]],

        [[1., 2., 3.],
         [4., 5., 6.]]])
torch.Size([2, 2, 3])
Média pela dimensão 1
tensor([[[1., 2., 3.],
         [4., 5., 6.]]])
torch.Size([1, 2, 3])
Média pela dimensão 2
tensor([[[2.5000, 3.5000, 4.5000],
         [2.5000, 3.5000, 4.5000]]])
torch.Size([1, 2, 3])
Média pela dimensão 3
tensor([[[2., 5.],
         [2., 5.]]])
torch.Size([1, 2, 2])


###Permute


Troca a ordem das dimensões.

In [24]:
# Bibliotecas
import torch

A = [     
      [
        [1, 2, 3],
        [4, 5, 6]
      ]
    ]

# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)

# Mostra os tensores
print(TA)
print(type(TA))
print(TA.size())

# Permute troca as dimensões 0, 1, 2 pelas dimensões 2, 1, 0
TC0 = TA.permute(2, 1, 0)

# Mostra o tensor modificado
print("Permutação das dimensões 0, 1, 2 por 2, 1, 0")
print(TC0)
print(TC0.size())

tensor([[[1, 2, 3],
         [4, 5, 6]]])
<class 'torch.Tensor'>
torch.Size([1, 2, 3])
Permutação das dimensões 0, 1, 2 por 2, 1, 0
tensor([[[1],
         [4]],

        [[2],
         [5]],

        [[3],
         [6]]])
torch.Size([3, 2, 1])


###Squeeze

Remove as dimensões de tamanho 1 para a posição especificada.

https://pytorch.org/docs/stable/generated/torch.squeeze.html

In [25]:
# Bibliotecas
import torch

A = [
      [     
        [
          [1, 2, 3],
          [4, 5, 6]
        ]
      ]
    ]
    
# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)

# Mostra os tensores
print(TA)
print("Tamanho das dimensões:", TA.size())

# Remove primeira dimensão de tamanho 1
TC0 = torch.squeeze(TA, dim=0)

# Mostra o tensor com a dimensão removida
print("Tamanho das dimensões:", TC0.size())

# Remove primeira dimensão de tamanho 1
TC0 = torch.squeeze(TC0, dim=0)

# Mostra o tensor com a dimensão removida
print("Tamanho das dimensões:", TC0.size())

tensor([[[[1, 2, 3],
          [4, 5, 6]]]])
Tamanho das dimensões: torch.Size([1, 1, 2, 3])
Tamanho das dimensões: torch.Size([1, 2, 3])
Tamanho das dimensões: torch.Size([2, 3])


### Unsqueeze

Insere uma dimensão de tamanho 1 na posição especificada.
Inverso do squeeze.

https://pytorch.org/docs/stable/generated/torch.unsqueeze.html

In [26]:
# Bibliotecas
import torch

A =   [
       [1, 2, 3],
       [4, 5, 6]
      ]
    
# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)

# Mostra os tensores
print(TA)
print("Tamanho das dimensões:", TA.size())

# Insere primeira dimensão de tamanho 1
TC0 = torch.unsqueeze(TA, dim=0)

# Mostra o tensor com a dimensão inserida
print("Tamanho das dimensões:", TC0.size())

# Insere primeira dimensão de tamanho 1
TC0 = torch.unsqueeze(TC0, dim=0)

# Mostra o tensor com a dimensão inserida
print("Tamanho das dimensões:", TC0.size())

tensor([[1, 2, 3],
        [4, 5, 6]])
Tamanho das dimensões: torch.Size([2, 3])
Tamanho das dimensões: torch.Size([1, 2, 3])
Tamanho das dimensões: torch.Size([1, 1, 2, 3])


### max

Retorna o valor máximo de todos os elementos de um tensor.

https://pytorch.org/docs/stable/generated/torch.max.html

https://www.journaldev.com/39463/pytorch-torch-max

In [27]:
# Bibliotecas
import torch

A =   [
       [4, 2, 6],
       [1, 5, 3]
      ]
    
# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)

# Mostra os tensores
print(TA)

# Mostra o maior valor de tensor
print("Maior valor de tensor:", TA.max())

# Mostra a linha com os maiores valores dos tensores
maior, linha = torch.max(TA, 0) 
print("Maior linha tensor:", maior, " linha:", linha)

# Mostra a coluna com os maiores valores dos tensores
maior, coluna = torch.max(TA, 1) 
print("Maior coluna tensor:", maior, " coluna:", coluna)

tensor([[4, 2, 6],
        [1, 5, 3]])
Maior valor de tensor: tensor(6)
Maior linha tensor: tensor([4, 5, 6])  linha: tensor([0, 1, 0])
Maior coluna tensor: tensor([6, 5])  coluna: tensor([2, 1])


### maximum

Os maiores valores entre dois tensores.

https://pytorch.org/docs/stable/generated/torch.maximum.html

In [28]:
# Bibliotecas
import torch

A =   [
       [4, 2, 6],
       [1, 5, 3]
      ]

B =   [
       [1, 7, 3],
       [4, 4, 6]
      ]

# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)
TB = torch.as_tensor(B)

# Mostra os tensores
print(TA)
print(TB)

# Localiza os maiores valores entre os dois tensores
MAIOR = torch.maximum(TA, TB) 

# Mostra o tensor
print("Maior tensor:\n", MAIOR)

tensor([[4, 2, 6],
        [1, 5, 3]])
tensor([[1, 7, 3],
        [4, 4, 6]])
Maior tensor:
 tensor([[4, 7, 6],
        [4, 5, 6]])


### min

Retorna o valor mínimo de todos os elementos de um tensor.

https://pytorch.org/docs/stable/generated/torch.min.html

https://www.journaldev.com/39463/pytorch-torch-min

In [29]:
# Bibliotecas
import torch

A =   [
       [4, 2, 6],
       [1, 5, 3]
      ]
    
# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)

# Mostra os tensores
print(TA)

# Mostra o maior valor de tensor
print("Maior valor de tensor:", TA.max())

# Mostra a linha com os menores valores dos tensores
menor, linha = torch.min(TA, 0) 
print("Menor linha tensor:", menor, " linha:", linha)

# Mostra a coluna com os menores valores dos tensores
menor, coluna = torch.min(TA, 1) 
print("Menor coluna tensor:", menor, " coluna:", coluna)

tensor([[4, 2, 6],
        [1, 5, 3]])
Maior valor de tensor: tensor(6)
Menor linha tensor: tensor([1, 2, 3])  linha: tensor([1, 0, 1])
Menor coluna tensor: tensor([2, 1])  coluna: tensor([1, 0])


### minimum

Os menores valores entre dois tensores.

https://pytorch.org/docs/stable/generated/torch.minimum.html

In [30]:
# Bibliotecas
import torch

A =   [
       [4, 2, 6],
       [1, 5, 3]
      ]

B =   [
       [1, 7, 3],
       [4, 4, 6]
      ]

# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)
TB = torch.as_tensor(B)

# Mostra os tensores
print(TA)
print(TB)

# Localiza os menores valores entre os dois tensores
MENOR = torch.minimum(TA, TB) 

# Mostra o tensor
print("Menor tensor:\n", MENOR)

tensor([[4, 2, 6],
        [1, 5, 3]])
tensor([[1, 7, 3],
        [4, 4, 6]])
Menor tensor:
 tensor([[1, 2, 3],
        [1, 4, 3]])


### flatten

Retorne uma cópia da do tensor em uma dimensão.

https://pytorch.org/docs/stable/generated/torch.flatten.html

In [31]:
# Bibliotecas
import torch

A =   [
        [
          [1, 2, 3],
          [4, 5, 6]
        ],
        [
          [7, 8, 9],
          [10, 11, 12]
        ]
      ]
    
# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)

# Mostra o tensor
print(TA)
print(TA.shape)

# Reduz o tensor A a uma dimensão
# TA.flatten(start_dim=0)
TB = TA.flatten()

# Mostra o tensor
print(TB)
print(TB.shape)

# Reduz o tensor A a duas dimensões
TC = TA.flatten(start_dim=1)

# Mostra o tensor
print(TC)
print(TC.shape)


tensor([[[ 1,  2,  3],
         [ 4,  5,  6]],

        [[ 7,  8,  9],
         [10, 11, 12]]])
torch.Size([2, 2, 3])
tensor([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])
torch.Size([12])
tensor([[ 1,  2,  3,  4,  5,  6],
        [ 7,  8,  9, 10, 11, 12]])
torch.Size([2, 6])


### pad_sequence

Cria um lista de tensores a partir de tensores de dimensões diferentes preenchendo os valores faltantes com o valor de 'padding_value'.

In [32]:
# Bibliotecas
import torch
from torch.nn.utils.rnn import pad_sequence

# Declaração da matriz
A =  [
        [1.0, 2.0],
        [3.0, 4.0],
        [5.0, 6.0]
     ]
    
B =  [
        [7.0, 8.0],
        [9.0, 10.0]
     ]

C =  [
        [11.0, 12.0]
     ]

# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)
TB = torch.as_tensor(B)
TC = torch.as_tensor(C)

# Mostra os tensores
print(TA)
print(TB)
print(TC)

# Preenche os tensores com o valor de padding_value.
# batch_first=True diz para concatenar na ordem os tensores.
# Utiliza o maior tensor como referência.
TC0 = pad_sequence([TA, TB, TC], batch_first=True, padding_value=0)

# Mostra o preenchimento
print("\nMostra o preenchimento dos tensores")
print(TC0)

tensor([[1., 2.],
        [3., 4.],
        [5., 6.]])
tensor([[ 7.,  8.],
        [ 9., 10.]])
tensor([[11., 12.]])

Mostra o preenchimento dos tensores
tensor([[[ 1.,  2.],
         [ 3.,  4.],
         [ 5.,  6.]],

        [[ 7.,  8.],
         [ 9., 10.],
         [ 0.,  0.]],

        [[11., 12.],
         [ 0.,  0.],
         [ 0.,  0.]]])


### coseno

In [33]:
# Bibliotecas
import torch
from scipy.spatial.distance import cosine

# Declaração da matriz
A =  [
      [
        [1.0, 2.0]
      ]
     ]
    
B =  [
      [
        [1.0, 3.0]
      ]
     ]

# Converte a lista de lista de matriz em um tensor
TA = torch.as_tensor(A)
TB = torch.as_tensor(B)

# Mostra os tensores
print(TA)
print(TA.shape)
print(TB)
print(TB.shape)

# Similaridade dos vetores
C= 1 - cosine(TA, TB)

# Mostra a similaridade
print(C)

tensor([[[1., 2.]]])
torch.Size([1, 1, 2])
tensor([[[1., 3.]]])
torch.Size([1, 1, 2])
0.9899494647979736


# Carregamento de Dados dom Pytorch

Cria um iterador para o conjunto de dados usando a classe `DataLoader` da Pytorch. Isso ajuda a economizar memória durante o treinamento, porque, diferentemente do for loop, com um iterador, o conjunto de dados inteiro não precisa ser carregado na memória.

https://www.journaldev.com/36576/pytorch-dataloader

https://www.youtube.com/watch?v=PXOzkkB5eH0

## Dataset e Dataloader



### Dados de exemplo

#### Especifica o nome do arquivo de dados

In [34]:
# Nome do arquivo
# Arquivo possui 49459 linhas

nomearquivo = 'imdb-reviews-pt-br.csv'
caminhoarquivo = '/content/' + nomearquivo

#### Download do arquivo de dados

Download do arquivo de dados do Kaggle sem API

https://medium.com/ieeecisunb/como-realizar-o-download-de-datasets-dispon%C3%ADveis-na-internet-principalmente-do-kaggle-27123f79589d



In [35]:
# Apaga o arquivo 
!rm $caminhoarquivo

# Realiza o download do arquivo da url especificada
!wget "https://storage.googleapis.com/kaggle-data-sets/51413/95829/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20201123%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20201123T173342Z&X-Goog-Expires=259199&X-Goog-SignedHeaders=host&X-Goog-Signature=a14a612d0b773a4b1051dd7565dc053ac1523b8c2d6a44b754dac332270957209e3e9d62b5cd053943e0817800e16d98e39c2687d5a9dcffc78e6c917df9da4121552761ac70d72ab7914bf5e4c9563e64ffa32fc48849dca9fb60fe5b64a370b6e209487c2abd66036933b5855c6d97970919cbd5a0ee9ac52361134da6d3c9ab3f255c22f2b76e862bdb325476b960e4030fd2c667dae0847af21904236b59537371d7f2512259d8196eafdd0f5b1fd335aad1679331bf858a63e3e1b86002dd626facf38a89ff1d61879b55d9dadfcaa495fa2c10511bf22519aceed555fcf56d953ea8311bcc85ed7888bc840dcca1ddb9fcc8b7487c838ecf05a779def7"

# Move o arquivo para archive.zip
!mv 'archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com@kaggle-161607.iam.gserviceaccount.com%2F20201123%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20201123T173342Z&X-Goog-Expires=259199&X-Goog-SignedHeaders=hos' archive.zip

# Descompacta o arquivo
!unzip archive.zip

# Lista o diretório corrente e os arquivos.
!pwd
!ls -la

rm: cannot remove '/content/imdb-reviews-pt-br.csv': No such file or directory
The name is too long, 767 chars total.
Trying to shorten...
New name is archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com@kaggle-161607.iam.gserviceaccount.com%2F20201123%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20201123T173342Z&X-Goog-Expires=259199&X-Goog-SignedHeaders=hos.
--2020-11-25 20:41:12--  https://storage.googleapis.com/kaggle-data-sets/51413/95829/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20201123%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20201123T173342Z&X-Goog-Expires=259199&X-Goog-SignedHeaders=host&X-Goog-Signature=a14a612d0b773a4b1051dd7565dc053ac1523b8c2d6a44b754dac332270957209e3e9d62b5cd053943e0817800e16d98e39c2687d5a9dcffc78e6c917df9da4121552761ac70d72ab7914bf5e4c9563e64ffa32fc48849dca9fb60fe5b64a370b6e209487c2abd66036933b5855c6d97970919cbd5a0ee9ac52361134da6d3c9ab3f25

Atributos do arquivo **imdb-reviews-pt-br.csv**:
0. "id"
1. "text_en"
2. "text_pt"
3. "sentiment"

In [36]:
import pandas as pd

# Carrega o conjunto de dados em dataFrame pandas.
df = pd.read_csv(caminhoarquivo,usecols=['text_pt','sentiment'])

# Reduz a quantidade de registros
df = df[-100:].append(df[0:100])

# Mostra o número de registros
print('Número de registros: {:,}\n'.format(df.shape[0]))

# Informações do DataFrame
print(df.info())

Número de registros: 200

<class 'pandas.core.frame.DataFrame'>
Int64Index: 200 entries, 49359 to 99
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   text_pt    200 non-null    object
 1   sentiment  200 non-null    object
dtypes: object(2)
memory usage: 4.7+ KB
None


In [37]:
# Renomeia a coluna text_pt para sentence e sentiment para label
df = df.rename(columns={'text_pt': 'sentence', 'sentiment': 'label'})

In [38]:
# Mostra 10 linhas aleatórias
df.sample(5)

Unnamed: 0,sentence,label
49388,"Nós compramos o DVD conjunto de ""Es war einmal...",pos
20,"A melhor coisa sobre ""The Prey"" é o slogan ......",neg
49381,"Eu aluguei o dominó por capricho, nem mesmo sa...",pos
49455,O enredo teve algumas reviravoltas infelizes e...,pos
96,"Este é de longe o show mais insípido, idiota e...",neg


### Classe Dataset

Criar a classe ConjuntoDados herdando a classe abstrata Dataset.

Uma classe derivada da classe Dataset do Pytorch, precisa implementar os três métodos:  `__init__`, `__len__` e `__getitem__`.

- `__init__`: O construtor da classe, executando quando a classe for instânciada, atribui alguns valores aos atributos.

- `__len__`: Responsável por retornar o tamanho total do dataset quando chamamos len(dataset).

- `__getitem__`: Retorna o item escolhido através do índice. Quando chamemos dataset[0] irá retornar o primeiro item do dataset.

https://stanford.edu/~shervine/blog/pytorch-how-to-generate-data-parallel

In [39]:
from torch.utils.data.dataset import Dataset
import torch

class ConjuntoDados(Dataset):
        
    # Construtor da classe
    def __init__(self, dados):

        # Cria uma cópia dos dados, caso contrário vira uma referência   
        dados = dados.copy()
    
        # Converte a coluna sentence para inputs_ids
        dados['input_ids'] = dados['sentence']
        
        # Converte a coluna labels para um valor inteiro
        dados['labels'] = (dados['label'] == 'pos').astype(int)
        
         # Converte os dados de inputs_is e labels para uma lista de dicionário orientado a registros
        self.dadosExemplo = dados[['input_ids', 'labels']].to_dict('records')
    
    # Facilita o acesso ao conteúdo dos dados de exemplo
    def __getitem__(self, index):        
        # Retorna um item expecifico dos dados de exemplo.
        # A quantidade de itens retornandos depende da quantidade de elementos em exemplo
        # que é dividido pelo tamanho de lotes do DataLoader.
        return  {
                  key: value for key, value in self.dadosExemplo[index].items()
                }
     
    # Retorna a quantidade de dados de exemplo
    def __len__(self):
        return len(self.dadosExemplo)

### DataLoader utilizando a classe Dataset

A quantidade elementos em DataLoader é o resultado da divisão inteira entre quantidade de registro do cojunto dividido pelo tamanho dos lotes(batch_size).

In [40]:
from torch.utils.data import DataLoader

# Cria o conjunto de dados para o DataFrame
conjunto_dados_treino = ConjuntoDados(df)

# Mostra o tamanho do conjunto de dados(usa o método __len__)
print("Existem ", len(conjunto_dados_treino), " registros de dados")

# Cria o DataLoader para o conjunto de dados na classe ConjuntoDados(Dataset)
# batch_size é o tamanho dos lotes criado pelo DataLoader
carregador_treino = DataLoader(conjunto_dados_treino, batch_size = 3, num_workers = 2)

# Tamanho e quantidade de lotes
print("Existem ", carregador_treino.batch_size, " registros por lotes")
print("Existem ", len(carregador_treino), " lotes")
print("Total = ", (len(carregador_treino) * carregador_treino.batch_size ), " registros nos lotes")

Existem  200  registros de dados
Existem  3  registros por lotes
Existem  67  lotes
Total =  201  registros nos lotes


In [41]:
max_epoca = 1

# Percorre as épocas
for epoca in range(max_epoca):
    # Treino
    qtdeRegistros = 0
    qtdeIteracoes = 0    
    # Percorre os 67 lotes do carregador
    # Cada lote tem o tamanho 3
    for i, lote in enumerate(carregador_treino):
        #print(i, lote)
        # Conta a quantidade registros de cada lote
        qtdeRegistros = qtdeRegistros + len(lote['labels'])
        # Conta as iterações do carregador
        qtdeIteracoes = qtdeIteracoes + 1

    print("Época:", epoca)
    print("     Total registros:", qtdeRegistros)
    print("     Total iterações:", qtdeIteracoes)

Época: 0
     Total registros: 200
     Total iterações: 67


## TensorDataset e DataLoader

Se não desejar criar a classe Dataset pode utilizar diretamente a classe TensorDataset e especificar os dados.

### Dados de exemplo

#### Especifica o nome do arquivo de dados

In [42]:
# Nome do arquivo
# Arquivo possui 49459 linhas

nomearquivo = 'imdb-reviews-pt-br.csv'
caminhoarquivo = '/content/' + nomearquivo

#### Download do arquivo de dados

Download do arquivo de dados do Kaggle sem API

https://medium.com/ieeecisunb/como-realizar-o-download-de-datasets-dispon%C3%ADveis-na-internet-principalmente-do-kaggle-27123f79589d



In [43]:
# Apaga o arquivo 
!rm $caminhoarquivo

# Realiza o download do arquivo da url especificada
!wget "https://storage.googleapis.com/kaggle-data-sets/51413/95829/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20201123%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20201123T173342Z&X-Goog-Expires=259199&X-Goog-SignedHeaders=host&X-Goog-Signature=a14a612d0b773a4b1051dd7565dc053ac1523b8c2d6a44b754dac332270957209e3e9d62b5cd053943e0817800e16d98e39c2687d5a9dcffc78e6c917df9da4121552761ac70d72ab7914bf5e4c9563e64ffa32fc48849dca9fb60fe5b64a370b6e209487c2abd66036933b5855c6d97970919cbd5a0ee9ac52361134da6d3c9ab3f255c22f2b76e862bdb325476b960e4030fd2c667dae0847af21904236b59537371d7f2512259d8196eafdd0f5b1fd335aad1679331bf858a63e3e1b86002dd626facf38a89ff1d61879b55d9dadfcaa495fa2c10511bf22519aceed555fcf56d953ea8311bcc85ed7888bc840dcca1ddb9fcc8b7487c838ecf05a779def7"

# Move o arquivo para archive.zip
!mv 'archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com@kaggle-161607.iam.gserviceaccount.com%2F20201123%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20201123T173342Z&X-Goog-Expires=259199&X-Goog-SignedHeaders=hos' archive.zip

# Descompacta o arquivo
!unzip archive.zip

# Lista o diretório corrente e os arquivos.
!pwd
!ls -la

The name is too long, 767 chars total.
Trying to shorten...
New name is archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com@kaggle-161607.iam.gserviceaccount.com%2F20201123%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20201123T173342Z&X-Goog-Expires=259199&X-Goog-SignedHeaders=hos.
--2020-11-25 20:41:17--  https://storage.googleapis.com/kaggle-data-sets/51413/95829/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20201123%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20201123T173342Z&X-Goog-Expires=259199&X-Goog-SignedHeaders=host&X-Goog-Signature=a14a612d0b773a4b1051dd7565dc053ac1523b8c2d6a44b754dac332270957209e3e9d62b5cd053943e0817800e16d98e39c2687d5a9dcffc78e6c917df9da4121552761ac70d72ab7914bf5e4c9563e64ffa32fc48849dca9fb60fe5b64a370b6e209487c2abd66036933b5855c6d97970919cbd5a0ee9ac52361134da6d3c9ab3f255c22f2b76e862bdb325476b960e4030fd2c667dae0847af21904236b59537371d7f2512259d8196

Atributos do arquivo **imdb-reviews-pt-br.csv**:
0. "id"
1. "text_en"
2. "text_pt"
3. "sentiment"

In [44]:
import pandas as pd

# Carrega o conjunto de dados em dataFrame pandas.
df = pd.read_csv(caminhoarquivo,usecols=['text_pt','sentiment'])

# Reduz a quantidade de registros
df = df[-100:].append(df[0:100])

# Mostra o número de registros
print('Número de registros: {:,}\n'.format(df.shape[0]))

# Informações do DataFrame
print(df.info())

Número de registros: 200

<class 'pandas.core.frame.DataFrame'>
Int64Index: 200 entries, 49359 to 99
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   text_pt    200 non-null    object
 1   sentiment  200 non-null    object
dtypes: object(2)
memory usage: 4.7+ KB
None


In [45]:
# Renomeia a coluna text_pt para sentence e sentiment para label
df = df.rename(columns={'text_pt': 'sentence', 'sentiment': 'label'})

In [46]:
# Mostra 10 linhas aleatórias
df.sample(5)

Unnamed: 0,sentence,label
75,"Apesar de vir depois de três Star Wars, Krull ...",neg
18,Muitas pessoas estão em pé na frente da casa n...,neg
2,"Primeiro de tudo eu odeio esses raps imbecis, ...",neg
49415,Eu estava com um pouco de medo de assistir est...,pos
49452,"Eu não li os outros comentários sobre o filme,...",pos


In [47]:
df.head(5)

Unnamed: 0,sentence,label
49359,Tal como acontece com a maioria dos filmes de ...,pos
49360,Rosalind Russell executa uma performance de po...,pos
49361,Absolutamente drama maravilhoso e Ros é entalh...,pos
49362,"Além de ser um filme extremamente divertido, p...",pos
49363,Revisado no World Premiere exibição em 9 de se...,pos


### Usando TensorDataset

https://pytorch.org/cppdocs/api/structtorch_1_1data_1_1datasets_1_1_tensor_dataset.html

In [48]:
# Converte a coluna labels para um valor inteiro
df['labels'] = (df['label'] == 'pos').astype(int)

# Converte a coluna labels em um tensor
dados_treino_tensor = torch.as_tensor(df['labels'].values)

len(conjunto_dados_treino)

200

Cria o TensorDaset passando um tensor

In [49]:
from torch.utils.data import TensorDataset

# Cria o TensorDataset utilizando um Tensor
conjunto_dados_treino = TensorDataset(dados_treino_tensor)

len(conjunto_dados_treino)

200

### DataLoader utilizando a classe TensorDataset

A quantidade elementos em DataLoader é o resultado da divisão inteira entre quantidade de registro do cojunto dividido pelo tamanho dos lotes(batch_size).

O parâmetro `sampler` do DataLoader é uma instância opcional da classe` torch.utils.data.Sampler`. Define a estratégia para recuperar os dados - sequencial(`SequentialSampler`) ou aleatória(`RandomSampler`) ou de qualquer outra forma. 

In [50]:
from torch.utils.data import DataLoader
from torch.utils.data import RandomSampler
from torch.utils.data import SequentialSampler

# Mostra o tamanho do conjunto de dados(usa o método __len__)
print("Existem ", len(conjunto_dados_treino), " registros de dados")

#treino_sampler = RandomSampler(conjunto_dados_treino)
treino_sampler = SequentialSampler(conjunto_dados_treino)
#treino_sampler = SubsetRandomSampler(conjunto_dados_treino)

# Cria o DataLoader para o conjunto de dados em um TensorDataset
# batch_size é o número de lotes criado pelo DataLoader
carregador_treino = DataLoader(conjunto_dados_treino, sampler=treino_sampler, batch_size=3)

print("Existem ", carregador_treino.batch_size, " registros por lotes")
print("Existem ", len(carregador_treino), " lotes")
print("Total = ", (len(carregador_treino) * carregador_treino.batch_size ), " registros nos lotes")

Existem  200  registros de dados
Existem  3  registros por lotes
Existem  67  lotes
Total =  201  registros nos lotes


In [51]:
max_epoca = 4

# Percorre as épocas
for epoca in range(max_epoca):
    # Treino
    qtdeRegistros = 0
    qtdeIteracoes = 0
    # Percorre os 67 lotes do carregador        
    # Cada lote tem o tamanho 3
    for i, lote in enumerate(carregador_treino):
        #print(i, lote)        
        # Conta a quantidade registros de cada lote
        qtdeRegistros = qtdeRegistros + len(lote[0])        
        # Conta as iterações do carregador
        qtdeIteracoes = qtdeIteracoes + 1
            
    print("Época:", epoca)
    print("     Total registros:", qtdeRegistros)
    print("     Total iterações:", qtdeIteracoes)

Época: 0
     Total registros: 200
     Total iterações: 67
Época: 1
     Total registros: 200
     Total iterações: 67
Época: 2
     Total registros: 200
     Total iterações: 67
Época: 3
     Total registros: 200
     Total iterações: 67
