## Treinamento Pandas - Parte 1

### Jupyter Atalhos Básicos
Sem a célula selecionada (fora, azulzinho):
* **Teclas direcionais**: Navegam pelas células
* **Enter**: Seleciona (entra).
* **A**: Adiciona uma nova abaixo.
* **X**: Apaga.
* **M**: Entra em modo Markdown.
* **C**: Entra em moto Code (só no lab).


Com a célula selecionada (dentro, verdinho):
* **Shift + Enter** roda a célula selecionada e vai pra próxima.
* **Ctrl + Enter** roda a célula selecionada.
* **Alt + Enter** roda a célula selecionada, insere uma nova abaixo.
* **Ctrl + S** Salva

### Numpy Basics
#### Copiado discaradamente de Prof. Douglas Matos de Souza, que adaptou de: Prof. Henry Cagnini

In [None]:
from IPython.display import Image

### Introdução

Nessa primeira parte vamos falar brevemente sobre arrays numpy.
Longe de ser material suficiente sobre o assunto, nossa intenção aqui é apenas reforçar o fato de que o Pandas foi construído em cima dessa biblioteca e que dependendo da necessidades temos que descer um nível (não é o caso para maioria das aplicações, mas é importante saber).

* NumPy é uma biblioteca para cálculo vetorial e matricial disponibilizada em Python
* Várias outras bibliotecas utilizam NumPy como base para seus cálculos
* Utilizar NumPy ao invés das estruturas básicas de Python (e.g. listas) apresenta melhorias de desempenho

### Arrays Numpy

São estruturas homogêneas

Possui um tipo, dentre eles:
* np.int8
* np.int16
* np.int32
* np.int64
* np.uint8
* np.uint16
* np.uint32
* np.uint64
* np.float32
* np.float64
* np.complex64
* np.complext128
* np.unicode (Utilizado para string. Possui algum tamanho específico, e.g. <U10)

Lista completa em: https://numpy.org/devdocs/user/basics.types.html

Possuem os seguintes atributos:
* *ndarray.ndim*: Número de dimensões do array (e.g. 2 se for uma matriz)
* *ndarray.shape*: Tupla que representa o formato do array (e.g. (3,3))
* *ndarray.size*: Número total de elementos do array, é equivalente a np.prod(ndarray.shape)
* **ndarray.dtype**: Tipo de dado do array (e.g. np.float32)
* *ndarray.itemsize*: Tamanho em bytes que cada elemento do array ocupa (e.g. 8 para um np.float64)

### Construção de arrays
* *np.array(...)*
* Constrói um array com base nos dados que são passados a estrutura
* Dados podem ser provenientes de outros contêineres (e.g. lista, tupla)

In [None]:
import numpy as np

tupla = ('a', 'b', 'c')
lista = [1, 2, 3]

a = np.array(lista)
b = np.array(tupla)


In [None]:
a

In [None]:
b

In [None]:
a.shape

In [None]:
a.size

In [None]:
a.dtype

Mais dimensões

In [None]:
c = np.zeros((10, 10))

In [None]:
c

In [None]:
'shape: {}, size: {}, dtype: {}, '.format(c.shape, c.size, c.dtype)

#### Operações Básicas
* Divisão, multiplicação, soma, subtração
* Vale a pena dar uma olhada na documentação, por limitações do escopo desse treinamento não entraremos nessa parte.

https://docs.scipy.org/doc/numpy/user/quickstart.html

#### Operações de redução e binárias
* Essas são mais imporantes para o nosso escopo, segue:

In [None]:
a = np.arange(0, 9).reshape(3, 3)
print('Conteúdo:\n{}, shape: {}, Tipo: {}'.format(a, a.shape, a.dtype))
print('Soma total dos elementos:\n{}'.format(np.sum(a)))
print('Média dos elementos:\n{}'.format(np.mean(a)))
print('Soma das linhas:\n{}'.format(np.sum(a, axis=0)))
print('Média das linhas:\n{}'.format(np.mean(a, axis=0)))
print('Soma das colunas:\n{}'.format(np.sum(a, axis=1)))
print('Média das colunas:\n{}'.format(np.mean(a, axis=1)))

In [None]:
a = np.array([0, 0, 1, 1], dtype=np.bool)
b = np.array([0, 1, 0, 1], dtype=np.bool)

In [None]:
print(a & b)

In [None]:
print(a | b)

In [None]:
print(np.logical_not(a))

### Vamos ao que interessa: Slicing e Fancy Indexing

In [None]:
Image(url='https://media.giphy.com/media/81Ja1qE3lfmG4/giphy.gif')

#### Slicing

* Assim como em listas de Python, numpy arrays também podem ser fatiados (slicing)
    * Slicing é a técnica de “fatiar” um contêiner que suporta indexação linear
    * O fatiamento se dá adicionando um par de colchetes ao fim da variável
    * Possui 3 parâmetros: início (incluso), fim (excluso) e passo

In [None]:
Image(url='https://i1.faceprep.in/Companies-1/string-slicing-in-python.png')

In [None]:
nums = np.arange(5)
print('array completo:\t\t\t', nums)        
print('do início ao fim:\t\t', nums[:])
print('do 2o (incluso) até o fim:\t', nums[2:])
print('do início ao 2o (excluso):\t', nums[:2])
print('do 2o (incluso) ao 4o (excluso):', nums[2:4])
print('do início ao último (excluso)\t', nums[:-1])
nums[2:4] = [8, 9]  # atribuição
print('após atribuição:\t\t', nums)

In [None]:
a = np.random.uniform(size=(3,5))
print('Conteúdo: {},\nshape: {},\nTipo: {}\n\n'.format(a, a.shape, a.dtype))
print('Selecionando a primeira linha:', a[0, :])
print('Selecionando a primeira coluna:', a[:, 0])
print('Selecionando a última linha:', a[-1, :])
print('Selecionando as colunas 1 e 2:\n', a[:, 1:3])

### Fancy Indexing

In [None]:
Image(url='https://media.giphy.com/media/12NUbkX6p4xOO4/giphy.gif')

Numpy permite a indexação de arrays utilizando outros arrays (que contém indíces!)

In [None]:
a = np.arange(9).reshape(3, 3)
print('Array original\n', a)

print('Selecionando as linhas 0 e 2:\n', a[[0, 2], :])

print('Selecionando as linhas 0 e 2, colunas 0 e 0', a[[0, 2], [0, 0]])

In [None]:
a = np.arange(9)
print('Array original\n', a)
print('Indexando várias vezes o mesmo elemento:\n', a[[0,0,0, 1, 3, 3]])
print('Indexando várias vezes o mesmo elemento:\n', a[[7,7,7, 0,0, 4, 1]])

In [None]:
a = np.arange(9).reshape(3, 3)
print('Array original\n', a)

print('Selecionando as colunas 0 e 2:\n', a[:, [0, -1]])

print('Selecionando as colunas 0 e 2, linhas 0 e 2', a[[0, -1], [0, 2]])

print('Selecionando as colunas 2 e 0, linhas 2 e 0', a[[-1, 0], [2, 0]])

In [None]:
a = np.arange(25).reshape(5, 5)
print('Array original\n', a)

print('Selecionando as linhas 1 a 4 e colunas 0, 2 e 3:\n', a[1:4, [0, 2, 3]])

In [None]:
a = np.arange(9).reshape(3, 3)
print('Array original\n', a)

print('Selecionando as colunas 0 e 2:\n', a[:, [0, -1]])

a[:, [0, -1]] = [[-1, -1], [-1, -1], [-1, -1]]

print('Substituindo o conteúdo das colunas 0 e 2:\n', a)

E se eu quiser selecionar todos os elementos de um array que satisfaçam uma condição? Todos os elementos iguais a zero, por exemplo?

**Solução: boolean indexing!**

- A indexação por booleans permite indexar um array com uma máscara de valores booleanos.
- A Máscara deve ter exatamente o mesmo tamanho da dimensão que está sendo indexada.

In [None]:
a = np.arange(9)
print('Conteúdo do array:\n', a)
print('Conteúdo da máscara da condição a < 5:\n', a < 5)
print('Selecionando todos os valores menores que 5:\n', a[a < 5])

In [None]:
a = np.arange(9)
print('Conteúdo do array:\n', a)
print('Conteúdo da máscara da condição a == 2:\n', a == 2)
print('Selecionando todos os valores iguais a 2:\n', a[a == 2])

In [None]:
a = np.arange(9)
print('Conteúdo do array:\n', a)
print('Conteúdo da máscara da condição a == 2 ou a == 3:\n', (a == 2) | (a == 3) )
print('Selecionando todos os valores iguais a 2 ou 3:\n', a[(a == 2) | (a == 3)])

#### Where(cond, [if true, if false])

In [None]:
a = np.arange(9).reshape(3, 3)
print('Array original\n', a)
mascara = a > 3
print('Conteúdo da máscara:\n', mascara)
print('Conteúdo retornado pelo where:\n', np.where(mascara, a, a + 10))

### EXERCÍCIO!
Dado o array 2D abaixo, selecione: valores pares ou valores maiores que 10.

In [None]:
a = np.arange(25).reshape(5, 5)
########################
# Inicio do seu codigo #
########################



########################
#   Fim do seu codigo  #
########################

### Arryas Numpy: Performance
* Utilizar arrays permite cálculos ainda mais rápidos que funções em **C de Python**
* Abaixo realizamos três testes: usando list comprehension, map e lambda, e arrays com funções numpy
* Os testes são executados 100 vezes e a média é mostrada

In [None]:
import timeit
setup = 'a = range(1000000)'
stmt = '[x**2 for x in a]'

times = timeit.repeat(setup=setup, stmt=stmt, number=1, repeat=100)
print('média de 100 execuções com list comprehension: %r segundos' % np.mean(times))

In [None]:
setup = 'a = range(1000000); pow = lambda x: x**2'
stmt = 'list(map(pow, a))'

times = timeit.repeat(setup=setup, stmt=stmt, number=1, repeat=100)
print('média de tempos usando map: %r segundos' % np.mean(times))

In [None]:
setup = 'import numpy as np;a = np.arange(1000000)'
stmt = 'a**2'

times = timeit.repeat(setup=setup, stmt=stmt, number=1, repeat=100)
print('média de tempos usando numpy arrays: %r segundos' % np.mean(times))

In [None]:
Image(url='https://miro.medium.com/max/2000/1*e7fxK_4DK2QqpGNzoTADAA.png')

## Por isso....

1. Cuidado com soluções mágicas
2. Cada caso é um caso
3. A sintaxe importa!!
4. Se você tiver dificuldades de performance, e começar a blasfemar coisas do tipo: "Python é lento", provavelmente você não está abordando o problema da forma correta, pesquise um pouco :)

In [None]:
Image(url='https://media.giphy.com/media/2vrGD7BtskWD8HB5BK/giphy.gif')