## Técnicas de Programação I - Numpy

Na aula de hoje iremos explorar os seguintes tópicos:

- Numpy


### Numpy

Numpy é uma biblioteca das principais bibliotecas do Python, devido a sua grande velocidade e eficiência ele é extremamente utilizada para computação científica e analise de dados. Esta fama se da principalmente a estrutura chamada [numpy array](https://docs.scipy.org/doc/numpy/reference/arrays.html), um forma **eficiente** de **guardar e manipular matrizes**, que serve como base para as tabelas que iremos utilizar.

#### Intalação

Para instalar o numpy podemos utilizar os seguintes comandos:

`conda install numpy`, caso queira instalar utilizando o [conda](https://www.anaconda.com/products/distribution)

`pip install numpy`, ou utilizando o gerenciador de pacotes Pip.

In [None]:
!pip install numpy

In [None]:
# Importando o módulo numpy
# Por conveniência utilizamos o `as` dando um "apelido" (alias) para o módulo 
# Neste caso sendo `np`
import numpy as np

#### Criando listas/vetores/arrays

In [None]:
# Criando uma lista em python
lista = [1, 2, 10, 20, 34, 54]
print('lista', type(lista), lista)

In [None]:
vetor_numpy = np.array(lista)
print('vetor_numpy', type(vetor_numpy), vetor_numpy)

In [None]:
# Note que podemos criar objetos mais complexos, como matrizes multidimensionais
lista_de_lista = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]
bi_matrix = np.array(lista_de_lista)
print('bi_matrix', type(bi_matrix), bi_matrix)

In [None]:
# Podemos criar matrizes multidimensionais!
red = [
    [0, 25, 32],
    [0, 45, 51],
    [0, 0, 0]
]
blue = [
    [60, 71, 64],
    [100, 45, 21],
    [200, 180, 170]
]
green = [
    [255, 60, 70],
    [255, 42, 78],
    [21, 41, 54]
]

rgb = np.asarray([red, green, blue])
print(type(rgb))
print(rgb)


**Note o tipo do objeto, no caso do numpy ele é um ndarray (n-dimensional array)**



#### Propriedades de arrays

In [None]:
vetor_numpy = np.array([1, 2, 3, 4, 5])
print('Vetor ndim', vetor_numpy.ndim)   # Unidimensional
print('Vetor shape', vetor_numpy.shape) # 5 elementos
print('Vetor size', vetor_numpy.size)   # Número de elementos totais
print('-'*32)

print('Matriz bidimensional ndim', bi_matrix.ndim)   # Bidimensional
print('Matriz bidimensional shape', bi_matrix.shape) # (3, 3) elementos, (linha, coluna)
print('Matriz bidimensional size', bi_matrix.size)   # Número de elementos totais
print('-'*32)

print('Matriz tridimensional ndim', rgb.ndim)   # Bidimensional
print('Matriz tridimensional shape', rgb.shape) # (3, 3) elementos, (canal, linha, coluna)
print('Matriz tridimensional size', rgb.size)   # Número de elementos totais
print('-'*32)

Numpy arrays possuem um tamanho fixo na sua criação, ou seja, diferente das listas (que podem crescer dinamicamente). Ao modificar o tamanho do `ndarray` um novo array será criado e o array original será deletado.

**Cuidado com objetos mutáveis em Python (listas e arrays)!**

Há dois comportamentos, shalow copy e deep copy

Para saber mais temos [esse artigo](https://realpython.com/copying-python-objects/#:~:text=A%20shallow%20copy%20means%20constructing,of%20the%20child%20objects%20themselves.)

In [None]:
ds = ['Python', 'SQL', 'R']
web = ['HTML', 'CSS', 'JavaScript']

# Concatenando as listas com `+`
linguagens_mais = ds + web

print(f'''
Utilizando o operados "+"
ds [id:{id(ds)}]: {ds}
web [id: {id(web)}]: {web}
linguagens [id: {id(linguagens_mais)}]: {linguagens_mais}
''')

# Extendendo as listas com extend
linguagens_extend = ds
print(f'''
Antes de utilizar o extend
ds [id:{id(ds)}]: {ds}
web [id: {id(web)}]: {web}
linguagens [id: {id(linguagens_extend)}]: {linguagens_extend}
''')

linguagens_extend.extend(web)

print(f'''
Após utilizar o extend
ds [id:{id(ds)}]: {ds}
web [id: {id(web)}]: {web}
linguagens [id: {id(linguagens_extend)}]: {linguagens_extend}
''')

**No exemplo acima, ao utilizar o extend houve a mudança da lista original `ds`**

Para evitar esse comportamento precisamos alterar o endereço de memória, ou seja, realizar uma cópia profunda!

Para ser seguro utilizamos o `deepcopy`

In [None]:
from copy import deepcopy
ds = ['Python', 'SQL', 'R']
web = ['HTML', 'CSS', 'JavaScript']
linguagens_extend = deepcopy(ds)

print(f'''
Antes de utilizar o extend
ds [id:{id(ds)}]: {ds}
web [id: {id(web)}]: {web}
linguagens [id: {id(linguagens_extend)}]: {linguagens_extend}
''')

linguagens_extend.extend(web)

print(f'''
Após utilizar o extend
ds [id:{id(ds)}]: {ds}
web [id: {id(web)}]: {web}
linguagens [id: {id(linguagens_extend)}]: {linguagens_extend}
''')

Qual utilizamos o id, retornamos o id único do objeto. Podemos pensar como sendo o endereço de memória do objeto!

Por curiosidade, para economizar memória o Python muitas vezes aloca valores iguais no mesmo endereço de memória, por este motivo ocorreu o comportamento inesperado com a lista!

O mesmo ocorre com valores númericos, como no exemplo abaixo

In [None]:
var1 = 5
var2 = 5
print(var1 == var2)
# Com valores númericos o id é o mesmo (mesmo endereço de memória)
print(id(var1) == id(var2))

**No caso de ndarrays temos o mesmo efeito que as listas!**

In [None]:
# Criando um array
arr1 = np.array([1, 2, 3])
arr2 = arr1
print(f'arr1 <id>{id(arr1)}, {arr1}')
print(f'arr2 <id>{id(arr2)}, {arr2}')

Nesse caso se alterarmos o arr1 um valor do `arr1`, o `arr2` será alterado?

In [None]:
arr1[0] = 100
print(f'arr1 <id>{id(arr1)}, {arr1}')
print(f'arr2 <id>{id(arr2)}, {arr2}')

Para evitar podemos utilizar o `deepcopy` ou o método `copy` de arrays.

Note que o deepcopy sempre é o mais seguro!

In [None]:
arr1 = np.array([1, 2, 3])
arr2 = arr1.copy() # ou deepcopy(arr1)
print(f'arr1 <id>{id(arr1)}, {arr1}')
print(f'arr2 <id>{id(arr2)}, {arr2}')


arr1[0] = 100
print(f'arr1 <id>{id(arr1)}, {arr1}')
print(f'arr2 <id>{id(arr2)}, {arr2}')

### Criando vetores de zeros

In [None]:
n = 10
lista_zeros = [0] * n
print(f'lista_zeros, tamanho {len(lista_zeros)}, {lista_zeros}')

In [None]:
# Utilizando o numpy
zeros = np.zeros(n)
print(f'zeros, tamanho {len(zeros)}, {zeros}')

#### Criando vetores de uns

In [None]:
uns = np.ones(n)
print(f'uns, tamanho {len(uns)}, {uns}')

##### **DROPS**

Escreva um programa que crie um array de tamanho 100 e atualize os indices pares com o número do indice ao quadrado

Por exemplo:

`array(0, 0, 1, 0, 4, 0, 16, ...)`

Explicação
```
0 -> 0**2  -> 0
1 -> impar -> 0
2 -> 2**2  -> 4
3 -> impar -> 0
4 -> 4**2  -> 16
```

#### Criando ranges de números

In [None]:
# Da forma que já aprendemos
# início 0, fim 9 (10 - 1) e passo 2
list(range(0, 10, 2))

In [None]:
# Utilizando numpy
np.arange(0, 10, 2)

#### **Drops**

Escreva um programa que crie um array com números variando de 12 a 37

Por exemplo:

```
[12, 13, 14, ..., 37]
```

In [None]:
# Com numpy utilizamos a função `linspace`
np.linspace(0, 1, 21)

In [None]:
np.linspace(0, 1, 101)

#### Gerando números aleatórios

In [None]:
import random
# Gerando um número entre 0 e 99
print('Número', random.randint(0, 100))
type(random.randint(0, 100))

In [None]:
# Utilizando o numpy
print('Número (np)', np.random.randint(0, 100))
type(np.random.randint(0, 100))

In [None]:
# Gerando 10 números aleatórios
[random.randint(0, 100) for n in range(0, 10)]

In [None]:
# Gerando 10 inteiros aleatórios
np.random.randint(0, 100, 10)

In [None]:
%%time
# Tempo para gerar 5 milhões de números
_ = [random.randint(0, 100) for n in range(0, 5000000)]

In [None]:
%%time
# Tempo para gerar 5 milhões de números
np.random.randint(0, 100, 5000000)

**Drops**

Crie um array aleatório de 10.000 elementos as seguintes distribuições:
- [Normal](https://numpy.org/doc/stable/reference/random/generated/numpy.random.normal.html#) (média: 5, desvio: 10)
- [Poisson](https://numpy.org/doc/stable/reference/random/generated/numpy.random.poisson.html) (use lam (lambda) de 5)
- [Exponencial](https://numpy.org/doc/stable/reference/random/generated/numpy.random.gamma.html) (use scale: 5)

Casos de uso:
- Normal
  - Altura
  - Jogar um dado
  - Preço de ações
- Poisson
  - Número de clientes numa fila em um determinado tempo (uma hora por exemplo)
  - Número de inadiplências por mês
  - Venda de um item por mês
- Exponencial
  - Predizer quando um terremoto irá acontecer
  - Duração de uma ligação
  - Vendas esperadas ao abrir uma nova loja


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

sns.histplot(poisson, bins=20)
sns.histplot(normal, bins=25, color ='orange')
sns.histplot(exponential, bins=25, color='red')

#### Manipulando o formato de ndarrays
Podemos criar arrays multidimensionais de diversas formas

In [None]:
# Matriz 3x3 de 0
matriz_3x3 = np.zeros((3,3))
print(matriz_3x3)
matriz_2x3x3 = np.zeros((2, 3,3))
print(matriz_2x3x3)

In [None]:
vetor = np.arange(0, 12)
print(f'vetor, shape {vetor.shape}, {vetor}')

# Utilizando o reshape
matriz_3x4 = vetor.reshape(3, 4)
print(f'matriz_3x4, shape {matriz_3x4.shape},\n {matriz_3x4}')

In [None]:
# Ou podemos limitar uma dimensão
matriz_3x4.reshape(-1, 3) # Criando 3 colunas e n linhas


In [None]:
# Empilhando arrays
v1 = np.array([1, 2, 3])
v2 = np.array([4, 5, 6])
m1 = np.array([
    [7, 8, 9],
    [10, 11, 12]
    ]
)
m2 = np.zeros((2, 2))
# Empilhamento vertical
print(f'v1, shape {v1.shape}, {v1}')
print(f'v2, shape {v2.shape}, {v2}')
print(f'm1, shape {m1.shape},\n {m1}')
v1_v2 = np.vstack([v1, v2])
print(f'v1_v2, shape {v1_v2.shape},\n {v1_v2}')

np.vstack([v1, m1])

In [None]:
# Empilhamento horizontal
np.hstack([m1, m2])

#### Indexação


In [None]:
arr1 = np.random.randint(0, 100, 10000)
arr1

In [None]:
arr1[0]

In [None]:
arr1[1: 4]

In [None]:
fatia = arr1[3: 8]
fatia

In [None]:
mat = np.random.randint(0, 100, (3, 3))
mat

In [None]:
# Pegando a primeira linha
print(mat[0])
print('-'*20)
# As duas últimas linhas
print(mat[-2:])
print('-'*20)
# A primeira coluna
print(mat[:, 0])
print('-'*20)
# As duas primeiras colunas
print(mat[:, :2])
print('-'*20)

# As duas últimas colunas e linhas
print(mat[-2:, -2:])
print('-'*20)

# Podemos filtrar usando os indices
# Pegando a primeira e terceira linha
print(mat[[0,2], :])
print('-'*20)
# Pegando a primeira e terceira coluna
print(mat[:,[0,2]])
print('-'*20)

**Drops**

Crie uma matriz 10x8.

Pegue apenas as linhas cujo indices são pares (0, 2, etc) e cuja colunas sejam impares (1, 3, etc).

Dica: Utilize primeiro o slice por linhas e depois por coluna!

Não faça algo do tipoe `mat[[0,2], [1,3]]`, prefira

```
res = mat[[0,2], :]
mat_final = res[:, [0,2]]
```

In [None]:
# Linha para permitir a reprodutibilidade do exercício
np.random.seed(0)



#### Operações

In [None]:
arr = np.random.randint(0, 100, 10000)
# Para transformar em uma lista Python
lista = list(arr)
print(lista)
# Ou utilizamos o tolist
lista = arr.tolist()
print(lista)

**Multiplicando cada elemento do array**

In [None]:
%%time
n = 20
lista_20 = list(map(lambda x: x*n, lista))

In [None]:
%%time
lista_20 = [x*n for x in lista]

In [None]:
%%time
arr_20 = arr * 20

**Soma, divisão, etc**

In [None]:
# Somando constante
print(arr + 20)
# Subtraindo constante
print(arr - 100)
# Divisão constante
print(arr / 100)
# Log (utilizando np.log)
print(np.log(arr+0.00001))
# Exponencial
print(np.square(arr))
print(arr**2)
# Raiz quadrada
print(np.sqrt(arr))

As mesmas operações valem para matrizes

In [None]:
mat = np.random.randint(0, 100, (3, 5))
mat

In [None]:
# Somando constante
print(mat + 20)
# Subtraindo constante
print(mat - 100)
# Divisão constante
print(mat / 100)
# Log (utilizando np.log)
print(np.log(mat+0.00001))
# Exponencial
print(np.square(mat))
print(mat**2)
# Raiz quadrada
print(np.sqrt(mat))

**Métodos práticos**

In [None]:
mat

In [None]:
# Valor máximo de todos os elementos
print('Max value', mat.max())
# Valor máximo por coluna
print('Max col', mat.max(axis=0))
# Valor máximo por linha
print('Max row', mat.max(axis=1))

O `axis` parece confuso já que a linha é o `axis=0`.

Entretanto, quando realizamos a operação `mat.sum(axis=0)` retornamos a soma por coluna, por que isso acontece?

Dentro do numpy, essa dimensão será colapsada e deletada, por este motivo deixamos de ter a dimensão `0`(linhas) ficando apenas com as colunas!

In [None]:
# Indice cujo valor é o máximo
print('Max value', mat.argmax())
# Indice cujo valor é o máximo por coluna
print('Max col', mat.argmax(axis=0))
# Indice cujo valor é o máximo por linha
print('Max row', mat.argmax(axis=1))

In [None]:
# Valor minimo de todos os elementos
print('Min value', mat.min())
# Valor máximo por coluna
print('Min col', mat.min(axis=0))
# Valor máximo por linha
print('Min row', mat.min(axis=1))

In [None]:
# Indice cujo valor é o minimo
print('Min value', mat.argmin())
# Indice cujo valor é o minimo por coluna
print('Min col', mat.argmin(axis=0))
# Indice cujo valor é o minimo por linha
print('Min row', mat.argmin(axis=1))

In [None]:
# Soma total
print('Total value', mat.sum())
# Soma por coluna
print('Total col', mat.sum(axis=0))
# Soma por coluna
print('Total row', mat.sum(axis=1))

In [None]:
# Média total
print('Mean value', mat.mean())
# Média por coluna
print('Mean col', mat.mean(axis=0))
# Média por coluna
print('Mean row', mat.mean(axis=1))

In [None]:
# Desvio padrão total
print('Mean value', mat.std())
# Desvio padrão por coluna
print('Mean col', mat.std(axis=0))
# Desvio padrão por coluna
print('Mean row', mat.std(axis=1))

In [None]:
# Podemos pegar o número de linhas e colunas da seguinte forma
# Utilizando o unpacking
rows, cols = mat.shape
print(f'Número de linhas {rows}')
print(f'Número de colunas {cols}')

**Desafio**

Pegue a lista abaixo de notas por aluno e calcule:
- média por aluno
- média por prova
- Desvio padrão por aluno
- Desvio padrão por prova
- Calcule os quantis 25, 50, 75 por aluno
- Calcule os quantis 25, 50, 75 por prova

Considerando que a média para ser aprovado é $5$, diga quais alunos (indices) foram aprovados. Além disso diga a quantidade de alunos aprovados e a sua porcentagem

Por fim execute um teste de hipótese para verificar se as notas de cada prova seguem uma distribuição normal (código disponível). Comente o que achou desse teste, e quais as conclusões

Dicas:
- Utilize a função [`np.quantile`](https://numpy.org/doc/stable/reference/generated/numpy.quantile.html#numpy.quantile)

Extra:
- Quais outras análises você faria?

In [None]:
prova1 = [ 7.32310699,  9.53815353,  4.67334801,  6.59830925,  6.66911822,
        1.77222727,  6.43684924,  5.43160477,  5.68826716,  8.08642338,
        1.0484659 ,  3.92952847,  6.50989246,  2.50691336,  3.44837851,
        5.36087258,  4.1607412 ,  8.16816087,  5.74915158,  6.81928442,
        5.78928423,  5.90857783,  4.76342497,  7.55418044,  6.77148876,
        2.01707694,  6.77867453,  6.89171555,  4.82658369,  7.70076362,
        4.48058631,  5.62032984,  8.67456615,  4.98242627,  6.57045975,
        4.10097055,  6.71796888,  6.13668877,  6.05985766,  6.02895155,
        9.7569509 ,  8.38657445,  8.21004194,  4.63615177,  6.61371496,
        4.9101586 ,  5.08166831,  4.02027733,  6.16362433,  4.15501069,
        4.49508256,  3.27892403,  3.03611322,  3.27375519,  5.28128231,
        5.85303752,  8.49750499,  5.16446418,  1.72850909,  2.03939026,
        7.56084931,  4.1333252 ,  4.60506328,  4.3076715 ,  9.24445958,
        5.90639065,  3.9523371 ,  7.35423713,  6.25553193,  6.86909983,
        4.42940802,  8.41764679,  6.61170966,  3.36589986,  5.3865782 ,
        4.42790597,  7.67905478,  5.74486493,  3.0210713 ,  2.10366003,
        5.9001788 ,  4.03096928,  8.08990797, 10.        ,  8.82667933,
        5.92949768,  5.83254006,  6.38697389,  4.69459527,  6.39838523,
        5.67991139,  0.93141126,  4.39835283,  6.11818097,  5.49677715,
        6.69772736,  9.46427727,  5.24208651,  8.4100053 ,  8.59941824]
prova2 = [ 3.86586422,  5.26894331,  6.31900481,  2.58493657, 10.        ,
        6.34665066,  6.82581122,  3.00438801, 10.        , 10.        ,
       10.        ,  7.31735866,  5.831104  ,  2.98166861,  4.61025961,
        3.15287741,  6.25096741,  8.12234798,  5.69771246,  0.75591952,
        8.72745257,  6.08407841,  5.21078521,  2.96522826, 10.        ,
       10.        ,  4.78343523, 10.        ,  7.25257786, 10.        ,
        4.58105557, 10.        ,  2.80986267, 10.        ,  3.94852279,
        5.43455643,  3.34353164,  1.4052814 ,  2.8684444 , 10.        ,
        3.23324882,  2.56830893, 10.        ,  6.23293846,  4.95740421,
        0.82258908,  8.24300277, 10.        ,  4.04981569,  2.50954976,
        3.85325349,  9.07507697,  2.90281051,  5.57813293,  7.9142119 ,
        2.11802407,  9.66358214,  3.46919201,  3.78690434,  7.20733693,
        5.97441787,  2.03188462,  8.21979382,  4.83739141,  7.57396101,
        9.45448236,  4.98550558,  7.80871829,  9.9060318 ,  8.52904802,
        2.11349418,  7.38857237, 10.        ,  3.80678808, 10.        ,
        4.57788463,  3.84139089,  9.43204842,  7.81033157,  3.5098406 ,
        6.8072703 ,  3.92218258, 10.        ,  2.42707477,  5.89068072,
       10.        ,  2.83580732, 10.        ,  5.56408124,  5.88092815,
        6.29655882, 10.        ,  2.56469929,  2.29020154, 10.        ,
        9.90566998,  5.39044373,  1.70263851,  8.41427847,  4.11856827]
prova3 = [ 6.0397507 ,  1.42758776,  1.68758623,  0.91323371,  5.68435676,
        1.09500724,  1.26344938,  2.70028337,  0.85173695,  1.04351072,
       10.        ,  6.47959549,  1.2512433 ,  4.80403122,  1.81182283,
        2.21371919,  4.89478956,  6.54842281,  1.22367174,  0.76344403,
        2.31855296,  1.15926703,  6.51540784,  0.7400826 ,  1.58270615,
        0.85871609,  0.13482385,  3.50788938,  6.05712552,  6.80902627,
        4.66503693,  5.75545349,  2.34482129,  0.48553074,  1.27016792,
        3.2906171 , 10.        ,  4.55726513,  0.81727528,  2.498553  ,
        7.26586947,  0.40711405,  0.3298744 , 10.        ,  8.26779967,
        2.23897715,  5.15003198,  6.13644229,  1.60405181,  2.29246806,
        7.88342556,  0.05383723,  1.65182029, 10.        ,  2.45158052,
        2.07959184,  0.13234637,  5.22031833, 10.        ,  4.78589039,
        4.28469673, 10.        ,  0.66910424,  0.43945092,  4.62847799,
        0.30599809,  9.58022274,  4.61891776,  5.9770302 ,  9.13004073,
        0.34504645,  1.64374136,  3.2312216 ,  7.69209464,  3.24761461,
        3.41467533,  3.40437786,  4.38337641,  5.1508133 ,  4.63401958,
        0.59473791, 10.        ,  7.64282232,  2.55936951,  4.12515056,
        1.24403381,  7.08569765,  3.67544459,  1.21855821,  7.35122313,
        0.41457172,  1.17833162,  1.64644444,  0.53046253,  2.49672963,
        5.80514786,  2.09146878,  4.74818797,  0.86284908,  7.01854907]
notas = np.asarray([prova1, prova2, prova3])

np.clip(np.random.normal(5.5, 2, 100), 0, 10)

In [None]:
# Média por aluno
print('Média por aluno')

# Média por prova
print('Média por prova')

# Desvio padrão por aluno
print('Desvio padrão da nota por aluno')

# Desvio padrão por prova
print('Desvio padrão da nota por prova')

# Quantis 25, 50, 75 por aluno
print(f'Quantil 25 {...}, quantil 50 {...}, quantil 75 {...} por aluno')

# Quantis 25, 50, 75 por prova
print(f'Quantil 25 {...}, quantil 50 {...}, quantil 75 {...} por prova')

# Quais alunos (indices) foram aprovados (nota >=5)
print('Os seguintes alunos foram aprovados')

# Quantos alunos foram aprovados (`int`)
print(f'{...} alunos foram aprovados')
# Porcentagem de alunos aprovados (`float`)
print('Porcentagem de alunos aprovados')

# ---------

# D'Agostino and Pearson's Test
from scipy.stats import normaltest
# Teste de normalidade
stats, p_values = normaltest(notas, axis=1)
for stat, p_value in zip(stats, p_values):
  print(f'Statistics={stat:.3f}, p={p_value:.3f}')
  alpha = 0.05
  if p_value > alpha:
      print('A amostra parece normal (hipótese nula aceita)')
  else:
      print('A amostra não parece normal (hipótese nula rejeitada)')

