# Numpy
___

Numpy (*numeric python*) é uma biblioteca usada principlamente para operações com ```arrays```. Arrays são como listas, mas que permitem uma série de operações mais complexas e que estas sejam feitas elemento a elemento eliminando a necessidade de loops no nosso código. Ela é a principal biblioteca utilizada por outras bibliotecas para lidar com dados, mais notoriamente o scikit-learn e o pandas trabalham com arrays a todo momento. Além disso, o numpy possui um conjunto vasto de funções para algebra linear, estatística e operações com matrizes.

Vamos iniciar vendo o quanto um array pode ser mais poderoso que uma lista.

In [1]:
lista_alturas = [1.4, 1.57, 1.87, 1.77, 1.71, 1.69, 1.93, 1.55]
lista_pesos = [55, 65, 87, 90, 78, 65, 57, 60]

In [3]:
imcs = []

for peso,altura in zip(lista_pesos,lista_alturas):
    imc = peso/(altura**2)
    imcs.append(imc)

imcs

[28.061224489795922,
 26.370238143535232,
 24.879178701135288,
 28.72737719046251,
 26.674874320303687,
 22.758306781975424,
 15.302424226153724,
 24.97398543184183]

In [4]:
lista_alturas / (lista_pesos**2)

TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int'

É possível efetuar a mesma operação sem a necessidade de syntaxe adicionais que remetem a loops, basta utilizarmos ```arrays```. Para criar um array no numpy, basta utilizar a função ```.array()```.

In [5]:
import numpy as np

In [6]:
## criando os arrays

pesos = np.array(lista_pesos)
alturas = np.array(lista_alturas)

In [7]:
pesos

array([55, 65, 87, 90, 78, 65, 57, 60])

In [8]:
alturas

array([1.4 , 1.57, 1.87, 1.77, 1.71, 1.69, 1.93, 1.55])

In [9]:
## tipo

type(pesos)

numpy.ndarray

In [32]:
imcs = pesos / (alturas**2)
imcs

array([28.06122449, 26.37023814, 24.8791787 , 28.72737719, 26.67487432,
       22.75830678, 15.30242423, 24.97398543])

Perceba que o próprio numpy já se encarregou de fazer as operações elemento a elemento de cada array e como resultado nos foi dado também um array.

O numpy é rápido! Mas ele funciona bem porque assume que todos os dados em seus arrays tem o mesmo tipo. Se você tentar criar um array com vários tipos de dados é provável que o numpy transforme todos os elementos em strings.

Todos os arrays possuem características e funções que são importantes em situações do dia-a-dia.

In [33]:
pesos

array([55, 65, 87, 90, 78, 65, 57, 60])

In [34]:
## size nos dá a quantidade de elementos dentro de um array

pesos.size

8

In [35]:
## shape nos dá o formato de um array, nesta situação o array possui somente uma dimensão com 8 valores

pesos.shape

(8,)

In [36]:
## min nos dá o valor mínimo dentro do array

pesos.min()

55

In [37]:
## max nos dá o valor máximo dentro do array

pesos.max()

90

In [38]:
## argmin nos dá a posição do valor mínimo

pesos.argmin()

0

In [39]:
## argmin nos dá a posição do valor máximo

pesos.argmax()

3

In [40]:
## dtype nos dá o tipo do dado que está contido no array

pesos.dtype

dtype('int64')

# Operações com arrays
___

O comportamento das operações básicas são diferentes de acordo com o tipo de dado utilizado, por exemplo, operações com listas tem um comportamento diferentes de operações com arrays.

In [41]:
## o operador '+' concatena listas
ls  = [1,2,3,4]
ls2 = [5,6,7,8]

ls+ls2

[1, 2, 3, 4, 5, 6, 7, 8]

In [42]:
## o operador '+' soma os valores de dois arrays

arr  = np.array(ls)
arr2 = np.array(ls2)

arr+arr2

array([ 6,  8, 10, 12])

In [43]:
## subtração

arr-arr2

array([-4, -4, -4, -4])

In [44]:
## multiplicação

arr*arr2

array([ 5, 12, 21, 32])

In [45]:
## potenciação

arr**arr2

array([    1,    64,  2187, 65536])

In [46]:
## incremento

arr += arr2

In [47]:
arr -= arr2
arr

array([1, 2, 3, 4])

Também é possível mesclar operações de arrays com valores inteiros.

In [48]:
arr2

array([5, 6, 7, 8])

In [49]:
arr2*2

array([10, 12, 14, 16])

In [50]:
arr2**2

array([25, 36, 49, 64])

In [51]:
arr2/10

array([0.5, 0.6, 0.7, 0.8])

# Indexação de arrays
___

Indexar arrays é tão simples quanto indexar listas, porém arrays também recebem outros arrays booleanos para seleção e filtragem de vários valores ao mesmo tempo.

In [52]:
imcs

array([28.06122449, 26.37023814, 24.8791787 , 28.72737719, 26.67487432,
       22.75830678, 15.30242423, 24.97398543])

In [53]:
imcs[imcs.argmax()]

28.72737719046251

In [54]:
imcs[1:4]

array([26.37023814, 24.8791787 , 28.72737719])

Caso seja necessário selecionar somente os valores abaixo de 24 é possível utilizar arrays booleanos para isso, basta criar uma condição lógica e aplicar o resultado ao indexador do array original.

In [55]:
imcs

array([28.06122449, 26.37023814, 24.8791787 , 28.72737719, 26.67487432,
       22.75830678, 15.30242423, 24.97398543])

In [56]:
## criando a condição lógica

imcs < 24

array([False, False, False, False, False,  True,  True, False])

In [57]:
## passando ao array original

imcs[imcs<24]

array([22.75830678, 15.30242423])

AND -> & <br>
OR -> | <br>
NOT -> ~ <br>

In [58]:
mascara = (imcs < 24)

print(imcs < 24)

[False False False False False  True  True False]


In [59]:
imcs[mascara]

array([22.75830678, 15.30242423])

Existem somente dois imcs abaixo de 24, logo o array com o resultado da condição lógica possue somente dois valores ```True``` nas suas respectivas posições.

# Arrays de duas dimensões
___

Arrays podem possuir mais de uma dimensão, isso significa que podem ter mais de um conjunto de informações. Até agora vimos alturas e pesos divididos em 2 arrays, cada peso e altura está associado a uma pessoa, porém, é possivel criar somente um array que demonstre as duas dimensões (pessoas e caractéristicas)

In [60]:
pesos

array([55, 65, 87, 90, 78, 65, 57, 60])

In [61]:
alturas

array([1.4 , 1.57, 1.87, 1.77, 1.71, 1.69, 1.93, 1.55])

In [62]:
novo_arr = np.array([[55.  ,  1.4 ],
                    [65.  ,  1.57],
                    [87.  ,  1.87],
                    [90.  ,  1.77],
                    [78.  ,  1.71],
                    [65.  ,  1.69],
                    [57.  ,  1.93],
                    [60.  ,  1.55]])

Veja que nesse novo array mudadmos a forma de pensar e agora temos um array contendo pessoas na primeira dimensão e na segunda dimensão as características de peso e altura de cada uma das pessoas.

In [63]:
type(novo_arr)

numpy.ndarray

In [64]:
novo_arr.size

16

In [65]:
novo_arr.shape

(8, 2)

![](https://i.stack.imgur.com/NWTQH.png)

In [66]:
novo_arr

array([[55.  ,  1.4 ],
       [65.  ,  1.57],
       [87.  ,  1.87],
       [90.  ,  1.77],
       [78.  ,  1.71],
       [65.  ,  1.69],
       [57.  ,  1.93],
       [60.  ,  1.55]])

O array ```novo_arr``` possui um shape (8,2), ou seja, 16 de tamanho (size). É possível modificar o shape desse array para qualquer outro shape que também resulte em um size de 16. Para isso, bata utilizar a função ```reshape```.

In [107]:
## (8,2) -> (4,4)

novo_arr.reshape(4,4)

array([[55.  ,  1.4 , 65.  ,  1.57],
       [87.  ,  1.87, 90.  ,  1.77],
       [78.  ,  1.71, 65.  ,  1.69],
       [57.  ,  1.93, 60.  ,  1.55]])

In [108]:
## (8,2) -> (2,8)

novo_arr.reshape(2,8)

array([[55.  ,  1.4 , 65.  ,  1.57, 87.  ,  1.87, 90.  ,  1.77],
       [78.  ,  1.71, 65.  ,  1.69, 57.  ,  1.93, 60.  ,  1.55]])

In [109]:
## (8,2) -> (1,16)

novo_arr.reshape(1,16)

array([[55.  ,  1.4 , 65.  ,  1.57, 87.  ,  1.87, 90.  ,  1.77, 78.  ,
         1.71, 65.  ,  1.69, 57.  ,  1.93, 60.  ,  1.55]])

Também é possível utilizar o valor ```-1``` em alguma das dimensões na operação de reshape para "completar" o array até um size aceitável.

In [112]:
novo_arr.reshape(-1,1)

array([[55.  ],
       [ 1.4 ],
       [65.  ],
       [ 1.57],
       [87.  ],
       [ 1.87],
       [90.  ],
       [ 1.77],
       [78.  ],
       [ 1.71],
       [65.  ],
       [ 1.69],
       [57.  ],
       [ 1.93],
       [60.  ],
       [ 1.55]])

In [113]:
novo_arr.size

16

O ```novo_arr``` possui agora duas dimensões: a primeira possui 8 elementos e a segunda possui 2 elementos. O que significa que temos um tamanho (size) de 16. Também é comum utilizar esse formato de array para representar ```matrizes```.

Executar a indexação e fatiamento de arrays de duas dimensões é um pouco mais complexo, pois é necessário enviar ao indexador ```[]``` um índice para uma das dimensões, ou seja, duas dimensões, dois índices. Para exemplificar, veja o array ```jogadores``` contendo a altura e peso dos jogadores da NBA.

In [67]:
jogadores = np.load('data/jogadores_nba.npy')
jogadores

array([[213.36    , 106.59412 ],
       [210.82    , 106.59412 ],
       [208.28    , 106.59412 ],
       ...,
       [195.58    ,  97.52228 ],
       [203.2     ,  98.883056],
       [203.2     , 106.59412 ]])

In [119]:
## verificando o tamanho do array jogadores

jogadores.size

23400

In [120]:
## verificando o formato

jogadores.shape

(11700, 2)

Existem nesse array, informações de duas características (altura e peso) de mais de 11700 atletas. Para selecionar somente o peso do segundo atleta do array é necessário utilizar uma indexação complexa.

In [71]:
jogadores[1,1]

106.59412

Acima selecionamos o índice desejado em cada uma das dimensões.O primeiro número 1 significa que gostaríamos de acessar as informações do segundo jogador, e o segundo número 1 significa que gostaríamos de acessar a segunda característica dele (peso). Também é possível utilizar o ```:``` para indicar todas as informações de uma determinada dimensão.

In [72]:
## selecionando a altura de todos os jogadores

jogadores[:,0]

array([213.36, 210.82, 208.28, ..., 195.58, 203.2 , 203.2 ])

In [73]:
## selecionando o peso de todos os jogadores

jogadores[:,1]

array([106.59412 , 106.59412 , 106.59412 , ...,  97.52228 ,  98.883056,
       106.59412 ])

É possível criar também condições lógicas e aplica-las a cada uma das dimensões necessárias.

In [74]:
## selecionando jogadores que possuem um peso menor que 100 kilos

jogadores[jogadores[:,1] < 100]

array([[208.28    ,  99.79024 ],
       [182.88    ,  81.64656 ],
       [190.5     ,  83.91452 ],
       ...,
       [200.66    ,  99.79024 ],
       [195.58    ,  97.52228 ],
       [203.2     ,  98.883056]])

In [75]:
## selecionando jogadores que possuem altura maior que 200 e peso menor que 100 kilos

jogadores[(jogadores[:,0] > 200) & (jogadores[:,1] < 100)]

array([[208.28    ,  99.79024 ],
       [205.74    ,  99.79024 ],
       [200.66    ,  95.25432 ],
       ...,
       [200.66    ,  92.98636 ],
       [200.66    ,  99.79024 ],
       [203.2     ,  98.883056]])

Utilizando esse método de indexação também é possível executar operações.

In [78]:
jogadores[jogadores[:,1] < 80].shape

(505, 2)

# Funções estatísticas
___

Em seu dia-a-dia, um cientista de dados trabalho com vários conjuntos de milhares, milhões e até bilhões de observações, entender algumas características desses dados é de extrema importância para etapas inferenciais e descritivas. O numpy oferece um conjunto de funções estatísticas para nos ajudar a descrever melhor nossos conjuntos de dados.

In [79]:
jogadores = np.load('data/jogadores_nba.npy')
jogadores

array([[213.36    , 106.59412 ],
       [210.82    , 106.59412 ],
       [208.28    , 106.59412 ],
       ...,
       [195.58    ,  97.52228 ],
       [203.2     ,  98.883056],
       [203.2     , 106.59412 ]])

In [80]:
## média

np.mean(jogadores[:,0])

200.72850085470085

In [81]:
## outra forma de calcular média

jogadores[:,0].mean()

200.72850085470085

In [82]:
## mediana

np.median(jogadores[:,0])

200.66

In [83]:
## variância

jogadores[:,0].var()

84.07854288076851

In [84]:
## desvio padrão

jogadores[:,0].std()

9.16943525418924

In [85]:
## correlação

np.corrcoef(jogadores[:,0],jogadores[:,1])

array([[1.        , 0.82730131],
       [0.82730131, 1.        ]])

In [86]:
## percentil

np.quantile(jogadores[:,0],0.75)

208.28

## Exercicio

1. Descobrir o z-score dos pesos e alturas de cada jogador. Utilize a formula abaixo:

![](https://toptipbio.com/wp-content/uploads/2020/02/Z-score-formula.jpg)

2. Quantos jogadores estão acima da média de peso?
3. Quantos jogadores estão abaixo da média de altura?