# Computations with numpy

## The slowness of loops

In [1]:
import numpy as np
np.random.seed(0)

def compute_reciprocals(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    return output
        
values = np.random.randint(1, 10, size=5)
compute_reciprocals(values)

array([0.16666667, 1.        , 0.25      , 0.25      , 0.125     ])

In [2]:
big_array = np.random.randint(1, 100, size=1000000)
%timeit compute_reciprocals(big_array)

1.41 s ± 31.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [3]:
print(compute_reciprocals(values))
print(1.0 / values)

[0.16666667 1.         0.25       0.25       0.125     ]
[0.16666667 1.         0.25       0.25       0.125     ]


In [4]:
%timeit (1.0 / big_array)

3.49 ms ± 365 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [5]:
x = np.arange(5)
y = np.arange(1, 6)

print(x)
print(y)
print(x/y)

[0 1 2 3 4]
[1 2 3 4 5]
[0.         0.5        0.66666667 0.75       0.8       ]


In [6]:
x = np.arange(9).reshape((3, 3))
2 ** x

array([[  1,   2,   4],
       [  8,  16,  32],
       [ 64, 128, 256]], dtype=int32)

## Basic Ufuncs

|Operator|	Equivalent ufunc |	Description |
|---:|:-------------| :-------------|
|+ |	np.add|	Addition (e.g., 1 + 1 = 2) |
|- |	np.subtract |	Subtraction (e.g., 3 - 2 = 1) |
|- |	np.negative |	Unary negation (e.g., -2) |
|* |	np.multiply |	Multiplication (e.g., 2 * 3 = 6)|
|/ |	np.divide |	Division (e.g., 3 / 2 = 1.5)|
|// |	np.floor_divide |	Floor division (e.g., 3 // 2 = 1)|
|** |	np.power |	Exponentiation (e.g., 2 ** 3 = 8)|
|% |	np.mod |	Modulus/remainder (e.g., 9 % 4 = 1)|

## Agreggates

In [13]:
x = np.arange(1, 10)
print(x)
print(np.add.reduce(x))

[1 2 3 4 5 6 7 8 9]
45


In [14]:
np.multiply.reduce(x)

362880

In [15]:
np.add.accumulate(x)

array([ 1,  3,  6, 10, 15, 21, 28, 36, 45])

In [16]:
np.multiply.accumulate(x)

array([     1,      2,      6,     24,    120,    720,   5040,  40320,
       362880])

In [17]:
x = np.arange(1, 6)
np.multiply.outer(x, x)

array([[ 1,  2,  3,  4,  5],
       [ 2,  4,  6,  8, 10],
       [ 3,  6,  9, 12, 15],
       [ 4,  8, 12, 16, 20],
       [ 5, 10, 15, 20, 25]])

In [18]:
L = np.random.random(100)
sum(L)

50.461758453195614

In [19]:
np.sum(L)

50.46175845319564

In [20]:
big_array = np.random.rand(1000000)
%timeit sum(big_array)
%timeit np.sum(big_array)

61.1 ms ± 976 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
1.18 ms ± 30 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [21]:
min(big_array), max(big_array)

(7.071203171893359e-07, 0.9999997207656334)

In [22]:
np.min(big_array), np.max(big_array)

(7.071203171893359e-07, 0.9999997207656334)

In [23]:
%timeit min(big_array)
%timeit np.min(big_array)

56.1 ms ± 15.9 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
469 µs ± 35.1 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [24]:
print(big_array.min(), big_array.max(), big_array.sum())

7.071203171893359e-07 0.9999997207656334 500216.8034810001


## Multi-dimensional aggregates

In [42]:
M = np.random.randint(0,9,(3,4))
print(M)

[[4 3 7 3]
 [2 7 5 2]
 [7 7 3 7]]


In [43]:
M.sum()

57

In [44]:
M.sum(axis=0)

array([13, 17, 15, 12])

In [45]:
M.sum(axis=1)

array([17, 16, 24])

In [46]:
M.min()

2

In [47]:
M.min(axis=0)

array([2, 3, 3, 2])

## Other aggregates

|Function Name|	NaN-safe Version|	Description|
|:-----|:----------|:-------------|
|np.sum|	np.nansum|	Compute sum of elements|
|np.prod|	np.nanprod|	Compute product of elements|
|np.mean|	np.nanmean|	Compute mean of elements|
|np.std|	np.nanstd|	Compute standard deviation|
|np.var|	np.nanvar|	Compute variance|
|np.min|	np.nanmin|	Find minimum value|
|np.max|	np.nanmax|	Find maximum value|
|np.argmin|	np.nanargmin|	Find index of minimum value|
|np.argmax|	np.nanargmax|	Find index of maximum value|
|np.median|	np.nanmedian|	Compute median of elements|
|np.percentile|	np.nanpercentile|	Compute rank-based statistics of elements|
|np.any|	N/A|	Evaluate whether any elements are true|
|np.all|	N/A|	Evaluate whether all elements are true|

## Logical operations

In [71]:
x = np.array([1, 2, 3, 4, 5])

In [72]:
x < 3  # less than

array([ True,  True, False, False, False])

In [73]:
x > 3  # greater than

array([False, False, False,  True,  True])

In [75]:
x <= 3  # less than or equal

array([ True,  True,  True, False, False])

In [76]:
x != 3  # not equal

array([ True,  True, False,  True,  True])

In [77]:
x == 3  # equal

array([False, False,  True, False, False])

In [78]:
(2 * x) == (x ** 2)

array([False,  True, False, False, False])

In [81]:
rng = np.random.RandomState(0)
x = rng.randint(10, size=(3, 4))
x

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

In [82]:
x < 6

array([[ True,  True,  True,  True],
       [False, False,  True,  True],
       [ True,  True, False, False]])

In [83]:
# how many values less than 6?
np.count_nonzero(x < 6)

8

In [84]:
np.sum(x < 6)

8

In [85]:
# how many values less than 6 in each row?
np.sum(x < 6, axis=1)

array([4, 2, 2])

In [86]:
# are there any values greater than 8?
np.any(x > 8)

True

In [87]:
np.any(x < 0)

False

In [88]:
np.all(x == 6)

False

In [89]:
np.all(x >= 0)

True

In [90]:
np.all(x < 8, axis=1)

array([ True, False,  True])

## Exercícios

1. Crie um array numpy de forma (3, 3) com elementos aleatórios entre 1 e 10. Em seguida, calcule a média dos elementos desse array.
2. Crie um array numpy de forma (4, 4) com elementos aleatórios entre 1 e 100. Em seguida, calcule a soma de todos os elementos do array.
3. Crie um array numpy de forma (5, 5) com elementos aleatórios entre 1 e 10. Em seguida, calcule a soma dos elementos em cada coluna do array.
4. Crie um array numpy de forma (2, 3, 4) com elementos aleatórios entre 1 e 10. Em seguida, calcule a média dos elementos em cada dimensão do array.

### Desafio

Análise de dados meteorológicos: Suponha que você tenha dados de temperatura em um array numpy de forma (360, 24), onde cada linha representa um dia do ano e cada coluna representa uma hora do dia (assumindo que todos os mese tem 30 dias). 
1. Gere os dados de forma aleatória utilizando números inteiros entre 20 e 40. 
2. Use numpy para calcular a temperatura média e a temperatura mais alta para cada mês. 
3. Conte em quantos dias por mês a temperatura foi maior do que 30 graus.

In [63]:
import numpy as np

# Cria um array numpy de temperatura aleatório
temperatura = np.random.randint(low=20, high=40, size=(360, 24))

# Calcula a temperatura média para cada mês
media_mensal = np.mean(temperatura.reshape(12, 24*30), axis=1)

# Calcula a temperatura máxima para cada mês
max_mensal = np.max(temperatura.reshape(12, 24*30), axis=1)

# Exibe a temperatura média e máxima para cada mês
meses = ['Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun', 'Jul', 'Ago', 'Set', 'Out', 'Nov', 'Dez']
for i in range(12):
    print(f'Temperatura média para {meses[i]}: {media_mensal[i]:.2f}°C')
    print(f'Temperatura máxima para {meses[i]}: {max_mensal[i]}°C')

Temperatura média para Jan: 29.66°C
Temperatura máxima para Jan: 39°C
Temperatura média para Fev: 29.46°C
Temperatura máxima para Fev: 39°C
Temperatura média para Mar: 29.41°C
Temperatura máxima para Mar: 39°C
Temperatura média para Abr: 29.52°C
Temperatura máxima para Abr: 39°C
Temperatura média para Mai: 29.57°C
Temperatura máxima para Mai: 39°C
Temperatura média para Jun: 29.90°C
Temperatura máxima para Jun: 39°C
Temperatura média para Jul: 29.34°C
Temperatura máxima para Jul: 39°C
Temperatura média para Ago: 29.60°C
Temperatura máxima para Ago: 39°C
Temperatura média para Set: 29.70°C
Temperatura máxima para Set: 39°C
Temperatura média para Out: 29.36°C
Temperatura máxima para Out: 39°C
Temperatura média para Nov: 29.79°C
Temperatura máxima para Nov: 39°C
Temperatura média para Dez: 29.63°C
Temperatura máxima para Dez: 39°C
