<a href="https://colab.research.google.com/github/fhsmartins/MBA/blob/main/Aula01/17_numpy_broadcasting_reducoes_ordenacao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color="red"> MBA em IA e Big Data</font>
## <span style="color:red">Linguagens e Ferramentas para Inteligência Artificial e Big Data (Python e SQL)</span>

### <span style="color:darkred">Python - Aula 17</span>

*Leandro Franco de Souza*<br>
*ICMC/USP São Carlos*

*(com material dos Profs. Moacir Antonelli Ponti e Luis Gustavo Nonato)*

# <font color="red"> Conteúdo:</font>

### <span style="color:red">- Modulo: Numpy</span>
### <span style="color:red">- *Broadcasting*</span>
### <span style="color:red">- Operadores relacionais</span>
### <span style="color:red">- Redução</span>
### <span style="color:red">- Ordenação (*sort*)</span>
### <span style="color:red">- Aritmética vetorial e matricial</span>

# Broadcasting (extensão)

Garante eficiência computacional por extensão de arrays
- operações aritméticas: soma, subtração, multiplicação e divisão) são feitas elemento a elemento (*element-wise*)
- __broadcasting__ transforma os operandos de modo que tenham as mesmas dimensões

### Operações entre um array e um escalar

Ao operar um escalar `s` e um array `A`, `numpy` replica o escalar em um array com a mesma dimensão de A

Abaixo, a matriz `A` é somada com o escalar `3`.

O __broadcasting__ replica o escalar um array 5x5 e então os dois arrays são somados elemento a elemento.
```python
A = np.arange(25).reshape(5,5) # matriz 5x5
s = 3                          # escalar
B = s+A                        # matriz 5x5
```
$$
B = s + A = \left[\begin{array}{ccccc}
3 & 3 & 3 & 3 & 3\\
3 & 3 & 3 & 3 & 3\\
3 & 3 & 3 & 3 & 3\\
3 & 3 & 3 & 3 & 3\\
3 & 3 & 3 & 3 & 3
\end{array}\right] +
\left[\begin{array}{ccccc}
0  & 1 & 2 & 3 & 4 \\
5  & 6 & 7 & 8 & 9\\
10 & 11 & 12 & 13 & 14\\
15 & 16 & 17 & 18 & 19\\
20 & 21 & 22 & 23 & 24
\end{array}\right]
$$

In [None]:
import numpy as np

# Cria uma matriz 5x5 com números aleatórios
A = np.arange(25).reshape(5,5)

# define um escalar
s = 3

# O opeador "+" é aplicado elemento por elemento (caso contrário não seria definido)
B = s + A

print(A,'\n')
print(B)

#### Operações entre arrays
Em pares de arrays também ocorre extensão, porém restrições devem ser respeitadas:
- Os dois arrays devem possuir dimensões compatíveis em algum(s) dos eixos
- O broadcasting é aplicado nos demais eixos para que ambos os arrays tenham as mesmas dimensões
```python
A = np.arange(25).reshape(5,5) # matriz 5x5
v = np.arange(5)               # array com 5 elementos
B = v*A                        # matriz 5x5
```
$$
B = v * A
$$

$$
\downarrow
$$

$$
\left[\begin{array}{ccccc}
0  & 1 & 2 & 3 & 4
\end{array}\right] *
\left[\begin{array}{ccccc}
0  & 1 & 2 & 3 & 4 \\
5  & 6 & 7 & 8 & 9\\
10 & 11 & 12 & 13 & 14\\
15 & 16 & 17 & 18 & 19\\
20 & 21 & 22 & 23 & 24
\end{array}\right]
$$

$$
\downarrow
$$

$$
\left[\begin{array}{ccccc}
0  & 1 & 2 & 3 & 4\\
0  & 1 & 2 & 3 & 4\\
0  & 1 & 2 & 3 & 4\\
0  & 1 & 2 & 3 & 4\\
0  & 1 & 2 & 3 & 4
\end{array}\right] *
\left[\begin{array}{ccccc}
0  & 1 & 2 & 3 & 4 \\
5  & 6 & 7 & 8 & 9\\
10 & 11 & 12 & 13 & 14\\
15 & 16 & 17 & 18 & 19\\
20 & 21 & 22 & 23 & 24
\end{array}\right]
$$

__Cuidado__: o operador `*` corresponde a uma multiplicação elemento por elemento, e *não* uma multiplicação matricial.

In [None]:
A = np.arange(25).reshape(5,5) # matriz 5x5
print('Matriz A:', A.shape)

v = np.arange(5)  # array com 5 elementos
                  # como a segunda dimensão não foi especificada, "v" é interpretado
                  # como um sendo 1x5 (uma linha e 5 colunas)

print('Array "v": ', v.shape)
print('OBS: a segunda dimensão de "v" é livre ')

# A operação "*" é realizada elemento a elemento,
# - estendendo o array "v" para gerar novas linhas
B = v * A

print(5*'---')
print('v = \n',v)
print('A = \n',A)
print('B = \n',B)

__Broadcasting__ é feito nas colunas quando temos um array coluna
```python
v = np.arange(5).reshape(5,1) # array com 5 elementos 5 x 1
                              # i.e. 5 linhas e uma coluna
```
$$
B = v * A
$$

$$
\downarrow
$$

$$
\left[\begin{array}{c}
0  \\ 1 \\ 2 \\ 3 \\ 4
\end{array}\right] *
\left[\begin{array}{ccccc}
0  & 1 & 2 & 3 & 4 \\
5  & 6 & 7 & 8 & 9\\
10 & 11 & 12 & 13 & 14\\
15 & 16 & 17 & 18 & 19\\
20 & 21 & 22 & 23 & 24
\end{array}\right]
$$

$$
\downarrow
$$

$$
\left[\begin{array}{ccccc}
0  & 0 & 0 & 0 & 0\\
1  & 1 & 1 & 1 & 1\\
2  & 2 & 2 & 2 & 2\\
3  & 3 & 3 & 3 & 3\\
4  & 4 & 4 & 4 & 4
\end{array}\right] *
\left[\begin{array}{ccccc}
0  & 1 & 2 & 3 & 4 \\
5  & 6 & 7 & 8 & 9\\
10 & 11 & 12 & 13 & 14\\
15 & 16 & 17 & 18 & 19\\
20 & 21 & 22 & 23 & 24
\end{array}\right]
$$

In [None]:
A = np.arange(25).reshape(5,5) # matriz 5x5
print(A.shape)

v = np.arange(5).reshape(5,1) # array com 5 elementos 5x1
print(v.shape)

# A operação "*" é feita elemento por elemento,
# broadcasting em "v" gerar novas colunas
B =  v * A

print(v,'\n')
print(A,'\n')
print(B)

Quando os dois operandos são arrays unidimensionais, sendo um deles array linha e o outro array coluna __Broadcasting__ é aplicado em ambos:
```python
v = np.arange(5)  # array com 5 elementos 1x5 (uma linha e 5 colunas)
w = np.arange(3).reshape(3,1) # array com 3 elementos 3x1
```
$$
Z = v + w
$$

$$
\downarrow
$$

$$
\left[\begin{array}{ccccc}
0  & 1 & 2 & 3 & 4
\end{array}\right] +
\left[\begin{array}{c}
0  \\
1 \\
2
\end{array}\right]
$$

$$
\downarrow
$$

$$
\left[\begin{array}{ccccc}
0  & 1 & 2 & 3 & 4\\
0  & 1 & 2 & 3 & 4\\
0  & 1 & 2 & 3 & 4
\end{array}\right] +
\left[\begin{array}{ccccc}
0 & 0 & 0 & 0 & 0 \\
1 & 1 & 1 & 1 & 1\\
2 & 2 & 2 & 2 & 2
\end{array}\right]
$$

In [None]:
v = np.arange(5)  # array com 5 elementos
                  # como a segunda dimensão não foi especificada, "v" é interpretado
                  # como um sendo 1x5 (uma linha e 5 colunas)
print(v.shape)

w = np.arange(3).reshape(3,1) # array com 3 elementos
                              # como a segunda dimensão foi especificada, "v" é um array
                              # com 3 linhas e uma coluna
print(w.shape)

# A operação "+" é feita elemento por elemento, broadcasting "v" e "w" simultaneamente
# Neste caso "w" é um vetor coluna e "v" é tratado como vetor linha
Z =  v + w

print('array v:\n',v,'\n')
print('array w:\n',w,'\n')
print('array Z = v+w\n',Z)
print(Z.shape) # note que o resultado é uma matriz 3x5

## Operadores relacionais

Operadores `==`, `>`,`<`,`>=`,`<=`, e `!=` são aplicados elemento a elemento.

In [None]:
A = np.arange(4).reshape(2,2)      # matriz 2x2
B = np.arange(6,2,-1).reshape(2,2) # matriz 2x2

M = (B == A)

print(A,'\n')
print(B,'\n')
print(M)

#### Igualdade do array com `np.array_equal()`

In [None]:
A = np.arange(4).reshape(2,2)      # matrix 2x2
B = np.arange(6,2,-1).reshape(2,2) # matrix 2x2
C = np.copy(A)

# Resposta é apenas um valor booleano
print(np.array_equal(A,B))
print(np.array_equal(A,C))

# Redução

> Métodos aplicados ao array como um todo ou somente às linhas ou colunas.

O parâmetro 'axis' controla a direção:
- 'axis' não especificado: retorna um valor único, opera sobre todo o array
- 'axis=0' redução nas colunas (percorre as linhas): retorna um array com número de elementos igual ao número de colunas
- 'axis=1' redução nas linhas (percorre as colunas): retorna um array com número de elementos igual ao número de linhas


### Redução lógica
- `all`: verifica se **todos** os elementos do array satisfazem a condição (True)
- `any`: verifica se **algum** elemento do array satisfaz a condição (True)

In [None]:
# np.array_equal(A,B) é equivalente a:
D = (A==B)
print(D)

In [None]:
print(np.all(D))

In [None]:
A = np.arange(25).reshape(5,5)
print(A,'\n')

M = A > 0
print(M,'\n')

print('Todos os elementos são TRUE? ', np.all(M))
print('Algum elemento é TRUE? ',np.any(M))

print('Todos os elementos de cada coluna são TRUE? ',np.all(M,axis=0))
print('Algum elemento de cada linha é TRUE? ',np.any(M,axis=1))

#### Mais reduções

Aritméticas e estatísticas:

`sum`, `mean`, `median`, `std` (desvio padrão), `min`,  `max`, `argmin`, `argmax`

In [None]:
A = np.zeros((6,5))  # matriz 5x5 de zeros
A[:] = np.arange(5)  # broadcasting o array [0,1,2,3,4] nas linhas

print(A,'\n')

print('Soma de todos os valores: ', np.sum(A)) # todos os elementos
print('Soma dos valores das colunas: ', np.sum(A,axis=0)) # soma os valores das colunas
print('Soma dos valores das linhas: ', np.sum(A,axis=1)) # soma os valores das linhas

In [None]:
A = np.random.randint(low=0,high=30,size=(5,5)) # matriz 5x5 com números inteiros
                                                # randomicos no intervalor entre 0 e 30
print(A,'\n')

# todos os elementos
print('Maior valor dentre todos na matriz: ',np.max(A))    # maior valor da matriz
print('Posição do maior valor dentre todos na matriz: ',np.argmax(A)) # lineariza a matriz com A.ravel() e
                                                                      # retorna a posicão do maior valor
# Por coluna
print('Maior valor em cada coluna: ',np.max(A,axis=0))  # maior valor em cada coluna
print('Posição do maior valor em cada coluna: ',np.argmax(A,axis=0)) # posição do maior valor em cada coluna

In [None]:
A = np.random.randint(low=0,high=30,size=(5,5)).astype(float)
print(A,'\n')

print('Media de todos os valores: ',np.mean(A))   # média de todos os valores
print('Media por coluna: ',np.mean(A,axis=0))     # média por coluna
print('Media por linha: ',np.mean(A,axis=1))      # média por linha

## Ordenação  `sort()`


- Quando o método é invocado utilizando a própria variável, a ordenação é feita diretamente no array (`inplace`). Por exemplo:

- Usando o `numpy.sort()` uma cópia ordenada do array é gerada (o array original não é modificado).

Por padrão a ordenação é feita em cada linha (`axis=1` é o valor padrão do parâmetro 'axis')

In [None]:
A = np.random.randint(low=0,high=30,size=(5,5))
print('Array original "A": \n',A,'\n')

B = np.sort(A) # `B` é uma cópia de `A` com linhas ordenas
print('"B" é cópia de "A" com valores das linhas ordenados. Array "A" não é alterado:')
print('B = \n',B,'\n')
print('A = \n',A,'\n')

In [None]:
A.sort()  # as linhas de `A` são ordenadas modificando o array original
print('Os valores das linhas do array "A" são ordenados: \n A =\n',A,'\n')

A.sort(axis=0) # as COLUNAS de `A` são ordenadas modificando o array original
print('Os valores das colunas são ordenadas:  \n A =\n',A,'\n')

## Aritmétrica vetorial e matricial

> A multiplicação matriz e vetor (ou matriz e matriz) como definida na álgebra matricial é feita utilizando o método `dot()`

As dimensões devem ser compatíveis

$$
b1 = \left[\begin{array}{cc}
           1 & 1 \\
           2 & 2
    \end{array}\right]\cdot
    \left[\begin{array}{c}
           1  \\
           2
    \end{array}\right] = \left[\begin{array}{c}
           3  \\
           6
    \end{array}\right]
$$

$$
b2 = \left[\begin{array}{cc}
           1 & 2
    \end{array}\right]\cdot
\left[\begin{array}{cc}
           1 & 1 \\
           2 & 2
    \end{array}\right]\cdot
     = \left[\begin{array}{cc}
           5 & 5
    \end{array}\right]
$$

In [None]:
A = np.zeros((2,2))      # matrix 2x2 de zeros
v = np.array([1,2]).reshape(2,1) # array 2x1
A[:] = v                # broadcasting o array 2x1 nas colunas da matriz 'A'

print('Matriz 2x2 A:\n',A)
print('Vetor 2x1 v:\n',v)

print('\n Multiplicando a matriz A pelo vetor v resulta em um vetor 2x1')
b1 = np.dot(A,v)   # v e b1 são vetores colunas
print(b1,b1.shape)

#### Atenção ####
# O produto np.dot(v,A) não é válido, pois as dimensões não são compatíveis
# (produto de vetor 2x1 com matriz 2x2 não existe tente gerar o produto e veja a mensagem de erro)

# Para compadibilizarmos as dimensão precisamos transpor o vetor v
# (produto de vetor 1x2 com matriz 2x2 é bem definido e resulta em um vetor 1x2
print('\n Multiplicando o vetor transposto v.T pela matriz A pelo resulta em um vetor 1x2')
b2 = np.dot(v.T, A) # v.T é um vetor linha, assim como b2
print(b2,b2.shape)

In [None]:
A = np.array([[1,2],[3,4]])

print(A,'\n')

B = np.array([[5,6],[7,8]])

print(B,'\n')

print(A*B,'\n')

print(np.dot(A,B))


---

#### <font color="blue">Exercício 2.6</font>

Dados dois arrays conforme abaixo que são notas (de 1 a 10) dadas a 4 diferentes serviços fornecidos por empresas concorrentes A e B. As notas de cada serviço estão organizadas nas 4 linhas dos arrays.

A empresa `A` coletou 20 notas, e `B` coletou 10 notas para cada serviço (simuladas aleatoriamente no código abaixo).

Os 4 serviços possuem pesos que é determinado pela lista `pesos` listada abaixo.

A empresa A deseja se comparar com a empresa B com base na média das notas da empresa B. Para isso:
1. usando redução, obtenha a média das notas de cada serviço da empresa B;
2. para cada serviço, calcule qual foi a menor nota observada por A considerando apenas as notas de A que foram maiores do que a média de B para aquele serviço;
3. armazene essas notas mínimas em um novo array de 4 elementos, e exiba esse array na tela;
4. utilizando multiplicação vetorial, calcule e exiba na tela a soma das notas mínimas ponderadas pelos pesos

---

In [None]:
A = np.random.randint(low=1,high=10,size=(4,20))
B = np.random.randint(low=1,high=10,size=(4,10))
pesos = [0.15, 0.25, 0.3, 0.3]
print(A)
print(B)
print(pesos)

# <font color="red">Resumo da aula</font>

### <span style="color:red">- Modulo: Numpy</span>
### <span style="color:red">- *Broadcasting*</span>
### <span style="color:red">- Operadores relacionais</span>
### <span style="color:red">- Redução</span>
### <span style="color:red">- Ordenação (*sort*)</span>
### <span style="color:red">- Aritmética vetorial e matricial</span>