<a href="https://colab.research.google.com/github/vitormiro/estatistica_ppger_ufc/blob/main/python_fundamentos_5_numpy_p1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Numpy

O **NumPy**, abreviatura para *Numerical Python* (Python Numérico), é uma biblioteca Python que fornece um grande conjunto de funções e operações para executar facilmente cálculos numéricos.

A estrutura de dados mais importante que o NumPy fornece é um objeto poderoso, um tipo de *array* (arranjo), chamada **ndarray**. 

No Python, um array é um objeto semelhante a uma lista, mas é uma estrutura de dados que armazena informações de um mesmo tipo.

Podemos pensar em um array em NumPy como uma tabela multidimensional de elementos do mesmo tipo, indexados por uma tupla de inteiros positivos. 
A vantagem dos arrays (ndarrays) é a possibilidade de realizar operações matemáticas em blocos inteiros de dados usando uma sintaxe semelhante às operações com elementos escalares.

[Documentação do Numpy](https://numpy.org)

### Recursos do NumPy





In [1]:
# Se for necessário, primeiro devemos instalar o NumPy (retirar o # da linha abaixo antes de executar)
#!pip install numpy

# E importar o NumPy com o alias 'np'
import numpy as np

Vamos criar um array


In [None]:
# criando um array de números inteiros
np.array([1, 4, 2, 5, 3])

Vamos criar um array convertendo uma lista

In [None]:
# cria uma lista
x = [1, 4, 2, 5, 3]
x

In [None]:
# converter para array
x = np.array(x)
x

In [None]:
type(x)

In [None]:
# Soma
x.sum()

In [None]:
# valor mínimo
x.min()

In [None]:
# valor máximo
x.max()

In [None]:
# soma de arrays (elemento por elemento)
# Exemplo: notas de duas provas
nota1 = np.array([2.5, 4, 3.5, 3, 4])
nota2 = np.array([3.5, 3.5, 3.5, 4, 4.5])
nota = nota1 + nota2
nota

In [None]:
# soma com escalar
notaf = nota + 0.5
notaf

In [None]:
# operação de comparação
aprovados = notaf >=7
aprovados

In [None]:
# multiplicação de arrays (elemento por elemento)
x = np.array([1, 2, 3, 4])
y = np.array([5, 6, 7, 8])
prod = x * y
prod

In [None]:
# multiplicação por um escalar
x2 = x * 2
x2

Vejamos algumas operações de interesse no nosso curso (Estatística Aplicada).

**Produto escalar de dois vetores**

$$ \langle x,y \rangle = x\cdot y = \sum_{i=1}^{n} x_i  y_i = x_1 y_1 + x_2 y_2 + \dots + x_{n} y_{n}$$



In [None]:
# produto escalar
x = np.array([1, 2, 3, 4])
y = np.array([5, 6, 7, 8])
pxy = np.dot(x, y)
pxy

**Soma dos quadrados**

$$ \langle x,x \rangle = x\cdot x = \sum_{i=1}^{n} x_i^2 = x_1^2 + x_2^2 + \dots + x_{n}^2$$


In [None]:
# soma dos quadrados
xquad = np.dot(x, x)
xquad

## Operações com matrizes

Sobre o [numpy.matrix](https://numpy.org/doc/stable/reference/generated/numpy.matrix.html?highlight=matrix#numpy.matrix).

Vamos definir uma matriz $\bf{A}_{2x4}$.
$$
\bf{A} = 
\left[ \begin{array}{ccc}
1 & 2 & 3 & 4 \\
5 & 6 & 7 & 8
\end{array} \right]
$$


In [None]:
# criar matriz
A = np.matrix([[1, 2, 3, 4],
               [5, 6, 7, 8]])
A

In [None]:
type(A)

### Soma de matrizes
Definidas as matrizes $\bf{A}$ e $\bf{B}$.

$$
\bf{A} = 
\left[ \begin{array}{ccc}
a_{11} & a_{12} & a_{13}\\ 
a_{21} & a_{22} & a_{23} \\ 
a_{31} & a_{32} & a_{33} 
\end{array} \right] , \quad
\bf{B} = 
\left[ \begin{array}{ccc}
b_{11} & b_{12} & b_{13}\\ 
b_{21} & b_{22} & b_{23} \\ 
b_{31} & b_{32} & b_{33} 
\end{array} \right]
$$

A soma das matrizes é:
$$ 
\bf{A} + \bf{B} =
\left[ \begin{array}{ccc}
a_{11} & a_{12} & a_{13}\\ 
a_{21} & a_{22} & a_{23} \\ 
a_{31} & a_{32} & a_{33} 
\end{array} \right] +
\left[ \begin{array}{ccc}
b_{11} & b_{12} & b_{13}\\ 
b_{21} & b_{22} & b_{23} \\ 
b_{31} & b_{32} & b_{33} 
\end{array} \right] =
\left[ \begin{array}{ccc}
a_{11}+b_{11} & a_{12}+b_{12} & a_{13}+b_{13}\\ 
a_{21}+b_{21} & a_{22}+b_{22} & a_{23}+b_{23} \\ 
a_{31}+b_{31} & a_{32}+b_{32} & a_{33}+b_{33} 
\end{array} \right]
 $$

In [None]:
# soma de matrizes
A = np.matrix([[1, 2, 3, 4], 
               [5, 6, 7, 8]])

B = np.matrix([[1, 3, 5, 7], 
               [2, 1, 3, 5]])

S = A + B
S

### Transposta de uma matriz
$$
\boldsymbol{A} = \left[ \begin{array}{ccc}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23}
\end{array} \right], \quad
\boldsymbol{A}^T = \left[ \begin{array}{cc}
a_{11} & a_{21} \\
a_{12} & a_{22} \\
a_{13} & a_{23}
\end{array} \right]
$$


In [None]:
# Transposta
A.T

## Multiplicação de matrizes

$$ 
\begin{bmatrix} 
a_{11} & a_{12} & a_{13} \\ 
a_{21} & a_{22} & a_{23} 
\end{bmatrix}_{2\times3} \cdot 
\begin{bmatrix} 
b_{11} & b_{12} \\ 
b_{21} & b_{22} \\ 
b_{31} & b_{32} 
\end{bmatrix}_{3\times2} = 
\begin{bmatrix} 
a_{11}b_{11}+a_{12}b_{21}+a_{13}b_{31} & a_{11}b_{12}+a_{12}b_{22}+a_{13}b_{32} \\ 
a_{21}b_{11}+a_{22}b_{21}+a_{23}b_{31} & a_{21}b_{12}+a_{22}b_{22}+a_{23}b_{32} 
\end{bmatrix}_{2\times2} 
$$


In [None]:
# multiplicação
P = A*B

Temos um erro por `B` foi definida como uma matriz (2 X 4). Devemos fazer a transposta de `B`.

In [None]:
Bt = B.T
Bt

In [None]:
P = A*Bt
P

### Manipulação de Arrays

Vamos criar arrays de diferentes dimensões.

In [3]:
a = np.array(5)
b = np.array([1, 2, 3, 4, 5])
c = np.array([[1, 2, 3], [4, 5, 6]])
d = np.array([[[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [4, 5, 6]]])

In [4]:
print(a)

5


In [5]:
print(b)

[1 2 3 4 5]


In [6]:
print(c)

[[1 2 3]
 [4 5 6]]


In [7]:
print(d)

[[[1 2 3]
  [4 5 6]]

 [[1 2 3]
  [4 5 6]]]


Verificar as dimensões com o método `.ndim`

In [8]:
print(a.ndim)
print(b.ndim)
print(c.ndim)
print(d.ndim)

0
1
2
3


#### Indexando um array.

In [9]:
# criar um array 1D
arr1 = np.array([1, 2, 3, 4])
print(arr1)

[1 2 3 4]


In [10]:
# imprimir o primeiro elemento indexado por [0]
print(arr1[0])

1


In [11]:
# somar dois elementos
print(arr1[2] + arr1[3])

7


In [12]:
# criar um array 2D
arr2 = np.array([[1,2,3,4,5], [6,7,8,9,10]])
print(arr2)

# imprimir o 2º elemento na 1º dimensão
print('O 2º elemento na 1º dimensão é: ', arr2[0, 1])

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
O 2º elemento na 1º dimensão é:  2


In [13]:
# imprimir o 4º elemento (indexado por 3) na 2º dimensão (indexada por 1)
print('O 4º elemento na 2º dimensão é: ', arr2[1, 3])

O 4º elemento na 2º dimensão é:  9


In [14]:
# criar um array 3D
arr3 = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print(arr3)

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


In [15]:
# imprimir o 3º elemento (indexado por 2) da 2º dimensão (indexada por 1) do array 1 (indexado por 0)
print(arr3[0, 1, 2])

6


Vamos usar um **gerador de números aleatórios** do NumPy - `np.random`.

Sobre o [`np.random`](https://numpy.org/doc/1.16/reference/routines.random.html).

Também usaremos uma "semente aleatória" para garantir a geração dos mesmos valores.


In [None]:
# definir uma semente aleatória
np.random.seed(1)  # "seed" para gerar os mesmos valores

In [None]:
# arrays de diferentes dimensões com o gerador de números aleatórios
x1 = np.random.randint(10, size=3)  # array de 1 dimensão
x2 = np.random.randint(10, size=(3, 3))  # array de 2 dimensões
x3 = np.random.randint(10, size=(3, 2, 2))  # array de 3 dimensões

In [None]:
# mostrar x1
x1

In [None]:
# mostrar x2
x2

In [None]:
# mostrar x3
x3

**Acessando elementos em um array**

In [None]:
# elemento "0" de x1
x1[0]

In [None]:
# elemento "2, 2" de x2
x2[2,2]

In [None]:
# elemento "0, 0" de x2
x2[0,0]

In [None]:
# elemento "0, 0, 0" de x3
x3[0, 0, 0]

In [None]:
# elemento "1" de x3
x3[1]

**Modificando elementos**


In [None]:
# modificando o elemento "0, 0" de x2
x2[0, 0] = 12
x2

In [None]:
# modificando o elemento "2, 1, 1" de x3
x3[2, 1, 1] = 20
x3[2]

### Fatiamento (slicing)

O "fatiamento" é feito com os argumentos `start`, `stop` e `step`.

`x[start:stop:step]`



O método `arange()` cria um vetor contendo uma progressão aritmética a partir de um intervalo definindo: `start`, `stop`, `step`.

In [17]:
# Com o arange, os valores são gerados dentro do intervalo semiaberto [start, stop)
x = np.arange(1, 20, 2)
x

array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19])

In [18]:
# Fatiar do elemento indexado por 1 (2º elemento) ao 4 (5º elemento). Note que o "stop" é excluído.
print(x[1:5])

[3 5 7 9]


In [19]:
# Fatiar do 5º elemento (indexado por 4) até o final
print(x[4:])

[ 9 11 13 15 17 19]


In [20]:
# Fatiar do elemento indexado por 0 (1º elemento) até o elemento 3 (4º elemento). Note que o "stop" é excluído.
print(x[:4])

[1 3 5 7]


Slicing de arrays 2D

In [21]:
A = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]])

# Do 1º array (indexado por 0), elementos indexados por 1 a 3 (4 é excluído)
print(A[0, 1:4])

[2 3 4]


In [22]:
# De ambos os arrays, retorna o elementos indexado por 3
print(A[0:2, 3])

[4 9]


**Remodelagem de um array**

A maneira mais fácil de fazer isso é com um método `reshape`.


In [26]:
# Criar array com arange
y = np.arange(1, 10)
print(y)

[1 2 3 4 5 6 7 8 9]


In [27]:
# Cria o array com 9 elementos usando arange e remodela para um array 3X3
y = y.reshape((3, 3))
print(y)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [28]:
# Cria o array com 10 elementos usando arange e remodela para um array 2X5
y = np.arange(0,20,2).reshape((2, 5))
print(y)

[[ 0  2  4  6  8]
 [10 12 14 16 18]]


Observe que, para que isso funcione, o tamanho do array inicial deve corresponder ao tamanho da matriz remodelada. 

#### Concatenação

A concatenação ou junção de dois arrays no NumPy é realizada, principalmente, com o emprego das rotinas `np.concatenate`, `np.vstack` e `np.hstack`.

Usamos o método `concatenate()`. Informamos uma sequência de arrays que queremos concatenar, juntamente com o eixo. Se o eixo não for informado explicitamente, será considerado como 0.

O `np.concatenate` usa uma tupla ou lista de matrizes como seu primeiro argumento:

In [29]:
# Criar os arrays x e y
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])

# concatenar os arrays
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

In [30]:
# Unir duas matrizes 2D ao longo das linhas (eixo = 1)

arr1 = np.array([[1, 2], [3, 4]])
print(arr1)

arr2 = np.array([[5, 6], [7, 8]])
print(arr2)

arr = np.concatenate((arr1, arr2), axis=1)
print(arr)

[[1 2]
 [3 4]]
[[5 6]
 [7 8]]
[[1 2 5 6]
 [3 4 7 8]]


Concatenar um array 2D

In [31]:
arr1 = np.array([[1, 2], [3, 4]])
print(arr1)

arr2 = np.array([[5, 6], [7, 8]])
print(arr2)

arr = np.concatenate((arr1, arr2), axis=0)
print(arr)

[[1 2]
 [3 4]]
[[5 6]
 [7 8]]
[[1 2]
 [3 4]
 [5 6]
 [7 8]]


Usando o `np.vstack` (concatenação vertical)

In [None]:
x = np.array([1, 2, 3])
w = np.array([[9, 8, 7], [6, 5, 4]])

# concatenação vertical
np.vstack([x, w])

Usando o `np.hstack` (concatenação horizontal)

In [None]:
x = np.array([[3],[2]])
w = np.array([[9, 8, 7], [6, 5, 4]])

print(x)
print(w)

# concatenação horizontal
np.hstack([w, x])

Empilhamento com o método `stack()`.

#### Separação ou divisão de arrays

A separação/divisão é a operação inversa da união.

A separação/divisão é implementada pelas funções:
- `np.split`: divisão do array em sub-arrays de mesma dimensão,
- `np.hsplit`: divisão horizontal (nas linhas),
- `np.vsplit`: divisão vertical (nas colunas).

Informamos o array que queremos dividir e o número de divisões.

In [33]:
# Criar um array com 9 elementos
x = np.arange(9.0)
print(x)

[0. 1. 2. 3. 4. 5. 6. 7. 8.]


In [32]:
# separar em 3 arrays
new_x = np.split(x, 3)
print(new_x)

[array([1]), array([2]), array([3])]


In [None]:
# criar uma lista com 8 elementos
x = [1, 2, 3, 4, 5, 6, 7, 8]

# separar em dois arrays com 4 elementos cada
x1, x2 = np.split(x, [4])
print(x1, x2)

In [None]:
# Criar um array com 16 elementos e remodelar para um array 4X4
A = np.arange(16).reshape(4,4)
A

In [None]:
# Dividir um array 4X4 em dois arrays 4X2 empilhados horizontalmente 
np.hsplit(A, 2)

In [None]:
# Dividir o array A em A1 e A2
A1, A2 = np.hsplit(A, 2)
print('A1 =', A1)
print('A2 =', A2)

In [None]:
# Criar o array B com 12 elementos e remodelar em um array 4X3
B = np.arange(12).reshape(4,3)
B

In [None]:
# Dividir o array B em dois arrays 2X3
np.vsplit(B, 2)

**Ordenamento**

Usamos o método `sort()` para colocar elementos em uma sequência ordenada .

In [34]:
arr = np.array([3, 2, 0, 1])
print(arr)
print(np.sort(arr))

[3 2 0 1]
[0 1 2 3]


Em um array de strings, a ordem é alfabética.

In [None]:
arr = np.array(['banana', 'cherry', 'apple'])

print(np.sort(arr))

Se você usar o método sort () em um array 2D, ambas os arrays serão ordenados:

In [35]:
arr = np.array([[3, 2, 4], [5, 0, 1]])
print(arr)
print(np.sort(arr))

[[3 2 4]
 [5 0 1]]
[[2 3 4]
 [0 1 5]]
