# Python Machine Learning Cookbook

__Tanscrição de capítulos para o Português para estudo e uso como referência__

Uso pessoal
@caiosainvallio

# Capítulo 1
# Vetores, Matrizes e Arrays

# 1.1 Criando Vetores
## Problema
Preciso criar um vetor.
## Solução
Usar o NumPy para cria um array uni-dimensional.

In [1]:
# Carregar pacote
import numpy as np

# Criar um vertor linha
vetor_linha = np.array([1, 2 ,3])

# Criar um vetor coluna
vetor_coluna = np.array([[1],
                         [2],
                         [3]])

---

# 1.2 Criando uma matriz
## Problema
Preciso criar uma matriz.
## Solução
Usar o NumPy para criar um array bi-dimensional.

In [2]:
# Carregar pacote
import numpy as np

# Criar uma matriz
matriz = np.array([[1, 2], 
                   [1, 2], 
                   [1, 2]])

---

# 1.3 Criando Uma Matriz Esparsa
## Problema
Tenho um dataset grande com muitos zeros, preciso representá-lo de forma eficiente.
## Solução
Criar uma matriz esparsa com ajuda do ScyPy.

In [3]:
# Carregar pacotes
import numpy as np
from scipy import sparse

# Criar matriz
matriz = np.array([[0, 0], 
                   [0, 1], 
                   [3, 0]])

# Criando uma matriz esparsa - compressed sparse row(CSR)
matriz_esparsa = sparse.csr_matrix(matriz)

## Discussão
Matrizes esparsas irão armazenar apenas elementos não-zero e assumir que o resto é zero.

In [4]:
# Ver a matriz esparsa
print(matriz_esparsa)

  (1, 1)	1
  (2, 0)	3


Interpretando o output:

* O elemento '1' está na segunda linha e na segunda coluna (1, 1)\n

* O elemento '3' está na terceita linha e na primeira coluna (2, 0)

In [5]:
# Criando uma matriz 'grande'
matriz_grande = np.array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 
                          [0, 1, 0, 0, 0, 0, 0, 0, 0, 0], 
                          [3, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

# Criando uma matriz esparsa
matriz_grande_esparsa = sparse.csr_matrix(matriz_grande)

# Ver a matriz esparsa grande
print(matriz_grande_esparsa)

  (1, 1)	1
  (2, 0)	3


---

# 1.4 Selecionando Elementos
## Problema
Preciso selecionar um ou mais elementos de um vetor ou uma matriz.
# Solução
O array NumPy deixa tudo muito simples!

In [6]:
# Carregar pacote
import numpy as np

# Criar um vetor
vetor = np.array([1, 2, 3, 4, 5, 6])

# Criar uma matriz
matriz = np.array([[1, 2, 3], 
                   [4, 5, 6], 
                   [7, 8, 9]])

Selecionar um único elemento (indexing)

In [7]:
# Selecionar o terceiro elemento de um vetor
vetor[2]

3

In [8]:
# Selecionar a segunda linha e a segunda coluna de uma matriz
matriz[1,1]

5

Selecionar mais de um elemento - um grupo de elementos - (slicing)

In [9]:
# Selecionar todos os elementos de um vetor
vetor[:]

array([1, 2, 3, 4, 5, 6])

In [10]:
# Selecionar até o terceiro elemento (incluso) de um vetor
vetor[:3]

array([1, 2, 3])

In [11]:
# Selecionar todos depois do terceiro elemento de um vetor
vetor[3:]

array([4, 5, 6])

In [12]:
# Selecionar o último elemento de um vetor
vetor[-1]

6

In [13]:
# Selecionar os duas primeiras linhas e todas as colunas de uma matriz
matriz[:2,:]

array([[1, 2, 3],
       [4, 5, 6]])

In [14]:
# Selecionar todas as linhas da segunda coluna
matriz[:,1:2]

array([[2],
       [5],
       [8]])

---

# 1.5 Descrevendo uma matriz
## Problema
Preciso saber o shape, o tamanho e as domensões de uma matriz.
## Solução
Usar `shape`, `size` e `ndim`:

In [15]:
# Carregar pacote
import numpy as np

# Criar uma matriz
matriz = np.array([[1, 2, 3, 4], 
                   [5, 6, 7, 8], 
                   [9, 10, 11, 12]])

In [16]:
# Saber o número de linhas e colunas
matriz.shape

(3, 4)

In [17]:
# Saber o número de elementos (linhas * colunas)
matriz.size

12

In [18]:
# Saber a dimensão da matriz
matriz.ndim

2

---

# 1.6 Aplicando Operações Nos Elementos
## Problema
Preciso apicar uma finção em multiplos elementos de um array.
## Solução
Usar NumPy `vectorize`:

In [19]:
# Carregar pacote
import numpy as np

# Criar uma matriz
matriz = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Criar uma função que adiciona 100 em algo
ad_100 = lambda i: i + 100

# Criar uma função vetorizada
vetorizar_ad_100 = np.vectorize(ad_100)

# Aplicar a função em todos os elementos de uma matriz
vetorizar_ad_100(matriz)

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

## Discussão
Fazer isso deixa o código mais eficiente, ao invéz de fazer um loop for aplicando a função para cada elemento da matriz.

---

# 1.7 Achando Valores Máximos e Mínimos
## Problema
Preciso achar os valores máximos e mínomos de um array.
## Solução
Usar Numpy `max`e `min`:

In [20]:
# Carregar pacote
import numpy as np

# Criar uma matriz
matriz = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

In [21]:
# Retornar o elemento com o menor valor
np.max(matriz)

9

In [22]:
# Retornar o elemento com o maior valor
np.min(matriz)

1

## Discussão
Pode-se usar `max`e `min` para um certo eixo:

In [23]:
# Máximo elemento por coluna
np.max(matriz, axis=0)

array([7, 8, 9])

In [24]:
# Máximo elemento por linha
np.max(matriz, axis=1)

array([3, 6, 9])

---

# 1.8 Carcular Mádia, Variância e Desvio Padrão
## Problema
Preciso apresentar algumas estatísticas descritivas de um array.
## Solução
Usar Numpy `mean`, `var` e `std`:

In [25]:
# Carregar pacote
import numpy as np

# Criar uma matriz
matriz = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

In [26]:
# Retornar a média
np.mean(matriz)

5.0

In [27]:
# Retornar a variância
np.var(matriz)

6.666666666666667

In [28]:
# Retornar o desvio padrão
np.std(matriz)

2.581988897471611

## Discussão
Pode-se usar `mean`, `var` e `std` para uma ;unha ou coluna:

In [29]:
# Retornar a média para cada coluna
np.mean(matriz, axis=0)

array([4., 5., 6.])

In [30]:
# Retornar a variância de cada linha
np.var(matriz, axis=1)

array([0.66666667, 0.66666667, 0.66666667])

---

# 1.9 Mudar o shape (reshape) de um array
## Problema
Preciso mudar o número de linhas e colunas de um array sem que mudae o valor dos elementos.
## Solucão
Usar Numpy `reshape`:

In [31]:
# Carregar pacote
import numpy as np

# Criar uma matriz 4x3
matriz = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [10, 11, 12]])

In [32]:
# Reshapa para uma matriz 2x6
matriz.reshape(2, 6)

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

## Discussão
É importante ter atenção em mudar o shape para um que seja possível, para isso, vale lembrar de como saber o número total de elementos de um array:

In [33]:
matriz.size

12

Um uso muito útil e usar o -1 no argumanto da função. Ele significa 'quanto necessário'.

In [34]:
matriz.reshape(1, -1)

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12]])

Se for usado apena um número inteiro no argumanto da função, ela retorna um array de uma dimenção.

In [35]:
matriz.reshape(12)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

---

# 1.10  Transposição de Retor ou Matriz
## Problema
Preciso de um vetor ou matriz transposta.
## Solução
Usar o Numpy `T`:

In [36]:
# Carregar pacote
import numpy as np

# Criar uma matriz
matriz = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

In [37]:
# Transposição de matriz
matriz.T

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

## Discussão
Tecnicamente, um vetor não pode ser transposto, por ser uma coleção de valores:

In [38]:
# Vetor transposto
np.array([1, 2, 3, 4, 5, 6]).T

array([1, 2, 3, 4, 5, 6])

Para que um vetor seja transposto, a estratégia é transformá-lo em uma matriz de uma linha:

In [39]:
# Vetor transposto
np.array([[1, 2, 3, 4, 5, 6]]).T

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6]])

---

# 1.11 Matriz Achatada (Flattening)
## Porblema
Preciso transformar uma matriz em um array unidimensional.
## Solução
Usar `flatten`:

In [40]:
# Carregar pacote
import numpy as np

# Criar uma matriz
matriz = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Flattening matrix
matriz.flatten()

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

## Discussão
Lembrando que o `reshape` também pode ser uma opção:

In [41]:
# Criar uma matriz
matriz = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# # equivalente ao flatten
matriz.reshape(1, -1)

array([[1, 2, 3, 4, 5, 6, 7, 8, 9]])

---

# 1.12 Achar o Rank de uma Matriz
## Problema
Preciso saber o rank de uma matriz
# Solução
Usar a função `matrix_rank` do método `linalg` do NumPy

In [42]:
# Carregar pacote
import numpy as np

# Criar uma matriz
matriz = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Retornar o rank da matriz
np.linalg.matrix_rank(matriz)

2

## Discussão
Rank de uma matriz corresponde às dimensões do espaço vetorial da matriz.

---

# 1.13 Cálculo de Determinante
## Problema
Preciso saber o demeterminante de uma matriz.
## Solução
Usar a função `det` do método `linalg` do NumPy:

In [43]:
# Carregar pacote
import numpy as np

# Criar uma matriz
matriz = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Retornar o determinante da matriz
np.linalg.det(matriz)

-9.51619735392994e-16

---

# 1.14 Matriz Diagonal
## Problema
Preciso pegar apenas os elementos diagonais de uma matriz
## Solução
Usar `diagonal`:

In [44]:
# Carregar pacote
import numpy as np

# Criar uma matriz
matriz = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Retonar os elementos diagoanais
matriz.diagonal()

array([1, 5, 9])

---

# 1.15 Traço da Matriz
## Probelma
Preciso da soma dos elementos da diagonal de uma matriz.
## Solução
Usar `trace`:

In [45]:
# Carregar pacote
import numpy as np

# Criar uma matriz
matriz = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Retornar o traço da matriz
matriz.trace()

15

## Discussão
Essa soma é muito usada em Machine Learning e tamebém pode ser obtida de outra forma:

In [46]:
# Retorna a soma dos elementos diagonais da matriz
sum(matriz.diagonal())

15

---

# 1.16 Autovalores e Autovetores
## Problema
Preciso achar os autovetores (eigenvalues) e autovalores (eigenvectors) de uma matriz.
## Solução
Usar `linalg.eig` do NumPy:

In [47]:
# Carregar pacote
import numpy as np

# Criar uma matriz
matriz = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Calculando os autovalores e autovetores
autovalor, autovetor = np.linalg.eig(matriz)

# Ver os autovalores
autovalor

array([ 1.61168440e+01, -1.11684397e+00, -9.75918483e-16])

In [48]:
# Ver os autovetores
autovetor

array([[-0.23197069, -0.78583024,  0.40824829],
       [-0.52532209, -0.08675134, -0.81649658],
       [-0.8186735 ,  0.61232756,  0.40824829]])

---

# 1.17 Produto Vetorial
## Problema
Preciso multiplicar dois vetorer.
## Solução
Usar `dot` do NumPy:

In [49]:
# Carregar pacote
import numpy as np

# Criar dois vetores
vetor_a = np.array([1, 2, 3])
vetor_b = np.array([4, 5, 6])

# Calcular o produto vetorial
np.dot(vetor_a, vetor_b)

32

## Discussão
O produto vetorial é definido por

$$\sum_{k=1}^n a_i b_i$$

Em versões mais recentes do Python (3.4+) pode usar o operador `@`:

In [50]:
vetor_a @ vetor_b

32

---

# 1.18 Soma e Subtração de Matrizes
## Problema
Preciso somar ou subtrair duas matrizes.
## Solução
Usar `add` ou ` substract` do NumPy:

In [51]:
# Carregar pacote
import numpy as np

# Criar matrizes
matriz_a = np.array([[1, 3, 5], 
                     [7, 9, 11], 
                     [13, 15, 17]])

matriz_b = np.array([[2, 4, 6], 
                     [8, 10, 12], 
                     [14, 16, 16]])

# Somar as duas matrizes
np.add(matriz_a, matriz_b)

array([[ 3,  7, 11],
       [15, 19, 23],
       [27, 31, 33]])

In [52]:
# Subtrair as duas matrizes
np.subtract(matriz_a, matriz_b)

array([[-1, -1, -1],
       [-1, -1, -1],
       [-1, -1,  1]])

## Discussão
Uma alternativa é usar operadores `+` e `-`:

In [53]:
# Somar
matriz_a + matriz_b

array([[ 3,  7, 11],
       [15, 19, 23],
       [27, 31, 33]])

---

# 1.19 Multiplicação de Matrizes
## Problema
Preciso multiplicar duas matrizes.
## Solucão
Usar `dot` do NumPy:

In [54]:
# Carregar pacote
import numpy as np

# Criar matrizes
matriz_a = np.array([[1, 2,],
                     [3, 4]])

matriz_b = np.array([[5, 6], 
                     [7, 8]])

# Multiplicar as duas matrizes
np.dot(matriz_a, matriz_b)

array([[19, 22],
       [43, 50]])

## Discussão
Uma alternativa para Python 3.5+ é usar o operador `@`:

In [55]:
# Mustiplicar duas matrizes
matriz_a @ matriz_b

array([[19, 22],
       [43, 50]])

Caso exista a necessidade de multiplicar elemento-a-elemento (element-wise), usar o oprador `*`:

In [56]:
# Mustiplicar duas matrizes elemento-a-elemento
matriz_a * matriz_b

array([[ 5, 12],
       [21, 32]])

---

# 1.20 Invertendo Matrizes
## priblema
Preciso calcular a inversa de uma matriz quadrada.
## Solução
Usar a função `inv` do método `linalg` do Numpy:

In [57]:
# carregar pacote
import numpy as np

# Criar matriz
matriz = np.array([[1, 2], 
                   [3, 4]])

# Calcular a inversa da matriz
np.linalg.inv(matriz)

array([[-2. ,  1. ],
       [ 1.5, -0.5]])

## Discussão
Ao se multiplicar uma matriz pela sua inversa, temos uma matriz identidade:

$$AA^{-1}=I$$

In [58]:
# Multiplicar uma matriz pela sua inversa = identidade
matriz @ np.linalg.inv(matriz)

array([[1.00000000e+00, 1.11022302e-16],
       [0.00000000e+00, 1.00000000e+00]])

---

# 1.21 Gerar Valores Aleatórios
## Problema
Preciso gerar um valor pseudoaleatório.
## Solução
Usar o `random` do NumPy:

In [59]:
# Carregar pacote 
import numpy as np

# Set seed
np.random.seed(42)

# Gerar 3 valores entre 0 e 1
np.random.random(3)

array([0.37454012, 0.95071431, 0.73199394])

## Discussão
Pode-se usar o método para gerar valores inteiros.
Obs. No exemplo: Quero 3 valores entre 0 e 11.

In [60]:
# Gerar valores inteiros
np.random.randint(0, 11, 3)

array([4, 6, 9])

Ou pode-se usar alguma distribuição: `normal`, `logistic`, `uniform`, etc.

---
---