# Python to Data Science

# Numpy

NumPy é a biblioteca principal para computação científica em Python. Fornece um objecto de matriz multidimensional de alto desempenho e ferramentas para trabalhar com estas matrizes. É um sucessor do pacote numérico. Em 2005, Travis Oliphant criou o NumPy incorporando recursos do Numarray concorrente no Numeric, com extensas modificações. Eu acho que os conceitos e os exemplos de código em grande medida foram explicados da forma mais simples em seu livro Guide to NumPy. Aqui, só veremos alguns dos principais conceitos do NumPy que são obrigatórios ou bons de se conhecer em relevância para o aprendizado de máquina.


### Import Packegers

In [4]:
import numpy  as np

## Initializing NumPy array

In [4]:
# exemplo 01
# Import Packages
import numpy as np

# create rank 1 array 
a = np.array([0, 1, 2])
print(type(a))

# this will print the dimension of the array
print(a.shape)
print(a[0])
print(a[1])
print(a[2])

# Chamnge element of the array
a[0] = 5
print(a)


<class 'numpy.ndarray'>
(3,)
0
1
2
[5 1 2]


In [5]:
# Exemplo 02


# create rank 2 array
b = np.array([[0, 1, 2],[3, 4, 5]])
print(b.shape)
print(b)
print(b[0,0], b[0,1],b[1,0])

(2, 3)
[[0 1 2]
 [3 4 5]]
0 1 3


## Creating NumPy Array


O NumPy também fornece muitas funções incorporadas para criar matrizes. A melhor maneira de aprender isto é através de exemplos, por isso vamos saltar para o código. Consulte a Listagem 2-2.


In [2]:
# Create a 3x3 array of all zeros

import numpy as np

a = np.zeros((3,3))
print(a)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [9]:
# Create a 2x2 array of all ones

b = np.ones((2,2))
print(b)

[[1. 1.]
 [1. 1.]]


In [11]:
# # Create a 3x3 constant array

c = np.full((3,3), 7)
print(c)

[[7 7 7]
 [7 7 7]
 [7 7 7]]


In [12]:
# Create a 3x3 array filled with random values

d = np.random.random((3,3))
print(d)

[[0.12073366 0.77854321 0.11679844]
 [0.21683557 0.31582511 0.89417448]
 [0.05558319 0.65382335 0.68298977]]


In [8]:
# Create a 3x3 identity matrix
e = np.eye(3)
print(e)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [14]:
# convert list to array
lista = [2, 3, 1, 0]
print(f"Isto é um lista {lista}")
f = np.array(lista)
print(f"Isto é uma array: \n {f}")

Isto é um lista [2, 3, 1, 0]
Isto é uma array: 
 [2 3 1 0]


In [20]:
# arange() will create arrays with regularly incrementing values
g = np.arange(0, 20, 2) # star, stop, increment
print(g)

[ 0  2  4  6  8 10 12 14 16 18]


In [24]:
# note mix of tuple and lists
h = np.array([[0, 1, 2.0], [0, 0, 0], (1+1j,3., 2)])
print(h)

[[0.+0.j 1.+0.j 2.+0.j]
 [0.+0.j 0.+0.j 0.+0.j]
 [1.+1.j 3.+0.j 2.+0.j]]


In [27]:
# create an array of range with float data type
i = np.arange(1, 8, dtype=np.float16)
print(i)

[1. 2. 3. 4. 5. 6. 7.]


### `linspace()`
criará matrizes com um número especificado de itens que são
__espacádos__ igualmente entre os valores iniciais e finais especificados


In [30]:
j = np.linspace(2., 4., 5) 
print(j)

[2.  2.5 3.  3.5 4. ]


### `Indices()`

criará um conjunto de matrizes empilhadas como uma matriz dimensionada  mais alta, uma por dimensão, com cada uma representando variação nessa dimensão

In [32]:
k = np.indices((2,2))
print(k)

[[[0 0]
  [1 1]]

 [[0 1]
  [0 1]]]


# Data Types

Uma matriz (array) é uma coleção de itens do mesmo tipo de dados e o NumPy suporta e fornece funções internas para construir matrizes com argumentos opcionais para especificar explicitamente os tipos de dados necessários.

### Let numpy choose the datatype

In [38]:
x = np.array([0 ,1 ])
y = np.array([2.0, 3.0])
print(f"{x}\n{y}")

[0 1]
[2. 3.]


### Force a particular datatype

In [37]:
z = np.array([5, 6], np.float64)
print(z)

[5. 6.]


In [41]:
print(x.dtype, y.dtype, z.dtype)

int64 float64 float64


## Array Indexing

O NumPy oferece várias maneiras de indexar em matrizes. A sintaxe padrão do Python `x[obj]` pode ser usada para indexar a matriz NumPy, onde x é a matriz e obj é a seleção. Existem três tipos de indexação disponíveis: 

* Acesso de campo 
* Slicing básico 
* Indexação avançada

### Field Access (acesso de campos)

Se o objeto ndarray é um array estruturado, os campos do array podem ser acessados indexando o array como strings, dicionário. Indexação `x['nome do campo']` retorna uma nova exibição para a matriz, que é da mesma forma que x, exceto quando o campo é um sub-terreno, mas de tipo de dados `x.dtype['nome do campo']` e contém apenas a parte dos dados no campo especificado

In [48]:
x = np.zeros((3,3), dtype=[('a', np.int32), ('b', np.float32, (3,3))])


In [56]:
print(f"x['a'].shape: {x['a'].shape}")
print(f"x['a'].dtype: {x['a'].dtype}")
print(f"x['b'].shape: {x['a'].shape}")
print(f"x['a'].dtype: {x['a'].dtype}")

x['a'].shape: (3, 3)
x['a'].dtype: int32
x['b'].shape: (3, 3)
x['a'].dtype: int32


### Basic Slicing (Slicing básico )

As matrizes NumPy podem ser fatiadas, semelhantes às listas. Você deve especificar uma fatia para cada dimensão da matriz, pois as matrizes podem ser multidimensionais. A sintaxe básica da fatia é i: j: k, onde i é o índice inicial, j é o índice de parada e k é o passo e k não é igual a 0. Isso seleciona os elementos m na dimensão correspondente, com valores de índice i, i + k, ...,i + (m - 1) k onde m = q + (r não igual a 0) e q e r são o quociente e o restante é obtido dividindo j - i por k: j - i = q k + r, de modo que i + (m - 1) k < j

In [84]:
x = np.array([5, 6, 7, 8, 9])
print(x)
print(x[1:7:2])

[5 6 7 8 9]
[6 8]


O k negativo faz com que o passo vá em direção a índices menores. Negativo i e j são interpretados como n + i e n + j, onde n é o número de elementos na dimensão correspondente.

In [69]:
print(x[-2:5])
print(x[-1:1:-1])

[8 9]
[9 8 7]


Se __n__ é o número de itens na dimensão que estão sendo cortados. Então, se não for dado, o padrão é __0__ para __k > 0__ e __n - 1__ para __k < 0__. Se __j__ não for fornecido, o padrão é __n__ para __k > 0__ e __-1__ para __k < 0__. Se __k__ não for fornecido, o padrão é __1__. Observe que :: é o mesmo que : e significa selecionar todos os índices ao longo deste eixo. 

In [70]:
print(x[4:])

[9]


Se o número de objetos na tupla de seleção for menor que N, então : é assumido para quaisquer dimensões subsequentes.

In [77]:
y = np.array([[[1],[2], [3]], [[4], [5], [6]]])
print(f"Shape de y: {y.shape}")
y[1:3]

Shape de y: (2, 3, 1)


array([[[4],
        [5],
        [6]]])

As reticências se expandem para o número de: objetos necessários para fazer uma tupla de seleção do mesmo comprimento que x.ndim. Pode haver apenas uma única reticência presente.

In [85]:
x[...,0]

array(5)

In [108]:
# Create a rank 2 array with shape (3, 4)
a = np.array([[5, 6, 7, 8], [1, 2, 3, 4], [9, 10, 11, 12] ])
print(f"Array a: \n{a}")

Array a: 
[[ 5  6  7  8]
 [ 1  2  3  4]
 [ 9 10 11 12]]


Use fatiamento para extrair a sub matriz que consiste nas primeiras 2 linhas # e nas colunas 1 e 2; b é a seguinte matriz de formas (2, 2): 
```
[2 3] 
[6 7]]
```

In [109]:
b = a[:2,1:3]
print(b)

[[6 7]
 [2 3]]


Uma fatia de uma matriz é uma visão nos mesmos dados, portanto, modificá-la modificará a matriz original.

In [111]:
print(a[0,1])   #  6
b[0,0] = 77
print(b[0,0])

6
77


A matriz de linhas do meio pode ser acessada de duas maneiras.
1) Fatias, juntamente com a indexação inteira, resultarão em um array de classificação mais baixa. 
2) Usar apenas fatias resultará na mesma matriz de classificação.

In [120]:
row_r1 = a[1,:] # Rank 1 da segunda linha de um
row_r2 = a[1:2] # Rank 2 da segunda fileira de um
print(f"{row_r1}, {row_r1.shape}") # Prints "[5 6 7 8] (4,)"
print(f"{row_r2}, {row_r2.shape}") # Prints "[5 6 7 8] (1,4)"

[1 2 3 4], (4,)
[[1 2 3 4]], (1, 4)


Podemos fazer a mesma distinção ao acessar colunas de uma matriz:

In [135]:
col_r1 = a[:,1]
col_r2 = a[:,1:2]
print(f"{col_r1}, {col_r1.shape}")
print(f"\n{col_r2}, {col_r2.shape}")

[77  2 10], (3,)

[[77]
 [ 2]
 [10]], (3, 1)


In [132]:
a

array([[ 5, 77,  7,  8],
       [ 1,  2,  3,  4],
       [ 9, 10, 11, 12]])