# NumPy EEEEii -- Uyanê

## O que é o NumPy?

O NumPy é uma poderosa biblioteca Python usada principalmente para realizar cálculos em Arrays Multidimensionais. O NumPy fornece um grande conjunto de funções e operações de biblioteca que ajudam os programadores a executar facilmente cálculos numéricos. Esses tipos de cálculos numéricos são amplamente utilizados em tarefas como:

* `Tarefas matemáticas`: NumPy é bastante útil para executar várias tarefas matemáticas como integração numérica, diferenciação, interpolação, extrapolação e muitas outras. O NumPy possui também funções incorporadas para álgebra linear e geração de números aleatórios. É uma biblioteca que pode ser usada em conjuto do <a href='https://github.com/scipy/scipy'>SciPy</a> e Matplotlib, substituindo o MATLAB quando se trata de tarefas matemáticas.

* `Processamento de Imagem e Computação Gráfica`: Imagens no computador são representadas como Arrays Multidimensionais de números. NumPy torna-se a escolha mais natural para o mesmo. O NumPy, na verdade, fornece algumas excelentes funções de biblioteca para rápida manipulação de imagens. Alguns exemplos são o espelhamento de uma imagem, a rotação de uma imagem por um determinado ângulo etc.

* `Modelos de Machine Learning`: Ao escrever algoritmos de Machine Learning, supõe-se que se realize vários cálculos numéricos em Array. Por exemplo, multiplicação de Arrays, transposição, adição, etc. O NumPy fornece uma excelente biblioteca para cálculos fáceis (em termos de escrita de código) e rápidos (em termos de velocidade). Os Arrays NumPy são usados para armazenar os dados de treinamento, bem como os parâmetros dos modelos de Machine Learning.


## Instalando

Existem diversas formas de instalar o numpy. A mais simples é instalar o pacote Anaconda (https://www.anaconda.com/distribution/) que já vem com o Python e diversas bibliotecas científicas e ciência de dados instaladas.

Outra forma, caso você já tenha o python instalado mas não o numpy, é o utilizar o gerenciador e pacotes pip, através do comando no seu **terminal**:

`$ pip install numpy`

ou dentro do jupyter

`!pip install numpy`

In [1]:
!pip install numpy



## Explorando a API do NumPy
### Importando numpy com o alias np

`np` é uma abreviação amplamente utilizada na comunidade python para o numpy.

In [3]:
import numpy as np

### 1D arrays

Array unidimensional, também chamado de vetor ou até mesmo matriz de 1 dimensão:


In [3]:
#Cria um array 
a = np.array([7, 2, 3])
print(a)

[7 2 3]


In [4]:
#Localiza o elemento no índice
a[0]

7

In [5]:
#Sem colocar o print ele mostra em um outro formato:
a

array([7, 2, 3])

Checando o tipo da variável a:

In [7]:
type(a)
#retorna o tipo da variável

numpy.ndarray

o nd significa n-dimensional


### Checando o tipo de dados do array

Diversos tipos de dados são possíveis em um array numpy, os mais comuns são os numéricos:

    int32
    int64
    float32
    float64


In [9]:
#Checando o tipo dos dados
a.dtype

dtype('int32')

### Substituindo elementos
Se trocarmos um elemento na posição 0 para o valor 10, dará certo:

In [10]:
a[0] = 10
print(a)

[10  2  3]


Mas, se trocarmos para ponto flutuante, o numpy irá truncar a parte decimal, dado que o array que criamos é inteiro.

In [15]:
a[0] = 2.99
#Não será aceito a troca acima, pois o array a é do tipo int, 
#então ele trasnformaria o ponto flutuante em um inteiro (desconsiderando os decimais)
print(a)

[2 2 3]


E se quisermos um dos elementos sendo um texto como fazíamos com as listas?

In [16]:
lista = [1, 2, 'LC', 4]
array = np.array([1, 2, 'LC', 4])

print("Essa é a lista: ", lista)
print("Esse é o array: ", array)

#Os arrays transformam todos os dados no mesmo tipo para melhor desempenho, 
#por isso todos foram transformados em string

Essa é a lista:  [1, 2, 'LC', 4]
Esse é o array:  ['1' '2' 'LC' '4']


In [19]:
#Sim, ele transforma todas as dimensões do array
teste = np.array([[1,2,1.4,4], [2,'lc',4,5]])
print(teste)

[['1' '2' '1.4' '4']
 ['2' 'lc' '4' '5']]


O array converte todos os elementos para string. **O numpy não aceita dados com tipos diferentes.** Ter um tipo único, permite o numpy ser muito mais rápido.

### Porque usar numpy e não listas?
#### Numpy x Lists

    Tamanho - Numpy necessita de menos espaço
    Performance - escrito para ter alta performance
    Funcionalidade - SciPy e NumPy possuem operações de algebra linear built in.

<a href="https://webcourses.ucf.edu/courses/1249560/pages/python-lists-vs-numpy-arrays-what-is-the-difference" target="_blank">Referência</a> 

#### Tempo de processamento

In [22]:
"""
Código comparando performance entre numpy e listas em uma soma de arrays
"""

import time
import numpy as np

size_of_vec = 10000

#Versão usando lista em python:
def pure_python_version():
    t1 = time.time()
    X = range(size_of_vec)
    Y = range(size_of_vec)
    Z = [X[i] + Y[i] for i in range(len(X)) ]
    return time.time() - t1

#Versão usando numpy:
def numpy_version():
    t1 = time.time()
    X = np.arange(size_of_vec)
    Y = np.arange(size_of_vec)
    Z = X + Y
    return time.time() - t1

#t1 é o tempo gasto para fazer usando listas
t1 = pure_python_version()

#t2 é o tempo gasto para fazer usando numpy
t2 = numpy_version()

#Comparação entre os tempos:
print(f"Listas: {t1} \nNumpy: {t2}")
print("Numpy is in this example " + str(t1/t2) + " faster!")

Listas: 0.00598454475402832 
Numpy: 0.000997781753540039
Numpy is in this example 5.997849462365592 faster!


#### Diferença visual

In [23]:
lista = [1, 2, 3, 4]
array = np.array([1, 2, 3, 4])

#Observe que a lista é mostrada com vírgula 
print("Essa é a lista: ", lista)
print("Esse é o array: ", array)

Essa é a lista:  [1, 2, 3, 4]
Esse é o array:  [1 2 3 4]


Repare que no array não temos a separação por vírgulas.
<br>



### 2D arrays

Matrizes podem ser consideradas um array de 2 dimensões.
_________________________________________________________________________________

Observação:

O NumPy possui também uma estrutura, matriz, mas não é recomendado utilizá-la pela própria documentação oficial e poderá ser removida no futuro.
_________________________________________________________________________________

Para criar uma matriz, basta aninhar múltiplas listas dentro de uma lista, como o exemplo a seguir:


In [220]:
b = np.array([[9.0, 8.0, 7.0],
              [6.0, 5.0, 4.0]])
print(b)

[[9. 8. 7.]
 [6. 5. 4.]]


### Exemplo 3D


<img src="tensor_3-2-5.png"  style="width: 500px" />

In [25]:
c = np.array([[[0,   1,  2,  3,  4], [ 5,  6,  7,  8,  9]], 
              [[10, 11, 12, 13, 14], [15, 16, 17, 18, 19]],
              [[20, 21, 22, 23, 24], [25, 26, 27, 28, 29]]])
c

array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9]],

       [[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]],

       [[20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29]]])

### Propriedades
#### Dimensão e formato

Dois conceitos importantes já mencionados acima é o de dimensão, formato e tamanho.

Para descobrir essas informações, basta acessar os atributos `ndim`, `shape` e `size`

In [39]:
a = np.array([1,2,3,4,5,6])
a

array([1, 2, 3, 4, 5, 6])

In [40]:
#Mostra o número de dimensões:
print(a.ndim)

#Mostra o formato (linhas, colunas):
#Se for de uma dimensão o shape só trás o número de colunas. 
print(a.shape)

#Mostra o número de linhas:
print(a.size)

1
(6,)
6


In [32]:
b

array([[9., 8., 7.],
       [6., 5., 4.]])

In [33]:
#Número de dimensões
print(b.ndim)

#Mostra o dormato (linhas, colunas):
print(b.shape)

#Mostra o tanto de elementos:
print(b.size)

2
(2, 3)
6


In [41]:
c

array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9]],

       [[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]],

       [[20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29]]])

In [42]:
print(c.ndim)
print(c.shape)
print(c.size)

3
(3, 2, 5)
30


### Acessando e modificando elementos (Indexing & Slicing)

Dada a matriz a abaixo:

In [219]:
a = np.array([[1, 2,3, 4, 5, 6, 7], 
              [8, 9, 10, 11, 12, 13, 14],
            [15, 16, 17, 18, 19, 20, 21]])
print(a)

[[ 1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14]
 [15 16 17 18 19 20 21]]



Podemos acessar um elemento específico de forma similar a lista, utilzando a sintaxe de colchetes, com a diferença de que podemos separar cada posição com vírgulas: <br> <br>
$ array[IndiceLinha, IndiceColuna] $

Para uma array 2D, temos então a sintaxe:

Exemplo:


In [48]:
a = np.array([[1,2,7,9,3],[4,5,4,3,8]])

In [59]:
a[1, 4]

8

Podemos também fazer dessa forma (menos comum):

In [55]:
a[1][4] # = a[1, 4]

8

Usar números negativos funciona de trás pra frente a indexação:


In [58]:
a[1, -4]

5

Para pegar uma linha específica, podemos utilizar a sintaxe  `:` que pode ser lida como "todos" daquela dimensão (colunas).

Podemos ler então como: linha um, todas as colunas


In [60]:
#Fazendo slicers no array
#Pegando toda a linha 1 (o 2 é exclusivo)
a[1:2]

array([[4, 5, 4, 3, 8]])

In [67]:
#Pegando a linha 0 e 1 (o 2 é exclusivo) e os elementos da coluna 1 e 2 (o 3 é exclusivo):
a[0:2, 1:3]

array([[2, 7],
       [5, 4]])

Também podemos fazer assim simplesmente:


In [64]:
#Pegando toda a linha 1:
a[1]

array([4, 5, 4, 3, 8])

Porém, para coluna específica não tem jeito, precisamos usar `:`.

Leia-se: todas as linhas, coluna 2


In [69]:
#Mostrando o array:
a

array([[1, 2, 7, 9, 3],
       [4, 5, 4, 3, 8]])

In [70]:
#Pegando todas as linhas, mas só a coluna 2:
a[:, 2]

array([7, 4])

O operador `:` também conhecido como slicing, aceita o parâmetro:

    start
    end
    step

No formato

$ [ startindex : endindex : stepsize ] $ 

O stepsize basicamente é quantos elementos deve ser pular. Podemos pegar do elemento 1 ao 6 pulando de 2 em 2 por exemplo da linha 0.


In [80]:
array1 = np.array([[ 1,  2,  3,  4,  5,  6,  7],
                   [ 8,  9, 10, 11, 12, 13, 14],
                   [15, 16, 17, 18, 19, 20, 21]])
print(array1)

[[ 1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14]
 [15 16 17 18 19 20 21]]


In [83]:
array1.ndim

2

In [85]:
array1.shape

(3, 7)

In [86]:
array1.size

21

In [91]:
#Linha 0, pegando os elementos de 1 a 5, pulando de 2 em 2.
array1[:, 1:6:2]

array([[ 2,  4,  6],
       [ 9, 11, 13],
       [16, 18, 20]])

Funciona com negativo também:


In [93]:
array1

array([[ 1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19, 20, 21]])

In [95]:
# negativo na coluna
array1[0, 1:-2]

array([2, 3, 4, 5])

In [96]:
# negativo no step
array1[0, -1:1:-2]

array([7, 5, 3])

Para mudar um elemento específico, basta usar o operador `=`

In [97]:
array1

array([[ 1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19, 20, 21]])

In [101]:
array1[1,5] = -9
array1

array([[ 1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, -9, 14],
       [15, 16, 17, 18, 19, 20, 21]])

Mudando uma coluna inteira para ser 5:


In [102]:
array1[:, 2] = 0
print(array1)

[[ 1  2  0  4  5  6  7]
 [ 8  9  0 11 12 -9 14]
 [15 16  0 18 19 20 21]]


In [104]:
array1[0]

array([1, 2, 0, 4, 5, 6, 7])

Isso mostra uma característica fundamental do array do NumPy:

Ao alterar o pedaço da matriz recortada, você altera a matriz original enquanto slicing em listas geram cópias!

In [105]:
array2 = np.array([[ 1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19, 20, 21]])
array2

array([[ 1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19, 20, 21]])

In [106]:
matriz = np.array([[1, 2,3, 4, 5, 6, 7], 
              [8, 9, 10],
            [15, 16, 17, 18, 19, 20, 21]], dtype=object)

In [107]:
matriz

array([list([1, 2, 3, 4, 5, 6, 7]), list([8, 9, 10]),
       list([15, 16, 17, 18, 19, 20, 21])], dtype=object)

De array para lista

In [108]:
array2[1:,4:6].tolist()

[[12, 13], [19, 20]]

### Cópias do array

Um dos detalhes do numpy que pode facilmente levar à problemas é que se você faz um slide do array você não obtém um vetor totalmente novo. Ele é uma "view" do array original o que significa que eles compartilham dos mesmos dados.

Esse é o mesmo conceito de que as variáveis são apenas ponteiros e que variáveis distintas podem apontar para o mesmo objeto. This is similar to the idea that variables are just pointers, and that different variables may point to the same object (<a href="https://www.practicaldatascience.org/html/exercises/%5B../python_v_r.ipynb%5D">Python v. R / Variables as Pointers tutorial</a>). No caso de slices as duas variáveis acessam o mesmo dado mas apresentam ele de form distinta. Por exemplo:


In [109]:
my_array = np.array([1, 2, 3, 4])
my_array

array([1, 2, 3, 4])

In [111]:
print(my_array)

[1 2 3 4]


In [110]:
my_slice = my_array[1:3]
my_slice

array([2, 3])

Uma vez que tanto my_array quanto my_slice apontam para o mesmo dado, mudanças que fizermos em um será propagada para o outro. Se modificarmos a entrada 2 no my_slice, essa mudança irá aparecer no my_array:

In [112]:
my_slice[0] = -1
my_slice

array([-1,  3])

In [113]:
my_array

array([ 1, -1,  3,  4])

Apesar de o my_array e o my_slice estarem acessando o mesmo dado eles estão indexados diferentes. Nós mudamos o índice 0 no my_slice e a mudança no my_array foi no índice 1. <br>
O mesmo não acontece com as listas

In [114]:
x = [1, 2, 3]
y = x[0:2]
y[0] = "a change"
y

['a change', 2]

In [115]:
x

[1, 2, 3]

Caso você não queira uma view você pode fazer o slice utilizando uma lista:

In [116]:
my_array = np.array([1, 2, 3])
my_slice = my_array[[1,2]]
my_slice[0] = -1
my_array

array([1, 2, 3])

In [117]:
my_slice

array([-1,  3])

Ou utilizar uma cópia

In [124]:
#Fazendo uma cópia direciona para um outro endereço de memória
my_array = np.array([1, 2, 3])
my_slice = np.copy(my_array[[1,2]])
my_slice[0] = -1
print(my_array)
print(my_slice)

[1 2 3]
[-1  3]


In [125]:
#O mesmo funciona para dicionários, é necessário fazer o copy():
dict1 = {'a':1, 'b':2, 'c':3}
dict2 = dict1.copy()
dict2['c']=10
dict1

{'a': 1, 'b': 2, 'c': 3}

### Inicializando arrays usando métodos internos

O NumPy já possui diversos métodos built-in para gerar arrays dos mais diversos tipos
array apenas com zeros

In [127]:
#Cria um array de dimensão 1 com zeros
np.zeros(3)

array([0., 0., 0.])

É possível gerar um array de qualquer formato, basta apenasr passar o formato como uma sequência (lista, tupla geralmente) como argumento


In [128]:
np.zeros([2,3])

array([[0., 0., 0.],
       [0., 0., 0.]])

In [130]:
np.zeros((5, 2, 3))

array([[[0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.]]])

array apenas com 1

In [133]:
np.ones((4, 2, 2), dtype='int32')

array([[[1, 1],
        [1, 1]],

       [[1, 1],
        [1, 1]],

       [[1, 1],
        [1, 1]],

       [[1, 1],
        [1, 1]]])

Um coisa muito comum é usar o np.ones para criar uma matriz de qualquer número fazendo a operação, exemplo:

In [135]:
np.ones((2, 2)) * 3

array([[3., 3.],
       [3., 3.]])

Mas o numpy já tem uma opção mais elegante, o full:


In [150]:
np.full((2, 2), 8)

array([[8, 8],
       [8, 8]])

Qualquer outro número copiando o formato de uma matriz existente


In [139]:
c

array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9]],

       [[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]],

       [[20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29]]])

In [140]:
np.full_like(c, 4)

array([[[4, 4, 4, 4, 4],
        [4, 4, 4, 4, 4]],

       [[4, 4, 4, 4, 4],
        [4, 4, 4, 4, 4]],

       [[4, 4, 4, 4, 4],
        [4, 4, 4, 4, 4]]])

### Números aleatórios
#### Números decimais aleatórios

O numpy tem um sub-módulo chamado random, que pode ser acessando via `np.random`. Embora o Python possua uma biblioteca padrão também chamada `random`, a biblioteca do *NumPy tem mais funcionalidades e gera diretamente vetores aleatórios*.

Cria um vetor segundo uma distribuição uniforme no intervalo [0,1):


In [145]:
#Criando uma matriz 4x2 com números sorteados entre 0 1
np.random.rand(4, 2)

array([[0.88319922, 0.39030857],
       [0.52773707, 0.57333501],
       [0.68778928, 0.11670056],
       [0.77946504, 0.19288711]])

In [155]:
#Criando uma matriz 2x2 com o número que será sorteado no random
np.full((2, 2),np.random.randint(25))

array([[6, 6],
       [6, 6]])

Cria um vetor em que cada elemento segue uma distribuição normal com $\mu=10.0$ e $\sigma=1.0$

In [161]:
#Cria uma matriz com média 10 e desvio padrão 1, de 4x4:
v = np.random.normal(10, 1, (4,4))
print(v)

[[ 9.51943862  9.72340709 11.02156178 10.24468312]
 [10.74346949  9.91300447 10.65710556 11.34693884]
 [ 9.47295799  8.6131651  11.08051267 11.18319085]
 [ 9.84090336 10.23941389  9.53185829 10.27116007]]


#### Números aleatórios inteiros:


Os argumentos principais são low, high e size, exemplo: criando uma matriz de 0 a 99 de 100 elementos:


In [164]:
#Sorteia 100 números aleatórios entre 0 e 100:
np.random.randint(low=0, high=100, size=100)

array([38, 72, 34, 91,  3, 95,  4, 73, 36, 27, 59,  6, 82, 14, 20, 76, 64,
       33, 96, 55, 13, 73, 43, 54, 37,  2, 96, 68, 60, 87, 10, 18, 43, 52,
        6, 95, 30,  3, 14, 34, 37, 72, 50, 69, 86, 85, 87, 62, 88, 66, 46,
       39, 78, 77, 86, 43, 79,  5, 19, 27, 82, 17, 91, 72, 42, 23, 18, 92,
       68, 66, 26, 83, 95, 78, 13, 32, 53, 35, 70, 92, 47, 27, 61, 11, 46,
       29, 54, 24, 16,  8, 10, 86, 67, 66, 74, 94, 94, 72, 29, 54])

Para incluir o 100, basta trocar o high por 101

In [167]:
#Cria uma matriz 3x3 com números aleatórios entre 0 e 7
np.random.randint(7, size=(3, 3))

array([[4, 5, 2],
       [2, 1, 4],
       [4, 2, 6]])

Note que toda vez que rodarmos o código, os tensores terão valores diferentes. Podemos evitar esse comportamento, de forma que toda vez que o código é executado o tensor aleatório tenha o mesmo valor por meio da função seed, cujo argumento é a semente para o gerador de números aleatórios do Python:

In [173]:
#Se quisermos sempre sortear o mesmo valor:

np.random.seed(1000) #Usando isso sempre sortearemos o mesmo vetor
v = np.random.rand(4)
print(v)

np.random.seed(1000)
v = np.random.rand(4)
print(v)


[0.65358959 0.11500694 0.95028286 0.4821914 ]
[0.65358959 0.11500694 0.95028286 0.4821914 ]


### Criar ranges

#### arange

Método que retorna elementos igualmente espaçados num step (por padrão, 1) dentro de um certo intervalo.


In [175]:
#Retorna números igualmente espaçados, por padrão 1 de diferença:
np.arange(0, 100)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

Step diferente de 1:


In [180]:
#Retorna números igualmente espaçados do 0 ao 5 (exclusivo) de passo 0.1:
np.arange(0, 5, 0.1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. , 1.1, 1.2,
       1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2. , 2.1, 2.2, 2.3, 2.4, 2.5,
       2.6, 2.7, 2.8, 2.9, 3. , 3.1, 3.2, 3.3, 3.4, 3.5, 3.6, 3.7, 3.8,
       3.9, 4. , 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9])

#### linspace

Parecido com o arange, mas você diz quantos pontos você quer e o intervalo e ele define o espaçamento linear


In [190]:
#Cria um arange com inicio em 0, fim em 100 (incluso), tendo 11 elementos igualmente espaçados.
#Retstep é apenas para mostrar o padrão de espaçamento entre os elementos. 
np.linspace(0, 100, num=11, retstep=True)

(array([  0.,  10.,  20.,  30.,  40.,  50.,  60.,  70.,  80.,  90., 100.]),
 10.0)

#### logspace  
Parecido com o linespace, o logspace retorna números espaçados igualmente em uma escala log.

In [198]:
#O código seguinte mostrará o 2, 32, 512, pois seria: 2^1, 2^5 e 2^9
# [1, 5, 9] seria a distribuição de 3 números com espaçamento igual
np.logspace(1, 9, num=3, base=2.0)

array([  2.,  32., 512.])

### Matemática


#### Operação com escalares

In [204]:
array3 = np.array([1, 2, 3, 4])
array3

array([1, 2, 3, 4])

##### Soma

In [205]:
#Todos os elementos do array somam + 2
array3 + 2

array([3, 4, 5, 6])

##### Subtração:


In [206]:
#Todos os elementos do array subtraem - 2
array3 - 2

array([-1,  0,  1,  2])

##### Multiplicação

In [207]:
#Todos os itens são multiplicados por 2
array3*2

array([2, 4, 6, 8])

##### Divisão

In [209]:
#Todos os itens são divididos por 2
array3/2

array([0.5, 1. , 1.5, 2. ])

##### Incrementar

In [212]:
#Todos os elementos somarão dois
array3 += 2
array3

array([5, 6, 7, 8])

##### Potência

In [213]:
##Todos os elementos serão elevados a 2:
array3**2

array([25, 36, 49, 64], dtype=int32)

#### Operação entre arrays

Tudo que você consegue fazer com escalar, você consegue fazer com arrays elemento-a-elemento desde que os arrays tenham exatamente o mesmo tamanho, por exemplo, para soma:


In [217]:
arA = np.array([1, 2, 3, 4])
arB = np.array([1, 0, 1, 0])

# Exemplo de soma (Soma elemento 0 com elemento 0, elemento 1 com elemento 1...)
arA + arB

#Dá erro se os arrays não tiverem a mesma dimensão

array([2, 2, 4, 4])

In [218]:
# Exemplo de multiplicação
arA*arB

array([1, 0, 3, 0])

In [221]:
# Exemplo de potenciação
#Eleva o elemento 0 ao expoente do outro eleemnto 0
arA**arB

array([1, 1, 3, 1], dtype=int32)

In [6]:
#Colocando mais dimensões nos nossos arrays:
arA2 = np.array([[1, 2, 3, 4],[2, 3, 4, 5]])
arB2 = np.array([[1, 0, 1, 0],[1, 0, 1, 0]])

In [223]:
arA2

array([[1, 2, 3, 4],
       [2, 3, 4, 5]])

In [224]:
arB2

array([[1, 0, 1, 0],
       [1, 0, 1, 0]])

In [226]:
#A soma funciona normalmente:
arA2+arB2

array([[2, 2, 4, 4],
       [3, 3, 5, 5]])

In [227]:
#A multiplicação é elemento a elemento
arA2*arB2

array([[1, 0, 3, 0],
       [2, 0, 4, 0]])

### Funções matemáticas
O NumPy oferece diversas funções matemáticas clássicas, como exponencial, logaritmo, seno, cosseno etc. Essas funções são aplicadas a todos os elementos do array
##### Função seno:

In [9]:
#Mostrando o array
arA2

array([[1, 2, 3, 4],
       [2, 3, 4, 5]])

In [11]:
#Retorna o seno de cada elemento do array. O elemento sendo escalar
np.sin(arA2)

array([[ 0.84147098,  0.90929743,  0.14112001, -0.7568025 ],
       [ 0.90929743,  0.14112001, -0.7568025 , -0.95892427]])

##### Função cosseno

In [14]:
#Retorna o cosseno de cada elemento do array. O elemento sendo escalar
np.cos(arA2)

array([[ 0.54030231, -0.41614684, -0.9899925 , -0.65364362],
       [-0.41614684, -0.9899925 , -0.65364362,  0.28366219]])

#### Exponencial

In [19]:
#Retorna a exponencial de cada elemento
np.exp(arA2)

array([[  2.71828183,   7.3890561 ,  20.08553692,  54.59815003],
       [  7.3890561 ,  20.08553692,  54.59815003, 148.4131591 ]])

#### Log

In [22]:
#Retorna o log de cada elemento
np.log(arA2)

array([[0.        , 0.69314718, 1.09861229, 1.38629436],
       [0.69314718, 1.09861229, 1.38629436, 1.60943791]])

In [23]:
arA2

array([[1, 2, 3, 4],
       [2, 3, 4, 5]])

### Estatística

O numpy vem com várias funções básicas de estatística como mínimo, máximo, média, mediana, etc.
Todos esses métodos aceitam o argumento `axis`. Para `axis=1` a conta é feita considerando-se as **linhas**. Para `axis=0` a conta é feita considerando-se as **colunas**.

In [24]:
stats = np.array([[3, 4, 7], [1, 5, 10]])
stats

array([[ 3,  4,  7],
       [ 1,  5, 10]])

In [25]:
#Mostra o valor mínimo do array:
np.min(stats)

1

In [26]:
#Mostra o valor máximo do array:
stats.max()

10

In [28]:
#Mostra a soma dos elementos do array:
stats.sum()

30

In [29]:
#Mostra o local do maior valor:
stats.argmax()

5

In [30]:
#Mostra o local do menor valor
stats.argmin()

3

Mínimo por linha:


In [31]:
stats

array([[ 3,  4,  7],
       [ 1,  5, 10]])

In [32]:
#Retorna um array com o valor mínimo em cada linha (axis = 1)
np.min(stats, axis=1) 

array([3, 1])

Máximo por coluna:

In [33]:
#Retorna um array com o valor máximo em cada coluna (axis = 0)
stats.max(axis=0)

array([ 3,  5, 10])

Soma por coluna:

In [34]:
#Retorna um array com a soma de cada coluna (axis = 0)
np.sum(stats, axis=0)

array([ 4,  9, 17])

In [36]:
#Outra forma de chamar a soma de cada coluna:
stats.sum(axis=0)

array([ 4,  9, 17])

Média:


In [37]:
#Retorna a média de todos os valores:
np.mean(stats)

5.0

In [38]:
#Retorna a média por linha (axis = 1)
np.mean(stats, axis=1)

array([4.66666667, 5.33333333])

In [39]:
#Retorna a média por coluna (axis = 0)
np.mean(stats, axis=0)

array([2. , 4.5, 8.5])

Desvio padrão

In [40]:
#Retorna o desvio padrão de todos os elementos:
stats.std()

2.886751345948129

### Reorganizar Array

Muitas vezes você quer mudar o formato de array, por exemplo, de 4 elementos pra uma matriz 2x2, ou situações similares.

Para isso, você pode utilizar a função `reshape`.


In [41]:
#Apenas criando e mostrando um array:
before = np.array([[1,2,3,4],[5,6,7,8]])
print(before.shape)
before

(2, 4)


array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [48]:
#Usando reshape para redefir o formato do array:
#Tem que possuir a mesma quantidade no size!
after = before.reshape((4, 2))
print(after)
print(after.shape)

[[1 2]
 [3 4]
 [5 6]
 [7 8]]
(4, 2)


In [52]:
#Colocando menso -1 ele cria quantas colunas (ou linhas) necessárias para satisfazer o que foi pedido:
before.reshape((-1, 2)) # o -1 representa quantas linhas for preciso para ter 2 colunas

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [56]:
#Será criado um array com 3 dimensões, com os critérios solicitados:
before.reshape(2, 4, -1)

array([[[1],
        [2],
        [3],
        [4]],

       [[5],
        [6],
        [7],
        [8]]])

### Apendar os vetores
#### Verticalmente

In [59]:
v1 = np.array([1,2,3,4])
v2 = np.array([5,6,7,8])

print(v1)
print(v2)

#Adiciona vetores um abaixo do outro (criando uma nova dimensão)
np.vstack([v1, v2])

[1 2 3 4]
[5 6 7 8]


array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

#### Horizontalmente

De forma similar ao anterior:


In [170]:
# para arrays 1D

#Adiciona vetores um ao lado do outro (extendo uma dimensão)
np.hstack((v1,v2))

array([1, 2, 3, 4, 5, 6, 7, 8])

#### para arrays 2D

In [73]:
#Criando um array de 1 nas dimensões dadas:
h1 = np.ones((2, 4))
print(h1)

print()

#Criando um array de zeros nas dimensões dadas:
h2 = np.zeros((1, 4))
print(h2)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]]

[[0. 0. 0. 0.]]


In [72]:
#Adicionando um array na frente do outro:
#linha 0 do primeiro + linha 0 do segundo
#linha 1 do primeiro + linha 1 do segundo

#Precisa ter o mesmo número de linhas, senão dá erro.
np.hstack((h1, h2))

array([[1., 1., 1., 1., 0.],
       [1., 1., 1., 1., 0.]])

In [74]:
#Adicionando na vertical precisaria ter o mesmo número de colunas, senão dá erro:
np.vstack((h1, h2))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [0., 0., 0., 0.]])

### Máscara Booleana e Seleção Avançada

Conceito super importante no numpy e no pandas é o de máscara booleana.

Ao utilizar qualquer operador booleano

    >
    <
    <=
    >=
    ==
    in

o numpy retorna um array de True e False no qual ele aplicou elemento a elemento aquele operador.

Suponha a matriz abaixo:


In [75]:
#Criando uma matriz:
mat = np.array([1, 10, 20, 30]).reshape(2, 2)
mat

array([[ 1, 10],
       [20, 30]])

Eu quero saber todos os elementos maiores que 10, eu posso aplicar:


In [76]:
#Retorna um array com as mesmas dimensões da matriz com valores booleanos para a condição solicitada:
mat > 10

array([[False, False],
       [ True,  True]])

Me é retornado uma matriz de formato (2, 2) com True na posição dos elementos que são maiores que 10.

Os tensores booleanos podem ser usados para filtrar valores em um tensor, por exemplo:


In [77]:
#Retorna apenas os valores que satisfazem as condições:
mat[mat > 10]

array([20, 30])

In [80]:
#Criando uma matriz de valores booleanos:
mat_tf = np.array([[True, False], [False, False]])
mat_tf

array([[ True, False],
       [False, False]])

In [81]:
#Retorna os valores que estiverem como True na matriz informada:
mat[mat_tf]

array([1])

E será retornado um array com os elementos 20 e 30 como esperado.

Podemos fazer operações linha a linha ou coluna a coluna através de métodos auxiliares como any ou all:

    any: se qualquer elemento da linha for True, retorna True
    all: todos os elementos tem que ser True para retornar True

Exemplos:

Por coluna:


In [180]:
#Mostrando a matriz novamente:
mat

array([[ 1, 10],
       [20, 30]])

In [83]:
#Retorna se os elementos das colunas possuem todos valores maiores que 10:
np.all(mat > 10, axis=0)

array([False, False])

Por linha:

In [84]:
#Retorna se os elementos das linhas possuem todos valores maiores que 10:
np.all(mat > 10, axis=1)

array([False,  True])

Geral:

In [85]:
#retorna se todos os elementos são maiores que 10:
np.all(mat > 10)

False

Comparando arrays

In [94]:
#Criando arrays:
u = np.arange(4).reshape(2,2)
v = 2*np.ones((2,2))

In [95]:
u

array([[0, 1],
       [2, 3]])

In [96]:
v

array([[2., 2.],
       [2., 2.]])

In [97]:
#W recebe uma matriz booleana conferindo se os valores de u são maiores que os de v
#As matrizes precisam ter a mesma dimensão
w = u > v
print(w)

[[False False]
 [False  True]]


In [99]:
#Retorna os elementos para o qual a condição é verdadeira:
u[u > v]

array([3])

In [192]:
#Retorna os valores que estão como True na matriz w:
u[w]

array([3])

### Operador AND

Similar ao `and` do python, podemos usar múltiplas condições para filtrar dados da nossa matriz com o operador `&`.


In [101]:
#Mostrando novamente a matriz:
mat

array([[ 1, 10],
       [20, 30]])

In [102]:
#Retorna uma matriz de verdadeiro ou falso em que ambas as condições são satisfeitas:
filt = (mat > 10) & (mat <= 20)
filt

array([[False, False],
       [ True, False]])

In [104]:
#Retorna o valor onde está True na filt:
mat[filt]


array([20])

Observação: note que os colchetes além de melhorarem a legibilidade, são necessárias devido a ordem de precedência dos operadores python. Se não colocarmos os colchetes, dará um erro.


### Operador OR

Similar ao `or`, só que devemos utilizar `|`:


In [106]:
#Retorna uma matriz booleana onde o valor de uma ou a outra condição são satisfeitas:
filt = (mat == 1) | (mat >= 20)

#Mostra os valores True:
mat[filt]

array([ 1, 20, 30])

### Operador NOT

Similar ao `not`, mas devemos utilizar um til `~`.


In [108]:
filt = (mat == 1)

#Quando queremos o oposto usando o not (~):
mat[~filt]

array([10, 20, 30])

### Atribuir valores em determinadas condições
E podemos também atribuir um valor específico aos elementos de um vetor que satisfazem uma certa condições, por exemplo zerar todos os valores negativos:


In [109]:
#Criando um array u:
u = np.array([-1,  2, -3])
print("u =", u)
print()


u = [-1  2 -3]



In [112]:
#No array u, onde o elemento for < 0 ele será 0
u[u < 0]=0

In [113]:
#Mostrando o novo array u:
u

array([0, 2, 0])

Usando **np.where(se condição, recebe valor, se não)**

In [115]:
u = np.array([-1,  2, -3])

# where (condição, valor a receber, senão):
np.where(u<0, 0, u)


array([0, 2, 0])

#### Seleção passando listas

Podemos selecionar elementos específicos de um array passando uma lista de posições:


In [116]:
#Criando novo array:
arrayNovo = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])


In [117]:
#Mostrando array:
arrayNovo

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [28]:
#mostrando as posições que eu quero do array:
a[[1, 2, 5, 8]]

array([2, 3, 6, 9])

#### Nans

In [118]:
arrayNovo2 = np.array([[1, 2, 3, 4, 5], [np.nan, 7, 8, 9,10]])
arrayNovo2

array([[ 1.,  2.,  3.,  4.,  5.],
       [nan,  7.,  8.,  9., 10.]])

In [121]:
#Mostra uma matriz booleana de valores onde True é o valor nan:
np.isnan(arrayNovo2)

array([[False, False, False, False, False],
       [ True, False, False, False, False]])

Checar nan em linhas

In [123]:
#Verifica se nas linhas possui algum valor nan:
np.isnan(arrayNovo2).any(axis=1) 

array([False,  True])

In [125]:
#Verifica quantos nan tem na matriz:
np.isnan(arrayNovo2).sum()

1

### Funcionalidades extras
#### Carregar dados de um arquivo

Vamos supor que temos um arquivo data.txt com o seguinte conteúdo:

1,13,21,11,196,75,4,3,34,6,7,8,0,1,2,3,4,5 <br>
3,42,12,33,766,75,4,55,6,4,3,4,5,6,7,0,11,12 <br>
1,22,33,11,999,11,2,1,78,0,1,2,9,8,7,1,76,88 <br>

Podemos gerar uma matriz a partir desse arquivo da seguinte forma:


In [222]:
#Importando arquivo:
filedata = np.genfromtxt('data.txt', delimiter=',')
filedata

array([[  1.,  13.,  21.,  11., 196.,  75.,   4.,   3.,  34.,   6.,   7.,
          8.,   0.,   1.,   2.,   3.,   4.,   5.],
       [  3.,  42.,  12.,  33., 766.,  75.,   4.,  55.,   6.,   4.,   3.,
          4.,   5.,   6.,   7.,   0.,  11.,  12.],
       [  1.,  22.,  33.,  11., 999.,  11.,   2.,   1.,  78.,   0.,   1.,
          2.,   9.,   8.,   7.,   1.,  76.,  88.]])

O primeiro argumento é o nome do arquivo.

No segundo argumento, delimiter, você especifica o que separa cada número individualmente no arquivo. Nesse caso é a vírgula, mas podería ser ;, espaços, ou tabs.

Podemos notar também que o numpy converteu para float nossos números, apesar de todos serem inteiros. Ele faz isso como uma medida preventiva dado que ele não sabe ao ler o arquivo qual tipo de dado que é.

Podemos importar os dados com um formato especificado usando o argumento `dtype='int'` ou podemos converter manualmente para inteiro usando a função astype:

In [44]:
#Mostrando o tipo do primeiro elemento:
type(filedata[0][0])

numpy.float64

In [45]:
#Transformando os elementos para inteiro:
filedata.astype('int32')

array([[  1,  13,  21,  11, 196,  75,   4,   3,  34,   6,   7,   8,   0,
          1,   2,   3,   4,   5],
       [  3,  42,  12,  33, 766,  75,   4,  55,   6,   4,   3,   4,   5,
          6,   7,   0,  11,  12],
       [  1,  22,  33,  11, 999,  11,   2,   1,  78,   0,   1,   2,   9,
          8,   7,   1,  76,  88]], dtype=int32)

Também podemos avisar o numpy quais são nossas colunas de interesse com o argumento `usecols`

In [223]:
#especificando que quero as colunas 0,1,2 e 3:
np.genfromtxt('data.txt', delimiter=',', usecols=[0,1,2,3], dtype='int')

array([[ 1, 13, 21, 11],
       [ 3, 42, 12, 33],
       [ 1, 22, 33, 11]])

Podemos também salvar uma matriz de uma forma mais otimizada não textual (binária) para uso futuro.

Isso gera um arquivo binário que inclusive salva o tipo de dado, nesse caso, int32.

Quando lido, vai converter corretamente o tipo daquele dado.



In [226]:
np.save('data_saved', filedata.astype('int32'))


Para ler os dados que acabamos de salvar, basta usar o `np.load`:


In [227]:
np.load('data_saved.npy')

array([[  1,  13,  21,  11, 196,  75,   4,   3,  34,   6,   7,   8,   0,
          1,   2,   3,   4,   5],
       [  3,  42,  12,  33, 766,  75,   4,  55,   6,   4,   3,   4,   5,
          6,   7,   0,  11,  12],
       [  1,  22,  33,  11, 999,  11,   2,   1,  78,   0,   1,   2,   9,
          8,   7,   1,  76,  88]])

### Álgebra Linear

Da definição do Wikipédia:

    Álgebra linear é um ramo da matemática que surgiu do estudo detalhado de sistemas de equações lineares, sejam elas algébricas ou diferenciais. A álgebra linear utiliza alguns conceitos e estruturas fundamentais da matemática como vetores, espaços vetoriais, transformações lineares, sistemas de equações lineares e matrizes.

O numpy nos permite executar diversas operações de álgebra linear, mostradas a seguir:


In [228]:
#Criando vetor de 1s:
a = np.ones((2, 3))
print(a)
print()

#CRiando vetor cheio de 2s:
b = np.full((3, 2), 2)
print(b)
print()

#Criando matriz identidade de ordem 5:
c = np.identity(5)
print(c)

[[1. 1. 1.]
 [1. 1. 1.]]

[[2 2]
 [2 2]
 [2 2]]

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


##### Transposição

<img src="transposicao.png"  style="width: 400px" />

A operação de transposição pode ser feita da seguinte forma:

In [229]:
#Pegando a matriz transposta:
np.transpose(a)

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

Ou acessando o atributo T:

In [230]:
#Outra maneira de pegar a matriz transposta:
a.T

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

#### Multiplicação de matrizes

A tradicional multiplicação de matrizes, como mostra a imagem abaixo:

<img src="multiplicacao.gif"  style="width: 400px" />

pode ser feita no numpy simplesmente chamando `matmul`


In [231]:
#Multiplicação de matrizes:
np.matmul(a, b)

array([[6., 6.],
       [6., 6.]])

Operador `@` executa a função anterior:


In [232]:
#Maneira diferente de multiplicar matrizes:
a @ b

array([[6., 6.],
       [6., 6.]])

Se utilizarmos o símbolo * teremos a múltiplicação elemento à elemento e precisaremos de matrizes de mesmo tamanho

In [236]:
a = np.array([[1, 2], [3, 2]])
b = np.array([[4, 5], [2, 1]])
print(a)
print()
print(b)
print("\n Multiplica elemento a elemento:")
print(a * b)
print("\n Multiplica matrizes:")
print(a @ b)

[[1 2]
 [3 2]]

[[4 5]
 [2 1]]

 Multiplica elemento a elemento:
[[ 4 10]
 [ 6  2]]

 Multiplica matrizes:
[[ 8  7]
 [16 17]]


Outras funcções de Álgebra Linear: https://docs.scipy.org/doc/numpy/reference/routines.linalg.html

    Trace
    Decomposição de vetores
    Autovalor/autovetor
    Norma da Matriz
    Inversa
    Etc...


Referências   <br>
<a href="https://github.com/numpy/numpy" target="_blank">NumPy GitHub</a>  <br>
<a href="https://docs.scipy.org/doc/numpy/reference/" target="_blank">Documentação oficial</a>   <br>
<a href="https://docs.scipy.org/doc/numpy/reference/routines.math.html" target="_blank">Funções matemáticas</a>   <br>
<a href="https://docs.scipy.org/doc/numpy/reference/routines.linalg.html" target="_blank">Funções de Álgebra Linear</a>   <br>
<a href="http://www.opl.ufc.br/pt/post/numpy/" target="_blank">Outros</a> 
    

## Outros tópicos
* Broadcasting: operações com vetores de dimensões distintas

<a href="http://www.opl.ufc.br/pt/post/numpy/" target="_blank">Referência</a> 

## Exercícios

1 - Substitua os valores ímpares do seguinte array por 0:  <br>
array = [1, 2, 3, 4, 5, 6, 7, 8, 9] <br>
Utilizando list compreension e duas maneiras distintas com o numpy

In [129]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
[0 if i%2==1 else i for i in arr ]

In [None]:
arr[arr%2==1] = 0
arr

In [None]:
np.where(arr % 2 == 1, 0, arr)

2 - Concatene os vetores abaixo verticalmente e horizontalmente <br>
a = np.arange(10).reshape(2,-1) <br>
b = np.repeat(1, 10).reshape(2,-1)

In [147]:
a = np.arange(10).reshape(2,-1)
b = np.repeat(1, 10).reshape(2,-1)

np.vstack([a,b])

In [None]:
np.hstack([a,b])

3 - Importe as 4 primeiras colunas do dataset do íris com o numpy e print as 10 primeiras linhas <br> 
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'

In [153]:
#Criando variável com o link fornecido:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'

In [154]:
#Colocando o arquivo numa variável chamada arquivo:
#Copiei esse código de paty, porque não sabia fazer
arquivo = np.genfromtxt(url, delimiter=',', usecols=[0,1,2,3])

In [156]:
#Mostrando o arquivo:
arquivo

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [158]:
#Mostrando as 10 primeiras linhas do arquivo:
arquivo[:10]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [None]:
# Input
sepallength = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0])

# Solution
mu, med, sd = np.mean(sepallength), np.median(sepallength), np.std(sepallength)
print(mu, med, sd)

4 - Calcule a média, mediana e desvio padrão da coluna sepallenght

In [163]:
#Coluna sepallength:
sepallength = arquivo[:,0]
sepallength

array([5.1, 4.9, 4.7, 4.6, 5. , 5.4, 4.6, 5. , 4.4, 4.9, 5.4, 4.8, 4.8,
       4.3, 5.8, 5.7, 5.4, 5.1, 5.7, 5.1, 5.4, 5.1, 4.6, 5.1, 4.8, 5. ,
       5. , 5.2, 5.2, 4.7, 4.8, 5.4, 5.2, 5.5, 4.9, 5. , 5.5, 4.9, 4.4,
       5.1, 5. , 4.5, 4.4, 5. , 5.1, 4.8, 5.1, 4.6, 5.3, 5. , 7. , 6.4,
       6.9, 5.5, 6.5, 5.7, 6.3, 4.9, 6.6, 5.2, 5. , 5.9, 6. , 6.1, 5.6,
       6.7, 5.6, 5.8, 6.2, 5.6, 5.9, 6.1, 6.3, 6.1, 6.4, 6.6, 6.8, 6.7,
       6. , 5.7, 5.5, 5.5, 5.8, 6. , 5.4, 6. , 6.7, 6.3, 5.6, 5.5, 5.5,
       6.1, 5.8, 5. , 5.6, 5.7, 5.7, 6.2, 5.1, 5.7, 6.3, 5.8, 7.1, 6.3,
       6.5, 7.6, 4.9, 7.3, 6.7, 7.2, 6.5, 6.4, 6.8, 5.7, 5.8, 6.4, 6.5,
       7.7, 7.7, 6. , 6.9, 5.6, 7.7, 6.3, 6.7, 7.2, 6.2, 6.1, 6.4, 7.2,
       7.4, 7.9, 6.4, 6.3, 6.1, 7.7, 6.3, 6.4, 6. , 6.9, 6.7, 6.9, 5.8,
       6.8, 6.7, 6.7, 6.3, 6.5, 6.2, 5.9])

In [165]:
#Média
sepallength.mean()

5.843333333333334

In [180]:
#Mediana

#Ordenando o array:
ordenado = sorted(sepallength)
print(ordenado)
if sepallength.size%2==1:
    mediana = ordenado[sepallength.size/2+0.5]
else:
    mediana = (ordenado[int(sepallength.size/2)]+ordenado[int(sepallength.size/2+1)])/2
mediana

[4.3, 4.4, 4.4, 4.4, 4.5, 4.6, 4.6, 4.6, 4.6, 4.7, 4.7, 4.8, 4.8, 4.8, 4.8, 4.8, 4.9, 4.9, 4.9, 4.9, 4.9, 4.9, 5.0, 5.0, 5.0, 5.0, 5.0, 5.0, 5.0, 5.0, 5.0, 5.0, 5.1, 5.1, 5.1, 5.1, 5.1, 5.1, 5.1, 5.1, 5.1, 5.2, 5.2, 5.2, 5.2, 5.3, 5.4, 5.4, 5.4, 5.4, 5.4, 5.4, 5.5, 5.5, 5.5, 5.5, 5.5, 5.5, 5.5, 5.6, 5.6, 5.6, 5.6, 5.6, 5.6, 5.7, 5.7, 5.7, 5.7, 5.7, 5.7, 5.7, 5.7, 5.8, 5.8, 5.8, 5.8, 5.8, 5.8, 5.8, 5.9, 5.9, 5.9, 6.0, 6.0, 6.0, 6.0, 6.0, 6.0, 6.1, 6.1, 6.1, 6.1, 6.1, 6.1, 6.2, 6.2, 6.2, 6.2, 6.3, 6.3, 6.3, 6.3, 6.3, 6.3, 6.3, 6.3, 6.3, 6.4, 6.4, 6.4, 6.4, 6.4, 6.4, 6.4, 6.5, 6.5, 6.5, 6.5, 6.5, 6.6, 6.6, 6.7, 6.7, 6.7, 6.7, 6.7, 6.7, 6.7, 6.7, 6.8, 6.8, 6.8, 6.9, 6.9, 6.9, 6.9, 7.0, 7.1, 7.2, 7.2, 7.2, 7.3, 7.4, 7.6, 7.7, 7.7, 7.7, 7.7, 7.9]


5.8

In [181]:
#Desvio padrão:

sepallength.std()

0.8253012917851409

5 - Crie um vetor normalizado da coluna sepallength cujos valores estejam entre 0 e 1

In [187]:
#Não saberia fazer isso, valeu Paty :D
Smax, Smin = sepallength.max(), sepallength.min()
S = (sepallength - Smin)/(Smax - Smin)
S

array([0.        , 0.02777778, 0.02777778, 0.02777778, 0.05555556,
       0.08333333, 0.08333333, 0.08333333, 0.08333333, 0.11111111,
       0.11111111, 0.13888889, 0.13888889, 0.13888889, 0.13888889,
       0.13888889, 0.16666667, 0.16666667, 0.16666667, 0.16666667,
       0.16666667, 0.16666667, 0.19444444, 0.19444444, 0.19444444,
       0.19444444, 0.19444444, 0.19444444, 0.19444444, 0.19444444,
       0.19444444, 0.19444444, 0.22222222, 0.22222222, 0.22222222,
       0.22222222, 0.22222222, 0.22222222, 0.22222222, 0.22222222,
       0.22222222, 0.25      , 0.25      , 0.25      , 0.25      ,
       0.27777778, 0.30555556, 0.30555556, 0.30555556, 0.30555556,
       0.30555556, 0.30555556, 0.33333333, 0.33333333, 0.33333333,
       0.33333333, 0.33333333, 0.33333333, 0.33333333, 0.36111111,
       0.36111111, 0.36111111, 0.36111111, 0.36111111, 0.36111111,
       0.38888889, 0.38888889, 0.38888889, 0.38888889, 0.38888889,
       0.38888889, 0.38888889, 0.38888889, 0.41666667, 0.41666

6 - Filtre a matriz para conter apenas dados nos quais petallength (3ª columna) > 1.5 e sepallength (1ª coluna) < 5.0

In [195]:
condition = (iris[:, 2] > 1.5) & (iris[:, 0] < 5.0)
iris[condition]

7 - Esses dados possuem nans?

In [203]:
#Retorna a quantidade de nans nos dados:
np.isnan(arquivo).sum()


0

8 - Crie uma coluna de volume sabendo que o volume representa (pi x petallength x sepal_length^2)/3

In [207]:
volume = (np.pi*arquivo[:,2]*arquivo[:,0]**2)/3
volume

array([ 27.10775581,  28.38324243,  26.35586797,  30.41061689,
        29.68805058,  37.66979031,  31.02218026,  33.23805027,
        31.02218026,  34.69889086,  34.69889086,  38.60389053,
        33.77840421,  26.54017474,  28.9529179 ,  36.19114737,
        32.68617717,  35.20049849,  42.74346245,  37.71481981,
        42.74346245,  37.71481981,  26.17993878,  44.50589593,
        49.74188368,  41.88790205,  41.88790205,  39.26990817,
        36.65191429,  41.88790205,  41.88790205,  39.26990817,
        40.85641246,  38.13265163,  40.85641246,  32.68512997,
        35.4088908 ,  40.85641246,  35.4088908 ,  40.85641246,
        35.4088908 ,  36.81108832,  36.81108832,  45.30595485,
        53.80082139,  41.1820909 ,  48.85804895,  42.75079283,
        45.80442089,  42.75079283, 143.52051879, 137.41326267,
       155.22085703, 126.71090369, 145.71753925, 142.54976666,
       148.88531184, 104.53649555, 145.71753925, 128.0764493 ,
       114.94040322, 137.92848386, 131.36046082, 154.34

In [213]:
#Maneira de paty:

petal_length = arquivo[:,2]

In [214]:
petal_length

array([1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5, 1.5, 1.6, 1.4,
       1.1, 1.2, 1.5, 1.3, 1.4, 1.7, 1.5, 1.7, 1.5, 1. , 1.7, 1.9, 1.6,
       1.6, 1.5, 1.4, 1.6, 1.6, 1.5, 1.5, 1.4, 1.5, 1.2, 1.3, 1.5, 1.3,
       1.5, 1.3, 1.3, 1.3, 1.6, 1.9, 1.4, 1.6, 1.4, 1.5, 1.4, 4.7, 4.5,
       4.9, 4. , 4.6, 4.5, 4.7, 3.3, 4.6, 3.9, 3.5, 4.2, 4. , 4.7, 3.6,
       4.4, 4.5, 4.1, 4.5, 3.9, 4.8, 4. , 4.9, 4.7, 4.3, 4.4, 4.8, 5. ,
       4.5, 3.5, 3.8, 3.7, 3.9, 5.1, 4.5, 4.5, 4.7, 4.4, 4.1, 4. , 4.4,
       4.6, 4. , 3.3, 4.2, 4.2, 4.2, 4.3, 3. , 4.1, 6. , 5.1, 5.9, 5.6,
       5.8, 6.6, 4.5, 6.3, 5.8, 6.1, 5.1, 5.3, 5.5, 5. , 5.1, 5.3, 5.5,
       6.7, 6.9, 5. , 5.7, 4.9, 6.7, 4.9, 5.7, 6. , 4.8, 4.9, 5.6, 5.8,
       6.1, 6.4, 5.6, 5.1, 5.6, 6.1, 5.6, 5.5, 4.8, 5.4, 5.6, 5.1, 5.1,
       5.9, 5.7, 5.2, 5. , 5.2, 5.4, 5.1])

In [215]:
volume = (np.pi*petal_length*sepallength**2)/3

In [216]:
volume

array([ 27.10775581,  28.38324243,  26.35586797,  30.41061689,
        29.68805058,  37.66979031,  31.02218026,  33.23805027,
        31.02218026,  34.69889086,  34.69889086,  38.60389053,
        33.77840421,  26.54017474,  28.9529179 ,  36.19114737,
        32.68617717,  35.20049849,  42.74346245,  37.71481981,
        42.74346245,  37.71481981,  26.17993878,  44.50589593,
        49.74188368,  41.88790205,  41.88790205,  39.26990817,
        36.65191429,  41.88790205,  41.88790205,  39.26990817,
        40.85641246,  38.13265163,  40.85641246,  32.68512997,
        35.4088908 ,  40.85641246,  35.4088908 ,  40.85641246,
        35.4088908 ,  36.81108832,  36.81108832,  45.30595485,
        53.80082139,  41.1820909 ,  48.85804895,  42.75079283,
        45.80442089,  42.75079283, 143.52051879, 137.41326267,
       155.22085703, 126.71090369, 145.71753925, 142.54976666,
       148.88531184, 104.53649555, 145.71753925, 128.0764493 ,
       114.94040322, 137.92848386, 131.36046082, 154.34

In [217]:
# DAQUI PRA BAIXO EU NÃO SEI O QUE A PATY FEZ.

volume[:,np.newaxis].shape

(150, 1)

In [218]:
volume.reshape(-1,1).shape

(150, 1)

In [220]:
np.hstack((arquivo, volume.reshape(-1,1)))

array([[4.30000000e+00, 3.50000000e+00, 1.40000000e+00, 2.00000000e-01,
        2.71077558e+01],
       [4.40000000e+00, 3.00000000e+00, 1.40000000e+00, 2.00000000e-01,
        2.83832424e+01],
       [4.40000000e+00, 3.20000000e+00, 1.30000000e+00, 2.00000000e-01,
        2.63558680e+01],
       [4.40000000e+00, 3.10000000e+00, 1.50000000e+00, 2.00000000e-01,
        3.04106169e+01],
       [4.50000000e+00, 3.60000000e+00, 1.40000000e+00, 2.00000000e-01,
        2.96880506e+01],
       [4.60000000e+00, 3.90000000e+00, 1.70000000e+00, 4.00000000e-01,
        3.76697903e+01],
       [4.60000000e+00, 3.40000000e+00, 1.40000000e+00, 3.00000000e-01,
        3.10221803e+01],
       [4.60000000e+00, 3.40000000e+00, 1.50000000e+00, 2.00000000e-01,
        3.32380503e+01],
       [4.60000000e+00, 2.90000000e+00, 1.40000000e+00, 2.00000000e-01,
        3.10221803e+01],
       [4.70000000e+00, 3.10000000e+00, 1.50000000e+00, 1.00000000e-01,
        3.46988909e+01],
       [4.70000000e+00, 3.7000

In [221]:
np.concatenate((arquivo, volume.reshape(-1,1)), axis=1)

array([[4.30000000e+00, 3.50000000e+00, 1.40000000e+00, 2.00000000e-01,
        2.71077558e+01],
       [4.40000000e+00, 3.00000000e+00, 1.40000000e+00, 2.00000000e-01,
        2.83832424e+01],
       [4.40000000e+00, 3.20000000e+00, 1.30000000e+00, 2.00000000e-01,
        2.63558680e+01],
       [4.40000000e+00, 3.10000000e+00, 1.50000000e+00, 2.00000000e-01,
        3.04106169e+01],
       [4.50000000e+00, 3.60000000e+00, 1.40000000e+00, 2.00000000e-01,
        2.96880506e+01],
       [4.60000000e+00, 3.90000000e+00, 1.70000000e+00, 4.00000000e-01,
        3.76697903e+01],
       [4.60000000e+00, 3.40000000e+00, 1.40000000e+00, 3.00000000e-01,
        3.10221803e+01],
       [4.60000000e+00, 3.40000000e+00, 1.50000000e+00, 2.00000000e-01,
        3.32380503e+01],
       [4.60000000e+00, 2.90000000e+00, 1.40000000e+00, 2.00000000e-01,
        3.10221803e+01],
       [4.70000000e+00, 3.10000000e+00, 1.50000000e+00, 1.00000000e-01,
        3.46988909e+01],
       [4.70000000e+00, 3.7000

## Mais coisas interessantes...


#### Tipo de dado e tamanho

Na sessão Checando o tipo de dados do array já foi dito dos tipos de dados, mas agora falaremos da diferença de tamanhos que isso ocupa na memória.

Então, temos as variáveis a e b criadas anteriormente com os seguintes tipos:


In [None]:
a.dtype

In [None]:
b.dtype


Por padrão, se o python instalado é 64 bits, ele irá criar tipos int ou float de 64 bits. Caso seu python fosse 32 bits, seria int32 e float32.

Vamos criar uma outra array, a16, com o tipo inteiro de 16 bits.


In [None]:
a16 = np.array([1, 2, 3], dtype=np.int16)
a16


Note que por ser um tipo diferente do padrão, ele ressalta ao imprimir.

Para descobrir quanto cada elemento individualmente ocupa na memória, podemos acessar o atributo itemsize:


In [None]:
a.itemsize


Ele retorna 8 e não 64! Isso é porque ele já converteu os bits para bytes. Bytes é o conjunto de 8 bits.

Logo:

$ 64/8=8 $

Já nosso array int16, temos:


In [None]:
a16.itemsize

Uma vez que:

$ 16/8 = 2 $

In [None]:
# quantidade de elementos total
a.size

Quantidade de elementos vezes o tamanho de cada elemento nos dará o tamanho total de bytes que o array inteiro ocupa:


In [None]:
a.size * a.itemsize


Mas ao invés de calcular isso, podemos simplesmente acessar o atributo `nbytes`, que já é o tamanho total de bytes ocupado pelo array:


In [None]:
a.nbytes

**Observação**

Geralmente não é necessário reduzir o número de bits a não ser que você tenha certeza que um tamanho reduzido vai atender sua necessidade e você quer ser extremamente eficiente.
