In [1]:
import numpy as np

# NumPy: Arrays e Computação vetorizada

O NumPy é um pacote muito importante para alta perfomance na computação científica e análise de dados. O NumPy provê uma série de estruturas e funções performáticas para trabalhar com grandes volumes de dados, tais como:
- **ndarray**, trata-se de um array multidimensional provido de alta perfomance e operações aritméticas de vetores;
- Funções matemáticas básicas para operações de alta performance em todo o array;
- Ferramentas para leitura e escrita em disco;
- Funções da Álgebra linear, geração de números randomicos, e transformações de Fourier;
- Ferramentas para integrar códigos em C, C++ e Fortran.

Na maioria das áreas relacionadas a aplicações de análise de dados, procuraremos por:
- Operações relacionadas a vetores realizadas de forma rápida e performática;
- Algoritmos rápidos para ordenação e manipulação dos dados;
- Formas eficientes de aplicar técnicas estatísticas bem como descrever os dados;
- Manipulação dos conjuntos de dados para juntar dados de conjuntos distintos;
- Expressões lógicas aplicadas ao array no lugar de `loops` com `ìf-else`;
- Funções de agregações e transformações dos dados.

## O ndarray do NumPy: Um objeto de array multidimensional


Uma das principais features do NumPy é o **ndarray**, um array multidimensional, rápido, performático e um 'armazém' flexível para grandes conjuntos de dados. Os arrays permitem que realizemos operações matemáticas sobre todos os elementos dele de forma rápida e simples.

In [2]:
dados = np.array([[1, 2, 3], [4, 5, 6]])
dados

array([[1, 2, 3],
       [4, 5, 6]])

In [3]:
dados * 10

array([[10, 20, 30],
       [40, 50, 60]])

In [4]:
dados + dados

array([[ 2,  4,  6],
       [ 8, 10, 12]])

Como um **ndarray** trata-se de um objeto multidimensional, todo array precisa ter suas dimensões, que por sua vez é armazenada no atributo **shape**, uma tupla com o número de linhas e colunas.

In [5]:
dados.shape

(2, 3)

Além das dimensões também temos um atributo chamado **dtype** que armazena o tipo de dados do array. Quando não especificado o tipo na criação do array, o NumPy trata de escolher o tipo mais adequado aos dados contidos no array.

In [6]:
dados.dtype

dtype('int32')

## Criando **ndarrays**

A forma mais simples de criar um **ndarray** é utilizando a funçaõ **array**. Esta função recebe como parâmetro uma sequência de objetos , incluindo outros arrays, e produz um array NumPy contendo os dados passados.

In [7]:
dados = [[1, 2, 3], [4, 5, 6]]

array1 = np.array(dados)
array1

array([[1, 2, 3],
       [4, 5, 6]])

In [8]:
array1.ndim

2

In [9]:
array1.shape

(2, 3)

In [10]:
array1.dtype

dtype('int32')

Como alternativas para a função **array** temos as funções **zeros** e **ones** que produzem respectivamente arrays contendo 0's e 1's. A dimensão destes arrays é definida por uma tupla passada como parâmetro. Outra função que produz arrays é a função **empty** que aloca espaço para um array, porém o array produzido muitas vezes vem contendo lixo de memória, ou seja, valores aleatórios que ficaram em memória.

In [11]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [12]:
np.ones((2,2))

array([[1., 1.],
       [1., 1.]])

In [13]:
np.empty((3,4))

array([[1.58617605e-311, 2.47032823e-322, 0.00000000e+000,
        0.00000000e+000],
       [0.00000000e+000, 5.64233733e-067, 6.56588818e-091,
        1.68742788e+160],
       [5.44963236e-067, 9.94989916e-043, 3.99910963e+252,
        1.58820939e-047]])

O NumPy também possui sua versão da função **range** chamada de **arange**:

In [14]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

## Operações entre arrays e escalares
Arrays do NumPy são importantes pois permitem expressarmos operações sobre os elementos do array sem a utilização de `loops`. Isso é usualmente chamado de vetorização.

In [15]:
arr = np.array(dados)
arr

array([[1, 2, 3],
       [4, 5, 6]])

In [16]:
arr * arr

array([[ 1,  4,  9],
       [16, 25, 36]])

In [17]:
arr - arr

array([[0, 0, 0],
       [0, 0, 0]])

In [18]:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [19]:
arr ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

## Básico de indexação e slicing
Os arrays do NumPy funcionam superficialmente igual as listas do Python.

In [20]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [21]:
arr[5]

5

In [22]:
arr[5:8]

array([5, 6, 7])

In [23]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

Como você pode ver, se atribuimos um valor escalar a uma parte do array, o valor é propagado (chamado também de `broadcast`) por toda seleção. Uma importante observação é que qualquer mudança realizada em uma cópia ou parte (`slice`) do array, irá refletir no original.

In [24]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [25]:
arr_slice[1] = 3

In [26]:
arr

array([ 0,  1,  2,  3,  4, 12,  3, 12,  8,  9])

In [27]:
arr_slice[:] = 64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

## Indexação utilizando expressões booleanas
Vamos tomar como exemplo um array de nomes e outro de números aleatórios criado utilizando a função **randn** do `numpy.random` para gerar esse array.

In [28]:
nomes = np.array(['Bob', 'Mei', 'Mimi', 'Mimizinho', 'Negão'])
dados = np.random.randn(7, 4)

In [29]:
nomes

array(['Bob', 'Mei', 'Mimi', 'Mimizinho', 'Negão'], dtype='<U9')

In [30]:
dados

array([[-1.44851162,  0.72176479,  0.27650295, -0.60447856],
       [ 0.32386986, -0.99027503, -1.26828189,  0.16915056],
       [-0.15712222, -0.98177724,  0.38098757, -0.27978517],
       [ 0.75342178,  0.14002297,  1.0966477 , -1.23387173],
       [ 1.78059532, -1.27887044,  0.38578834,  0.98077352],
       [-0.98170925, -1.85827773, -0.46181729,  1.15467163],
       [-1.38917252,  0.97293082, -0.13855747,  0.60604627]])

Supondo que queremos encontrar as posições que contém o nome **Bob** no array de nomes. Podemos realizar essa comparação da seguinte forma:

In [31]:
nomes == 'Bob'

array([ True, False, False, False, False])

Esse array retornado pode ser utilizado como índice para o acesso de posições de qualquer array com ao menos uma das dimensões iguais. Por exemplo:

In [32]:
nomes[nomes=='Bob']

array(['Bob'], dtype='<U9')

In [33]:
dados[dados > 1] # Retorna todas as posições com números maiores que 1

array([1.0966477 , 1.78059532, 1.15467163])

Podemos combinar esse tipo de indexação com escalares ou até criar expressões booleanas compostas com os operadores *&*(and) e *|*(or). Vale lembrar que os operadores do Python **and** e **or** não funcionam para indexação.

## Transpondo arrays e alternando eixos
A transposta é uma forma especial de realocar os elementos de um array. Podemos utilizar a função **transpose** ou o atributo **T** para obtermos a transposta de um array.

In [34]:
arr = np.arange(9)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [35]:
arr = arr.reshape((3,3))
arr

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [36]:
arr.transpose()

array([[0, 3, 6],
       [1, 4, 7],
       [2, 5, 8]])

In [37]:
arr.T

array([[0, 3, 6],
       [1, 4, 7],
       [2, 5, 8]])