# Curso sobre NumPy - Parte 2

##  Por que estudar NumPy e Créditos

Numpy é a biblioteca de referência em Python para computação numérica. É relevante para ser usado diretamente e também porque serve como "motor" para várias outras bibliotecas relevantes do universo Python.

Versão 1.0

Tradução do tutorial de NumPy disponível no site Machine Learning Plus. [aqui](https://www.machinelearningplus.com/python/numpy-tutorial-python-part2/)

## Índice

- [Introdução](#Introdução)
- [Como pegar a localização de um índice que satisfaça uma determinada condição usando np.where](#Como-pegar-a-localização-de-um-índice-que-satisfaça-uma-determinada-condição-usando-np.where)
- [Como importar e exportar dados de um arquivo CSV](#Como-importar-e-exportar-dados-de-um-arquivo-CSV])
    - [Como manipular cojunto de dados com colunas de números e texto juntas](#Como-manipular-conjunto-de-dados-com-colunas-de-números-e-texto-juntas)
- [Como salvar e carregar objetos numpy](#Como-salvar-e-carregar-objetos-numpy)
- [Como concatenar dois arrays numpy por linhas e colunas](#Como-concatenar-dois-arrays-numpy-por-linhas-e-colunas)
- [Como ordenar um array numpy baseado em uma ou mais colunas](#Como-ordenar-um-array-numpy-baseado-em-uma-ou-mais-colunas)
    - [Como ordenar um array numpy baseado em uma coluna usando argsort](#Como-ordenar-um-array-numpy-baseado-em-uma-coluna-usando-argsort)
    - [Como ordenar um array numpy baseado em duas ou mais colunas](#Como-ordenar-um-array-numpy-baseado-em-duas-ou-mais-colunas)
-[Trabalhando com datas](#Trabalhando-com-datas)
    -[Como criar uma sequência de datas](#Como-criar-uma-sequência-de-datas)
    -[Como converter numpy.datetime64 para um objeto datetime.datime](#Como-converter-numpy.datetime64-para-um-objeto-datetime.datime)
- [Funções numpy avançadas](#Funções-numpy-avançadas)
    - [Vectorize - Utilizando uma função escalar como vetor](#_Vectorize_---Utilizando-uma-função-escalar-como-vetor)
    - [apply_along_axis - Usando Column Wise e Row wise](#apply_along_axis---Usando-Column-Wise-e-Row-wise)
    - [searchsorted - Encontrole local para inserir na matriz mantendo a organização](#searchsorted---Encontrole-local-para-inserir-na-matriz-mantendo-a-organização)
    - [Como adicionar um eixo novo em um numpy array](#Como-adicionar-um-eixo-novo-em-um-numpy-array)
    - [Mais funções utéis](#Mais-funções-utéis)
- [O que falta no numpy](#O-que-falta-no-numpy)

## Introdução

Continuaremos de onde paramos.

Vale salientar que para estudar este módulo é importante ter estudado a Parte 1 e ter conhecimentos básicos de matemática.

A partir daqui, iremos trabalhar com tópicos mais avançados que são essenciais para a análise de dados.

## Como pegar a localização de um índice que satisfaça uma determinada condição usando np.where?

`np.where` deve ser utilizada quando se quer saber a posição (ou o índice) de um determinado item, que satisfaz uma condição. o retorno da função `where()` são os indices do vetor.

__Por exemplo:__

In [56]:
import numpy as np
arr_rand = np.array([8, 8, 3, 7, 7, 0, 4, 2, 5, 2])
print("Array: ", arr_rand)

index_gt5 = np.where(arr_rand > 5)
print("Posições onde (valor > 5): ", index_gt5)

Array:  [8 8 3 7 7 0 4 2 5 2]
Posições onde (valor > 5):  (array([0, 1, 3, 4]),)


Tendo as posições, você pode extrair os valores usando o método <code>take()</code>. Observe no exemplo:

In [57]:
arr_rand.take(index_gt5)

array([[8, 8, 7, 7]])

O <code>np.where()</code> também aceita 2 argumentos opcionais além da condição: x e y. Sempre que a condição é verdadeira, x é assumido. Caso contrário, y é utilizado. 

Abaixo, foi criado um array cujos valores recebem a string 'gt5' sempre que a condição for verdadeira e caso contrário, os valores recebem 'lt5'.

In [58]:
arr_rand

array([8, 8, 3, 7, 7, 0, 4, 2, 5, 2])

In [59]:
np.where(arr_rand > 5, 'gt5', 'lt5')

array(['gt5', 'gt5', 'lt5', 'gt5', 'gt5', 'lt5', 'lt5', 'lt5', 'lt5',
       'lt5'], dtype='<U3')

Para encontrar a posição do valor máximo e do valor mínimo utilizamos <code>argmax</code> e <code>argmin</code>, respectivamente.

In [60]:
print('Posição do valor máximo: ', np.argmax(arr_rand))  
print('Posição do valor mínimo: ', np.argmin(arr_rand))

Posição do valor máximo:  0
Posição do valor mínimo:  5


## Como importar e exportar dados de um arquivo CSV

O caminho padrão para importar conjuntos de dados é usar a função <code>np.genfromtxt</code>. 

Esta função pode importar dados com URLs da web, lidar com valores ausentes, vários delimitadores, lidar com o número irregular de colunas, etc.

Uma versão menos versátil é <code>np.loadtxt</code>, que supõe que o conjunto de dados não possui valores ausentes.

Como exemplo, vamos ler um arquivo csv da URL:
>https://raw.githubusercontent.com/selva86/datasets/master/Auto.csv

Como todos os elementos em um array numpy devem ser do mesmo tipo de dados, a última coluna que é um texto será importada como "NaN" (_Not a Number_) por padrão.

Ao definir o argumento <code>filling_values</code>, você pode substituir os valores omissos por outra "coisa".

In [61]:
np.set_printoptions(suppress=True)  # Desabilita a notação cientifica

# path = 'https://raw.githubusercontent.com/selva86/datasets/master/Auto.csv'
path = 'data/example.csv'

data = np.genfromtxt(path, delimiter=',', skip_header=1, filling_values=-999, dtype='float')

data[:3]  # Visualiza os três primeiros elementos

array([[  18. ,    8. ,  307. ,  130. , 3504. ,   12. ,   70. ,    1. ,
        -999. ],
       [  15. ,    8. ,  350. ,  165. , 3693. ,   11.5,   70. ,    1. ,
        -999. ],
       [  18. ,    8. ,  318. ,  150. , 3436. ,   11. ,   70. ,    1. ,
        -999. ]])

Você percebeu que todos os valores da última coluna têm o mesmo valor "-999"?

Isso aconteceu porque a última coluna no arquivo continha valores de texto que foram substituídos pelo parâmetro `filling_values` fornecido.

### Como manipular conjuntos de dados com colunas de números e de texto juntas?

v1. No caso, você DEVE ter a coluna de texto como está, sem substituí-la por um espaço reservado, você pode definir o dtype como _Object_ (Objeto) ou como _None_ (Nenhum).

v2. Uma outra maneira, é gerar o array numpy com o tipo de dados `string`. Para isso, devemos utilizar o argumento `dtype=U`, onde `U` especifica o tipo `int32` definido pelo padrão `unicode`. Caso seja adicionado algum número ao tipo `U`, esse número definirá a quantidade de caracteres que deverá ser lido ou escrito.

In [62]:
# data2 = np.genfromtxt(path, delimiter=',', skip_header=1, dtype='object')
data2 = np.genfromtxt(path, delimiter=',', skip_header=1, dtype='U')
# data2 = np.genfromtxt(path, delimiter=',', skip_header=1, dtype=None)
data2[:3,5:9]

array([['12', '70', '1', '"chevrolet chevelle malibu"'],
       ['11.5', '70', '1', '"buick skylark 320"'],
       ['11', '70', '1', '"plymouth satellite"']], dtype='<U27')

Para exportar o array como um arquivo .CSV, utilizamos `np.savetxt`. Novamente, na situação em que o array `numpy` tem tipos diferentes, é interessante que os elementos sejam escritos no arquivo como strings. Para isso utilizamos o argumento `fmt='%s'`, indicando que o formato a ser escrito é to .

In [63]:
np.savetxt("out.csv", data2, fmt="%s", delimiter=",")

In [64]:
help(np.savetxt)

Help on function savetxt in module numpy.lib.npyio:

savetxt(fname, X, fmt='%.18e', delimiter=' ', newline='\n', header='', footer='', comments='# ', encoding=None)
    Save an array to a text file.
    
    Parameters
    ----------
    fname : filename or file handle
        If the filename ends in ``.gz``, the file is automatically saved in
        compressed gzip format.  `loadtxt` understands gzipped files
        transparently.
    X : 1D or 2D array_like
        Data to be saved to a text file.
    fmt : str or sequence of strs, optional
        A single format (%10.5f), a sequence of formats, or a
        multi-format string, e.g. 'Iteration %d -- %10.5f', in which
        case `delimiter` is ignored. For complex `X`, the legal options
        for `fmt` are:
    
        * a single specifier, `fmt='%.4e'`, resulting in numbers formatted
          like `' (%s+%sj)' % (fmt, fmt)`
        * a full string specifying every real and imaginary part, e.g.
          `' %.4e %+.4ej %.4e 

## Como salvar e carregar objetos numpy

Em algum momento, desejaremos salvar grandes arrays numpy transformadas em disco e carregá-lo de volta para o console diretamente, sem ter que executar novamente o código de transformações de dados.

O Numpy fornece os tipos de arquivo .npy e .npz para essa finalidade.

Se você deseja armazenar um único objeto ndarray, armazene-o como um arquivo .npy usando <code>np.save</code>. Pode ser carregado de volta usando o <code>np.load</code>.

Se você quiser armazenar mais de um objeto ndarray em um único arquivo, salve-o como um arquivo .npz usando <code>np.savez</code>.

In [65]:
arr2d = np.array([8, 8, 3, 7, 7, 0, 4, 2, 5, 2])
arr2d_f = np.array([0,0,0,0,0,0,0,0,0,0,0])
arr2d_b = np.array([1,1,1,1,1,1,1,1,1,1])

np.save('myarray.npy', arr2d)  

np.savez('array.npz', arr2d_f, arr2d_b)

Para carregar o arquivo .npy

In [66]:
a = np.load('myarray.npy')
print(a)

[8 8 3 7 7 0 4 2 5 2]


Para carregar o arquivo .npz

In [67]:
b = np.load('array.npz')
print(b.files)
b['arr_1']

['arr_0', 'arr_1']


array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

## Como concatenar dois arrays numpy por linhas e colunas

Existem 3 maneiras diferentes de concatenar duas ou mais matrizes numpy.

     Método 1: np.concatenate alterando o parâmetro do eixo para 0 e 1
     Método 2: np.vstack e np.hstack
     Método 3: np.r_ e np.c_

Todos os três métodos fornecem a mesma saída.

A diferença chave é que np.r_ como np.c_ usam colchetes para empilhar matrizes. Mas primeiro, vamos criar as matrizes a serem concatenadas.

In [68]:
a = np.zeros([4, 4])
b = np.ones([4, 4])
print(a)
print(b)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


Vamos empilhar as matrizes verticalmente.

In [69]:
np.concatenate([a, b], axis=0)
np.vstack([a,b])  
np.r_[a,b] 

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

Era isso que queríamos. Vamos fazer isso horizontalmente (_columns wise_) também.

In [70]:
np.concatenate([a, b], axis=1) 
np.hstack([a,b])  
np.c_[a,b]

array([[0., 0., 0., 0., 1., 1., 1., 1.],
       [0., 0., 0., 0., 1., 1., 1., 1.],
       [0., 0., 0., 0., 1., 1., 1., 1.],
       [0., 0., 0., 0., 1., 1., 1., 1.]])

Além disso, você pode usar <code>np.r_</code> para criar seqüências numéricas mais complexas em arrays 1d.

In [71]:
np.r_[[1,2,3], 0, 0, [4,5,6]]

array([1, 2, 3, 0, 0, 4, 5, 6])

***
#### Atividade 1

a) Faça um programa para substituir os números impares do array: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] por -1 sem mudar o array.

b) Converter o array 1D <code> np.arange(10)</code> para um array 2D com duas linhas.

c) Recupere o array: 'array.npz' concatene verticalmente os dois array e armazene o resultado no array1.npz

***

In [72]:
#Solução 1
arr = np.arange(10)
out = np.where(arr % 2 == 1, -1, arr)
print(arr)
out

#Solução 2
arr = np.arange(10)
arr.reshape(2, -1)

#Solução 3
a = np.load('array.npz')
print(a.files)
#b['arr_0']
arr_2 = np.r_[a['arr_0'],a['arr_1']]
print("array 2: ", arr_2)
np.savez('array1.npz', a['arr_0'],a['arr_1'], arr_2) #melhorar

d = np.load('array1.npz')
print(d.files)
print(d['arr_0'])
print(d['arr_1'])
print(d['arr_2'])

[0 1 2 3 4 5 6 7 8 9]
['arr_0', 'arr_1']
array 2:  [0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1]
['arr_0', 'arr_1', 'arr_2']
[0 0 0 0 0 0 0 0 0 0 0]
[1 1 1 1 1 1 1 1 1 1]
[0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1]


## Como ordenar um array numpy baseado em uma ou mais colunas

Vamos tentar classificar uma matriz 2d com base na primeira coluna.

In [73]:
arr = np.random.randint(1,6, size=[8, 4])
arr

array([[5, 1, 1, 5],
       [4, 4, 4, 4],
       [1, 5, 2, 5],
       [1, 3, 1, 1],
       [1, 3, 5, 1],
       [1, 5, 5, 4],
       [1, 3, 5, 3],
       [1, 3, 3, 5]])

Nós temos um array aleatório de 8 linhas e 4 colunas.

Se você usar a função <code>np.sort</code> com <code>axis = 0</code>, todas as colunas serão classificadas em ordem crescente, independentemente uma da outra, comprometendo efetivamente a integridade dos itens da linha. Em termos simples, os valores em cada linha são corrompidos com valores de outras linhas.

In [74]:
np.sort(arr, axis=0)

array([[1, 1, 1, 1],
       [1, 3, 1, 1],
       [1, 3, 2, 3],
       [1, 3, 3, 4],
       [1, 3, 4, 4],
       [1, 4, 5, 5],
       [4, 5, 5, 5],
       [5, 5, 5, 5]])

Como não queremos que o conteúdo das linhas seja perturbado, recorro a um método indireto usando o <code>np.argsort</code>.

### Como ordenar um array numpy baseado em uma coluna usando argsort

Vamos primeiro entender o que o <code>np.argsort</code> faz.

O<code>np.argsort</code> retorna as posições do índice que tornariam uma determinada matriz 1d classificada.

In [75]:
x = np.array([1, 10, 5, 2, 8, 9])
sort_index = np.argsort(x)
print(sort_index)

[0 3 2 4 5 1]


Como interpretar isso?

Na matriz "x", o item 0 é o menor, o terceiro item é o segundo menor e assim por diante.

In [76]:
x[sort_index]

array([ 1,  2,  5,  8,  9, 10])

Agora, a fim de classificar o <code>arr</code> original, eu vou fazer um argsort na primeira coluna e usar as posições de índice resultantes para classificar <code>arr</code>. Veja o código.


In [77]:
sorted_index_1stcol = arr[:, 0].argsort()

arr[sorted_index_1stcol]

array([[1, 5, 2, 5],
       [1, 3, 1, 1],
       [1, 3, 5, 1],
       [1, 5, 5, 4],
       [1, 3, 5, 3],
       [1, 3, 3, 5],
       [4, 4, 4, 4],
       [5, 1, 1, 5]])

Para classificá-lo em ordem decrescente, simplesmente inverta o índice argsorted.

In [78]:
arr[sorted_index_1stcol[::-1]]

array([[5, 1, 1, 5],
       [4, 4, 4, 4],
       [1, 3, 3, 5],
       [1, 3, 5, 3],
       [1, 5, 5, 4],
       [1, 3, 5, 1],
       [1, 3, 1, 1],
       [1, 5, 2, 5]])

### Como ordenar um array numpy baseado em duas ou mais colunas

Você pode fazer isso usando o <code>np.lexsort</code> passando uma tupla de colunas com base na qual a matriz deve ser classificada.

Apenas lembre-se de colocar a coluna a ser ordenada primeiro no lado mais à direita dentro da tupla.

In [79]:
lexsorted_index = np.lexsort((arr[:, 1], arr[:, 0])) 
arr[lexsorted_index]

array([[1, 3, 1, 1],
       [1, 3, 5, 1],
       [1, 3, 5, 3],
       [1, 3, 3, 5],
       [1, 5, 2, 5],
       [1, 5, 5, 4],
       [4, 4, 4, 4],
       [5, 1, 1, 5]])

## Trabalhando com datas

Numpy implementa datas através do objeto <code>np.datetime64</code> que suporta uma precisão até nanossegundos. Você pode criar um usando as sequências de datas formatadas no padrão: AAAA-MM-DD .

In [80]:
date64 = np.datetime64('2018-02-04 23:10:10')
date64

numpy.datetime64('2018-02-04T23:10:10')

Claro que você pode passar horas, minutos, segundos até nanossegundos também.

Vamos remover o componente de tempo de <code>data64.</code>

In [81]:
dt64 = np.datetime64(date64, 'D')
dt64

numpy.datetime64('2018-02-04')

Por padrão, se você adicionar um número, aumenta o número de dias. Mas se você precisar aumentar qualquer outra unidade de tempo como meses, horas, segundos, etc, então o objeto <code>timedelta</code> é muito conveniente.

In [82]:
tenminutes = np.timedelta64(10, 'm')  # 10 minutes
tenseconds = np.timedelta64(10, 's')  # 10 seconds
tennanoseconds = np.timedelta64(10, 'ns')  # 10 nanoseconds

print('Adiciona 10 dias: ', dt64 + 10)
print('Adiciona 10 minutos: ', dt64 + tenminutes)
print('Adiciona 10 segundos: ', dt64 + tenseconds)
print('Adiciona 10 nanosegundos: ', dt64 + tennanoseconds)

Adiciona 10 dias:  2018-02-14
Adiciona 10 minutos:  2018-02-04T00:10
Adiciona 10 segundos:  2018-02-04T00:00:10
Adiciona 10 nanosegundos:  2018-02-04T00:00:00.000000010


Vamos converter o <code>dt64</code> de volta para string

In [83]:
np.datetime_as_string(dt64)

'2018-02-04'

Ao trabalhar com datas, você precisaria filtrar os dias úteis dos dados. Você pode saber se uma determinada data é um dia útil ou não usando o np.is_busday ().

In [84]:
print('Data: ', dt64)
print("É um dia útil?: ", np.is_busday(dt64))  
print("Adicione 2 dias, avançando para o dia útil mais próximo: ", np.busday_offset(dt64, 2, roll='forward'))  
print("Adicione 2 dias, retrocedendo para o dia útil mais próximo: ", np.busday_offset(dt64, 2, roll='backward'))  

Data:  2018-02-04
É um dia útil?:  False
Adicione 2 dias, avançando para o dia útil mais próximo:  2018-02-07
Adicione 2 dias, retrocedendo para o dia útil mais próximo:  2018-02-06


### Como criar uma sequência de datas

Pode simplesmente ser feito usando o próprio <code>np.arange</code>.

In [85]:
dates = np.arange(np.datetime64('2018-02-01'), np.datetime64('2018-02-10'))
print(dates)
np.is_busday(dates)

['2018-02-01' '2018-02-02' '2018-02-03' '2018-02-04' '2018-02-05'
 '2018-02-06' '2018-02-07' '2018-02-08' '2018-02-09']


array([ True,  True, False, False,  True,  True,  True,  True,  True])

### Como converter numpy.datetime64 para um objeto datetime.datime

In [86]:
import datetime
dt = dt64.tolist()
dt

datetime.date(2018, 2, 4)

Depois de convertê-lo para um objeto <code>datetime.date</code>, você tem muito mais facilidades para extrair o dia do mês, mês do ano etc.

In [87]:
print('Ano: ', dt.year)  
print('Dia do mês: ', dt.day)
print('Mês do ano: ', dt.month)  
print('dia da semana: ', dt.weekday())

Ano:  2018
Dia do mês:  4
Mês do ano:  2
dia da semana:  6


## Funções numpy avançadas

### _Vectorize_ - Utilizando uma função escalar como vetor

Com a ajuda de <code>vectorize()</code>, você pode fazer uma função que funciona para um número ou um array.

Vamos ver um exemplo.

A função <code>foo</code> aceita um número e eleva ao quadrado se for ímpar senão ele o divide por 2.

Quando você aplica essa função em um escalar (números individuais), ela funciona perfeitamente, mas falha quando aplicada em um array.

Com o <code>vectorize()</code> do numpy, você pode "magicamente" fazê-lo funcionar em matrizes também.


In [88]:
def foo(x):
    if x % 2 == 1:
        return x**2
    else:
        return x/2
    
print('x = 10 retorna ', foo(10))
print('x = 11 retorna', foo(11))

x = 10 retorna  5.0
x = 11 retorna 121


Vamos alterar para que a função <code>foo()</code> funcione em arrays.

In [89]:
foo_v = np.vectorize(foo, otypes=[float])

print('x = [10, 11, 12] retorna ', foo_v([10, 11, 12]))
print('x = [[10, 11, 12], [1, 2, 3]] retorna ', foo_v([[10, 11, 12], [1, 2, 3]]))

x = [10, 11, 12] retorna  [  5. 121.   6.]
x = [[10, 11, 12], [1, 2, 3]] retorna  [[  5. 121.   6.]
 [  1.   1.   9.]]


Isso pode ser muito útil sempre que você quiser fazer uma função escalar funcionar em um array.

<code>Vectorize()</code> também aceita um parâmetro opcional _otypes_ onde você fornece o tipo de dados da saída. Isso faz com que a função vetorizada seja executada mais rapidamente.


### Apply\_along\_axis - Usando Column Wise e Row wise

Vamos criar primeiro um array 2D para mostrar como funciona isso.

In [90]:
np.random.seed(100)
arr_x = np.random.randint(1,10,size=[4,10])
arr_x

array([[9, 9, 4, 8, 8, 1, 5, 3, 6, 3],
       [3, 3, 2, 1, 9, 5, 1, 7, 3, 5],
       [2, 6, 4, 5, 5, 4, 8, 2, 2, 8],
       [8, 1, 3, 4, 3, 6, 9, 2, 1, 8]])

Vamos entender resolvendo a seguinte questão:
*Como encontrar a diferença do valor máximo e mínimo em cada linha?*

Bem, a abordagem normal seria escrever um <code>for-loop</code> para iterar ao longo de cada linha e, em seguida, calcular o max-min em cada iteração.

Isso parece ser uma boa solução, mas pode ser complicado se você quiser fazer na mesma coluna ou quiser implementar uma operação mais complexa. Além disso, pode você precisará fazer mais códigos.

Você pode fazer isso elegantemente usando o numpy.apply_along_axis.

Leva como argumentos:

1. Função que funciona em um vetor 1D \[<code>(fund1d)</code>\]
2. Eixo ao longo do qual aplicar <code>func1d</code>. Para um array 2D, 1 é em linha e 0 é em coluna.
3. Array em que <code>(fund1d)</code> deve ser aplicado.

Vamos implementar isso.

In [91]:
def max_minus_min(x):
    return np.max(x) - np.min(x)

print('Ao longo da linha: ', np.apply_along_axis(max_minus_min, 1, arr=arr_x))

print('Ao longo da coluna: ', np.apply_along_axis(max_minus_min, 0, arr=arr_x))

Ao longo da linha:  [8 8 6 8]
Ao longo da coluna:  [7 8 2 7 6 5 8 5 5 5]


### _Searchsorted_ - Encontrole local para inserir na matriz mantendo a organização

O que <code>numpy.searchsorted</code> faz?

Ele fornece a posição do índice na qual um número deve ser inserido para manter o array ordenado. Exemplo:

In [92]:
x = np.arange(10)
print(x)
print('Onde o 5 deveria ser inserido?: ', np.searchsorted(x, 5))
print('Onde o 5 deveria ser inserido (direita)?: ', np.searchsorted(x, 5, side='right'))

[0 1 2 3 4 5 6 7 8 9]
Onde o 5 deveria ser inserido?:  5
Onde o 5 deveria ser inserido (direita)?:  6


Você pode usar o <code>searchsorted</code> para fazer elementos de amostragem com probabilidades. É muito mais rápido que o <code>np.choice</code>.

In [93]:
lst = range(10000)  
probs = np.random.random(10000); probs /= probs.sum()

%timeit lst[np.searchsorted(probs.cumsum(), np.random.random())]
%timeit np.random.choice(lst, p=probs)

30.2 µs ± 323 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
1.25 ms ± 73.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


### Como adicionar um eixo novo em um numpy array

Às vezes, você pode querer converter um array 1D em um 2D (como uma planilha) sem adicionar dados adicionais.

Você pode precisar disso em um array 1D como uma única coluna em um arquivo csv ou talvez queira concatená-la com outro array de forma semelhante.

Seja qual for o motivo, você pode fazer isso inserindo um novo eixo usando <code>np.newaxis</code>.

Na verdade, usando isso, você pode elevar uma matriz de uma dimensão inferior para uma dimensão maior.

In [94]:
x = np.arange(5)
print('Array Original: ', x)

x_col = x[:, np.newaxis] # Introduzindo um novo eixo coluna
print('Forma da x_coluna: ', x_col.shape)
print(x_col)

x_row = x[np.newaxis, :] #Introduzindo um novo eixo linha
print('Forma da x_linha: ', x_row.shape)
print(x_row)

Array Original:  [0 1 2 3 4]
Forma da x_coluna:  (5, 1)
[[0]
 [1]
 [2]
 [3]
 [4]]
Forma da x_linha:  (1, 5)
[[0 1 2 3 4]]


### Mais funções úteis

#### Digitize

Use <code>np.digitize</code> para retornar a posição do índice do _bin_ a que cada elemento pertence.

In [95]:
x = np.arange(10)
print(x)
bins = np.array([0, 3, 6, 9])

np.digitize(x, bins)

[0 1 2 3 4 5 6 7 8 9]


array([1, 1, 1, 2, 2, 2, 3, 3, 3, 4])

#### Clip

Use <code>np.clip</code> para limitar os números dentro de um determinado intervalo de corte. Todos os números menores que o limite inferior serão substituídos pelo limite inferior. O mesmo se aplica ao limite superior.

In [96]:
np.clip(x, 3, 8)

array([3, 3, 3, 3, 4, 5, 6, 7, 8, 8])

#### Histogram and Bincount

Tanto o <code>histograma()</code> quanto o <code>bincount()</code> fornecem a frequência das ocorrências, mas com certas diferenças.

Enquanto o <code>histograma()</code> fornece a contagem da freqüência dos _Bins_, <code>bincount()</code> fornece a contagem de freqüência de todos os elementos no intervalo do array entre os valores mínimo e máximo. Incluindo os valores que não ocorreram.

In [97]:
x = np.array([1,1,2,2,2,4,4,5,6,6,6])
print (np.bincount(x))

counts, bins = np.histogram(x, [0, 2, 4, 5, 6, 8])
print('Contagem: ', counts)
print('Bins: ', bins)

[0 2 3 0 2 1 3]
Contagem:  [2 3 2 1 3]
Bins:  [0 2 4 5 6 8]


## O que falta no numpy

Até agora nós cobrimos um bom número de técnicas para fazer manipulações de dados com numpy. Mas há um número considerável de coisas que você não pode fazer diretamente com a numpy. Pelo menos para o meu conhecimento limitado. Deixe-me listar alguns:
- Nenhuma função direta para mesclar dois arrays 2D com base em uma coluna comum.
- Criar diretamente tabelas dinâmicas
- Nenhuma maneira direta de fazer tabulações cruzadas 2D.
- Nenhum método direto para calcular estatísticas (como média) agrupadas por valores exclusivos em uma matriz.
- E mais..

Bem, a razão pela qual estou lhe dizendo isso é que essas deficiências são bem tratadas pela espetacular biblioteca de pandas, sobre a qual falaremos no próximo curso de pandas.


In [99]:
arr = np.array([1,2,3,4])

In [103]:
arr.

AttributeError: 'numpy.ndarray' object has no attribute 'append'