## Programação orientada a matrizes com matrizes
O uso de matrizes NumPy permite expressar muitos tipos de tarefas de processamento de dados, como
expressões de matriz concisas que, de outra forma, poderiam exigir loops de gravação. Essa prática de
a substituição de loops explícitos por expressões de matriz é geralmente chamada de vetorização.
Em geral, as operações de matriz vetorizadas geralmente são de um ou dois (ou mais) pedidos
de magnitude mais rápido que seus equivalentes puros em Python, com o maior impacto em
qualquer tipo de computação numérica. Mais tarde, no Apêndice A, explico a transmissão, um
método poderoso para vetorização de cálculos.

Como um exemplo simples, suponha que desejássemos avaliar a função sqrt (x ^ 2 + y ^ 2)
através de uma grade regular de valores. A função np.meshgrid usa duas matrizes 1D e
produz duas matrizes 2D correspondentes a todos os pares de (x, y) nas duas matrizes:

In [2]:
import numpy as np

In [2]:
points = np.arange(-5,5,0.01)

In [10]:
xs,ys =  np.meshgrid(points,points)

In [12]:
xs

array([[-5.  , -4.99, -4.98, ...,  4.97,  4.98,  4.99],
       [-5.  , -4.99, -4.98, ...,  4.97,  4.98,  4.99],
       [-5.  , -4.99, -4.98, ...,  4.97,  4.98,  4.99],
       ...,
       [-5.  , -4.99, -4.98, ...,  4.97,  4.98,  4.99],
       [-5.  , -4.99, -4.98, ...,  4.97,  4.98,  4.99],
       [-5.  , -4.99, -4.98, ...,  4.97,  4.98,  4.99]])

In [13]:
ys

array([[-5.  , -5.  , -5.  , ..., -5.  , -5.  , -5.  ],
       [-4.99, -4.99, -4.99, ..., -4.99, -4.99, -4.99],
       [-4.98, -4.98, -4.98, ..., -4.98, -4.98, -4.98],
       ...,
       [ 4.97,  4.97,  4.97, ...,  4.97,  4.97,  4.97],
       [ 4.98,  4.98,  4.98, ...,  4.98,  4.98,  4.98],
       [ 4.99,  4.99,  4.99, ...,  4.99,  4.99,  4.99]])

Agora, avaliar a função é uma questão de escrever a mesma expressão que você faria
escreva com dois pontos:

In [14]:
z = np.sqrt(xs ** 2 + ys ** 2)
z

array([[7.07106781, 7.06400028, 7.05693985, ..., 7.04988652, 7.05693985,
        7.06400028],
       [7.06400028, 7.05692568, 7.04985815, ..., 7.04279774, 7.04985815,
        7.05692568],
       [7.05693985, 7.04985815, 7.04278354, ..., 7.03571603, 7.04278354,
        7.04985815],
       ...,
       [7.04988652, 7.04279774, 7.03571603, ..., 7.0286414 , 7.03571603,
        7.04279774],
       [7.05693985, 7.04985815, 7.04278354, ..., 7.03571603, 7.04278354,
        7.04985815],
       [7.06400028, 7.05692568, 7.04985815, ..., 7.04279774, 7.04985815,
        7.05692568]])

## Expressando lógica condicional como operações de matriz
A função numpy.where é uma versão vetorizada da expressão ternária x se
dition else y. Suponha que tivéssemos uma matriz booleana e duas matrizes de valores:

In [15]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True,False,True,True,False])

Suponha que desejássemos obter um valor de xarr sempre que o valor correspondente em
cond é True e, de outro modo, retira o valor de yarr. Uma compreensão de lista fazendo
isso pode se parecer com:

In [19]:
resultado = [(x if c else y)
    for  x,y, c in zip(xarr,yarr,cond)]

In [20]:
resultado

[1.1, 2.2, 1.3, 1.4, 2.5]

This has multiple problems. First, it will not be very fast for large arrays (because all
the work is being done in interpreted Python code). Second, it will not work with
multidimensional arrays. With np.where you can write this very concisely:

In [21]:
resultado = np.where(cond,xarr,yarr)
resultado

array([1.1, 2.2, 1.3, 1.4, 2.5])

The second and third arguments to np.where don’t need to be arrays; one or both of
them can be scalars. A typical use of where in data analysis is to produce a new array
of values based on another array. Suppose you had a matrix of randomly generated
data and you wanted to replace all positive values with 2 and all negative values with
–2. This is very easy to do with np.where:

In [22]:
arr = np.random.randn(4,4)
arr

array([[-0.41841153,  0.41005016,  2.02326169, -0.07607411],
       [ 0.37478554,  0.25965889,  0.90671819,  0.70446623],
       [-0.80237938,  0.45328147, -0.7914594 , -0.24572707],
       [ 0.93492739,  0.07569527, -1.56328285, -0.40979771]])

In [23]:
arr > 0

array([[False,  True,  True, False],
       [ True,  True,  True,  True],
       [False,  True, False, False],
       [ True,  True, False, False]])

In [24]:
np.where(arr >0,2,-2)

array([[-2,  2,  2, -2],
       [ 2,  2,  2,  2],
       [-2,  2, -2, -2],
       [ 2,  2, -2, -2]])

## Métodos Matemáticos e Estatísticos
Um conjunto de funções matemáticas que calculam estatísticas sobre uma matriz inteira ou sobre
os dados ao longo de um eixo são acessíveis como métodos da classe array. Você pode usar agregações
(geralmente chamadas de reduções) como soma, média e desvio padrão (desvio padrão)
chamando o método de instância da matriz ou usando a função NumPy de nível superior.
Aqui eu gero alguns dados aleatórios distribuídos normalmente e calculo alguns agregados
Estatisticas:

In [25]:
arr = np.random.randn(5,4)
arr

array([[-0.2928843 , -0.94152034, -0.6986818 ,  1.52921835],
       [-1.38792544,  0.03449832, -0.61522329, -0.18353721],
       [ 0.11841061, -0.02062732,  0.63420727, -1.42033622],
       [ 0.28810363, -0.89788425,  2.11833359,  0.51006335],
       [-0.22990766,  1.53499527,  1.81050948,  0.31121849]])

In [29]:
print('A média da matrix {}'.format(arr.mean()))

A média da matrix 0.11005152625224199


In [30]:
np.mean(arr) # uma outra forma de calcular a média 

0.11005152625224199

In [31]:
arr.sum()

2.20103052504484

Funções como média e soma usam um argumento de eixo opcional que calcula a estatística
sobre o eixo especificado, resultando em uma matriz com uma dimensão a menos:

In [32]:
arr.mean(axis = 1)

array([-0.10096702, -0.53804691, -0.17208641,  0.50465408,  0.85670389])

In [33]:
arr.sum(axis = 0)

array([-1.50420317, -0.29053832,  3.24914525,  0.74662676])

Aqui, arr.mean (1) significa "calcular a média nas colunas", em que arr.sum (0)
significa "calcular a soma das linhas".
Outros métodos como cumsum e cumprod não agregam, produzindo uma matriz
dos resultados intermediários:

In [35]:
arr = np.array([0,1,2,3,4,5,6,7])

In [36]:
arr.cumsum()

array([ 0,  1,  3,  6, 10, 15, 21, 28], dtype=int32)

In multidimensional arrays, accumulation functions like cumsum return an array of
the same size, but with the partial aggregates computed along the indicated axis
according to each lower dimensional slice:

In [37]:
arr = np.array([[0,1,2],[3,4,5],[6,7,8]])
arr

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [38]:
arr.cumsum(axis = 0)

array([[ 0,  1,  2],
       [ 3,  5,  7],
       [ 9, 12, 15]], dtype=int32)

In [39]:
arr.cumprod(axis = 1)

array([[  0,   0,   0],
       [  3,  12,  60],
       [  6,  42, 336]], dtype=int32)

## Métodos para matrizes booleanas
Os valores booleanos são coagidos a 1 (True) e 0 (False) nos métodos anteriores. Portanto,
sum é frequentemente usado como um meio de contar valores True em uma matriz booleana:

In [40]:
arr = np.random.randn(100)
arr

array([-0.08347424,  1.42917186,  2.30077452, -0.30711196,  1.62476058,
       -0.29689588,  0.5906831 ,  0.07294442, -0.07151872, -0.63998734,
        1.87338256,  0.99455979, -0.64583734, -0.55928882,  0.35333657,
        1.92298667, -1.77637407,  0.81372706, -1.04705552, -0.06647282,
       -1.14312097,  1.07989797,  1.31042853,  0.54567339,  1.22664315,
       -0.28415325, -2.19608316, -0.40797956,  0.97679983, -0.22928594,
       -0.07601339, -0.2721234 ,  1.44524585,  0.1433081 , -0.39756935,
        0.91337736, -1.77890897, -0.7291493 , -1.50623422, -0.05220205,
       -0.05047092,  0.92517532, -0.13704924,  1.5018105 , -0.34848111,
       -1.6712488 , -0.619628  , -0.11070087, -1.27403467, -0.43666977,
        0.79872769,  0.3571057 , -0.17432892, -0.61254475,  2.68184792,
       -1.34492865,  0.15922703,  1.32499067, -0.61276125,  0.642378  ,
       -1.82338922, -0.29956646,  1.81881196, -0.32577729, -0.16121037,
       -0.06328298, -1.24447775, -0.1682071 ,  0.70347125,  1.12

In [41]:
(arr > 0).sum()

43

Existem dois métodos adicionais, todos e quaisquer, úteis especialmente para matrizes booleanas.
testa se um ou mais valores em uma matriz são True, enquanto todos verifica se todos os
o valor é True:

In [42]:
bools =np.array([False,False,True,False])

In [43]:
bools.any()

True

In [44]:
bools.all()

False

Esses métodos também funcionam com matrizes não booleanas, onde elementos diferentes de zero avaliam
para True.
## Ordenação
Como o tipo de lista interno do Python, as matrizes NumPy podem ser classificadas no local com a classificação
método:

In [45]:
arr = np.random.randn(6)

In [46]:
arr

array([-0.29071622, -0.75828673,  1.22139028, -0.85040962,  1.40156025,
        0.95080859])

In [47]:
arr.sort()

In [48]:
arr

array([-0.85040962, -0.75828673, -0.29071622,  0.95080859,  1.22139028,
        1.40156025])

Você pode classificar cada seção unidimensional de valores em uma matriz multidimensional no local
ao longo de um eixo, passando o número do eixo para classificar:

In [49]:
arr = np.random.randn(5,3)
arr

array([[-0.02482782,  0.12805403, -0.72162686],
       [-0.66680467, -1.29504475,  0.60370897],
       [ 0.34001474, -2.84806676, -0.98989258],
       [-1.53961001, -0.62161255, -0.8810791 ],
       [ 0.69964365, -0.53067378,  0.51685222]])

In [50]:
arr.sort(1)

In [51]:
arr

array([[-0.72162686, -0.02482782,  0.12805403],
       [-1.29504475, -0.66680467,  0.60370897],
       [-2.84806676, -0.98989258,  0.34001474],
       [-1.53961001, -0.8810791 , -0.62161255],
       [-0.53067378,  0.51685222,  0.69964365]])

O método de nível superior np.sort retorna uma cópia classificada de uma matriz em vez de modificar
a matriz no local. Uma maneira rápida e suja de calcular os quantis de uma matriz é
classifique-o e selecione o valor em uma classificação específica:

In [58]:
lange_arr = np.random.randn(1000)
lange_arr.sort()

In [60]:
lange_arr[int(0.05 * len(lange_arr))]

-1.717985170813899

Para mais detalhes sobre o uso dos métodos de classificação do NumPy e técnicas mais avançadas
como tipos indiretos, consulte o Apêndice A. Vários outros tipos de manipulação de dados relacionados
para classificar (por exemplo, classificar uma tabela de dados por uma ou mais colunas) também pode ser encontrado em
pandas.

## Lógica de conjunto único e outro
O NumPy possui algumas operações básicas de conjunto para ndarrays unidimensionais. Um comum
o usado é np.unique, que retorna os valores exclusivos classificados em uma matriz

In [3]:
names = np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe'])

In [4]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [5]:
np.unique(names)

array(['Bob', 'Joe', 'Will'], dtype='<U4')

In [7]:
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])

In [10]:
np.unique(ints)

array([1, 2, 3, 4])

In [11]:
sorted(set(names))

['Bob', 'Joe', 'Will']

In [12]:
values = np.array([6, 0, 0, 3, 2, 5, 6])

In [13]:
np.in1d(values,[2,3,6])

array([ True, False, False,  True,  True, False,  True])

## Entrada e saída de arquivo com matrizes
O NumPy é capaz de salvar e carregar dados de e para o disco, tanto em texto quanto em formato binário.
Nesta seção, discuto apenas o formato binário interno do NumPy, pois a maioria dos usuários
prefira pandas e outras ferramentas para carregar texto ou dados tabulares (consulte o Capítulo 6 para obter mais informações).
Mais).

np.save e np.load são as duas funções do cavalo de batalha para salvar e carregar com eficiência
dados da matriz no disco. Matrizes são salvas por padrão em um binário bruto não compactado
formato com extensão de arquivo .npy:

In [14]:
arr = np.arange(10)

In [15]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [16]:
np.save('some_array',arr)

Se o caminho do arquivo ainda não terminar em .npy, a extensão será anexada. A matriz
no disco pode ser carregado com o np.load:

In [17]:
np.load('some_array.npy')

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

## Álgebra Linear
Álgebra linear, como multiplicação de matrizes, decomposições, determinantes e outras
matemática de matriz quadrada, é uma parte importante de qualquer biblioteca de matrizes. Diferente de alguns idiomas
como o MATLAB, multiplicar duas matrizes bidimensionais com * é um elemento
produto em vez de um produto matricial. Assim, existe um ponto de função, tanto um array
método e uma função no namespace numpy, para multiplicação de matrizes:

In [18]:
x = np.array([[1.,2.,3.],[4.,5.,6.]])
y = np.array([[6.,23.],[-1,7],[8,9]])

In [19]:
x

array([[1., 2., 3.],
       [4., 5., 6.]])

In [20]:
y

array([[ 6., 23.],
       [-1.,  7.],
       [ 8.,  9.]])

In [21]:
x.dot(y)

array([[ 28.,  64.],
       [ 67., 181.]])

x.dot (y) é equivalente a np.dot (x, y):

In [22]:
np.dot(x,y)

array([[ 28.,  64.],
       [ 67., 181.]])

Um produto de matriz entre uma matriz bidimensional e uma matriz unidimensional de tamanho adequado resulta em uma matriz unidimensional:

In [23]:
np.dot(x,np.ones(3))

array([ 6., 15.])

numpy.linalg possui um conjunto padrão de decomposições de matrizes e coisas como inversa
e determinante. Eles são implementados sob o capô por meio das mesmas bibliotecas de álgebra linear padrão da indústria usadas em outros idiomas como MATLAB e R, como
BLAS, LAPACK ou, possivelmente (dependendo da versão do NumPy), a Intel proprietária
MKL (Biblioteca do Kernel de Matemática):

In [25]:
from numpy.linalg import inv,qr

In [26]:
x = np.random.randn(5,5)

In [27]:
mat = x.T.dot(x)

In [28]:
mat

array([[ 2.70169644, -2.35483885, -1.43775931, -3.3452292 ,  2.60374272],
       [-2.35483885,  3.03311124,  1.37738375,  1.83124786, -2.25377592],
       [-1.43775931,  1.37738375,  6.75844243,  2.07453538, -0.7704865 ],
       [-3.3452292 ,  1.83124786,  2.07453538,  5.73337694, -2.26803518],
       [ 2.60374272, -2.25377592, -0.7704865 , -2.26803518,  5.02548931]])

In [29]:
inv(mat)

array([[ 7.35073111e+02,  3.20906110e+02, -9.45386304e+00,
         2.86697656e+02, -1.08991277e+02],
       [ 3.20906110e+02,  1.40653904e+02, -4.19533261e+00,
         1.25090264e+02, -4.73740721e+01],
       [-9.45386304e+00, -4.19533261e+00,  2.96370548e-01,
        -3.73956077e+00,  1.37438985e+00],
       [ 2.86697656e+02,  1.25090264e+02, -3.73956077e+00,
         1.12063409e+02, -4.24394569e+01],
       [-1.08991277e+02, -4.73740721e+01,  1.37438985e+00,
        -4.24394569e+01,  1.64798814e+01]])

# Conclusão
Embora grande parte do restante do livro se concentre na construção de habilidades de organização de dados com
pandas, continuaremos trabalhando em um estilo semelhante baseado em array. No Apêndice A, nós
aprofundará os recursos do NumPy para ajudá-lo a desenvolver ainda mais o seu array
habilidades.