# Python3 - Numpy
---

Numpy é a abreviação de Numerical Python e é um dos pacotes mais importantes para processamento numérico em Python. Numpy oferece a base para a maioria dos pacotes de aplicações científicas que utilizem dados numéricos em Python (estruturas de dados e algoritmos). Pode-se destacar os seguintes recursos que o pacote Numpy contém:

- Um poderoso objeto array multidimensional;
- Funções matemáticas sofisticadas para operações com arrays sem a necessidade de utilização de laços *for*;
- Recursos de algebra linear e geração de números aleatórios

Além de seus óbvios usos científicos, o pacote NumPy também é muito utilizado em análise de dados como um eficiente contêiner multidimensional de dados genéricos para transporte entre diversos algoritmos e bibliotecas em Python.

## Importando todo o pacote e atribuindo um novo nome 

In [1]:
import numpy as np

In [2]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

## Criando arrays Numpy

### A partir de listas

In [3]:
km = np.array([1000, 2300, 4987, 1500])

In [4]:
km

array([1000, 2300, 4987, 1500])

In [5]:
type(km)

numpy.ndarray

In [6]:
km.dtype

dtype('int64')

### A partir de dados externos

In [7]:
km = np.loadtxt(fname = 'data/carros-km.txt', dtype = int)

In [8]:
km

array([44410,  5712, 37123,     0, 25757, 10728,     0, 77599, 99197,
       37978, 12859,  8052, 89773,     0, 41457])

In [9]:
type(km)

numpy.ndarray

In [10]:
km.dtype

dtype('int64')

In [11]:
km.shape

(15,)

## Arrays com duas dimensões

In [12]:
dados = [ 
    ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva'],
    ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento'],
    ['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']
]
dados

[['Rodas de liga',
  'Travas elétricas',
  'Piloto automático',
  'Bancos de couro',
  'Ar condicionado',
  'Sensor de estacionamento',
  'Sensor crepuscular',
  'Sensor de chuva'],
 ['Central multimídia',
  'Teto panorâmico',
  'Freios ABS',
  '4 X 4',
  'Painel digital',
  'Piloto automático',
  'Bancos de couro',
  'Câmera de estacionamento'],
 ['Piloto automático',
  'Controle de estabilidade',
  'Sensor crepuscular',
  'Freios ABS',
  'Câmbio automático',
  'Bancos de couro',
  'Central multimídia',
  'Vidros elétricos']]

In [13]:
Acessorios = np.array(dados)

In [14]:
Acessorios

array([['Rodas de liga', 'Travas elétricas', 'Piloto automático',
        'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento',
        'Sensor crepuscular', 'Sensor de chuva'],
       ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4',
        'Painel digital', 'Piloto automático', 'Bancos de couro',
        'Câmera de estacionamento'],
       ['Piloto automático', 'Controle de estabilidade',
        'Sensor crepuscular', 'Freios ABS', 'Câmbio automático',
        'Bancos de couro', 'Central multimídia', 'Vidros elétricos']],
      dtype='<U24')

In [15]:
type(Acessorios)

numpy.ndarray

In [16]:
Acessorios.shape

(3, 8)

## Comparando desempenho com listas

In [17]:
np_array = np.arange(1000000)

In [18]:
%time for _ in range(100): np_array *= 2

CPU times: user 90 ms, sys: 3.81 ms, total: 93.8 ms
Wall time: 92.2 ms


In [19]:
py_list = list(range(1000000))

In [20]:
%time for _ in range(100): py_list = [x * 2 for x in py_list]

CPU times: user 6.44 s, sys: 1.19 s, total: 7.63 s
Wall time: 7.63 s


## Operações aritméticas com arrays Numpy

### Operações entre arrays e constantes

In [21]:
km = np.array([44410., 5712., 37123., 1000., 25757.])
anos = np.array([2003, 1991, 1990, 2018, 2006])

In [22]:
idade = 2019 - anos
idade

array([16, 28, 29,  1, 13])

### Operações entre arrays

In [23]:
km_media = km / idade
km_media

array([2775.625     ,  204.        , 1280.10344828, 1000.        ,
       1981.30769231])

### Operações com arrays de duas dimensões

In [24]:
dados = np.array([km, anos])
dados

array([[44410.,  5712., 37123.,  1000., 25757.],
       [ 2003.,  1991.,  1990.,  2018.,  2006.]])

In [25]:
dados.shape

(2, 5)

In [26]:
dados[0]

array([44410.,  5712., 37123.,  1000., 25757.])

In [27]:
dados[1]

array([2003., 1991., 1990., 2018., 2006.])

In [28]:
km_media = dados[0] / (2019 - dados[1])
km_media

array([2775.625     ,  204.        , 1280.10344828, 1000.        ,
       1981.30769231])

## Seleções com arrays Numpy

### Indexação 

<font color=red>**Observação:**</font> A indexação tem origem no zero.

In [29]:
contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [30]:
contador[0]

0

In [31]:
contador[1]

1

In [32]:
contador[-1]

9

<font color=red>**Observação:**</font>  *ndarray[ linha ][ coluna ]* ou *ndarray[ linha, coluna ]*

In [33]:
dados[1]

array([2003., 1991., 1990., 2018., 2006.])

In [34]:
dados[1][2]

1990.0

In [35]:
dados[1,2]

1990.0

### Fatiamentos
 
A sintaxe para realizar fatiamento em um array Numpy é $i : j : k$ onde $i$ é o índice inicial, $j$ é o índice de parada, e $k$ é o indicador de passo ($k\neq0$)
 
<font color=red>**Observação:**</font> Nos fatiamentos (*slices*) o item com índice i é **incluído** e o item com índice j **não é incluído** no resultado.

In [36]:
contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [37]:
contador[1:4]

array([1, 2, 3])

In [38]:
contador[1:8:2]

array([1, 3, 5, 7])

In [39]:
contador[::2]

array([0, 2, 4, 6, 8])

In [40]:
contador[1::2]

array([1, 3, 5, 7, 9])

In [41]:
dados

array([[44410.,  5712., 37123.,  1000., 25757.],
       [ 2003.,  1991.,  1990.,  2018.,  2006.]])

In [42]:
dados[:, 1:3]

array([[ 5712., 37123.],
       [ 1991.,  1990.]])

In [43]:
dados[:, 1:3][0] / (2019 - dados[:, 1:3][1])

array([ 204.        , 1280.10344828])

### Indexação com array booleano

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou um array booleano.

In [44]:
contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [45]:
contador > 5

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [46]:
contador[contador > 5]

array([6, 7, 8, 9])

In [47]:
contador[[False, False, False, False, False, False,  True,  True,  True, True]]

array([6, 7, 8, 9])

In [48]:
dados

array([[44410.,  5712., 37123.,  1000., 25757.],
       [ 2003.,  1991.,  1990.,  2018.,  2006.]])

In [49]:
dados[1] > 2000

array([ True, False, False,  True,  True])

In [50]:
dados[:, dados[1] > 2000]

array([[44410.,  1000., 25757.],
       [ 2003.,  2018.,  2006.]])

## Atributos de arrays Numpy

In [51]:
dados = np.array([[44410., 5712., 37123., 1000., 25757.],
                  [2003, 1991, 1990, 2018, 2006]])
dados

array([[44410.,  5712., 37123.,  1000., 25757.],
       [ 2003.,  1991.,  1990.,  2018.,  2006.]])

### *ndarray.shape*

Retorna uma tupla com as dimensões do array.

In [52]:
dados.shape

(2, 5)

### *ndarray.ndim*

Retorna o número de dimensões do array.

In [53]:
dados.ndim

2

### *ndarray.size*

Retorna o número de elementos do array.

In [54]:
dados.size

10

### *ndarray.dtype*

Retorna o tipo de dados dos elementos do array.

In [55]:
dados.dtype

dtype('float64')

### *ndarray.T*

Retorna o array transposto, isto é, converte linhas em colunas e vice versa.

In [56]:
dados.T

array([[44410.,  2003.],
       [ 5712.,  1991.],
       [37123.,  1990.],
       [ 1000.,  2018.],
       [25757.,  2006.]])

In [57]:
dados.transpose()

array([[44410.,  2003.],
       [ 5712.,  1991.],
       [37123.,  1990.],
       [ 1000.,  2018.],
       [25757.,  2006.]])

## Métodos de arrays Numpy

### *ndarray.tolist()*

Retorna o array como uma lista Python.

In [58]:
dados.tolist()

[[44410.0, 5712.0, 37123.0, 1000.0, 25757.0],
 [2003.0, 1991.0, 1990.0, 2018.0, 2006.0]]

### *ndarray.reshape(shape[, order])*

Retorna um array que contém os mesmos dados com uma nova forma.

In [59]:
contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [60]:
contador.reshape((5, 2))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [61]:
contador.reshape((5, 2), order='C')

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [62]:
contador.reshape((5, 2), order='F')

array([[0, 5],
       [1, 6],
       [2, 7],
       [3, 8],
       [4, 9]])

In [63]:
km = [44410, 5712, 37123, 0, 25757]
anos = [2003, 1991, 1990, 2019, 2006]

In [64]:
info_carros = km + anos
info_carros

[44410, 5712, 37123, 0, 25757, 2003, 1991, 1990, 2019, 2006]

In [65]:
np.array(info_carros).reshape((2, 5))

array([[44410,  5712, 37123,     0, 25757],
       [ 2003,  1991,  1990,  2019,  2006]])

In [66]:
np.array(info_carros).reshape((5, 2), order='F')

array([[44410,  2003],
       [ 5712,  1991],
       [37123,  1990],
       [    0,  2019],
       [25757,  2006]])

### *ndarray.resize(new_shape[, refcheck])*

Altera a forma e o tamanho do array.

In [67]:
dados_new = dados.copy()
dados_new

array([[44410.,  5712., 37123.,  1000., 25757.],
       [ 2003.,  1991.,  1990.,  2018.,  2006.]])

In [68]:
dados_new.resize((3, 5), refcheck=False)
dados_new

array([[44410.,  5712., 37123.,  1000., 25757.],
       [ 2003.,  1991.,  1990.,  2018.,  2006.],
       [    0.,     0.,     0.,     0.,     0.]])

In [69]:
dados_new[2] = dados_new[0] / (2019 - dados_new[1])
dados_new

array([[44410.        ,  5712.        , 37123.        ,  1000.        ,
        25757.        ],
       [ 2003.        ,  1991.        ,  1990.        ,  2018.        ,
         2006.        ],
       [ 2775.625     ,   204.        ,  1280.10344828,  1000.        ,
         1981.30769231]])

## Estatísticas com arrays Numpy

In [70]:
anos = np.array([2003, 1991, 1990, 2019, 2006, 2012, 2019, 2009, 2010, 2011])
anos

array([2003, 1991, 1990, 2019, 2006, 2012, 2019, 2009, 2010, 2011])

In [71]:
km = np.array([4.44100e+04, 5.71200e+03, 3.71230e+04, 0.00000e+00, 2.57570e+04,
       1.07280e+04, 0.00000e+00, 7.75990e+04, 9.91970e+04, 3.79780e+04,])
km

array([44410.,  5712., 37123.,     0., 25757., 10728.,     0., 77599.,
       99197., 37978.])

In [72]:
valor = np.array([88078.64, 106161.94,  72832.16, 124549.07,  92612.1 ,  97497.73,
        56445.2 , 112310.44, 120716.27,  76566.49])
valor

array([ 88078.64, 106161.94,  72832.16, 124549.07,  92612.1 ,  97497.73,
        56445.2 , 112310.44, 120716.27,  76566.49])

In [73]:
anos.shape

(10,)

In [74]:
km.shape

(10,)

In [75]:
valor.shape

(10,)

In [76]:
dataset = np.column_stack((anos, km, valor))
dataset

array([[  2003.  ,  44410.  ,  88078.64],
       [  1991.  ,   5712.  , 106161.94],
       [  1990.  ,  37123.  ,  72832.16],
       [  2019.  ,      0.  , 124549.07],
       [  2006.  ,  25757.  ,  92612.1 ],
       [  2012.  ,  10728.  ,  97497.73],
       [  2019.  ,      0.  ,  56445.2 ],
       [  2009.  ,  77599.  , 112310.44],
       [  2010.  ,  99197.  , 120716.27],
       [  2011.  ,  37978.  ,  76566.49]])

In [77]:
dataset.shape

(10, 3)

### *np.mean()*

Retorna a média dos elementos do array ao longo do eixo especificado.

In [78]:
np.mean(dataset, axis = 0)

array([ 2007.   , 33850.4  , 94777.004])

In [79]:
np.mean(dataset, axis = 1)

array([44830.54666667, 37954.98      , 37315.05333333, 42189.35666667,
       40125.03333333, 36745.91      , 19488.06666667, 63972.81333333,
       73974.42333333, 38851.83      ])

In [80]:
np.mean(dataset[:, 1])

33850.4

In [81]:
np.mean(dataset[:, 2])

94777.004

### *np.std()*

Retorna o desvio padrão dos elementos do array ao longo do eixo especificado.

In [82]:
np.std(dataset[:, 2])

20822.44706083567

### *ndarray.sum()*

Retorna a soma dos elementos do array ao longo do eixo especificado.

In [83]:
dataset.sum(axis = 0)

array([ 20070.  , 338504.  , 947770.04])

In [84]:
dataset[:, 1].sum()

338504.0

### *np.sum()*

Retorna a soma dos elementos do array ao longo do eixo especificado.

In [85]:
np.sum(dataset, axis = 0)

array([ 20070.  , 338504.  , 947770.04])

In [86]:
np.sum(dataset[:, 2])

947770.04