# Numby 

Numby é um dos pacotes mais importantes para processamento numérico em Python. Ele oferece a base para a maioria dos pacotes de aplicações cientificas que utilizam dados numéricos em Python(estrutura de dados e algoritmos).

## Importando o pacote

In [2]:
import numpy as np

Usando um dos métodos disponiveis:

In [3]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

## Importando parte do pacote

In [4]:
from numpy import arange

In [5]:
arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

## Criando array Numpy

In [6]:
import numpy as np

In [7]:
ano = np.array([10, 25, 50, 75, 100])

In [8]:
ano

array([ 10,  25,  50,  75, 100])

In [9]:
type(ano)

numpy.ndarray

In [10]:
ano.dtype

dtype('int64')

### A partir de dados externos

In [11]:
ano = np.loadtxt(fname = 'carros-ano.txt', dtype = int)

In [12]:
ano

array([2003, 1991, 1990, 2019, 2006, 2012, 2019, 2009, 2010, 2011, 2002,
       2007, 2001, 2019, 2009, 2016, 2012, 2019, 2016, 2017, 2002, 2019,
       1994, 1991, 2019, 2019, 2016, 2019, 2002, 1991, 1997, 1995, 2018,
       1991, 2014, 1995, 2019, 2019, 2009, 2019, 2013, 2003, 2019, 2002,
       2019, 2002, 2004, 2001, 2019, 2003, 2009, 2006, 2000, 2006, 2010,
       1994, 2007, 2019, 2019, 2019, 2019, 2019, 2017, 2011, 2001, 1996,
       2019, 1994, 2019, 2007, 1994, 2007, 1997, 2006, 2013, 1994, 2008,
       2008, 2019, 2019, 1999, 2007, 1993, 1995, 2019, 2019, 2016, 2011,
       2019, 2002, 2013, 2017, 2016, 2008, 2018, 2003, 2003, 2004, 2010,
       2019, 2006, 2001, 2019, 2015, 2018, 2017, 1992, 2001, 1993, 1995,
       2003, 2014, 2008, 2013, 2019, 2017, 2019, 2019, 2006, 2015, 2007,
       2005, 2017, 1998, 2019, 1999, 2019, 2009, 2003, 1994, 2019, 1994,
       2019, 2015, 1996, 1997, 1993, 2019, 1992, 1995, 2019, 1990, 2019,
       2019, 1991, 1990, 2012, 2007, 2013, 2000, 20

In [13]:
ano.shape # quantidade de linhas

(258,)

## Comparando desempenho de array np e listas python

In [14]:
np_array = np.arange(1000000)

In [15]:
py_list = list(range(1000000))

In [16]:
%time for _ in range(100): np_array *= 2

CPU times: user 153 ms, sys: 439 µs, total: 154 ms
Wall time: 151 ms


In [17]:
%time for _ in range(100): py_list = [x * 2 for x in py_list]

CPU times: user 9.04 s, sys: 2.01 s, total: 11.1 s
Wall time: 11.1 s


## Operações aritméticas com array Numpy

In [18]:
km = [44410., 5712., 37123., 0., 25757.]
anos = [2003, 1991, 1990, 2019, 2006] 

In [21]:
idade = 2019 - anos

TypeError: unsupported operand type(s) for -: 'int' and 'list'

In [22]:
km = np.array([44410., 5712., 37123., 0., 25757.])
anos = np.array([2003, 1991, 1990, 2019, 2006])

In [23]:
idade = 2019 - anos

In [24]:
idade

array([16, 28, 29,  0, 13])

### Operações entra arrays

In [25]:
km_media = km / idade # n é possivel realizar divisao por 0

  km_media = km / idade # n é possivel realizar divisao por 0


In [26]:
km_media

array([2775.625     ,  204.        , 1280.10344828,           nan,
       1981.30769231])

### Operações com arrays de duas dimensões

In [27]:
dados = np.array([km, anos])

In [28]:
dados

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [29]:
dados.shape # dimensões

(2, 5)

In [30]:
dados[0]

array([44410.,  5712., 37123.,     0., 25757.])

In [31]:
dados[1]

array([2003., 1991., 1990., 2019., 2006.])

In [32]:
km_media = dados[0] / (2019 - dados[1])

  km_media = dados[0] / (2019 - dados[1])


In [33]:
km_media

array([2775.625     ,  204.        , 1280.10344828,           nan,
       1981.30769231])

In [34]:
dados

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [35]:
contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]:
dados[1][2]

1990.0

In [39]:
dados[1, 2]

1990.0

In [43]:
dados[:, 1:4]

array([[ 5712., 37123.,     0.],
       [ 1991.,  1990.,  2019.]])

In [44]:
dados[:, 1:3]

array([[ 5712., 37123.],
       [ 1991.,  1990.]])

In [45]:
dados[:, 1:3][0]

array([ 5712., 37123.])

In [47]:
dados[:, 1:3][0] / (2019 - dados[:, 1:3][1]) # média por ano

array([ 204.        , 1280.10344828])

In [49]:
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [50]:
contador > 5

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [51]:
contador[contador > 5]

array([6, 7, 8, 9])

In [54]:
contador[[False, False, False, False, False, False,  True,  True,  True,
        True]]

array([6, 7, 8, 9])

In [55]:
dados

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [56]:
dados[1] > 2000

array([ True, False, False,  True,  True])

In [57]:
dados[:, dados[1] > 2000] # pegando apenas os carros fabricados dps dos anos 2000

array([[44410.,     0., 25757.],
       [ 2003.,  2019.,  2006.]])

## Alguns Atributos

<n>ndarry.shape:</n><br>
Retorna uma tupla com as dimensões do array

In [60]:
dados.shape 

(2, 5)

ndarray.ndim:<br>
Retorna o número de dimensões do array

In [61]:
dados.ndim

2

ndarray.size:<br>
Retorna o número de elementos do array

In [62]:
dados.size

10

ndarray.dtype:<br>
Retorna o tipo de dados dos elementos do array

In [63]:
dados.dtype

dtype('float64')

ndarray.T:<br>
Retorna o array transposto, isto é, converte linhas em colunas e vice versa.

In [64]:
dados.T

array([[44410.,  2003.],
       [ 5712.,  1991.],
       [37123.,  1990.],
       [    0.,  2019.],
       [25757.,  2006.]])

In [65]:
dados.transpose()

array([[44410.,  2003.],
       [ 5712.,  1991.],
       [37123.,  1990.],
       [    0.,  2019.],
       [25757.,  2006.]])

## Alguns métodos

ndarray.tolist():<br>
Retorna o array como uma lista Python.

In [66]:
dados.tolist()

[[44410.0, 5712.0, 37123.0, 0.0, 25757.0],
 [2003.0, 1991.0, 1990.0, 2019.0, 2006.0]]

ndarray.reshape(shape[, order]):<br>
Retorna um array que contém os mesmos dados com uma nova forma.

In [67]:
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [68]:
contador.reshape((5,2))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [69]:
contador.reshape((5,2), order='C')

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [70]:
contador.reshape((5,2), order='F')

array([[0, 5],
       [1, 6],
       [2, 7],
       [3, 8],
       [4, 9]])

In [76]:
km = [44410., 5712., 37123., 0., 25757.]
anos = [2003, 1991, 1990, 2019, 2006]

In [77]:
info_carros = km + anos

In [78]:
info_carros

[44410.0, 5712.0, 37123.0, 0.0, 25757.0, 2003, 1991, 1990, 2019, 2006]

In [80]:
np.array(info_carros).reshape((2, 5))

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [81]:
np.array(info_carros).reshape((5, 2), order='F')

array([[44410.,  2003.],
       [ 5712.,  1991.],
       [37123.,  1990.],
       [    0.,  2019.],
       [25757.,  2006.]])

ndarray.resize(new_shape[, refcheck]:<br>
Altera a forma e o tamanho do array

In [82]:
dados_new = dados.copy()
dados_new

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [84]:
dados_new.resize((3, 5), refcheck=False)

In [85]:
dados_new

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.],
       [    0.,     0.,     0.,     0.,     0.]])

In [87]:
dados_new[2] = dados_new[0] / (2019 - dados_new[1])

  dados_new[2] = dados_new[0] / (2019 - dados_new[1])


In [88]:
dados_new

array([[44410.        ,  5712.        , 37123.        ,     0.        ,
        25757.        ],
       [ 2003.        ,  1991.        ,  1990.        ,  2019.        ,
         2006.        ],
       [ 2775.625     ,   204.        ,  1280.10344828,            nan,
         1981.30769231]])

## Estatísticas com array Numpy

In [98]:
anos = np.loadtxt(fname = 'carros-ano.txt', dtype = int)
km = np.loadtxt(fname = "carros-km.txt")
valor = np.loadtxt(fname = "carros-valor.txt")

In [99]:
anos.shape

(258,)

In [101]:
dataset = np.column_stack((anos, km, valor))

In [102]:
dataset

array([[  2003., 160951.,  95924.],
       [  1991.,   8215.,  22604.],
       [  1990., 362816.,  18104.],
       [  2019., 322498.,  83207.],
       [  2006., 257753.,  18374.],
       [  2012., 449134.,  64239.],
       [  2019., 424139.,  69891.],
       [  2009., 327520.,  72799.],
       [  2010., 355782.,  49110.],
       [  2011., 190530.,  55157.],
       [  2002., 214246.,  81486.],
       [  2007.,  23875.,  37571.],
       [  2001., 140194.,  62779.],
       [  2019., 413642.,  38790.],
       [  2009., 189854.,  35353.],
       [  2016., 458086.,  32356.],
       [  2012., 362254.,  65282.],
       [  2019.,  94597.,  43396.],
       [  2016., 416977.,  76531.],
       [  2017.,  43007.,  68279.],
       [  2002., 409545.,  41647.],
       [  2019.,  64862.,  79595.],
       [  1994., 423013.,  77914.],
       [  1991., 336508.,  83873.],
       [  2019.,  97370.,  55385.],
       [  2019., 348399.,  83289.],
       [  2016., 465393.,  93453.],
       [  2019., 237942.,  7

In [103]:
dataset.shape

(258, 3)

np.mean():<br>
Retorna a média dos elementos do array ao longo do eixo especificado.

In [104]:
np.mean(dataset) # média de TODOS os numero presente no array

98307.95219638242

In [105]:
np.mean(dataset, axis = 0) # media de cada uma das colunas

array([  2007.51162791, 235178.75968992,  57737.58527132])

In [108]:
 np.mean(dataset, axis = 1) # media de cada uma das linhas, porem n faz sentido usar nesses arquivos

array([ 86292.66666667,  10936.66666667, 127636.66666667, 135908.        ,
        92711.        , 171795.        , 165349.66666667, 134109.33333333,
       135634.        ,  82566.        ,  99244.66666667,  21151.        ,
        68324.66666667, 151483.66666667,  75738.66666667, 164152.66666667,
       143182.66666667,  46670.66666667, 165174.66666667,  37767.66666667,
       151064.66666667,  48825.33333333, 167640.33333333, 140790.66666667,
        51591.33333333, 144569.        , 186954.        , 104363.33333333,
       145245.        , 145218.66666667, 108586.33333333, 154086.33333333,
       106060.66666667, 113839.66666667,  67320.33333333,  30288.33333333,
        40898.        , 131816.66666667,  78925.33333333, 106898.        ,
       157445.33333333,  65709.        , 110718.33333333, 140832.66666667,
        60622.66666667,  54449.        ,  64385.66666667,  67998.33333333,
        39374.        ,  87966.66666667,  36138.        , 119016.33333333,
        47435.66666667, 1

In [110]:
 np.mean(dataset[:, 1]) # para 

235178.75968992247

In [111]:
 np.mean(dataset[:, 2])

57737.58527131783

np.std():<br>
Retorna o desvio padrão dos elementos do array ao longo do eixo especificado.

In [112]:
np.std(dataset[:, 2])

24162.269468225288

ndarray.sum():<br>
Retorna a soma dos elementos do array ao longo do eixo especificado.

In [113]:
dataset.sum(axis = 0)

array([  517938., 60676120., 14896297.])

In [115]:
dataset.sum()

76090355.0

In [116]:
dataset[:, 1].sum()

60676120.0

np.sum():<br>
Retorna a soma dos elementos do array ao longo do eixo especificado.

In [117]:
np.sum(dataset, axis = 0)

array([  517938., 60676120., 14896297.])

In [118]:
np.sum(dataset[:, 2])

14896297.0