# <font color=green> PYTHON PARA DATA SCIENCE - NUMPY
---

# 1.1 Trabalhando com arrays Numpy

In [None]:
import numpy as np

In [None]:
km = np.loadtxt('carros-km.txt')

In [None]:
km

In [None]:
anos = np.loadtxt('carros-anos.txt', dtype = int)

In [None]:
anos

### Obtendo a quilometragem média por ano

In [None]:
km_media = km / (2022 - anos)

In [None]:
km_media

In [None]:
type(km_media)

numpy.ndarray

# $$km_{média} = \frac {km_{total}}{(Ano_{atual} - Ano_{fabricação})}$$

# <font color=green> 2. NUMPY BÁSICO
---

Numpy é a abreviação de Numerical Python e é um dos pacotes mais importantes para processamento numérico em Python. Numpy oferece a base para a maioria dos pacotes de aplicações científicas que utilizem dados numéricos em Python (estruturas de dados e algoritmos). Pode-se destacar os seguintes recursos que o pacote Numpy contém:

- Um poderoso objeto array multidimensional;
- Funções matemáticas sofisticadas para operações com arrays sem a necessidade de utilização de laços *for*;
- Recursos de algebra linear e geração de números aleatórios

Além de seus óbvios usos científicos, o pacote NumPy também é muito utilizado em análise de dados como um eficiente contêiner multidimensional de dados genéricos para transporte entre diversos algoritmos e bibliotecas em Python.

**Versão:** 1.16.5

**Instalação:** https://scipy.org/install.html

**Documentação:** https://numpy.org/doc/1.16/

### Pacotes

Existem diversos pacotes Python disponíveis para download na internet. Cada pacote tem como objetivo a solução de determinado tipo de problema e para isso são desenvolvidos novos tipos, funções e métodos.

Alguns pacotes são bastante utilizados em um contexto de ciência de dados como por exemplo:

- Numpy
- Pandas
- Scikit-learn
- Matplotlib

Alguns pacotes não são distribuídos com a instalação default do Python. Neste caso devemos instalar os pacotes que necessitamos em nosso sistema para podermos utilizar suas funcionalidades.

### Importando todo o pacote

In [None]:
import numpy

https://numpy.org/doc/1.16/reference/generated/numpy.arange.html

In [None]:
numpy.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### Importando todo o pacote e atribuindo um novo nome 

In [None]:
import numpy as np

In [None]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### Importando parte do pacote

In [None]:
from numpy import arange

In [None]:
arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# 2.1 Criando arrays Numpy

In [None]:
import numpy as np

### A partir de listas

https://numpy.org/doc/1.16/user/basics.creation.html

In [None]:
km = np.array([1000, 2000, 3000])

In [None]:
km

array([1000, 2000, 3000])

In [None]:
type(km)

numpy.ndarray

https://numpy.org/doc/1.16/user/basics.types.html

In [None]:
km.dtype

dtype('int64')

### A partir de dados externos

https://numpy.org/doc/1.16/reference/generated/numpy.loadtxt.html

In [None]:
import numpy as np

In [None]:
km = np.loadtxt(fname = 'carros-km.txt', dtype = int)

In [None]:
km

array([ 44410,   5712,  37123,      0,  25757,  10728,      0,  77599,
        99197,  37978,  12859,   8052,  89773,      0,  41457, 115607,
        46449,      0,  37086,  15173, 101193,      0,  98079, 102959,
            0,      0,   5795,      0,  58848,  94381,  30163,  53332,
        17720,  33808,  90684,  43975,      0,      0,   5526,      0,
        93415,  40762,      0,  86302,      0,   9755,  69945,   2395,
            0,  80349,  85554,  50496,  67716,  93947,  35345,  81007,
       119513,      0,      0,      0,      0,      0, 118895,  48509,
       100912,  95649,      0,  90495,      0,  29132,  23802,  84992,
        54395,  26731,  44329, 118236, 113808,    610,      0,      0,
        12887,  79607,  90924,  42733,      0,      0, 117714, 113885,
            0,  30511,  74867, 119760,   8356,  64247,  88661,   4539,
       110116,  33215,  92001,      0,  81708,  70641,      0,  91277,
        26544,  52596,  47503,  89056,  28834, 110564,  56638,  17357,
      

In [None]:
km.dtype

dtype('int64')

### Arrays com duas dimensões

In [None]:
dados = [ 
    ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva'],
    ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento'],
    ['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']
]
dados

[['Rodas de liga',
  'Travas elétricas',
  'Piloto automático',
  'Bancos de couro',
  'Ar condicionado',
  'Sensor de estacionamento',
  'Sensor crepuscular',
  'Sensor de chuva'],
 ['Central multimídia',
  'Teto panorâmico',
  'Freios ABS',
  '4 X 4',
  'Painel digital',
  'Piloto automático',
  'Bancos de couro',
  'Câmera de estacionamento'],
 ['Piloto automático',
  'Controle de estabilidade',
  'Sensor crepuscular',
  'Freios ABS',
  'Câmbio automático',
  'Bancos de couro',
  'Central multimídia',
  'Vidros elétricos']]

In [None]:
Acessorios = np.array(dados)

In [None]:
Acessorios

array([['Rodas de liga', 'Travas elétricas', 'Piloto automático',
        'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento',
        'Sensor crepuscular', 'Sensor de chuva'],
       ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4',
        'Painel digital', 'Piloto automático', 'Bancos de couro',
        'Câmera de estacionamento'],
       ['Piloto automático', 'Controle de estabilidade',
        'Sensor crepuscular', 'Freios ABS', 'Câmbio automático',
        'Bancos de couro', 'Central multimídia', 'Vidros elétricos']],
      dtype='<U24')

In [None]:
km.shape

(258,)

In [None]:
Acessorios.shape

(3, 8)

### Comparando desempenho com listas

Arrays tem desempenho muito melhor que lista, em operações matemáticas.

In [None]:
np_array = np.arange(1000000)

In [None]:
py_list = list(range(1000000))

In [None]:
%time for _ in range(100): np_array *= 2

CPU times: user 70.8 ms, sys: 0 ns, total: 70.8 ms
Wall time: 77 ms


In [None]:
%time for _ in range(100): py_list = [x * 2 for x in py_list]

CPU times: user 9.38 s, sys: 2.49 s, total: 11.9 s
Wall time: 12.1 s


# 2.2 Operações aritméticas com arrays Numpy

### Operações entre arrays e constantes

In [None]:
km = [44410., 5712., 37123., 0., 25757.]
anos = [2003, 1991, 1990, 2019, 2006]

In [None]:
# idade = 2019 - anos

In [None]:
km = np.array([44410., 5712., 37123., 0., 25757.])
anos = np.array([2003, 1991, 1990, 2019, 2006])

In [None]:
idade = 2019 - anos

In [None]:
idade

array([16, 28, 29,  0, 13])

### Operações entre arrays

In [None]:
km_media = km/idade # erro pois nao divide por 0

  """Entry point for launching an IPython kernel.


In [None]:
km_media

array([2775.625     ,  204.        , 1280.10344828,           nan,
       1981.30769231])

In [None]:
44410 / (2019 - 2003)

2775.625

### Operações com arrays de duas dimensões

In [None]:
dados_array2dimensao = np.array([km, anos])

In [None]:
dados_array2dimensao

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [None]:
dados_array2dimensao.shape

(2, 5)

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [None]:
dados_array2dimensao[0]

array([44410.,  5712., 37123.,     0., 25757.])

In [None]:
dados_array2dimensao[1]

array([2003., 1991., 1990., 2019., 2006.])

In [None]:
km_media = dados_array2dimensao[0] / (2019 - dados_array2dimensao[1])

  """Entry point for launching an IPython kernel.


In [None]:
km_media

array([2775.625     ,  204.        , 1280.10344828,           nan,
       1981.30769231])

# 2.3 Seleções com arrays Numpy

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [None]:
dados_array2dimensao

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

![1410-img02.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img02.png)

### Indexação 

<font color=red>**Observação:**</font> A indexação tem origem no zero.

In [None]:
cont = np.arange(10)
cont

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
cont[0]

0

In [None]:
item = 6
index = item - 1
cont[index]

5

In [None]:
cont[-1]

9

In [None]:
dados_array2dimensao[0]

array([44410.,  5712., 37123.,     0., 25757.])

In [None]:
dados_array2dimensao[1]

array([2003., 1991., 1990., 2019., 2006.])

## <font color=green>**Dica:**</font>
### *ndarray[ linha ][ coluna ]* ou *ndarray[ linha, coluna ]*

In [None]:
dados_array2dimensao[1][2]

1990.0

In [None]:
dados_array2dimensao[1, 2]

1990.0

 ### Fatiamentos
 
A sintaxe para realizar fatiamento em um array Numpy é $i : j : k$ onde $i$ é o índice inicial, $j$ é o índice de parada, e $k$ é o indicador de passo ($k\neq0$)
 
<font color=red>**Observação:**</font> Nos fatiamentos (*slices*) o item com índice i é **incluído** e o item com índice j **não é incluído** no resultado.

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [None]:
cont = np.arange(10)
cont

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
cont[1:4]

array([1, 2, 3])

In [None]:
cont[1:8:2]

array([1, 3, 5, 7])

In [None]:
cont[1::2]

array([1, 3, 5, 7, 9])

In [None]:
dados_array2dimensao

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [None]:
dados_array2dimensao[:, 1: 4]

array([[ 5712., 37123.,     0.],
       [ 1991.,  1990.,  2019.]])

In [None]:
dados_array2dimensao[:, 1:3][0] / (2019 - dados_array2dimensao[:, 1:3][1])

array([ 204.        , 1280.10344828])

In [None]:
dados_array2dimensao[0] / (2019 - dados_array2dimensao[1])

  """Entry point for launching an IPython kernel.


array([2775.625     ,  204.        , 1280.10344828,           nan,
       1981.30769231])

### Indexação com array booleano

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou um array booleano.

In [None]:
cont = np.arange(10)
cont

In [None]:
cont > 5

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [None]:
cont[cont > 5]

array([6, 7, 8, 9])

In [None]:
cont[[False, False, False, False, False, False,  True,  True,  True,
        True]]

array([6, 7, 8, 9])

In [None]:
dados_array2dimensao

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [None]:
dados_array2dimensao[1] > 2000

array([ True, False, False,  True,  True])

In [None]:
dados_array2dimensao[:, dados_array2dimensao[1] > 2000]

array([[44410.,     0., 25757.],
       [ 2003.,  2019.,  2006.]])

In [None]:
dados = np.array(
    [
        ['Roberto', 'casado', 'masculino'],
        ['Sheila', 'solteiro', 'feminino'],
        ['Bruno', 'solteiro', 'masculino'],
        ['Rita', 'casado', 'feminino']
    ]
)

dados


array([['Roberto', 'casado', 'masculino'],
       ['Sheila', 'solteiro', 'feminino'],
       ['Bruno', 'solteiro', 'masculino'],
       ['Rita', 'casado', 'feminino']], dtype='<U9')

In [None]:
dados[0::2, :2]

array([['Roberto', 'casado'],
       ['Bruno', 'solteiro']], dtype='<U9')

# 2.4 Atributos e métodos de arrays Numpy

### Atributos

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-attributes

## *ndarray.shape*

Retorna uma tupla com as dimensões do array.

In [40]:
import numpy as np

km = np.array([44410, 5712, 37123, 0, 25757])
anos = np.array([2003, 1991, 1990, 2019, 2006])
dados = np.array([km, anos])

dados.shape

(2, 5)

## *ndarray.ndim*

Retorna o número de dimensões do array.

In [41]:
dados.ndim

2

## *ndarray.size*

Retorna o número de elementos do array.

In [42]:
dados.size

10

## *ndarray.dtype*

Retorna o tipo de dados dos elementos do array.

In [43]:
dados.dtype

dtype('int64')

## *ndarray.T*

Retorna o array transposto, isto é, converte linhas em colunas e vice versa.

In [11]:
dados.T

array([[44410.,  2003.],
       [ 5712.,  1991.],
       [37123.,  1990.],
       [    0.,  2019.],
       [25757.,  2006.]])

In [13]:
dados.transpose()

array([[44410.,  2003.],
       [ 5712.,  1991.],
       [37123.,  1990.],
       [    0.,  2019.],
       [25757.,  2006.]])

### Métodos

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-methods

## *ndarray.tolist()*

Retorna o array como uma lista Python.

In [36]:
dados.tolist()

[['44410', '5712', '37123', '0', '25757'],
 ['2003', '1991', '1990', '2019', '2006']]

## *ndarray.reshape(shape[, order])*

Retorna um array que contém os mesmos dados com uma nova forma.

In [18]:
cont = np.arange(10)
cont

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [19]:
cont.reshape((5,2))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [20]:
cont.reshape((5,2), order='C')

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [21]:
cont.reshape((5,2), order='F')

array([[0, 5],
       [1, 6],
       [2, 7],
       [3, 8],
       [4, 9]])

In [None]:
km = [44410, 5712, 37123, 0, 25757]
anos = [2003, 1991, 1990, 2019, 2006]

In [44]:
info_carros = np.concatenate((km, anos), axis=None)
info_carros

array([44410,  5712, 37123,     0, 25757,  2003,  1991,  1990,  2019,
        2006])

In [45]:
np.array(info_carros).reshape((2, 5))

array([[44410,  5712, 37123,     0, 25757],
       [ 2003,  1991,  1990,  2019,  2006]])

In [46]:
np.array(info_carros).reshape((5, 2), order='F')

array([[44410,  2003],
       [ 5712,  1991],
       [37123,  1990],
       [    0,  2019],
       [25757,  2006]])

## *ndarray.resize(new_shape[, refcheck])*

Altera a forma e o tamanho do array.

In [48]:
dados_new = dados.copy()
dados_new

array([[44410,  5712, 37123,     0, 25757],
       [ 2003,  1991,  1990,  2019,  2006]])

In [52]:
dados_new.resize((3, 5), refcheck=False)

In [54]:
dados_new

array([[44410,  5712, 37123,     0, 25757],
       [ 2003,  1991,  1990,  2019,  2006],
       [    0,     0,     0,     0,     0]])

In [56]:
dados_new[2] = dados_new[0] / (2019 - dados_new[1])

  """Entry point for launching an IPython kernel.


In [57]:
dados_new

array([[               44410,                 5712,                37123,
                           0,                25757],
       [                2003,                 1991,                 1990,
                        2019,                 2006],
       [                2775,                  204,                 1280,
        -9223372036854775808,                 1981]])

# 2.5 Estatísticas com arrays Numpy

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#calculation

e

https://numpy.org/doc/1.16/reference/routines.statistics.html

e

https://numpy.org/doc/1.16/reference/routines.math.html

In [58]:
anos = np.loadtxt(fname = "carros-anos.txt", dtype = int)
km = np.loadtxt(fname = "carros-km.txt")
valor = np.loadtxt(fname = "carros-valor.txt")

In [60]:
anos.shape

(258,)

https://numpy.org/doc/1.16/reference/generated/numpy.column_stack.html

In [None]:
dataset = np.column_stack((anos, km, valor))
dataset

In [62]:
dataset.shape

(258, 3)

## *np.mean()*

Retorna a média dos elementos do array ao longo do eixo especificado.

In [65]:
np.mean(dataset, axis=0) # Fazendo media por coluna

array([ 2007.51162791, 44499.41472868, 98960.51310078])

In [None]:
np.mean(dataset, axis=1) # Fazendo media por linha

In [68]:
np.mean(dataset[:, 1]) # Fazendo media das colunas menos anos

44499.41472868217

In [69]:
np.mean(dataset[:, 2]) # Fazendo media das colunas menos anos

98960.51310077519

## *np.std()*

Retorna o desvio padrão dos elementos do array ao longo do eixo especificado.

In [70]:
np.std(dataset[:, 2]) # Fazendo desvio padrao do valor dos veiculos

29754.101150388564

## *ndarray.sum()*

Retorna a soma dos elementos do array ao longo do eixo especificado.

In [71]:
dataset.sum(axis=0)

array([  517938.        , 11480849.        , 25531812.37999999])

In [72]:
dataset[:, 1].sum()

11480849.0

## *np.sum()*

Retorna a soma dos elementos do array ao longo do eixo especificado.

In [73]:
np.sum(dataset, axis=0)

array([  517938.        , 11480849.        , 25531812.37999999])

In [74]:
np.sum(dataset[:, 2])

25531812.38

In [76]:
dataset[:, 2].mean() # Exercicio

98960.51310077519