[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/vicnetto/py-learn/blob/master/data-science/numpy/ds_numpy.ipynb) 
> # Aprendendo um pouco sobre **Numpy**
(ABRA PELO GOOGLE COLAB PARA MELHOR VISUALIZAÇÃO)

O **Numpy** é uma biblioteca do Python extremamente eficiente para processamento numérico. Ele apresenta um array extremamente poderoso, que apresenta:

*   Altíssima velocidade;
*   Funções sofisticadas para evitar o uso de laços de repetição;
*   Recursos de álgebra linear;
*   Geração de números aleatórios.

## Introduzindo os arrays **Numpy**

Os arrays **numpy** podem ser facilmente criados pelas próprias listas do Python. Por exemplo:

In [1]:
import numpy as np

km = np.array([1230, 1500, 3000, 2000])  # Fazendo um novo np.array a partir de um array do próprio Python.
print(km, type(km))

[1230 1500 3000 2000] <class 'numpy.ndarray'>


### Inserindo dados externos com a utilização dos arrays

Usando o numpy, podemos inserir dados direto dos arquivos e fazer operações logo em seguida:

In [2]:
km = np.loadtxt(fname = "carros-km.txt", dtype = int)  # Dois parâmetros: fname (nome do arquivo) e dtype (tipo forçado do arquivo).
km

array([ 44410,   5712,  37123,      0,  25757,  10728,      0,  77599,
        99197,  37978,  12859,   8052,  89773,      0,  41457, 115607,
        46449,      0,  37086,  15173, 101193,      0,  98079, 102959,
            0,      0,   5795,      0,  58848,  94381,  30163,  53332,
        17720,  33808,  90684,  43975,      0,      0,   5526,      0,
        93415,  40762,      0,  86302,      0,   9755,  69945,   2395,
            0,  80349,  85554,  50496,  67716,  93947,  35345,  81007,
       119513,      0,      0,      0,      0,      0, 118895,  48509,
       100912,  95649,      0,  90495,      0,  29132,  23802,  84992,
        54395,  26731,  44329, 118236, 113808,    610,      0,      0,
        12887,  79607,  90924,  42733,      0,      0, 117714, 113885,
            0,  30511,  74867, 119760,   8356,  64247,  88661,   4539,
       110116,  33215,  92001,      0,  81708,  70641,      0,  91277,
        26544,  52596,  47503,  89056,  28834, 110564,  56638,  17357,
      

Ainda para verificar o tamanho desse arquivo podemos usar o seguinte código:

In [3]:
km.shape  # Que no caso são 258 dados, unidimensionais.

(258,)

## Por que devemos usar os arrays do **Numpy**?

Aqui temos um pequeno teste de velocidade entre os arrays normais do Python e os np.arrays, apenas para comparação. Para fazer essa comparação, existe a variável do Python *%time*, que indica o tempo gasto para fazer tal operação. Todos os valores do array serão multiplicados por 2, porém em um laço de for, para ser possível fazer uma comparação.

In [4]:
# Primeiramente realizando o teste pelos arrays numpy:
np_array = np.arange(1000000)  # Função igual a range do Python, porém do numpy.
%time for _ in range(100): np_array *= 2

CPU times: user 51.7 ms, sys: 0 ns, total: 51.7 ms
Wall time: 52.9 ms


> A função *arange(qnt)* do Numpy é extremamente importante. É a função *range(qnt)*, porém de uma forma extremamente rápida, que pode ser armazenada facilmente em um array Numpy.

In [5]:
# Agora realizando o teste pelos arrays normais do Python:
py_list = list(range(1000000))
%time for _ in range(100): py_list = [x * 2 for x in py_list]

CPU times: user 7.78 s, sys: 1.71 s, total: 9.49 s
Wall time: 9.49 s


## Algumas operações em **Numpy**

Dentro dessa parte, será colocado algumas **operações simples** com arrays **Numpy**, que usando listas, se tornam extremamente complicadas.

### Operações simples com todo o array

In [6]:
car_km = np.array([30000, 20000, 5000, 35000])  # Quantidade de km rodados pelo carro
car_year = np.array([2015, 2014, 2020, 2013])  # Ano de fabricação do carro

car_age = 2020 - car_year  # Idade atual do carro: ano atual - ano de fabricação
car_age

array([5, 6, 0, 7])

> Para fazer tal operação com as listas do Python, seria necessário *lists comprehensions*, o que tornam o processo extremamente cansativo e lento.

In [7]:
km_mean = car_km / car_age  # Como não existe divisão por 0, o array Numpy substitui o valor por um "inf" ou um "nan".
km_mean

  """Entry point for launching an IPython kernel.


array([6000.        , 3333.33333333,           inf, 5000.        ])

### Operações com verificação booleana

É possível fazer um *slicing* no nosso *np.array*, mas com uma verificação booleana, como se fosse um comparativo, do seguinte modo:

In [8]:
np_array = np.arange(10)
np_array[np_array > 5]  # Pega somente os elementos que estão acima de 5.

array([6, 7, 8, 9])

No mesmo jeito, é possível realizar essas operações em uma matriz **Numpy**.

In [9]:
np_matrix = np.array([[1, 2, 3], [4, 5, 6]])  # Fazendo uma matriz simples.
np_matrix[:, np_matrix[1] % 2 == 0]  # Somente inserindo no array valores que sejam pares na sua segunda parte.

array([[1, 3],
       [4, 6]])

## Alguns atributos e métodos da biblioteca **Numpy**


Primeiramente os atributos, que podem ser encontrados na documentação do próprio [Numpy](https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-attributes). Então alguns atributos são:

In [10]:
data = np.array([[1, 2, 3, 4], [8, 7, 6, 5]])
print("Dimensões do Array: ", data.shape)  # Função para mostrar
print("Numero da dimensão: ", data.ndim)
print("Numero de elementos: ", data.size)
print("Tipo dos dados: ", data.dtype)
print("Array transposto: ", data.T)


Dimensões do Array:  (2, 4)
Numero da dimensão:  2
Numero de elementos:  8
Tipo dos dados:  int64
Array transposto:  [[1 8]
 [2 7]
 [3 6]
 [4 5]]


Agora as métodos, que também podem ser encotradas no site do [Numpy](https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-methods). Porém temos alguns aqui como exemplo:

In [11]:
# Usando a matriz "data" como variável.
print("Np.array para py.list: ", data.tolist())
print("Transformar o array em outro formato: ", data.reshape((4, 2))) 
print("Transformar o array em outro formato: ", data.reshape((4, 2), order='F'))  # Tem várias ordens, usando o parâmetro order.
print("Cria uma copia do array: ", data.copy)

data_new = np.array([[1, 2, 3, 4], [8, 7, 6, 5]])
data_new.resize((3, 4), refcheck=False)
print("Insere mais dados no array: ", data_new)

Np.array para py.list:  [[1, 2, 3, 4], [8, 7, 6, 5]]
Transformar o array em outro formato:  [[1 2]
 [3 4]
 [8 7]
 [6 5]]
Transformar o array em outro formato:  [[1 3]
 [8 6]
 [2 4]
 [7 5]]
Cria uma copia do array:  <built-in method copy of numpy.ndarray object at 0x7f2d13de89e0>
Insere mais dados no array:  [[1 2 3 4]
 [8 7 6 5]
 [0 0 0 0]]


## Estatísticas com arrays **Numpy**

Um pouco dos métodos utilizados em estatística para **estudo dos dados**, porém agora utilizando o **Numpy**.

In [12]:
# Primeiramente transformando esses arquivos em variáveis.
anos = np.loadtxt(fname = "carros-anos.txt")
km = np.loadtxt(fname = "carros-km.txt")
valor = np.loadtxt(fname = "carros-valor.txt")

Agora um poucos dos métodos estatísticos, aprendidos também um pouco em **Pandas**:

In [13]:
dataset = np.column_stack((anos, km, valor))  # Juntando todas as colunas de dados em um dataset.
print("Apenas para ter noção do tamanho: ", dataset.shape)
print("Calculando as medias das colunas: ", np.mean(dataset[:, 1:3], axis = 0))  # Fazendo a média de todos os valores de cada coluna. 
                                                                                 # Caso queira fazer por linha, colocar 1 no axis.
print("Para calcular o desvio padrão no valor: ", np.std(dataset[:, 2]))
print("Calculando o somatorio: ", dataset[:, 1].sum())  # ou até mesmo np.sum(---), dá na mesma.

Apenas para ter noção do tamanho:  (258, 3)
Calculando as medias das colunas:  [44499.41472868 98960.51310078]
Para calcular o desvio padrão no valor:  29754.101150388564
Calculando o somatorio:  11480849.0
