# Big Data Real-Time Analytics com Python e Spark

## Capítulo 2 - Manipulação de Dados com Python e NumPy
https://numpy.org/

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.13


In [3]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install nome_pacote==versao_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.
!pip install -q -U watermark

In [1]:
!pip install numpy==1.22.3



In [2]:
# Importando o módulo NumPy
import numpy as np

In [3]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Andrew Borges" --iversions

Author: Andrew Borges

numpy: 1.22.3



## Criando Estruturas de Dados NumPy

In [4]:
# Criando array unidimensional
array1 = np.array([10, 20, 30, 40])

In [5]:
print(array1)

[10 20 30 40]


In [7]:
# Verificando o formato (shape) do array
array1.shape

(4,)

In [12]:
# Verificando o número de dimensões
array1.ndim

1

In [9]:
# Criando array bi-dimensional
array2 = np.array([[100, 83, 15], [42, 78, 0]])

In [10]:
print(array2)

[[100  83  15]
 [ 42  78   0]]


In [11]:
# Verificando o formato (shape) do array
array2.shape

(2, 3)

In [13]:
# Verificando o número de dimensões
array2.ndim

2

## Em Python TUDO é Objeto, com Métodos e Atributos

### Método - Realiza ação no objeto

### Atributo Característica (propriedade) do objeto

In [14]:
# Método
array2.max()

100

In [15]:
# Atributo
array2.ndim

2

## Criando Estruturas de Dados com Arange

In [16]:
array3 = np.arange(15)

In [17]:
array3

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [20]:
# Usando start/end (exclusive)
array4 = np.arange(0, 15, 3)

In [21]:
array4

array([ 0,  3,  6,  9, 12])

## Criando Estruturas de Dados com Linspace

In [22]:
# Argumentos: (start, end, number of elements)
array5 = np.linspace(0, 3, 4); array5

array([0., 1., 2., 3.])

## Criando Estruturas de Dados com Outras Funções

### numpy.zeros

In [23]:
# Array 10x8 de zeros
array6 = np.zeros((10, 8)); array6

array([[0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.]])

### numpy.ones

In [25]:
# Array 2x3x2 de 1's
array7 = np.ones((2, 3, 2)); array7

array([[[1., 1.],
        [1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.],
        [1., 1.]]])

## numpy.eye

In [27]:
# Produz uma Matriz identidade
array8 = np.eye(3); array8

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

## numpy.diag

In [28]:
# Matriz diagonal
array9 = np.diag((2, 1, 4, 6)); array9

array([[2, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 4, 0],
       [0, 0, 0, 6]])

## numpy.random.rand

In [29]:
# A função rand(n) produz uma sequência de n números uniformemente distribuídos com range de 0 a 1
np.random.seed(100) # Set seed
array10 = np.random.rand(5); array10

array([0.54340494, 0.27836939, 0.42451759, 0.84477613, 0.00471886])

In [31]:
# A função randn(n) produz uma sequência de números com distribuição normal (Gaussian)
array11 = np.random.randn(5); array11

array([-0.18949583,  0.25500144, -0.45802699,  0.43516349, -0.58359505])

## numpy.empty

In [32]:
array12 = np.empty((3, 2)); array12

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

## numpy.tile

In [None]:
np.array([[9, 4], [3, 7]])

In [34]:
np.tile(np.array([[9, 4], [3, 7]]), 4)

array([[9, 4, 9, 4, 9, 4, 9, 4],
       [3, 7, 3, 7, 3, 7, 3, 7]])

In [35]:
np.tile(np.array([[9, 4], [3, 7]]), (2, 2))

array([[9, 4, 9, 4],
       [3, 7, 3, 7],
       [9, 4, 9, 4],
       [3, 7, 3, 7]])

# Tipos de Dados NumPy

In [36]:
array13 = np.array([8, -3, 5 ,9], dtype = 'float')

In [37]:
print(array13)

[ 8. -3.  5.  9.]


In [38]:
array13.dtype

dtype('float64')

In [39]:
array14 = np.array([2, 4, 6, 8])

In [41]:
print(array14)

[2 4 6 8]


In [42]:
array14.dtype

dtype('int32')

In [43]:
array15 = np.array([2.0, 4, 6, 8])

In [44]:
array15.dtype

dtype('float64')

In [45]:
array16 = np.array(['Data', 'Science'])

In [46]:
array16.dtype

dtype('<U7')

In [47]:
array17 = np.array([True, False, True])

In [48]:
array17.dtype

dtype('bool')

In [49]:
array18 = np.array([7, -3, 5.24])

In [50]:
array18.dtype

dtype('float64')

In [51]:
array18.astype(int)

array([ 7, -3,  5])

# Operações com Arrays

In [52]:
# Array começando por 0, com 30 elementos e multiplicado por 5
array19 = np.arange(0, 30) * 5

In [53]:
print(array19)

[  0   5  10  15  20  25  30  35  40  45  50  55  60  65  70  75  80  85
  90  95 100 105 110 115 120 125 130 135 140 145]


In [54]:
# Elevando um array a quarta potência
array20 = np.arange(5) ** 4

In [55]:
array20

array([  0,   1,  16,  81, 256], dtype=int32)

In [56]:
# Somando um número a cada elemento do array
array21 = np.arange(0, 30) + 1

In [57]:
array21

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30])

In [58]:
array22 = np.arange(0, 30, 3) + 3
array23 = np.arange(1, 11)

In [59]:
array22

array([ 3,  6,  9, 12, 15, 18, 21, 24, 27, 30])

In [60]:
array23

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [61]:
# Subtração
array22 - array23

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18, 20])

In [62]:
# Soma
array22 + array23

array([ 4,  8, 12, 16, 20, 24, 28, 32, 36, 40])

In [63]:
# Divisão
array22 / array23

array([3., 3., 3., 3., 3., 3., 3., 3., 3., 3.])

In [64]:
# Multiplicação
array22 * array23

array([  3,  12,  27,  48,  75, 108, 147, 192, 243, 300])

In [65]:
# Podemos ainda comparar arrays
array22 > array23

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True])

In [66]:
arr1 = np.array([True, False, True, False])
arr2 = np.array([False, False, True, True])
np.logical_and(arr1, arr2)

array([False, False,  True, False])

> Podemos criar arrays com Python, sem usar o módulo NumPy. Porém o NumPy é muito mais rápido.

In [67]:
array_numpy = np.arange(1000)
%timeit array_numpy ** 4

2.87 µs ± 82.2 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [68]:
array_python = range(1000)
%timeit [array_python[i] ** 4 for i in array_python]

281 µs ± 3.61 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


A métrica µs significa microsegundos

# Fim