# Big Data Real-Time Analytics com Python e Spark

## Capítulo 2 - Manipulação de Dados com Python e NumPy
https://numpy.org/

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.13


In [2]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install nome_pacote==versao_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.
#!pip install -q -U watermark

In [3]:
# Importando o módulo NumPy
import numpy as np

In [4]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Andrew Borges" --iversions

Author: Andrew Borges

numpy: 1.22.3



# Transposição e Reshaping de Arrays

In [6]:
array1 = np.array([[65, 23, 19], [41, 87, 10]])

In [7]:
array1

array([[65, 23, 19],
       [41, 87, 10]])

In [8]:
array1.T

array([[65, 41],
       [23, 87],
       [19, 10]])

In [12]:
np.transpose(array1)

array([[65, 41],
       [23, 87],
       [19, 10]])

## Broadcasting

In [14]:
array2 = np.array([[33, 34, 35]])

In [15]:
array2

array([[33, 34, 35]])

In [16]:
array2.T

array([[33],
       [34],
       [35]])

In [17]:
array2.T + array2

array([[66, 67, 68],
       [67, 68, 69],
       [68, 69, 70]])

## Transformando Matrizes em Vetores

In [18]:
array3 = np.array([np.arange(1, 6), np.arange(10, 15)])

In [21]:
array3

array([[ 1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14]])

In [22]:
array3.ndim

2

In [20]:
array3.ravel()

array([ 1,  2,  3,  4,  5, 10, 11, 12, 13, 14])

In [23]:
array3.T.ravel()

array([ 1, 10,  2, 11,  3, 12,  4, 13,  5, 14])

## Operadores Lógicos

In [24]:
np.random.seed(100)
array4 = np.random.randint(1, 10, size = (4, 4))

In [25]:
array4

array([[9, 9, 4, 8],
       [8, 1, 5, 3],
       [6, 3, 3, 3],
       [2, 1, 9, 5]])

In [26]:
np.any((array4 % 7) == 0)

False

In [27]:
np.all(array4 < 11)

True

In [29]:
# Retorne a linha onde o elemento de índice 1 na coluna seja maior que 2 e menor que 9
np.where(np.logical_and(array4[:, 1] > 2, array4[:, 1] < 9))

(array([2], dtype=int64),)

In [32]:
# Mesmo resultado que a linha anterior
np.intersect1d(np.where(array4[:, 1] > 2), np.where(array4[:, 1] < 9))

array([2], dtype=int64)

In [33]:
array4[2]

array([6, 3, 3, 3])

## Reshaping e Ordenação de Arrays

In [34]:
array5 = np.arange(1, 16)

In [35]:
array5

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [46]:
array5.ndim

1

In [36]:
array5.reshape(3, 5)

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

In [38]:
array7 = np.array([[3, 2], [10, -1]])

In [39]:
array7

array([[ 3,  2],
       [10, -1]])

In [40]:
# Ordenando por linhas
array7.sort(axis = 1)

In [41]:
array7

array([[ 2,  3],
       [-1, 10]])

In [42]:
array8 = np.array([[3, 2], [10, -1]])

In [43]:
array8

array([[ 3,  2],
       [10, -1]])

In [44]:
# Ordenando por colunas
array8.sort(axis = 0)

In [45]:
array8

array([[ 3, -1],
       [10,  2]])

## Fim