# CURSO USANDO PYTHON PARA ANÁLISE DE DADOS

https://www.udemy.com/usando-python-para-analise-de-dados

Evaldo Wolkers

## NumPy

## Programação orientada a arrays

Vetorização (vectorization) é o nome dado à prática de utilizar expressões de arrays em lugar de laços explícitos. Normalmente, operações vetorizadas em arrays com frequência serão mais rápidas em uma ou duas (ou mais) ordens de grandeza do que seus equivalentes em Python puro, com o maior impacto sendo em qualquer tipo de processamento numérico.

Como exemplo, vamos supor que queremos avaliar a função sqrt(x^2 + y^2) (raiz quadrada de x elevado a 2 somado com y elevado a 2) para uma grade regular de valores. A função np.meshgrid aceita dois arrays 1D e gera duas matrizes 2D correspondentes a todos os pares (x, y) nos dois arrays.

In [144]:
import numpy as np

In [145]:
# Mudando a precisão e suprimindo valores pequenos para melhorar a visualização
np.set_printoptions(precision=2, suppress=True)

In [146]:
# De -1 a 1.1, com incremento de 0.5, sendo que o 1.1 não entra
# Obs.: Faça com mais números, como por exemplo, de -1 a 1, com salto de 0.1
pontos = np.arange(-1, 1.1, 0.5)
pontos

array([-1. , -0.5,  0. ,  0.5,  1. ])

In [147]:
xs, ys = np.meshgrid(pontos, pontos)

In [148]:
xs

array([[-1. , -0.5,  0. ,  0.5,  1. ],
       [-1. , -0.5,  0. ,  0.5,  1. ],
       [-1. , -0.5,  0. ,  0.5,  1. ],
       [-1. , -0.5,  0. ,  0.5,  1. ],
       [-1. , -0.5,  0. ,  0.5,  1. ]])

In [149]:
ys

array([[-1. , -1. , -1. , -1. , -1. ],
       [-0.5, -0.5, -0.5, -0.5, -0.5],
       [ 0. ,  0. ,  0. ,  0. ,  0. ],
       [ 0.5,  0.5,  0.5,  0.5,  0.5],
       [ 1. ,  1. ,  1. ,  1. ,  1. ]])

In [129]:
# Mudando a precisão para visualizarmos mais decimais
np.set_printoptions(precision=5, suppress=True)

In [130]:
# Agora vamos submeter as duas matrizes à nosso cálculo
z = np.sqrt(xs ** 2 + ys ** 2)

In [131]:
z

array([[1.41421, 1.11803, 1.     , 1.11803],
       [1.11803, 0.70711, 0.5    , 0.70711],
       [1.     , 0.5    , 0.     , 0.5    ],
       [1.11803, 0.70711, 0.5    , 0.70711]])

Usamos poucos valores para exemplificar, mas se for submetido a milhares de valores, a operação será executada muito mais rápida do que fazendo loops em Python puro.

### Expressando uma lógica condicional como operações de array

Você já conhece a expressão ternária "x if condition else y", assim:

In [1]:
x = 10
y = 20
x if x>1 else y

10

In [2]:
x = 10
y = 20
x if x>30 else y

20

O NumPy possui uma versão vetorizada dessa expressão que é o numpy.where.
Como exemplo, vamos criar um array booleano e dois arrays de valores:

In [5]:
arr1 = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
arr2 = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
condicao = np.array([True, False, True, True, False])

Vamos retornar valores de arr1 sempre que seu correspondente no array condicao seja verdadeiro, caso contrário retornaremos o valor de arr2. Para isso usaremos numpy.where.

In [9]:
resultado = np.where(condicao, arr1, arr2)
resultado

array([1.1, 2.2, 1.3, 1.4, 2.5])

O segundo e o terceiro argumentos de np.where não precisam ser arrays, estes argumentos podem ser escalares.
Vamos pegar uma matriz de dados e mudar seus valores negativos para -1 e os positivos para 1.

In [150]:
arr = np.random.randn(6,6)

In [151]:
arr

array([[ 1.16,  0.36,  0.56,  0.31,  0.38, -2.  ],
       [ 1.83, -0.21, -0.42,  0.17,  2.06, -0.69],
       [-1.75, -0.66, -0.28, -0.25,  0.67, -0.27],
       [-0.68, -0.04,  1.64,  0.75,  0.96,  0.82],
       [-0.98,  1.77,  1.47, -0.21,  0.69, -2.  ],
       [ 0.07, -1.67,  0.4 , -0.06,  0.03, -1.04]])

In [152]:
arr > 0

array([[ True,  True,  True,  True,  True, False],
       [ True, False, False,  True,  True, False],
       [False, False, False, False,  True, False],
       [False, False,  True,  True,  True,  True],
       [False,  True,  True, False,  True, False],
       [ True, False,  True, False,  True, False]])

In [153]:
arr < 0

array([[False, False, False, False, False,  True],
       [False,  True,  True, False, False,  True],
       [ True,  True,  True,  True, False,  True],
       [ True,  True, False, False, False, False],
       [ True, False, False,  True, False,  True],
       [False,  True, False,  True, False,  True]])

In [154]:
resultado = np.where(arr > 0, 1, -1)

In [155]:
resultado

array([[ 1,  1,  1,  1,  1, -1],
       [ 1, -1, -1,  1,  1, -1],
       [-1, -1, -1, -1,  1, -1],
       [-1, -1,  1,  1,  1,  1],
       [-1,  1,  1, -1,  1, -1],
       [ 1, -1,  1, -1,  1, -1]])

Podemos combinar valores escalares e arrays usando np.where.
Vamos substituir todos os valores positivos em arr por 10:

In [156]:
resultado = np.where(arr > 0, 10, arr)
resultado

array([[10.  , 10.  , 10.  , 10.  , 10.  , -2.  ],
       [10.  , -0.21, -0.42, 10.  , 10.  , -0.69],
       [-1.75, -0.66, -0.28, -0.25, 10.  , -0.27],
       [-0.68, -0.04, 10.  , 10.  , 10.  , 10.  ],
       [-0.98, 10.  , 10.  , -0.21, 10.  , -2.  ],
       [10.  , -1.67, 10.  , -0.06, 10.  , -1.04]])

### Métodos matemáticos e estatísticos

Vamos ver agora alguns métodos matemáticos e estatísticos:
sum: Soma de todos os elementos do array ou ao longo de um eixo. Arrays de tamanho zero, têm soma igual a zero.
mean: Média aritmética. Arrays de tamanho zero, têm média NaN.
std, var: Desvio-padrão e variância, respectivamente, com graus opcionais de ajuste de liberdade (denominador default n).
min, max: Mínimo e máximo.
argmin, argmax: Índices dos elementos mínimo e máximo, respectivamente.
cumsum: Soma cumulativa dos elementos, começando de zero.
cumprod: Produto cumulativo dos elementos, começando de 1.

In [157]:
arr = np.array([[1.1, 1.2, 1.3, 1.4, 1.5], [2.1, 2.2, 2.3, 2.4, 2.5]])

In [158]:
arr

array([[1.1, 1.2, 1.3, 1.4, 1.5],
       [2.1, 2.2, 2.3, 2.4, 2.5]])

Vamos obter a média aritmética dos dados do array arr:

In [161]:
arr.mean()

1.8

Vamos obter a soma dos dados do array arr:

In [162]:
arr.sum()

18.0

Vamos obter a média do eixo zero (média das linhas) ((1.1 + 2.1)/2...):

In [163]:
arr.mean(axis=0)

array([1.6, 1.7, 1.8, 1.9, 2. ])

Vamos obter agora a média do eixo um (média das colunas) ((1.1 + 1.2 + 1.3 + 1.4 + 1.5)/5...):

In [164]:
arr.mean(axis=1)

array([1.3, 2.3])

Os métodos sum e mean são métodos de agregações, já os métodos cumsum e cumprod são métodos de acumulação. Estes últimos geram um array de resultados intermediários:

In [165]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7])

In [166]:
arr.cumsum()

array([ 0,  1,  3,  6, 10, 15, 21, 28], dtype=int32)

Em arrays multidimensionais, funções de acumulação como cumsum devolvem um array de mesmo tamanho, porém com as agregações parciais calculadas ao longo do eixo indicado, de acordo com cada fatia de dimensão menor:

In [169]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])

In [170]:
arr

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [171]:
arr.cumsum(axis=0)

array([[ 0,  1,  2],
       [ 3,  5,  7],
       [ 9, 12, 15]], dtype=int32)

In [172]:
arr.cumsum(axis=1)

array([[ 0,  1,  3],
       [ 3,  7, 12],
       [ 6, 13, 21]], dtype=int32)

### Métodos para arrays booleanos

Valores booleanos sofrem coerção para 1 (True) e 0 (False) nos métodos usados anteriormente. Assim, o método sum, com frequência é usado como uma forma de contar valores True em um array booleano:

In [173]:
arr = np.array([1,0,1,0,1,0,0,5,8])

Vamos contar a quantidade de verdadeiros (1).

In [174]:
(arr == True).sum()

3

Vamos contar a quantidade de falsos (0).

In [175]:
(arr == False).sum()

4

### Ordenação

Podemos ordenar arrays NumPy in-place (o próprio objeto é ordenado, não será gerado um novo objeto) usando o método sort:

In [176]:
arr = np.array([1,23,56,2,7,8,9,15,17])

In [177]:
arr.sort()

In [178]:
arr

array([ 1,  2,  7,  8,  9, 15, 17, 23, 56])

No caso de arrays multidimensionais, podemos ordenar especificando um número de eixo para o sort:

In [187]:
arr = np.array([[1,3,5,6,2,7,8,9,4,10],
               [23, 21, 24, 22, 27, 28, 26, 30, 29, 25],
               [12, 13, 11, 17, 15, 16, 14, 19, 20, 18]])

In [188]:
arr.sort(0) # Ordenando as colunas

In [189]:
arr

array([[ 1,  3,  5,  6,  2,  7,  8,  9,  4, 10],
       [12, 13, 11, 17, 15, 16, 14, 19, 20, 18],
       [23, 21, 24, 22, 27, 28, 26, 30, 29, 25]])

In [190]:
arr.sort(1) # Ordenando as linhas

In [191]:
arr

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30]])

O método de nível superior np.sort devolve uma cópia ordenada de um array em vez de modificá-lo in-place.

In [192]:
arr = np.array([[1,3,5,6,2,7,8,9,4,10],
               [23, 21, 24, 22, 27, 28, 26, 30, 29, 25],
               [12, 13, 11, 17, 15, 16, 14, 19, 20, 18]])

In [193]:
arr2 = np.sort(arr)

In [194]:
arr2

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20]])

### Unicidade e outras lógicas de conjuntos

O NumPy tem algumas operações básicas de conjunto para ndarrays unidimensionais.
Veja algumas delas:
unique(x): Calcula os elementos únicos ordenados de x.
intersect1d: Calcula os elementos comuns ordenados em x e y.
union1d(x, y): Calcula a união ordenada dos elementos.
in1d(x, y): Calcula um array booleano indicando se cada elemento de x está contido em y.
setdiff1d(x, y): Diferença entre conjuntos, isto é, elementos em x que não estão em y.
setxor1d(x, y): Diferença simétrica entre conjuntos:

Vamos ver um exemplo utilizando unique:

In [195]:
frutas = np.array(['Melancia', 'Abacaxi', 'Maçã', 'Goiaba', 'Abacaxi', 'Abacate', 'Goiaba', 'Laranja'])

In [196]:
np.unique(frutas)

array(['Abacate', 'Abacaxi', 'Goiaba', 'Laranja', 'Maçã', 'Melancia'],
      dtype='<U8')

O equivalente em Python puro seria:

In [197]:
sorted(set(frutas))

['Abacate', 'Abacaxi', 'Goiaba', 'Laranja', 'Maçã', 'Melancia']

Agora um exemplo com um array numérico:

In [200]:
numeros = np.array([1,1,3,2,5,6,8,7,3,4,5,9,0,0,4,3,2,1,7,7])

In [201]:
np.unique(numeros)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Vamos ver agora exemplos com demais métodos:

In [202]:
arr1 = np.array([10, 20, 33, 44, 18, 54, 98, 6, 4])

In [203]:
arr2 = np.array([4, 44, 55, 67, 20, 32, 6, 77, 95])

In [204]:
np.intersect1d(arr1, arr2) # Calcula os elementos comuns ordenados em x e y.

array([ 4,  6, 20, 44])

In [205]:
np.union1d(arr1, arr2) # Calcula a união ordenada dos elementos.

array([ 4,  6, 10, 18, 20, 32, 33, 44, 54, 55, 67, 77, 95, 98])

In [206]:
np.in1d(arr1, arr2) # Calcula um array booleano indicando se cada elemento de arr1 está contido em arr2.

array([False,  True, False,  True, False, False, False,  True,  True])

In [207]:
np.setdiff1d(arr1, arr2) # Diferença entre conjuntos, isto é, elementos em arr1 que não estão em arr2.

array([10, 18, 33, 54, 98])

In [208]:
np.setxor1d(arr1, arr2) # Diferença simétrica entre arr1 e arr2. Valores únicos em cada um dos arrays.

array([10, 18, 32, 33, 54, 55, 67, 77, 95, 98])