# Python para Data Science
## PGEB UFF 2020
### Prof. Dr. Jorge Zavaleta
#### zavaleta.jorge@gmail.com
##### Niterói, 17 ao 20 fevreiro, 2020

---

# Módulo 02 - NumPy

Em DataScience (DS) devem ser manipulados e transformados dados diversos quanto ao tipo e à origem. O armazenamento e manipulação eficiente de matrizes numéricas é absolutamente fundamental para fazer ciência de dados. 

Nessa perspectiva será feita uma revisão especial das ferramentas personalizadas que o Python possui para lidar com matrizes numéricas: Os pacotes NumPy (Módulo 02) e Pandas (Módulo 03).

A biblioteca NumPy (abreviação de Python Numérico) fornece uma interface eficiente para armazenar e operar em buffers de dados densos. As matrizes NumPy são como o tipo *‘list’* do Python, no entanto, as matrizes NumPy fornecem um armazenamento mais eficiente e operações com dados à medida que as matrizes aumentam de tamanho. 

As matrizes NumPy formam o **núcleo** de quase todo o **ecossistema** de ferramentas de DS em Python. Logo, saber lidar e usar o NumPy de forma eficaz será de grande importância para quem pretende lidar com DS nas mas diversas áreas de aplicação.

Maiores informações podem ser encontrada em https://numpy.org/

## Importando a biblioteca NumPy

In [None]:
# importando a biblioteca numpy
import numpy as np

In [None]:
# verficando a versão da biblioteca numpy
np.__version__

In [None]:
# help
np?

## Listas em Numpy

In [None]:
# exemplo numpy-01
# criando uma lista de inteiros
L = list(range(10))
print('L = ',L)

In [None]:
# exemplo numpy-02
# verificando o tipo
type(L[0])

In [None]:
# exemplo numpy-03
# criando uma lista de strings
L1 =[str(c) for c in L]
L1

In [None]:
# exemplo numpy-04
# Verificando o tipo da string
type(L1[0])

In [None]:
# exemplo numpy-05
# criando lista heterogénea
L2 = [False, "J", '2', 3.0, 0, 2-4j]
L3 = [type(item) for item in L2]
print('LH : ',L3)

## Arrays de Tipo Fixo
Python oferece diversas opções para armazenar dados de forma eficiente, buffers de dados de tipo fixo. O módulo **array** (python >= 3.3) pode ser usado para criar arrays densos de tipo uniforme.

In [None]:
# exemplo numpy-06
# criando array de tipo fixo
import array 
L4 = list(range(10))
A = array.array('i',L4)
print('A : ',A)

No exemplo numpy-06, o índice **'i'** indica que o conteúdo é de inteiros. Se dos dados foram reais?, booleanos?, etc.

## Criando Listas de Listas Python

In [None]:
# exemplo numpy-07
# criando um array de inteiros
I = np.array([1, 3, 5, 7, 9, 0])
print('I : ',I)

In [None]:
# exemplo numpy-08
# criando uma array de mixto
M = np.array([1.0, 3.5, 5, 7, 9, 0])
print('M : ',M)

In [None]:
# exemplo numpy-09
# Fixar o tipo de dados de uma array
I1 = np.array([1, 3, 5, 7, 9, 0], dtype='float32')
print("I : ",I1)

In [None]:
# exemplo numpy-10
# criando um array multidimensional
M1 = np.array([range(i, i + 3) for i in [2, 4, 6]])
print('Multidimensional : ',M1)

## Criando Arrays de Zero

In [None]:
# exemplo numpy-11
# criando um array de zeros
Z = np.zeros(10, dtype=int)
Z

In [None]:
# exemplo numpy-12
# criando uma array de 3x5 de dados de tipo real (float)
U = np.ones((3,5), dtype=float)
U

In [None]:
# exemplo numpy-13
# criando uma array de 3x5 de dados com 3.14
U1 = np.full((3,5), 3.14)
U1

In [None]:
# exemplo numpy-14
# criar uma array com valores de uma sequência linear de 0 a 20
# com incremento (paso) 2.
Ar = np.arange(0,20,2)
Ar

In [None]:
# exemplo numpy-15
# criar uma array de 5 valores espaciados entre 0 e 1.
lin = np.linspace(0,1,5)
print('L : ',lin)

In [None]:
# exemplo numpy-16
# criar uma array 4x7 de distribuição uniforme (0,1)
R = np.random.random((4,7))
R

In [None]:
# exemplo numpy-17
# criar uma array 5x5 de distribuição normal com valores aleatórios
# com media 0 e desvio padrão 1.
R1 = np.random.normal(0,1,(5,5))
R1

In [None]:
# exemplo numpy-18
# criar uma array 4x4 de inteiros aleatórios no intervalo [0,5]
R2 = np.random.randint(0,5,(4,4))
R2

In [None]:
# exemplo numpy-19
# criar uma matriz identidade de 5x5
Mi = np.eye(5)
Mi

## Tipos de Dados Padrão no NumPy

In [None]:
# exemplo numpy-20
# Array de zeros
T1 = np.zeros(8,dtype='int16')
T1

In [None]:
# exemplo numpy-21
# Array de zeros
T2 = np.zeros(8,dtype=np.int16)
T2

Os diversos tipos de dados padrão NumPy podem ser encontrados em https://numpy.org/devdocs/user/basics.types.html

## Noções Básicas de Arrays (matrizes) NumPy
Manipulação de matrizes NumPy para acessar dados e sub-matrizes, para dividir, redimensionar e unir matrizes.

### Atributos de Matrizes NumPy

In [None]:
# exemplo numpy-22
# Atributos: ndim, shape, size.
x1 = np.random.randint(10, size=5) # 1-D
x2 = np.random.randint(10, size=(4, 5)) # 2-D
x3 = np.random.randint(10, size=(3, 5, 6)) # 3-D
print("x1 : ", x1)
print("x2 : ", x2)
print("x3 : ", x3)
# atributos: ndim (numero de dim), shape (tamanho de cada dimensões), 
# size (tamanho total da matriz)
print("x3 ndim : ", x3.ndim)
print("x3 shape : ", x3.shape)
print("x3 size : ", x3.size)

In [None]:
# exemplo numpy-23
# atributo : dtype
print("dtype:", x3.dtype)

In [None]:
# exemplo numpy-24
# atributos : itemsize e nbytes (itemsize = nbytes!!!)
print("itemsize: ", x3.itemsize, "bytes")
print("nbytes: ", x3.nbytes, "bytes")

### Indexação de Matrizes: Acessando Elementos Simples

In [None]:
# exemplo numpy-25
# Usando índice para acessar elementos da array: array[indice]
elemento = x1[0] 
print('Elementos : ',elemento)

In [None]:
# exemplo numpy-26
# Para indexar a partir do final da matriz, se pode usar índices negativos.
N = np.array([0, 1, 2, 3, 4, 5])
N1 = N[-1]
print(N1)

In [None]:
# exemplo numpy-27
# acessar elementos de uma array multidimensional [i,j], i,j = 0..N
print('D : ',x2.shape)
print('x1[2,2] = ',x2[2,2]) # elemento na linha = 2 e coluna = 2

In [None]:
# exemplo numpy-28
# mudando um elemento de uma matriz
Mat = np.array([[0,1,2,3],[4, 5, 6, 7],[8, 9, 10,11]])
# dimensão da matriz
Dim = print('D: ',Mat.shape)
# mudando um elemento
Mat[2,2]= -1
print(Mat)

### Divisão de Matrizes. Acessando Submatrizes
A sintaxe para dividir uma matriz NumPy segue o padrão de uma lista em Python. Para acessar uma  divisão ou fatia ou parte de uma matriz (submatriz) X, usa-se a seguinte sintaxe:

**X[inicio:fim:paso]** ou **X[start:stop:step]**

In [None]:
# exemplo numpy-29
# uma submatriz unidimensional
X = np.arange(10)
X

In [None]:
# exemplo numpy-30
# os 4 elementos iniciais
x4 = X[:4]
print(x4)

In [None]:
# exemplo numpy-31
# Os elementos depois do índice 5
x5 = X[5:]
print(x5)

In [None]:
# exemplo numpy-32
# subarray media
med = X[3:7]
print(med)

In [None]:
# exemplo numpy-33
# Qualquer outro elemento
Q1 = X[::2]
print(Q1)

In [None]:
# exemplo numpy-34
# Qualquer outro elemento, iniciando em 1
Q2 = X[1::2]
print(Q2)

In [None]:
# exemplo numpy-35
# step = paso = negativo = -1: reverso
N1 = X[::-1]
print(N1)

In [None]:
# exemplo numpy-36
# reversa cada elemento a partir do indice 5
N2 = X[5::-2]
print(N2)

### SubMatrizes Multidimensionais

In [None]:
# exemplo numpy-37
# Matriz multidimensional
Mul = np.array([[12, 8, 4, 0],[5, 4, 3, 2],[3, 3, 2, 1]])
Mul

In [None]:
# exemplo numpy-38
# dois linhas (filas) e três colunas
S1 = Mul[:2, :3]
S1

In [None]:
# exemplo numpy-39
# todas linhas, as outras colunas ***
S2 = Mul[:3, ::2]
S2

In [None]:
# exemplo numpy-40
# submatriz reversa
R1 = Mul[::-1, ::-1]
R1

In [None]:
# exemplo numpy-41
# 1a coluna da matriz Mul
print(Mul[:,0])

In [None]:
# exemplo numpy-42
# submatriz 2x2
print(Mul)
sub_M = Mul[:2, :2]
sub_M

In [None]:
# exemplo numpy-43
# Modificar elementos da submatriz
sub_M[0,0]= -9
print(sub_M)
# modifica elemento da matriz
print(Mul)

### Redimensionamento de Matrizes

In [None]:
# exemplo numpy-44
# redimensionar uma matriz
G = np.arange(1,10)
print('G =',G)
print(' ')
RS = G.reshape((3,3))
print('G = ',RS)

### Concatenação e Divisão de Matrizes

In [None]:
# exemplo numpy-45
# concatenação
A = np.array([3, 2, 1])
B = np.array([1, 0, -1])
C = np.concatenate([A,B])
C

In [None]:
# exemplo numpy-46
# + Concatenação 
Z = np.array([-9, -9, -9])
z = np.concatenate([A, B, Z])
z

In [None]:
# exemplo numpy-47
# split = corte = fatia
xx = [1, 2, 3, 99, 99, 3, 2, 1]
xa, xb, xc = np.split(xx,[3, 5])
print(xa, xb, xc)

## Funções NumPy

### Expoentes e Logaritmos

In [None]:
# exemplo numpy-48
# expoentes
V = [1, 2, 3]
print("V =", V)
print("e^V =", np.exp(V))
print("2^V =", np.exp2(V))
print("3^V =", np.power(3, V))

In [None]:
# exemplo numpy-49
# logaritmos
l = [1, 2, 4, 10]
print("l =", l)
print("ln(l) =", np.log(l))
print("log2(l) =", np.log2(l))
print("log10(l) =", np.log10(l))

In [None]:
# exemplo numpy-50
# funções especializadas
y = [0, 0.001, 0.01, 0.1]
print("exp(y) - 1 =", np.expm1(y))
print("log(1 + y) =", np.log1p(y))

## Agregações: Min e Max

In [None]:
# exemplo numpy-51
#  Soma de todos os valores
L = np.random.random(100)
S = sum(L)
S

In [None]:
# exemplo numpy-52
#  tempo de compilação
big_matriz = np.random.rand(1000000)
%timeit sum(big_matriz)
%timeit np.sum(big_matriz)

In [None]:
# exemplo numpy-53
# mínimo e máximo
min(big_matriz), max(big_matriz)

In [None]:
# exemplo numpy-54
# mínimo e máximo
np.min(big_matriz), np.max(big_matriz)

In [None]:
# exemplo numpy-55
# mínimo e máximo
%timeit min(big_matriz)
%timeit np.min(big_matriz)

### Funções de Agregação

| Função  |  NaN Versão| Descrição  | 
|---      |---         |---         |
|  np.sum | np.nansum | Compute sum of elements |
| np.prod | np.nanprod | Compute product of elements |
| np.mean | np.nanmean | Compute median of elements |
| np.std | np.nanstd | Compute standard deviation |
| np.var | np.nanvar | Compute variance |
| np.min | np.nanmin | Find minimum value |
| np.max | np.nanmax | Find maximum value |
| np.argmin | np.nanargmin | Find index of minimum value |
| np.argmax | np.nanargmax | Find index of maximum value |
| np.median | np.nanmedian | Compute median of elements |
| np.percentile | np.nanpercentile | Compute rank-based statistics of elements |
| np.any | N/A | Evaluate whether any elements are true |
| np.all | N/A | Evaluate whether all elements are true |


In [None]:
# exemplo numpy-56
# criando um vetor
vet = np.arange(1,100)
vet

In [None]:
# exemplo numpy-57
# Alguns agragados
vs = vet.sum()
vm = vet.mean()
vd = vet.std()
vmin = vet.min()
vmax = vet.max()
print('soma = ',vs)
print('Média = ',vm)
print('Desvio = ',vd)
print('Mínimo = ',vmin)
print('Máximo = ',vmax)
print('Mediana = ',np.median(vet))

**Exercício**: Os pesos (kg) dos alunos de curso são: 50, 55.5, 60.5, 60.8, 63.7, 68.9, 70.3, 80.5, 90. Usando essa informação fazer os cálculos para todas as funções de agregação.

In [None]:
# exemplo numpy-58
# Exemplo de uso de agregados
pesos = np.linspace(50, 80, num=50)
print(pesos)
valores = np.linspace(1, 30, num=50)
print(valores)
# * / -= / += / *=
print(pesos * valores) 

In [None]:
# exemplo numpy-59
#  uso de -=
pesos -= valores
print(pesos)

In [None]:
# exemplo numpy-60
# soma = +
nova = pesos + valores
print(nova)

### Matrizes Multidimensionais

In [None]:
# exemplo numpy-61
# definição de uma função
def f(x,y):
    return x*y*10

In [None]:
# exemplo numpy-62
# informação pasada por tuplas separados por comas
b = np.fromfunction(f,(5,4),dtype=int)
b

In [None]:
# exemplo numpy-63
# chamar diretamente a função
c = f(3,3)
c

In [None]:
# exemplo numpy-64
# Mostra os elementos da linha 0 ao 4 da coluna 1
b[0:4,1]

In [None]:
# exemplo numpy-65
# acessando linhas de uma matriz
for fila in b:
    print(fila)

### Funções

In [None]:
# exemplo numpy-66
# definição de uma função
def nome_f(parametro_a,parametro_b):
    # corpo da função
    soma = parametro_a + parametro_b
    return soma

In [None]:
# exemplo numpy-67
# chamando uma função
variavel = nome_f(9,9)
print('Variável = ',variavel)

In [None]:
# exemplo numpy-68
# definir a função raiz quadrada
def RQ(n):
    v = np.sqrt(n)
    return v

In [None]:
# exemplo numpy-69
# chamando a função RQ
rq = RQ(4)
rq

In [None]:
# exemplo numpy-70
# definição da função signo
def sign(x):
    if x > 0:
        return 'Positivo'
    elif x < 0:
        return 'Negativo'
    else:
        return 'Nulo'

In [None]:
# exemplo numpy-71
# chamando a função signo
for x in [-1, 0, 1]:
    print('Signo: ',sign(x))

# SciPy.stats
Funções estatísticas interessantes

In [None]:
# exemplo scipy-01
# importando o pacote
import scipy.stats as stats
# import numpy as np # já importado
seq = np.random.randn(30)
descricao = stats.describe(seq)
descricao

O exemplo scipy-01, apresenta a estatística descritiva do vetor sequencia (uma amostra) com o método ***describe()***

In [None]:
# exemplo scipy-02
# otras funções
print('Moda: ',stats.mode(seq))
print('Normal: ',stats.normaltest(seq))

**OBS**: o "*p-valor*" confirma ou não a hipótese. Se for menor que **0.05** rejeitar hipótes e caso contrário segue a distribuição **normal**.

------
Jorge Zavaleta &copy; 2020. zavaleta.jorge@gmail.com