# Introdução a manipulação de dados
## Arrays (vetores) e matrizes

Uma das maneiras mais fáceis de trabalhar com dados em `Python` consiste em usar a estrutura `array` da biblioteca `numpy`.

O exemplo seguinte importa a biblioteca `nump`y e define um `array` com uma dimensão (i.e., um vetor) que armazena alguns números reais dentro:

In [3]:
import numpy as np

a = np.array([0.1, 1.5, 3.2])
print("Array cujo conteudo é: ", a)
print("Seu tipo tipo é", type(a))
print("Seus elementos são do tipo: ", a.dtype)

Array cujo conteudo é:  [0.1 1.5 3.2]
Seu tipo tipo é <class 'numpy.ndarray'>
Seus elementos são do tipo:  float64


Você também pode definir `arrays` de números inteiros, `strings` e outros formatos/tipos suportados pela linguagem. 

Veja os exemplos:

In [2]:
import numpy as np

b = np.array([1, 3, 5, 6, 10])
print("Array cujo conteúdo é: ", b)
print("Seu tipo tipo é", type(b))
print("Seus elementos são do tipo: ", b.dtype)

print("\n") # muda de linha

c = np.array(['ana', 'leonardo', 'cesar', 'joao', 'maria'])
print("Array cujo conteúdo é: ", c)
print("Seu tipo tipo é", type(c))
print("Seus elementos são do tipo: ", c.dtype)

Array cujo conteúdo é:  [ 1  3  5  6 10]
Seu tipo tipo é <class 'numpy.ndarray'>
Seus elementos são do tipo:  int64


Array cujo conteúdo é:  ['ana' 'leonardo' 'cesar' 'joao' 'maria']
Seu tipo tipo é <class 'numpy.ndarray'>
Seus elementos são do tipo:  <U8


Os arrays `numpy` possuem uma série de propriedades que podem ser úteis:

In [7]:
import numpy as np

d = np.array([1.1, 2.1, 3.1, 4.2, 5.2, 6.2])
print("Conteudo do array: ", d)
print("Número de linhas e colunas: ", np.shape(d))
print("Quantidade de elementos: ", np.size(d))
print("colunas: ", len(d))
print("Dimensões: ", np.ndim(d))
print("Tipo:", d.dtype, "\n")

e = np.reshape(d, (3,2)) # reorganiza para 2 linhas com 3 colunas
print("Conteudo do array:\n", e)
print("Número de linhas e colunas: ", np.shape(e))
print("Quantidade de elementos: ", np.size(e))
print("Linhas: ", len(e))
print("Dimensões: ", np.ndim(e))
print("Tipo:", e.dtype, '\n')

f = np.array([[1.1, 1.2, 1.3],[2.1, 2.2, 2.3],[3.1, 3.2, 3.3],[4.1, 3.2, 4.3]])
print("Conteudo do array:\n", f)
print("Número de linhas e colunas: ", np.shape(f))
print("Quantidade de elementos: ", np.size(f))
print("Linhas: ", len(f))
print("Dimensões: ", np.ndim(f))
print("Tipo:", f.dtype)

Conteudo do array:  [1.1 2.1 3.1 4.2 5.2 6.2]
Número de linhas e colunas:  (6,)
Quantidade de elementos:  6
colunas:  6
Dimensões:  1
Tipo: float64 

Conteudo do array:
 [[1.1 2.1]
 [3.1 4.2]
 [5.2 6.2]]
Número de linhas e colunas:  (3, 2)
Quantidade de elementos:  6
Linhas:  3
Dimensões:  2
Tipo: float64 

Conteudo do array:
 [[1.1 1.2 1.3]
 [2.1 2.2 2.3]
 [3.1 3.2 3.3]
 [4.1 3.2 4.3]]
Número de linhas e colunas:  (4, 3)
Quantidade de elementos:  12
Linhas:  4
Dimensões:  2
Tipo: float64


## Exercícios

Use as duas células seguintes para resolver os exercícios.

1. Defina um array de números inteiros que tenha 2 dimensões e imprima-o na tela. 
2. Defina um array de uma dimensão que tenha alguns nomes de cores. Imprima o seu conteúdo na tela e use algum comando para mostrar quantos elementos ele tem. 

In [9]:
import numpy as np
a = np.array([1,2,3,4,5,6])
print(a)

[1 2 3 4 5 6]


In [11]:
b = ["verde","vermelho","azul","rosa"]
print(b)
np.size(b)

['verde', 'vermelho', 'azul', 'rosa']


4

## Operações com arrays

Você pode indexar, i.e., selecionar um ou mais elementos de um array utilizando a seguinte notação:

`array[linha, coluna...]`

Veja os exemplos (perceba que a primeira linha é `0`, assim como a primeira coluna!):

In [4]:
import numpy as np

f = np.array([[1.1, 1.2, 1.3],[2.1, 2.2, 2.3],[3.1, 3.2, 3.3],[4.1, 3.2, 4.3]])

print(f)

print("Alguns elementos selecionados: ")

e1 = f[1,1] # devolve elemento na linha 2, coluna 2 (elementos iniciam em zero!)
print(e1)

e2 = f[1,0] # linha dois, coluna 1
print(e2)

[[1.1 1.2 1.3]
 [2.1 2.2 2.3]
 [3.1 3.2 3.3]
 [4.1 3.2 4.3]]
Alguns elementos selecionados: 
2.2
2.1


Você pode atribuir, mudar valores, usando a mesma sintaxe:

In [5]:
f[1,1]=np.nan # nan significa 'not-a-number', i.e., sem valor
f[2,2]=5.5
f[1,0]=np.inf # inf significa 'infinity', i.e., número muito grande
f[2,1]=np.inf

print(f)

[[1.1 1.2 1.3]
 [inf nan 2.3]
 [3.1 inf 5.5]
 [4.1 3.2 4.3]]


Você pode fazer uma série de verificações no array. 

Veja os exemplos:

In [6]:
# avalia todos os elementos e devolve uma estrutura que indica se cada um deles
# é ou não do tipo 'nan':
print(np.isnan(f)) 

[[False False False]
 [False  True False]
 [False False False]
 [False False False]]


In [None]:
# avalia se os elementos são ou não do tipo 'inf:
print(np.isinf(f)) 

In [7]:
# descobre onde há um elemento do tipo 'nan' no array: 
print(np.where(np.isnan(f)))

(array([1]), array([1]))


In [None]:
print(np.where(np.isinf(f)))

In [None]:
# modifica todos os valores 'inf' e 'nan' para '0.0':
f[np.where(np.isinf(f))] = 0.0
f[np.where(np.isnan(f))] = 0.0
print(f)

In [None]:
# retorna os índices dos elementos cujo valor é maior do que 4.2:
print(np.where(f>4.2))

## Exercício

Use a célula seguinte para resolver o seguinte exercício:

> Defina um array de números reais que tenha 3 dimensões, com elementos escolhidos por você, mas alguns deles devem ser maiores do que 5.0 e outros menores. Em seguida, faça com que todos os elementos maiores do que 5.0 tornem-se 'nan'. 

In [22]:
a = np.arange(12.0).reshape(3,4)
a < 5
a[np.where(a > 5)] = np.nan
a

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5., nan, nan],
       [nan, nan, nan, nan]])

## Geração aleatória/randômica de números 

A biblioteca `numpy` tem várias funções prontas para a geração matrizes. 

Vamos ver algumas delas (mas há muito mais):
- np.zeros(x, y): gera uma matriz de `x` linhas e `c` colunas só com zeros.
- np.ones(x, y): gera matriz só com `1`.
- np.identity(): gera uma matriz identidade (quadrada)
- np.eye(): gera uma matriz de qualquer tamanho, com diagonal principal com `1`

Além disso, há também a possibilidade de utilizar um gerador de números aleatórios.

Veja os exemplos:

In [None]:
import numpy as np

a = np.zeros((3,5), dtype=float) # dtype especifica o tipo dos dados

# mostra matriz gerada, com 3 linhas e 5 colunas, só com zeros 
# (do tipo ponto-flutuante, i.e., domínio dos números reais)
print(a) 

In [None]:
b = np.zeros((3,5), dtype=int) # matriz de números inteiros
print(b)

In [None]:
a = np.ones((2,10), dtype=int) # matriz 2 por 10, com 'uns'
print(a)

In [None]:
# matriz identidade com diagonal preenchida com 1 e o resto com 0
c = np.identity(4, dtype=int) 
print(c)

In [None]:
d = np.eye(4,3) # diagonal com 1 e o resto com 0
print(d)

In [26]:
# Gerador de números aleatórios
gerador = np.random.RandomState() # define um gerador de números
nlin = 10 # quantidade de linhas
ncol = 3  # quantidade de colunas
X = gerador.rand(nlin, ncol) # gera matriz com as dimensões solicitadas
print(X)

[[0.96893397 0.123285   0.98078615]
 [0.49323489 0.3929038  0.83004235]
 [0.07629743 0.84733773 0.05247088]
 [0.89332749 0.37043584 0.14210413]
 [0.7586178  0.49109744 0.5951293 ]
 [0.8408307  0.4166259  0.3449769 ]
 [0.95336277 0.1764267  0.91879916]
 [0.86196028 0.93748689 0.11838954]
 [0.1719771  0.08752312 0.56658317]
 [0.74193199 0.05709252 0.46493929]]


In [None]:
print(np.round(X, 2)) # arredonda os números da matriz para 2 casas decimais

A biblioteca `numpy` permite realizarmos operações com matrizes:

In [None]:
print(X**2) # potência (matriz elevada a 2)

In [None]:
print(X**np.zeros((10,3), dtype=int)) # eleva X a matriz de zeros

In [None]:
Y = gerador.rand(nlin, ncol) # gera outra matriz aleatória
print(Y)

In [None]:
print(X+Y) # soma as duas

In [None]:
print(X*Y) # Multiplica

In [None]:
print(X/Y) # divide

In [None]:
np.sum(X) # soma os números da matriz X

In [None]:
np.var(X) # calcula a variancia dos números da matriz X

In [None]:
np.median(X) # calcula mediana 

In [None]:
np.std(Y) # calcula desvio padrão

In [None]:
np.min(X) # devolve valor mínimo

In [None]:
np.max(X) # devolve valor máximo

In [None]:
np.mean(X) # calcula média

In [None]:
np.cov(X) #covariancia

Alguns outros comandos e elementos interessantes da biblioteca:

In [None]:
print(X)
print("Elementos da última coluna: ")
print(X[:,2]) # devolve todos os elementos da 3a coluna

In [None]:
print(X[1]) # devolve a primeira linha da matriz

Os exemplos e exercícios anteriores foram, na verdade, realizados com estruturas em forma de arrays (arranjos com 1 ou duas dimensões). 

Se você desejar (ou precisar) trabalhar com matrizes de verdade, há outros comandos. Veja a seguir como criar uma matriz e perceba sua diferença para os arrays criados anteriormente...

In [None]:
# cria uma matriz de duas linhas com 3 colunas:
m = np.matrix('1 2 3; 4 5 6') 
print(m) # mostra a matriz na tela
print("'m' tem o seguinte tipo: ", type(m)) # mostra o tipo do elemento criado

# cria uma matriz, com array (como antes):
a = np.array([[1, 2, 3],[4, 5, 6]]) 
print(a) # mostra array na tela
print("'a' tem o seguinte tipo: ", type(a)) # mostra o tipo do elemento criado

# veja como tipo de 'm' é diferente do de 'a' apesar de o conteúdo ser parecido!

Matrizes possuem algumas propriedades e operações extras:

In [None]:
print(m.I) # devolve a matriz inversa

In [None]:
n = np.matrix('1 2 3; 4 5 6') 
print(np.multiply(m, n))

## Exercício

Use a célula seguinte para resolver o exercício.

Um professor elaborou 5 atividades valendo notas. Use uma matriz (ou um array) para armazenar as notas de 10 alunos, para essas 5 atividades (dica: um aluno por linha e uma atividade por coluna). Ao invés de inventar notas, use um gerador de números para sorteá-las aleatóriamente. Tenha em mente que o gerador visto gera valores entre 0.0 e 1.0, portanto, realize a transformação de escala para valores entre 0.0 e 10.0. 

Após gerar a matriz e escalar os valores, mostre a matriz resultante na tela. Depois, faça com que os valores da matriz sejam arredondados para 2 casas decimais após a vírgula.

Em seguida, calcule a média aritmética simples das notas de cada aluno, mostrando sua média final. Coloque o resultado em um array e mostre-o na tela. 

Finalmente, calcule e mostre o desvio padrão da média dos alunos e também para cada atividade. 

In [44]:
a = np.zeros((10,5))
for i in range(10):
    for j in range(5):
        a[i,j]= np.random.random()*10
print(np.round(a,2))
b = np.round(a,2).sum(axis=1)/5
print(b)
mediadasmedias = b.sum()/10
b = b - mediadasmedias
b=b**2
b.sum()**1/2

[[6.49 7.77 0.25 9.99 4.03]
 [7.83 5.6  4.22 6.52 7.34]
 [4.12 4.51 4.37 7.72 6.24]
 [0.14 7.76 7.21 4.89 4.1 ]
 [7.16 2.91 6.18 5.67 4.05]
 [7.39 1.47 3.92 8.82 0.95]
 [1.12 4.24 0.93 5.04 2.51]
 [1.38 8.05 3.   3.77 3.56]
 [1.29 2.09 3.95 0.69 4.3 ]
 [5.01 5.15 7.25 3.98 8.72]]
[5.706 6.302 5.392 4.82  5.194 4.51  2.768 3.952 2.464 6.022]


7.694829000000003