# Bibliotecas para manipulação de dados
---

## Numpy

O Numpy é uma biblioteca voltada para a manipulação de matrizes. Ela traz consigo um conjunto de métodos e funções para trabalhar sobre sua entidade `array`.

Diferente das listas do Python, um array é muito mais otimizado:

- utiliza algoritmos escritos em C, permitindo que as operações rodem em nanosegundos;
- diminui a necessidade de usar loops, uma vez que quase todas as operações podem ser escritas de forma matricial;
- a implementação das equações torna-se mais limpa, deixando o código mais expressivo;
- com uma comunidade muito ativa, a biblioteca está sempre evoluindo.

In [None]:
import numpy as np

### Vetores

Vetores são um tipo específico de matrizes bi-dimensionais (m x n), onde uma de suas dimensões é 1. Existem 2 tipos de vetores: o coluna (1 x n) e o linha (m x 1). 

**OBS**: Algebricamente, um vetor linha não pode ser utilizado da mesma forma que um vetor coluna, uma vez que as dimensões podem não bater. Entretanto, o numpy deixa isso transparente para nós, adaptando o vetor para ser usado como linha OU coluna, conforme for necessário.

In [9]:
# Formas de criar um array: 
print(f"""
A partir de uma lista: {np.array([1,2,3])}
Utilizando funções pré-definidas:
  {np.ones(3)}
  {np.zeros(3)}
  {np.random.randn(3)}
  {np.arange(start=0,stop=10,step=3)}
""")


A partir de uma lista: [1 2 3]
Utilizando funções pré-definidas:
  [1. 1. 1.]
  [0. 0. 0.]
  [-0.12241974  1.07932127  0.02202755]
  [0 3 6 9]



In [17]:
a = np.ones(3)
a.shape # o shape de um array indica suas dimensões

(3,)

Os vetores trazem consigo diversos operadores, permitindo que escrevamos equações com eles, de maneira mais simples.

In [18]:
3 * a

array([3., 3., 3.])

In [19]:
a / 3

array([0.33333333, 0.33333333, 0.33333333])

In [23]:
(2 / a)

  """Entry point for launching an IPython kernel.


array([2.        ,        inf, 0.66666667])

Para acessar um (sub-)conjunto de elementos de um vetor, podemos utilizar os índices:

In [24]:
a = np.random.randn(5)
print(a)
print(f"""
Acessando uma posição: {a[0]}
Acessando um intervalo de posições: {a[:2]}
Acessando por lista de índices: {a[[1,3]]}
Acessando com condições: {a[a < 0]}
""")

[-0.88624947  0.28284463  1.33304419 -1.1205079  -1.10552975]

Acessando uma posição: -0.8862494728610119
Acessando um intervalo de posições: [-0.88624947  0.28284463]
Acessando por lista de índices: [ 0.28284463 -1.1205079 ]
Acessando com condições: [-0.88624947 -1.1205079  -1.10552975]



In [33]:
a[(a > 0) & (a < 1)]

array([False,  True, False, False, False])

Além disso, os vetores possuem vários métodos já implementados que ajudam muito!

In [34]:
print(f"""
Shape: {a.shape}
Média: {a.mean()}
Soma: {a.sum()}
""")


Shape: (5,)
Média: -0.2992796618788407
Soma: -1.4963983093942035



#### Exercício
Suponha que, em uma turma de ciência de dados, foi passada uma atividade que acabou sendo mais difícil que o esperado. O professor, com um grande coração e misericordioso, decidiu aplicar uma curva sobre as notas, a fim de ajudar os alunos. A curva funciona da seguinte maneira:

> Primeiramente, calculamos a média dos alunos. Em seguida, encontramos a diferença dessa média para a média que desejávamos que os alunos tivessem. Por fim, basta somar essa diferença a todas as notas.

Vocês devem implementar essa curva, usando numpy. Mas lembre-se:

- o professor é justo, portanto ele não quer que nenhum aluno **seja prejudicado**;
- a nota máxima do trabalho é 100;
- no numpy, devemos evitar o uso de **loops** ao máximo!

Entrando no espírito bondoso do professor, vai uma dica: para fazer um *clip* nos seus dados, sintam-se a vontade para pedir um *help*.

In [44]:
grades = np.array([72, 35, 64, 88, 51, 90, 74, 12, 91])

desired_mean = 80

diff = desired_mean - grades.mean()

diff = 0 if diff < 0 else diff

print(grades)
np.clip(grades + diff, grades, 100)

[72 35 64 88 51 90 74 12 91]


array([ 87.88888889,  50.88888889,  79.88888889, 100.        ,
        66.88888889, 100.        ,  89.88888889,  27.88888889,
       100.        ])

### Matrizes

Enquanto os vetores são bi-dimensionais (ou unidimensionais, na implementação do numpy), as matrizes são n-dimensionais, permitindo que manipulemos entidades de 2 ou mais dimensões.

Assim como os vetores, as matrizes também possuem:
- funções de criação (uns, zeros, random, identidade, etc.);
- operações aritméticas (somas, divisões, etc.);
- acesso de elementos por índices (sendo que, nas matrizes, usamos um índice para cada dimensão).

In [46]:
# Formas de criar um ndarray: 
print(f"""
A partir de uma lista:\n {np.array([[1,2,3], [4,5,6]])}
Utilizando funções pré-definidas:
  {np.ones((3,2))}

  {np.zeros((3,2))}

  {np.random.randn(3,2)}
  
  {np.eye(2)}
""")


A partir de uma lista:
 [[1 2 3]
 [4 5 6]]
Utilizando funções pré-definidas:
  [[1. 1.]
 [1. 1.]
 [1. 1.]]

  [[0. 0.]
 [0. 0.]
 [0. 0.]]

  [[-1.15128991  0.07149012]
 [-0.02977331  0.98166457]
 [-1.51783151  0.22806025]]
  
  [[1. 0.]
 [0. 1.]]



In [47]:
a = 3*np.eye(2) # matriz identidade
b = np.ones((2,3))
print(f"""
{b + b}

{b.T}

{a + 4}

{a.dot(b)}
""")


[[2. 2. 2.]
 [2. 2. 2.]]

[[1. 1.]
 [1. 1.]
 [1. 1.]]

[[7. 4.]
 [4. 7.]]

[[3. 3. 3.]
 [3. 3. 3.]]



In [54]:
x = np.random.randn(3,2)
y = 3*np.ones(3)
x,y

(array([[-0.14756274, -1.14241009],
        [-0.48048549, -0.18230435],
        [ 0.49029029,  0.34567032]]), array([3., 3., 3.]))

### Funcionalidades interessantes

Uma funcionalidade muito útil e importante é a habilidade de *reorganizar* os dados no numpy: você pode modificar as dimensões de um vetor/matriz, desde que você não mude a quantidade total de itens.

In [62]:
ones = np.ones(12)
ones

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [63]:
ones.reshape(2,2,3)

array([[[1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.]]])

In [68]:
ones.reshape(2,5) # -1 indica que a dimensão será inferida!

ValueError: ignored

In [69]:
ones.reshape(3,2,2)

array([[[1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.]]])

O numpy também traz consigo um conjunto de algoritmos e funções de álgebra linear previamente implementados! Diversas funções que aterrorizavam seus pesadelos em álgebra linear ja estão prontas para serem usadas.

In [70]:
c = 2 * np.eye(3)
print(f"""
Norma de um vetor: {np.linalg.norm(np.array([1,2,3]))}

Inversa de matriz:
{np.linalg.inv(c)}

Decomposição de Cholesky:
{np.linalg.cholesky(c)}

Auto-decomposição
{np.linalg.eig(c)}
""")


Norma de um vetor: 3.7416573867739413

Inversa de matriz:
[[0.5 0.  0. ]
 [0.  0.5 0. ]
 [0.  0.  0.5]]

Decomposição de Cholesky:
[[1.41421356 0.         0.        ]
 [0.         1.41421356 0.        ]
 [0.         0.         1.41421356]]

Auto-decomposição
(array([2., 2., 2.]), array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]]))



Como se já não tivesse muita coisa, o numpy ainda traz diversos outros métodos para aplicar sobre suas estruturas:
- métodos de agregação, como soma, máximo, mínimo, etc;
- métricas estatísticas descritivas;
- funções matemáticas (logarítmo, exponencial, funções trigonométricas, etc.).

In [71]:
X = np.random.randn(10,2)

print(f"""
Média: {np.mean(X)}
Variância: {np.var(X)}
Variância por coluna: {np.var(X, axis=0)}
Soma por linha: {np.sum(X, axis=1)}
Soma por coluna: {np.sum(X, axis=0)}
""")


Média: -0.07364227326182086
Variância: 0.708019605305086
Variância por coluna: [0.50130402 0.8852213 ]
Soma por linha: [-1.40009003 -1.76007618  0.51941715 -0.43927271 -0.5729093  -0.40220497
 -1.66394454  1.26666153  2.33498369  0.64458989]
Soma por coluna: [-1.95120447  0.478359  ]



In [75]:
a = np.abs(np.random.randn(3))
print(f"""
{a}
Logaritmo: {np.log(a)}
Exponencial: {np.exp(a)}
Seno: {np.sin(a)}
""")


[0.56016432 0.21241981 0.23132849]
Logaritmo: [-0.57952511 -1.54919071 -1.46391656]
Exponencial: [1.75096019 1.23666694 1.26027315]
Seno: [0.53132541 0.21082594 0.22927083]



In [81]:
from math import sqrt
my_func = lambda x: sqrt(x*2)

my_func_vectorized = np.vectorize(my_func)

my_func_vectorized(a)

array([1.05845578, 0.65179723, 0.68018893])

### Exercícios
---
Os exercícios abaixo devem ser realizados utilizando **apenas** o Numpy. Está proibido também o uso de *loops* .

1 - Encontre, na lista abaixo, os elementos que são diferentes de 0

In [85]:
numbers = np.array([1,2,0,0,4,0])
numbers[numbers != 0]

array([1, 2, 4])

2 - Crie uma matriz, de n linhas e m colunas, com os números de 1 à n*m

In [86]:
n = 5
m = 4

np.arange(1,m*n+1).reshape(n,m)

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16],
       [17, 18, 19, 20]])

3 - Existem duas maneiras de criar vetores randômicos com Numpy: `np.random.rand` e `np.random.randn`. Explore, atravez de experimentos, a diferença entre eles.

**Dica**: para cada função, gere 10 (ou mais) vetores randômicos e analise suas médias e variâncias/desvio padrão.

**OBS**: sim, você pode usar *loops* nesse exercício

4 - Existe um processo de *transformação* de dados chamado de *padronização*, o qual segue a seguinte fórmula:

$$ x_i' = \frac{x_i - \mu}{\sigma}$$

onde:

- $x_i$ é um elemento do vetor $X$;
- $x_i'$ é o elemento $x_i$ normalizado;
- $\mu$ é a média de $X$;
- $\sigma$ é o desvio padrão de $X$.

Gere uma matriz X e realize o processo de *padronização*.

In [96]:
X = np.random.rand(10,2)
X

array([[0.32551021, 0.46805637],
       [0.75525209, 0.21494907],
       [0.85701124, 0.70410553],
       [0.04096883, 0.7390762 ],
       [0.36433694, 0.16220146],
       [0.17722853, 0.30258362],
       [0.31001363, 0.16323174],
       [0.73373517, 0.67904186],
       [0.54381069, 0.78957087],
       [0.32858553, 0.76317311]])

In [98]:
mean = X.mean(axis=0)
mean

array([0.44364529, 0.49859898])

In [100]:
std = X.std(axis=0)
std

array([0.25428794, 0.25154177])

In [104]:
new_X = (X - mean)/std

In [108]:
np.matrix(range(50)).shape

(1, 50)