<a href="https://colab.research.google.com/github/brenocsp/intro-data-science/blob/main/lists/1-numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lista 01 - Introdução e Revisão Numpy

[NumPy](http://numpy.org) é um pacote incrivelmente poderoso em Python, onipresente em qualquer projeto de ciência de dados. Possui forte integração com o [Pandas](http://pandas.pydata.org), outra ferramenta que iremos abordar na matéria. NumPy adiciona suporte para matrizes multidimensionais e funções matemáticas que permitem que você execute facilmente cálculos de álgebra linear. Este notebook será uma coleção de exemplos de álgebra linear computados usando NumPy. 

## Numpy 

Para fazer uso de Numpy precisamos importar a biblioteca

In [1]:
# -*- coding: utf8

import numpy as np

Quando pensamos no lado prático de ciência de dados, um aspecto chave que ajuda na implementação de novos algoritmos é a vetorização. De forma simples, vetorização consiste do uso de tipos como **escalar**, **vetor** e **matriz** para realizar uma computação mais eficaz (em tempo de execução).

Uma matriz é uma coleção de valores, normalmente representada por uma grade 𝑚 × 𝑛, onde 𝑚 é o número de linhas e 𝑛 é o número de colunas. Os comprimentos das arestas 𝑚 e 𝑛 não precisam ser necessariamente diferentes. Se tivermos 𝑚 = 𝑛, chamamos isso de matriz quadrada. Um caso particularmente interessante de uma matriz é quando 𝑚 = 1 ou 𝑛 = 1. Nesse caso, temos um caso especial de uma matriz que chamamos de vetor. Embora haja um objeto de matriz em NumPy, faremos tudo usando matrizes NumPy porque elas podem ter dimensões maiores que 2. 

1. **Escalar:** Um vetor de zero dimensões

In [2]:
1

1

2. **Vetor:** Representa uma dimensão

Abaixo vamos criar um vetor simples. Inicialmente, vamos criar uma lista.

In [3]:
data_list = [3.5, 5, 2, 8, 4.2]

Observe o tipo da mesma.

In [4]:
type(data_list)

list

Embora vetores e listas sejam parecidos, vetores Numpy são otimizados para operações de Álgebra Linear. Ciência de Dados faz bastante uso de tais operações, sendo este um dos motivos da dependência em Numpy.

Abaixo criamos um vetor.

In [5]:
data = np.array(data_list)
print(data)
print(type(data))

[3.5 5.  2.  8.  4.2]
<class 'numpy.ndarray'>


Observe como podemos somar o mesmo com um número. Não é possível fazer tal operação com listas.

In [6]:
data + 7

array([10.5, 12. ,  9. , 15. , 11.2])

3. **Matrizes:** Representam duas dimensões.

In [7]:
X = np.array([[2, 4],
              [1, 3]])
X

array([[2, 4],
       [1, 3]])

Podemos indexar as matrizes e os vetores.

In [8]:
data[0]

3.5

In [9]:
X[0, 1] # aqui é primeira linha, segunda coluna

4

Podemos também criar vetores/matrizes de números aleatórios

In [10]:
X = np.random.randn(4, 3) # Gera números aleatórios de uma normal
print(X)

[[-1.23184283  0.43182574 -0.83534294]
 [ 0.5893279  -0.53243119  1.32754491]
 [-0.55571275  1.81459437 -0.35629384]
 [ 1.67995889  1.44131871 -0.12580756]]


### Indexando

Pegando a primeira linha

In [11]:
X[0] # observe que 0 é a linha 1, compare com o X[0, 1] de antes.

array([-1.23184283,  0.43182574, -0.83534294])

In [12]:
X[1] # segunda

array([ 0.5893279 , -0.53243119,  1.32754491])

In [13]:
X[2] # terceira

array([-0.55571275,  1.81459437, -0.35629384])

Observe como todos os tipos retornados são `array`. Array é o nome genérico de Numpy para vetores e matrizes. 

`X[:, c]` pega uma coluna

In [14]:
X[:, 0]

array([-1.23184283,  0.5893279 , -0.55571275,  1.67995889])

In [15]:
X[:, 1]

array([ 0.43182574, -0.53243119,  1.81459437,  1.44131871])

`X[um_vetor]` pega as linhas da matriz. `X[:, um_vetor]` pega as colunas

In [16]:
X[[0, 0, 1]] # observe que pego a primeira linha, indexada por 0, duas vezes

array([[-1.23184283,  0.43182574, -0.83534294],
       [-1.23184283,  0.43182574, -0.83534294],
       [ 0.5893279 , -0.53243119,  1.32754491]])

Abaixo pego a segunda a primeira coluna

In [17]:
X[:, [1, 0]]

array([[ 0.43182574, -1.23184283],
       [-0.53243119,  0.5893279 ],
       [ 1.81459437, -0.55571275],
       [ 1.44131871,  1.67995889]])

### Indexação Booleana

`X[vetor_booleano]` retorna as linhas (ou colunas quando X[:, vetor_booleano]) onde o vetor é true

In [18]:
X[[True, False, True, False]]

array([[-1.23184283,  0.43182574, -0.83534294],
       [-0.55571275,  1.81459437, -0.35629384]])

In [19]:
X[:, [False, True, True]]

array([[ 0.43182574, -0.83534294],
       [-0.53243119,  1.32754491],
       [ 1.81459437, -0.35629384],
       [ 1.44131871, -0.12580756]])

### Reshape, Flatten e Ravel

Todo vetor ou matriz pode ser redimensionado. Observe como uma matriz abaixo de 9x8=72 elementos. Podemos redimensionar os mesmos para outros arrays de tamanho 72.

In [20]:
X = np.random.randn(9, 8)

Criando uma matriz de 18x4.

In [21]:
X.reshape((18, 4))

array([[-0.17970621, -1.24875989,  0.01861571, -0.11001456],
       [-1.10683558, -0.47760269, -0.39998225, -0.86054498],
       [-0.51879674,  0.50323096, -0.42370485, -0.36233415],
       [-0.41568672,  0.20179417, -0.6660919 ,  1.92067523],
       [-0.67943359, -0.15811295,  0.50740816, -1.04811915],
       [ 1.19065312, -1.7270781 ,  0.33529723,  1.16845736],
       [-0.06735513, -0.11121089,  0.62308323,  1.23334824],
       [-0.01048065,  2.24495948,  0.25311779, -0.13397996],
       [-0.49255472,  0.62327292,  0.48610089, -0.37135664],
       [ 0.38091857,  0.23364658, -0.82455127,  1.51886774],
       [-0.7764821 , -1.1796879 ,  1.77521815,  1.63964595],
       [-0.2442546 ,  0.24717916,  0.47531511, -0.53025224],
       [ 0.17250864,  0.33546276, -0.09453447, -1.46317617],
       [ 0.0855785 ,  1.33655044, -0.34246616, -0.02009538],
       [ 0.57417809, -1.18887541,  0.78509823,  1.10529921],
       [ 0.53992893,  1.18621002, -1.08244515, -0.08014278],
       [-0.7042871 , -0.

Ou um vetor de 72

In [22]:
X.reshape(72)

array([-0.17970621, -1.24875989,  0.01861571, -0.11001456, -1.10683558,
       -0.47760269, -0.39998225, -0.86054498, -0.51879674,  0.50323096,
       -0.42370485, -0.36233415, -0.41568672,  0.20179417, -0.6660919 ,
        1.92067523, -0.67943359, -0.15811295,  0.50740816, -1.04811915,
        1.19065312, -1.7270781 ,  0.33529723,  1.16845736, -0.06735513,
       -0.11121089,  0.62308323,  1.23334824, -0.01048065,  2.24495948,
        0.25311779, -0.13397996, -0.49255472,  0.62327292,  0.48610089,
       -0.37135664,  0.38091857,  0.23364658, -0.82455127,  1.51886774,
       -0.7764821 , -1.1796879 ,  1.77521815,  1.63964595, -0.2442546 ,
        0.24717916,  0.47531511, -0.53025224,  0.17250864,  0.33546276,
       -0.09453447, -1.46317617,  0.0855785 ,  1.33655044, -0.34246616,
       -0.02009538,  0.57417809, -1.18887541,  0.78509823,  1.10529921,
        0.53992893,  1.18621002, -1.08244515, -0.08014278, -0.7042871 ,
       -0.80465107, -0.3757876 , -1.70052292, -0.62617103,  1.54

A chamada flatten e ravel faz a mesma coisa, criam uma visão de uma dimensão da matriz.

In [23]:
X.flatten()

array([-0.17970621, -1.24875989,  0.01861571, -0.11001456, -1.10683558,
       -0.47760269, -0.39998225, -0.86054498, -0.51879674,  0.50323096,
       -0.42370485, -0.36233415, -0.41568672,  0.20179417, -0.6660919 ,
        1.92067523, -0.67943359, -0.15811295,  0.50740816, -1.04811915,
        1.19065312, -1.7270781 ,  0.33529723,  1.16845736, -0.06735513,
       -0.11121089,  0.62308323,  1.23334824, -0.01048065,  2.24495948,
        0.25311779, -0.13397996, -0.49255472,  0.62327292,  0.48610089,
       -0.37135664,  0.38091857,  0.23364658, -0.82455127,  1.51886774,
       -0.7764821 , -1.1796879 ,  1.77521815,  1.63964595, -0.2442546 ,
        0.24717916,  0.47531511, -0.53025224,  0.17250864,  0.33546276,
       -0.09453447, -1.46317617,  0.0855785 ,  1.33655044, -0.34246616,
       -0.02009538,  0.57417809, -1.18887541,  0.78509823,  1.10529921,
        0.53992893,  1.18621002, -1.08244515, -0.08014278, -0.7042871 ,
       -0.80465107, -0.3757876 , -1.70052292, -0.62617103,  1.54

In [24]:
X.ravel()

array([-0.17970621, -1.24875989,  0.01861571, -0.11001456, -1.10683558,
       -0.47760269, -0.39998225, -0.86054498, -0.51879674,  0.50323096,
       -0.42370485, -0.36233415, -0.41568672,  0.20179417, -0.6660919 ,
        1.92067523, -0.67943359, -0.15811295,  0.50740816, -1.04811915,
        1.19065312, -1.7270781 ,  0.33529723,  1.16845736, -0.06735513,
       -0.11121089,  0.62308323,  1.23334824, -0.01048065,  2.24495948,
        0.25311779, -0.13397996, -0.49255472,  0.62327292,  0.48610089,
       -0.37135664,  0.38091857,  0.23364658, -0.82455127,  1.51886774,
       -0.7764821 , -1.1796879 ,  1.77521815,  1.63964595, -0.2442546 ,
        0.24717916,  0.47531511, -0.53025224,  0.17250864,  0.33546276,
       -0.09453447, -1.46317617,  0.0855785 ,  1.33655044, -0.34246616,
       -0.02009538,  0.57417809, -1.18887541,  0.78509823,  1.10529921,
        0.53992893,  1.18621002, -1.08244515, -0.08014278, -0.7042871 ,
       -0.80465107, -0.3757876 , -1.70052292, -0.62617103,  1.54

As funções incorporadas ao NumPy podem ser facilmente chamadas em matrizes. A maioria das funções são aplicadas a um elemento de array (como a multiplicação escalar). Por exemplo, se chamarmos `log()` em um array, o logaritmo será obtido de cada elemento. 

In [25]:
np.log(data)

array([1.25276297, 1.60943791, 0.69314718, 2.07944154, 1.43508453])

Mean tira a média

In [26]:
np.mean(data)

4.54

Algumas funções podem ser chamadas direto no vetor, nem todas serão assim. O importante é ler a [documentação](http://numpy.org) e aprender. Com um pouco de prática você vai se acostumando.

In [27]:
data.mean()

4.54

Abaixo temos a mediana,

In [28]:
np.median(data) # por exemplo, não existe data.median(). Faz sentido? Não. Mas é assim.

4.2

Em matrizes as funções operam em todos os elementos.

In [29]:
np.median(X)

-0.08733862369419411

In [30]:
X.mean()

0.031015789058107708

In [31]:
np.log(X + 10)

array([[2.28445104, 2.16919542, 2.30444493, 2.29152267, 2.18528294,
        2.25364664, 2.26176495, 2.21260076],
       [2.24931123, 2.35168292, 2.25929079, 2.26567895, 2.26012773,
        2.3225636 , 2.2336538 , 2.47827431],
       [2.2322234 , 2.28664747, 2.35208055, 2.19186366, 2.41507889,
        2.11298776, 2.33556495, 2.4130935 ],
       [2.29582679, 2.2914017 , 2.3630293 , 2.41888688, 2.30153648,
        2.50511438, 2.32758183, 2.28909653],
       [2.2520752 , 2.36304715, 2.35005066, 2.26474234, 2.33996937,
        2.32568098, 2.2165313 , 2.44398636],
       [2.22175652, 2.17705725, 2.46599717, 2.45441703, 2.27785638,
        2.32700246, 2.34902155, 2.24810227],
       [2.31968885, 2.33558097, 2.29308668, 2.14438902, 2.31110653,
        2.42803206, 2.26773832, 2.30057353],
       [2.358415  , 2.17601508, 2.37816539, 2.4074224 , 2.3551708 ,
        2.41468177, 2.18802179, 2.29453853],
       [2.22955332, 2.2186978 , 2.26428205, 2.11619251, 2.23792165,
        2.44598379, 2.271508

Porém, caso você queira a media de linhas ou colunas use `axis`. Antes, vamos ver o tamanho do vetor.

In [32]:
X.shape

(9, 8)

In [33]:
np.mean(X, axis=0) # média das colunas. como temos 8 colunas, temos 8 elementos.

array([-0.29688098, -0.35881461,  0.36683305, -0.11969224, -0.02292772,
        0.53195088, -0.28419884,  0.43185677])

In [34]:
np.mean(X, axis=0).shape

(8,)

In [35]:
np.mean(X, axis=1) # média das linhas

array([-0.54560381,  0.02988575, -0.05136599,  0.50393526,  0.19429301,
        0.17583519,  0.00122852,  0.22990639, -0.25897223])

In [36]:
np.mean(X, axis=1).shape

(9,)

Lembre-se que eixo 0 é coluna. Eixo 1 é linhas.

### Multiplicação de Matrizes

Para transpor uma matriz fazemos uso de .T

In [37]:
X.shape

(9, 8)

In [38]:
X.T.shape

(8, 9)

In [39]:
X.T

array([[-0.17970621, -0.51879674, -0.67943359, -0.06735513, -0.49255472,
        -0.7764821 ,  0.17250864,  0.57417809, -0.7042871 ],
       [-1.24875989,  0.50323096, -0.15811295, -0.11121089,  0.62327292,
        -1.1796879 ,  0.33546276, -1.18887541, -0.80465107],
       [ 0.01861571, -0.42370485,  0.50740816,  0.62308323,  0.48610089,
         1.77521815, -0.09453447,  0.78509823, -0.3757876 ],
       [-0.11001456, -0.36233415, -1.04811915,  1.23334824, -0.37135664,
         1.63964595, -1.46317617,  1.10529921, -1.70052292],
       [-1.10683558, -0.41568672,  1.19065312, -0.01048065,  0.38091857,
        -0.2442546 ,  0.0855785 ,  0.53992893, -0.62617103],
       [-0.47760269,  0.20179417, -1.7270781 ,  2.24495948,  0.23364658,
         0.24717916,  1.33655044,  1.18621002,  1.54189888],
       [-0.39998225, -0.6660919 ,  0.33529723,  0.25311779, -0.82455127,
         0.47531511, -0.34246616, -1.08244515, -0.30598297],
       [-0.86054498,  1.92067523,  1.16845736, -0.13397996,  1

Para multiplicar matrizes, do ponto de visto de multiplicação matricial como definido na álgebra linear, fazemos uso de `@`.

In [40]:
X @ X.T

array([[ 3.95785814, -1.52589226, -1.18832547, -1.01965248, -2.15035193,
         1.88383215, -0.8694905 ,  0.61222838,  0.6128117 ],
       [-1.52589226,  5.17939137,  1.61513402, -0.70046401,  3.85306219,
        -2.72072053,  1.07318321, -1.04728952,  3.24685114],
       [-1.18832547,  1.61513402,  7.72081695, -4.87457054,  2.42026671,
        -1.28161771, -1.02937504, -2.82465288, -0.25774723],
       [-1.01965248, -0.70046401, -4.87457054,  7.04825733, -0.08294101,
         4.06067833,  1.00317773,  4.34002846,  1.07497169],
       [-2.15035193,  3.85306219,  2.42026671, -0.08294101,  4.1918128 ,
        -1.33135913,  1.21825936,  0.20099688,  2.04089063],
       [ 1.88383215, -2.72072053, -1.28161771,  4.06067833, -1.33135913,
         8.46227607, -2.93926067,  3.85200254, -2.04982765],
       [-0.8694905 ,  1.07318321, -1.02937504,  1.00317773,  1.21825936,
        -2.93926067,  4.20349342,  0.01270813,  4.22613035],
       [ 0.61222838, -1.04728952, -2.82465288,  4.34002846,  0

O uso de `*` realiza uma operação ponto a ponto

In [41]:
X * X

array([[3.22943217e-02, 1.55940127e+00, 3.46544493e-04, 1.21032039e-02,
        1.22508499e+00, 2.28104331e-01, 1.59985801e-01, 7.40537667e-01],
       [2.69150053e-01, 2.53241401e-01, 1.79525796e-01, 1.31286036e-01,
        1.72795449e-01, 4.07208872e-02, 4.43678419e-01, 3.68899333e+00],
       [4.61629999e-01, 2.49997042e-02, 2.57463039e-01, 1.09855375e+00,
        1.41765485e+00, 2.98279877e+00, 1.12424233e-01, 1.36529261e+00],
       [4.53671340e-03, 1.23678618e-02, 3.88232707e-01, 1.52114789e+00,
        1.09843940e-04, 5.03984307e+00, 6.40686137e-02, 1.79506304e-02],
       [2.42610156e-01, 3.88469129e-01, 2.36294074e-01, 1.37905756e-01,
        1.45098958e-01, 5.45907230e-02, 6.79884790e-01, 2.30695921e+00],
       [6.02924454e-01, 1.39166354e+00, 3.15139948e+00, 2.68843886e+00,
        5.96603097e-02, 6.10975370e-02, 2.25924450e-01, 2.81167437e-01],
       [2.97592318e-02, 1.12535263e-01, 8.93676607e-03, 2.14088450e+00,
        7.32367920e-03, 1.78636709e+00, 1.17283073e-01, 4.

Observe a diferença de tamanhos

In [42]:
(X * X).shape

(9, 8)

In [43]:
(X @ X.T).shape

(9, 9)

**Pense:** Para o nosso `X` de tamanho `(9, 8)`, qual o motivo de `X * X.T` não funcionar? Qual o motivo de `X @ X` não funcionar?

## Correção Automática

Nossa correção automática depende das funções abaixo. Tais funções comparam valores que serão computados pelo seu código com uma saída esperada. Normalmente, vocês não fazer uso de tais funções em notebooks como este. Porém, elas são chave em ambientes de testes automáticos (fora do nosso escopo).

Observe como algumas funções comparam valores e outras comparam vetores. Além do mais, temos funções para comparar dentro de algumas casas decimais.

In [44]:
from numpy.testing import assert_almost_equal
from numpy.testing import assert_equal

from numpy.testing import assert_array_almost_equal
from numpy.testing import assert_array_equal

In [45]:
# caso você mude um dos valores vamos receber um erro!
assert_array_equal(2, 2)

# caso você mude um dos valores vamos receber um erro!
assert_array_equal([1, 2], [1, 2])

# caso você mude um dos valores vamos receber um erro!
assert_almost_equal(3.1415, 3.14, 1)

Caso você mude um dos valores abaixo vamos receber um erro! Como o abaixo.

```
-----------------------------------------------------------------------
AssertionError                        Traceback (most recent call last)
<ipython-input-10-396672d880f2> in <module>
----> 1 assert_equal(2, 3) # caso você mude um dos valores vamos receber um erro!

~/miniconda3/lib/python3.7/site-packages/numpy/testing/_private/utils.py in assert_equal(actual, desired, err_msg, verbose)
    413         # Explicitly use __eq__ for comparison, gh-2552
    414         if not (desired == actual):
--> 415             raise AssertionError(msg)
    416 
    417     except (DeprecationWarning, FutureWarning) as e:

AssertionError: 
Items are not equal:
 ACTUAL: 2
 DESIRED: 3
 ```

É essencial que todo seu código execute sem erros! Portanto, antes de submeter clique em `Kernel` no menu acima. Depois clique em `Restart & Execute All.`

**Garanta que o notebook executa até o fim!** Isto é, sem erros como o acima.

## Funções em Python

Para criar uma função em Python fazemos uso da palavra-chave: 
```python
def
```

Todos nossos exercícios farão uso de funções. **Mantenha a assinatura das funções exatamente como requisitado, a correção automática depende disso.** Abaixo, temos um exempo de uma função que imprime algo na tela!

In [46]:
def print_something(txt):
    print(f'Você passou o argumento: {txt}')

In [47]:
print_something('DCC 212')

Você passou o argumento: DCC 212


Podemos também dizer o tipo do argumento, porém faremos pouco uso disto em ICD.

In [48]:
def print_something(txt: str):
    print(f'Você passou o argumento: {txt}')

In [49]:
print_something('DCC 212')

Você passou o argumento: DCC 212


Abaixo temos uma função que soma, a soma, dois vetores

In [50]:
def sum_of_sum_vectors(array_1, array_2):
    return (array_1 + array_2).sum()

In [51]:
x = np.array([1, 2])
y = np.array([1, 2])

In [52]:
sum_of_sum_vectors(x, y)

6

Abaixo temos um teste, tais testes vão avaliar o seu código. Nem todos estão aqui no notebook!

In [53]:
assert_equal(6, sum_of_sum_vectors(x, y))

## Exercício 01

Inicialmente, crie uma função que recebe duas listas de numéros, converte as duas para um vetor numpy usando `np.array` e retorna o produto interno das duas listas. 

__Dicas:__  
1. Tente fazer um código sem nenhum **for**! Ou seja, numpy permite operações em vetores e matrizes, onde: `np.array([1, 2]) + np.array([2, 2]) = np.array([3, 4])`.

__Funções:__
1. `np.sum(array)` soma os elementos do array. `array.sum()` tem o mesmo efeito!

In [65]:
def inner(array_1, array_2):
    array1 = np.array(array_1)
    array2 = np.array(array_2)
    return np.sum(array1 * array2)

In [66]:
x1 = np.array([2, 4, 8])
x2 = np.array([10, 100, 1000])
assert_equal(20 + 400 + 8000, inner(x1, x2))

## Exercício 02

Implemente uma função utilizando numpy que recebe duas matrizes, multiplica as duas e retorne o valor médio das células da multiplicação. Por exemplo, ao multiplicar:

```
[1 2]
[3 4] 

com 

[2 1]
[1 2]

temos

[4  5 ]
[10 11]

onde a média de [4, 5, 10, 11] é

7.5, sua resposta final!
```


__Dicas:__  
1. Use o operador @ para multiplicar matrizes!

In [69]:
def medmult(X_1, X_2):
    return np.mean(X_1 @ X_2)

In [70]:
X = np.array([1, 2, 3, 4]).reshape(2, 2)
Y = np.array([2, 1, 1, 2]).reshape(2, 2)
assert_equal(7.5, medmult(X, Y))