# Lista 01 - Introdu√ß√£o e Revis√£o Numpy

[NumPy](http://numpy.org) √© um pacote incrivelmente poderoso em Python, onipresente em qualquer projeto de ci√™ncia de dados. Possui forte integra√ß√£o com o [Pandas](http://pandas.pydata.org), outra ferramenta que iremos abordar na mat√©ria. NumPy adiciona suporte para matrizes multidimensionais e fun√ß√µes matem√°ticas que permitem que voc√™ execute facilmente c√°lculos de √°lgebra linear. Este notebook ser√° uma cole√ß√£o de exemplos de √°lgebra linear computados usando NumPy.

## Numpy

Para fazer uso de Numpy precisamos importar a biblioteca

In [61]:
# -*- coding: utf8

import numpy as np

Quando pensamos no lado pr√°tico de ci√™ncia de dados, um aspecto chave que ajuda na implementa√ß√£o de novos algoritmos √© a vetoriza√ß√£o. De forma simples, vetoriza√ß√£o consiste do uso de tipos como **escalar**, **vetor** e **matriz** para realizar uma computa√ß√£o mais eficaz (em tempo de execu√ß√£o).

Uma matriz √© uma cole√ß√£o de valores, normalmente representada por uma grade ùëö √ó ùëõ, onde ùëö √© o n√∫mero de linhas e ùëõ √© o n√∫mero de colunas. Os comprimentos das arestas ùëö e ùëõ n√£o precisam ser necessariamente diferentes. Se tivermos ùëö = ùëõ, chamamos isso de matriz quadrada. Um caso particularmente interessante de uma matriz √© quando ùëö = 1 ou ùëõ = 1. Nesse caso, temos um caso especial de uma matriz que chamamos de vetor. Embora haja um objeto de matriz em NumPy, faremos tudo usando matrizes NumPy porque elas podem ter dimens√µes maiores que 2.

1. **Escalar:** Um vetor de zero dimens√µes

In [62]:
1

1

In [63]:
np.array(1)

array(1)

2. **Vetor:** Representa uma dimens√£o

Abaixo vamos criar um vetor simples. Inicialmente, vamos criar uma lista.

In [64]:
data_list = [3.5, 5, 2, 8, 4.2]

Observe o tipo da mesma.

In [65]:
type(data_list)

list

Embora vetores e listas sejam parecidos, vetores Numpy s√£o otimizados para opera√ß√µes de √Ålgebra Linear. Ci√™ncia de Dados faz bastante uso de tais opera√ß√µes, sendo este um dos motivos da depend√™ncia em Numpy.

Abaixo criamos um vetor.

In [66]:
data = np.array(data_list)
print(data)
print(type(data))

[3.5 5.  2.  8.  4.2]
<class 'numpy.ndarray'>


Observe como podemos somar o mesmo com um n√∫mero. N√£o √© poss√≠vel fazer tal opera√ß√£o com listas.

In [67]:
data + 7

array([10.5, 12. ,  9. , 15. , 11.2])

3. **Matrizes:** Representam duas dimens√µes.

In [68]:
X = np.array([[2, 4],
              [1, 3]])
X

array([[2, 4],
       [1, 3]])

Podemos indexar as matrizes e os vetores.

In [69]:
data[0]

3.5

In [70]:
X[0, 1] # aqui √© primeira linha, segunda coluna

4

Podemos tamb√©m criar vetores/matrizes de n√∫meros aleat√≥rios

In [71]:
X = np.random.randn(4, 3) # Gera n√∫meros aleat√≥rios de uma normal
print(X)

[[ 1.33783828  1.16497432 -1.56662171]
 [ 0.71190041  0.75000124 -0.56885125]
 [-1.66016145 -0.63461301 -0.31829936]
 [-0.37229944  0.09972376 -1.10645534]]


### Indexando

Pegando a primeira linha

In [72]:
X[0] # observe que 0 √© a linha 1, compare com o X[0, 1] de antes.

array([ 1.33783828,  1.16497432, -1.56662171])

In [73]:
X[1] # segunda

array([ 0.71190041,  0.75000124, -0.56885125])

In [74]:
X[2] # terceira

array([-1.66016145, -0.63461301, -0.31829936])

Observe como todos os tipos retornados s√£o `array`. Array √© o nome gen√©rico de Numpy para vetores e matrizes.

`X[:, c]` pega uma coluna

In [75]:
X[:, 0]

array([ 1.33783828,  0.71190041, -1.66016145, -0.37229944])

In [76]:
X[:, 1]

array([ 1.16497432,  0.75000124, -0.63461301,  0.09972376])

`X[um_vetor]` pega as linhas da matriz. `X[:, um_vetor]` pega as colunas

In [77]:
X[[0, 0, 1]] # observe que pego a primeira linha, indexada por 0, duas vezes

array([[ 1.33783828,  1.16497432, -1.56662171],
       [ 1.33783828,  1.16497432, -1.56662171],
       [ 0.71190041,  0.75000124, -0.56885125]])

Abaixo pego a segunda a primeira coluna

In [78]:
X[:, [1, 0]]

array([[ 1.16497432,  1.33783828],
       [ 0.75000124,  0.71190041],
       [-0.63461301, -1.66016145],
       [ 0.09972376, -0.37229944]])

### Indexa√ß√£o Booleana

`X[vetor_booleano]` retorna as linhas (ou colunas quando X[:, vetor_booleano]) onde o vetor √© true

In [79]:
X[[True, False, True, False]]

array([[ 1.33783828,  1.16497432, -1.56662171],
       [-1.66016145, -0.63461301, -0.31829936]])

In [80]:
X[:, [False, True, True]]

array([[ 1.16497432, -1.56662171],
       [ 0.75000124, -0.56885125],
       [-0.63461301, -0.31829936],
       [ 0.09972376, -1.10645534]])

### Reshape, Flatten e Ravel

Todo vetor ou matriz pode ser redimensionado. Observe como uma matriz abaixo de 9x8=72 elementos. Podemos redimensionar os mesmos para outros arrays de tamanho 72.

In [81]:
X = np.random.randn(9, 8)

Criando uma matriz de 18x4.

In [82]:
X.reshape((18, 4))

array([[ 0.70099767,  0.67539397, -0.68206568, -0.44115621],
       [-0.04267647, -1.2014097 , -0.95119467,  0.12862689],
       [ 0.50971228,  0.71093419,  0.19305629,  0.00563583],
       [ 1.10462771, -2.45189911, -0.03147323,  0.13793472],
       [-0.12586399, -1.49852518,  0.55907519, -0.49186105],
       [-0.29357185, -0.63832149,  0.45731543, -0.26980147],
       [ 0.08488667, -0.74217549,  0.62803505, -0.26359768],
       [ 1.07887015,  1.97806576, -0.19472315, -0.10447677],
       [-0.11917208, -0.74019655, -0.12830166,  0.83476362],
       [ 0.54869875,  1.43314746,  0.96875327, -0.8579596 ],
       [ 0.67508414, -0.65316325, -2.0645873 ,  0.73418364],
       [-0.34304906, -1.32166311, -0.52430948,  1.20208412],
       [ 0.85424663,  1.01565804,  0.12506359,  0.31045103],
       [ 0.23071329, -1.80721699,  0.84133932, -0.04287157],
       [ 0.2642029 , -0.75117456,  0.02316153,  1.83528369],
       [ 0.63502338, -0.59399236, -0.76074375, -0.21598967],
       [ 1.59692847,  0.

Ou um vetor de 72

In [83]:
X.reshape(72)

array([ 0.70099767,  0.67539397, -0.68206568, -0.44115621, -0.04267647,
       -1.2014097 , -0.95119467,  0.12862689,  0.50971228,  0.71093419,
        0.19305629,  0.00563583,  1.10462771, -2.45189911, -0.03147323,
        0.13793472, -0.12586399, -1.49852518,  0.55907519, -0.49186105,
       -0.29357185, -0.63832149,  0.45731543, -0.26980147,  0.08488667,
       -0.74217549,  0.62803505, -0.26359768,  1.07887015,  1.97806576,
       -0.19472315, -0.10447677, -0.11917208, -0.74019655, -0.12830166,
        0.83476362,  0.54869875,  1.43314746,  0.96875327, -0.8579596 ,
        0.67508414, -0.65316325, -2.0645873 ,  0.73418364, -0.34304906,
       -1.32166311, -0.52430948,  1.20208412,  0.85424663,  1.01565804,
        0.12506359,  0.31045103,  0.23071329, -1.80721699,  0.84133932,
       -0.04287157,  0.2642029 , -0.75117456,  0.02316153,  1.83528369,
        0.63502338, -0.59399236, -0.76074375, -0.21598967,  1.59692847,
        0.32712648,  1.30085071, -0.91323562,  1.13765177, -0.83

A chamada flatten e ravel faz a mesma coisa, criam uma vis√£o de uma dimens√£o da matriz.

In [84]:
X.flatten()

array([ 0.70099767,  0.67539397, -0.68206568, -0.44115621, -0.04267647,
       -1.2014097 , -0.95119467,  0.12862689,  0.50971228,  0.71093419,
        0.19305629,  0.00563583,  1.10462771, -2.45189911, -0.03147323,
        0.13793472, -0.12586399, -1.49852518,  0.55907519, -0.49186105,
       -0.29357185, -0.63832149,  0.45731543, -0.26980147,  0.08488667,
       -0.74217549,  0.62803505, -0.26359768,  1.07887015,  1.97806576,
       -0.19472315, -0.10447677, -0.11917208, -0.74019655, -0.12830166,
        0.83476362,  0.54869875,  1.43314746,  0.96875327, -0.8579596 ,
        0.67508414, -0.65316325, -2.0645873 ,  0.73418364, -0.34304906,
       -1.32166311, -0.52430948,  1.20208412,  0.85424663,  1.01565804,
        0.12506359,  0.31045103,  0.23071329, -1.80721699,  0.84133932,
       -0.04287157,  0.2642029 , -0.75117456,  0.02316153,  1.83528369,
        0.63502338, -0.59399236, -0.76074375, -0.21598967,  1.59692847,
        0.32712648,  1.30085071, -0.91323562,  1.13765177, -0.83

In [85]:
X.ravel()

array([ 0.70099767,  0.67539397, -0.68206568, -0.44115621, -0.04267647,
       -1.2014097 , -0.95119467,  0.12862689,  0.50971228,  0.71093419,
        0.19305629,  0.00563583,  1.10462771, -2.45189911, -0.03147323,
        0.13793472, -0.12586399, -1.49852518,  0.55907519, -0.49186105,
       -0.29357185, -0.63832149,  0.45731543, -0.26980147,  0.08488667,
       -0.74217549,  0.62803505, -0.26359768,  1.07887015,  1.97806576,
       -0.19472315, -0.10447677, -0.11917208, -0.74019655, -0.12830166,
        0.83476362,  0.54869875,  1.43314746,  0.96875327, -0.8579596 ,
        0.67508414, -0.65316325, -2.0645873 ,  0.73418364, -0.34304906,
       -1.32166311, -0.52430948,  1.20208412,  0.85424663,  1.01565804,
        0.12506359,  0.31045103,  0.23071329, -1.80721699,  0.84133932,
       -0.04287157,  0.2642029 , -0.75117456,  0.02316153,  1.83528369,
        0.63502338, -0.59399236, -0.76074375, -0.21598967,  1.59692847,
        0.32712648,  1.30085071, -0.91323562,  1.13765177, -0.83

As fun√ß√µes incorporadas ao NumPy podem ser facilmente chamadas em matrizes. A maioria das fun√ß√µes s√£o aplicadas a um elemento de array (como a multiplica√ß√£o escalar). Por exemplo, se chamarmos `log()` em um array, o logaritmo ser√° obtido de cada elemento.

In [86]:
np.log(data)

array([1.25276297, 1.60943791, 0.69314718, 2.07944154, 1.43508453])

Mean tira a m√©dia

In [87]:
np.mean(data)

4.54

Algumas fun√ß√µes podem ser chamadas direto no vetor, nem todas ser√£o assim. O importante √© ler a [documenta√ß√£o](http://numpy.org) e aprender. Com um pouco de pr√°tica voc√™ vai se acostumando.

In [88]:
data.mean()

4.54

Abaixo temos a mediana,

In [89]:
np.median(data) # por exemplo, n√£o existe data.median(). Faz sentido? N√£o. Mas √© assim.

4.2

Em matrizes as fun√ß√µes operam em todos os elemntos.

In [90]:
np.median(X)

0.014398682002880851

In [91]:
X.mean()

0.055353436195164925

In [92]:
np.log(X + 10)

array([[2.37033698, 2.36794146, 2.23194096, 2.25746678, 2.29830831,
        2.17459152, 2.20263274, 2.31536576],
       [2.35229981, 2.37126511, 2.32170673, 2.30314852, 2.40736193,
        2.02129599, 2.29943281, 2.3162843 ],
       [2.28991881, 2.14023966, 2.3569857 , 2.25214816, 2.27278836,
        2.2366246 , 2.34730177, 2.2752343 ],
       [2.31103793, 2.22546909, 2.36349533, 2.27587168, 2.4050397 ,
        2.48307712, 2.28292069, 2.29208246],
       [2.29059631, 2.22568282, 2.28967191, 2.38275982, 2.35600251,
        2.43651681, 2.39505062, 2.2128836 ],
       [2.36791244, 2.23503797, 2.07133536, 2.37343338, 2.26767796,
        2.16082991, 2.24872963, 2.41609984],
       [2.3845564 , 2.39931772, 2.31501389, 2.33315804, 2.3253943 ,
        2.10325365, 2.38336654, 2.29828872],
       [2.32866239, 2.22449656, 2.30489857, 2.47108521, 2.36415265,
        2.2413486 , 2.22346139, 2.28074945],
       [2.45074028, 2.33477407, 2.42487801, 2.20681889, 2.41033142,
        2.21590476, 2.284658

Por√©m, caso voc√™ queira a media de linhas ou colunas use `axis`. Antes, vamos ver o tamanho do vetor.

In [93]:
X.shape

(9, 8)

In [94]:
np.mean(X, axis=0) # m√©dia das colunas. como temos 8 colunas, temos 8 elementos.

array([ 0.49344697, -0.1840136 , -0.00507914,  0.17894081,  0.45069863,
       -0.60373198, -0.04141174,  0.15397754])

In [95]:
np.mean(X, axis=0).shape

(8,)

In [96]:
np.mean(X, axis=1) # m√©dia das linhas

array([-0.22668552,  0.02231609, -0.2876943 ,  0.30811057,  0.24246665,
       -0.28692754,  0.19092292,  0.05447139,  0.48120067])

In [97]:
np.mean(X, axis=1).shape

(9,)

Lembre-se que eixo 0 √© coluna. Eixo 1 √© linas.

### Multiplica√ß√£o de Matrizes

Para transpor uma matriz fazemos uso de .T

In [98]:
X.shape

(9, 8)

In [99]:
X.T.shape

(8, 9)

In [100]:
X.T

array([[ 0.70099767,  0.50971228, -0.12586399,  0.08488667, -0.11917208,
         0.67508414,  0.85424663,  0.2642029 ,  1.59692847],
       [ 0.67539397,  0.71093419, -1.49852518, -0.74217549, -0.74019655,
        -0.65316325,  1.01565804, -0.75117456,  0.32712648],
       [-0.68206568,  0.19305629,  0.55907519,  0.62803505, -0.12830166,
        -2.0645873 ,  0.12506359,  0.02316153,  1.30085071],
       [-0.44115621,  0.00563583, -0.49186105, -0.26359768,  0.83476362,
         0.73418364,  0.31045103,  1.83528369, -0.91323562],
       [-0.04267647,  1.10462771, -0.29357185,  1.07887015,  0.54869875,
        -0.34304906,  0.23071329,  0.63502338,  1.13765177],
       [-1.2014097 , -2.45189911, -0.63832149,  1.97806576,  1.43314746,
        -1.32166311, -1.80721699, -0.59399236, -0.83029829],
       [-0.95119467, -0.03147323,  0.45731543, -0.19472315,  0.96875327,
        -0.52430948,  0.84133932, -0.76074375, -0.17766937],
       [ 0.12862689,  0.13793472, -0.26980147, -0.10447677, -0

Para multiplicar matrizes, do ponto de visto de multiplica√ß√£o matricial como definido na √°lgebra linear, fazemos uso de `@`.

In [101]:
X @ X.T

array([[ 3.97390986e+00,  3.64957748e+00, -9.54949165e-01,
        -3.00455755e+00, -3.64125804e+00,  3.37222411e+00,
         2.41810531e+00,  2.34783326e-01,  2.15511091e+00],
       [ 3.64957748e+00,  8.05456471e+00,  1.64857834e-01,
        -4.03115986e+00, -3.66369673e+00,  2.52925274e+00,
         5.83695286e+00,  1.76747097e+00,  4.78485790e+00],
       [-9.54949165e-01,  1.64857834e-01,  3.59148081e+00,
        -5.79729830e-02,  2.40497909e-01, -2.41306446e-01,
        -2.30108082e-01,  1.05752417e-01,  2.20070828e-01],
       [-3.00455755e+00, -4.03115986e+00, -5.79729830e-02,
         6.14747942e+00,  3.56645270e+00, -3.95603149e+00,
        -4.16980573e+00, -2.08447476e-01,  4.22940042e-01],
       [-3.64125804e+00, -3.66369673e+00,  2.40497909e-01,
         3.56645270e+00,  5.30494409e+00, -2.34085708e+00,
        -2.22206562e+00,  9.99082904e-01, -3.30773660e+00],
       [ 3.37222411e+00,  2.52925274e+00, -2.41306446e-01,
        -3.95603149e+00, -2.34085708e+00,  9.268289

O uso de `*` realiza uma opera√ß√£o ponto a ponto

In [102]:
X * X

array([[4.91397739e-01, 4.56157009e-01, 4.65213597e-01, 1.94618798e-01,
        1.82128127e-03, 1.44338527e+00, 9.04771294e-01, 1.65448776e-02],
       [2.59806613e-01, 5.05427416e-01, 3.72707312e-02, 3.17626266e-05,
        1.22020237e+00, 6.01180926e+00, 9.90563978e-04, 1.90259870e-02],
       [1.58417449e-02, 2.24557772e+00, 3.12565070e-01, 2.41927288e-01,
        8.61844336e-02, 4.07454321e-01, 2.09137400e-01, 7.27928357e-02],
       [7.20574754e-03, 5.50824452e-01, 3.94428020e-01, 6.94837375e-02,
        1.16396080e+00, 3.91274416e+00, 3.79171067e-02, 1.09153949e-02],
       [1.42019854e-02, 5.47890933e-01, 1.64613168e-02, 6.96830309e-01,
        3.01070313e-01, 2.05391166e+00, 9.38482903e-01, 7.36094671e-01],
       [4.55738592e-01, 4.26622235e-01, 4.26252070e+00, 5.39025612e-01,
        1.17682655e-01, 1.74679339e+00, 2.74900433e-01, 1.44500624e+00],
       [7.29737302e-01, 1.03156125e+00, 1.56409017e-02, 9.63798427e-02,
        5.32286212e-02, 3.26603324e+00, 7.07851848e-01, 1.

Observe a diferen√ßa de tamanhos

In [103]:
(X * X).shape

(9, 8)

In [104]:
(X @ X.T).shape

(9, 9)

**Pense:** Para o nosso `X` de tamanho `(9, 8)`, qual o motivo de `X * X.T` n√£o funcionar? Qual o motivo de `X @ X` n√£o funcionar?

## Corre√ß√£o Autom√°tica

Nossa corre√ß√£o autom√°tica depende das fun√ß√µes abaixo. Tais fun√ß√µes comparam valores que ser√£o computados pelo seu c√≥digo com uma sa√≠da esperada. Normalmente, voc√™s n√£o fazer uso de tais fun√ß√µes em notebooks como este. Por√©m, elas s√£o chave em ambientes de testes autom√°ticos (fora do nosso escopo).

Observe como algumas fun√ß√µes comparam valores e outras comparam vetores. Al√©m do mais, temos fun√ß√µes para comparar dentro de algumas casas decimais.

In [105]:
from numpy.testing import assert_almost_equal
from numpy.testing import assert_equal

from numpy.testing import assert_array_almost_equal
from numpy.testing import assert_array_equal

In [106]:
# caso voc√™ mude um dos valores vamos receber um erro!
assert_array_equal(2, 2)

# caso voc√™ mude um dos valores vamos receber um erro!
assert_array_equal([1, 2], [1, 2])

# caso voc√™ mude um dos valores vamos receber um erro!
assert_almost_equal(3.1415, 3.14, 1)

Caso voc√™ mude um dos valores abaixo vamos receber um erro! Como o abaixo.

```
-----------------------------------------------------------------------
AssertionError                        Traceback (most recent call last)
<ipython-input-10-396672d880f2> in <module>
----> 1 assert_equal(2, 3) # caso voc√™ mude um dos valores vamos receber um erro!

~/miniconda3/lib/python3.7/site-packages/numpy/testing/_private/utils.py in assert_equal(actual, desired, err_msg, verbose)
    413         # Explicitly use __eq__ for comparison, gh-2552
    414         if not (desired == actual):
--> 415             raise AssertionError(msg)
    416
    417     except (DeprecationWarning, FutureWarning) as e:

AssertionError:
Items are not equal:
 ACTUAL: 2
 DESIRED: 3
 ```

√â essencial que todo seu c√≥digo execute sem erros! Portanto, antes de submeter clique em `Kernel` no menu acima. Depois clique em `Restart & Execute All.`

**Garanta que o notebook executa at√© o fim!** Isto √©, sem erros como o acima.

## Fun√ß√µes em Python

Para criar uma fun√ß√£o em Python fazemos uso da palavra-chave:
```python
def
```

Todos nossos exerc√≠cios far√£o uso de fun√ß√µes. **Mantenha a assinatura das fun√ß√µes exatamente como requisitado, a corre√ß√£o autom√°tica depende disso.** Abaixo, temos um exempo de uma fun√ß√£o que imprime algo na tela!

In [107]:
def print_something(txt):
    print(f'Voce passou o argumento: {txt}')

In [108]:
print_something('DCC 212')

Voce passou o argumento: DCC 212


Podemos tamb√©m dizer o tipo do argumento, por√©m faremos pouco uso disto em ICD.

In [109]:
def print_something(txt: str):
    print(f'Voce passou o argumento: {txt}')

In [110]:
print_something('DCC 212')

Voce passou o argumento: DCC 212


Abaixo temos uma fun√ß√£o que soma, a soma, dois vetores

In [111]:
def sum_of_sum_vectors(array_1, array_2):
    return (array_1 + array_2).sum()

In [112]:
x = np.array([1, 2])
y = np.array([1, 2])

In [113]:
sum_of_sum_vectors(x, y)

6

Abaixo temos um teste, tais testes v√£o avaliar o seu c√≥digo. Nem todos est√£o aqui no notebook!

In [114]:
assert_equal(6, sum_of_sum_vectors(x, y))

## Exerc√≠cio 01

Inicialmente, crie uma fun√ß√£o que recebe duas listas de n√∫meros, converte as duas para um vetor numpy usando `np.array` e retorna o produto interno das duas listas.

__Dicas:__  
1. Tente fazer um c√≥digo sem nenhum **for**! Ou seja, numpy permite opera√ß√µes em vetores e matrizes, onde: `np.array([1, 2]) + np.array([2, 2]) = np.array([3, 4])`.

__Fun√ß√µes:__
1. `np.sum(array)` soma os elementos do array. `array.sum()` tem o mesmo efeito!

In [138]:
from re import A
def inner(array_1, array_2):
    # Seu c√≥digo aqui!
    a1 = np.array(array_1)
    a2 = np.array(array_2)
    produto = array_1 * array_2
    produto = np.sum(produto)
    # Apague o return None abaixo e mude para seu retorno
    return produto

In [139]:
x1 = np.array([2, 4, 8])
x2 = np.array([10, 100, 1000])
assert_equal(20 + 400 + 8000, inner(x1, x2))

## Exerc√≠cio 02

Implemente uma fun√ß√£o utilizando numpy que recebe duas matrizes, multiplica as duas e retorne o valor m√©dio das c√©lulas da multiplica√ß√£o. Por exemplo, ao multiplicar:

```
[1 2]
[3 4]

com

[2 1]
[1 2]

temos

[4  5 ]
[10 11]

onde a m√©dia de [4, 5, 10, 11] √©

7.5, sua resposta final!
```


__Dicas:__  
1. Use o operador @ para multiplicar matrizes!

In [None]:
def medmult(X_1, X_2):
    # Seu c√≥digo aqui!
    # Apague o return None abaixo e mude para seu retorno
    return None

In [None]:
X = np.array([1, 2, 3, 4]).reshape(2, 2)
Y = np.array([2, 1, 1, 2]).reshape(2, 2)
assert_equal(7.5, medmult(X, Y))