# Computação Eficiente

Python é linguagem OO pensada como interface para sistemas de computação complexos. Assim, operações aparentemente simples escondem algoritmos sofisticados:

In [1]:
2+1

3

In [2]:
type(2)

int

In [3]:
(2).__add__(1)

3

_Observação_: use dir() para descobrir os atributos e métodos disponíveis para um objeto.

In [6]:
', '.join(dir(2))

'__abs__, __add__, __and__, __bool__, __ceil__, __class__, __delattr__, __dir__, __divmod__, __doc__, __eq__, __float__, __floor__, __floordiv__, __format__, __ge__, __getattribute__, __getnewargs__, __gt__, __hash__, __index__, __init__, __init_subclass__, __int__, __invert__, __le__, __lshift__, __lt__, __mod__, __mul__, __ne__, __neg__, __new__, __or__, __pos__, __pow__, __radd__, __rand__, __rdivmod__, __reduce__, __reduce_ex__, __repr__, __rfloordiv__, __rlshift__, __rmod__, __rmul__, __ror__, __round__, __rpow__, __rrshift__, __rshift__, __rsub__, __rtruediv__, __rxor__, __setattr__, __sizeof__, __str__, __sub__, __subclasshook__, __truediv__, __trunc__, __xor__, bit_length, conjugate, denominator, from_bytes, imag, numerator, real, to_bytes'

In [7]:
import numpy as np

In [9]:
v1 = np.random.rand(100)
v2 = np.random.rand(100)
v3 = v1 + v2
print(v3)

[1.68799209 1.41400466 0.44887324 1.30998777 1.50469543 1.08181074
 0.76423158 0.83966434 1.86439415 0.9250377  1.24365473 1.0818831
 1.33100014 0.66471556 1.15158941 0.44314537 0.93224297 1.0489175
 0.93299161 1.13418858 1.07861514 1.22779692 1.20971717 0.83307274
 0.45264394 1.37438275 1.06586362 0.86613245 1.30352471 0.89563174
 1.35288333 1.02846346 0.67785274 0.77942294 0.75237755 1.33440397
 0.66401454 1.90938269 0.9092381  0.79455063 1.21481608 1.51376738
 1.31092538 0.9890272  0.8020708  1.66790876 0.65595144 1.11776014
 1.05582718 1.15344732 0.81976432 0.27532784 1.79780784 0.69030929
 1.32436838 1.08709398 0.63374705 0.89317958 1.02151269 1.26395226
 0.31132832 0.4795207  1.64267478 0.59059789 0.51774411 1.75479863
 0.55190548 0.83914076 1.37036462 0.5900777  0.68583428 1.65482046
 0.52684144 0.88833229 1.04839597 0.97056023 0.99534229 1.32660443
 0.83092218 0.14753556 0.87698409 1.40331348 1.21823465 1.02594827
 0.81692879 1.17914935 0.37628008 1.2848744  0.42118235 1.185994

In [10]:
m1 = np.random.rand(100, 15)
m2 = np.random.rand(15, 110)

In [11]:
def matmul(m1, m2):
    r = np.zeros((m1.shape[0], m2.shape[1]))
    for i in range(m1.shape[0]):
        for j in range(m2.shape[1]):
            for k in range(m2.shape[0]):
                r[i][j] += m1[i][k] * m2[k][j]
    return r

In [12]:
%timeit matmul(m1, m2)

163 ms ± 2.18 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [9]:
%timeit np.matmul(m1, m2)

The slowest run took 8.15 times longer than the fastest. This could mean that an intermediate result is being cached.
10000 loops, best of 3: 21.9 µs per loop


In [10]:
177000/21.4

8271.028037383177

Será que esta diferença de desempenho se deve ao uso do Python no meio... talvez não existisse se o código tivesse sido escrito em C e compilado de forma otimizada?

Comparação de multiplicação de matrizes em Numpy, Python (C-Python) e C

<img src="images/TLhDi" alt="NumpyVersusC" style="width: 500px;"/>

Por que, na comparação acima, o Numpy foi tão rápido? mais rápido mesmo que um código puro escrito em C? Basicamente, porque o código em numpy corresponde a versões otimizadas do melhor algotimo (prático) conhecido para o problema, escrito originalmente em Fortran para o BLAS. Abaixo, podemos ver a implementação do algoritmo de Strassen -- $O(n^{2.83})$, usado pelo numpy. Note o detalhe do _loop unrolling_ para acelerar o processamento em um hardware real.

```C

/*  -- translated by f2c (version 19940927).
   You must link the resulting object file with the libraries:
	-lf2c -lm   (in that order)
*/

#include "f2c.h"

doublereal sdot_(integer *n, real *sx, integer *incx, real *sy, integer *incy)
{


    /* System generated locals */
    integer i__1;
    real ret_val;

    /* Local variables */
    static integer i, m;
    static real stemp;
    static integer ix, iy, mp1;


/*     forms the dot product of two vectors.   
       uses unrolled loops for increments equal to one.   
       jack dongarra, linpack, 3/11/78.   
       modified 12/3/93, array(1) declarations changed to array(*)   


    
   Parameter adjustments   
       Function Body */
#define SY(I) sy[(I)-1]
#define SX(I) sx[(I)-1]


    stemp = 0.f;
    ret_val = 0.f;
    if (*n <= 0) {
	return ret_val;
    }
    if (*incx == 1 && *incy == 1) {
	goto L20;
    }

/*        code for unequal increments or equal increments   
            not equal to 1 */

    ix = 1;
    iy = 1;
    if (*incx < 0) {
	ix = (-(*n) + 1) * *incx + 1;
    }
    if (*incy < 0) {
	iy = (-(*n) + 1) * *incy + 1;
    }
    i__1 = *n;
    for (i = 1; i <= *n; ++i) {
	stemp += SX(ix) * SY(iy);
	ix += *incx;
	iy += *incy;
/* L10: */
    }
    ret_val = stemp;
    return ret_val;

/*        code for both increments equal to 1   


          clean-up loop */

L20:
    m = *n % 5;
    if (m == 0) {
	goto L40;
    }
    i__1 = m;
    for (i = 1; i <= m; ++i) {
	stemp += SX(i) * SY(i);
/* L30: */
    }
    if (*n < 5) {
	goto L60;
    }
L40:
    mp1 = m + 1;
    i__1 = *n;
    for (i = mp1; i <= *n; i += 5) {
	stemp = stemp + SX(i) * SY(i) + SX(i + 1) * SY(i + 1) + SX(i + 2) * 
		SY(i + 2) + SX(i + 3) * SY(i + 3) + SX(i + 4) * SY(i + 4);
/* L50: */
    }
L60:
    ret_val = stemp;
    return ret_val;
} /* sdot_ */

```

### O Tensorflow é o numpy para máquinas vetorias

Contudo, usa uma abordagem estática. Ou seja, o grafo de computação é declarado primeiro e, então, compilado e executado.

In [11]:
import tensorflow as tf

  from ._conv import register_converters as _register_converters


In [12]:
t1 = tf.constant(np.random.rand(100, 15), dtype = tf.float32)
t2 = tf.constant(np.random.rand(15, 110), dtype = tf.float32)

In [13]:
t3 = tf.matmul(t1, t2)

In [14]:
t3

<tf.Tensor 'MatMul:0' shape=(100, 110) dtype=float32>

In [15]:
with tf.Session() as s:
    print s.run(t3)

[[3.8121727 4.6881065 3.8925529 ... 4.304786  4.610894  5.0712986]
 [2.2580144 3.3412476 2.781353  ... 3.7897735 4.6492434 4.1774445]
 [3.5686884 2.8873925 2.310885  ... 3.447249  3.0482647 3.0317369]
 ...
 [2.7807617 3.2592428 3.3020627 ... 4.0484824 3.4263897 3.6995542]
 [3.2312806 3.0449948 2.7674925 ... 3.6788912 3.325767  3.54379  ]
 [2.9236672 3.6910748 4.350985  ... 3.8461893 4.007058  4.39439  ]]


In [16]:
def sigmoid(t):
    return 1.0 / (1.0 + tf.exp(-t))

In [17]:
t1 = tf.constant(np.random.rand(100, 15), dtype = tf.float32)
t2 = tf.constant(np.random.rand(15, 110), dtype = tf.float32)

In [18]:
t1s = sigmoid(t1)

In [19]:
t1s

<tf.Tensor 'div:0' shape=(100, 15) dtype=float32>

In [20]:
with tf.Session() as s:
    print s.run(t1s)

[[0.649144   0.70794886 0.5168201  ... 0.6655356  0.63889915 0.65131783]
 [0.55800515 0.5566466  0.5325955  ... 0.6143507  0.5686545  0.7058372 ]
 [0.6440298  0.72477514 0.5266039  ... 0.69094425 0.5204311  0.71589535]
 ...
 [0.5660618  0.6058463  0.5939491  ... 0.5635986  0.5615751  0.5925196 ]
 [0.7003494  0.7308743  0.7261002  ... 0.7249049  0.639606   0.56627923]
 [0.638626   0.65363836 0.53531146 ... 0.62159365 0.6410436  0.7244281 ]]


In [21]:
t1 = tf.placeholder(shape = (100, 15), dtype = tf.float32)
t2 = tf.placeholder(shape = (15, 110), dtype = tf.float32)

In [22]:
t3 = tf.matmul(t1, t2)

In [23]:
t3

<tf.Tensor 'MatMul_1:0' shape=(100, 110) dtype=float32>

In [25]:
with tf.Session() as s:
    print s.run(t3, feed_dict = {t1: m1, t2: m2})
    m1 = 2 * m1
    m2 = 3 * m2
    print s.run(t3, feed_dict = {t1: m1, t2: m2})

[[3.0664072 3.7516713 3.9476361 ... 5.061258  3.193798  4.9117174]
 [2.6090896 3.307047  3.7638092 ... 4.215127  2.5441265 4.655652 ]
 [3.4270198 3.5554903 4.8707795 ... 4.109871  3.2171454 4.139707 ]
 ...
 [2.7442398 3.115177  3.6109269 ... 3.7556608 2.4192553 3.322314 ]
 [2.80262   2.5835788 4.2646103 ... 3.5568447 2.84881   4.2548866]
 [3.4731297 3.3111138 5.0291147 ... 4.1220503 3.4891956 4.332391 ]]
[[18.398443 22.510027 23.685816 ... 30.367548 19.162788 29.470306]
 [15.654536 19.842278 22.582853 ... 25.290764 15.264757 27.933912]
 [20.562119 21.332941 29.224678 ... 24.659225 19.302872 24.838245]
 ...
 [16.465435 18.691061 21.665562 ... 22.53396  14.515531 19.933882]
 [16.81572  15.501473 25.58766  ... 21.341068 17.092857 25.529322]
 [20.838778 19.866684 30.174686 ... 24.732304 20.935175 25.994349]]


O problema com essa abordagem é que ela ainda é relativamente baixo nível. Logo, não é produtiva em termos de prototipação. Assim, surge a necessidade de APIs de mais alto nível ainda, como o Keras.