# Curs 2: Module si pachete Python, NumPy, grafice

## Module

Modulele sunt fisiere Python cu extensia .py, in care se gasesc implementari de functii, clase, declaratii de variabile. Importarea unui modul se face cu instructiunea `import`. 

Exemplu: cream un modul - fisierul Python mySmartModule.py - care contine o functie ce calculeaza suma elementelor dintr-o lista:


```python
#fisierul mySmartModule.py
def my_sum(lista):
    sum = 0
    for item in lista:
        sum += item
    return sum
```

Utilizarea se face cu:
```python
import mySmartModule

lista = [1, 2, 3]

suma = mySmartModule.my_sum(lista)
print(suma)
```

Se poate ca modulul sa fie importat cu un nume mai scurt, sub forma:
```python
import mySmartModule as msm
```
si in acest caz apelul se face cu:
```python
suma = msm.my_sum(lista)
```

Putem afla ce pune la dispozitie un modul:
```python
>>> dir(msm)
['__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', 'my_sum']
```
elementele aflate intre dublu underscore ('dunders') sunt adaugate automat de Python. 

Daca se doreste ca tot ceea ce e definit intr-un modul sa fie disponibil fara a mai face prefixare cu `nume_modul.nume_entitate`, atunci se poate proceda astfel:
```python
from mySmartModule import *

print(my_sum([1, 2, 3]))
```
Se recomanda insa sa se importe strict acele entitati (functii, tipuri) din modul care sunt utilizate; in felul acesta se evita suprascrierea prin import al altor entitati deja importate:
```python
from mySmartModule import my_sum

print(my_sum([1, 2, 3]))
```

Ordinea de cautare a modulelor este:
1. directorul curent
1. daca nu se gaseste modulul cerut, se cauta in variabila de mediu `PYTHONPATH`, daca e definita
1. daca nu se gaseste modulul cerut, se cauta in calea implicita.

Calea de cautare implicita se gaseste in variabila `path` din modulul sistem `sys`:

In [1]:
import sys
print(sys.path)

['', 'C:\\Anaconda3\\python36.zip', 'C:\\Anaconda3\\DLLs', 'C:\\Anaconda3\\lib', 'C:\\Anaconda3', 'C:\\Anaconda3\\lib\\site-packages', 'C:\\Anaconda3\\lib\\site-packages\\Babel-2.5.0-py3.6.egg', 'C:\\Anaconda3\\lib\\site-packages\\win32', 'C:\\Anaconda3\\lib\\site-packages\\win32\\lib', 'C:\\Anaconda3\\lib\\site-packages\\Pythonwin', 'C:\\Anaconda3\\lib\\site-packages\\IPython\\extensions', 'C:\\Users\\Lucian\\.ipython']


Daca se doreste ca un modul scris de utilizator intr-un director ce nu se gaseste in lista de mai sus sa fie accesibil pentru import, atunci calea catre director trebuie adaugata la colectia sys.path:

In [2]:
sys.path.append('.\\my_modules\\')
from mySmartModule import my_sum
print(my_sum([1, 2, 3]))

6


Un modul se poate folosi in doua feluri: 
1. pentru a pune la dispozitie diferite implementari de functii sau de clase, sau variabile setate la anumite valori (de exemplu `math.pi`):
```python
import math
print(math.pi)
```
2. se poate lansa de sine statator, scriind in lina de comanda: `python mySmartModule`. Pentru acest caz, daca se vrea ca sa se execute o anumita secventa de cod, atunci se va folosi:
```python
if __name__ == '__main__':
    #cod care se executa la lansarea directa a script-ului
```

Codul din sectiunea `if` scrisa ca mai sus nu se va executa cand modulul este importat.

Exemplu:
```python
def my_sum(lista):
    sum = 0
    for item in lista:
        sum += item
    return sum
	
if __name__ == '__main__':
	print('Exemplu de utilizare')
	lista = list(range(100))
	print(my_sum(lista))
```

Alte exemple de utilizare de pachete sunt:

In [3]:
import re #pachet pentru expresii regulate
my_string = 'Am cumparat: mere, pere, prune... si caise'
tokens = re.split(r'\W+', my_string)
print(tokens)

['Am', 'cumparat', 'mere', 'pere', 'prune', 'si', 'caise']


In [4]:
# Serializare cu pickle
import pickle

favorite_color = { "lion": "yellow", "kitty": "red" }

pickle.dump( favorite_color, open( "save.pkl", "wb" ) )
del favorite_color #nu mai e necesar

#restaurare
favorite_color_restored = pickle.load( open( "save.pkl", "rb" ) )
print('dupa deserializare:', favorite_color_restored)

!del save.pkl #sterge fisierul pickle de pe disk

dupa deserializare: {'lion': 'yellow', 'kitty': 'red'}


## Pachete Python

Un pachet este o colectie de module. Fizic, un modul este o structura ierarhica de directoare in care se gasesc module si alte pachete. Este obligatoriu ca in orice director care se doreste a fi vazut ca un pachet sa existe un fisier numit `__init__.py`. In prima faza, `__init__.py` poate fi gol. Plecam de la structura de directoare si fisiere:
```
---myUtils\
 |------ mySmartModule.py
 |------ __init__.py
```

Pentru importul functiei `my_sum` din fisierul `mySmartModule.py` aflat in directorul `myUtil` - care se doreste a fi pachet - s-ar scrie astfel:
```python
from myUtils.mySmartModule import my_sum
print(my_sum([1, 2, 3]))
```
dar am prefera sa putem scrie:
```python
from myUtils import my_sum
print(my_sum([1, 2, 30]))
```
adica sa nu mai referim modulul (fisierul) `mySmartModule` din cadrul pachetului `myUtil`. Pentru asta vom adauga in fisierul `__init__.py` din directorul `myUtils` linia:
```python
from .mySmartModule import my_sum 
```
unde caracterul `.` de dinaintea numelui de modul `mySmartModule` se refera la calea relativa. 

In [5]:
from myUtils.mySmartModule import my_sum
print(my_sum([1, 2, 10, 300]))

313


In [6]:
from myUtils import my_sum
print(my_sum([1, 2, 10, 300]))

313


In fisierul `__init__.py` se obisnuieste sa se puna orice are legatura cu initializarea pachetului, cum ar fi incarcarea de date de pe disc in memorie sau setarea unor variabile la valori anume.

Pentru cazul in care se doreste crearea de pachete destinate comunitatii si publicarea pe PyPI, se va urma [acest tutorial](https://python-packaging.readthedocs.io/en/latest/).

## Pachetul NumPy

NumPy (Numerical Python) este pachetul de baza pentru calcule stiintifice in Python. Asigura suport pentru lucrul cu vectori si matrice multidimensionale, functii dedicate precum sortare, operatii din algebra liniara, procesare de semnal, calcule statistice de baza, generare de numere aleatoare etc. NumPy sta la baza multor altor pachete. Datele pe care le proceseaza trebuie sa incapa in memoria RAM. NumPy are la baza cod C compilat si optimizat. 

In destul de multe situatii, datele sunt sau pot fi transformate in numere:
* o imagine in tonuri de gri poate fi vazuta ca o matrice bidimensionala de numere; fiecare numar reprezinta intensitatea pixelului (0 - negru, 255 - alb; frecvent se folosesc valorile scalate in intevalul [0, 1])
![Imagine minsi scalata 0-1](./images/mnist_image.png)
* o imagine color poate fi vazuta ca o matrice cu trei dimensiuni: 3 matrice bidimensionale "paralele", corespunzatoare canalelor red, green, blue; pentru fiecare canal de culoare valorile pot fi intre 0 si 255:
![Imagine RGB descompusa in 3 canale](./images/rgb_image.png)
* un fisir audio este vazut ca unul/doi/$k$ vectori dimensionali, corespunzatoare cazurilor: mono, stereo, $k$ canale. Valorile numerice in cazul unui fisier wav reprezinta amplitudinea sunetului;:
![sunet](./images/sound.png)
* un text poate fi tradus in vectori numerici prin tehnici precum [Bag of words](https://en.wikipedia.org/wiki/Bag-of-words_model) sau [Word2vec](https://en.wikipedia.org/wiki/Word2vec).

Reprezentarea este mult mai eficienta decat pentru listele Python; codul scris cu NumPy apeleaza biblioteci compilate in cod nativ. Daca codul este scris vectorizat, eficienta rularii e si mai mare. 

Tipul cel mai comun din NumPy este ndarray - n-dimensional array. 

In [7]:
#import de pachet; traditional se foloseste abrevierea np pentru numpy
import numpy as np

#crearea unui vector pornind de la o lista Python
x = np.array([1, 4, 2, 5, 3])

#tipul variabilei x; se observa ca e tip numpy
print(type(x)) 
#toate elementele din array sunt de acelasi tip
print(x.dtype) 

#specificarea explicita a tipului de reprezentare a datelor in array
y = np.array([1, 2, 3], dtype=np.float16)
print(y.dtype)

<class 'numpy.ndarray'>
int32
float16


In [8]:
#cazuri frecvent folosite
all_zeros = np.zeros(10, dtype=int)
print(all_zeros)
#tiparire nr de elemente pe fiecare dimensiune
print(all_zeros.shape)

[0 0 0 0 0 0 0 0 0 0]
(10,)


In [9]:
#matrice 2d
mat = np.array([[1, 2, 3], [4, 5, 6]])
print(mat)
print(mat.shape)
print(mat[0, 1])

[[1 2 3]
 [4 5 6]]
(2, 3)
2


Numarul de dimensiuni se determina cu:

In [10]:
print('Numarul de dimensiuni pentru vectorul all_zero:', all_zeros.ndim)
print('Numarul de dimensiuni pentru matricea mat:', mat.ndim)

Numarul de dimensiuni pentru vectorul all_zero: 1
Numarul de dimensiuni pentru matricea mat: 2


iar numarul total de elemente, respectiv dimensiunea in octeti a unui element oarecare (o matrice are elemente de acelasi tip, intotdeauna):

In [11]:
print('mat size: {0}\nmat element size: {1} bytes\nmat.dtype:{2}'.format(mat.size, mat.itemsize, mat.dtype))

mat size: 6
mat element size: 4 bytes
mat.dtype:int32


In [12]:
#cazuri comune
all_ones = np.ones((3, 5))
print(all_ones)
all_pi = np.full((3, 2), np.pi)
print(all_pi)
print(np.eye(3))

[[ 1.  1.  1.  1.  1.]
 [ 1.  1.  1.  1.  1.]
 [ 1.  1.  1.  1.  1.]]
[[ 3.14159265  3.14159265]
 [ 3.14159265  3.14159265]
 [ 3.14159265  3.14159265]]
[[ 1.  0.  0.]
 [ 0.  1.  0.]
 [ 0.  0.  1.]]


In [13]:
#valori echidistante intr-un interval; capetele intervalului fac parte din valorile generate
print(np.linspace(0, 10, 5))

[  0.    2.5   5.    7.5  10. ]


In [14]:
#similar cu functia range din Python: se genereaza de la primul parametru, cu pasul dat de al doilea parametru, ultima vaoare generata fiind strict mai mica decat al doilea parametru
vector_de_valori = np.arange(0, 10, 3)

Se poate modifica forma unui array:

In [15]:
matrice_din_vector = vector_de_valori.reshape((2, 2))
print(matrice_din_vector.shape)
print(vector_de_valori.shape)

(2, 2)
(4,)


In [16]:
#numere aleatoare
x = np.random.random((2, 3))
print(x)

[[ 0.56306846  0.99070538  0.10176576]
 [ 0.82639275  0.25741624  0.17678583]]


Tipurile de date folosibile pentru ndarrays sunt:

| Tip  | Explicatie |
| ---- | -----------|
| bool_ | 	Boolean (True or False) stored as a byte | 
| int_ | 	Default integer type (same as C long; normally either int64 or int32) | 
| intc | 	Identical to C int (normally int32 or int64) | 
| intp | 	Integer used for indexing (same as C ssize_t; normally either int32 or int64) | 
| int8 | 	Byte (-128 to 127) | 
| int16 | 	Integer (-32768 to 32767) | 
| int32 | 	Integer (-2147483648 to 2147483647) | 
| int64 | 	Integer (-9223372036854775808 to 9223372036854775807) | 
| uint8 | 	Unsigned integer (0 to 255) | 
| uint16 | 	Unsigned integer (0 to 65535) | 
| uint32 | 	Unsigned integer (0 to 4294967295) | 
| uint64 | 	Unsigned integer (0 to 18446744073709551615) | 
| float_ | 	Shorthand for float64. | 
| float16 | 	Half precision float: sign bit, 5 bits exponent, 10 bits mantissa | 
| float32 | 	Single precision float: sign bit, 8 bits exponent, 23 bits mantissa | 
| float64 | 	Double precision float: sign bit, 11 bits exponent, 52 bits mantissa | 
| complex_ | 	Shorthand for complex128. | 
| complex64 | 	Complex number, represented by two 32-bit floats (real and imaginary components) | 
| complex128 | 	Complex number, represented by two 64-bit floats (real and imaginary components) |

### Operatii cu ndarrays

Sunt implementate operatiile matematice uzuale din algebra liniara: inmultire cu scalari, adunare, scadere, inmultire de matrice.

Exemple:
adunare
produs hadamard, produs matricial, produs scalar


In [17]:
#inmultire cu scalar
a = np.array([[1, 2, 3], [4, 5, 6]])
print('a=\n', a)
b = a * 10
print('b=\n', b)

a=
 [[1 2 3]
 [4 5 6]]
b=
 [[10 20 30]
 [40 50 60]]


In [18]:
#adunare, scadere: +, -
suma = a + b
print(suma)
diferenta = a - b
print(diferenta)

[[11 22 33]
 [44 55 66]]
[[ -9 -18 -27]
 [-36 -45 -54]]


Operatorul de inmultire \* este implementat altfel decat in algebra liniara: pentru doua matrice cu aceleasi dimensiuni se face inmultirea elementelor aflate pe pozitii identice, adica: c[i, j] = a[i, j] * b[i, j]. Este asa numitul produs Hadamard, frecvent intalnit in machine learning.

In [19]:
#inmultirea folosind * duce la inmultire element cu element (produs Hadamard): c[i, j] = a[i, j] * b[i, j]
c = a*b
print(c)
for i in range(c.shape[0]):  #c.shape[0] = numarul de linii ale matricei c
    for j in range(c.shape[1]): #c.shape[1] = numarul de coloane ale matricei c
        print(c[i, j] == a[i, j] * b[i, j])

[[ 10  40  90]
 [160 250 360]]
True
True
True
True
True
True


Operatiile folosesc biblioteci de algebra liniare, optimizate pentru microprocesoarele actuale. Se recomanda folosirea acestor implementari in loc de a face operatiile manual cu ciclari `for`:

In [20]:
#creare de matrice
matrix_shape = (100, 100)
a_big = np.random.random(matrix_shape)
b_big = np.random.random(matrix_shape)

In [21]:
%%timeit
c_big = np.empty_like(a_big)
for i in range(c_big.shape[0]):
    for j in range(c_big.shape[1]):
        c_big[i, j] = a_big[i, j] * b_big[i, j]

21.2 ms ± 3.18 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [22]:
%%timeit
c_big = a_big * b_big

26.7 µs ± 3.26 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [23]:
#'ridicarea la putere' folosind ** : fiecare element al matriei este ridicat la putere
print('matricea initiala:\n', a)
putere = a ** 2
print('dupa ridicarea la puterea 2:\n', putere)
putere_3 = np.power(a, 3)
print('dupa ridicarea la puterea 3:\n', putere_3)

matricea initiala:
 [[1 2 3]
 [4 5 6]]
dupa ridicarea la puterea 2:
 [[ 1  4  9]
 [16 25 36]]
dupa ridicarea la puterea 3:
 [[  1   8  27]
 [ 64 125 216]]


Se poate folosi operatorul / pentru a face impartirea punctuala (element cu element) a valorilor din doua matrice:

In [24]:
print('a=', a)
print('b=', b)
print('a/b=', a/b)

a= [[1 2 3]
 [4 5 6]]
b= [[10 20 30]
 [40 50 60]]
a/b= [[ 0.1  0.1  0.1]
 [ 0.1  0.1  0.1]]


In [25]:
#ridicarea la putere a unei matrice patratice, asa cum e definita in algebra liniara:
patratica = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
ridicare_la_putere = np.linalg.matrix_power(patratica, 3)
print(ridicare_la_putere)

[[ 468  576  684]
 [1062 1305 1548]
 [1656 2034 2412]]


Daca se apeleaz o functie matematica definita in NumPy pe un ndarray, rezultatul va fi tot un ndarray de aceeasi forma ca si intrarea, dar cu elementele calculate prin aplicarea functiei respective:

In [26]:
x = np.arange(6).reshape(2, 3)
print(x)
y = np.exp(x)
assert x.shape == y.shape
for i in range(0, x.shape[0]):
    for j in range(0, x.shape[1]):
        assert y[i, j] == np.exp(x[i, j])

[[0 1 2]
 [3 4 5]]


In [27]:
#produs algebric de matrice:
a = np.random.rand(3, 5)
b = np.random.rand(5, 10)
assert a.shape[1] == b.shape[0]
c = np.dot(a, b)
# se poate scrie echivalent
c = a.dot(b)
assert a.shape[0] == c.shape[0] and b.shape[1] == c.shape[1]

NumPy defineste o serie de functii ce pot fi utilizate: `all, any, apply_along_axis, argmax, argmin, argsort, average, bincount, ceil, clip, conj, corrcoef, cov, cross, cumprod, cumsum, diff, dot, floor, inner, inv, lexsort, max, maximum, mean, median, min, minimum, nonzero, outer, prod, re, round, sort, std, sum, trace, transpose, var, vdot, vectorize, where` - [documentate aici](https://docs.scipy.org/doc/numpy-dev/reference/generated/).

## Indexare 

http://cs231n.github.io/python-numpy-tutorial/#numpy-array-indexing

https://www.tutorialspoint.com/numpy/numpy_indexing_and_slicing.htm

https://www.tutorialspoint.com/numpy/numpy_advanced_indexing.htm

https://www.learnpython.org/en/Numpy_Arrays



## Broadcasting

https://www.tutorialspoint.com/numpy/numpy_broadcasting.htm


## Vectorizare

Exemple: https://www.kdnuggets.com/2017/11/forget-for-loop-data-science-code-vectorization.html 

## Grafice cu Matplotlib