# Curs 2: Module si pachete Python, NumPy, grafice

## Module

Modulele sunt fisiere Python cu extensia .py, in care se gasesc implementari de functii, clase, variabile. Importarea unui modul se face cu instructiunea `import`. 

Exemplu: cream un modul care contine o functie ce calculeaza suma elementelor dintr-o lista data ca parametru:

#fisierul mySmartModule.py
```python
def my_sum(lista):
    sum = 0
    for item in lista:
        sum += item
    return sum
```

Utilizarea se face cu:
```python
import mySmartModule

lista = [1, 2, 3]

suma = mySmartModule.my_sum(lista)
print(suma)
```

Se poate ca modulul sa fie importat cu un nume mai scurt, sub forma:
```python
import mySmartModule as msm
```
si in acest caz apelul se face cu:
```python
suma = msm.my_sum(lista)
```

Putem afla ce pune la dispozitie un modul:
```python
>>> dir(msm)
['__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', 'my_sum']
```

Daca se doreste ca tot ceea ce e definit intr-un modul sa fie disponibil fara a mai face prefixare cu `nume_modul.nume_entitate`, atunci se poate proceda astfel:
```python
from mySmartModule import *

print(my_sum([1, 2, 3]))
```
Se recomanda insa sa se importe strict acele entitati (functii, tipuri) din modul care sunt utilizate; in felul acesta se evita suprascrierea prin import al altor entitati deja importate:
```python
from mySmartModule import my_sum

print(my_sum([1, 2, 3]))
```

Ordinea de cautare a modulelor este:
1. directorul curent
1. daca nu se gaseste modulul cerut, se cauta in variabila de mediu `PYTHONPATH`
1. daca nu se gaseste modulul cerut, se cauta in calea implicita.

Calea de cautare se gaseste in variabila `path` din modulul sistem `sys`:

In [1]:
import sys
print(sys.path)

['', 'C:\\Anaconda3\\python36.zip', 'C:\\Anaconda3\\DLLs', 'C:\\Anaconda3\\lib', 'C:\\Anaconda3', 'C:\\Anaconda3\\lib\\site-packages', 'C:\\Anaconda3\\lib\\site-packages\\Babel-2.5.0-py3.6.egg', 'C:\\Anaconda3\\lib\\site-packages\\tangent-0.1.0-py3.6.egg', 'C:\\Anaconda3\\lib\\site-packages\\win32', 'C:\\Anaconda3\\lib\\site-packages\\win32\\lib', 'C:\\Anaconda3\\lib\\site-packages\\Pythonwin', 'C:\\Anaconda3\\lib\\site-packages\\IPython\\extensions', 'C:\\Users\\ro1v0393\\.ipython']


Daca se doreste ca un modul scris de utilizator, intr-un director ce nu se gaseste in lista de mai sus, sa fie accesibil pentru import, atunci calea catre director trebuie adaugata la colectia sys.path:

In [2]:
sys.path.append('d:\\work\\school\\cursuri\\Introducere_In_Data_Science\\cursuri\\Curs2\\my_modules\\')
from mySmartModule import my_sum
print(my_sum([1, 2, 3]))

6


Un modul se poate folosi in doua feluri: 
1. pentru a pune la dispozitie diferite implementari de functii sau de clase, sau variabile setate la anumite valori (de exemplu `math.pi`:
```python
import math
print(math.pi)
```
2. se poate lansa de sine statator, folosind: `python mySmartModule`. Pentru acest caz, daca se vrea ca sa se execute o anumita secventa de cod, atunci se va folosi:
```python
if __name__ == '__main__':
    #cod care se executa la lansarea directa a script-ului
```

Exemplu:
```python
def my_sum(lista):
    sum = 0
    for item in lista:
        sum += item
    return sum
	
if __name__ == '__main__':
	print('Exemplu de utilizare')
	lista = list(range(100))
	print(my_sum(lista))
```

Alte exemple de utilizare de pachete sunt:

In [3]:
import re #pachet pentru expresii regulate
my_string = 'Am cumparat: mere, pere, prune... si caise'
tokens = re.split(r'\W+', my_string)
print(tokens)

['Am', 'cumparat', 'mere', 'pere', 'prune', 'si', 'caise']


In [4]:
# Serializare cu pickle
import pickle

favorite_color = { "lion": "yellow", "kitty": "red" }

pickle.dump( favorite_color, open( "save.pkl", "wb" ) )

#restaurare
favorite_color = None
print(favorite_color)
favorite_color = pickle.load( open( "save.pkl", "rb" ) )
print('dupa deserializare:', favorite_color)

# !del save.pkl #delete file

None
dupa deserializare: {'lion': 'yellow', 'kitty': 'red'}


## Pachete Python

Un pachet este ostructura ierarhica de directoare in care se gasesc module si subpachete. Este obligatoriu ca in orice director care se doreste a fi vazut ca un pachet sa existe un fisier numit `__init__.py`. In prima faza, `__init__.py` poate fi gol. Plecam de la structura de directoare si fisiere:
```
---myUtils\
 |------ mySmartModule.py
 |------ __init__.py
```

Pentru importul functiei `my_sum` din fisierul `mySmartModule.py` aflat in directorul `myUtil` - care se doreste a fi pachet - s-ar scrie astfel:
```python
from myUtils.mySmartModule import my_sum
print(my_sum([1, 2, 3]))
```
dar am prefera sa putem scrie:
```python
from myUtils import my_sum
print(my_sum([1, 2, 30]))
```
adica sa nu mai referim modulul din cadrul pachetului `myUtil`. Pentru asta vom adauga in fisierul `__init__.py` din directorul `myUtils` linia:
```python
from .mySmartModule import my_sum 
```
unde caracterul `.` de dinaintea numelui de modul `mySmartModule` se refera la calea relativa. 

In [5]:
# from myUtils.mySmartModule import my_sum
# print(my_sum([1, 2, 30]))

In [6]:
from myUtils import my_sum
print(my_sum([1, 2, 30]))

33


In fisierul `__init__.py` se obisnuieste sa se puna orice are legatura cu initializarea pachetului, cum ar fi incarcarea de date de pe disc in memorie, setarea unor variabile la valori anume, 

Pentru cazul in care se doreste crearea de pachete destinate comunitatii si publicarea pe PyPI, se va urma [acest tutorial](https://python-packaging.readthedocs.io/en/latest/).

## Pachetul NumPy

NumPy este pachetul de baza pentru calcule stiintifice in Python. Asigura suport pentur lucrul cu vectori si matrice multidimensionale, operatii optimizate pentru ele, precum sortare, operatii din algebra liniara, procesare de semnal, operatii statistice de baza, generare de numere aleatoare etc. Sta la baza multor altor pachete. Datele pe care le proceseaza trebuie sa incapa in memoria RAM. Numpy are la baza cod C compilat si optimizat. 

In destul de multe situatii, datele sunt sau pot fi transformate in numere:
* o imagine in tonuri de gri poate fi vazuta ca o matrice bidimensionala de numere; fiecare numar reprezinta intensitatea pixelului (0 - negru, 255 - alb)
* o imagine color poate fi vazuta ca o matrice cu trei dimensiuni: 3 matrice bidimensionale "paralele", corespunzatoare canalelor red, green, blue; pentru fiecare canal de culoare valorile pot fi intre 0 si 255;
* un fisir audio este vazut ca unul/doi/k vectori dimensionali, corespunzatoare cazurilor: mono, stereo, k canale. Valorile numerice in cazul unui fisier wav reprezinta amplitudinea sunetului;
* un text poate fi tradus in vectori numerici prin tehnici precum [Bag of words](https://en.wikipedia.org/wiki/Bag-of-words_model) sau [Word2vec](https://en.wikipedia.org/wiki/Word2vec).

Reprezentarea este mult mai eficienta decat pentru listele Python; codul scris cu NumPy apeleaza biblioteci compilate in cod nativ. Daca codul este scris vectorizat, eficienta rularii e si mai mare. 

Tipul cel mai comun din NumPy este ndarray - n-dimensional array. 

In [10]:
#import de pachet; traditional se foloseste abrevierea np pentru numpy
import numpy as np

#crearea unui vector pornind de la o lista Python
x = np.array([1, 4, 2, 5, 3])

#tipul variabilei x; se observa ca e tip numpy
print(type(x)) 
#toate elementele din array sunt de acelasi tip
print(x.dtype) 

#specificarea explicita a tipului de reprezentare a datelor in array
y = np.array([1, 2, 3], dtype=np.float16)
print(y.dtype)

<class 'numpy.ndarray'>
int32
float16


In [14]:
#cazuri frecvente
all_zeros = np.zeros(10, dtype=int)
print(all_zeros)
#tiparire nr de elemente pe fiecare dimensiune
print(all_zeros.shape)

[0 0 0 0 0 0 0 0 0 0]
(10,)


In [13]:
#matrice 2d
mat = np.array([[1, 2, 3], [4, 5, 6]])
print(mat.shape)
print(mat[0, 1])

(2, 3)
2


In [24]:
#cazuri comune
all_ones = np.ones((3, 5))
print(all_ones)
all_pi = np.full((3, 2), np.pi)
print(all_pi)
print(np.eye(3))

[[ 1.  1.  1.  1.  1.]
 [ 1.  1.  1.  1.  1.]
 [ 1.  1.  1.  1.  1.]]
[[ 3.14159265  3.14159265]
 [ 3.14159265  3.14159265]
 [ 3.14159265  3.14159265]]
[[ 1.  0.  0.]
 [ 0.  1.  0.]
 [ 0.  0.  1.]]


In [23]:
#valori echidistante intr-un interval
print(np.linspace(0, 10, 5))

[  0.    2.5   5.    7.5  10. ]


In [20]:
#numere aleatoare
x = np.random.random((2, 3))
print(x)

[[ 0.8076938   0.04258628  0.6705331 ]
 [ 0.7553333   0.94446315  0.63181375]]


Tipurile de date folosibile pentru ndarrays sunt:

| Tip  | Explicatie |
| ---- | -----------|
| bool_ | 	Boolean (True or False) stored as a byte | 
| int_ | 	Default integer type (same as C long; normally either int64 or int32) | 
| intc | 	Identical to C int (normally int32 or int64) | 
| intp | 	Integer used for indexing (same as C ssize_t; normally either int32 or int64) | 
| int8 | 	Byte (-128 to 127) | 
| int16 | 	Integer (-32768 to 32767) | 
| int32 | 	Integer (-2147483648 to 2147483647) | 
| int64 | 	Integer (-9223372036854775808 to 9223372036854775807) | 
| uint8 | 	Unsigned integer (0 to 255) | 
| uint16 | 	Unsigned integer (0 to 65535) | 
| uint32 | 	Unsigned integer (0 to 4294967295) | 
| uint64 | 	Unsigned integer (0 to 18446744073709551615) | 
| float_ | 	Shorthand for float64. | 
| float16 | 	Half precision float: sign bit, 5 bits exponent, 10 bits mantissa | 
| float32 | 	Single precision float: sign bit, 8 bits exponent, 23 bits mantissa | 
| float64 | 	Double precision float: sign bit, 11 bits exponent, 52 bits mantissa | 
| complex_ | 	Shorthand for complex128. | 
| complex64 | 	Complex number, represented by two 32-bit floats (real and imaginary components) | 
| complex128 | 	Complex number, represented by two 64-bit floats (real and imaginary components) |

## Grafice cu Matplotlib