# Curs 3: Pachetul Pandas, reprezentari grafice, statistici de baza

## 3.1. Pandas

Desi NumPy are facilitati pentru incarcarea de date in format CSV, se prefera in practica utilizarea pachetului Pandas:

In [1]:
import pandas as pd
print(pd.__version__)

import numpy as np

0.22.0


### Pandas Series

O serie Pandas este un vector unidimensional de date indexate. 

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

Valorile se obtin folosind atributul values, returnand un NumPy array:

In [None]:
...

Indexul se obtine prin atributul index. In cadrul unui obiect `Series` sau al unui `DataFrame` este util pentru adresarea datelor.

In [None]:
...

Specificarea unui index pentru o serie se poate face la instantiere:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])

In [None]:
data.values

In [None]:
data.index

In [None]:
data['b']

Analogia dintre un obiect `Series` si un dictionar clasic Python poate fi speculata in crearea unui obiect Series plecand de la un dictionar:

In [None]:
geografie_populatie = {'Romania': 19638000, 'Franta': 67201000, 'Grecia': 11183957}
populatie = pd.Series(geografie_populatie)
populatie

In [None]:
populatie.index

In [None]:
populatie['Grecia']

In [None]:
# populatie['Germania'] 
# eroare: KeyError: 'Germania'

Daca nu se specifica un index la crearea unui obiect `Series`, atunci implicit acesta va fi format pe baza secventei de intregi 0, 1, 2, ...

Nu e obligatoriu ca o serie sa contina doar valori numerice:

In [None]:
s1 = pd.Series(['rosu', 'verde', 'galben', 'albastru'])
print(s1)
print('s1[2]=', s1[2])

### Selectarea datelor in serii

Datele dintr-o serie pot fi referite prin intermediul indexului:

In [None]:
data = pd.Series(np.linspace(0, 75, 4), index=['a', 'b', 'c', 'd'])
...

Se poate face modificarea datelor dintr-o serie folosind indexul:

In [None]:
#modificare
...
print(data)

Se poate folosi slicing:

In [None]:
...

sau se pot folosi expresii logice:

In [None]:
data[(data > 30) & (data < 70)] #se remarca returnarea in rezultat a indicilor care satisfac proprietatea ceruta

Se prefera folosirea urmatoarelor atribute de indexare: `loc`, `iloc`. Indexarea prin `ix`, daca se regaseste prin tutoriale mai vechi, se considera a fi sursa de confuzie si se recomanda evitarea ei.

Atributul `loc` permite indicierea folosind valoarea de index. 

In [None]:
data = pd.Series([1, 2, 3], index=['a', 'b', 'c'])

data

In [None]:
#cautare dupa index cu o singura valoare
...

In [None]:
#cautare dupa index cu o doua valori. Lista interioara este folosita pentru a stoca o colectie de valori de indecsi.
...

Atributul `iloc` este folosit pentru a face referire la linii dupa pozitia (numarul) lor. Numerotarea incepe de la 0. 

In [None]:
...

In [None]:
...

### DataFrame

Un obiect `DataFrame` este o colectie de coloane de tip `Series`. Numarul de elemente din fiecare serie este acelasi. 

In [None]:
geografie_suprafata = {'Romania': 238397, 'Franta': 640679, 'Grecia': 131957}

geografie_moneda = {'Romania': 'RON', 'Franta': 'EUR', 'Grecia': 'EUR'}

geografie = pd.DataFrame({'Populatie' : geografie_populatie, 'Suprafata' : geografie_suprafata, 'Moneda' : geografie_moneda})

print(geografie)

In [None]:
#afisare index

Atributul `columns` da lista de coloane:

In [None]:
...

Referirea la o serie care compune o coloana din DataFrame se face astfel

In [None]:
print(geografie['Populatie'])
print('*********************')
print(type(geografie['Populatie']))

Crearea unui obiect DataFrame se poate face pornind si de la o singura serie:

In [None]:
mydf = pd.DataFrame([1, 2, 3], columns=['values'])
mydf

... sau se poate crea pornind de la o lista de dictionare:

In [None]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)

Daca lipsesc chei din vreunul din dictionare, respectiva valoare se va umple cu 'NaN'.

In [None]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Instantierea unui DataFrame se poate face si de la un NumPy array:

In [None]:
pd.DataFrame(np.random.rand(3, 2), columns=['Col1', 'Col2'], index=['a', 'b', 'c'])

Se poate adauga o coloana noua la un DataFrame, similar cu adaugarea unui element (cheie, valoare) la un dictionar: 

In [None]:
geografie['Densitatea populatiei'] = geografie['Populatie'] / geografie['Suprafata']

geografie

Un obiect DataFrame poate fi transpus cu atributul `T`:

In [None]:
geografie.T

### Selectarea datelor intr-un `DataFrame`

S-a demonstrat posibilitatea de referire dupa numele de coloana:

In [None]:
print(geografie)

In [None]:
print(geografie['Moneda'])

Daca numele unei coloane este un string fara spatii, se poate folosi acesta ca un atribut:

In [None]:
...

Se poate face referire la o coloana dupa indicele ei, indirect:

In [None]:
geografie[geografie.columns[0]]

Pentru cazul in care un DataFrame nu are nume de coloana, ele sunt implicit intregii 0, 1, ... si se pot folosi pentru selectarea de coloana folosind paranteze drepte:

In [None]:
my_data = pd.DataFrame(np.random.rand(3, 4))

my_data

In [None]:
my_data[0]

Atributul `values` returneaza un obiect ndarray continand valori. Tipul unui ndarray este cel mai specializat tip de date care poate sa contina valorile din DataFrame:

In [None]:
#afisare ndarray si tip pentru my_data.values
print(my_data.values)
print(my_data.values.dtype)

In [None]:
#afisare ndarray si tip pentru geografie.values
print(geografie.values)
print(geografie.values.dtype)

Indexarea cu `iloc` in cazul unui obiect `DataFrame` permite precizarea a doua valori: prima reprezinta linia si al doilea coloana, numerotate de la 0. Pentru linie si coloana se poate folosi si slicing:

In [None]:
print(geografie)

geografie.iloc[0:2, 2:4]

Indexarea cu `loc` permite precizarea valorilor de indice si respectiv nume de coloana:

In [None]:
print(geografie)

geografie.loc[['Franta', 'Romania'], 'Populatie':'Densitatea populatiei']

Se permite folosirea de expresii de filtrare à la NumPy:

In [None]:
geografie.loc[geografie['Densitatea populatiei'] > 83, ['Populatie', 'Moneda']]

Folosind indicierea, se pot modifica valorile dintr-un `DataFrame`:

In [None]:
#Modificarea populatiei Greciei cu iloc
geografie.iloc[1, 1] = 12000000
print(geografie)

In [None]:
#Modificarea populatiei Greciei cu loc
geografie.loc['Grecia', 'Populatie'] = 11183957
print(geografie) 

Precizari:
1. daca se foloseste un singur indice la un DataFrame, atunci se considera ca se face referire la coloana:
```Python
geografie['Moneda']
```
1. daca se foloseste slicing, acesta se refera la liniile din DataFrame:
```Python
geografie['Franta':'Romania']
```
1. operatiile logice se considera ca refera de asemenea linii din DataFrame:
```Python
geografie[geografie['Densitatea populatiei'] > 83]
```

In [None]:
geografie[geografie['Densitatea populatiei'] > 83]

## Operarea pe date

Se pot aplica functii NumPy peste obiecte Series si DataFrame. Rezultatul este de acelasi tip ca obiectul peste care se aplica iar indicii se pastreaza:

In [None]:
ser = pd.Series(np.random.randint(low=0, high=10, size=(5)), index=['a', 'b', 'c', 'd', 'e'])
ser

In [None]:
#calcul de valoare exponentiala pe serie
...

In [None]:
my_df = pd.DataFrame(data=np.random.randint(low=0, high=10, size=(3, 4)), \
                     columns=['Sunday', 'Monday', 'Tuesday', 'Wednesday'], \
                    index=['a', 'b', 'c'])
print('Originar:', my_df)
print('Transformat:', np.exp(my_df))

Pentru functii binare se face alinierea obiectelor Series sau DataFrame dupa indexul lor. Aceasta poate duce la operare cu valori NaN si in consecinta obtinere de valori NaN.

In [None]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662, 'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193, 'New York': 19651127}, name='population')

In [None]:
population / area

In cazul unui DataFrame, alinierea se face atat pentru coloane, cat si pentru indecsii folositi la linii:

In [None]:
A = pd.DataFrame(data=np.random.randint(0, 10, (2, 3)), columns=list('ABC'))
B = pd.DataFrame(data=np.random.randint(0, 10, (3, 2)), columns=list('BA'))

A

In [None]:
B

In [None]:
A + B

Daca se doreste umplerea valorilor NaN cu altceva, se poate specifica parametrul fill_value pentru functii care implementeaza operatiile aritmetice:


| Operator      | Metoda Pandas|
| ------------- |--------------|
| +             | `add()`     |
| -             | `sub()`, `substract()`|
| *             | `mul()`, `multiply()` |
|/              | `truediv()`, `div()`, `divide()`|
|//             | `floordiv()`|
|%              | `mod()`     |
|**|`pow()`|
-------------------
Daca ambele pozitii au valori lipsa (NaN), atunci [valoarea finala va fi si ea lipsa](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.add.html).

Exemplu:

In [None]:
A

In [None]:
B

In [None]:
A.add(B, fill_value=0)

## Valori lipsa

Pentru cazul in care valorile dintr-o coloana a unui obiect DataFrame sunt de tip numeric, valorile lipsa se reprezinta prin NaN - care e suportat doar de tipurile in virgula mobila, nu si de intregi; aceasta din ultima observatie arata ca numerele intregi sunt convertite la floating point daca intr-o lista care le contine se afla si valori lipsa:

In [None]:
my_series = pd.Series([1, 2, 3, None, 5], name='my_series')
#echivalent:
my_series = pd.Series([1, 2, 3, np.NaN, 5], name='my_series')
my_series

Functiile care se pot folosi pentru un DataFrame pentru a operare cu valori lipsa sunt:


In [None]:
df = pd.DataFrame([[1, 2, np.NaN], [np.NAN, 10, 20]])
df

`isnull()` - returneaza o masca de valori logice, cu `True` (`False`) pentru pozitiile unde se afla valori nule (respectiv: nenule); nul = valoare lipsa.  

In [None]:
df.isnull()

`notnull()` - opusul functiei precedente

`dropna()` - returneaza o varianta filtrata a obiectuilui DataFrame. E posibil sa duca la un DataFrame gol. 

In [None]:
df.dropna()

In [None]:
df.iloc[0] = [3, 4, 5]
print(df)
df.dropna()

`fillna()` umple valorile lipsa dupa o anumita politica:

In [None]:
df = pd.DataFrame([[1, 2, np.NaN], [np.NAN, 10, 20]])
df

In [None]:
#umplere de NaNuri cu valoare constanta
df2 = df.fillna(value = 100)
df2

In [None]:
#umplere de NaNuri cu media pe coloana corespunzatoare
df = pd.DataFrame(data = np.random.randn(5, 3), columns=['A', 'B', 'C'])
df.iloc[0, 2] = df.iloc[1, 1] = df.iloc[2, 0] = df.iloc[4, 1] = np.NAN
df

In [None]:
#calcul medie pe coloana
df.mean(axis=0)

In [None]:
df3 = df.fillna(df.mean(axis=0))
df3

Exista un parametru al functiei `fillna()` care permite [umplerea valorilor lipsa prin copiere](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html): 

In [None]:
my_ds = pd.Series(np.arange(0, 30))
my_ds[1:-1:4] = np.NaN
my_ds

In [None]:
# copierea ultimei valori non-null
my_ds_filled_1 = my_ds.fillna(method='ffill')
my_ds_filled_1

In [None]:
# copierea inapoi a urmatoarei valori non-null
my_ds_filled_2 = my_ds.fillna(method='bfill')
my_ds_filled_2

Pentru DataFrame, procesul este similar. Se poate specifica argumentul axis care spune daca procesarea se face pe linii sau pe coloane:

In [None]:
df = pd.DataFrame([[1, np.NAN, 2, np.NAN], [2, 3, 5, np.NaN], [np.NaN, 4, 6, np.NaN]])
df

In [None]:
#Umplere, prin parcurgere pe linii
df.fillna(method='ffill', axis = 1)

In [None]:
#Umplere, prin parcurgere pe fiecare coloana
df.fillna(method='ffill', axis = 0)

## Combinarea de obiecte Series si DataFrame

Cea mai simpla operatie este de concatenare:

In [None]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

Pentru cazul in care valori de index se regasesc in ambele serii de date, indexul se va repeta:

In [None]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[3, 4, 5])
ser_concat = pd.concat([ser1, ser2])
ser_concat

In [None]:
ser_concat.loc[3]

Pentru cazul in care se doreste verificarea faptului ca indecsii sunt unici, se poate folosi parametrul `verify_integrity`:

In [None]:
try:
    ser_concat = pd.concat([ser1, ser2], verify_integrity=True)
except ValueError as e:
    print('Value error', e)

Pentru concatenarea de obiecte `DataFrame` care au acelasi set de coloane (pentru moment):

In [None]:
#sursa: ref 1 din Curs 1
def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind] for c in cols}
    return pd.DataFrame(data, ind)

In [None]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
print(df1); print(df2);

In [None]:
#concatenare simpla
pd.concat([df1, df2])

Concatenarea se poate face si pe orizontala:

In [None]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
print(df3); print(df4);

In [None]:
#concatenare pe axa 1
pd.concat([df3, df4], axis=1)

Pentru indici duplicati, comportamentul e la fel ca la `Series`: se pastreaza duplicatele si datele corespunzatoare:

In [None]:
x = make_df('AB', [0, 1])
y = make_df('AB', [0, 1])
print(x); print(y);

In [None]:
print(pd.concat([x, y]))

In [None]:
try:
    df_concat = pd.concat([x, y], verify_integrity=True)
except ValueError as e:
    print('Value error', e)

Daca se doreste ignorarea indecsilor, se poate folosi indicatorul `ignore_index`:

In [None]:
df_concat = pd.concat([x, y], ignore_index=True)
df_concat

Pentru cazul in care obiectele `DataFrame` nu au exact aceleasi coloane, concatenarea poate duce la rezultate de forma:

In [None]:
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
print(df5); print(df6);

In [None]:
print(pd.concat([df5, df6]))

De regula se vrea operatia de concatenare (join) pe obiectele DataFrame cu coloane diferite. O prima varianta este pastrarea doar a coloanelor partajate, ceea ce in Pandas este vazut ca un inner join (se remarca o necorespondenta cu terminologia din limbajul SQL):

In [None]:
print(df5); print(df6);

In [None]:
#concatenare cu inner join
pd.concat([df5, df6], join='inner')

Alta varianta este specificarea explicita a coloanelor care rezista in urma concatenarii, via parametrul `join_axes`:

In [None]:
print(df5); print(df6);

In [None]:
pd.concat([df5, df6], join_axes=[df5.columns])

Pentru implementarea de jonctiuni à la SQL se foloseste metoda `merge`. Ce mai simpla este inner join: rezulta liniile din obiectele `DataFrame` care au corespondent in ambele parti. Coloanele pentru care se cauta echivalenta se gasesc automat pe baza numelor lor identice:

In [None]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
'hire_date': [2004, 2008, 2012, 2014]})
print(df1)
print(df2)

In [None]:
df3=pd.merge(df1, df2)
df3

In [None]:
df3 = pd.DataFrame({'employee': ['Jake', 'Lisa', 'Sue'],
'group': ['Engineering', 'Engineering', 'HR']})
df4 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Sue'],
'hire_date': [2008, 2012, 2014]})
print(df3)
print(df4)

#demo inner join: raman doar 2 linii dupa jonctiune
pd.merge(df3, df4)

Se pot face asa-numite jonctiuni `many-to-one`, dar care nu sunt decat inner join. Mentionam si exemplificam insa pentru terminologie:

In [None]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
'supervisor': ['Carly', 'Guido', 'Steve']})

print(df3)
print(df4)

In [None]:
pd.merge(df3, df4)

Asa-numite jonctiuni *many-to-many* se obtin pentru cazul in care coloana dupa care se face jonctiunea contine duplicate:

In [None]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting',
'Engineering', 'Engineering', 'HR', 'HR'],
'skills': ['math', 'spreadsheets', 'coding', 'linux',
'spreadsheets', 'organization']})
print(df1)
print(df5)


In [None]:
print(pd.merge(df1, df5))

Implicit, coloanele care participa la jonctiune sunt acelea care au acelasi nume in obiectele DataFrame care se jonctioneaza. Daca numele nu se potrivesc, se pot specifica manual de catre programator prin parametrul `on`:

In [None]:
print(df1)
print(df2)

In [None]:
# restrictionare nume de coloana; doar cea precizata este folosita pentru jonctiune
pd.merge(df1, df2, on='employee')

Daca numele sunt diferite, se folosesc parametrii `left_on` si `right_on`. 

In [None]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
'salary': [70000, 80000, 120000, 90000]})

print(df1)
print(df3)

In [None]:
# jonctiune dupa coloane cu nume diferit

pd.merge(df1, df3, left_on='employee', right_on='name')

 Constatam placut suprinsi :) ca valorile din `employee` si `name` coincid. Putem elimina una din ele folosind metoda `drop()` a obiectului `DataFrame` rezultat:

In [None]:
#eliminare de coloana redundanta

pd.merge(df1, df3, left_on='employee', right_on='name').drop('name', axis=1)

### Left, right, outer join

In [None]:
df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'], 'food': ['fish', 'beans', 'bread']},
columns=['name', 'food']) #specificarea parametrului columns este redundanta
df7 = pd.DataFrame({'name': ['Mary', 'Joseph'], 'drink': ['wine', 'beer']},
columns=['name', 'drink']) #idem

In [None]:
print(df6)
print(df7)

Pentru cazul in care se face `merge()`, implicit se face inner join:

In [None]:
pd.merge(df6, df7)

Parametrul `how` arata cum altfel se poate face jonctiunea: `left`, `right` si `outer`.

In [None]:
print(df6)
print(df7)

In [None]:
#outer join: se aduc liniile reunite, unde nu se regasesc valori se completeaza cu NaN
pd.merge(df6, df7, how='outer')

In [None]:
#left join: se aduc toate liniile din partea stanga (primul DataFrame), chiar daca nu au corespondent in partea dreapta. Valorile lipsa se umplu cu NaN
print(df6)
print(df7)
pd.merge(df6, df7, how='left')

### Citirea datelor in format CSV

Pandas ofera posibiliattea de a citi fisiere CSV. Metoda `read_csv()` este versatila datorita parametrilor pe care ii permite:

In [None]:
print(pd.__version__)
help(pd.read_csv)

## Exemplu: date din SUA

Nota: exemplul este preluat din referinta bibliografica [1] din cursul 1. 

Datele folosite sunt de la adresele:
* https://raw.githubusercontent.com/jakevdp/data-USstates/master/state-population.csv
* https://raw.githubusercontent.com/jakevdp/data-USstates/master/state-areas.csv
* https://raw.githubusercontent.com/jakevdp/data-USstates/master/state-abbrevs.csv

In [2]:
pop = pd.read_csv('./data/state-population.csv')
areas = pd.read_csv('./data/state-areas.csv')
abbrevs = pd.read_csv('./data/state-abbrevs.csv')

Vizualizarea primelor randuri din fiecare:

In [None]:
pop.head()

In [None]:
areas.head()

In [None]:
abbrevs.head()

Se cere ordinarea statelor si teritoriilor dupa densitatea de populatie din 2010. Primul pas este jonctionarea datelor de populatie si de abrevieri, pentru ca in tabela de suprafete se foloseste numele intreg al statului.

In [None]:
merged = pd.merge(pop, abbrevs, how='outer', left_on='state/region', right_on='abbreviation')
merged.head()

 Coloana de abrevieri se poate omite din acest moment:

In [None]:
merged = merged.drop('abbreviation', axis=1)
merged.head()

Datele de regula sunt incomplete (cu goluri); de exemplu, se poate ca pentru coloana population sa lipseasca valori:

In [None]:
merged.isnull().any()

Afisarea primelor cazuri in care valorile lipsesc pentru coloana `population` se face cu:

In [None]:
merged[merged['population'].isnull()].head() #PR=Puerto Rico

De asemenea, observam ca exista state pentru care valoarea e nula. Acestea sunt:

In [None]:
merged.loc[merged['state'].isnull(), 'state/region'].unique()

Se umplu valorile de 'state' cu 'Puerto Rico', respectiv 'United States of America' pentru acele cazuri cu 'state/region' 'PR' si respectiv 'USA'

In [None]:
merged.loc[merged['state/region'] == 'PR', 'state'] = 'Puerto Rico'
merged.loc[merged['state/region'] == 'USA', 'state'] = 'United States of America'
merged.isnull().any()

Putem face jonctiune cu colectia de suprafete (arii):

In [None]:
final = pd.merge(merged, areas, on='state', how='left')
final.head()

Verificare daca exista valori de null:

In [None]:
final.isnull().any()

Eliminam liniile pe care se afla valori de null:

In [None]:
final.dropna(inplace=True)
final.head()

Selectam acele cazuri pentru care anul de recensamant este 2010 si se considera toate grupele de varsta = toti locuitorii:

In [None]:
data2010 = final.query("year == 2010 & ages == 'total'")
data2010.head()

Putem face calculul densitatii intr-un obiect `Series` separat. Inainte de asta, e indicat sa se seteze un index pe `data2010`:

In [None]:
data2010.set_index('state', inplace=True)
density = data2010['population'] / data2010['area (sq. mi)']

In [None]:
density.head()

Afisarea celor mai populate regiuni se face cu:

In [None]:
density.sort_values(ascending=False, inplace=True)
density.head()

...iar cele mai putin populate sunt:

In [None]:
density.tail()

%TODO: agregare si grupare, [1] pagina 158 si urmatoarele; operatii cu serii detimp, pag 188+; high performance Pandas, pag 209+

## Reprezentari grafice cu Matplotlib

Reprezentari grafice se pot obtine cu pachetele Seaborn si Matplotlib. 
Traditional, se folosesc urmatoarele importuri pentru pachetul Matplotlib:

In [None]:
%matplotlib inline

import matplotlib as mpl
import matplotlib.pyplot as plt

Se recomanda de asemenea specificarea liniei:
```Python
%matplotlib notebook
```
pentru desene interactive, sau 
```Python
%matplotlib inline
```
pentru includerea de imagini statice in Jupyter notebook. Linia aleasa se prefera a se scrie inainte de importul de `matplotlib`.

In [None]:
x = np.linspace(0, 10, 100)
fig = plt.figure()
plt.plot(x, np.sin(x), '-')
plt.plot(x, np.cos(x), '--'); #se remarca ';' din final

Figurile se pot salva, la dorinta, pe disc:

In [None]:
fig.savefig('trigonometrie.png')
fig.savefig('trigonometrie.jpg')
fig.savefig('trigonometrie.eps')
fig.savefig('trigonometrie.pdf')

Tipurile de imagini in care se poate face salvarea sunt:

In [None]:
fig.canvas.get_supported_filetypes()

Unul din stilurile de scriere foloseste interfata `plt` pentru desenare, inspirat din Matlab:

In [None]:
plt.figure(figsize = (8, 5)) # create a plot figure
# se creeaza primul grafic
plt.subplot(2, 1, 1) # (numar de 'linii' cu grafice, numar de 'coloane' cu grafice, numarul graficului care se deseneaza)
#etichete pe abscisa si ordonata
plt.xlabel('x')
plt.ylabel('sin(x)')
plt.plot(x, np.sin(x))
plt.tight_layout() #pentru a se vedea legenda abscisei

# se creaza al doilea grafic
plt.subplot(2, 1, 2)
plt.xlabel('x')
plt.ylabel('cos(x)')
plt.plot(x, np.cos(x), 'r')
plt.show()

Al doilea stil este orientat pe obiecte:

In [None]:
# se creeaza un grid pentru desenare
# ax va fi un tablou cu cele doua obiecte de tip Axe
fig, ax = plt.subplots(nrows=2, ncols=1, figsize=(10, 6))

# se apeleaza metoda plot() pe obiectul corespunzator
ax[0].plot(x, np.sin(x))
ax[1].plot(x, np.cos(x), 'r');

De regula, axele se auto-scaleaza pentru a cuprinde graficul desenat. Daca se vrea specificarea manuala a dimensiunii graficului, atunci:

In [None]:
plt.style.use('seaborn-whitegrid')
plt.plot(x, np.exp(x))
plt.xlim(-2, 5)
plt.ylim(-1, 30)
plt.title('Reprezentarea functiei $e^x$');