# Curs 3: Pandas DataFrame, reprezentari grafice, statistici de baza

## 3.1. Incarcarea datelor

Desi NumPy are facilitati pentru incarcarea de date in format CSV, se prefera in practica utilizarea pachetului Pandas

In [1]:
import pandas as pd
pd.__version__

import numpy as np

### Pandas Series

O serie Pandas este un vector unidimensional de date indexate. 

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Valorile se obtin folosind atributul values, returnand un NumPy array:

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

Indexul se obtine prin atributul index. In cadrul unui obiect `Series` sau al unui `DataFrame` este util pentru adresarea datelor.

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

Specificarea unui index pentru o serie se poate face la instantiere:

In [5]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])

In [6]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [7]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [8]:
data['b']

0.5

Analogia dintre un obiect `Series` si un dictionar clasic Python poate fi speculata in crearea unui obiect Series plecand de la un dictionar:

In [9]:
geografie_populatie = {'Romania': 19638000, 'Franta': 67201000, 'Grecia': 11183957}
populatie = pd.Series(geografie_populatie)
populatie

Franta     67201000
Grecia     11183957
Romania    19638000
dtype: int64

In [10]:
populatie.index

Index(['Franta', 'Grecia', 'Romania'], dtype='object')

In [11]:
populatie['Grecia']

11183957

In [12]:
# populatie['Germania'] 
# eroare: KeyError: 'Germania'

Daca nu se specifica un index la crearea unui obiect `Series`, atunci implicit acesta va fi format pe baza secventei de intregi 0, 1, 2, ...

Nu e obligatoriu ca o serie sa contina doar valori numerice:

In [13]:
s1 = pd.Series(['rosu', 'verde', 'galben', 'albastru'])
print(s1)
print('s1[2]=', s1[2])

0        rosu
1       verde
2      galben
3    albastru
dtype: object
s1[2]= galben


### Selectarea datelor in serii

Datele dintr-o serie pot fi referite prin intermediul indexului:

In [14]:
data = pd.Series(np.linspace(0, 75, 4), index=['a', 'b', 'c', 'd'])
print(data)
data['b']

a     0.0
b    25.0
c    50.0
d    75.0
dtype: float64


25.0

Se poate face modificarea datelor dintr-o serie folosind indexul:

In [15]:
data['b'] = 300
print(data)

a      0.0
b    300.0
c     50.0
d     75.0
dtype: float64


Se poate folosi slicing:

In [16]:
data['a':'c']

a      0.0
b    300.0
c     50.0
dtype: float64

sau se pot folosi expresii logice:

In [17]:
data[(data > 30) & (data < 70)] #se remarca returnarea in rezultat a indicilor care satisfac proprietatea ceruta

c    50.0
dtype: float64

Se prefera folosirea urmatoarelor atribute de indexare: `loc`, `iloc`. Indexarea prin `ix`, daca se regaseste prin tutoriale mai vechi, se considera a fi sursa de confuzie si se recomanda evitarea ei.

Atributul `loc` permite indicierea folosind valoarea de index. 

In [18]:
data = pd.Series([1, 2, 3], index=['a', 'b', 'c'])

data

a    1
b    2
c    3
dtype: int64

In [19]:
#cautare dupa index cu o singura valoare
data.loc['b']

2

In [20]:
#cautare dupa index cu o doua valori. Lista interioara este folosita pentru a stoca o colectie de valori de indecsi.
data.loc[['a', 'c']]

a    1
c    3
dtype: int64

Atributul `iloc` este folosit pentru a face referire la linii dupa pozitia (numarul) lor. Numerotarea incepe de la 0. 

In [21]:
data.iloc[0]

1

In [22]:
data.iloc[[0, 2]]

a    1
c    3
dtype: int64

### DataFrame

Un obiect `DataFrame` este o colectie de coloane de tip `Series`. Numarul de elemente din fiecare serie este acelasi. 

In [23]:
geografie_suprafata = {'Romania': 238397, 'Franta': 640679, 'Grecia': 131957}

geografie_moneda = {'Romania': 'RON', 'Franta': 'EUR', 'Grecia': 'EUR'}

geografie = pd.DataFrame({'Populatie' : geografie_populatie, 'Suprafata' : geografie_suprafata, 'Moneda' : geografie_moneda})

print(geografie)

        Moneda  Populatie  Suprafata
Franta     EUR   67201000     640679
Grecia     EUR   11183957     131957
Romania    RON   19638000     238397


In [24]:
print(geografie.index)

Index(['Franta', 'Grecia', 'Romania'], dtype='object')


Atributul `columns` da lista de coloane:

In [25]:
geografie.columns

Index(['Moneda', 'Populatie', 'Suprafata'], dtype='object')

Referirea la o serie care compune o coloana din DataFrame se face astfel

In [26]:
print(geografie['Populatie'])
print('*********************')
print(type(geografie['Populatie']))

Franta     67201000
Grecia     11183957
Romania    19638000
Name: Populatie, dtype: int64
*********************
<class 'pandas.core.series.Series'>


Crearea unui obiect DataFrame se poate face pornind si de la o singura serie:

In [27]:
mydf = pd.DataFrame([1, 2, 3], columns=['values'])
mydf

Unnamed: 0,values
0,1
1,2
2,3


... sau se poate crea pornind de la o lista de dictionare:

In [28]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Daca lipsesc chei din vreunul din dictionare, resepctiva valoare se va umple cu 'NaN'.

In [29]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


Instantierea unui DataFrame se poate face si de la un NumPy array:

In [30]:
pd.DataFrame(np.random.rand(3, 2), columns=['Col1', 'Col2'], index=['a', 'b', 'c'])

Unnamed: 0,Col1,Col2
a,0.132754,0.94641
b,0.439115,0.620018
c,0.375383,0.42821


Se poate adauga o coloana noua la un DataFrame, similar cu adaugarea unui element (cheie, valoare) la un dictionar: 

In [31]:
geografie['Densitatea populatiei'] = geografie['Populatie'] / geografie['Suprafata']

geografie

Unnamed: 0,Moneda,Populatie,Suprafata,Densitatea populatiei
Franta,EUR,67201000,640679,104.89028
Grecia,EUR,11183957,131957,84.754556
Romania,RON,19638000,238397,82.375198


Un obiect DataFrame poate fi transpus cu atributul `T`:

In [32]:
geografie.T

Unnamed: 0,Franta,Grecia,Romania
Moneda,EUR,EUR,RON
Populatie,67201000,11183957,19638000
Suprafata,640679,131957,238397
Densitatea populatiei,104.89,84.7546,82.3752


### Selectarea datelor intr-un `DataFrame`

S-a demonstrat posibilitatea de referire dupa numele de coloana:

In [33]:
print(geografie)

        Moneda  Populatie  Suprafata  Densitatea populatiei
Franta     EUR   67201000     640679             104.890280
Grecia     EUR   11183957     131957              84.754556
Romania    RON   19638000     238397              82.375198


In [34]:
print(geografie['Moneda'])

Franta     EUR
Grecia     EUR
Romania    RON
Name: Moneda, dtype: object


Daca numele unei coloane este un string fara spatii, se poate folosi acesta ca un atribut:

In [35]:
geografie.Moneda

Franta     EUR
Grecia     EUR
Romania    RON
Name: Moneda, dtype: object

Se poate face referire la o coloana dupa indicele ei, indirect:

In [36]:
geografie[geografie.columns[0]]

Franta     EUR
Grecia     EUR
Romania    RON
Name: Moneda, dtype: object

Pentru cazul in care un DataFrame nu are nume de coloana, else sunt implicit intregii 0, 1, ... si se pot folosi pentru selectarea de coloana folosind paranteze drepte:

In [37]:
my_data = pd.DataFrame(np.random.rand(3, 4))

my_data

Unnamed: 0,0,1,2,3
0,0.439621,0.284631,0.105714,0.804263
1,0.286076,0.997419,0.266882,0.134506
2,0.384376,0.996615,0.374326,0.681241


In [38]:
my_data[0]

0    0.439621
1    0.286076
2    0.384376
Name: 0, dtype: float64

Atributul `values` returneaza un obiect ndarray continand valori. Tipul unui ndarray este cel mai specializat tip de date care poate sa contina valorile din DataFrame:

In [39]:
#afisare ndarray si tip pentru my_data.values
print(my_data.values)
print(my_data.values.dtype)

[[0.43962102 0.28463054 0.10571369 0.80426303]
 [0.28607605 0.99741882 0.26688226 0.13450586]
 [0.38437595 0.99661508 0.37432636 0.68124089]]
float64


In [40]:
#afisare ndarray si tip pentru geografie.values
print(geografie.values)
print(geografie.values.dtype)

[['EUR' 67201000 640679 104.89028046806591]
 ['EUR' 11183957 131957 84.75455640852702]
 ['RON' 19638000 238397 82.37519767446739]]
object


Indexarea cu `iloc` in cazul unui obiect `DataFrame` permite precizarea a doua valori: prima reprezinta linia si al doilea coloana, numerotate de la 0. Pentru linie si coloana se poate folosi si slicing:

In [41]:
print(geografie)

geografie.iloc[0:2, 2:4]

        Moneda  Populatie  Suprafata  Densitatea populatiei
Franta     EUR   67201000     640679             104.890280
Grecia     EUR   11183957     131957              84.754556
Romania    RON   19638000     238397              82.375198


Unnamed: 0,Suprafata,Densitatea populatiei
Franta,640679,104.89028
Grecia,131957,84.754556


Indexarea cu `loc` permite precizarea valorilor de indice si respectiv nume de coloana:

In [42]:
print(geografie)

geografie.loc[['Franta', 'Romania'], 'Populatie':'Densitatea populatiei']

        Moneda  Populatie  Suprafata  Densitatea populatiei
Franta     EUR   67201000     640679             104.890280
Grecia     EUR   11183957     131957              84.754556
Romania    RON   19638000     238397              82.375198


Unnamed: 0,Populatie,Suprafata,Densitatea populatiei
Franta,67201000,640679,104.89028
Romania,19638000,238397,82.375198


Se permite folosirea de expresii de filtrare à la NumPy:

In [43]:
geografie.loc[geografie['Densitatea populatiei'] > 83, ['Populatie', 'Moneda']]

Unnamed: 0,Populatie,Moneda
Franta,67201000,EUR
Grecia,11183957,EUR


Folosind indicierea, se pot modifica valorile dintr-un `DataFrame`:

In [44]:
#Modificarea populatiei Greciei cu iloc
geografie.iloc[1, 1] = 12000000
print(geografie)

        Moneda  Populatie  Suprafata  Densitatea populatiei
Franta     EUR   67201000     640679             104.890280
Grecia     EUR   12000000     131957              84.754556
Romania    RON   19638000     238397              82.375198


In [45]:
#Modificarea populatiei Greciei cu loc
geografie.loc['Grecia', 'Populatie'] = 11183957
print(geografie) 

        Moneda  Populatie  Suprafata  Densitatea populatiei
Franta     EUR   67201000     640679             104.890280
Grecia     EUR   11183957     131957              84.754556
Romania    RON   19638000     238397              82.375198


Precizari:
1. daca se foloseste un singur indice la un DataFrame, atunci se considera ca se face referire la coloana:
```Python
geografie['Moneda']
```
1. daca se foloseste slicing, acesta se refera la liniile din DataFrame:
```Python
geografie['Franta':'Romania']
```
1. operatiile logice se considera ca refera de asemenea linii din DataFrame:
```Python
geografie[geografie['Densitatea populatiei'] > 83]
```

In [46]:
geografie[geografie['Densitatea populatiei'] > 83]

Unnamed: 0,Moneda,Populatie,Suprafata,Densitatea populatiei
Franta,EUR,67201000,640679,104.89028
Grecia,EUR,11183957,131957,84.754556


## Operarea pe date

Se pot aplica functii NumPy peste obiecte Series si DataFrame. Rezultatul este de acelasi tip ca obiectul peste care se aplica iar indicii se pastreaza:

In [47]:
ser = pd.Series(np.random.randint(low=0, high=10, size=(5)), index=['a', 'b', 'c', 'd', 'e'])
ser

a    6
b    9
c    5
d    0
e    0
dtype: int32

In [48]:
np.exp(ser)

a     403.428793
b    8103.083928
c     148.413159
d       1.000000
e       1.000000
dtype: float64

In [49]:
my_df = pd.DataFrame(data=np.random.randint(low=0, high=10, size=(3, 4)), \
                     columns=['Sunday', 'Monday', 'Tuesday', 'Wednesday'], \
                    index=['a', 'b', 'c'])
print('Originar:', my_df)
print('Transformat:', np.exp(my_df))

Originar:    Sunday  Monday  Tuesday  Wednesday
a       3       1        7          6
b       3       4        4          1
c       0       4        9          9
Transformat:       Sunday     Monday      Tuesday    Wednesday
a  20.085537   2.718282  1096.633158   403.428793
b  20.085537  54.598150    54.598150     2.718282
c   1.000000  54.598150  8103.083928  8103.083928


Pentru functii binare se face alinierea obiectelor Series sau DataFrame dupa indexul lor. Aceasta poate duce la operare cu valori NaN si in consecinta obtinere de valori NaN.

In [50]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662, 'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193, 'New York': 19651127}, name='population')

In [51]:
population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In cazul unui DataFrame, alinierea se face atat pentru coloane, cat si pentru indecsii folositi la linii:

In [52]:
A = pd.DataFrame(data=np.random.randint(0, 10, (2, 3)), columns=list('ABC'))
B = pd.DataFrame(data=np.random.randint(0, 10, (3, 2)), columns=list('BA'))

A

Unnamed: 0,A,B,C
0,2,1,6
1,5,0,3


In [53]:
B

Unnamed: 0,B,A
0,5,0
1,6,5
2,3,6


In [54]:
A + B

Unnamed: 0,A,B,C
0,2.0,6.0,
1,10.0,6.0,
2,,,


Daca se doreste umplerea valorilor NaN cu altceva, se poate specifica parametrul fill_value pentru functii care implementeaza operatiile aritmetice:


| Operator      | Metoda Pandas|
| ------------- |--------------|
| +             | `add()`     |
| -             | `sub()`, `substract()`|
| *             | `mul()`, `multiply()` |
|/              | `truediv()`, `div()`, `divide()`|
|//             | `floordiv()`|
|%              | `mod()`     |
|**|`pow()`|
-------------------
Daca ambele pozitii au valori lipsa (NaN), atunci [valoarea finala va fi si ea lipsa](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.add.html).

Exemplu:

In [55]:
A

Unnamed: 0,A,B,C
0,2,1,6
1,5,0,3


In [56]:
B

Unnamed: 0,B,A
0,5,0
1,6,5
2,3,6


In [57]:
A.add(B, fill_value=0)

Unnamed: 0,A,B,C
0,2.0,6.0,6.0
1,10.0,6.0,3.0
2,6.0,3.0,


## Valori lipsa

Pentru cazul in care valorile dintr-o coloana a unui obiect DataFrame sunt de tip numeric, valorile lipsa se reprezinta prin NaN - care e suportat doar de tipurile in virgula mobila, nu si de intregi; aceasta din ultima observatie arata ca numerele intregi sunt convertite la floating point daca intr-o lista care le contine se afla si valori lipsa:

In [58]:
my_series = pd.Series([1, 2, 3, None, 5], name='my_series')
#echivalent:
my_series = pd.Series([1, 2, 3, np.NaN, 5], name='my_series')
my_series

0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
Name: my_series, dtype: float64

Functiile care se pot folosi pentru un DataFrame pentru a operare cu valori lipsa sunt:


In [59]:
df = pd.DataFrame([[1, 2, np.NaN], [np.NAN, 10, 20]])
df

Unnamed: 0,0,1,2
0,1.0,2,
1,,10,20.0


`isnull()` - returneaza o masca de valori logice, cu `True` (`False`) pentru pozitiile unde se afla valori nule (respectiv: nenule); nul = valoare lipsa.  

In [60]:
df.isnull()

Unnamed: 0,0,1,2
0,False,False,True
1,True,False,False


`notnull()` - opusul functiei precedente

`dropna()` - returneaza o varianta filtrata a obiectuilui DataFrame:

In [61]:
df.dropna()

Unnamed: 0,0,1,2


In [62]:
df.iloc[0] = [3, 4, 5]
print(df)
df.dropna()

     0   1     2
0  3.0   4   5.0
1  NaN  10  20.0


Unnamed: 0,0,1,2
0,3.0,4,5.0


`fillna()` umple valorile lipsa dupa o anumita politica:

In [63]:
df = pd.DataFrame([[1, 2, np.NaN], [np.NAN, 10, 20]])
df

Unnamed: 0,0,1,2
0,1.0,2,
1,,10,20.0


In [64]:
#umplere de NaNuri cu valoare constanta
df2 = df.fillna(value = 100)
df2

Unnamed: 0,0,1,2
0,1.0,2,100.0
1,100.0,10,20.0


In [65]:
np.random.randn(5, 3)

array([[ 1.54964032, -0.8924456 , -0.62926632],
       [ 0.39460991, -0.93734612,  0.49816418],
       [ 0.50802229, -1.12660305, -1.20069525],
       [ 0.59750057, -0.71292347, -2.13110301],
       [ 0.48573068, -0.27863845, -1.567183  ]])

In [66]:
#umplere de NaNuri cu media pe coloana corespunzatoare
df = pd.DataFrame(data = np.random.randn(5, 3), columns=['A', 'B', 'C'])
df.iloc[0, 2] = df.iloc[1, 1] = df.iloc[2, 0] = df.iloc[4, 1] = np.NAN
df

Unnamed: 0,A,B,C
0,0.23067,-3.341383,
1,0.765749,,-0.663889
2,,-0.490362,2.335525
3,-0.333872,-0.855511,-1.21108
4,0.979838,,-0.830583


In [67]:
#calcul medie pe coloana
df.mean(axis=0)

A    0.410596
B   -1.562419
C   -0.092507
dtype: float64

In [68]:
df3 = df.fillna(df.mean(axis=0))
df3

Unnamed: 0,A,B,C
0,0.23067,-3.341383,-0.092507
1,0.765749,-1.562419,-0.663889
2,0.410596,-0.490362,2.335525
3,-0.333872,-0.855511,-1.21108
4,0.979838,-1.562419,-0.830583


Exista un parametru al functiei `fillna()` care permite [umplerea valorilor lipsa prin copiere](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html): 

In [69]:
my_ds = pd.Series(np.arange(0, 30))
my_ds[1:-1:4] = np.NaN
my_ds

0      0.0
1      NaN
2      2.0
3      3.0
4      4.0
5      NaN
6      6.0
7      7.0
8      8.0
9      NaN
10    10.0
11    11.0
12    12.0
13     NaN
14    14.0
15    15.0
16    16.0
17     NaN
18    18.0
19    19.0
20    20.0
21     NaN
22    22.0
23    23.0
24    24.0
25     NaN
26    26.0
27    27.0
28    28.0
29    29.0
dtype: float64

In [70]:
# copierea ultimei valori non-null
my_ds_filled_1 = my_ds.fillna(method='ffill')
my_ds_filled_1

0      0.0
1      0.0
2      2.0
3      3.0
4      4.0
5      4.0
6      6.0
7      7.0
8      8.0
9      8.0
10    10.0
11    11.0
12    12.0
13    12.0
14    14.0
15    15.0
16    16.0
17    16.0
18    18.0
19    19.0
20    20.0
21    20.0
22    22.0
23    23.0
24    24.0
25    24.0
26    26.0
27    27.0
28    28.0
29    29.0
dtype: float64

In [71]:
# copierea inapoi a urmatoarei valori non-null
my_ds_filled_2 = my_ds.fillna(method='bfill')
my_ds_filled_2

0      0.0
1      2.0
2      2.0
3      3.0
4      4.0
5      6.0
6      6.0
7      7.0
8      8.0
9     10.0
10    10.0
11    11.0
12    12.0
13    14.0
14    14.0
15    15.0
16    16.0
17    18.0
18    18.0
19    19.0
20    20.0
21    22.0
22    22.0
23    23.0
24    24.0
25    26.0
26    26.0
27    27.0
28    28.0
29    29.0
dtype: float64

Pentru DataFrame, procesul este similar. Se poate specifica argumentul axis care spune daca procesarea se face pe linii sau pe coloane:

In [75]:
df = pd.DataFrame([[1, np.NAN, 2, np.NAN], [2, 3, 5, np.NaN], [np.NaN, 4, 6, np.NaN]])
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [73]:
#Umplere, prin parcurgere pe linii
df.fillna(method='ffill', axis = 1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,2.0,2.0
1,2.0,3.0,5.0,5.0
2,,4.0,6.0,6.0


In [74]:
#Umplere, prin parcurgere pe coloane
df.fillna(method='ffill', axis = 0)

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,2.0,4.0,6,
