# Curs 3: Pandas

Bibliografie: Python Data Science Handbook, Jake VanderPlas, disponibila [pe pagina autorului](https://jakevdp.github.io/PythonDataScienceHandbook/).
![coperta](./images/PDSH-cover.png)

## Incarcarea datelor

In NumPy se pot manipula colectii matriceale de date, dar se presupune ca toate datele au acelasi tip:

In [3]:
import numpy as np
print(f'NumPy version: {np.__version__}')

NumPy version: 1.19.2


In [5]:
tablou = np.array([[1, 2, 3], [3.5, 2, '10']])
tablou

array([['1', '2', '3'],
       ['3.5', '2', '10']], dtype='<U32')

Pandas permite lucrul cu date in care coloanele pot avea tipuri diferite; prima coloana sa fie de tip intreg, al doilea - datetime etc.  

In [6]:
import pandas as pd
pd.__version__

'1.2.3'

Un exemplu de set de date care combina tipuri: reale si categoriale (caracter) este [Coil 1999 Competition Data Data Set](http://archive.ics.uci.edu/ml/datasets/Coil+1999+Competition+Data). E utila deci existenta tipurilor de tabel care permit coloane de tip eterogen. 

### Pandas Series

O serie Pandas este un vector unidimensional de date indexate. Seriile sunt importante pentru ca o coloana dintr-un Pandas dataframe este o serie. 

In [None]:
data = pd.Series(...)
data

Valorile se obtin folosind atributul values, returnand un NumPy array:

In [None]:
...

Indexul unei serii se obtine prin atributul `index`. In cadrul unui obiect `Series` sau al unui `DataFrame` este util pentru adresarea datelor.

In [None]:
...

Specificarea unui index pentru o serie se poate face la instantiere:

In [None]:
data = pd.Series(...)

In [None]:
data

In [None]:
# afisare valori
data.values

In [None]:
# afisare index
data.index

In [None]:
# adresare prin index

Analogia dintre un obiect `Series` si un dictionar clasic Python poate fi speculata in crearea unui obiect Series plecand de la un dictionar:

In [None]:
geografie_populatie = {'Romania': 19638000, 'Franta': 67201000, 'Grecia': 11183957}
populatie = pd.Series(geografie_populatie)
populatie

In [None]:
populatie.index

In [None]:
populatie['Grecia']

In [None]:
# populatie['Germania'] 
# eroare: KeyError: 'Germania'

Daca nu se specifica un index la crearea unui obiect `Series`, atunci implicit acesta va fi format pe baza secventei de intregi 0, 1, 2, ...

Nu e obligatoriu ca o serie sa contina doar valori numerice:

In [None]:
s1 = pd.Series(['rosu', 'verde', 'galben', 3])
print(s1)
print('s1[2]=', s1[2])

Datele unei serii se vad ca avand toate acelasi tip:

In [None]:
s_tip = pd.Series(['rosu', 1, 1.5])
s_tip

### Selectarea datelor in serii

Datele dintr-o serie pot fi referite prin intermediul indexului:

In [None]:
data = pd.Series(np.linspace(0, 75, 4), index=['a', 'b', 'c', 'd'])
print(data)
...

Se poate face modificarea datelor dintr-o serie folosind indexul:

In [None]:
...
print(data)

Se poate folosi slicing, iar aici, spre deosebire de slicing-ul din NumPy si Python, **<span style="color:blue">se ia inclusiv capatul din dreapta al indicilor:</span>**

In [None]:
data[...]

sau se pot folosi liste de selectie:

In [None]:
data[...]

sau expresii logice:

In [None]:
data[(data > 30) & (data < 80)] # se remarca returnarea in rezultat a indicilor care satisfac proprietatea ceruta

Se prefera folosirea urmatoarelor atribute de indexare: `loc`, `iloc`. Indexarea prin `ix`, daca se regaseste prin tutoriale mai vechi, se considera a fi sursa de confuzie si se recomanda evitarea ei.

Atributul `loc` permite indicierea folosind valoarea de index. 

In [None]:
data = pd.Series([1, 2, 3], index=['a', 'b', 'c'])

data

In [None]:
# cautare dupa index cu o singura valoare
data.....

In [None]:
# cautare dupa index cu o doua valori. Lista interioara este folosita pentru a stoca o colectie de valori de indecsi.
data....

Atributul `iloc` este folosit pentru a face referire la linii dupa pozitia (numarul) lor. Numerotarea incepe de la 0. 

In [None]:
data.iloc[0]

In [None]:
data.iloc[[0, 2]]

### DataFrame

Un obiect `DataFrame` este o colectie de coloane de tip `Series`. Numarul de elemente din fiecare serie este acelasi. 

In [None]:
df = pd.DataFrame([[1, 2, 3], [4, 5, 6]])
df

Se poate ca seriile (coloanele din dataframe) sa fie de tip diferit:

In [None]:
df_mix = ...
df_mix

In [None]:
df_mix.dtypes

Se poate folosi un dictionar cu cheia avand nume de coloane, iar valorile de pe coloane ca liste:

In [None]:
df = pd.DataFrame({'Nume' : ['Ana', 'Dan', 'Maria'], 'Varsta': [20,30, 40]})
df

In [None]:
geografie_suprafata = {'Romania': 238397, 'Franta': 640679, 'Grecia': 131957}

geografie_moneda = {'Romania': 'RON', 'Franta': 'EUR', 'Grecia': 'EUR'}

geografie = pd.DataFrame({'Populatie' : geografie_populatie, 'Suprafata' : geografie_suprafata, 'Moneda' : geografie_moneda})

print(geografie)

In [None]:
print(geografie.index)

Atributul `columns` da lista de coloane din obiectul `DataFrame`:

In [None]:
...

Referirea la o serie care compune o coloana din DataFrame se face astfel

In [None]:
print(geografie['Populatie'])
print('*********************')
print(type(geografie['Populatie']))

Crearea unui obiect DataFrame se poate face pornind si de la o singura serie:

In [None]:
mydf = pd.DataFrame([1, 2, 3], columns=['values'])
mydf

... sau se poate crea pornind de la o lista de dictionare:

In [None]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)

Daca lipsesc chei din vreunul din dictionare, respectiva valoare se va umple cu `NaN`.

In [None]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

In [None]:
pd.DataFrame([{'a': 'aaa', 'b': 'bbb'}, {'b': 'bbb2', 'c': 'cccc'}])

Instantierea unui DataFrame se poate face si de la un NumPy array:

In [None]:
pd.DataFrame(..., columns=..., index=...)

Se poate adauga o coloana noua la un DataFrame, similar cu adaugarea unui element (cheie, valoare) la un dictionar: 

In [None]:
geografie['Densitatea populatiei'] = geografie['Populatie'] / geografie['Suprafata']

geografie

Un obiect DataFrame poate fi transpus cu atributul `T`:

In [None]:
geografie.T

### Selectarea datelor intr-un `DataFrame`

S-a demonstrat posibilitatea de referire dupa numele de coloana:

In [None]:
print(geografie)

In [None]:
print(geografie['Moneda'])

Daca numele unei coloane este un string fara spatii, se poate folosi acesta ca un atribut:

In [None]:
...

Se poate face referire la o coloana dupa indicele ei, indirect:

In [None]:
geografie[geografie.columns[0]]

Pentru cazul in care un DataFrame nu are nume de coloana, ele sunt implicit intregii 0, 1, ... si se pot folosi pentru selectarea de coloana folosind paranteze drepte:

In [None]:
my_data = pd.DataFrame(np.random.rand(3, 4))

my_data

In [None]:
my_data[0]

Atributul `values` returneaza un obiect ndarray continand valori. Tipul unui ndarray este cel mai specializat tip de date care poate sa contina valorile din DataFrame:

In [None]:
# afisare ndarray si tip pentru my_data.values
print(...)
print(...)

In [None]:
# afisare ndarray si tip pentru geografie.values
print(geografie.values)
print(geografie.values.dtype)

Indexarea cu `iloc` in cazul unui obiect `DataFrame` permite precizarea a doua valori: prima reprezinta linia si al doilea coloana, numerotate de la 0. Pentru linie si coloana se poate folosi si slicing, **cu observatia esentiala ca spre deosebire de Python si NumPy, se include si capatul din dreapta al oricarei expresii de ``feliere''**:

In [None]:
print(geografie)

geografie.iloc[0:2, 2:4]

Indexarea cu `loc` permite precizarea valorilor de indice si respectiv nume de coloana:

In [None]:
print(geografie)

geografie.loc[['Franta', 'Romania'], 'Populatie':'Densitatea populatiei']

Se permite folosirea de expresii de filtrare à la NumPy:

In [None]:
geografie.loc[geografie['Densitatea populatiei'] > 83, ['Populatie', 'Moneda']]

Folosind indicierea, se pot modifica valorile dintr-un `DataFrame`:

In [None]:
# Modificarea populatiei Greciei cu iloc
geografie.iloc[1, 1] = 12000000
print(geografie)

In [None]:
# Modificarea populatiei Greciei cu loc
geografie.loc['Grecia', 'Populatie'] = 11183957
print(geografie) 

Precizari:
1. daca se foloseste un singur indice la un DataFrame, atunci se considera ca se face referire la coloana:
```Python
geografie['Moneda']
```
1. daca se foloseste slicing, acesta se refera la liniile (indexul) din DataFrame:
```Python
geografie['Franta':'Romania']
```
1. operatiile logice se considera ca refera de asemenea linii din DataFrame:
```Python
geografie[geografie['Densitatea populatiei'] > 83]
```

In [None]:
geografie[geografie['Densitatea populatiei'] > 83]

## Operarea pe date

Se pot aplica functii NumPy peste obiecte Series si DataFrame. Rezultatul este de acelasi tip ca obiectul peste care se aplica iar indicii se pastreaza:

In [None]:
ser = pd.Series(np.random.randint(low=0, high=10, size=(5)), index=['a', 'b', 'c', 'd', 'e'])
ser

In [None]:
np.exp(ser)

In [None]:
my_df = pd.DataFrame(data=np.random.randint(low=0, high=10, size=(3, 4)), \
                     columns=['Sunday', 'Monday', 'Tuesday', 'Wednesday'], \
                    index=['a', 'b', 'c'])
print('Originar:', my_df)
print('Transformat:', np.exp(my_df))

Pentru functii binare se face alinierea obiectelor Series sau DataFrame dupa indexul lor. Aceasta poate duce la operare cu valori NaN si in consecinta obtinere de valori NaN.

In [None]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662, 'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193, 'New York': 19651127}, name='population')

In [None]:
population / area

In cazul unui DataFrame, alinierea se face atat pentru coloane, cat si pentru indecsii folositi la linii:

In [None]:
A = pd.DataFrame(data=np.random.randint(0, 10, (2, 3)), columns=list('ABC'))
B = pd.DataFrame(data=np.random.randint(0, 10, (3, 2)), columns=list('BA'))

A

In [None]:
B

In [None]:
A + B

Daca se doreste umplerea valorilor NaN cu altceva, se poate specifica parametrul fill_value pentru functii care implementeaza operatiile aritmetice:


| Operator      | Metoda Pandas|
| ------------- |--------------|
| +             | `add()`     |
| -             | `sub()`, `substract()`|
| *             | `mul()`, `multiply()` |
|/              | `truediv()`, `div()`, `divide()`|
|//             | `floordiv()`|
|%              | `mod()`     |
|**|`pow()`|
-------------------
Daca ambele pozitii au valori lipsa (NaN), atunci [valoarea finala va fi si ea lipsa](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.add.html).

Exemplu:

In [None]:
A

In [None]:
B

In [None]:
A.add(B, fill_value=0)

## Valori lipsa

Pentru cazul in care valorile dintr-o coloana a unui obiect DataFrame sunt de tip numeric, valorile lipsa se reprezinta prin NaN - care e suportat doar de tipurile in virgula mobila, nu si de intregi; aceasta din ultima observatie arata ca numerele intregi sunt convertite la floating point daca intr-o lista care le contine se afla si valori lipsa:

In [None]:
my_series = pd.Series([1, 2, 3, None, 5], name='my_series')
# echivalent:
my_series = pd.Series([1, 2, 3, np.NaN, 5], name='my_series')
my_series

Functiile care se pot folosi pentru un DataFrame pentru a operare cu valori lipsa sunt:


In [None]:
df = pd.DataFrame([[1, 2, np.NaN], [np.NAN, 10, 20]])
df

`isnull()` - returneaza o masca de valori logice, cu `True` (`False`) pentru pozitiile unde se afla valori nule (respectiv: nenule); nul = valoare lipsa.  

In [None]:
df.isnull()

`notnull()` - opusul functiei precedente

`dropna()` - returneaza o varianta filtrata a obiectuilui DataFrame. E posibil sa duca la un DataFrame gol. 

In [None]:
df.dropna()

In [None]:
df.iloc[0] = [3, 4, 5]
print(df)
df.dropna()

`fillna()` umple valorile lipsa dupa o anumita politica:

In [None]:
df = pd.DataFrame([[1, 2, np.NaN], [np.NAN, 10, 20]])
df

In [None]:
# umplere de NaNuri cu valoare constanta
df2 = df.fillna(value = 100)
df2

In [None]:
np.random.randn(5, 3)

In [None]:
# umplere de NaNuri cu media pe coloana corespunzatoare
df = pd.DataFrame(data = np.random.randn(5, 3), columns=['A', 'B', 'C'])
df.iloc[0, 2] = df.iloc[1, 1] = df.iloc[2, 0] = df.iloc[4, 1] = np.NAN
df

In [None]:
# calcul medie pe coloana
df.mean(axis=0)

In [None]:
df3 = df.fillna(df.mean(axis=0))
df3

Exista un parametru al functiei `fillna()` care permite [umplerea valorilor lipsa prin copiere](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html): 

In [None]:
my_ds = pd.Series(np.arange(0, 30))
my_ds[1:-1:4] = np.NaN
my_ds

In [None]:
# copierea ultimei valori non-null
my_ds_filled_1 = my_ds.fillna(method='ffill')
my_ds_filled_1

In [None]:
# copierea inapoi a urmatoarei valori non-null
my_ds_filled_2 = my_ds.fillna(method='bfill')
my_ds_filled_2

Pentru DataFrame, procesul este similar. Se poate specifica argumentul axis care spune daca procesarea se face pe linii sau pe coloane:

In [None]:
df = pd.DataFrame([[1, np.NAN, 2, np.NAN], [2, 3, 5, np.NaN], [np.NaN, 4, 6, np.NaN]])
df

In [None]:
# Umplere, prin parcurgere pe fiecare linie
df.fillna(method='ffill', axis = 1)

In [None]:
# Umplere, prin parcurgere pe fiecare coloana
df.fillna(method='ffill', axis = 0)

## Combinarea de obiecte Series si DataFrame

Cea mai simpla operatie este de concatenare:

In [None]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

Pentru cazul in care valori de index se regasesc in ambele serii de date, indexul se va repeta:

In [None]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[3, 4, 5])
ser_concat = pd.concat([ser1, ser2])
ser_concat

In [None]:
ser_concat.loc[3]

Pentru cazul in care se doreste verificarea faptului ca indecsii sunt unici, se poate folosi parametrul `verify_integrity`:

In [None]:
try:
    ser_concat = pd.concat([ser1, ser2], verify_integrity=True)
except ValueError as e:
    print('Value error', e)

Pentru concatenarea de obiecte `DataFrame` care au acelasi set de coloane (pentru moment):

In [None]:
# sursa: ref 1 din Curs 1
def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind] for c in cols}
    return pd.DataFrame(data, ind)

In [None]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
print(df1); print(df2);

In [None]:
# concatenare simpla
pd.concat([df1, df2])

Concatenarea se poate face si pe orizontala:

In [None]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
print(df3); print(df4);

In [None]:
# concatenare pe axa 1
pd.concat([df3, df4], axis=1)

Pentru indici duplicati, comportamentul e la fel ca la `Serie`: se pastreaza duplicatele si datele corespunzatoare:

In [None]:
x = make_df('AB', [0, 1])
y = make_df('AB', [0, 1])
print(x); print(y);

In [None]:
print(pd.concat([x, y]))

In [None]:
try:
    df_concat = pd.concat([x, y], verify_integrity=True)
except ValueError as e:
    print('Value error', e)

Daca se doreste ignorarea indecsilor, se poate folosi indicatorul `ignore_index`:

In [None]:
df_concat = pd.concat([x, y], ignore_index=True)

Pentru cazul in care obiectele `DataFrame` nu au exact aceleasi coloane, concatenarea poate duce la rezultate de forma:

In [None]:
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
print(df5); print(df6);

In [None]:
print(pd.concat([df5, df6]))

De regula se vrea operatia de concatenare (join) pe obiectele DataFrame cu coloane diferite. O prima varianta este pastrarea doar a coloanelor partajate, ceea ce in Pandas este vazut ca un inner join (se remarca o necorespondenta cu terminologia din limbajul SQL):

In [None]:
print(df5); print(df6);

In [None]:
# concatenare cu inner join
pd.concat([df5, df6], join='inner')

Alta varianta este specificarea explicita a coloanelor care rezista in urma concatenarii, prin metoda `reindex`:

In [None]:
print(df5); print(df6);

In [None]:
# pd.concat([df5, df6], join_axes=[df5.columns]) # parametrul join_axes e deprecated
pd.concat([df5, df6.reindex(df5.columns, axis=1)])

Pentru implementarea de jonctiuni à la SQL se foloseste metoda `merge`. Ce mai simpla este inner join: rezulta liniile din obiectele DataFrame care au corespondent in ambele parti:

In [None]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
'hire_date': [2004, 2008, 2012, 2014]})

In [None]:
df3=pd.merge(df1, df2)
df3

In [None]:
df3 = pd.DataFrame({'employee': ['Jake', 'Lisa', 'Sue'],
'group': ['Engineering', 'Engineering', 'HR']})
df4 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Sue'],
'hire_date': [2008, 2012, 2014]})

# demo inner join: raman dar 2 linii dupa jonctiune
pd.merge(df3, df4)

Se pot face asa-numite jonctiuni `many-to-one`, dar care nu sunt decat inner join. Mentionam si exemplificam insa pentru terminologie:

In [None]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
'supervisor': ['Carly', 'Guido', 'Steve']})

print(df3)
print(df4)

In [None]:
pd.merge(df3, df4)

Asa-numite jonctiuni *many-to-many* se obtin pentru cazul in care coloana dupa care se face jonctiunea contine duplicate:

In [None]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting',
'Engineering', 'Engineering', 'HR', 'HR'],
'skills': ['math', 'spreadsheets', 'coding', 'linux',
'spreadsheets', 'organization']})
print(df1)
print(df5)


In [None]:
print(pd.merge(df1, df5))