# Curs 3: Pachetul Pandas, reprezentari grafice, statistici de baza

## 3.1. Pandas

Desi NumPy are facilitati pentru incarcarea de date in format CSV, se prefera in practica utilizarea pachetului Pandas

In [1]:
import pandas as pd
pd.__version__

import numpy as np

### Pandas Series

O serie Pandas este un vector unidimensional de date indexate. 

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Valorile se obtin folosind atributul values, returnand un NumPy array:

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

Indexul se obtine prin atributul index. In cadrul unui obiect `Series` sau al unui `DataFrame` este util pentru adresarea datelor.

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

Specificarea unui index pentru o serie se poate face la instantiere:

In [5]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])

In [6]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [7]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [8]:
data['b']

0.5

Analogia dintre un obiect `Series` si un dictionar clasic Python poate fi speculata in crearea unui obiect Series plecand de la un dictionar:

In [9]:
geografie_populatie = {'Romania': 19638000, 'Franta': 67201000, 'Grecia': 11183957}
populatie = pd.Series(geografie_populatie)
populatie

Franta     67201000
Grecia     11183957
Romania    19638000
dtype: int64

In [10]:
populatie.index

Index(['Franta', 'Grecia', 'Romania'], dtype='object')

In [11]:
populatie['Grecia']

11183957

In [12]:
# populatie['Germania'] 
# eroare: KeyError: 'Germania'

Daca nu se specifica un index la crearea unui obiect `Series`, atunci implicit acesta va fi format pe baza secventei de intregi 0, 1, 2, ...

Nu e obligatoriu ca o serie sa contina doar valori numerice:

In [13]:
s1 = pd.Series(['rosu', 'verde', 'galben', 'albastru'])
print(s1)
print('s1[2]=', s1[2])

0        rosu
1       verde
2      galben
3    albastru
dtype: object
s1[2]= galben


### Selectarea datelor in serii

Datele dintr-o serie pot fi referite prin intermediul indexului:

In [14]:
data = pd.Series(np.linspace(0, 75, 4), index=['a', 'b', 'c', 'd'])
print(data)
data['b']

a     0.0
b    25.0
c    50.0
d    75.0
dtype: float64


25.0

Se poate face modificarea datelor dintr-o serie folosind indexul:

In [15]:
data['b'] = 300
print(data)

a      0.0
b    300.0
c     50.0
d     75.0
dtype: float64


Se poate folosi slicing:

In [16]:
data['a':'c']

a      0.0
b    300.0
c     50.0
dtype: float64

sau se pot folosi expresii logice:

In [17]:
data[(data > 30) & (data < 70)] #se remarca returnarea in rezultat a indicilor care satisfac proprietatea ceruta

c    50.0
dtype: float64

Se prefera folosirea urmatoarelor atribute de indexare: `loc`, `iloc`. Indexarea prin `ix`, daca se regaseste prin tutoriale mai vechi, se considera a fi sursa de confuzie si se recomanda evitarea ei.

Atributul `loc` permite indicierea folosind valoarea de index. 

In [18]:
data = pd.Series([1, 2, 3], index=['a', 'b', 'c'])

data

a    1
b    2
c    3
dtype: int64

In [19]:
#cautare dupa index cu o singura valoare
data.loc['b']

2

In [20]:
#cautare dupa index cu o doua valori. Lista interioara este folosita pentru a stoca o colectie de valori de indecsi.
data.loc[['a', 'c']]

a    1
c    3
dtype: int64

Atributul `iloc` este folosit pentru a face referire la linii dupa pozitia (numarul) lor. Numerotarea incepe de la 0. 

In [21]:
data.iloc[0]

1

In [22]:
data.iloc[[0, 2]]

a    1
c    3
dtype: int64

### DataFrame

Un obiect `DataFrame` este o colectie de coloane de tip `Series`. Numarul de elemente din fiecare serie este acelasi. 

In [23]:
geografie_suprafata = {'Romania': 238397, 'Franta': 640679, 'Grecia': 131957}

geografie_moneda = {'Romania': 'RON', 'Franta': 'EUR', 'Grecia': 'EUR'}

geografie = pd.DataFrame({'Populatie' : geografie_populatie, 'Suprafata' : geografie_suprafata, 'Moneda' : geografie_moneda})

print(geografie)

        Moneda  Populatie  Suprafata
Franta     EUR   67201000     640679
Grecia     EUR   11183957     131957
Romania    RON   19638000     238397


In [24]:
print(geografie.index)

Index(['Franta', 'Grecia', 'Romania'], dtype='object')


Atributul `columns` da lista de coloane:

In [25]:
geografie.columns

Index(['Moneda', 'Populatie', 'Suprafata'], dtype='object')

Referirea la o serie care compune o coloana din DataFrame se face astfel

In [26]:
print(geografie['Populatie'])
print('*********************')
print(type(geografie['Populatie']))

Franta     67201000
Grecia     11183957
Romania    19638000
Name: Populatie, dtype: int64
*********************
<class 'pandas.core.series.Series'>


Crearea unui obiect DataFrame se poate face pornind si de la o singura serie:

In [27]:
mydf = pd.DataFrame([1, 2, 3], columns=['values'])
mydf

Unnamed: 0,values
0,1
1,2
2,3


... sau se poate crea pornind de la o lista de dictionare:

In [28]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Daca lipsesc chei din vreunul din dictionare, resepctiva valoare se va umple cu 'NaN'.

In [29]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


Instantierea unui DataFrame se poate face si de la un NumPy array:

In [30]:
pd.DataFrame(np.random.rand(3, 2), columns=['Col1', 'Col2'], index=['a', 'b', 'c'])

Unnamed: 0,Col1,Col2
a,0.10648,0.549474
b,0.38667,0.101185
c,0.123744,0.994352


Se poate adauga o coloana noua la un DataFrame, similar cu adaugarea unui element (cheie, valoare) la un dictionar: 

In [31]:
geografie['Densitatea populatiei'] = geografie['Populatie'] / geografie['Suprafata']

geografie

Unnamed: 0,Moneda,Populatie,Suprafata,Densitatea populatiei
Franta,EUR,67201000,640679,104.89028
Grecia,EUR,11183957,131957,84.754556
Romania,RON,19638000,238397,82.375198


Un obiect DataFrame poate fi transpus cu atributul `T`:

In [32]:
geografie.T

Unnamed: 0,Franta,Grecia,Romania
Moneda,EUR,EUR,RON
Populatie,67201000,11183957,19638000
Suprafata,640679,131957,238397
Densitatea populatiei,104.89,84.7546,82.3752


### Selectarea datelor intr-un `DataFrame`

S-a demonstrat posibilitatea de referire dupa numele de coloana:

In [33]:
print(geografie)

        Moneda  Populatie  Suprafata  Densitatea populatiei
Franta     EUR   67201000     640679             104.890280
Grecia     EUR   11183957     131957              84.754556
Romania    RON   19638000     238397              82.375198


In [34]:
print(geografie['Moneda'])

Franta     EUR
Grecia     EUR
Romania    RON
Name: Moneda, dtype: object


Daca numele unei coloane este un string fara spatii, se poate folosi acesta ca un atribut:

In [35]:
geografie.Moneda

Franta     EUR
Grecia     EUR
Romania    RON
Name: Moneda, dtype: object

Se poate face referire la o coloana dupa indicele ei, indirect:

In [36]:
geografie[geografie.columns[0]]

Franta     EUR
Grecia     EUR
Romania    RON
Name: Moneda, dtype: object

Pentru cazul in care un DataFrame nu are nume de coloana, else sunt implicit intregii 0, 1, ... si se pot folosi pentru selectarea de coloana folosind paranteze drepte:

In [37]:
my_data = pd.DataFrame(np.random.rand(3, 4))

my_data

Unnamed: 0,0,1,2,3
0,0.33408,0.950323,0.355601,0.496812
1,0.692647,0.519016,0.828637,0.234892
2,0.649379,0.138657,0.839034,0.029046


In [38]:
my_data[0]

0    0.334080
1    0.692647
2    0.649379
Name: 0, dtype: float64

Atributul `values` returneaza un obiect ndarray continand valori. Tipul unui ndarray este cel mai specializat tip de date care poate sa contina valorile din DataFrame:

In [39]:
#afisare ndarray si tip pentru my_data.values
print(my_data.values)
print(my_data.values.dtype)

[[0.33408046 0.95032276 0.35560071 0.49681163]
 [0.69264723 0.51901614 0.82863711 0.23489224]
 [0.64937864 0.13865704 0.83903385 0.02904591]]
float64


In [40]:
#afisare ndarray si tip pentru geografie.values
print(geografie.values)
print(geografie.values.dtype)

[['EUR' 67201000 640679 104.89028046806591]
 ['EUR' 11183957 131957 84.75455640852702]
 ['RON' 19638000 238397 82.37519767446739]]
object


Indexarea cu `iloc` in cazul unui obiect `DataFrame` permite precizarea a doua valori: prima reprezinta linia si al doilea coloana, numerotate de la 0. Pentru linie si coloana se poate folosi si slicing:

In [41]:
print(geografie)

geografie.iloc[0:2, 2:4]

        Moneda  Populatie  Suprafata  Densitatea populatiei
Franta     EUR   67201000     640679             104.890280
Grecia     EUR   11183957     131957              84.754556
Romania    RON   19638000     238397              82.375198


Unnamed: 0,Suprafata,Densitatea populatiei
Franta,640679,104.89028
Grecia,131957,84.754556


Indexarea cu `loc` permite precizarea valorilor de indice si respectiv nume de coloana:

In [42]:
print(geografie)

geografie.loc[['Franta', 'Romania'], 'Populatie':'Densitatea populatiei']

        Moneda  Populatie  Suprafata  Densitatea populatiei
Franta     EUR   67201000     640679             104.890280
Grecia     EUR   11183957     131957              84.754556
Romania    RON   19638000     238397              82.375198


Unnamed: 0,Populatie,Suprafata,Densitatea populatiei
Franta,67201000,640679,104.89028
Romania,19638000,238397,82.375198


Se permite folosirea de expresii de filtrare à la NumPy:

In [43]:
geografie.loc[geografie['Densitatea populatiei'] > 83, ['Populatie', 'Moneda']]

Unnamed: 0,Populatie,Moneda
Franta,67201000,EUR
Grecia,11183957,EUR


Folosind indicierea, se pot modifica valorile dintr-un `DataFrame`:

In [44]:
#Modificarea populatiei Greciei cu iloc
geografie.iloc[1, 1] = 12000000
print(geografie)

        Moneda  Populatie  Suprafata  Densitatea populatiei
Franta     EUR   67201000     640679             104.890280
Grecia     EUR   12000000     131957              84.754556
Romania    RON   19638000     238397              82.375198


In [45]:
#Modificarea populatiei Greciei cu loc
geografie.loc['Grecia', 'Populatie'] = 11183957
print(geografie) 

        Moneda  Populatie  Suprafata  Densitatea populatiei
Franta     EUR   67201000     640679             104.890280
Grecia     EUR   11183957     131957              84.754556
Romania    RON   19638000     238397              82.375198


Precizari:
1. daca se foloseste un singur indice la un DataFrame, atunci se considera ca se face referire la coloana:
```Python
geografie['Moneda']
```
1. daca se foloseste slicing, acesta se refera la liniile din DataFrame:
```Python
geografie['Franta':'Romania']
```
1. operatiile logice se considera ca refera de asemenea linii din DataFrame:
```Python
geografie[geografie['Densitatea populatiei'] > 83]
```

In [46]:
geografie[geografie['Densitatea populatiei'] > 83]

Unnamed: 0,Moneda,Populatie,Suprafata,Densitatea populatiei
Franta,EUR,67201000,640679,104.89028
Grecia,EUR,11183957,131957,84.754556


## Operarea pe date

Se pot aplica functii NumPy peste obiecte Series si DataFrame. Rezultatul este de acelasi tip ca obiectul peste care se aplica iar indicii se pastreaza:

In [47]:
ser = pd.Series(np.random.randint(low=0, high=10, size=(5)), index=['a', 'b', 'c', 'd', 'e'])
ser

a    7
b    7
c    7
d    9
e    0
dtype: int32

In [48]:
np.exp(ser)

a    1096.633158
b    1096.633158
c    1096.633158
d    8103.083928
e       1.000000
dtype: float64

In [49]:
my_df = pd.DataFrame(data=np.random.randint(low=0, high=10, size=(3, 4)), \
                     columns=['Sunday', 'Monday', 'Tuesday', 'Wednesday'], \
                    index=['a', 'b', 'c'])
print('Originar:', my_df)
print('Transformat:', np.exp(my_df))

Originar:    Sunday  Monday  Tuesday  Wednesday
a       8       3        6          9
b       6       4        9          1
c       1       7        8          6
Transformat:         Sunday       Monday      Tuesday    Wednesday
a  2980.957987    20.085537   403.428793  8103.083928
b   403.428793    54.598150  8103.083928     2.718282
c     2.718282  1096.633158  2980.957987   403.428793


Pentru functii binare se face alinierea obiectelor Series sau DataFrame dupa indexul lor. Aceasta poate duce la operare cu valori NaN si in consecinta obtinere de valori NaN.

In [50]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662, 'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193, 'New York': 19651127}, name='population')

In [51]:
population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In cazul unui DataFrame, alinierea se face atat pentru coloane, cat si pentru indecsii folositi la linii:

In [52]:
A = pd.DataFrame(data=np.random.randint(0, 10, (2, 3)), columns=list('ABC'))
B = pd.DataFrame(data=np.random.randint(0, 10, (3, 2)), columns=list('BA'))

A

Unnamed: 0,A,B,C
0,0,7,7
1,9,8,2


In [53]:
B

Unnamed: 0,B,A
0,0,2
1,2,3
2,1,1


In [54]:
A + B

Unnamed: 0,A,B,C
0,2.0,7.0,
1,12.0,10.0,
2,,,


Daca se doreste umplerea valorilor NaN cu altceva, se poate specifica parametrul fill_value pentru functii care implementeaza operatiile aritmetice:


| Operator      | Metoda Pandas|
| ------------- |--------------|
| +             | `add()`     |
| -             | `sub()`, `substract()`|
| *             | `mul()`, `multiply()` |
|/              | `truediv()`, `div()`, `divide()`|
|//             | `floordiv()`|
|%              | `mod()`     |
|**|`pow()`|
-------------------
Daca ambele pozitii au valori lipsa (NaN), atunci [valoarea finala va fi si ea lipsa](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.add.html).

Exemplu:

In [55]:
A

Unnamed: 0,A,B,C
0,0,7,7
1,9,8,2


In [56]:
B

Unnamed: 0,B,A
0,0,2
1,2,3
2,1,1


In [57]:
A.add(B, fill_value=0)

Unnamed: 0,A,B,C
0,2.0,7.0,7.0
1,12.0,10.0,2.0
2,1.0,1.0,


## Valori lipsa

Pentru cazul in care valorile dintr-o coloana a unui obiect DataFrame sunt de tip numeric, valorile lipsa se reprezinta prin NaN - care e suportat doar de tipurile in virgula mobila, nu si de intregi; aceasta din ultima observatie arata ca numerele intregi sunt convertite la floating point daca intr-o lista care le contine se afla si valori lipsa:

In [58]:
my_series = pd.Series([1, 2, 3, None, 5], name='my_series')
#echivalent:
my_series = pd.Series([1, 2, 3, np.NaN, 5], name='my_series')
my_series

0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
Name: my_series, dtype: float64

Functiile care se pot folosi pentru un DataFrame pentru a operare cu valori lipsa sunt:


In [59]:
df = pd.DataFrame([[1, 2, np.NaN], [np.NAN, 10, 20]])
df

Unnamed: 0,0,1,2
0,1.0,2,
1,,10,20.0


`isnull()` - returneaza o masca de valori logice, cu `True` (`False`) pentru pozitiile unde se afla valori nule (respectiv: nenule); nul = valoare lipsa.  

In [60]:
df.isnull()

Unnamed: 0,0,1,2
0,False,False,True
1,True,False,False


`notnull()` - opusul functiei precedente

`dropna()` - returneaza o varianta filtrata a obiectuilui DataFrame. E posibil sa duca la un DataFrame gol. 

In [61]:
df.dropna()

Unnamed: 0,0,1,2


In [62]:
df.iloc[0] = [3, 4, 5]
print(df)
df.dropna()

     0   1     2
0  3.0   4   5.0
1  NaN  10  20.0


Unnamed: 0,0,1,2
0,3.0,4,5.0


`fillna()` umple valorile lipsa dupa o anumita politica:

In [63]:
df = pd.DataFrame([[1, 2, np.NaN], [np.NAN, 10, 20]])
df

Unnamed: 0,0,1,2
0,1.0,2,
1,,10,20.0


In [64]:
#umplere de NaNuri cu valoare constanta
df2 = df.fillna(value = 100)
df2

Unnamed: 0,0,1,2
0,1.0,2,100.0
1,100.0,10,20.0


In [65]:
np.random.randn(5, 3)

array([[ 0.08814719, -1.21584347,  1.13634695],
       [-1.10749813,  1.26086828,  0.2403304 ],
       [-0.14864687,  1.53751968,  0.56629036],
       [ 1.14602895,  1.28723701,  0.22714136],
       [ 0.38138354,  0.96913392,  0.48178216]])

In [66]:
#umplere de NaNuri cu media pe coloana corespunzatoare
df = pd.DataFrame(data = np.random.randn(5, 3), columns=['A', 'B', 'C'])
df.iloc[0, 2] = df.iloc[1, 1] = df.iloc[2, 0] = df.iloc[4, 1] = np.NAN
df

Unnamed: 0,A,B,C
0,0.152613,-1.938883,
1,0.263278,,-0.010851
2,,-2.045179,1.046064
3,-1.533086,-0.209699,0.031628
4,0.613771,,1.235024


In [67]:
#calcul medie pe coloana
df.mean(axis=0)

A   -0.125856
B   -1.397920
C    0.575466
dtype: float64

In [68]:
df3 = df.fillna(df.mean(axis=0))
df3

Unnamed: 0,A,B,C
0,0.152613,-1.938883,0.575466
1,0.263278,-1.39792,-0.010851
2,-0.125856,-2.045179,1.046064
3,-1.533086,-0.209699,0.031628
4,0.613771,-1.39792,1.235024


Exista un parametru al functiei `fillna()` care permite [umplerea valorilor lipsa prin copiere](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html): 

In [69]:
my_ds = pd.Series(np.arange(0, 30))
my_ds[1:-1:4] = np.NaN
my_ds

0      0.0
1      NaN
2      2.0
3      3.0
4      4.0
5      NaN
6      6.0
7      7.0
8      8.0
9      NaN
10    10.0
11    11.0
12    12.0
13     NaN
14    14.0
15    15.0
16    16.0
17     NaN
18    18.0
19    19.0
20    20.0
21     NaN
22    22.0
23    23.0
24    24.0
25     NaN
26    26.0
27    27.0
28    28.0
29    29.0
dtype: float64

In [70]:
# copierea ultimei valori non-null
my_ds_filled_1 = my_ds.fillna(method='ffill')
my_ds_filled_1

0      0.0
1      0.0
2      2.0
3      3.0
4      4.0
5      4.0
6      6.0
7      7.0
8      8.0
9      8.0
10    10.0
11    11.0
12    12.0
13    12.0
14    14.0
15    15.0
16    16.0
17    16.0
18    18.0
19    19.0
20    20.0
21    20.0
22    22.0
23    23.0
24    24.0
25    24.0
26    26.0
27    27.0
28    28.0
29    29.0
dtype: float64

In [71]:
# copierea inapoi a urmatoarei valori non-null
my_ds_filled_2 = my_ds.fillna(method='bfill')
my_ds_filled_2

0      0.0
1      2.0
2      2.0
3      3.0
4      4.0
5      6.0
6      6.0
7      7.0
8      8.0
9     10.0
10    10.0
11    11.0
12    12.0
13    14.0
14    14.0
15    15.0
16    16.0
17    18.0
18    18.0
19    19.0
20    20.0
21    22.0
22    22.0
23    23.0
24    24.0
25    26.0
26    26.0
27    27.0
28    28.0
29    29.0
dtype: float64

Pentru DataFrame, procesul este similar. Se poate specifica argumentul axis care spune daca procesarea se face pe linii sau pe coloane:

In [72]:
df = pd.DataFrame([[1, np.NAN, 2, np.NAN], [2, 3, 5, np.NaN], [np.NaN, 4, 6, np.NaN]])
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [73]:
#Umplere, prin parcurgere pe linii
df.fillna(method='ffill', axis = 1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,2.0,2.0
1,2.0,3.0,5.0,5.0
2,,4.0,6.0,6.0


In [74]:
#Umplere, prin parcurgere pe fiecare coloana
df.fillna(method='ffill', axis = 0)

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,2.0,4.0,6,


## Combinarea de obiecte Series si DataFrame

Cea mai simpla operatie este de concatenare:

In [75]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

Pentru cazul in care valori de index se regasesc in ambele serii de date, indexul se va repeta:

In [76]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[3, 4, 5])
ser_concat = pd.concat([ser1, ser2])
ser_concat

1    A
2    B
3    C
3    D
4    E
5    F
dtype: object

In [77]:
ser_concat.loc[3]

3    C
3    D
dtype: object

Pentru cazul in care se doreste verificarea faptului ca indecsii sunt unici, se poate folosi parametrul `verify_integrity`:

In [78]:
try:
    ser_concat = pd.concat([ser1, ser2], verify_integrity=True)
except ValueError as e:
    print('Value error', e)

Value error Indexes have overlapping values: [3]


Pentru concatenarea de obiecte `DataFrame` care au acelasi set de coloane (pentru moment):

In [79]:
#sursa: ref 1 din Curs 1
def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind] for c in cols}
    return pd.DataFrame(data, ind)

In [80]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
print(df1); print(df2);

    A   B
1  A1  B1
2  A2  B2
    A   B
3  A3  B3
4  A4  B4


In [81]:
#concatenare simpla
pd.concat([df1, df2])

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


Concatenarea se poate face si pe orizontala:

In [82]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
print(df3); print(df4);

    A   B
0  A0  B0
1  A1  B1
    C   D
0  C0  D0
1  C1  D1


In [83]:
#concatenare pe axa 1
pd.concat([df3, df4], axis=1)
#echivalent:
pd.concat([df3, df4], axis=1)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1


Pentru indici duplicati, comportamentul e la fel ca la `Serie`: se pastreaza duplicatele si datele corespunzatoare:

In [84]:
x = make_df('AB', [0, 1])
y = make_df('AB', [0, 1])
print(x); print(y);

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A0  B0
1  A1  B1


In [85]:
print(pd.concat([x, y]))

    A   B
0  A0  B0
1  A1  B1
0  A0  B0
1  A1  B1


In [86]:
try:
    df_concat = pd.concat([x, y], verify_integrity=True)
except ValueError as e:
    print('Value error', e)

Value error Indexes have overlapping values: [0, 1]


Daca se doreste ignorarea indecsilor, se poate folosi indicatorul `ignore_index`:

In [87]:
df_concat = pd.concat([x, y], ignore_index=True)

Pentru cazul in care obiectele `DataFrame` nu au exact aceleasi coloane, concatenarea poate duce la rezultate de forma:

In [88]:
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
print(df5); print(df6);

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4


In [89]:
print(pd.concat([df5, df6]))

     A   B   C    D
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
3  NaN  B3  C3   D3
4  NaN  B4  C4   D4


De regula se vrea operatia de concatenare (join) pe obiectele DataFrame cu coloane diferite. O prima varianta este pastrarea doar a coloanelor partajate, ceea ce in Pandas este vazut ca un inner join (se remarca o necorespondenta cu terminologia din limbajul SQL):

In [90]:
print(df5); print(df6);

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4


In [91]:
#concatenare cu inner join
pd.concat([df5, df6], join='inner')

Unnamed: 0,B,C
1,B1,C1
2,B2,C2
3,B3,C3
4,B4,C4


Alta varianta este specificarea explicita a coloanelor care rezista in urma concatenarii, via parametrul `join_axes`:

In [92]:
print(df5); print(df6);

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4


In [93]:
pd.concat([df5, df6], join_axes=[df5.columns])

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2
3,,B3,C3
4,,B4,C4


Pentru implementarea de jonctiuni à la SQL se foloseste metoda `merge`. Ce mai simpla este inner join: rezulta liniile din obiectele `DataFrame` care au corespondent in ambele parti. Coloanele pentru care se cauta echivalenta se gasesc automat pe baza numelor lor identice:

In [94]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
'hire_date': [2004, 2008, 2012, 2014]})

In [95]:
df3=pd.merge(df1, df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [96]:
df3 = pd.DataFrame({'employee': ['Jake', 'Lisa', 'Sue'],
'group': ['Engineering', 'Engineering', 'HR']})
df4 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Sue'],
'hire_date': [2008, 2012, 2014]})

#demo inner join: raman dar 2 linii dupa jonctiune
pd.merge(df3, df4)

Unnamed: 0,employee,group,hire_date
0,Jake,Engineering,2012
1,Sue,HR,2014


Se pot face asa-numite jonctiuni `many-to-one`, dar care nu sunt decat inner join. Mentionam si exemplificam insa pentru terminologie:

In [97]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
'supervisor': ['Carly', 'Guido', 'Steve']})

print(df3)
print(df4)

  employee        group
0     Jake  Engineering
1     Lisa  Engineering
2      Sue           HR
         group supervisor
0   Accounting      Carly
1  Engineering      Guido
2           HR      Steve


In [98]:
pd.merge(df3, df4)

Unnamed: 0,employee,group,supervisor
0,Jake,Engineering,Guido
1,Lisa,Engineering,Guido
2,Sue,HR,Steve


Asa-numite jonctiuni *many-to-many* se obtin pentru cazul in care coloana dupa care se face jonctiunea contine duplicate:

In [99]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting',
'Engineering', 'Engineering', 'HR', 'HR'],
'skills': ['math', 'spreadsheets', 'coding', 'linux',
'spreadsheets', 'organization']})
print(df1)
print(df5)


  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
         group        skills
0   Accounting          math
1   Accounting  spreadsheets
2  Engineering        coding
3  Engineering         linux
4           HR  spreadsheets
5           HR  organization


In [100]:
print(pd.merge(df1, df5))

  employee        group        skills
0      Bob   Accounting          math
1      Bob   Accounting  spreadsheets
2     Jake  Engineering        coding
3     Jake  Engineering         linux
4     Lisa  Engineering        coding
5     Lisa  Engineering         linux
6      Sue           HR  spreadsheets
7      Sue           HR  organization


Implicit, coloanele care participa la jonctiune sunt acelea care au acelasi nume in obiectele DataFrame care se jonctioneaza. Daca numele nu se potrivesc, se pot specifica manual de catre programator prin parametrul `on`:

In [101]:
print(df1)
print(df2)

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


In [102]:
# restrictionare nume de coloan; doar cea precizata este folosita pentru jonctiune
pd.merge(df1, df2, on='employee')

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


Daca numele sunt diferite, se folosesc parametrii `left_on` si `right_on`. 

In [103]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
'salary': [70000, 80000, 120000, 90000]})

print(df1)
print(df3)

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000


In [104]:
# jonctiune dupa coloane cu nume diferit

pd.merge(df1, df3, left_on='employee', right_on='name')

Unnamed: 0,employee,group,name,salary
0,Bob,Accounting,Bob,70000
1,Jake,Engineering,Jake,80000
2,Lisa,Engineering,Lisa,120000
3,Sue,HR,Sue,90000


 Constatam placut suprinsi :) ca valorile din `employee` si `name` coincid. Putem elimina una din ele folosind metoda `drop()` a obiectului `DataFrame` rezultat:

In [105]:
#eliminare de coloana redundanta

pd.merge(df1, df3, left_on='employee', right_on='name').drop('name', axis=1)

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


### Left, right, outer join

In [109]:
df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'], 'food': ['fish', 'beans', 'bread']},
columns=['name', 'food']) #specificarea parametrului columns este redundanta
df7 = pd.DataFrame({'name': ['Mary', 'Joseph'], 'drink': ['wine', 'beer']},
columns=['name', 'drink']) #idem

In [110]:
print(df6)
print(df7)

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
     name drink
0    Mary  wine
1  Joseph  beer


Pentru cazul in care se face `merge()`, implicit se face inner join:

In [111]:
pd.merge(df6, df7)

Unnamed: 0,name,food,drink
0,Mary,bread,wine


Parametrul `how` arata cum altfel se poate face jonctiunea: `left`, `right` si `outer`.

In [112]:
print(df6)
print(df7)

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
     name drink
0    Mary  wine
1  Joseph  beer


In [113]:
#outer join: se aduc liniile reunite, unde nu se regasesc valori se completeaza cu NaN
pd.merge(df6, df7, how='outer')

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine
3,Joseph,,beer


In [116]:
#left join: se aduc toate liniile din partea stanga (primul DataFrame), chiar daca nu au corespondent in partea dreapta. Valorile lipsa se umplu cu NaN
print(df6)
print(df7)
pd.merge(df6, df7, how='left')

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
     name drink
0    Mary  wine
1  Joseph  beer


Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine


### Citirea datelor in format CSV

Pandas ofera posibiliattea de a citi fisiere CSV. Metoda `read_csv()` este versatila datorita parametrilor pe care ii permite:

In [119]:
print(pd.__version__)
help(pd.read_csv)

0.22.0
Help on function read_csv in module pandas.io.parsers:

read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=None, compact_ints=None, use_unsigned=None, low_memory=True, buffer_lines=None, memory_map=False, float_precision

## Exemplu: date din SUA

Nota: exemplul este preluat din referinta bibliografica [1] din cursul 1. 

Datele folosite sunt de la adresele:
* https://raw.githubusercontent.com/jakevdp/data-USstates/master/state-population.csv
* https://raw.githubusercontent.com/jakevdp/data-USstates/master/state-areas.csv
* https://raw.githubusercontent.com/jakevdp/data-USstates/master/state-abbrevs.csv

In [120]:
pop = pd.read_csv('./data/state-population.csv')
areas = pd.read_csv('./data/state-areas.csv')
abbrevs = pd.read_csv('./data/state-abbrevs.csv')

Vizualizarea primelor randuri din fiecare:

In [121]:
pop.head()

Unnamed: 0,state/region,ages,year,population
0,AL,under18,2012,1117489.0
1,AL,total,2012,4817528.0
2,AL,under18,2010,1130966.0
3,AL,total,2010,4785570.0
4,AL,under18,2011,1125763.0


In [122]:
areas.head()

Unnamed: 0,state,area (sq. mi)
0,Alabama,52423
1,Alaska,656425
2,Arizona,114006
3,Arkansas,53182
4,California,163707


In [123]:
abbrevs.head()

Unnamed: 0,state,abbreviation
0,Alabama,AL
1,Alaska,AK
2,Arizona,AZ
3,Arkansas,AR
4,California,CA


Se cere ordinarea statelor si teritoriilor dupa densitatea de populatie din 2010. Primul pas este jonctionarea datelor de populatie si de abrevieri, pentru ca in tabela de suprafete se foloseste numele intreg al statului.

In [126]:
merged = pd.merge(pop, abbrevs, how='outer', left_on='state/region', right_on='abbreviation')
merged.head()

Unnamed: 0,state/region,ages,year,population,state,abbreviation
0,AL,under18,2012,1117489.0,Alabama,AL
1,AL,total,2012,4817528.0,Alabama,AL
2,AL,under18,2010,1130966.0,Alabama,AL
3,AL,total,2010,4785570.0,Alabama,AL
4,AL,under18,2011,1125763.0,Alabama,AL


 Coloana de abrevieri se poate omite din acest moment:

In [127]:
merged = merged.drop('abbreviation', axis=1)
merged.head()

Unnamed: 0,state/region,ages,year,population,state
0,AL,under18,2012,1117489.0,Alabama
1,AL,total,2012,4817528.0,Alabama
2,AL,under18,2010,1130966.0,Alabama
3,AL,total,2010,4785570.0,Alabama
4,AL,under18,2011,1125763.0,Alabama


Datele de regula sunt incomplete (cu goluri); de exemplu, se poate ca pentru coloana poopulation sa lipseasca valori:

In [131]:
merged.isnull().any()

state/region    False
ages            False
year            False
population       True
state            True
dtype: bool

Afisarea primelor cazuri in care valorile lipsesc pentru coloana `population` se face cu:

In [133]:
merged[merged['population'].isnull()].head() #PR=Puerto Rico

Unnamed: 0,state/region,ages,year,population,state
2448,PR,under18,1990,,
2449,PR,total,1990,,
2450,PR,total,1991,,
2451,PR,under18,1991,,
2452,PR,total,1993,,


De asemenea, observam ca exista state pentru care valoarea e nula. Acestea sunt:

In [135]:
merged.loc[merged['state'].isnull(), 'state/region'].unique()

array(['PR', 'USA'], dtype=object)

Se umplu valorile de 'state' cu 'Puerto Rico', respectiv 'United States of America' pentru acele cazuri cu 'state/region' 'PR' si respectiv 'USA'

In [139]:
merged.loc[merged['state/region'] == 'PR', 'state'] = 'Puerto Rico'
merged.loc[merged['state/region'] == 'USA', 'state'] = 'United States of America'
merged.isnull().any()

state/region    False
ages            False
year            False
population       True
state           False
dtype: bool

Putem face jonctiune cu colectia de suprafete (arii):

In [140]:
final = pd.merge(merged, areas, on='state', how='left')
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AL,under18,2012,1117489.0,Alabama,52423.0
1,AL,total,2012,4817528.0,Alabama,52423.0
2,AL,under18,2010,1130966.0,Alabama,52423.0
3,AL,total,2010,4785570.0,Alabama,52423.0
4,AL,under18,2011,1125763.0,Alabama,52423.0


Verificare daca exista valori de null:

In [141]:
final.isnull().any()

state/region     False
ages             False
year             False
population        True
state            False
area (sq. mi)     True
dtype: bool

Eliminam liniile pe care se afla valori de null:

In [145]:
final.dropna(inplace=True)
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AL,under18,2012,1117489.0,Alabama,52423.0
1,AL,total,2012,4817528.0,Alabama,52423.0
2,AL,under18,2010,1130966.0,Alabama,52423.0
3,AL,total,2010,4785570.0,Alabama,52423.0
4,AL,under18,2011,1125763.0,Alabama,52423.0


Selectam acele cazuri pentru care anul de recensamant este 2010 si se considera toate grupele de varsta = toti locuitorii:

In [147]:
data2010 = final.query("year == 2010 & ages == 'total'")
data2010.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
3,AL,total,2010,4785570.0,Alabama,52423.0
91,AK,total,2010,713868.0,Alaska,656425.0
101,AZ,total,2010,6408790.0,Arizona,114006.0
189,AR,total,2010,2922280.0,Arkansas,53182.0
197,CA,total,2010,37333601.0,California,163707.0


Putem face calculul densitatii intr-un obiect `Series` separat. Inainte de asta, e indicat sa se seteze un index pe `data2010`:

In [152]:
data2010.set_index('state', inplace=True)
density = data2010['population'] / data2010['area (sq. mi)']

In [153]:
density.head()

state
Alabama        91.287603
Alaska          1.087509
Arizona        56.214497
Arkansas       54.948667
California    228.051342
dtype: float64

Afisarea celor mai populate regiuni se face cu:

In [154]:
density.sort_values(ascending=False, inplace=True)
density.head()

state
District of Columbia    8898.897059
Puerto Rico             1058.665149
New Jersey              1009.253268
Rhode Island             681.339159
Connecticut              645.600649
dtype: float64

...iar cele mai putin populate sunt:

In [155]:
density.tail()

state
South Dakota    10.583512
North Dakota     9.537565
Montana          6.736171
Wyoming          5.768079
Alaska           1.087509
dtype: float64

%TODO: agregare si grupare, [1] pagina 158 si urmatoarele.; operatii cu serii detimp, pag 188+; high performance Pandas, pag 209+

## Reprezentari grafice cu Matplotlib