# Biblioteki Pythona w analizie danych

## Tomasz Rodak

2019/2020, semestr letni

Wykład II

# Pandas I

Czytanka PDSH: Rozdział [Data Manipulation with Pandas](https://jakevdp.github.io/PythonDataScienceHandbook/03.00-introduction-to-pandas.html) paragrafy od początku do *Pivot Tables*.

Do obejrzenia: [Wykład](https://www.youtube.com/watch?v=5JnMutdy6Fw) o module Pandas na konferencji PyCon 2015.

## Pandas

[Dokumentacja](https://pandas.pydata.org/docs/index.html)

[API reference](https://pandas.pydata.org/docs/reference/index.html)

Biblioteka do przetwarzania danych tabelarycznych i szeregów czasowych.

Typowy import:

In [1]:
import pandas as pd

## Podstawowe obiekty

* Series 
* DataFrame
* Index
* GroupBy

## Series

Tablica jednowymiarowa zawierająca dane oraz ich indeksy:

In [2]:
s = pd.Series([3, 1, 2.71, -10])
s

0     3.00
1     1.00
2     2.71
3   -10.00
dtype: float64

Atrybut `.values` jest tablicą NumPy

In [3]:
s.values

array([  3.  ,   1.  ,   2.71, -10.  ])

Atrybut z indeksami jest obiektem typu `pd.Index`:

In [4]:
s.index

RangeIndex(start=0, stop=4, step=1)

## Series vs tablica NumPy

Series uogólnia jednowymiarową tablicę NumPy:
* tablica NumPy posiada wewnętrzną indeksację w stylu Pythona (*implicit index*);
* Series posiada wewnętrzną indeksację w stylu Pythona plus indeksację za pomocą etykiet.

In [5]:
s = pd.Series([3, 1, 2.71, -10], index=['a', 'b', 'c', 'd'])
s

a     3.00
b     1.00
c     2.71
d   -10.00
dtype: float64

In [6]:
s['c']

2.71

Indeks etykiet może:
* nie zachowywać kolejności,
* posiadać luki,
* posiadać powtórzenia.

In [7]:
s = pd.Series([3, 1, 2.71, -10, 50], index=[3, 2, 5, 2, 100])
s

3       3.00
2       1.00
5       2.71
2     -10.00
100    50.00
dtype: float64

## Series jako rodzaj słownika

Klucze słownika przechodzą na etykiety podczas przekształcania słownika na obiekt Series:

In [8]:
ludność_dict = {'Polska': 38501,
                'Czechy': 10221,
                'Szwecja': 9045,
                'Niemcy': 82370,
                'Litwa': 3565}

ludność = pd.Series(ludność_dict)
ludność

Polska     38501
Czechy     10221
Szwecja     9045
Niemcy     82370
Litwa       3565
dtype: int64

Indeks etykiet w obiekcie Series ma niektóre cechy kluczy słownika, np. dostęp do elementu:

In [9]:
ludność['Polska']

38501

Etykieta jako atrybut, tego słowniki nie potrafią:

In [10]:
ludność.Polska

38501

Wycinki dla etykiet:

In [11]:
ludność['Czechy':'Niemcy'] # Włączony prawy kraniec!

Czechy     10221
Szwecja     9045
Niemcy     82370
dtype: int64

## `pd.Series()`

Funkcja `pd.Series()` pozwala na tworzenie obiektów Series wg. schematu
```python
pd.Series(dane, index=index)
```
Parametr `index` jest opcjonalny, parametr `dane` może przyjmować rozmaitą postać.

## DataFrame

Dwuwymiarowa tabela, w której kolumnami są obiekty Series.

W analizie danych DataFrame jest często przedstawiana jako tabela, w której kolumny to zmienne a wiersze to obserwacje.

In [12]:
powierzchnia_dict = {'Polska': 312.7,
                     'Czechy': 78.9,
                     'Szwecja': 450,
                     'Niemcy': 357,
                     'Litwa': 65.3}

powierzchnia = pd.Series(powierzchnia_dict)
powierzchnia

Polska     312.7
Czechy      78.9
Szwecja    450.0
Niemcy     357.0
Litwa       65.3
dtype: float64

In [13]:
kraje = pd.DataFrame({'powierzchnia': powierzchnia,
                      'ludność': ludność})
kraje

Unnamed: 0,powierzchnia,ludność
Polska,312.7,38501
Czechy,78.9,10221
Szwecja,450.0,9045
Niemcy,357.0,82370
Litwa,65.3,3565


## DataFrame uogólnia tablicę 2D NumPy

Podobnie jak Series obiekty DataFrame posiadają dwa poziomy indeksów dla wierszy: 
* wewnętrzny z numeracją liczbami całkowitymi od zera,
* zbudowany z etykiet.

In [14]:
kraje.index

Index(['Polska', 'Czechy', 'Szwecja', 'Niemcy', 'Litwa'], dtype='object')

Dodatkowo DataFrame posiada indeks z etykietami kolumn. Jest to również obiekt klasy `pd.Index`:

In [15]:
kraje.columns

Index(['powierzchnia', 'ludność'], dtype='object')

## DataFrame jako rodzaj słownika

Odpowiednikami kluczy słownika w obiekcie DataFrame są etykiety kolumn:

In [16]:
kraje['powierzchnia']

Polska     312.7
Czechy      78.9
Szwecja    450.0
Niemcy     357.0
Litwa       65.3
Name: powierzchnia, dtype: float64

## Sposoby konstrukcji obiektów DataFrame

Z obiektu Series:

In [17]:
pd.DataFrame(ludność, columns=['ludność'])

Unnamed: 0,ludność
Polska,38501
Czechy,10221
Szwecja,9045
Niemcy,82370
Litwa,3565


Z listy słowników:

In [18]:
list_dict = [{'a': 1, 'b': 2, 'c': 100},
             {'b': 10, 'c': 'Ala'},
             {'a': 0, 'b': 0, 'c': 1, 'd': 2}]
pd.DataFrame(list_dict)

Unnamed: 0,a,b,c,d
0,1.0,2,100,
1,,10,Ala,
2,0.0,0,1,2.0


Ze słownika obiektów Series:

In [19]:
pd.DataFrame({'ludność': ludność,
              'powierzchnia': powierzchnia})

Unnamed: 0,ludność,powierzchnia
Polska,38501,312.7
Czechy,10221,78.9
Szwecja,9045,450.0
Niemcy,82370,357.0
Litwa,3565,65.3


Z dwuwymiarowej tablicy NumPy:

In [20]:
import numpy as np
arr = np.arange(10).reshape(5, 2)
arr

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [21]:
pd.DataFrame(arr, index=['a', 'b', 'c', 'd', 'e'],
             columns=['X', 'Y'])

Unnamed: 0,X,Y
a,0,1
b,2,3
c,4,5
d,6,7
e,8,9


## Index

Cechy obiektu typu Index:
* niezmienny (*immutable*),
* uporządkowany,
* może zawierać powtórzenia.

Index jako niezmienna tablica:

In [22]:
ind = pd.Index([2, 4, 6, 4, 4, 10, 25])
ind

Int64Index([2, 4, 6, 4, 4, 10, 25], dtype='int64')

In [23]:
ind[0], ind[-1]

(2, 25)

In [24]:
ind[::2]

Int64Index([2, 6, 4, 25], dtype='int64')

In [25]:
ind.ndim, ind.shape, ind.size, ind.dtype

(1, (7,), 7, dtype('int64'))

Index jako zbiór uporządkowany:

In [26]:
indA = pd.Index(list('abcde'))
indB = pd.Index(list('cdefgh'))

In [27]:
indA 

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [28]:
indB

Index(['c', 'd', 'e', 'f', 'g', 'h'], dtype='object')

In [29]:
indA & indB # Część wspólna

Index(['c', 'd', 'e'], dtype='object')

In [30]:
indA | indB # Suma zbiorów

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'], dtype='object')

In [31]:
indA ^ indB # Różnica symetryczna

Index(['a', 'b', 'f', 'g', 'h'], dtype='object')

In [32]:
indA.difference(indB) # Różnica zbiorów

Index(['a', 'b'], dtype='object')

## Selekcja elementów z obiektu Series

Obiekt Series ma równocześnie cechy słownika i jednowymiarowej tablicy. 

Niektóre wzorce dostępu do elementów naśladują te ze słownika, inne te z tablicy jednowymiarowej.

Series jako słownik:

In [33]:
ludność['Czechy']

10221

In [34]:
'Polska' in ludność

True

In [35]:
ludność.keys()

Index(['Polska', 'Czechy', 'Szwecja', 'Niemcy', 'Litwa'], dtype='object')

In [36]:
list(ludność.items())

[('Polska', 38501),
 ('Czechy', 10221),
 ('Szwecja', 9045),
 ('Niemcy', 82370),
 ('Litwa', 3565)]

Modyfikacja w miejscu:

In [37]:
ludność['Grecja'] = 10723
ludność

Polska     38501
Czechy     10221
Szwecja     9045
Niemcy     82370
Litwa       3565
Grecja     10723
dtype: int64

Series jako tablica jednowymiarowa pozwala na dostęp do wartości poprzez:
* wycinki,
* maskowanie,
* wymyślne indeksowanie.

In [38]:
# Wycinek indeksów z poziomu etykiet
ludność['Czechy':'Niemcy'] # Prawy kraniec zaliczony!

Czechy     10221
Szwecja     9045
Niemcy     82370
dtype: int64

In [39]:
# Wycinek wewnętrznych indeksów Pythona
ludność[1:3] # Prawie kraniec wykluczony!

Czechy     10221
Szwecja     9045
dtype: int64

In [40]:
# Maskowanie
ludność[(10000 < ludność) & (ludność < 40000)]

Polska    38501
Czechy    10221
Grecja    10723
dtype: int64

In [41]:
# Indeksowanie wymyślne (fancy indexing), indeks etykiet
ludność[['Czechy', 'Grecja', 'Litwa']]

Czechy    10221
Grecja    10723
Litwa      3565
dtype: int64

In [42]:
# Indeksowanie wymyślne (fancy indexing), indeks wewnętrzny Pythona
ludność[[2, 4, 2]]

Szwecja    9045
Litwa      3565
Szwecja    9045
dtype: int64

## Zagadka

In [43]:
s = pd.Series(['a', 'b', 'c'], index=[1, 2, 3])
s

1    a
2    b
3    c
dtype: object

Jaka wartość kryje się pod `s[2]`? Co zwróci `s[1:3]`?

In [44]:
s[2] # 2 z poziomu etykiet.

'b'

In [45]:
s[1:3] # Ale wycinek po indeksach wewnętrznych.

2    b
3    c
dtype: object

## Indeksery `loc`, `iloc`

* Atrybut `loc` zawsze odnosi się do indeksów z poziomu etykiet.
* Atrybut `iloc` zawsze odnosi się do indeksów wewnętrznych Pythona, czyli do zwykłej numeracji całkowitoliczbowej od zera w górę.

In [46]:
s = pd.Series(['a', 'b', 'c'], index=[1, 2, 3])
s

1    a
2    b
3    c
dtype: object

In [47]:
s.iloc[1], s.loc[1]

('b', 'a')

In [48]:
s.iloc[1:3] # Wyklucza prawy kraniec!

2    b
3    c
dtype: object

In [49]:
s.loc[1:3] # Włącza prawy kraniec!

1    a
2    b
3    c
dtype: object

## Selekcja danych z ramki DataFrame

Ramka DataFrame ma równocześnie cechy słownika i dwuwymiarowej tablicy. 

Podobnie jak dla obiektów Series niektóre wzorce dostępu do elementów naśladują te ze słownika, inne te z tablicy dwywymiarowej.

Przypomnijmy ramkę `kraje`:

In [50]:
powierzchnia_dict = {'Polska': 312.7,
                     'Czechy': 78.9,
                     'Szwecja': 450,
                     'Niemcy': 357,
                     'Litwa': 65.3,
                     'Grecja': 131.9}

ludność_dict = {'Polska': 38501,
                'Czechy': 10221,
                'Szwecja': 9045,
                'Niemcy': 82370,
                'Litwa': 3565,
                'Grecja': 10723}

ludność = pd.Series(ludność_dict)
powierzchnia = pd.Series(powierzchnia_dict)
kraje = pd.DataFrame({'powierzchnia': powierzchnia,
                      'ludność': ludność})

In [51]:
kraje

Unnamed: 0,powierzchnia,ludność
Polska,312.7,38501
Czechy,78.9,10221
Szwecja,450.0,9045
Niemcy,357.0,82370
Litwa,65.3,3565
Grecja,131.9,10723


DataFrame jako słownik obiektów Series:

In [52]:
kraje['powierzchnia']

Polska     312.7
Czechy      78.9
Szwecja    450.0
Niemcy     357.0
Litwa       65.3
Grecja     131.9
Name: powierzchnia, dtype: float64

In [53]:
kraje.powierzchnia

Polska     312.7
Czechy      78.9
Szwecja    450.0
Niemcy     357.0
Litwa       65.3
Grecja     131.9
Name: powierzchnia, dtype: float64

Dostęp do kolumny poprzez nazwę atrybutu jest możliwy, gdy:
* nazwa kolumny jest poprawną nazwą zmiennej w języku Python,
* nazwa kolumny nie jest przesłonięta przez nazwę już istniejącego atrybutu.

Modyfikacja w miejscu:

In [54]:
kraje['gęstość zaludnienia'] = kraje.ludność / kraje.powierzchnia
kraje

Unnamed: 0,powierzchnia,ludność,gęstość zaludnienia
Polska,312.7,38501,123.1244
Czechy,78.9,10221,129.543726
Szwecja,450.0,9045,20.1
Niemcy,357.0,82370,230.728291
Litwa,65.3,3565,54.594181
Grecja,131.9,10723,81.296437


DataFrame jako tablica 2D:

In [55]:
kraje.values

array([[3.12700000e+02, 3.85010000e+04, 1.23124400e+02],
       [7.89000000e+01, 1.02210000e+04, 1.29543726e+02],
       [4.50000000e+02, 9.04500000e+03, 2.01000000e+01],
       [3.57000000e+02, 8.23700000e+04, 2.30728291e+02],
       [6.53000000e+01, 3.56500000e+03, 5.45941807e+01],
       [1.31900000e+02, 1.07230000e+04, 8.12964367e+01]])

In [56]:
kraje.iloc[:3, :2] # Pierwsze trzy rzędy, pierwsze dwie kolumny.

Unnamed: 0,powierzchnia,ludność
Polska,312.7,38501
Czechy,78.9,10221
Szwecja,450.0,9045


In [57]:
kraje.iloc[3] # Czwarty rząd.

powierzchnia             357.000000
ludność                82370.000000
gęstość zaludnienia      230.728291
Name: Niemcy, dtype: float64

In [58]:
# Wycinki wzgledem indeksów z poziomu etykiet.
kraje.loc['Szwecja':'Litwa', 'ludność':] 

Unnamed: 0,ludność,gęstość zaludnienia
Szwecja,9045,20.1
Niemcy,82370,230.728291
Litwa,3565,54.594181


In [59]:
# Maskowanie
kraje[(kraje.powierzchnia > 100) & (kraje['gęstość zaludnienia'] < 200)]

Unnamed: 0,powierzchnia,ludność,gęstość zaludnienia
Polska,312.7,38501,123.1244
Szwecja,450.0,9045,20.1
Grecja,131.9,10723,81.296437


In [60]:
# Wymyślne indeksowanie dla kolumn.
kraje[['powierzchnia', 'gęstość zaludnienia']]

Unnamed: 0,powierzchnia,gęstość zaludnienia
Polska,312.7,123.1244
Czechy,78.9,129.543726
Szwecja,450.0,20.1
Niemcy,357.0,230.728291
Litwa,65.3,54.594181
Grecja,131.9,81.296437


In [61]:
# Wymyślne indeksowanie dla indeksów z poziomu etykiet.
kraje.loc[['Litwa', 'Polska'], ['ludność']]

Unnamed: 0,ludność
Litwa,3565
Polska,38501


In [62]:
# Kombinacja maskowania i wymyślnej indeksacji
kraje.loc[kraje.powierzchnia > 300, ['ludność']]

Unnamed: 0,ludność
Polska,38501
Szwecja,9045
Niemcy,82370


Stosowanie instrukcji przypisania do podanych wyżej selekcji prowadzi do modyfikacji ramki w miejscu:

In [63]:
df = pd.DataFrame([[1, 2], [3, 4], [10, 20]],
                  columns=['a', 'b'],
                  index=['x', 'y', 'z'])
df

Unnamed: 0,a,b
x,1,2
y,3,4
z,10,20


In [64]:
df.loc[(df.a % 2 == 1), 'b'] = 'X'
df

Unnamed: 0,a,b
x,1,X
y,3,X
z,10,20


## Niespodzianki, niekonsekwencje

Główny indeks w ramce DataFrame to kolumny, jednak wycinek odnosi się do wierszy:

In [65]:
kraje['Szwecja':]

Unnamed: 0,powierzchnia,ludność,gęstość zaludnienia
Szwecja,450.0,9045,20.1
Niemcy,357.0,82370,230.728291
Litwa,65.3,3565,54.594181
Grecja,131.9,10723,81.296437


Podobnie do wierszy odnosi się maskowanie:

In [66]:
kraje[kraje.ludność < 10000]

Unnamed: 0,powierzchnia,ludność,gęstość zaludnienia
Szwecja,450.0,9045,20.1
Litwa,65.3,3565,54.594181


## Operacje uniwersalne

In [67]:
s = pd.Series([1, 2, 3, 4, 5])
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [68]:
np.exp(s)

0      2.718282
1      7.389056
2     20.085537
3     54.598150
4    148.413159
dtype: float64

In [69]:
df = pd.DataFrame(np.random.randint(0, 10, (3, 4)), 
                  columns=list('abcd'))
df

Unnamed: 0,a,b,c,d
0,5,9,8,2
1,4,9,1,2
2,1,8,9,1


In [70]:
np.sin(df * np.pi/2)

Unnamed: 0,a,b,c,d
0,1.0,1.0,-4.898587e-16,1.224647e-16
1,-2.449294e-16,1.0,1.0,1.224647e-16
2,1.0,-4.898587e-16,1.0,1.0


Te obiekty Series nie odpowiadają sobie dokładnie:

In [71]:
ludność  = pd.Series({'Polska': 38501,
                      'Czechy': 10221,
                      'Szwecja': 9045,
                      'Litwa': 3565})
powierzchnia = pd.Series({'Polska': 312.7,
                         'Szwecja': 450,
                         'Niemcy': 357,
                         'Litwa': 65.3})
ludność.index ^ powierzchnia.index # Różnica symetryczna indeksów

Index(['Czechy', 'Niemcy'], dtype='object')

Brakujące wartości zostają uzupełnione wartością `NaN`, indeksy są uzgadniane:

In [72]:
ludność / powierzchnia

Czechy            NaN
Litwa       54.594181
Niemcy            NaN
Polska     123.124400
Szwecja     20.100000
dtype: float64

W ramkach DataFrame uzgadnianie zachodzi równocześnie dla rzędów i kolumn:

In [73]:
df1 = pd.DataFrame(np.random.randint(0, 10, (3, 2)),
                   columns=list('AB'), index=[1, 2, 3])
df2 = pd.DataFrame(np.random.randint(0, 10, (3, 3)),
                   columns=list('XAB'))
df1

Unnamed: 0,A,B
1,9,2
2,9,8
3,7,5


In [74]:
df2

Unnamed: 0,X,A,B
0,9,7,5
1,1,5,4
2,2,5,7


In [75]:
df1 + df2

Unnamed: 0,A,B,X
0,,,
1,14.0,6.0,
2,14.0,15.0,
3,,,


Operacja uniwersalna na ramce i obiekcie Series odbywa się domyślnie względem rzędów:

In [76]:
df1

Unnamed: 0,A,B
1,9,2
2,9,8
3,7,5


In [77]:
df1 - df1.loc[3]

Unnamed: 0,A,B
1,2,-3
2,2,3
3,0,0


Aby wykonać operację uniwarsalną na ramce i obiekcie Series względem kolumn należy użyć metod z parametrem `axis`:

In [78]:
df1.subtract(df1.A, axis=0)

Unnamed: 0,A,B
1,0,-7
2,0,-1
3,0,-2
