## Pandas

Kolejną biblioteką którą poznamy będzie Pandas. Pandas to pakiet zbudowany na bazie NumPy który dostarcza nam obiekty typu `DataFrame`, które są wielowymiarowymi tabelami z indeksami dla kolumn i wierszy. Poznamy dzisiaj w jaki sposób korzystać z abstrakcji dostarczanych przez Pandas i jak pracować z obiektami będacymi częścią tego pakietu.

Zaczniemy od zaimportowania pakietu:

In [18]:
import pandas as pd
import numpy as np

### Series

`Series` jest jednowymiarową tablicą danych z indeksem, można go stworzyć z listy lub tabeli:

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

`index` jest typu `pd.Index`, o którymi opowiem za chwilę,

`values` jest zwykła numpy tablicą reprezentująca wartości danego `Series`:

In [5]:
print(data.index) 
print(data.values)

RangeIndex(start=0, stop=4, step=1)
[0.25 0.5  0.75 1.  ]


Podstawową różnicą między `Series` a zwykłą tablicą, jest fakt, że możemy sami w nim ustalić indeks:

In [11]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])  # ustalamy indeks jako obiekty typu `str`
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [9]:
data['b']

0.5

In [13]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])  # indeksy są liczbami, ale nie muszą mieć konkretnej kolejności
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

Tak jak tablice w NumPy reprezentują kolekcje pojedynczego typu co pomaga nam wykonywać pewne operacje szybciej, podobnie `Series` możemy rozumieć jako implementacje mapy (słownika) zawierającej wartości tego samego typu:

In [15]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [16]:
population['California']

38332521

Jednak wciąż możemy korzystać z operacji typowych dla tablic jak np. slice:

In [17]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Obiekty typu `Series` możemy tworzyć na różne sposoby:

In [23]:
series = [
    pd.Series([2, 4, 6]),  # z listy
    pd.Series(5, index=[1, 2, 3]),  # jako jedna wartość, która jest powtarzana dla indeksów
    pd.Series({2: 'a', 1: 'b', 3: 'c'}),  # ze słownika
    pd.Series(np.arange(10))  # z tablicy numpy
]
for serie in series:
    print(serie)

0    2
1    4
2    6
dtype: int64
1    5
2    5
3    5
dtype: int64
2    a
1    b
3    c
dtype: object
0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64


### DataFrame

`DataFrame` jest analogią do dwuwymiarowej tablicy NumPy, która ma dowolnie zdefiniowany indeks zarówno dla wierszy i kolumn. `DataFrame` jest kolekcją obiektów typu `Series` o wspólnym indeksie:

In [24]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

Zauważ jak obiekt typu `DataFrame` powstaje przez przekazanie słownika którego klucze są nazwami kolumn, a wartości są obiekty typu `Series`:

In [27]:
states = pd.DataFrame({'population': population,
                       'area': area})  # Tworzymy obiekt typu `DataFrame`
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


`DataFrame` posiada atrybut `index` który dostarcza nam indeksy wierszy, oraz atrybut `columns` który dostarcza indeksy kolumn.

In [29]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [30]:
states.columns

Index(['population', 'area'], dtype='object')

Tworzenie obiektów typu `DataFrame`:

In [33]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]


dfs = [
    pd.DataFrame(population, columns=['population']),  # z jednego `Series`
    pd.DataFrame(data),  # z listy słowników
    pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}]),  # pandas sam wypełni brakujące indeksy
    pd.DataFrame({'population': population,
              'area': area}),  # słownik `Series`
    pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c']),  # z dwuwymiarowej tablicy numpy
]
for df in dfs:
    print(df)

            population
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
   a  b
0  0  0
1  1  2
2  2  4
     a  b    c
0  1.0  2  NaN
1  NaN  3  4.0
            population    area
California    38332521  423967
Texas         26448193  695662
New York      19651127  141297
Florida       19552860  170312
Illinois      12882135  149995
        foo       bar
a  0.759339  0.797239
b  0.415441  0.526431
c  0.486620  0.738861


### Index

`Index` bardzo przypomina tablicę numpy z tą różnicą, że obiekty typu `Index` są niemutowalne:

In [34]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [35]:
ind[1] = 0

TypeError: Index does not support mutable operations

### Indeksowanie i wybieranie danych

Ponieważ obiekty typu `Series` posiadają swój indeks, ale mogą być również indeksowane z użyciem domyślnego indeksu z numpy, musimy dobrze rozumieć kiedy korzystamy z którego indeksowania:

In [36]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [41]:
data[1]  # indeks typu `Series`

'a'

In [42]:
data[1:3]  # indeks z numpy

3    b
5    c
dtype: object

Aby lepiej wiedzieć kiedy korzystamy z którego indeksu istnieją atrybuty `loc` oraz `iloc`.

`loc` używa indeksu z `Series`:

In [45]:
data.loc[1]

'a'

In [46]:
data.loc[1:3]

1    a
3    b
dtype: object

`iloc` korzysta z indeksów tablicy numpy

In [48]:
data.iloc[1]
data.iloc[1:3]

3    b
5    c
dtype: object

### Wybieranie danych z DataFrame

Pierwszy sposób w jaki możemy wybierać dane z DataFrame, to traktując go jako słownik typu `Series`:

In [49]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [50]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [54]:
data['density'] = data['pop'] / data['area']

data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Z drugiej strony możemy myśleć o DataFrame jako o rozbudowanej dwuwymiarowej tablicy:

In [55]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [58]:
data.loc[:'Texas', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


In [59]:
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


In [60]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### Operowanie na brakujących danych w Pandas

W Pythonie brakujące wartości możemy reprezentować jako `None`, jednak ponieważ `None` jest singletonem (ma własny typ i istnieje tylko jeden obiekt typu `None`), to nie możemy go sprawnie używać w NumPy:

In [61]:
vals1 = np.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

Ponieważ jedyny wspólny typ dla tych obiektów to typ `object`, wszystkie operacje będą wykonywane dla pojedynczych elementów i tracimy wektorowość:

In [62]:
for dtype in ['object', 'int']:
    print("dtype =", dtype)
    %timeit np.arange(1E6, dtype=dtype).sum()
    print()

dtype = object
80.4 ms ± 1.65 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

dtype = int
1.01 ms ± 21.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)



Nie możemy również korzystać z operacji liczbowych:

In [63]:
vals1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

Innym sposobem reprezentacji brakujących danych liczbowych jest użycie `NaN` - _not a number_

In [64]:
vals2 = np.array([1, np.nan, 3, 4]) 
vals2.dtype

dtype('float64')

Dzięki temu zachowujemy liczbowy typ, jednak operacje liczbowe wciąż są źle zdefiniowane:

In [65]:
1 + np.nan

nan

In [66]:
vals2.sum(), vals2.min(), vals2.max()

(nan, nan, nan)

Korzystając z numpy możemy użyć specjalnych funkcji omijających numpy:

In [67]:
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)

(8.0, 1.0, 4.0)

#### NaN i None w Pandas

`Pandas` traktuje `NaN` `None` w ten sam sposób:

In [68]:
pd.Series([1, np.nan, 2, None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

W Pandas mamy również specjalne metody które pozwalają nam znajdować, usuwać i wypełniać puste wartości:

In [73]:
data = pd.Series([1, np.nan, 'hello', None])
data.isnull()  # znajdowanie pustych wartości

0    False
1     True
2    False
3     True
dtype: bool

In [74]:
data[data.notnull()]  # wybieranie niepustych wartości

0        1
2    hello
dtype: object

In [75]:
data.dropna()  # usuwanie pustych wartości

0        1
2    hello
dtype: object

In [76]:
data.fillna(0)  # wypełnianie pustych wartości

0        1
1        0
2    hello
3        0
dtype: object

### Łączenie DataFrame w Pandas

Funkcją służącą do łączenia `DataFrame` jest `pd.concat`, która w działaniu jest podobna do `np.concatenate`

In [77]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])  

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [79]:
def make_df(cols, ind):
    """Stwórz DataFrame z kombinacji cols i ind"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

# example DataFrame
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [83]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
print(pd.concat([df1, df2]))  # łączenie po wierszach
print(pd.concat([df1, df2], axis=1))  # łączenie po kolumnach

    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4
     A    B    A    B
1   A1   B1  NaN  NaN
2   A2   B2  NaN  NaN
3  NaN  NaN   A3   B3
4  NaN  NaN   A4   B4


Ponieważ łączenie DataFrame jest bardzo typową operacją, możemy też stosować do tego `.append`:

In [84]:
df1.append(df2)

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


Innym rodzajem łączenia DataFrame jaki możemy wykonywać są _joiny_ które możemy znać z SQL, joiny w Pandas wykonujemy z użyciem `pd.merge`

In [85]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})

In [86]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


`pd.merge` samo rozpoznało wspólną kolumnę `employee` i połączyło tabele z jej użyciem

Funkcja ta ignoruje również indeksy wejściowych data frame, chyba, że korzystamy z łączenia przez indeks.

In [87]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})

In [88]:
pd.merge(df3, df4)

Unnamed: 0,employee,group,hire_date,supervisor
0,Bob,Accounting,2008,Carly
1,Jake,Engineering,2012,Guido
2,Lisa,Engineering,2004,Guido
3,Sue,HR,2014,Steve


In [89]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting',
                              'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux',
                               'spreadsheets', 'organization']})

In [90]:
pd.merge(df1, df5)

Unnamed: 0,employee,group,skills
0,Bob,Accounting,math
1,Bob,Accounting,spreadsheets
2,Jake,Engineering,coding
3,Jake,Engineering,linux
4,Lisa,Engineering,coding
5,Lisa,Engineering,linux
6,Sue,HR,spreadsheets
7,Sue,HR,organization


Jeżeli chcemy wprost powiedzieć po której kolumnie chcemy wykonać łączenie możemy podać ją przez parametr `on`:

In [91]:
pd.merge(df1, df2, on='employee')

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


Jeżeli tabele mają różne nazwy kolumn po których chcemy je połączyć możemy skorzystać z `left_on` i `right_on`

In [92]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'salary': [70000, 80000, 120000, 90000]})

In [93]:
pd.merge(df1, df3, left_on="employee", right_on="name")

Unnamed: 0,employee,group,name,salary
0,Bob,Accounting,Bob,70000
1,Jake,Engineering,Jake,80000
2,Lisa,Engineering,Lisa,120000
3,Sue,HR,Sue,90000


Ponieważ taka tabela ma zbedną kolumnę, możemy ją usunąc przez `drop`:

In [94]:
pd.merge(df1, df3, left_on="employee", right_on="name").drop('name', axis=1)

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


In [95]:
pd.merge?

Rodzaj łączenia wybieramy poprzez parametr `how`.
Możliwe wartości dla tego parametru to:

- left
- right
- outer
- inner
- cross

In [109]:
df1 = make_df('AB', [1, 2, 4])
df2 = make_df('ABCD', [1, 2, 5, 6])

In [110]:
df1

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
4,A4,B4


In [111]:
df2

Unnamed: 0,A,B,C,D
1,A1,B1,C1,D1
2,A2,B2,C2,D2
5,A5,B5,C5,D5
6,A6,B6,C6,D6


Przykłady różnych typów operacji join:

In [113]:
for how in ('left', 'right', 'outer', 'inner'):
    print(f'df1 {how} join df2')
    print(pd.merge(df1, df2, on='A', how=how))
    print('-'*10)

df1 left join df2
    A B_x  B_y    C    D
0  A1  B1   B1   C1   D1
1  A2  B2   B2   C2   D2
2  A4  B4  NaN  NaN  NaN
----------
df1 right join df2
    A  B_x B_y   C   D
0  A1   B1  B1  C1  D1
1  A2   B2  B2  C2  D2
2  A5  NaN  B5  C5  D5
3  A6  NaN  B6  C6  D6
----------
df1 outer join df2
    A  B_x  B_y    C    D
0  A1   B1   B1   C1   D1
1  A2   B2   B2   C2   D2
2  A4   B4  NaN  NaN  NaN
3  A5  NaN   B5   C5   D5
4  A6  NaN   B6   C6   D6
----------
df1 inner join df2
    A B_x B_y   C   D
0  A1  B1  B1  C1  D1
1  A2  B2  B2  C2  D2
----------


### Agregacja i grupowanie

Agregacje jakie domyślnie możemy stosować w Pandas są analogiczne do tych które występują w NumPy. Wywołanie agregacji na `DataFrame` zwraca wynik dla każdej kolumny:

In [116]:
df = pd.DataFrame({'A': np.random.rand(5),
                   'B': np.random.rand(5)})
df

Unnamed: 0,A,B
0,0.629021,0.942657
1,0.195232,0.645657
2,0.41502,0.92477
3,0.074134,0.953929
4,0.243796,0.993559


In [117]:
df.mean()

A    0.311441
B    0.892115
dtype: float64

Inne agregacje jakie możemy wykonywać:

- `count()`
- `first()`, `last()`
- `mean()`, `median()`
- `min()`, `max()`
- `std()`, `var()`
- `mad()`
- `prod()`
- `sum()`

Aby móc wykonywać bardziej skomplikowane zapytania, musimy jednak połączyć agregacje z odpowiednim grupowaniem. Grupowanie polega na podzieleniu zbioru danych na mniejsze zbiory na podstawie unikalnych wartości w kolumnie po której grupujemy i wykonaniu danej agregacji. Wyniki agregacji są następnie łączone w nowy zbiór danych. Nie musimy jednak wykonywać tych operacji samodzielnie - służy do tego funkcja `groupby`.

In [119]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


In [120]:
df.groupby('key')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x11b80aaf0>

Wynik działania `groupby` to obiekt typu `DataFrameGroupBy`, na takim obiekcie możemy następnie wywołać funkcję agregująca która wykona wszystkie operacje potrzebne do obliczenia wyniku grupowania:

In [121]:
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


Co więcej obiekt typu `GroupBy` wspiera również indeksowanie:

In [125]:
df.groupby('key')['data'].median()

key
A    1.5
B    2.5
C    3.5
Name: data, dtype: float64