# Przetwarzanie danych w Pythonie - Pandas

![](https://upload.wikimedia.org/wikipedia/commons/e/ed/Pandas_logo.svg)

## Pandas

Kolejną biblioteką którą poznamy będzie Pandas. Pandas to pakiet zbudowany na bazie NumPy który dostarcza nam obiekty typu `DataFrame`, które są wielowymiarowymi tabelami z indeksami dla kolumn i wierszy. Poznamy dzisiaj w jaki sposób korzystać z abstrakcji dostarczanych przez Pandas i jak pracować z obiektami będacymi częścią tego pakietu.

Zaczniemy od zaimportowania pakietu:

In [1]:
import pandas as pd
import numpy as np

### Series

`Series` jest jednowymiarową tablicą danych z indeksem, można go stworzyć z listy lub tabeli:

In [4]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
print(data)

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64


`index` jest typu `pd.Index`, o którymi opowiem za chwilę:

In [5]:
print(data.index)

RangeIndex(start=0, stop=4, step=1)


In [6]:
print(type(data.index))

<class 'pandas.core.indexes.range.RangeIndex'>


`values` jest zwykłą numpy tablicą reprezentująca wartości danego `Series`:

In [7]:
print(data.values)

[0.25 0.5  0.75 1.  ]


In [8]:
print(type(data.values))

<class 'numpy.ndarray'>


Podstawową różnicą między `Series` a zwykłą tablicą, jest fakt, że możemy sami w nim ustalić indeks:

In [9]:
data = pd.Series(      [0.25, 0.5, 0.75, 1.0],
                 index=['a',  'b', 'c',  'd'])  # ustalamy indeks jako obiekty typu `str`
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [10]:
data['b']

0.5

In [11]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])  # indeksy są liczbami, ale nie muszą mieć konkretnej kolejności
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

Tak jak tablice w NumPy reprezentują kolekcje pojedynczego typu co pomaga nam wykonywać pewne operacje szybciej, podobnie `Series` możemy rozumieć jako implementacje mapy (słownika) zawierającej wartości tego samego typu:

In [12]:
population_dict = {'California': 38332521,
                   'Texas'     : 26448193,
                   'New York'  : 19651127,
                   'Florida'   : 19552860,
                   'Illinois'  : 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [13]:
population['California']

38332521

Jednak wciąż możemy korzystać z operacji typowych dla tablic jak np. slice:

In [14]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Obiekty typu `Series` możemy tworzyć na różne sposoby:

In [15]:
pd.Series([2, 4, 6])  # z listy

0    2
1    4
2    6
dtype: int64

In [16]:
pd.Series(5, index=[1, 2, 3])  # jako jedna wartość, która jest powtarzana dla indeksów

1    5
2    5
3    5
dtype: int64

In [17]:
pd.Series({2: 'a', 1: 'b', 3: 'c'})  # ze słownika

2    a
1    b
3    c
dtype: object

In [18]:
pd.Series(np.arange(10))  # z tablicy numpy

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

### DataFrame

`DataFrame` jest analogią do dwuwymiarowej tablicy NumPy, która ma dowolnie zdefiniowany indeks zarówno dla wierszy i kolumn. `DataFrame` jest kolekcją obiektów typu `Series` o wspólnym indeksie:

In [19]:
area_dict = {'California': 423967,
             'Texas'     : 695662,
             'New York'  : 141297,
             'Florida'   : 170312,
             'Illinois'  : 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

Zauważ jak obiekt typu `DataFrame` powstaje przez przekazanie słownika którego klucze są nazwami kolumn, a wartościami są obiekty typu `Series`:

In [23]:
states = pd.DataFrame({
    'population': population,
    'area'      : area
})  # Tworzymy obiekt typu `DataFrame`
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


`DataFrame` posiada atrybut `index` który dostarcza nam indeksy wierszy, oraz atrybut `columns` który dostarcza indeksy kolumn.

In [24]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [25]:
states.columns

Index(['population', 'area'], dtype='object')

Tworzenie obiektów typu `DataFrame`:

In [26]:
pd.DataFrame(population, columns=['population'])  # z jednego `Series`

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [28]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]
print(data)
pd.DataFrame(data)  # z listy słowników

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]


Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [29]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])  # pandas sam wypełni brakujące indeksy

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [30]:
pd.DataFrame({
    'population': population,
    'area': area
})  # słownik `Series`

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [31]:
pd.DataFrame(
    np.random.rand(3, 2),
    columns=['foo', 'bar'],
    index=['a', 'b', 'c']    
)  # z dwuwymiarowej tablicy numpy

Unnamed: 0,foo,bar
a,0.900514,0.513636
b,0.390411,0.202348
c,0.228359,0.262071


### Index

`Index` bardzo przypomina tablicę numpy z tą różnicą, że obiekty typu `Index` są niemutowalne:

In [32]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [33]:
ind[1] = 0

TypeError: Index does not support mutable operations

### Indeksowanie i wybieranie danych

Ponieważ obiekty typu `Series` posiadają swój indeks, ale mogą być również indeksowane z użyciem domyślnego indeksu z numpy, musimy dobrze rozumieć kiedy korzystamy z którego indeksowania:

In [34]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [38]:
data[1]  # indeks typu `Series`

'a'

In [39]:
data[1:3]  # indeks z numpy

3    b
5    c
dtype: object

Aby lepiej wiedzieć kiedy korzystamy z którego indeksu istnieją atrybuty `loc` oraz `iloc`.

`loc` używa indeksu z `Series`:

In [40]:
data

1    a
3    b
5    c
dtype: object

In [41]:
data.loc[1]

'a'

In [42]:
data.loc[1:3]

1    a
3    b
dtype: object

`iloc` korzysta z indeksów tablicy numpy

In [43]:
data

1    a
3    b
5    c
dtype: object

In [44]:
data.iloc[1]

'b'

In [45]:
data.iloc[1:3]

3    b
5    c
dtype: object

### Wybieranie danych z DataFrame

Pierwszy sposób w jaki możemy wybierać dane z DataFrame, to traktując go jako słownik typu `Series`:

In [46]:
area = pd.Series({
    'California': 423967,   'Texas'  : 695662,
    'New York'  : 141297,   'Florida': 170312,
    'Illinois'  : 149995
})
pop = pd.Series({
    'California': 38332521, 'Texas'  : 26448193,
    'New York'  : 19651127, 'Florida': 19552860,
    'Illinois'  : 12882135
})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [47]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [48]:
data['density'] = data['pop'] / data['area']

In [49]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Z drugiej strony możemy myśleć o DataFrame jako o rozbudowanej dwuwymiarowej tablicy:

In [50]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [51]:
data.loc[:'Texas', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


In [52]:
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


In [53]:
data.iloc[0, 2] = 90

In [54]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### Operowanie na brakujących danych w Pandas

W Pythonie brakujące wartości możemy reprezentować jako `None`, jednak ponieważ `None` jest singletonem (ma własny typ i istnieje tylko jeden obiekt typu `None`), to nie możemy go sprawnie używać w NumPy:

In [55]:
vals1 = np.array([1, None, 3, 4])

In [56]:
vals1

array([1, None, 3, 4], dtype=object)

In [57]:
vals1.dtype

dtype('O')

Ponieważ jedyny wspólny typ dla tych obiektów to typ `object`, wszystkie operacje będą wykonywane dla pojedynczych elementów i tracimy wektorowość.

`object` (bardzo wolno):

In [58]:
%timeit np.arange(2_000_000, dtype=object).sum()

60.7 ms ± 277 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


`int` (bardzo szybko):

In [59]:
%timeit np.arange(2_000_000, dtype=int).sum()

1.44 ms ± 38 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Nie możemy również korzystać z operacji liczbowych:

In [60]:
vals1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

Innym sposobem reprezentacji brakujących danych liczbowych jest użycie `NaN` - _not a number_

In [61]:
vals2 = np.array([1, np.nan, 3, 4]) 

In [62]:
vals2

array([ 1., nan,  3.,  4.])

In [63]:
vals2.dtype

dtype('float64')

Dzięki temu zachowujemy liczbowy typ, jednak operacje liczbowe wciąż są źle zdefiniowane:

In [64]:
vals2

array([ 1., nan,  3.,  4.])

In [65]:
1 + np.nan

nan

In [66]:
vals2.sum()

nan

In [67]:
vals2.min()

nan

In [68]:
vals2.max()

nan

Korzystając z NumPy możemy użyć specjalnych funkcji omijających NaN:

In [69]:
vals2

array([ 1., nan,  3.,  4.])

In [70]:
np.nansum(vals2)

8.0

In [71]:
np.nanmin(vals2)

1.0

In [72]:
np.nanmax(vals2)

4.0

#### NaN i None w Pandas

Pandas traktuje `NaN` i `None` w ten sam sposób:

In [73]:
pd.Series([1, np.nan, 2, None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

W Pandas mamy również specjalne metody które pozwalają nam znajdować, usuwać i wypełniać puste wartości:

In [74]:
data = pd.Series([1, np.nan, 'hello', None])

In [75]:
data

0        1
1      NaN
2    hello
3     None
dtype: object

In [76]:
data.isnull()  # znajdowanie pustych wartości

0    False
1     True
2    False
3     True
dtype: bool

In [77]:
data[data.notnull()]  # wybieranie niepustych wartości

0        1
2    hello
dtype: object

In [78]:
data.dropna()  # usuwanie pustych wartości

0        1
2    hello
dtype: object

In [81]:
data.fillna(0)  # wypełnianie pustych wartości

0        1
1        0
2    hello
3        0
dtype: object

### Łączenie DataFrame w Pandas

Funkcją służącą do łączenia `DataFrame` jest `pd.concat`, która w działaniu jest podobna do `np.concatenate`.

In [82]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])

In [83]:
ser1

1    A
2    B
3    C
dtype: object

In [84]:
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])

In [85]:
ser2

4    D
5    E
6    F
dtype: object

In [86]:
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [87]:
def make_df(cols, ind):
    """Stwórz DataFrame z kombinacji cols i ind"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

In [88]:
# example DataFrame
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [89]:
df1 = make_df('AB', [1, 2])

In [90]:
df1

Unnamed: 0,A,B
1,A1,B1
2,A2,B2


In [91]:
df2 = make_df('AB', [3, 4])

In [92]:
df2

Unnamed: 0,A,B
3,A3,B3
4,A4,B4


In [93]:
pd.concat([df1, df2])  # łączenie po wierszach

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


In [94]:
pd.concat([df1, df2], axis=1)  # łączenie po kolumnach

Unnamed: 0,A,B,A.1,B.1
1,A1,B1,,
2,A2,B2,,
3,,,A3,B3
4,,,A4,B4


Ponieważ łączenie DataFrame jest bardzo typową operacją, możemy (jeszcze) też stosować do tego `.append`.

"Jeszcze", ponieważ metoda `.append` jest już przestarzała i zostanie usunięta z Pandas w przyszłej wersji. Zamiast tego, w przyszłości będzie można używać wyłącznie `.concat`.

In [95]:
df1.append(df2)

  df1.append(df2)


Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


Innym rodzajem łączenia DataFrame jaki możemy wykonywać są _joiny_ które możemy znać z SQL, joiny w Pandas wykonujemy z użyciem `pd.merge`.

In [96]:
df1 = pd.DataFrame({'employee': ['Bob',        'Jake',        'Lisa',        'Sue'],
                    'group'   : ['Accounting', 'Engineering', 'Engineering', 'HR' ]})

In [97]:
df1

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [98]:
df2 = pd.DataFrame({'employee' : ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [ 2004,   2008,  2012,   2014]}) 

In [99]:
df2

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2008
2,Jake,2012
3,Sue,2014


In [100]:
df3 = pd.merge(df1, df2)

In [101]:
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


`pd.merge` samo rozpoznało wspólną kolumnę `employee` i połączyło tabele z jej użyciem.

Funkcja (właść. metoda) ta ignoruje również indeksy wejściowych data frame, chyba, że korzystamy z łączenia przez indeks.

In [102]:
df4 = pd.DataFrame({'group'     : ['Accounting', 'Engineering', 'HR'   ],
                    'supervisor': ['Carly',      'Guido',       'Steve']})

In [103]:
df4

Unnamed: 0,group,supervisor
0,Accounting,Carly
1,Engineering,Guido
2,HR,Steve


In [104]:
pd.merge(df3, df4)

Unnamed: 0,employee,group,hire_date,supervisor
0,Bob,Accounting,2008,Carly
1,Jake,Engineering,2012,Guido
2,Lisa,Engineering,2004,Guido
3,Sue,HR,2014,Steve


In [105]:
df5 = pd.DataFrame({
    'group' : [
        'Accounting',   
        'Accounting',
        'Engineering',  
        'Engineering',
        'HR',           
        'HR'],
    'skills': [
        'math',         
        'spreadsheets',
        'coding',       
        'linux',
        'spreadsheets', 
        'organization']
})

In [106]:
df5

Unnamed: 0,group,skills
0,Accounting,math
1,Accounting,spreadsheets
2,Engineering,coding
3,Engineering,linux
4,HR,spreadsheets
5,HR,organization


In [107]:
pd.merge(df1, df5)

Unnamed: 0,employee,group,skills
0,Bob,Accounting,math
1,Bob,Accounting,spreadsheets
2,Jake,Engineering,coding
3,Jake,Engineering,linux
4,Lisa,Engineering,coding
5,Lisa,Engineering,linux
6,Sue,HR,spreadsheets
7,Sue,HR,organization


Jeżeli chcemy wprost powiedzieć po której kolumnie chcemy wykonać łączenie możemy podać ją przez parametr `on`:

In [108]:
pd.merge(df1, df2, on='employee')

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


Jeżeli tabele mają różne nazwy kolumn po których chcemy je połączyć możemy skorzystać z `left_on` i `right_on`

In [109]:
df3 = pd.DataFrame({
    'name': [
        'Bob',
        'Jake',
        'Lisa', 
        'Sue'],
    'salary': [
        70000,
        80000,
        120000,
        90000]})

In [110]:
df3

Unnamed: 0,name,salary
0,Bob,70000
1,Jake,80000
2,Lisa,120000
3,Sue,90000


In [112]:
pd.merge(df1, df3, left_on="employee", right_on="name")

Unnamed: 0,employee,group,name,salary
0,Bob,Accounting,Bob,70000
1,Jake,Engineering,Jake,80000
2,Lisa,Engineering,Lisa,120000
3,Sue,HR,Sue,90000


Ponieważ taka tabela ma zbedną kolumnę, możemy ją usunąc przez `drop`:

In [113]:
pd.merge(df1, df3, left_on="employee", right_on="name").drop('name', axis=1)

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


In [114]:
pd.merge?

Rodzaj łączenia wybieramy przez parametr `how`.
Możliwe wartości dla tego parametru to:

- **left**
- **right**
- **outer**
- **inner**
- **cross**

In [115]:
df1 = make_df('AB', [1, 2, 4])

In [116]:
df1

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
4,A4,B4


In [117]:
df2 = make_df('ABCD', [1, 2, 5, 6])

In [118]:
df2

Unnamed: 0,A,B,C,D
1,A1,B1,C1,D1
2,A2,B2,C2,D2
5,A5,B5,C5,D5
6,A6,B6,C6,D6


Przykłady różnych typów operacji join...

`df1` **left** join `df2`:

In [119]:
pd.merge(df1, df2, on='A', how='left')

Unnamed: 0,A,B_x,B_y,C,D
0,A1,B1,B1,C1,D1
1,A2,B2,B2,C2,D2
2,A4,B4,,,


`df1` **right** join `df2`:

In [120]:
pd.merge(df1, df2, on='A', how='right')

Unnamed: 0,A,B_x,B_y,C,D
0,A1,B1,B1,C1,D1
1,A2,B2,B2,C2,D2
2,A5,,B5,C5,D5
3,A6,,B6,C6,D6


`df1` **outer** join `df2`:

In [121]:
pd.merge(df1, df2, on='A', how='outer')

Unnamed: 0,A,B_x,B_y,C,D
0,A1,B1,B1,C1,D1
1,A2,B2,B2,C2,D2
2,A4,B4,,,
3,A5,,B5,C5,D5
4,A6,,B6,C6,D6


`df1` **inner** join `df2`:

In [122]:
pd.merge(df1, df2, on='A', how='inner')

Unnamed: 0,A,B_x,B_y,C,D
0,A1,B1,B1,C1,D1
1,A2,B2,B2,C2,D2


### Agregacja i grupowanie

Agregacje jakie domyślnie możemy stosować w Pandas są analogiczne do tych które występują w NumPy. Wywołanie agregacji na `DataFrame` zwraca wynik dla każdej kolumny:

In [123]:
df = pd.DataFrame({
    'A': np.random.rand(5),
    'B': np.random.rand(5)
})

In [124]:
df

Unnamed: 0,A,B
0,0.094742,0.910494
1,0.786113,0.799974
2,0.740445,0.728554
3,0.10018,0.418735
4,0.164201,0.374782


In [125]:
df.mean()

A    0.377136
B    0.646508
dtype: float64

Inne agregacje jakie możemy wykonywać:

- `count()`
- `first()`, `last()`
- `mean()`, `median()`
- `min()`, `max()`
- `std()`, `var()`
- `mad()`
- `prod()`
- `sum()`

Aby móc wykonywać bardziej skomplikowane zapytania, musimy jednak połączyć agregacje z odpowiednim grupowaniem. Grupowanie polega na podzieleniu zbioru danych na mniejsze zbiory na podstawie unikalnych wartości w kolumnie po której grupujemy i wykonaniu danej agregacji. Wyniki agregacji są następnie łączone w nowy zbiór danych. Nie musimy jednak wykonywać tych operacji samodzielnie - służy do tego funkcja `groupby`.

In [126]:
df = pd.DataFrame(
    {
        'key' : ['A', 'B', 'C', 'A', 'B', 'C'],
        'data': range(6)
    },
    columns=['key', 'data']
)

In [127]:
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


In [128]:
df.groupby('key')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x13808ae00>

Wynik działania `groupby` to obiekt typu `DataFrameGroupBy`.

Na takim obiekcie możemy następnie wywołać funkcję agregująca która wykona wszystkie operacje potrzebne do obliczenia wyniku grupowania:

In [129]:
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


Co więcej obiekt typu `GroupBy` wspiera również indeksowanie:

In [130]:
df.groupby('key')['data'].median()

key
A    1.5
B    2.5
C    3.5
Name: data, dtype: float64