## Pandas

Kolejną biblioteką którą poznamy będzie Pandas. Pandas to pakiet zbudowany na bazie NumPy który dostarcza nam obiekty typu `DataFrame`, które są wielowymiarowymi tabelami z indeksami dla kolumn i wierszy. Poznamy dzisiaj w jaki sposób korzystać z abstrakcji dostarczanych przez Pandas i jak pracować z obiektami będacymi częścią tego pakietu.

Zaczniemy od zaimportowania pakietu:

In [None]:
import pandas as pd
import numpy as np

### Series

`Series` jest jednowymiarową tablicą danych z indeksem, można go stworzyć z listy lub tabeli:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

`index` jest typu `pd.Index`, o którymi opowiem za chwilę,

`values` jest zwykła numpy tablicą reprezentująca wartości danego `Series`:

In [None]:
print(data.index) 
print(data.values)

Podstawową różnicą między `Series` a zwykłą tablicą, jest fakt, że możemy sami w nim ustalić indeks:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])  # ustalamy indeks jako obiekty typu `str`
data

In [None]:
data['b']

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])  # indeksy są liczbami, ale nie muszą mieć konkretnej kolejności
data

Tak jak tablice w NumPy reprezentują kolekcje pojedynczego typu co pomaga nam wykonywać pewne operacje szybciej, podobnie `Series` możemy rozumieć jako implementacje mapy (słownika) zawierającej wartości tego samego typu:

In [None]:
population_dict = {'California': 38332521,
                   'Texas'     : 26448193,
                   'New York'  : 19651127,
                   'Florida'   : 19552860,
                   'Illinois'  : 12882135}
population = pd.Series(population_dict)
population

In [None]:
population['California']

Jednak wciąż możemy korzystać z operacji typowych dla tablic jak np. slice:

In [None]:
population['California':'Illinois']

Obiekty typu `Series` możemy tworzyć na różne sposoby:

In [None]:
series = [
    pd.Series([2, 4, 6]),  # z listy
    pd.Series(5, index=[1, 2, 3]),  # jako jedna wartość, która jest powtarzana dla indeksów
    pd.Series({2: 'a', 1: 'b', 3: 'c'}),  # ze słownika
    pd.Series(np.arange(10))  # z tablicy numpy
]
for serie in series:
    print(serie)

### DataFrame

`DataFrame` jest analogią do dwuwymiarowej tablicy NumPy, która ma dowolnie zdefiniowany indeks zarówno dla wierszy i kolumn. `DataFrame` jest kolekcją obiektów typu `Series` o wspólnym indeksie:

In [None]:
area_dict = {'California': 423967,
             'Texas'     : 695662,
             'New York'  : 141297,
             'Florida'   : 170312,
             'Illinois'  : 149995}
area = pd.Series(area_dict)
area

Zauważ jak obiekt typu `DataFrame` powstaje przez przekazanie słownika którego klucze są nazwami kolumn, a wartościami są obiekty typu `Series`:

In [None]:
states = pd.DataFrame({
    'population': population,
    'area'      : area
})  # Tworzymy obiekt typu `DataFrame`
states

`DataFrame` posiada atrybut `index` który dostarcza nam indeksy wierszy, oraz atrybut `columns` który dostarcza indeksy kolumn.

In [None]:
states.index

In [None]:
states.columns

Tworzenie obiektów typu `DataFrame`:

In [None]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]
dfs = [
    pd.DataFrame(population, columns=['population']),  # z jednego `Series`
    pd.DataFrame(data),  # z listy słowników
    pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}]),  # pandas sam wypełni brakujące indeksy
    pd.DataFrame({
        'population': population,
        'area': area
    }),  # słownik `Series`
    pd.DataFrame(
        np.random.rand(3, 2),
        columns=['foo', 'bar'],
        index=['a', 'b', 'c']
    )  # z dwuwymiarowej tablicy numpy
]

In [None]:
for df in dfs:
    print(df)

### Index

`Index` bardzo przypomina tablicę numpy z tą różnicą, że obiekty typu `Index` są niemutowalne:

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

In [None]:
ind[1] = 0

### Indeksowanie i wybieranie danych

Ponieważ obiekty typu `Series` posiadają swój indeks, ale mogą być również indeksowane z użyciem domyślnego indeksu z numpy, musimy dobrze rozumieć kiedy korzystamy z którego indeksowania:

In [None]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

In [None]:
data[1]  # indeks typu `Series`

In [None]:
data[1:3]  # indeks z numpy

Aby lepiej wiedzieć kiedy korzystamy z którego indeksu istnieją atrybuty `loc` oraz `iloc`.

`loc` używa indeksu z `Series`:

In [None]:
data.loc[1]

In [None]:
data.loc[1:3]

`iloc` korzysta z indeksów tablicy numpy

In [None]:
data.iloc[1]
data.iloc[1:3]

### Wybieranie danych z DataFrame

Pierwszy sposób w jaki możemy wybierać dane z DataFrame, to traktując go jako słownik typu `Series`:

In [None]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

In [None]:
data['area']

In [None]:
data['density'] = data['pop'] / data['area']

data

Z drugiej strony możemy myśleć o DataFrame jako o rozbudowanej dwuwymiarowej tablicy:

In [None]:
data.iloc[:3, :2]

In [None]:
data.loc[:'Texas', :'pop']

In [None]:
data.loc[data.density > 100, ['pop', 'density']]

In [None]:
data.iloc[0, 2] = 90
data

### Operowanie na brakujących danych w Pandas

W Pythonie brakujące wartości możemy reprezentować jako `None`, jednak ponieważ `None` jest singletonem (ma własny typ i istnieje tylko jeden obiekt typu `None`), to nie możemy go sprawnie używać w NumPy:

In [None]:
vals1 = np.array([1, None, 3, 4])
vals1

Ponieważ jedyny wspólny typ dla tych obiektów to typ `object`, wszystkie operacje będą wykonywane dla pojedynczych elementów i tracimy wektorowość:

In [None]:
for dtype in ['object', 'int']:
    print("dtype =", dtype)
    %timeit np.arange(1E6, dtype=dtype).sum()
    print()

Nie możemy również korzystać z operacji liczbowych:

In [None]:
vals1.sum()

Innym sposobem reprezentacji brakujących danych liczbowych jest użycie `NaN` - _not a number_

In [None]:
vals2 = np.array([1, np.nan, 3, 4]) 
vals2.dtype

Dzięki temu zachowujemy liczbowy typ, jednak operacje liczbowe wciąż są źle zdefiniowane:

In [None]:
1 + np.nan

In [None]:
vals2.sum(), vals2.min(), vals2.max()

Korzystając z numpy możemy użyć specjalnych funkcji omijających numpy:

In [None]:
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)

#### NaN i None w Pandas

`Pandas` traktuje `NaN` `None` w ten sam sposób:

In [None]:
pd.Series([1, np.nan, 2, None])

W Pandas mamy również specjalne metody które pozwalają nam znajdować, usuwać i wypełniać puste wartości:

In [None]:
data = pd.Series([1, np.nan, 'hello', None])
data.isnull()  # znajdowanie pustych wartości

In [None]:
data[data.notnull()]  # wybieranie niepustych wartości

In [None]:
data.dropna()  # usuwanie pustych wartości

In [None]:
data.fillna(0)  # wypełnianie pustych wartości

### Łączenie DataFrame w Pandas

Funkcją służącą do łączenia `DataFrame` jest `pd.concat`, która w działaniu jest podobna do `np.concatenate`

In [None]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])  

In [None]:
def make_df(cols, ind):
    """Stwórz DataFrame z kombinacji cols i ind"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

# example DataFrame
make_df('ABC', range(3))

In [None]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
print(pd.concat([df1, df2]))  # łączenie po wierszach
print(pd.concat([df1, df2], axis=1))  # łączenie po kolumnach

Ponieważ łączenie DataFrame jest bardzo typową operacją, możemy też stosować do tego `.append`:

In [None]:
df1.append(df2)

Innym rodzajem łączenia DataFrame jaki możemy wykonywać są _joiny_ które możemy znać z SQL, joiny w Pandas wykonujemy z użyciem `pd.merge`

In [None]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})

In [None]:
df3 = pd.merge(df1, df2)
df3

`pd.merge` samo rozpoznało wspólną kolumnę `employee` i połączyło tabele z jej użyciem

Funkcja ta ignoruje również indeksy wejściowych data frame, chyba, że korzystamy z łączenia przez indeks.

In [None]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})

In [None]:
pd.merge(df3, df4)

In [None]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting',
                              'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux',
                               'spreadsheets', 'organization']})

In [None]:
pd.merge(df1, df5)

Jeżeli chcemy wprost powiedzieć po której kolumnie chcemy wykonać łączenie możemy podać ją przez parametr `on`:

In [None]:
pd.merge(df1, df2, on='employee')

Jeżeli tabele mają różne nazwy kolumn po których chcemy je połączyć możemy skorzystać z `left_on` i `right_on`

In [None]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'salary': [70000, 80000, 120000, 90000]})

In [None]:
pd.merge(df1, df3, left_on="employee", right_on="name")

Ponieważ taka tabela ma zbedną kolumnę, możemy ją usunąc przez `drop`:

In [None]:
pd.merge(df1, df3, left_on="employee", right_on="name").drop('name', axis=1)

In [None]:
pd.merge?

Rodzaj łączenia wybieramy poprzez parametr `how`.
Możliwe wartości dla tego parametru to:

- left
- right
- outer
- inner
- cross

In [None]:
df1 = make_df('AB', [1, 2, 4])
df2 = make_df('ABCD', [1, 2, 5, 6])

In [None]:
df1

In [None]:
df2

Przykłady różnych typów operacji join:

In [None]:
for how in ('left', 'right', 'outer', 'inner'):
    print(f'df1 {how} join df2')
    print(pd.merge(df1, df2, on='A', how=how))
    print('-'*10)

### Agregacja i grupowanie

Agregacje jakie domyślnie możemy stosować w Pandas są analogiczne do tych które występują w NumPy. Wywołanie agregacji na `DataFrame` zwraca wynik dla każdej kolumny:

In [None]:
df = pd.DataFrame({'A': np.random.rand(5),
                   'B': np.random.rand(5)})
df

In [None]:
df.mean()

Inne agregacje jakie możemy wykonywać:

- `count()`
- `first()`, `last()`
- `mean()`, `median()`
- `min()`, `max()`
- `std()`, `var()`
- `mad()`
- `prod()`
- `sum()`

Aby móc wykonywać bardziej skomplikowane zapytania, musimy jednak połączyć agregacje z odpowiednim grupowaniem. Grupowanie polega na podzieleniu zbioru danych na mniejsze zbiory na podstawie unikalnych wartości w kolumnie po której grupujemy i wykonaniu danej agregacji. Wyniki agregacji są następnie łączone w nowy zbiór danych. Nie musimy jednak wykonywać tych operacji samodzielnie - służy do tego funkcja `groupby`.

In [None]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

In [None]:
df.groupby('key')

Wynik działania `groupby` to obiekt typu `DataFrameGroupBy`, na takim obiekcie możemy następnie wywołać funkcję agregująca która wykona wszystkie operacje potrzebne do obliczenia wyniku grupowania:

In [None]:
df.groupby('key').sum()

Co więcej obiekt typu `GroupBy` wspiera również indeksowanie:

In [None]:
df.groupby('key')['data'].median()