![](imgs/logo.png)

# Przetwarzanie Big Data z użyciem Apache Spark

Autor notebooka: Jakub Nowacki.

## Pandas

[Pandas](http://pandas.pydata.org/) to biblioteka dostarczająca wygodne w użyciu struktury danych i narzędzia do ich analizy. Inspirowane tutorialem [10 minutes to Pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html). Zobacz też [dokumentację](http://pandas.pydata.org/pandas-docs/stable/index.html) oraz [Pandas Cheat Sheet](https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf)

Pandas importujemy używając nazwy `pandas`, najlepiej w całości jako pakiet. Często stosowany jest alias `pd`.

In [1]:
import pandas as pd
import numpy as np # Nie wymagane, użyjemy tylko elementów

Podstawowymi strukturami danych w Pandas jest Series (seria) i DataFrame (obiekt tabeli); zobacz [dokumentacje](http://pandas.pydata.org/pandas-docs/stable/dsintro.html) po więcej informacji.

## Series

Series jest to jednowymiarowa struktura danych podobna do `ndarray`. Serię tworzymy za pomocą polecena `Series`; jako dane możemy przekazać wiele kolekcji:

In [2]:
l = [1,3,5,np.nan,6,8]
s = pd.Series(l)
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

Series posiada indeks, który będzie stworzony automatycznie jeżeli nie został przekazany lub można go stworzyć:

In [None]:
daty = pd.date_range('20170101', periods=6)
daty

In [None]:
s = pd.Series(l, index=daty)
s

Niemniej, może to być każda seria która jest przynajmniej tak długa jak dane:

In [None]:
s = pd.Series(np.random.randn(5), index=list('abcde'))
s

Pobierać dane z Series możemy jak w Numpy:

In [None]:
print('s[1] = \n{}'.format(s[1]))
print('s[2:] = \n{}'.format(s[2:]))
print('s[1:-2] = \n{}'.format(s[1:-2]))

Możemy też robić to jak w słowniku (lub lepiej), jeżeli indeks na to pozwala:

In [None]:
print('s["b"] = \n{}'.format(s["b"]))
print('s["c":] = \n{}'.format(s["c":]))
print('s["b":"c"] = \n{}'.format(s["b":"c"]))

Można też wykonywać operacje na serii:

In [None]:
print('s*5 = \n{}'.format(s*5))
print('s**3 = \n{}'.format(s**3))
print('s*s = \n{}'.format(s*s))
print('s+s = \n{}'.format(s+s))

## DataFrame

DataFrame jest obiektem dwuwymiarowym, który w obsłudze przypomina tabelę. Każda kolumna ma nazwę i jest serią danych (Series). Wszystkie kolumny mają wspólny indeks. Operacje można wykonywać na całych kolumnach lub wierszach. DataFrame tworzymy operacją `DataFrame`:

In [None]:
df = pd.DataFrame(np.random.randn(6,4), index=daty, columns=list('ABCD'))
df

Można też przekazać słownik:

In [None]:
df2 = pd.DataFrame({ 'A' : 1.,
                     'B' : pd.Timestamp('20130102'),
                     'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                     'D' : np.array([3] * 4,dtype='int32'),
                     'E' : pd.Categorical(["test","train","test","train"]),
                     'F' : 'foo' })
df2

Albo kolekcji słowników:

In [None]:
df3 = pd.DataFrame([{'A': 1, 'B': 2}, {'C': 3}])
df3

Istneje też wiele innych metod tworzenia i czytania DataFrame, które zostały opicane w [dokumentacji](http://pandas.pydata.org/pandas-docs/stable/dsintro.html).

Pobierać dane można jak w serii i innych kolekcjach Pythonowych:

In [None]:
print("df['A'] = \n{}".format(df['A'])) # Kolumna
print("df[1:3] = \n{}".format(df[1:3]))

Niemniej zalecane jest używanie zoptymalizowanych funkcji Pandas:

In [None]:
print("df.loc[:,'A']) = \n{}".format(df.loc[:,'A'])) 
print("df.loc[daty[0],'A'] = \n{}".format(df.loc[daty[0],'A'])) 
print("df.at[daty[0],'A'] = \n{}".format(df.at[daty[0],'A'])) # Pobiera skalar szybciej
print("df.iloc[:,0]] = \n{}".format(df.iloc[:,0])) 
print("df.iloc[0,0] = \n{}".format(df.iloc[0,0])) 
print("df.iat[0,0] = \n{}".format(df.iat[0,0])) # Pobiera skalar szybciej
print("df.ix[0,0] = \n{}".format(df.iat[0,0]))

Można też używać wyrażeń boolowskich do filtrowania wyników:

In [None]:
df[df.B > 0.5]

Jest też dostęp do poszczególnych elementów takich jak:

In [None]:
print('Indeks:\n{}'.format(df.index))
print('Kolumny:\n{}'.format(df.columns))
print('Początek:\n{}'.format(df.head(2)))
print('Koniec:\n{}'.format(df.tail(3)))

Dane można też sortować po indeksie:

In [None]:
df.sort_index(ascending=False)

Po kolumnach:

In [None]:
df.sort_index(axis=1, ascending=False)

Lub po wartościach:

In [None]:
df.sort_values('B')

Można też tabelę transponować:

In [None]:
df.T

Nową kolumnę dodajemy przez przypisanie:

In [None]:
df3['Z'] = ['aa', 'bb']
df3

Zmiana pojedynczej wartości może być również zrobiona przez przypisanie; używamy wtedy komend lokalizacyjnych, np:

In [None]:
df3.at[0, 'C'] = 33
df3

In [None]:
df3.at[2,:] = np.nan
df3

Pandas posiada również metody radzenia sobie z brakującymi danymi:

In [None]:
df3.dropna(how='any')

In [None]:
df3.dropna(how='all')

In [None]:
df3.fillna(-100)

Dostępne są również funkcje statystyczne, np:

In [None]:
df.describe()

In [None]:
df.mean()

Dodatkowo, można używać funkcji znanych z baz danych jak grupowanie czy złączenie (join):

In [None]:
df2.groupby('E').size()

In [None]:
df2.groupby('E').mean()

In [None]:
df2.join(df3, how='left', rsuffix='_3')

## Zadanie

Należy stworzyć DataFrame `samochody` z losową kolumną liczb całkowitych `przebieg` z przedziału [0, 200 000] oraz `spalanie` z przedziału [2, 20]. 
* dodaj kolumne `marka`
    * jeżeli samochód ma spalanie [0, 5] marka to VW
    * jeżeli samochód ma spalanie [6, 10] marka to Ford
    * jeżeli samochód ma spalanie 11 i więcej, marka to UAZ
* dodaj kolumne `pochodzenie`:
    * jeżeli przebieg poniżej 100 km, pochodzenie `nowy`
    * jeżeli przebieg powyżej 100 km, pochodzenie `uzywany`
    * jeżeli przebieg powyżej 100 000 km, pochodzenie `z niemiec`
* przeanalizuj dane statystycznie
* ★ pogrupuj dane po `marce` i po `pochodzenie`:
    * sprawdź liczność grup
    * wykonaj analizę statystyczną