![](imgs/logo.png)

# Przetwarzanie Big Data z użyciem Apache Spark

Autor notebooka: Jakub Nowacki.

## Pandas

[Pandas](http://pandas.pydata.org/) to biblioteka dostarczająca wygodne w użyciu struktury danych i narzędzia do ich analizy. Inspirowane tutorialem [10 minutes to Pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html). Zobacz też [dokumentację](http://pandas.pydata.org/pandas-docs/stable/index.html) oraz [Pandas Cheat Sheet](https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf)

Pandas importujemy używając nazwy `pandas`, najlepiej w całości jako pakiet. Często stosowany jest alias `pd`.

In [1]:
import pandas as pd
import numpy as np # Nie wymagane, użyjemy tylko elementów

Podstawowymi strukturami danych w Pandas jest Series (seria) i DataFrame (obiekt tabeli); zobacz [dokumentacje](http://pandas.pydata.org/pandas-docs/stable/dsintro.html) po więcej informacji.

## Series

Series jest to jednowymiarowa struktura danych podobna do `ndarray`. Serię tworzymy za pomocą polecena `Series`; jako dane możemy przekazać wiele kolekcji:

In [2]:
l = [1,3,5,np.nan,6,8]
s = pd.Series(l)
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

Series posiada indeks, który będzie stworzony automatycznie jeżeli nie został przekazany lub można go stworzyć:

In [3]:
daty = pd.date_range('20170101', periods=6)
daty

DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
               '2017-01-05', '2017-01-06'],
              dtype='datetime64[ns]', freq='D')

In [4]:
s = pd.Series(l, index=daty)
s

2017-01-01    1.0
2017-01-02    3.0
2017-01-03    5.0
2017-01-04    NaN
2017-01-05    6.0
2017-01-06    8.0
Freq: D, dtype: float64

Niemniej, może to być każda seria która jest przynajmniej tak długa jak dane:

In [9]:
#index to jakakolwiek kolekcja, moze byc np List("abcde")
s = pd.Series(np.random.randn(5), index=['a','b','c','d','e'])
s

a   -1.386650
b   -0.124889
c    0.035596
d   -0.183479
e   -0.436986
dtype: float64

Pobierać dane z Series możemy jak w Numpy:

In [10]:
print('s[1] = \n{}'.format(s[1]))
print('s[2:] = \n{}'.format(s[2:]))
print('s[1:-2] = \n{}'.format(s[1:-2]))

s[1] = 
-0.124888565862
s[2:] = 
c    0.035596
d   -0.183479
e   -0.436986
dtype: float64
s[1:-2] = 
b   -0.124889
c    0.035596
dtype: float64


Możemy też robić to jak w słowniku (lub lepiej), jeżeli indeks na to pozwala:

In [11]:
print('s["b"] = \n{}'.format(s["b"]))
print('s["c":] = \n{}'.format(s["c":]))
print('s["b":"c"] = \n{}'.format(s["b":"c"]))

s["b"] = 
-0.124888565862
s["c":] = 
c    0.035596
d   -0.183479
e   -0.436986
dtype: float64
s["b":"c"] = 
b   -0.124889
c    0.035596
dtype: float64


Można też wykonywać operacje na serii:

In [12]:
print('s*5 = \n{}'.format(s*5))
print('s**3 = \n{}'.format(s**3))
print('s*s = \n{}'.format(s*s))
print('s+s = \n{}'.format(s+s))

s*5 = 
a   -6.933248
b   -0.624443
c    0.177980
d   -0.917395
e   -2.184929
dtype: float64
s**3 = 
a   -2.666246
b   -0.001948
c    0.000045
d   -0.006177
e   -0.083445
dtype: float64
s*s = 
a    1.922797
b    0.015597
c    0.001267
d    0.033665
e    0.190957
dtype: float64
s+s = 
a   -2.773299
b   -0.249777
c    0.071192
d   -0.366958
e   -0.873971
dtype: float64


## DataFrame

DataFrame jest obiektem dwuwymiarowym, który w obsłudze przypomina tabelę. Każda kolumna ma nazwę i jest serią danych (Series). Wszystkie kolumny mają wspólny indeks. Operacje można wykonywać na całych kolumnach lub wierszach. DataFrame tworzymy operacją `DataFrame`:

In [13]:
df = pd.DataFrame(np.random.randn(6,4), index=daty, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2017-01-01,1.880968,0.399949,0.161039,0.225513
2017-01-02,0.395422,1.824773,0.174324,2.38517
2017-01-03,0.024649,0.207175,-0.420581,0.714171
2017-01-04,0.758169,-0.174576,0.662936,-0.674693
2017-01-05,0.273499,1.584938,-0.301835,0.772814
2017-01-06,0.012442,0.690055,-0.698111,0.567882


Można też przekazać słownik:

In [18]:
df2 = pd.DataFrame({ 'A' : np.arange(0,4),
                     'B' : pd.Timestamp('20130102'),
                     'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                     'D' : np.array([3] * 4,dtype='int32'),
                     'E' : pd.Categorical(["test","train","test","train"]),
                     'F' : 'foo' })
df2

Unnamed: 0,A,B,C,D,E,F
0,0,2013-01-02,1.0,3,test,foo
1,1,2013-01-02,1.0,3,train,foo
2,2,2013-01-02,1.0,3,test,foo
3,3,2013-01-02,1.0,3,train,foo


Albo kolekcji słowników:

In [19]:
df3 = pd.DataFrame([{'A': 1, 'B': 2}, {'C': 3}])
df3

Unnamed: 0,A,B,C
0,1.0,2.0,
1,,,3.0


Istneje też wiele innych metod tworzenia i czytania DataFrame, które zostały opicane w [dokumentacji](http://pandas.pydata.org/pandas-docs/stable/dsintro.html).

Pobierać dane można jak w serii i innych kolekcjach Pythonowych:

In [20]:
print("df['A'] = \n{}".format(df['A'])) # Kolumna
print("df[1:3] = \n{}".format(df[1:3]))

df['A'] = 
2017-01-01    1.880968
2017-01-02    0.395422
2017-01-03    0.024649
2017-01-04    0.758169
2017-01-05    0.273499
2017-01-06    0.012442
Freq: D, Name: A, dtype: float64
df[1:3] = 
                   A         B         C         D
2017-01-02  0.395422  1.824773  0.174324  2.385170
2017-01-03  0.024649  0.207175 -0.420581  0.714171


Niemniej zalecane jest używanie zoptymalizowanych funkcji Pandas:

In [21]:
print("df.loc[:,'A']) = \n{}".format(df.loc[:,'A'])) 
print("df.loc[daty[0],'A'] = \n{}".format(df.loc[daty[0],'A'])) 
print("df.at[daty[0],'A'] = \n{}".format(df.at[daty[0],'A'])) # Pobiera skalar szybciej
print("df.iloc[:,0]] = \n{}".format(df.iloc[:,0])) 
print("df.iloc[0,0] = \n{}".format(df.iloc[0,0])) 
print("df.iat[0,0] = \n{}".format(df.iat[0,0])) # Pobiera skalar szybciej
print("df.ix[0,0] = \n{}".format(df.iat[0,0]))

df.loc[:,'A']) = 
2017-01-01    1.880968
2017-01-02    0.395422
2017-01-03    0.024649
2017-01-04    0.758169
2017-01-05    0.273499
2017-01-06    0.012442
Freq: D, Name: A, dtype: float64
df.loc[daty[0],'A'] = 
1.88096828947
df.at[daty[0],'A'] = 
1.88096828947
df.iloc[:,0]] = 
2017-01-01    1.880968
2017-01-02    0.395422
2017-01-03    0.024649
2017-01-04    0.758169
2017-01-05    0.273499
2017-01-06    0.012442
Freq: D, Name: A, dtype: float64
df.iloc[0,0] = 
1.88096828947
df.iat[0,0] = 
1.88096828947
df.ix[0,0] = 
1.88096828947


Można też używać wyrażeń boolowskich do filtrowania wyników:

In [24]:
df[df.B > 0.5]


Unnamed: 0,A,B,C,D
2017-01-02,0.395422,1.824773,0.174324,2.38517
2017-01-05,0.273499,1.584938,-0.301835,0.772814
2017-01-06,0.012442,0.690055,-0.698111,0.567882


Jest też dostęp do poszczególnych elementów takich jak:

In [25]:
print('Indeks:\n{}'.format(df.index))
print('Kolumny:\n{}'.format(df.columns))
print('Początek:\n{}'.format(df.head(2)))
print('Koniec:\n{}'.format(df.tail(3)))

Indeks:
DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
               '2017-01-05', '2017-01-06'],
              dtype='datetime64[ns]', freq='D')
Kolumny:
Index([u'A', u'B', u'C', u'D'], dtype='object')
Początek:
                   A         B         C         D
2017-01-01  1.880968  0.399949  0.161039  0.225513
2017-01-02  0.395422  1.824773  0.174324  2.385170
Koniec:
                   A         B         C         D
2017-01-04  0.758169 -0.174576  0.662936 -0.674693
2017-01-05  0.273499  1.584938 -0.301835  0.772814
2017-01-06  0.012442  0.690055 -0.698111  0.567882


Dane można też sortować po indeksie:

In [36]:
df = pd.DataFrame(np.random.randn(100,4),columns=list('ABCD'))
#df.sort_index(ascending=True)
df.sort_values('D').head(20)


Unnamed: 0,A,B,C,D
67,-0.553046,0.119585,0.671251,-2.094164
62,0.512592,-0.028891,0.417297,-1.964113
5,-0.520253,1.019338,1.144938,-1.807068
68,0.132317,-0.331333,-0.893269,-1.734896
8,0.487894,1.704513,-0.88398,-1.592005
55,0.280422,0.675912,0.313279,-1.545301
25,-0.602793,0.974928,0.362788,-1.485061
69,0.281303,0.5773,0.948886,-1.432805
40,0.677443,-0.813131,0.415935,-1.368647
73,-0.872816,0.568329,-0.275964,-1.339239


In [38]:
#pobranie wartosci z pozycji argumenty sa etykietami tabeli
df.loc[67,'B']

0.11958531125661095

In [40]:
#pobranie wartosci z pozycji argumenty sa indeksem jak w normalnej tablicy
df.iloc[67,1]

0.11958531125661095

Po kolumnach:

In [29]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2017-01-01,0.225513,0.161039,0.399949,1.880968
2017-01-02,2.38517,0.174324,1.824773,0.395422
2017-01-03,0.714171,-0.420581,0.207175,0.024649
2017-01-04,-0.674693,0.662936,-0.174576,0.758169
2017-01-05,0.772814,-0.301835,1.584938,0.273499
2017-01-06,0.567882,-0.698111,0.690055,0.012442


Lub po wartościach:

In [None]:
df.sort_values('B')

Można też tabelę transponować:

In [None]:
df.T

Nową kolumnę dodajemy przez przypisanie:

In [None]:
df3['Z'] = ['aa', 'bb']
df3

Zmiana pojedynczej wartości może być również zrobiona przez przypisanie; używamy wtedy komend lokalizacyjnych, np:

In [41]:
df3.at[0, 'C'] = 33
df3

Unnamed: 0,A,B,C
0,1.0,2.0,33.0
1,,,3.0


In [42]:
df3.at[2,:] = np.nan
df3

Unnamed: 0,A,B,C
0,1.0,2.0,33.0
1,,,3.0
2,,,


Pandas posiada również metody radzenia sobie z brakującymi danymi:

In [43]:
df3.dropna(how='any')

Unnamed: 0,A,B,C
0,1.0,2.0,33.0


In [44]:
df3.dropna(how='all')

Unnamed: 0,A,B,C
0,1.0,2.0,33.0
1,,,3.0


In [45]:
df3.fillna(-100)

Unnamed: 0,A,B,C
0,1.0,2.0,33.0
1,-100.0,-100.0,3.0
2,-100.0,-100.0,-100.0


Dostępne są również funkcje statystyczne, np:

In [None]:
df.describe()

In [46]:
df.mean()

A   -0.060772
B    0.112204
C   -0.095164
D   -0.008847
dtype: float64

Dodatkowo, można używać funkcji znanych z baz danych jak grupowanie czy złączenie (join):

In [49]:
df2.groupby('E').size()

E
test     2
train    2
dtype: int64

In [None]:
df2.groupby('E').mean()

In [48]:
df2.join(df3, how='right', rsuffix='_3')

Unnamed: 0,A,B,C,D,E,F,A_3,B_3,C_3
0,0,2013-01-02,1.0,3,test,foo,1.0,2.0,33.0
1,1,2013-01-02,1.0,3,train,foo,,,3.0
2,2,2013-01-02,1.0,3,test,foo,,,


## Zadanie

Należy stworzyć DataFrame `samochody` z losową kolumną liczb całkowitych `przebieg` z przedziału [0, 200 000] oraz `spalanie` z przedziału [2, 20]. 
* dodaj kolumne `marka`
    * jeżeli samochód ma spalanie [0, 5] marka to VW
    * jeżeli samochód ma spalanie [6, 10] marka to Ford
    * jeżeli samochód ma spalanie 11 i więcej, marka to UAZ
* dodaj kolumne `pochodzenie`:
    * jeżeli przebieg poniżej 100 km, pochodzenie `nowy`
    * jeżeli przebieg powyżej 100 km, pochodzenie `uzywany`
    * jeżeli przebieg powyżej 100 000 km, pochodzenie `z niemiec`
* przeanalizuj dane statystycznie
* ★ pogrupuj dane po `marce` i po `pochodzenie`:
    * sprawdź liczność grup
    * wykonaj analizę statystyczną

In [87]:
samochody = pd.DataFrame({ 'przebieg' : np.random.randint(0,200001,50),
                     'spalanie' : np.random.rand(50)*18 +2})

samochody.loc[samochody.spalanie <= 5,'marka'] = 'VW'
samochody.loc[(samochody.spalanie > 5) & (samochody.spalanie < 11),'marka'] = 'Ford'
samochody.loc[samochody.spalanie >= 11,'marka'] = 'UAZ'
              
samochody.head(10)


Unnamed: 0,przebieg,spalanie,marka
0,157294,10.09169,Ford
1,70898,13.265133,UAZ
2,165096,10.678254,Ford
3,186818,6.387675,Ford
4,41026,16.93764,UAZ
5,193054,14.310653,UAZ
6,93932,10.05603,Ford
7,181423,4.603565,VW
8,59662,2.975203,VW
9,120712,9.046793,Ford


In [73]:
np.random.randint(0,200000)

12255