![](http://sigdelta.com/assets/images/sages-sd-logo.png)

# Analiza danych i uczenie maszynowe w Python

Autor notebooka: Jakub Nowacki.

## Pandas

[Pandas](http://pandas.pydata.org/) to biblioteka dostarczająca wygodne w użyciu struktury danych i narzędzia do ich analizy. Inspirowane tutorialem [10 minutes to Pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html). Zobacz też [dokumentację](http://pandas.pydata.org/pandas-docs/stable/index.html) oraz [Pandas Cheat Sheet](https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf)

Pandas importujemy używając nazwy `pandas`, najlepiej w całości jako pakiet. Często stosowany jest alias `pd`.

In [1]:
import pandas as pd
import numpy as np # Nie wymagane, użyjemy tylko elementów

Podstawowymi strukturami danych w Pandas jest Series (seria) i DataFrame (obiekt tabeli); zobacz [dokumentacje](http://pandas.pydata.org/pandas-docs/stable/dsintro.html) po więcej informacji.

## Series

Series jest to jednowymiarowa struktura danych podobna do `ndarray`. Serię tworzymy za pomocą polecenia `Series`; jako dane możemy przekazać wiele kolekcji:

In [2]:
l = [1,3,5,np.nan,6,8] #nan - null, typ zmiennoprzecinkowy
s = pd.Series(l)
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

Series posiada indeks, który będzie stworzony automatycznie jeżeli nie został przekazany lub można go stworzyć:

In [3]:
daty = pd.date_range('20170101', periods=6)
daty

DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
               '2017-01-05', '2017-01-06'],
              dtype='datetime64[ns]', freq='D')

In [4]:
s = pd.Series(l, index=daty)
s

2017-01-01    1.0
2017-01-02    3.0
2017-01-03    5.0
2017-01-04    NaN
2017-01-05    6.0
2017-01-06    8.0
Freq: D, dtype: float64

Niemniej, może to być każda seria która jest przynajmniej tak długa jak dane:

In [8]:
s = pd.Series(np.random.randn(5), index=list('abcde'))
s

a    0.184847
b   -1.364057
c   -0.636579
d   -0.140950
e    0.851419
dtype: float64

Pobierać dane z Series możemy jak w Numpy:

In [9]:
print('s[1] = \n{}'.format(s[1]))
print('s[2:] = \n{}'.format(s[2:]))
print('s[1:-2] = \n{}'.format(s[1:-2]))

s[1] = 
-1.3640572138424583
s[2:] = 
c   -0.636579
d   -0.140950
e    0.851419
dtype: float64
s[1:-2] = 
b   -1.364057
c   -0.636579
dtype: float64


Możemy też robić to jak w słowniku (lub lepiej), jeżeli indeks na to pozwala:

In [10]:
print('s["b"] = \n{}'.format(s["b"]))
print('s["c":] = \n{}'.format(s["c":]))
print('s["b":"c"] = \n{}'.format(s["b":"c"]))

s["b"] = 
-1.3640572138424583
s["c":] = 
c   -0.636579
d   -0.140950
e    0.851419
dtype: float64
s["b":"c"] = 
b   -1.364057
c   -0.636579
dtype: float64


Można też wykonywać operacje na serii:

In [None]:
print('s*5 = \n{}'.format(s*5))
print('s**3 = \n{}'.format(s**3))
print('s*s = \n{}'.format(s*s))
print('s+s = \n{}'.format(s+s))

## DataFrame

DataFrame jest obiektem dwuwymiarowym, który w obsłudze przypomina tabelę. Każda kolumna ma nazwę i jest serią danych (Series). Wszystkie kolumny mają wspólny indeks. Operacje można wykonywać na całych kolumnach lub wierszach. DataFrame tworzymy operacją `DataFrame`:

In [13]:
df = pd.DataFrame(np.random.randn(6,4), index=daty, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2017-01-01,1.773303,2.363457,0.450669,0.464703
2017-01-02,0.221947,-0.507454,-0.983028,1.135348
2017-01-03,-0.570985,-0.924019,-0.528488,-1.392875
2017-01-04,-0.863964,1.046262,0.289189,3.161066
2017-01-05,-0.460102,-0.081658,-0.506982,-1.460664
2017-01-06,1.497849,0.277127,0.087733,-2.683416


Można też przekazać słownik:

In [14]:
df2 = pd.DataFrame({ 'A' : 1.,
                     'B' : pd.Timestamp('20130102'),
                     'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                     'D' : np.array([3] * 4,dtype='int32'),
                     'E' : pd.Categorical(["test","train","test","train"]),
                     'F' : 'foo' })
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


Albo kolekcji słowników:

In [15]:
df3 = pd.DataFrame([{'A': 1, 'B': 2}, {'C': 3}])
df3

Unnamed: 0,A,B,C
0,1.0,2.0,
1,,,3.0


Istnieje też wiele innych metod tworzenia i czytania DataFrame, które zostały opicane w [dokumentacji](http://pandas.pydata.org/pandas-docs/stable/dsintro.html).

Pobierać dane można jak w serii i innych kolekcjach Pythonowych:

In [16]:
print("df['A'] = \n{}".format(df['A'])) # Kolumna
print("df[1:3] = \n{}".format(df[1:3]))

df['A'] = 
2017-01-01    1.773303
2017-01-02    0.221947
2017-01-03   -0.570985
2017-01-04   -0.863964
2017-01-05   -0.460102
2017-01-06    1.497849
Freq: D, Name: A, dtype: float64
df[1:3] = 
                   A         B         C         D
2017-01-02  0.221947 -0.507454 -0.983028  1.135348
2017-01-03 -0.570985 -0.924019 -0.528488 -1.392875


Niemniej zalecane jest używanie zoptymalizowanych funkcji Pandas:

In [17]:
print("df.loc[:,'A']) = \n{}".format(df.loc[:,'A'])) #loc wyciaga wartosci po nazwach
print("df.loc[daty[0],'A'] = \n{}".format(df.loc[daty[0],'A'])) 
print("df.at[daty[0],'A'] = \n{}".format(df.at[daty[0],'A'])) # Pobiera skalar szybciej
print("df.iloc[:,0]] = \n{}".format(df.iloc[:,0])) #loc wyciaga wartosci po wartoscach numerycznych indeksow
print("df.iloc[0,0] = \n{}".format(df.iloc[0,0])) 
print("df.iat[0,0] = \n{}".format(df.iat[0,0])) # Pobiera skalar szybciej
print("df.ix[0,0] = \n{}".format(df.iat[0,0]))

df.loc[:,'A']) = 
2017-01-01    1.773303
2017-01-02    0.221947
2017-01-03   -0.570985
2017-01-04   -0.863964
2017-01-05   -0.460102
2017-01-06    1.497849
Freq: D, Name: A, dtype: float64
df.loc[daty[0],'A'] = 
1.7733025477171593
df.at[daty[0],'A'] = 
1.7733025477171593
df.iloc[:,0]] = 
2017-01-01    1.773303
2017-01-02    0.221947
2017-01-03   -0.570985
2017-01-04   -0.863964
2017-01-05   -0.460102
2017-01-06    1.497849
Freq: D, Name: A, dtype: float64
df.iloc[0,0] = 
1.7733025477171593
df.iat[0,0] = 
1.7733025477171593
df.ix[0,0] = 
1.7733025477171593


Można też używać wyrażeń boolowskich do filtrowania wyników:

In [18]:
df[df.B > 0.5]

Unnamed: 0,A,B,C,D
2017-01-01,1.773303,2.363457,0.450669,0.464703
2017-01-04,-0.863964,1.046262,0.289189,3.161066


Jest też dostęp do poszczególnych elementów takich jak:

In [19]:
print('Indeks:\n{}'.format(df.index))
print('Kolumny:\n{}'.format(df.columns))
print('Początek:\n{}'.format(df.head(2)))
print('Koniec:\n{}'.format(df.tail(3)))

Indeks:
DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
               '2017-01-05', '2017-01-06'],
              dtype='datetime64[ns]', freq='D')
Kolumny:
Index(['A', 'B', 'C', 'D'], dtype='object')
Początek:
                   A         B         C         D
2017-01-01  1.773303  2.363457  0.450669  0.464703
2017-01-02  0.221947 -0.507454 -0.983028  1.135348
Koniec:
                   A         B         C         D
2017-01-04 -0.863964  1.046262  0.289189  3.161066
2017-01-05 -0.460102 -0.081658 -0.506982 -1.460664
2017-01-06  1.497849  0.277127  0.087733 -2.683416


Dane można też sortować po indeksie:

In [20]:
df.sort_index(ascending=False)

Unnamed: 0,A,B,C,D
2017-01-06,1.497849,0.277127,0.087733,-2.683416
2017-01-05,-0.460102,-0.081658,-0.506982,-1.460664
2017-01-04,-0.863964,1.046262,0.289189,3.161066
2017-01-03,-0.570985,-0.924019,-0.528488,-1.392875
2017-01-02,0.221947,-0.507454,-0.983028,1.135348
2017-01-01,1.773303,2.363457,0.450669,0.464703


Po kolumnach:

In [None]:
df.sort_index(axis=1, ascending=False)

Lub po wartościach:

In [21]:
df.sort_values('B')

Unnamed: 0,A,B,C,D
2017-01-03,-0.570985,-0.924019,-0.528488,-1.392875
2017-01-02,0.221947,-0.507454,-0.983028,1.135348
2017-01-05,-0.460102,-0.081658,-0.506982,-1.460664
2017-01-06,1.497849,0.277127,0.087733,-2.683416
2017-01-04,-0.863964,1.046262,0.289189,3.161066
2017-01-01,1.773303,2.363457,0.450669,0.464703


Można też tabelę transponować:

In [22]:
df.T

Unnamed: 0,2017-01-01 00:00:00,2017-01-02 00:00:00,2017-01-03 00:00:00,2017-01-04 00:00:00,2017-01-05 00:00:00,2017-01-06 00:00:00
A,1.773303,0.221947,-0.570985,-0.863964,-0.460102,1.497849
B,2.363457,-0.507454,-0.924019,1.046262,-0.081658,0.277127
C,0.450669,-0.983028,-0.528488,0.289189,-0.506982,0.087733
D,0.464703,1.135348,-1.392875,3.161066,-1.460664,-2.683416


Nową kolumnę dodajemy przez przypisanie:

In [23]:
df3['Z'] = ['aa', 'bb']
df3

Unnamed: 0,A,B,C,Z
0,1.0,2.0,,aa
1,,,3.0,bb


Zmiana pojedynczej wartości może być również zrobiona przez przypisanie; używamy wtedy komend lokalizacyjnych, np:

In [24]:
df3.at[0, 'C'] = 33
df3

Unnamed: 0,A,B,C,Z
0,1.0,2.0,33.0,aa
1,,,3.0,bb


In [None]:
df3.at[2,:] = np.nan
df3

Pandas posiada również metody radzenia sobie z brakującymi danymi:

In [25]:
df3.dropna(how='any')#usuwa wiersz gdzie jest jakikolwiek null

Unnamed: 0,A,B,C,Z
0,1.0,2.0,33.0,aa


In [26]:
df3.dropna(how='all')#usuwa wiersz jesli jest caly nullowy

Unnamed: 0,A,B,C,Z
0,1.0,2.0,33.0,aa
1,,,3.0,bb


In [34]:
df3.fillna(-100) # zamiast fillna mozna uzyc interpolate i tu jest wiecej mozliwosci tego czym uzupelnimy
#df3.ffill() #bierze wartosc poprzedzajaca w miejsce nulla
df3.ffill(limit=1) #bierze wartosc poprzedzajaca w miejsce nulla , limit okresla dla ilu nulli w kazdej kolumnie to wykona

Unnamed: 0,A,B,C,Z
0,1.0,2.0,33.0,aa
1,1.0,2.0,3.0,bb


Dostępne są również funkcje statystyczne, np:

In [35]:
df.describe()
df3.describe()

Unnamed: 0,A,B,C
count,1.0,1.0,2.0
mean,1.0,2.0,18.0
std,,,21.213203
min,1.0,2.0,3.0
25%,1.0,2.0,10.5
50%,1.0,2.0,18.0
75%,1.0,2.0,25.5
max,1.0,2.0,33.0


In [None]:
df.mean()

Dodatkowo, można używać funkcji znanych z baz danych jak grupowanie czy złączenie (join):

In [29]:
df2.groupby('E').size()

E
test     2
train    2
dtype: int64

In [36]:
df2.groupby('E').mean()

Unnamed: 0_level_0,A,C,D
E,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
test,1.0,1.0,3
train,1.0,1.0,3


In [30]:
df2.join(df3, how='left', rsuffix='_3') # po indeksie

Unnamed: 0,A,B,C,D,E,F,A_3,B_3,C_3,Z
0,1.0,2013-01-02,1.0,3,test,foo,1.0,2.0,33.0,aa
1,1.0,2013-01-02,1.0,3,train,foo,,,3.0,bb
2,1.0,2013-01-02,1.0,3,test,foo,,,,
3,1.0,2013-01-02,1.0,3,train,foo,,,,


In [37]:
df2.merge(df3) #join po czym chcemy, zwykle wykorzystywany do laczenia po kolumnach

Unnamed: 0,A,B,C,D,E,F,Z


In [38]:
df2.merge(df3, how='outer')

Unnamed: 0,A,B,C,D,E,F,Z
0,1.0,2013-01-02 00:00:00.000000000,1.0,3.0,test,foo,
1,1.0,2013-01-02 00:00:00.000000000,1.0,3.0,train,foo,
2,1.0,2013-01-02 00:00:00.000000000,1.0,3.0,test,foo,
3,1.0,2013-01-02 00:00:00.000000000,1.0,3.0,train,foo,
4,1.0,2116-02-20 23:53:38.427387904,33.0,,,,aa
5,,2262-03-16 22:17:17.041090560,3.0,,,,bb


In [39]:
# Odpowiednik:
# df2.join(df3, how='left', rsuffix='_3')
df2.merge(df3, right_index=True, left_index=True, how='left', suffixes=('', '_3'))

Unnamed: 0,A,B,C,D,E,F,A_3,B_3,C_3,Z
0,1.0,2013-01-02,1.0,3,test,foo,1.0,2.0,33.0,aa
1,1.0,2013-01-02,1.0,3,train,foo,,,3.0,bb
2,1.0,2013-01-02,1.0,3,test,foo,,,,
3,1.0,2013-01-02,1.0,3,train,foo,,,,


In [41]:
df2.append(df3) #zlepia jedno pod drugim ale bedzie podwojny indeks w wierszach
df2.append(df3,ignore_index=True) #zignoruje stare indeksy i zrobi nowe

Unnamed: 0,A,B,C,D,E,F,Z
0,1.0,2013-01-02 00:00:00,1.0,3.0,test,foo,
1,1.0,2013-01-02 00:00:00,1.0,3.0,train,foo,
2,1.0,2013-01-02 00:00:00,1.0,3.0,test,foo,
3,1.0,2013-01-02 00:00:00,1.0,3.0,train,foo,
4,1.0,2,33.0,,,,aa
5,,,3.0,,,,bb


In [None]:
df2.append(df3, ignore_index=True)

In [None]:
pd.concat([df2, df3])

In [None]:
pd.concat([df2, df3], ignore_index=True)

In [None]:
pd.concat([df2, df3], join='inner')

## Zadanie

Należy stworzyć DataFrame `samochody` z losową kolumną liczb całkowitych `przebieg` z przedziału [0, 200 000] oraz `spalanie` z przedziału [2, 20]. 
* dodaj kolumnę `marka`
    * jeżeli samochód ma spalanie [0, 5] marka to VW
    * jeżeli samochód ma spalanie [6, 10] marka to Ford
    * jeżeli samochód ma spalanie 11 i więcej, marka to UAZ
* dodaj kolumnę `pochodzenie`:
    * jeżeli przebieg poniżej 100 km, pochodzenie `nowy`
    * jeżeli przebieg powyżej 100 km, pochodzenie `uzywany`
    * jeżeli przebieg powyżej 100 000 km, pochodzenie `z niemiec`
* przeanalizuj dane statystycznie
* ★ pogrupuj dane po `marce` i po `pochodzenie`:
    * sprawdź liczność grup
    * wykonaj analizę statystyczną

In [43]:
np.random.randn(6,4)

array([[-1.72880845,  0.85012169,  0.92619317,  0.70008375],
       [-1.54197928, -0.51557998,  1.34049087, -0.45016842],
       [ 0.49233311, -0.3802069 ,  0.06241974,  0.53854279],
       [ 0.83154057, -2.66545357,  2.17163732, -1.58047243],
       [-3.11785174, -0.59999585,  0.91515598, -0.35731085],
       [ 0.82222337, -2.68817645,  0.30054004,  2.11729526]])

In [54]:
n=50
samochody=pd.DataFrame({ 'przebieg' : np.random.randint(0, 200000,n),
               'spalanie' : np.random.random(n)*18+2
             })
samochody['marka']=pd.cut(samochody.spalanie, bins=[0,5,10,100], labels=['VW','Ford','UAZ'])
samochody
#pd.qcut
samochody['pochodzenie']=pd.cut(samochody.przebieg, bins=[0,5000,100000,1e7], labels=['nowy','uzywany','z niemiec'])
samochody
samochody.groupby(['marka','pochodzenie']).describe()
samochody.head()

Unnamed: 0,przebieg,spalanie,marka,pochodzenie
0,186571,17.144105,UAZ,z niemiec
1,185851,10.161647,UAZ,z niemiec
2,117237,14.875306,UAZ,z niemiec
3,196682,3.298002,VW,z niemiec
4,106262,17.721903,UAZ,z niemiec
