# Wprowadzenie do pakietu pandas

Pandas jest bardzo popularnym pakietem zawierającym efektywne struktury danych oraz narzędzia do analizy. W niektórych aspektach przypomina NumPy, ale tablice mogą tu być heterogeniczne i jest nastawiony na dane w postaci tabel.

In [1]:
import pandas as pd # standardowy skrót pandas

Dwa najczęściej stostowane typy danych **pandas** to **serie (Series)** oraz **ramki danych (DataFrame)**.

## Serie

**Seria** przypomina jednowymiarową tablicę i można ją utworzyć np. z listy

In [2]:
s = pd.Series([13,1,0,2,555,1000])
s

0      13
1       1
2       0
3       2
4     555
5    1000
dtype: int64

W powyższym opisie serii można wyróżnić kolumnę **indeksu** (po lewej), wartości (po prawej) oraz typ danych (na dole). Jeżeli nie podamy indeksu, jest on tworzony automatycznie podobnie jak *range*. Poniżej wyświetlenie wartośći i indeksu.

In [3]:
s.values

array([  13,    1,    0,    2,  555, 1000], dtype=int64)

In [4]:
s.index

RangeIndex(start=0, stop=6, step=1)

Podanie własnego indeksu przy tworzeniu serii:

In [5]:
s = pd.Series([13,1,0,2,555,1000], index=['a', 'b', 'c', 'd', 'e', 'f'] )
s

a      13
b       1
c       0
d       2
e     555
f    1000
dtype: int64

Dostęp do wartości przechowywanych w serii jest możliwy za pomocą indeksu lub numeru pozycji.

In [6]:
print(s['f'])
print(s[5])
print(s['b':'d'])
print(s[1:4])

1000
1000
b    1
c    0
d    2
dtype: int64
b    1
c    0
d    2
dtype: int64


Wykonywanie operacji NumPy na seriach nie zmienia indeksów:

In [7]:
import numpy as np
np.sqrt(s)

a     3.605551
b     1.000000
c     0.000000
d     1.414214
e    23.558438
f    31.622777
dtype: float64

In [8]:
s[s>4]

a      13
e     555
f    1000
dtype: int64

Konwersja słownika do serii spowoduje powstanie serii o wartościach ze słownika oraz indeksie na podstawie klucza:

In [9]:
d = {'a':1, 'b':2, 'c':3}
s = pd.Series(d)
s

a    1
b    2
c    3
dtype: int64

Kolejność indeksu można zmienić. W przypadku poniżej pojawiła się nowa wartość, dla której nie ma wartości w serii. Pandas stosuje w takich wypadkach oznaczenie 'NaN' (Not a Number).

In [10]:
s = s.reindex(['c', 'd', 'b', 'a'])
s

c    3.0
d    NaN
b    2.0
a    1.0
dtype: float64

Występowanie/niewystępowanie NaN można sprawdzić za pomocą `isnull()`/`notnull()` lub `isna()/notna()`.

In [11]:
pd.isnull(s)

c    False
d     True
b    False
a    False
dtype: bool

In [12]:
pd.notnull(s)

c     True
d    False
b     True
a     True
dtype: bool

In [13]:
s.isnull() # także metoda obiektu

c    False
d     True
b    False
a    False
dtype: bool

In [14]:
pd.isna(s)

c    False
d     True
b    False
a    False
dtype: bool

Przy operacjach arytmetycznych na obiektach series, są one wykonywane na odpowiadających sobie indeksach

In [15]:
s

c    3.0
d    NaN
b    2.0
a    1.0
dtype: float64

In [16]:
t = s.reindex(['a', 'b', 'c', 'e'])
t

a    1.0
b    2.0
c    3.0
e    NaN
dtype: float64

In [17]:
s + t

a    2.0
b    4.0
c    6.0
d    NaN
e    NaN
dtype: float64

Zarówno do indeksu, jak i obiektu serii można przypisać nazwę

In [18]:
s.name = 'Wartości liter'
s.index.name = 'litera'
s

litera
c    3.0
d    NaN
b    2.0
a    1.0
Name: Wartości liter, dtype: float64

Indeks można nadpisać

In [19]:
s.index = ['A', 'B', 'C', 'D']
s

A    3.0
B    NaN
C    2.0
D    1.0
Name: Wartości liter, dtype: float64

## Ramki danych

Ramka danych przypomina obiekt o takiej samej nazwie z R:
- posiada wiersze i kolumny,
- wiersze i kolumny są indeksowane i mają nazwy,
- mogą być traktowane jako słownik serii (w R lista wektorów),
- różne kolumny mogą zawierać dane różnych typów.

In [20]:
# fragment zbioru mtcars
dane = {'model': ['Mazda RX4', 'Merc 230', 'Fiat 128', 'Ferrari Dino'],
        'mpg': [21, 22.8, 32.4, 19.7],
        'qsec': [16.46, 22.9, 19.47, 15.5]        
       }
df = pd.DataFrame(dane)
df

Unnamed: 0,model,mpg,qsec
0,Mazda RX4,21.0,16.46
1,Merc 230,22.8,22.9
2,Fiat 128,32.4,19.47
3,Ferrari Dino,19.7,15.5


Metoda `head()` zwraca kilka pierwszych wierszy ramki danych (przydatne przy zajrzeniu do przykładowych danych dużego zbioru)

In [21]:
df.head() # tutaj mamy tylko kilka wierszy w ramce danych, więc head() zwraca je wszystkie

Unnamed: 0,model,mpg,qsec
0,Mazda RX4,21.0,16.46
1,Merc 230,22.8,22.9
2,Fiat 128,32.4,19.47
3,Ferrari Dino,19.7,15.5


Podczas tworzenia ramki danych można określić indeks, a także dodać kolumny bez danych

In [22]:
df = pd.DataFrame(dane, columns=['model', 'mpg', 'qsec', 'weight'],
                  index=['A','B', 'C', 'D'])
df

Unnamed: 0,model,mpg,qsec,weight
A,Mazda RX4,21.0,16.46,
B,Merc 230,22.8,22.9,
C,Fiat 128,32.4,19.47,
D,Ferrari Dino,19.7,15.5,


Zarówno indeks, jak i kolumny można nazwać

In [23]:
df.columns.name = 'parametry'
df.index.name = 'pojazdy'
df

parametry,model,mpg,qsec,weight
pojazdy,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,Mazda RX4,21.0,16.46,
B,Merc 230,22.8,22.9,
C,Fiat 128,32.4,19.47,
D,Ferrari Dino,19.7,15.5,


Dostęp do wartości w ramce danych za pomocą parametru values

In [24]:
df.values

array([['Mazda RX4', 21.0, 16.46, nan],
       ['Merc 230', 22.8, 22.9, nan],
       ['Fiat 128', 32.4, 19.47, nan],
       ['Ferrari Dino', 19.7, 15.5, nan]], dtype=object)

Ramkę danych możemy też utworzyć ze słownika słowników. Klucze słownika zewnętrznego będą odpowiadały nazwom kolumn, a klucze słownika wewnętrznego utworzą indeks. Klucze wewnętrzne (indeks) są łączone i sortowane, a wartości odpowiadające brakującym kluczom są uzupełniane NaN

In [130]:
dd = {'model': {'A': 'Mazda RX4', 'B': 'Merc 230', 'C': 'Fiat 128', 'D': 'Ferrari Dino'},
        'mpg': {'C': 32.4, 'A': 21, 'D': 19.7},
        'qsec': {'A': 16.46, 'C': 19.47, 'B': 22.9},
        'weight': {}
       }
df = pd.DataFrame(dd)
df

Unnamed: 0,model,mpg,qsec,weight
A,Mazda RX4,21.0,16.46,
B,Merc 230,,22.9,
C,Fiat 128,32.4,19.47,
D,Ferrari Dino,19.7,,


Dostęp do kolumny za pomocą nawiasu kwadratowego lub notacji kropkowej

In [131]:
df['model']

A       Mazda RX4
B        Merc 230
C        Fiat 128
D    Ferrari Dino
Name: model, dtype: object

In [132]:
df.model

A       Mazda RX4
B        Merc 230
C        Fiat 128
D    Ferrari Dino
Name: model, dtype: object

Jak widać powyżej, kolumna jest serią o indeksie ramki danych i nazwie kolumny.

Przypisywanie wartości do kolumny:
- pojedyncza wartość:

In [134]:
df.weight = 2000
df

Unnamed: 0,model,mpg,qsec,weight
A,Mazda RX4,21.0,16.46,2000
B,Merc 230,,22.9,2000
C,Fiat 128,32.4,19.47,2000
D,Ferrari Dino,19.7,,2000


- wektor wartości:

In [135]:
df.weight = [1700, 1900, 1500, 1650]
df

Unnamed: 0,model,mpg,qsec,weight
A,Mazda RX4,21.0,16.46,1700
B,Merc 230,,22.9,1900
C,Fiat 128,32.4,19.47,1500
D,Ferrari Dino,19.7,,1650


- serii (brakujące wartości zastępowane NaN):

In [136]:
s = pd.Series({'D': 1650, 'A': 1700, 'B': 1900})
df.weight = s
df

Unnamed: 0,model,mpg,qsec,weight
A,Mazda RX4,21.0,16.46,1700.0
B,Merc 230,,22.9,1900.0
C,Fiat 128,32.4,19.47,
D,Ferrari Dino,19.7,,1650.0


Dodanie nowej kolumny i usunięcie jej za pomocą `del`:

In [31]:
df['gpm'] = 1/df.mpg # nowa kolumna to odwrotność kolumny mpg
df

Unnamed: 0,model,mpg,qsec,gpm
A,Mazda RX4,21.0,16.46,0.047619
B,Merc 230,,22.9,
C,Fiat 128,32.4,19.47,0.030864
D,Ferrari Dino,19.7,,0.050761


In [32]:
del df['gpm']
df

Unnamed: 0,model,mpg,qsec
A,Mazda RX4,21.0,16.46
B,Merc 230,,22.9
C,Fiat 128,32.4,19.47
D,Ferrari Dino,19.7,


Dostęp do wierszy za pomocą pozycji lub przez indeks i `loc`:

In [33]:
df.loc['A'] # wiersz A

model    Mazda RX4
mpg           21.0
qsec         16.46
Name: A, dtype: object

In [34]:
df.model.loc['A'] # wiersz A kolumna model

'Mazda RX4'

In [35]:
df['model'].loc['A'] # jw., wiersz A kolumna model

'Mazda RX4'

Dodawanie nowej kolumny i wypełnianie jej pojedynczą wartością

In [36]:
df['nowa'] = 1
df

Unnamed: 0,model,mpg,qsec,nowa
A,Mazda RX4,21.0,16.46,1
B,Merc 230,,22.9,1
C,Fiat 128,32.4,19.47,1
D,Ferrari Dino,19.7,,1


Dodawanie nowej kolumny i wypełnianie jej listą wartości

In [37]:
df['nowa2'] = [1,2,3,4]
df

Unnamed: 0,model,mpg,qsec,nowa,nowa2
A,Mazda RX4,21.0,16.46,1,1
B,Merc 230,,22.9,1,2
C,Fiat 128,32.4,19.47,1,3
D,Ferrari Dino,19.7,,1,4


Dodawanie nowej kolumny i wypełnianie jej przez serię (indeksy muszą sobie odpowiadać)

In [38]:
s = pd.Series({'A':5, 'C':10, 'D':15})
df['nowa3'] = s
df

Unnamed: 0,model,mpg,qsec,nowa,nowa2,nowa3
A,Mazda RX4,21.0,16.46,1,1,5.0
B,Merc 230,,22.9,1,2,
C,Fiat 128,32.4,19.47,1,3,10.0
D,Ferrari Dino,19.7,,1,4,15.0


Powyższe sposoby można także wykorzystać do nadpisania wartościami już istniejącej kolumny

In [39]:
df['weight'] = s
df

Unnamed: 0,model,mpg,qsec,nowa,nowa2,nowa3,weight
A,Mazda RX4,21.0,16.46,1,1,5.0,5.0
B,Merc 230,,22.9,1,2,,
C,Fiat 128,32.4,19.47,1,3,10.0,10.0
D,Ferrari Dino,19.7,,1,4,15.0,15.0


Usunięcie kolumny za pomocą `del`

In [40]:
del df['nowa']
del df['nowa2']
del df['nowa3']
df

Unnamed: 0,model,mpg,qsec,weight
A,Mazda RX4,21.0,16.46,5.0
B,Merc 230,,22.9,
C,Fiat 128,32.4,19.47,10.0
D,Ferrari Dino,19.7,,15.0


Podobnie jak w NumPy, możemy dokonać transpozycji

In [41]:
df.T

Unnamed: 0,A,B,C,D
model,Mazda RX4,Merc 230,Fiat 128,Ferrari Dino
mpg,21.0,,32.4,19.7
qsec,16.46,22.9,19.47,
weight,5.0,,10.0,15.0


**Zadanie 1** Zapoznaj się z podanymi w https://pandas.pydata.org/docs/user_guide/dsintro.html#dataframe przykładami tworzenia ramki danych na podstawie:
- słownika serii,
- słownika tablic ndarray / list,
- listy słowników,
- słownika krotek.

Indeksy nie muszą być unikatowe. Odwołanie do powtarzającej się wartośći indeksu zwróci wszystkie wystąpienia tej wartości

In [42]:
df.index = ['A', 'D', 'C', 'D']
df.loc['D']

Unnamed: 0,model,mpg,qsec,weight
D,Merc 230,,22.9,
D,Ferrari Dino,19.7,,15.0


Indeksy są obiektami typu Index

In [43]:
df.index

Index(['A', 'D', 'C', 'D'], dtype='object')

Zawierają wiele przydatnych metod, np. append pozwala połączyć dwa indeksy

In [44]:
i1 = pd.Index(['A', 'B', 'C'])
i2 = pd.Index(['B', 'C', 'D', 'E'])
i1.append(i2)

Index(['A', 'B', 'C', 'B', 'C', 'D', 'E'], dtype='object')

**Zadanie 2** Podaj własne przykłady zastosowania poniższych metod obiektów pandas Index:
- difference,
- insertion,
- union,
- isin,
- delete,
- drop,
- insert,
- is_monotonic,
- is_unique,
- unique.
Dokumentacja do (metod) obiektu Index: https://pandas.pydata.org/docs/reference/api/pandas.Index.html

# Przetwarzanie danych

Metoda reindex (dla Series i DataFrame) umożliwia zmianę kolejności danych oraz uzupełnienie indeksów

In [45]:
df = pd.DataFrame({'c1':{'A': 1, 'B': 9, 'C': 12}, 'c2':{'A': 4, 'B': -1, 'C': 3}})
df

Unnamed: 0,c1,c2
A,1,4
B,9,-1
C,12,3


- dla wierszy

In [46]:
df.reindex(['C', 'B', 'A', 'D'])

Unnamed: 0,c1,c2
C,12.0,3.0
B,9.0,-1.0
A,1.0,4.0
D,,


In [47]:
df.reindex(index=['C', 'B', 'A', 'D']) # jawnie wskazany indeks (wiersze)

Unnamed: 0,c1,c2
C,12.0,3.0
B,9.0,-1.0
A,1.0,4.0
D,,


- dla kolumn

In [48]:
df.reindex(columns=['c2', 'c3', 'c1'])

Unnamed: 0,c2,c3,c1
A,4,,1
B,-1,,9
C,3,,12


W przypadku zmiany indeksu, w którym pojawią się brakujące wartości danych, można automatycznie wypełnić te wartości. Np. ustawienie parametru method na ffill wypełnia puste wartości ostatnią wartością poprzedzającą puste miejsce

In [49]:
s = pd.Series({0:'A', 3:'B', 5:'C'})
s

0    A
3    B
5    C
dtype: object

In [50]:
s.reindex(range(10), method='ffill')

0    A
1    A
2    A
3    B
4    B
5    C
6    C
7    C
8    C
9    C
dtype: object

**Zadanie 3** Zapoznaj się z pozostałymi argumentami metody reindex i wykonaj przykłady z wykorzystaniem tych parametrów.

## Usuwanie elementów 

Indeksy mogą być także wykorzystane do usuwania kolmny/kolumn i wiersza/wierszy za pomocą metody drop.

In [51]:
dd = {'model': {'A': 'Mazda RX4', 'B': 'Merc 230', 'C': 'Fiat 128', 'D': 'Ferrari Dino'},
        'mpg': {'C': 32.4, 'A': 21, 'D': 19.7},
        'qsec': {'A': 16.46, 'C': 19.47, 'B': 22.9}  
       }
df = pd.DataFrame(dd)
df

Unnamed: 0,model,mpg,qsec
A,Mazda RX4,21.0,16.46
B,Merc 230,,22.9
C,Fiat 128,32.4,19.47
D,Ferrari Dino,19.7,


In [52]:
df.drop(['A','C']) # indeksy wierszy (axis = 0)

Unnamed: 0,model,mpg,qsec
B,Merc 230,,22.9
D,Ferrari Dino,19.7,


In [53]:
df.drop('qsec', axis='columns') # indeksy kolumn

Unnamed: 0,model,mpg
A,Mazda RX4,21.0
B,Merc 230,
C,Fiat 128,32.4
D,Ferrari Dino,19.7


In [54]:
df.drop('qsec', axis=1) # axis = 1: indeksy kolumn

Unnamed: 0,model,mpg
A,Mazda RX4,21.0
B,Merc 230,
C,Fiat 128,32.4
D,Ferrari Dino,19.7


Powyższa metoda drop, a także wiele innych metod Series i DataFrame, można stosować z parametrem inplace=True. Spowoduje to wykonanie metody na obiekcie, a nie na jego kopii. W konsekwencji zmiany poczynione przez metodę są trwałe.

## Indeksowanie

Indeksowanie dla serii działa podobnie jak dla list, przy czym można korzystać z indeksów.

In [55]:
s = pd.Series({'A':3, 'B':1, 'C':17, 'D':-3, 'E':0})
s

A     3
B     1
C    17
D    -3
E     0
dtype: int64

In [56]:
s['C']

17

In [57]:
s[2]

17

In [58]:
s[['A','C']]

A     3
C    17
dtype: int64

In [59]:
s[[0, 2]]

A     3
C    17
dtype: int64

**Uwaga!** Wycinek przy wykorzystaniu indeksów zawiera także pozycję prawego indeksu, inaczej niż przy wycinku z zadanymi numerami pozycji.

In [60]:
s['A':'D']

A     3
B     1
C    17
D    -3
dtype: int64

In [61]:
s[0:3]

A     3
B     1
C    17
dtype: int64

Indeksowanie w przypadku ramki danych: można podać kolumnę lub ciąg kolumn:

In [62]:
df

Unnamed: 0,model,mpg,qsec
A,Mazda RX4,21.0,16.46
B,Merc 230,,22.9
C,Fiat 128,32.4,19.47
D,Ferrari Dino,19.7,


In [63]:
df['model']

A       Mazda RX4
B        Merc 230
C        Fiat 128
D    Ferrari Dino
Name: model, dtype: object

In [64]:
df[['model','qsec']]

Unnamed: 0,model,qsec
A,Mazda RX4,16.46
B,Merc 230,22.9
C,Fiat 128,19.47
D,Ferrari Dino,


In [65]:
df[['model','mpg']]

Unnamed: 0,model,mpg
A,Mazda RX4,21.0
B,Merc 230,
C,Fiat 128,32.4
D,Ferrari Dino,19.7


Indeksowanie za pomocą wartości logicznych

In [66]:
df['mpg'] > 20

A     True
B    False
C     True
D    False
Name: mpg, dtype: bool

In [67]:
df[df['mpg'] > 20] # zwraca wiersze, dla których True

Unnamed: 0,model,mpg,qsec
A,Mazda RX4,21.0,16.46
C,Fiat 128,32.4,19.47


Przy porównaniu do wartości dla całej ramki, działanie jest jak w NumPy

In [68]:
df2 = df[['mpg','qsec']] # dla przykładu weźmiemy tylko wartości liczbowe
df2 > 20

Unnamed: 0,mpg,qsec
A,True,False
B,False,True
C,True,False
D,False,False


In [69]:
df2[df2 > 20]

Unnamed: 0,mpg,qsec
A,21.0,
B,,22.9
C,32.4,
D,,


Często do indeksowania stosuje się `loc` oraz `iloc`. `loc` pozwala na indeksowanie etykietami

In [70]:
df

Unnamed: 0,model,mpg,qsec
A,Mazda RX4,21.0,16.46
B,Merc 230,,22.9
C,Fiat 128,32.4,19.47
D,Ferrari Dino,19.7,


In [71]:
df.loc['A']

model    Mazda RX4
mpg           21.0
qsec         16.46
Name: A, dtype: object

In [72]:
df.loc['A', 'model']

'Mazda RX4'

In [73]:
df.loc[['B', 'C'], 'model']

B    Merc 230
C    Fiat 128
Name: model, dtype: object

In [74]:
df.loc['A':'C', 'model'] # uwaga, wycinki zawierają ostatni element

A    Mazda RX4
B     Merc 230
C     Fiat 128
Name: model, dtype: object

`iloc` pozwala na indeksowanie numerami pozycji

In [75]:
df.iloc[0] # odpowiednik df.loc['A']

model    Mazda RX4
mpg           21.0
qsec         16.46
Name: A, dtype: object

In [76]:
df.iloc[0,0] # odpowiednik df.loc['A', 'model'] 

'Mazda RX4'

In [77]:
df.iloc[[1,2],0] # odpowiednik df.loc[['B', 'C'], 'model']

B    Merc 230
C    Fiat 128
Name: model, dtype: object

In [78]:
df.iloc[0:2, 0] # odpowiednik df.loc['A':'C', 'model'], ale nie zawiera ostatniej pozycji!

A    Mazda RX4
B     Merc 230
Name: model, dtype: object

Możliwe jest także stosowanie wartości logicznych

In [79]:
df2 = pd.DataFrame({'A':list(range(6)), 'B':list(range(5,-1,-1)), 'C':list(range(5,17,2))})
df2

Unnamed: 0,A,B,C
0,0,5,5
1,1,4,7
2,2,3,9
3,3,2,11
4,4,1,13
5,5,0,15


In [80]:
df2.loc[df2.values.sum(axis=1) > 12, 'B'] # wartości z kolumny B tych wierszy, których suma wynosi ponad 12

2    3
3    2
4    1
5    0
Name: B, dtype: int64

## Dwuargumentowe operacje arytmetyczne i wyrównywanie

Dla dwóch obiektów operacja arytmtyczna zostanie przeprowadzona na wartościach o tych samych indeksach. Jeżeli któraś ze struktur nie ma danego indeksu, brakująca wartość zostanie zastąpiona NaN

In [81]:
s1 = pd.Series({'a': 1, 'b': 3, 'c': 4, 'd': 8})
s1

a    1
b    3
c    4
d    8
dtype: int64

In [82]:
s2 = pd.Series({'a': 3, 'd': 2, 'e': 4, 'f': 2})
s2

a    3
d    2
e    4
f    2
dtype: int64

In [83]:
s1 + s2 

a     4.0
b     NaN
c     NaN
d    10.0
e     NaN
f     NaN
dtype: float64

W przypadku ramki danych zgadzać się muszą indeksy wierszy i kolumn

In [84]:
data1 = np.arange(1, 3*4+1).reshape(3,4)
df1 = pd.DataFrame(data1, index=['r1','r2','r3'], columns=['A','B','C','D'])
df1

Unnamed: 0,A,B,C,D
r1,1,2,3,4
r2,5,6,7,8
r3,9,10,11,12


In [85]:
data2 = np.arange(5*2).reshape(5,2)
df2 = pd.DataFrame(data2, index=['r1','r3','r4', 'r5','r6'], columns=['A','B'])
df2

Unnamed: 0,A,B
r1,0,1
r3,2,3
r4,4,5
r5,6,7
r6,8,9


In [86]:
df1 + df2 # alternatywnie df1.add(df2)

Unnamed: 0,A,B,C,D
r1,1.0,3.0,,
r2,,,,
r3,11.0,13.0,,
r4,,,,
r5,,,,
r6,,,,


Aby zamiast NaN wstawić zadaną wartość, można skorzystać z parametru fill_value

In [87]:
df1.add(df2, fill_value=0) # dlaczego niektóre pozycje nadal pozostają NaN?

Unnamed: 0,A,B,C,D
r1,1.0,3.0,3.0,4.0
r2,5.0,6.0,7.0,8.0
r3,11.0,13.0,11.0,12.0
r4,4.0,5.0,,
r5,6.0,7.0,,
r6,8.0,9.0,,


Oprócz `add` dostępne są także odejmowanie `sub`, dzielenie `div`, dzielenie całkowite `floordiv`, mnożenie `mov` i potęgowanie `pov`. Każda z tymch metod ma także odpowiednik poprzedzony literą "r", który ma zamienione miejscami argumenty. Np. A.sub(B) odejmuje B od A, natomiast A.rsub(B) odejmuje A od B.

In [88]:
df1.sub(df2, fill_value=0)

Unnamed: 0,A,B,C,D
r1,1.0,1.0,3.0,4.0
r2,5.0,6.0,7.0,8.0
r3,7.0,7.0,11.0,12.0
r4,-4.0,-5.0,,
r5,-6.0,-7.0,,
r6,-8.0,-9.0,,


In [89]:
df1.rsub(df2, fill_value=0)

Unnamed: 0,A,B,C,D
r1,-1.0,-1.0,-3.0,-4.0
r2,-5.0,-6.0,-7.0,-8.0
r3,-7.0,-7.0,-11.0,-12.0
r4,4.0,5.0,,
r5,6.0,7.0,,
r6,8.0,9.0,,


Metoda `reindex` umożliwia także zmianę fill_value

In [90]:
df1.reindex(index=df2.index.union(df1.index), fill_value=0) # połączenie indeksów obu ramek bez duplikatów (union)

Unnamed: 0,A,B,C,D
r1,1,2,3,4
r2,5,6,7,8
r3,9,10,11,12
r4,0,0,0,0
r5,0,0,0,0
r6,0,0,0,0


## Rozgłaszanie

Podobnie jak w NumPy, przy operacjach o różnej liczbie wymiarów (np. DataFrame - 2 wymiary i Series - 1 wymiar) następuje rozgłaszanie

In [91]:
df1 

Unnamed: 0,A,B,C,D
r1,1,2,3,4
r2,5,6,7,8
r3,9,10,11,12


In [92]:
s = pd.Series([1,2,3,4], index=(['A','B','C', 'D']))
df1 - s # rozgłaszanie: odjęcie s od każdego wiersza df1

Unnamed: 0,A,B,C,D
r1,0,0,0,0
r2,4,4,4,4
r3,8,8,8,8


W przypadku różnych indeksów tworzona jest unia indeksów i następuje uzupełnienie wartościami NaN

In [93]:
s = pd.Series([1,2,3,4], index=(['A','B','C','E']))
df1 - s # rozgłaszanie: odjęcie s od każdego wiersza df1

Unnamed: 0,A,B,C,D,E
r1,0.0,0.0,0.0,,
r2,4.0,4.0,4.0,,
r3,8.0,8.0,8.0,,


Aby wykonać rozgłaszanie wzdłuż kolumn (wzdłuż osi 1), należy jawnie określić w operacji arytmetycznej, że jest ona wykonywana dla kolumn, czyli suma serii następuje dla każdej kolumny wzdłuż wierszy (wzdłuż osi 0)

In [94]:
s = pd.Series([1,2,3], index=(['r1','r2','r3']))
df1.sub(s, axis=0) # rozgłaszanie: odjęcie s od każdego wiersza df1

Unnamed: 0,A,B,C,D
r1,0,1,2,3
r2,3,4,5,6
r3,6,7,8,9


## Wykonywanie zadanej funkcji dla wierszy, kolumn i elementów

Funkcje NumPy można stosować na obiektach pandas

In [95]:
df1

Unnamed: 0,A,B,C,D
r1,1,2,3,4
r2,5,6,7,8
r3,9,10,11,12


In [96]:
np.sum(df1) # domyślnie wzdłuż kolumn

A    15
B    18
C    21
D    24
dtype: int64

In [97]:
np.sum(df1, axis=1)

r1    10
r2    26
r3    42
dtype: int64

Za pomocą metody apply można wskazać dowolną funkcję do wykonania na wierszach lub kolumnach

In [98]:
def squareSum(x): # suma kwadratów elementów podanego obiektu
    return np.sum(x*x)

In [99]:
df1.apply(squareSum) # domyślnie wzdłuż kolumn (axis='index' lub axis=0)

A    107
B    140
C    179
D    224
dtype: int64

In [100]:
df1.apply(squareSum, axis='columns') # wzdłuż kolumn (działa też axis=1)

r1     30
r2    174
r3    446
dtype: int64

Wskazywana funkcja może zwracać więcej niż jedną wartość

In [101]:
def squareAndCubeSum(x): # suma kwadratów i sześcianów elementów podanego obiektu
    return pd.Series([np.sum(x*x), np.sum(x*x*x)], index = ['square sum', 'cube sum'])

In [102]:
df1.apply(squareAndCubeSum)

Unnamed: 0,A,B,C,D
square sum,107,140,179,224
cube sum,855,1224,1701,2304


Aby wykonać wskazaną funkcję oddzielnie dla każdego elementu, można skorzystać z metody `applymap`

In [103]:
def oneMinusInv(x):
    return 1 - 1/x

In [104]:
df1.applymap(oneMinusInv) 

Unnamed: 0,A,B,C,D
r1,0.0,0.5,0.666667,0.75
r2,0.8,0.833333,0.857143,0.875
r3,0.888889,0.9,0.909091,0.916667


Dla series można stosować metodę `map`

In [105]:
s.map(oneMinusInv)

r1    0.000000
r2    0.500000
r3    0.666667
dtype: float64

# Sortowanie

Sortowanie można wykonać zgodnie z porządkiem indeksów wierszy lub kolumn (`sort_index`) lub wartości (`sort_values`)

In [106]:
s = pd.Series(np.arange(5,0,-1), index=list('ebcda'))
s

e    5
b    4
c    3
d    2
a    1
dtype: int32

In [107]:
s.sort_index()

a    1
b    4
c    3
d    2
e    5
dtype: int32

In [108]:
s.sort_values()

a    1
d    2
c    3
b    4
e    5
dtype: int32

In [109]:
df = pd.DataFrame([[6,3,6,2],[-1,-5,-3,9],[8,0,-5,-19]], columns=list('DABC'), index=[1,2,0])
df

Unnamed: 0,D,A,B,C
1,6,3,6,2
2,-1,-5,-3,9
0,8,0,-5,-19


In [110]:
df.sort_index(axis=0)

Unnamed: 0,D,A,B,C
0,8,0,-5,-19
1,6,3,6,2
2,-1,-5,-3,9


In [111]:
df.sort_index(axis=1)

Unnamed: 0,A,B,C,D
1,3,6,2,6
2,-5,-3,9,-1
0,0,-5,-19,8


In [112]:
df.sort_values(by=2, axis=1) # zgodnie z wartościami z wiersza o indeksie 2

Unnamed: 0,A,B,D,C
1,3,6,6,2
2,-5,-3,-1,9
0,0,-5,8,-19


In [113]:
df.sort_values(by=[1,2], axis=1) # zgodnie z wartościami z wiersza o indeksie 1, a następnie o indeksie 2

Unnamed: 0,C,A,B,D
1,2,3,6,6
2,9,-5,-3,-1
0,-19,0,-5,8


In [114]:
df.sort_values(by='B') # zgodnie z wartościami z kolumny 'B'

Unnamed: 0,D,A,B,C
0,8,0,-5,-19
2,-1,-5,-3,9
1,6,3,6,2


# Przypisywanie rang

Przydzielanie rangi jest operacją statystyczną, patrz np. https://www.naukowiec.org/wiedza/statystyka/rangowanie-obserwacji_407.html. W pandas można do tego wykorzystać komendę `rank`

In [115]:
s = pd.Series([33, 44, 21, 55, 44, 28, 55, 54, 55, 65])
s

0    33
1    44
2    21
3    55
4    44
5    28
6    55
7    54
8    55
9    65
dtype: int64

In [116]:
s.rank()

0     3.0
1     4.5
2     1.0
3     8.0
4     4.5
5     2.0
6     8.0
7     6.0
8     8.0
9    10.0
dtype: float64

Przy identycznych wartościach można się kierować pierwszeństwem występowania w danych

In [117]:
s.rank(method='first')

0     3.0
1     4.0
2     1.0
3     7.0
4     5.0
5     2.0
6     8.0
7     6.0
8     9.0
9    10.0
dtype: float64

W kolejności malejącej

In [118]:
s.rank(method='first', ascending=False)

0     8.0
1     6.0
2    10.0
3     2.0
4     7.0
5     9.0
6     3.0
7     5.0
8     4.0
9     1.0
dtype: float64

Dla ramek danych można dokonać rangowania w wierszach lub kolumnach odpowiednio dobierając numer osi

In [119]:
df

Unnamed: 0,D,A,B,C
1,6,3,6,2
2,-1,-5,-3,9
0,8,0,-5,-19


In [120]:
df.rank(axis=0)

Unnamed: 0,D,A,B,C
1,2.0,3.0,3.0,2.0
2,1.0,1.0,2.0,3.0
0,3.0,2.0,1.0,1.0


In [121]:
df.rank(axis=1)

Unnamed: 0,D,A,B,C
1,3.5,2.0,3.5,1.0
2,3.0,1.0,2.0,4.0
0,4.0,3.0,2.0,1.0


# Unikalność indeksów

W przykładach powyżej pojawiły się już obiekty, w których wartości indeksu powtarzały się. Niektóre funkcje, jak np. `reindex` wymagają unikalności. Można ją sprawdzić za pomocą `is_unique`

In [122]:
df

Unnamed: 0,D,A,B,C
1,6,3,6,2
2,-1,-5,-3,9
0,8,0,-5,-19


In [123]:
df.index.is_unique

True

In [124]:
df.columns.is_unique

True

In [125]:
df.columns = ['A', 'B', 'B', 'D']
df.index = [1,1,2]

In [126]:
df

Unnamed: 0,A,B,B.1,D
1,6,3,6,2
1,-1,-5,-3,9
2,8,0,-5,-19


In [127]:
df.columns.is_unique

False

In [128]:
df.index.is_unique

False

Przy wyborze danych za pomocą nieunikalnego indeksu zwracane są dane dla wszystkich wystąpień wartości

In [129]:
df.loc[1,'B']

Unnamed: 0,B,B.1
1,3,6
1,-5,-3
