In [1]:
pwd

'/content'

In [2]:
%pushd /content
import numpy as np
import pandas as pd
PREVIOUS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_columns = 20
pd.options.display.max_rows = 20
pd.options.display.max_colwidth = 80
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc("figure", figsize=(10, 6))
np.set_printoptions(precision=4, suppress=True)

/content


In [3]:
import numpy as np
import pandas as pd

In [4]:
df = pd.DataFrame({"klucz1" : ["a", "a", None, "b", "b", "a", None],
                   "klucz2" : pd.Series([1, 2, 1, 2, 1, None, 1], dtype="Int64"),
                   "dane1" : np.random.standard_normal(7),
                   "dane2" : np.random.standard_normal(7)})
df

Unnamed: 0,klucz1,klucz2,dane1,dane2
0,a,1.0,-0.204708,0.281746
1,a,2.0,0.478943,0.769023
2,,1.0,-0.519439,1.246435
3,b,2.0,-0.55573,1.007189
4,b,1.0,1.965781,-1.296221
5,a,,1.393406,0.274992
6,,1.0,0.092908,0.228913


In [5]:
grouped = df["dane1"].groupby(df["klucz1"])
grouped

<pandas.core.groupby.generic.SeriesGroupBy object at 0x7edb2c429cc0>

In [6]:
grouped.mean()

Unnamed: 0_level_0,dane1
klucz1,Unnamed: 1_level_1
a,0.555881
b,0.705025


In [8]:
grouped = df["dane1"].groupby(df["klucz1"]).mean()
grouped

Unnamed: 0_level_0,dane1
klucz1,Unnamed: 1_level_1
a,0.555881
b,0.705025


In [7]:
means = df["dane1"].groupby([df["klucz1"], df["klucz2"]]).mean()
means

Unnamed: 0_level_0,Unnamed: 1_level_0,dane1
klucz1,klucz2,Unnamed: 2_level_1
a,1,-0.204708
a,2,0.478943
b,1,1.965781
b,2,-0.55573


In [9]:
means.unstack()

klucz2,1,2
klucz1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,-0.204708,0.478943
b,1.965781,-0.55573


In [10]:
states = np.array(["OH", "CA", "CA", "OH", "OH", "CA", "OH"])
years = [2005, 2005, 2006, 2005, 2006, 2005, 2006]
df["dane1"].groupby([states, years]).mean()

Unnamed: 0,Unnamed: 1,dane1
CA,2005,0.936175
CA,2006,-0.519439
OH,2005,-0.380219
OH,2006,1.029344


In [11]:
df.groupby("klucz1").mean()

Unnamed: 0_level_0,klucz2,dane1,dane2
klucz1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1.5,0.555881,0.44192
b,1.5,0.705025,-0.144516


In [13]:
df.groupby(["klucz1", "klucz2"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,dane1,dane2
klucz1,klucz2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,-0.204708,0.281746
a,2,0.478943,0.769023
b,1,1.965781,-1.296221
b,2,-0.55573,1.007189


- Metoda `size()` zwraca liczbę elementów (wierszy) w każdej grupie. Wynikiem tej operacji jest obiekt typu Series, gdzie indeksami są unikalne kombinacje wartości z kolumn `"klucz1"` i `"klucz2"`, a wartościami są liczby wystąpień w tych grupach.

In [14]:
df.groupby(["klucz1", "klucz2"]).size()

Unnamed: 0_level_0,Unnamed: 1_level_0,0
klucz1,klucz2,Unnamed: 2_level_1
a,1,1
a,2,1
b,1,1
b,2,1


- `dropna=False`: Ustawienie tego parametru na `False` oznacza, że wartości `NaN` w kolumnie `"klucz1"` będą traktowane jako odrębna grupa. Domyślnie, jeśli `dropna` jest ustawione na `True`, wszystkie wiersze z `NaN` w kluczu grupującym są pomijane.


In [15]:
df.groupby("klucz1", dropna=False).size()

Unnamed: 0_level_0,0
klucz1,Unnamed: 1_level_1
a,3
b,2
,2


In [16]:
df.groupby(["klucz1", "klucz2"], dropna=False).size()

Unnamed: 0_level_0,Unnamed: 1_level_0,0
klucz1,klucz2,Unnamed: 2_level_1
a,1.0,1
a,2.0,1
a,,1
b,1.0,1
b,2.0,1
,1.0,2


In [17]:
df.groupby("klucz1").count()

Unnamed: 0_level_0,klucz2,dane1,dane2
klucz1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,2,3,3
b,2,2,2


- Metoda `groupby("klucz1")` dzieli DataFrame na grupy na podstawie unikalnych wartości w kolumnie `"klucz1"`.
- Iteracja przez `df.groupby("klucz1")` zwraca pary (name, group), gdzie:
    - `name`: To unikalna wartość z kolumny `"klucz1"` (np. `'A'`, `'B'`, itp.).
    - `group`: To DataFrame zawierający wszystkie wiersze, które mają tę samą wartość w kolumnie `"klucz1"`.

In [24]:
#! blockstart
for name, group in df.groupby("klucz1"):
    print(name)
    print(group)
#! blockend

a
  klucz1  klucz2     dane1     dane2
0      a       1 -0.204708  0.281746
1      a       2  0.478943  0.769023
5      a    <NA>  1.393406  0.274992
b
  klucz1  klucz2     dane1     dane2
3      b       2 -0.555730  1.007189
4      b       1  1.965781 -1.296221


In [22]:
#! blockstart
for (k1, k2), group in df.groupby(["klucz1", "klucz2"]):
    print((k1, k2))
    print(group)
#! blockend

('a', 1)
  klucz1  klucz2     dane1     dane2
0      a       1 -0.204708  0.281746
('a', 2)
  klucz1  klucz2     dane1     dane2
1      a       2  0.478943  0.769023
('b', 1)
  klucz1  klucz2     dane1     dane2
4      b       1  1.965781 -1.296221
('b', 2)
  klucz1  klucz2    dane1     dane2
3      b       2 -0.55573  1.007189


In [25]:
pieces = {name: group for name, group in df.groupby("klucz1")}
pieces["b"]

Unnamed: 0,klucz1,klucz2,dane1,dane2
3,b,2,-0.55573,1.007189
4,b,1,1.965781,-1.296221


In [26]:
grouped = df.groupby({"klucz1": "klucz", "klucz2": "klucz",
                      "dane1": "dane", "dane2": "dane"}, axis="columns")

  grouped = df.groupby({"klucz1": "klucz", "klucz2": "klucz",


In [27]:
#! blockstart
for group_key, group_values in grouped:
    print(group_key)
    print(group_values)
#! blockend

dane
      dane1     dane2
0 -0.204708  0.281746
1  0.478943  0.769023
2 -0.519439  1.246435
3 -0.555730  1.007189
4  1.965781 -1.296221
5  1.393406  0.274992
6  0.092908  0.228913
klucz
  klucz1  klucz2
0      a       1
1      a       2
2   None       1
3      b       2
4      b       1
5      a    <NA>
6   None       1


In [28]:
df.groupby(["klucz1", "klucz2"])[["dane2"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,dane2
klucz1,klucz2,Unnamed: 2_level_1
a,1,0.281746
a,2,0.769023
b,1,-1.296221
b,2,1.007189


In [29]:
s_grouped = df.groupby(["klucz1", "klucz2"])["dane2"]
s_grouped
s_grouped.mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,dane2
klucz1,klucz2,Unnamed: 2_level_1
a,1,0.281746
a,2,0.769023
b,1,-1.296221
b,2,1.007189


In [30]:
people = pd.DataFrame(np.random.standard_normal((5, 5)),
                      columns=["a", "b", "c", "d", "e"],
                      index=["Jerzy", "Stefan", "Waldek", "Jan", "Tomasz"])

people

Unnamed: 0,a,b,c,d,e
Jerzy,1.352917,0.886429,-2.001637,-0.371843,1.669025
Stefan,-0.43857,-0.539741,0.476985,3.248944,-1.021228
Waldek,-0.577087,0.124121,0.302614,0.523772,0.00094
Jan,1.34381,-0.713544,-0.831154,-2.370232,-1.860761
Tomasz,-0.860757,0.560145,-1.265934,0.119827,-1.063512


In [31]:
people.iloc[2:3, [1, 2]] = np.nan # Dodaj kilka wartości typu NA.
print(people)

               a         b         c         d         e
Jerzy   1.352917  0.886429 -2.001637 -0.371843  1.669025
Stefan -0.438570 -0.539741  0.476985  3.248944 -1.021228
Waldek -0.577087       NaN       NaN  0.523772  0.000940
Jan     1.343810 -0.713544 -0.831154 -2.370232 -1.860761
Tomasz -0.860757  0.560145 -1.265934  0.119827 -1.063512


In [32]:
mapping = {"a": "czerwony", "b": "czerwony", "c": "niebieski",
           "d": "niebieski", "e": "czerwony", "f" : "pomarańczowy"}

- `mapping`: To słownik, który określa, jak kolumny w DataFrame mają być grupowane. Klucze słownika to nowe nazwy grup, a wartości to listy nazw kolumn, które mają być zgrupowane pod tymi nowymi nazwami.
- `axis="columns"`: Ustawienie tego parametru na `"columns"` oznacza, że grupowanie dotyczy kolumn (w przeciwieństwie do wierszy, gdzie używa się `axis=0`).

In [33]:
by_column = people.groupby(mapping, axis="columns")
by_column.sum()

  by_column = people.groupby(mapping, axis="columns")


Unnamed: 0,czerwony,niebieski
Jerzy,3.908371,-2.37348
Stefan,-1.999539,3.725929
Waldek,-0.576147,0.523772
Jan,-1.230495,-3.201385
Tomasz,-1.364125,-1.146107


In [34]:
map_series = pd.Series(mapping)
map_series

Unnamed: 0,0
a,czerwony
b,czerwony
c,niebieski
d,niebieski
e,czerwony
f,pomarańczowy


In [35]:
people.groupby(map_series, axis="columns").count()

  people.groupby(map_series, axis="columns").count()


Unnamed: 0,czerwony,niebieski
Jerzy,3,2
Stefan,3,2
Waldek,2,1
Jan,3,2
Tomasz,3,2


- Kod `people.groupby(len).sum()` jest ciekawym podejściem do grupowania danych na podstawie długości ich wartości. Umożliwia to agregację danych oraz lepsze zrozumienie struktury i rozkładu danych w DataFrame. Warto jednak pamiętać, że nie wszystkie kolumny mogą być uwzględnione w operacji sumowania, zwłaszcza jeśli zawierają dane nienumeryczne.

In [36]:
people.groupby(len).sum()

Unnamed: 0,a,b,c,d,e
3,1.34381,-0.713544,-0.831154,-2.370232,-1.860761
5,1.352917,0.886429,-2.001637,-0.371843,1.669025
6,-1.876414,0.020404,-0.788949,3.892543,-2.0838


In [37]:
key_list = ["jeden", "jeden", "jeden", "dwa", "dwa"]
people.groupby([len, key_list]).min()

Unnamed: 0,Unnamed: 1,a,b,c,d,e
3,dwa,1.34381,-0.713544,-0.831154,-2.370232,-1.860761
5,jeden,1.352917,0.886429,-2.001637,-0.371843,1.669025
6,dwa,-0.860757,0.560145,-1.265934,0.119827,-1.063512
6,jeden,-0.577087,-0.539741,0.476985,0.523772,-1.021228


- `key_list` to lista, która zawiera etykiety, według których chcesz grupować dane. W tym przypadku lista zawiera powtarzające się wartości `"jeden"` i `"dwa"`.

- Używasz `len` jako pierwszego klucza grupującego, co oznacza, że grupy będą tworzone na podstawie długości wartości w kolumnach DataFrame.

- Drugi klucz to `key_list`, co oznacza, że dane będą również grupowane według wartości w tej liście.

In [39]:
key_list = ["jeden", "jeden", "jeden", "dwa", "dwa"]
people.groupby([len, key_list]).min()

Unnamed: 0,Unnamed: 1,a,b,c,d,e
3,dwa,1.34381,-0.713544,-0.831154,-2.370232,-1.860761
5,jeden,1.352917,0.886429,-2.001637,-0.371843,1.669025
6,dwa,-0.860757,0.560145,-1.265934,0.119827,-1.063512
6,jeden,-0.577087,-0.539741,0.476985,0.523772,-1.021228


In [41]:
columns = pd.MultiIndex.from_arrays([["US", "US", "US", "JP", "JP"],
                                    [1, 3, 5, 1, 3]],
                                    names = ["kraj", "region"])
hier_df = pd.DataFrame(np.random.standard_normal((4, 5)), columns=columns)
hier_df

kraj,US,US,US,JP,JP
region,1,3,5,1,3
0,-0.660524,0.86258,-0.010032,0.050009,0.670216
1,0.852965,-0.955869,-0.023493,-2.304234,-0.652469
2,-1.218302,-1.33261,1.074623,0.723642,0.690002
3,1.001543,-0.503087,-0.622274,-0.921169,-0.726213


In [42]:
hier_df.groupby(level="kraj", axis="columns").count()

  hier_df.groupby(level="kraj", axis="columns").count()


kraj,JP,US
0,2,3
1,2,3
2,2,3
3,2,3


In [43]:
df

Unnamed: 0,klucz1,klucz2,dane1,dane2
0,a,1.0,-0.204708,0.281746
1,a,2.0,0.478943,0.769023
2,,1.0,-0.519439,1.246435
3,b,2.0,-0.55573,1.007189
4,b,1.0,1.965781,-1.296221
5,a,,1.393406,0.274992
6,,1.0,0.092908,0.228913


- Wywołanie `nsmallest(2)` na kolumnie `"dane1"` zwraca dwa najmniejsze elementy dla każdej grupy utworzonej przez `groupby()`. Wartością zwróconą jest obiekt typu Series, który zawiera najmniejsze wartości oraz ich indeksy.

In [44]:
grouped = df.groupby("klucz1")
grouped["dane1"].nsmallest(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,dane1
klucz1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,0,-0.204708
a,1,0.478943
b,3,-0.55573
b,4,1.965781


In [45]:
def peak_to_peak(arr):
    return arr.max() - arr.min()
grouped.agg(peak_to_peak)

Unnamed: 0_level_0,klucz2,dane1,dane2
klucz1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,1.598113,0.494031
b,1,2.521511,2.30341


In [46]:
grouped.describe()

Unnamed: 0_level_0,klucz2,klucz2,klucz2,klucz2,klucz2,klucz2,klucz2,klucz2,dane1,dane1,dane1,dane1,dane1,dane2,dane2,dane2,dane2,dane2,dane2,dane2,dane2
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
klucz1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
a,2.0,1.5,0.707107,1.0,1.25,1.5,1.75,2.0,3.0,0.555881,...,0.936175,1.393406,3.0,0.44192,0.283299,0.274992,0.278369,0.281746,0.525384,0.769023
b,2.0,1.5,0.707107,1.0,1.25,1.5,1.75,2.0,2.0,0.705025,...,1.335403,1.965781,2.0,-0.144516,1.628757,-1.296221,-0.720368,-0.144516,0.431337,1.007189


In [47]:
tips = pd.read_csv("/content/napiwki.csv")
tips.head()

Unnamed: 0,rachunek,napiwek,palacz,dzień,pora,wielkość
0,16.99,1.01,nie,niedz.,kolacja,2
1,10.34,1.66,nie,niedz.,kolacja,3
2,21.01,3.5,nie,niedz.,kolacja,3
3,23.68,3.31,nie,niedz.,kolacja,2
4,24.59,3.61,nie,niedz.,kolacja,4


In [48]:
tips["napiwek_proc"] = tips["napiwek"] / tips["rachunek"]
tips.head()

Unnamed: 0,rachunek,napiwek,palacz,dzień,pora,wielkość,napiwek_proc
0,16.99,1.01,nie,niedz.,kolacja,2,0.059447
1,10.34,1.66,nie,niedz.,kolacja,3,0.160542
2,21.01,3.5,nie,niedz.,kolacja,3,0.166587
3,23.68,3.31,nie,niedz.,kolacja,2,0.13978
4,24.59,3.61,nie,niedz.,kolacja,4,0.146808


- Używam metody `groupby()` na DataFrame, co daje obiekt grupujący

In [50]:
grouped = tips.groupby(["dzień", "palacz"])
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7edb2b7c3400>

- W tej linii tworzysz nowy obiekt `grouped_pct`, który odnosi się do kolumny `"napiwek_proc"` w każdej grupie. Teraz możesz wykonywać operacje na tej konkretnej kolumnie w kontekście grup.

In [53]:
grouped_pct = grouped["napiwek_proc"]
grouped_pct.agg("mean")

Unnamed: 0_level_0,Unnamed: 1_level_0,napiwek_proc
dzień,palacz,Unnamed: 2_level_1
czw.,nie,0.160298
czw.,tak,0.163863
niedz.,nie,0.160113
niedz.,tak,0.18725
pt.,nie,0.15165
pt.,tak,0.174783
sob.,nie,0.158048
sob.,tak,0.147906


In [54]:
grouped_pct.agg(["mean", "std", peak_to_peak])

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,std,peak_to_peak
dzień,palacz,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
czw.,nie,0.160298,0.038774,0.19335
czw.,tak,0.163863,0.039389,0.15124
niedz.,nie,0.160113,0.042347,0.193226
niedz.,tak,0.18725,0.154134,0.644685
pt.,nie,0.15165,0.028123,0.067349
pt.,tak,0.174783,0.051293,0.159925
sob.,nie,0.158048,0.039767,0.235193
sob.,tak,0.147906,0.061375,0.290095


In [55]:
grouped_pct.agg([("średnia", "mean"), ("odch. stand.", np.std)])

  grouped_pct.agg([("średnia", "mean"), ("odch. stand.", np.std)])


Unnamed: 0_level_0,Unnamed: 1_level_0,średnia,odch. stand.
dzień,palacz,Unnamed: 2_level_1,Unnamed: 3_level_1
czw.,nie,0.160298,0.038774
czw.,tak,0.163863,0.039389
niedz.,nie,0.160113,0.042347
niedz.,tak,0.18725,0.154134
pt.,nie,0.15165,0.028123
pt.,tak,0.174783,0.051293
sob.,nie,0.158048,0.039767
sob.,tak,0.147906,0.061375


- W tej linii wybierasz kolumny `"napiwek_proc"` i `"rachunek"` z obiektu grupującego i stosujesz do nich zdefiniowane wcześniej funkcje agregujące.
- Wynikiem tej operacji będzie nowy DataFrame, w którym dla każdej grupy będą obliczone wartości dla każdej z funkcji.

In [56]:
functions = ["count", "mean", "max"]
result = grouped[["napiwek_proc", "rachunek"]].agg(functions)
result

Unnamed: 0_level_0,Unnamed: 1_level_0,napiwek_proc,napiwek_proc,napiwek_proc,rachunek,rachunek,rachunek
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,max,count,mean,max
dzień,palacz,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
czw.,nie,45,0.160298,0.266312,45,17.113111,41.19
czw.,tak,17,0.163863,0.241255,17,19.190588,43.11
niedz.,nie,57,0.160113,0.252672,57,20.506667,48.17
niedz.,tak,19,0.18725,0.710345,19,24.12,45.35
pt.,nie,4,0.15165,0.187735,4,18.42,22.75
pt.,tak,15,0.174783,0.26348,15,16.813333,40.17
sob.,nie,45,0.158048,0.29199,45,19.661778,48.33
sob.,tak,42,0.147906,0.325733,42,21.276667,50.81


In [57]:
result["napiwek_proc"]

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,max
dzień,palacz,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
czw.,nie,45,0.160298,0.266312
czw.,tak,17,0.163863,0.241255
niedz.,nie,57,0.160113,0.252672
niedz.,tak,19,0.18725,0.710345
pt.,nie,4,0.15165,0.187735
pt.,tak,15,0.174783,0.26348
sob.,nie,45,0.158048,0.29199
sob.,tak,42,0.147906,0.325733


In [58]:
result["rachunek"]

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,max
dzień,palacz,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
czw.,nie,45,17.113111,41.19
czw.,tak,17,19.190588,43.11
niedz.,nie,57,20.506667,48.17
niedz.,tak,19,24.12,45.35
pt.,nie,4,18.42,22.75
pt.,tak,15,16.813333,40.17
sob.,nie,45,19.661778,48.33
sob.,tak,42,21.276667,50.81


In [59]:
ftuples = [("średnia", "mean"), ("wariancja", np.var)]
grouped[["napiwek_proc", "rachunek"]].agg(ftuples)

  grouped[["napiwek_proc", "rachunek"]].agg(ftuples)


Unnamed: 0_level_0,Unnamed: 1_level_0,napiwek_proc,napiwek_proc,rachunek,rachunek
Unnamed: 0_level_1,Unnamed: 1_level_1,średnia,wariancja,średnia,wariancja
dzień,palacz,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
czw.,nie,0.160298,0.001503,17.113111,59.625081
czw.,tak,0.163863,0.001551,19.190588,69.808518
niedz.,nie,0.160113,0.001793,20.506667,66.09998
niedz.,tak,0.18725,0.023757,24.12,109.046044
pt.,nie,0.15165,0.000791,18.42,25.596333
pt.,tak,0.174783,0.002631,16.813333,82.562438
sob.,nie,0.158048,0.001581,19.661778,79.908965
sob.,tak,0.147906,0.003767,21.276667,101.387535


In [60]:
grouped.agg({"napiwek" : np.max, "wielkość" : "sum"})

  grouped.agg({"napiwek" : np.max, "wielkość" : "sum"})


Unnamed: 0_level_0,Unnamed: 1_level_0,napiwek,wielkość
dzień,palacz,Unnamed: 2_level_1,Unnamed: 3_level_1
czw.,nie,6.7,112
czw.,tak,5.0,40
niedz.,nie,6.0,167
niedz.,tak,6.5,49
pt.,nie,3.5,9
pt.,tak,4.73,31
sob.,nie,9.0,115
sob.,tak,10.0,104


In [61]:
grouped.agg({"napiwek_proc" : ["min", "max", "mean", "std"],
             "wielkość" : "sum"})

Unnamed: 0_level_0,Unnamed: 1_level_0,napiwek_proc,napiwek_proc,napiwek_proc,napiwek_proc,wielkość
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean,std,sum
dzień,palacz,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
czw.,nie,0.072961,0.266312,0.160298,0.038774,112
czw.,tak,0.090014,0.241255,0.163863,0.039389,40
niedz.,nie,0.059447,0.252672,0.160113,0.042347,167
niedz.,tak,0.06566,0.710345,0.18725,0.154134,49
pt.,nie,0.120385,0.187735,0.15165,0.028123,9
pt.,tak,0.103555,0.26348,0.174783,0.051293,31
sob.,nie,0.056797,0.29199,0.158048,0.039767,115
sob.,tak,0.035638,0.325733,0.147906,0.061375,104


In [63]:
tips

Unnamed: 0,rachunek,napiwek,palacz,dzień,pora,wielkość,napiwek_proc
0,16.99,1.01,nie,niedz.,kolacja,2,0.059447
1,10.34,1.66,nie,niedz.,kolacja,3,0.160542
2,21.01,3.50,nie,niedz.,kolacja,3,0.166587
3,23.68,3.31,nie,niedz.,kolacja,2,0.139780
4,24.59,3.61,nie,niedz.,kolacja,4,0.146808
...,...,...,...,...,...,...,...
239,29.03,5.92,nie,sob.,kolacja,3,0.203927
240,27.18,2.00,tak,sob.,kolacja,2,0.073584
241,22.67,2.00,tak,sob.,kolacja,2,0.088222
242,17.82,1.75,nie,sob.,kolacja,2,0.098204


In [64]:
def top(df, n=5, column="napiwek_proc"):
    return df.sort_values(column, ascending=False)[:n]
top(tips, n=6)

Unnamed: 0,rachunek,napiwek,palacz,dzień,pora,wielkość,napiwek_proc
172,7.25,5.15,tak,niedz.,kolacja,2,0.710345
178,9.6,4.0,tak,niedz.,kolacja,2,0.416667
67,3.07,1.0,tak,sob.,kolacja,1,0.325733
232,11.61,3.39,nie,sob.,kolacja,2,0.29199
183,23.17,6.5,tak,niedz.,kolacja,4,0.280535
109,14.31,4.0,tak,sob.,kolacja,2,0.279525


In [66]:
tips.groupby("palacz").apply(top)

  tips.groupby("palacz").apply(top)


Unnamed: 0_level_0,Unnamed: 1_level_0,rachunek,napiwek,palacz,dzień,pora,wielkość,napiwek_proc
palacz,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
nie,232,11.61,3.39,nie,sob.,kolacja,2,0.29199
nie,149,7.51,2.0,nie,czw.,obiad,2,0.266312
nie,51,10.29,2.6,nie,niedz.,kolacja,2,0.252672
nie,185,20.69,5.0,nie,niedz.,kolacja,5,0.241663
nie,88,24.71,5.85,nie,czw.,obiad,2,0.236746
tak,172,7.25,5.15,tak,niedz.,kolacja,2,0.710345
tak,178,9.6,4.0,tak,niedz.,kolacja,2,0.416667
tak,67,3.07,1.0,tak,sob.,kolacja,1,0.325733
tak,183,23.17,6.5,tak,niedz.,kolacja,4,0.280535
tak,109,14.31,4.0,tak,sob.,kolacja,2,0.279525


In [67]:
tips.groupby(["palacz", "dzień"]).apply(top, n=1, column="rachunek")

  tips.groupby(["palacz", "dzień"]).apply(top, n=1, column="rachunek")


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,rachunek,napiwek,palacz,dzień,pora,wielkość,napiwek_proc
palacz,dzień,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
nie,czw.,142,41.19,5.0,nie,czw.,obiad,5,0.121389
nie,niedz.,156,48.17,5.0,nie,niedz.,kolacja,6,0.103799
nie,pt.,94,22.75,3.25,nie,pt.,kolacja,2,0.142857
nie,sob.,212,48.33,9.0,nie,sob.,kolacja,4,0.18622
tak,czw.,197,43.11,5.0,tak,czw.,obiad,4,0.115982
tak,niedz.,182,45.35,3.5,tak,niedz.,kolacja,3,0.077178
tak,pt.,95,40.17,4.73,tak,pt.,kolacja,4,0.11775
tak,sob.,170,50.81,10.0,tak,sob.,kolacja,3,0.196812


In [68]:
result = tips.groupby("palacz")["napiwek_proc"].describe()
result
result.unstack("palacz")

Unnamed: 0_level_0,Unnamed: 1_level_0,0
Unnamed: 0_level_1,palacz,Unnamed: 2_level_1
count,nie,151.0
count,tak,93.0
mean,nie,0.159328
mean,tak,0.163196
std,nie,0.03991
std,tak,0.085119
min,nie,0.056797
min,tak,0.035638
25%,nie,0.136906
25%,tak,0.106771


- Metoda `groupby("palacz")` dzieli DataFrame `tips` na grupy na podstawie unikalnych wartości w kolumnie `"palacz"`.
- Ustawienie `group_keys=False` oznacza, że wyniki z każdej grupy nie będą miały kluczy grupujących w indeksie wynikowego DataFrame, co może być przydatne, jeśli chcesz uzyskać bardziej „czysty” wynik bez dodatkowych poziomów indeksów.

In [69]:
tips.groupby("palacz", group_keys=False).apply(top)

  tips.groupby("palacz", group_keys=False).apply(top)


Unnamed: 0,rachunek,napiwek,palacz,dzień,pora,wielkość,napiwek_proc
232,11.61,3.39,nie,sob.,kolacja,2,0.29199
149,7.51,2.0,nie,czw.,obiad,2,0.266312
51,10.29,2.6,nie,niedz.,kolacja,2,0.252672
185,20.69,5.0,nie,niedz.,kolacja,5,0.241663
88,24.71,5.85,nie,czw.,obiad,2,0.236746
172,7.25,5.15,tak,niedz.,kolacja,2,0.710345
178,9.6,4.0,tak,niedz.,kolacja,2,0.416667
67,3.07,1.0,tak,sob.,kolacja,1,0.325733
183,23.17,6.5,tak,niedz.,kolacja,4,0.280535
109,14.31,4.0,tak,sob.,kolacja,2,0.279525


In [71]:
frame = pd.DataFrame({"dane1": np.random.standard_normal(1000),
                      "dane2": np.random.standard_normal(1000)})
frame.head()

Unnamed: 0,dane1,dane2
0,-0.159134,-0.389689
1,-0.417616,-0.534781
2,1.141487,0.227895
3,-2.043018,-0.383449
4,0.125036,0.24634


In [72]:
quartiles = pd.cut(frame["dane1"], 4)
quartiles.head(10)

Unnamed: 0,dane1
0,"(-0.387, 1.133]"
1,"(-1.908, -0.387]"
2,"(1.133, 2.654]"
3,"(-3.434, -1.908]"
4,"(-0.387, 1.133]"
5,"(-0.387, 1.133]"
6,"(-1.908, -0.387]"
7,"(-0.387, 1.133]"
8,"(-0.387, 1.133]"
9,"(-0.387, 1.133]"


In [73]:
def get_stats(group):
    return pd.DataFrame(
        {"min": group.min(), "max": group.max(),
        "count": group.count(), "mean": group.mean()}
    )

grouped = frame.groupby(quartiles)
grouped.apply(get_stats)

  grouped = frame.groupby(quartiles)


Unnamed: 0_level_0,Unnamed: 1_level_0,min,max,count,mean
dane1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
"(-3.434, -1.908]",dane1,-3.428254,-1.941714,23,-2.321481
"(-3.434, -1.908]",dane2,-2.079446,1.388465,23,-0.078675
"(-1.908, -0.387]",dane1,-1.902298,-0.393984,322,-0.960249
"(-1.908, -0.387]",dane2,-2.909373,2.531127,322,-0.04605
"(-0.387, 1.133]",dane1,-0.387236,1.129965,518,0.323412
"(-0.387, 1.133]",dane2,-3.548824,3.366626,518,0.032696
"(1.133, 2.654]",dane1,1.134073,2.653656,137,1.59115
"(1.133, 2.654]",dane2,-2.091554,2.615416,137,0.039979


In [74]:
print(grouped.agg(["min", "max", "count", "mean"]))

                     dane1                               dane2            \
                       min       max count      mean       min       max   
dane1                                                                      
(-3.434, -1.908] -3.428254 -1.941714    23 -2.321481 -2.079446  1.388465   
(-1.908, -0.387] -1.902298 -0.393984   322 -0.960249 -2.909373  2.531127   
(-0.387, 1.133]  -0.387236  1.129965   518  0.323412 -3.548824  3.366626   
(1.133, 2.654]    1.134073  2.653656   137  1.591150 -2.091554  2.615416   

                                  
                 count      mean  
dane1                             
(-3.434, -1.908]    23 -0.078675  
(-1.908, -0.387]   322 -0.046050  
(-0.387, 1.133]    518  0.032696  
(1.133, 2.654]     137  0.039979  


- `pd.qcut()`: Funkcja ta dzieli dane na równe części (kwantyle). W tym przypadku, argument `4` oznacza, że dane będą podzielone na cztery kwantyle (kwarty).
- `labels=False`: Ustawienie tego parametru na `False` powoduje, że funkcja zwraca numery kwantyli zamiast etykiet. Oznacza to, że wartości będą reprezentowane jako liczby całkowite od 0 do 3

In [75]:
quartiles_samp = pd.qcut(frame["dane1"], 4, labels=False)
quartiles_samp.head()

Unnamed: 0,dane1
0,1
1,1
2,3
3,0
4,2


In [76]:
grouped = frame.groupby(quartiles_samp)
grouped.apply(get_stats)

Unnamed: 0_level_0,Unnamed: 1_level_0,min,max,count,mean
dane1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,dane1,-3.428254,-0.705351,250,-1.244115
0,dane2,-2.909373,2.531127,250,-0.085406
1,dane1,-0.703066,0.020182,250,-0.323215
1,dane2,-3.548824,2.419003,250,0.026299
2,dane1,0.023017,0.728461,250,0.372063
2,dane2,-2.611124,3.366626,250,0.034503
3,dane1,0.729657,2.653656,250,1.286949
3,dane2,-2.748685,2.615416,250,0.047708


In [77]:
s = pd.Series(np.random.standard_normal(6))
s

Unnamed: 0,0
0,-1.107703
1,0.962326
2,-0.300816
3,1.301707
4,1.035736
5,0.478174


In [78]:
s[::2] = np.nan
s

Unnamed: 0,0
0,
1,0.962326
2,
3,1.301707
4,
5,0.478174


In [79]:
s.fillna(s.mean())

Unnamed: 0,0
0,0.914069
1,0.962326
2,0.914069
3,1.301707
4,0.914069
5,0.478174


In [80]:
states = ["Ohio", "New York", "Vermont", "Florida",
          "Oregon", "Nevada", "California", "Idaho"]
group_key = ["Wschód", "Wschód", "Wschód", "Wschód",
             "Zachód", "Zachód", "Zachód", "Zachód"]
data = pd.Series(np.random.standard_normal(8), index=states)
data

Unnamed: 0,0
Ohio,-0.184136
New York,-1.374542
Vermont,0.327381
Florida,-0.94445
Oregon,-1.670271
Nevada,0.324627
California,1.032549
Idaho,1.054085


In [81]:
data[["Vermont", "Nevada", "Idaho"]] = np.nan
data

Unnamed: 0,0
Ohio,-0.184136
New York,-1.374542
Vermont,
Florida,-0.94445
Oregon,-1.670271
Nevada,
California,1.032549
Idaho,


In [82]:
data.groupby(group_key).size()

Unnamed: 0,0
Wschód,4
Zachód,4


In [83]:
data.groupby(group_key).count()

Unnamed: 0,0
Wschód,3
Zachód,2


In [84]:
data.groupby(group_key).mean()

Unnamed: 0,0
Wschód,-0.834376
Zachód,-0.318861


In [85]:
def fill_mean(group):
    return group.fillna(group.mean())

data.groupby(group_key).apply(fill_mean)

Unnamed: 0,Unnamed: 1,0
Wschód,Ohio,-0.184136
Wschód,New York,-1.374542
Wschód,Vermont,-0.834376
Wschód,Florida,-0.94445
Zachód,Oregon,-1.670271
Zachód,Nevada,-0.318861
Zachód,California,1.032549
Zachód,Idaho,-0.318861


In [86]:
fill_values = {"Wschód": 0.5, "Zachód": -1}
def fill_func(group):
    return group.fillna(fill_values[group.name])

data.groupby(group_key).apply(fill_func)

Unnamed: 0,Unnamed: 1,0
Wschód,Ohio,-0.184136
Wschód,New York,-1.374542
Wschód,Vermont,0.5
Wschód,Florida,-0.94445
Zachód,Oregon,-1.670271
Zachód,Nevada,-1.0
Zachód,California,1.032549
Zachód,Idaho,-1.0


In [90]:
suits = ["H", "S", "C", "D"]  # Hearts, Spades, Clubs, Diamonds
card_val = (list(range(1, 11)) + [10] * 3) * 4
card_val[:15]

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 10, 10, 10, 1, 2]

In [91]:
base_names = ["A"] + list(range(2, 11)) + ["J", "K", "Q"]
base_names

['A', 2, 3, 4, 5, 6, 7, 8, 9, 10, 'J', 'K', 'Q']

In [87]:
cards = []
for suit in suits:
    cards.extend(str(num) + suit for num in base_names)

deck = pd.Series(card_val, index=cards)

In [94]:
cards[:13]

['AH', '2H', '3H', '4H', '5H', '6H', '7H', '8H', '9H', '10H', 'JH', 'KH', 'QH']

In [95]:
deck.head(13)

Unnamed: 0,0
AH,1
2H,2
3H,3
4H,4
5H,5
6H,6
7H,7
8H,8
9H,9
10H,10


In [96]:
def draw(deck, n=5):
    return deck.sample(n)

draw(deck)

Unnamed: 0,0
6H,6
QD,10
9S,9
10H,10
JD,10


In [97]:
def get_suit(card):
    # Ostatnia litera oznacza kolor.
    return card[-1]

deck.groupby(get_suit).apply(draw, n=2)

Unnamed: 0,Unnamed: 1,0
C,AC,1
C,3C,3
D,6D,6
D,KD,10
H,2H,2
H,QH,10
S,JS,10
S,4S,4


In [98]:
deck.groupby(get_suit, group_keys=False).apply(draw, n=2)

Unnamed: 0,0
10C,10
QC,10
10D,10
AD,1
KH,10
QH,10
4S,4
8S,8


In [99]:
df = pd.DataFrame({"kategoria": ["a", "a", "a", "a",
                                 "b", "b", "b", "b"],
                   "dane": np.random.standard_normal(8),
                   "waga": np.random.uniform(size=8)})
df

Unnamed: 0,kategoria,dane,waga
0,a,-1.277746,0.784779
1,a,1.52887,0.835567
2,a,0.420909,0.187762
3,a,-0.072232,0.322025
4,b,0.582317,0.532116
5,b,-0.65809,0.52435
6,b,-0.207434,0.343843
7,b,3.525865,0.93076


In [100]:
grouped = df.groupby("kategoria")

def get_wavg(group):
    return np.average(group["dane"], weights=group["waga"])

grouped.apply(get_wavg)

  grouped.apply(get_wavg)


Unnamed: 0_level_0,0
kategoria,Unnamed: 1_level_1
a,0.155153
b,1.362122


In [101]:
close_px = pd.read_csv("/content/akcje.csv", parse_dates=True,
                       index_col=0)
close_px.info()
close_px.tail(4)

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2214 entries, 2003-01-02 to 2011-10-14
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   AAPL    2214 non-null   float64
 1   MSFT    2214 non-null   float64
 2   XOM     2214 non-null   float64
 3   SPX     2214 non-null   float64
dtypes: float64(4)
memory usage: 86.5 KB


Unnamed: 0,AAPL,MSFT,XOM,SPX
2011-10-11,400.29,27.0,76.27,1195.54
2011-10-12,402.19,26.96,77.16,1207.25
2011-10-13,408.43,27.18,76.37,1203.66
2011-10-14,422.0,27.27,78.11,1224.58


- Metoda `corrwith()` oblicza współczynnik korelacji pomiędzy kolumną `"SPX"` a wszystkimi innymi kolumnami w tej grupie. Wynikiem jest Series, w którym indeksy to nazwy kolumn, a wartości to współczynniki korelacji.

In [102]:
def spx_corr(group):
    return group.corrwith(group["SPX"])

In [103]:
rets = close_px.pct_change().dropna()

In [104]:
def get_year(x):
    return x.year

by_year = rets.groupby(get_year)
by_year.apply(spx_corr)

Unnamed: 0,AAPL,MSFT,XOM,SPX
2003,0.541124,0.745174,0.661265,1.0
2004,0.374283,0.588531,0.557742,1.0
2005,0.46754,0.562374,0.63101,1.0
2006,0.428267,0.406126,0.518514,1.0
2007,0.508118,0.65877,0.786264,1.0
2008,0.681434,0.804626,0.828303,1.0
2009,0.707103,0.654902,0.797921,1.0
2010,0.710105,0.730118,0.839057,1.0
2011,0.691931,0.800996,0.859975,1.0


In [105]:
def corr_aapl_msft(group):
    return group["AAPL"].corr(group["MSFT"])
by_year.apply(corr_aapl_msft)

Unnamed: 0,0
2003,0.480868
2004,0.259024
2005,0.300093
2006,0.161735
2007,0.417738
2008,0.611901
2009,0.432738
2010,0.571946
2011,0.581987


In [106]:
import statsmodels.api as sm
def regress(data, yvar=None, xvars=None):
    Y = data[yvar]
    X = data[xvars]
    X["intercept"] = 1.
    result = sm.OLS(Y, X).fit()
    return result.params

In [None]:
#! ipython id=78fdb9df1f984f3cb2ae8ae664af69f9
by_year.apply(regress, yvar="AAPL", xvars=["SPX"])

In [None]:
#! ipython id=9d6f36a2555f44f29e689cd6a86c6c8b
df = pd.DataFrame({'klucz': ['a', 'b', 'c'] * 4,
                   'wartość': np.arange(12.)})
df

In [None]:
#! ipython id=4f22990eed5f4794981b426d9690a067
g = df.groupby('klucz')['wartość']
g.mean()

In [None]:
#! ipython id=e3dfd39e3cfb4b45a4d4fd3a0df8ba35
def get_mean(group):
    return group.mean()
g.transform(get_mean)

In [None]:
#! ipython id=df3dbb405f0a418cb8f38b1d693126dc
g.transform('mean')

In [None]:
#! ipython id=7c617bcf7d4c442abda7927077f4501a
def times_two(group):
    return group * 2
g.transform(times_two)

In [None]:
#! ipython id=f90592bf16b7442097b9e22a099e1c75
def get_ranks(group):
    return group.rank(ascending=False)
g.transform(get_ranks)

In [None]:
#! ipython id=8997dec2bb2e44978c3d39e98d12bec1
def normalize(x):
    return (x - x.mean()) / x.std()

In [None]:
#! ipython id=d06c11e725f744abb0b0309eb2c04526
g.transform(normalize)
g.apply(normalize)

In [None]:
#! ipython id=36f1cd239f9a4b218ea0d3dc86776890
g.transform('mean')
normalized = (df['value'] - g.transform('mean')) / g.transform('std')
normalized

In [None]:
#! ipython id=2502077543534742bebd6ec88eec4d04
tips.head()
tips.pivot_table(index=["dzień", "palacz"])

In [None]:
#! ipython id=5f3d264eb32842e39cca60645b498611
tips.pivot_table(index=["pora", "dzień"], columns="palacz",
                 values=["napiwek_proc", "wielkość"])

In [None]:
#! ipython id=f65b89a55539440cac1405a620ed2758
tips.pivot_table(index=["pora", "dzień"], columns="palacz",
                 values=["napiwek_proc", "wielkość"], margins=True)

In [None]:
#! ipython id=b597770eae7542cfb95aa7168d4293a8
tips.pivot_table(index=["pora", "palacz"], columns="dzień",
                 values="napiwek_proc", aggfunc=len, margins=True)

In [None]:
#! ipython id=307e306fd97449aa96c00b4c1af2887b
tips.pivot_table(index=["pora", "wielkość", "palacz"], columns="dzień",
                 values="napiwek_proc", fill_value=0)

In [None]:
#! ipython id=c4ea7c59067e4ed5acce365201cec661
from io import StringIO
#! blockstart
data = """Próbka  Narodowość  Stronność
1   USA  Praworęczność
2   Japonia    Leworęczność
3   USA  Praworęczność
4   Japonia    Praworęczność
5   Japonia    Leworęczność
6   Japonia    Praworęczność
7   USA  Praworęczność
8   USA  Leworęczność
9   Japonia    Praworęczność
10  USA  Praworęczność"""
#! blockend
data = pd.read_table(StringIO(data), sep="\s+")

In [None]:
#! ipython id=d7d271d116954e7d8237cabcbc227c52
data

In [None]:
#! ipython id=64e891aa9bc94090b29654b1f44dc426
pd.crosstab(data["Narodowość"], data["Stronność"], margins=True)

In [None]:
#! ipython id=5d0f91726eb748ecaa904c3c703c69cb
pd.crosstab([tips["pora"], tips["dzień"]], tips["palacz"], margins=True)

In [None]:
#! ipython suppress id=231271ac720a43deadca4fb4fce4b133
%popd

In [None]:
#! ipython suppress id=553ffce9df1b4513bff1925e8c5e6c50
pd.options.display.max_rows = PREVIOUS_MAX_ROWS