# Pandas Pivot query - learning notebook

-----

In [1]:
# Dataset
import pandas as pd
from io import StringIO

dataset = """Region,Produkt,Typ,Sprzedawca,Sprzedaż
Północ,Laptop,B2B,Anna,3000
Północ,Tablet,B2C,Bartek,1500
Południe,Laptop,B2B,Anna,2800
Zachód,Smartfon,B2C,Kasia,2000
Wschód,Tablet,B2B,Marek,1700
Południe,Laptop,B2C,Bartek,3100
Zachód,Laptop,B2B,,2600
Wschód,Smartfon,B2C,Kasia,
Południe,Tablet,B2C,Bartek,
Północ,Smartfon,B2B,Anna,2400
Wschód,Laptop,B2C,Marek,2700
Północ,Laptop,B2B,Anna,2900
Południe,Tablet,B2B,Bartek,1800
Zachód,Tablet,B2C,Kasia,1600
Północ,Smartfon,B2C,Anna,2200
Wschód,Laptop,B2B,Marek,2500
Zachód,Smartfon,B2C,Kasia,2100
Południe,Tablet,B2C,,1900
Północ,Tablet,B2C,Bartek,1550
Wschód,Smartfon,B2B,Kasia,2300
Południe,Laptop,B2B,Anna,2750
"""

df_sales = pd.read_csv(StringIO(dataset))

In [2]:
df_sales

Unnamed: 0,Region,Produkt,Typ,Sprzedawca,Sprzedaż
0,Północ,Laptop,B2B,Anna,3000.0
1,Północ,Tablet,B2C,Bartek,1500.0
2,Południe,Laptop,B2B,Anna,2800.0
3,Zachód,Smartfon,B2C,Kasia,2000.0
4,Wschód,Tablet,B2B,Marek,1700.0
5,Południe,Laptop,B2C,Bartek,3100.0
6,Zachód,Laptop,B2B,,2600.0
7,Wschód,Smartfon,B2C,Kasia,
8,Południe,Tablet,B2C,Bartek,
9,Północ,Smartfon,B2B,Anna,2400.0


---

Tabela przestawna - To tabela, ktora pozwala na prezentacje danych wedlug okreslonych kategorii. Pozwala uniknąć wielokrotnego powielania się duplikatów w danych oraz na zwięzłe zgrupowanie danych

In [3]:
pd.pivot_table(data=df_sales, values=['Sprzedaż'], index=['Produkt', 'Region']) # Utworzenie pierwszej tabeli przestawnej

Unnamed: 0_level_0,Unnamed: 1_level_0,Sprzedaż
Produkt,Region,Unnamed: 2_level_1
Laptop,Południe,2883.333333
Laptop,Północ,2950.0
Laptop,Wschód,2600.0
Laptop,Zachód,2600.0
Smartfon,Północ,2300.0
Smartfon,Wschód,2300.0
Smartfon,Zachód,2050.0
Tablet,Południe,1850.0
Tablet,Północ,1525.0
Tablet,Wschód,1700.0


In [4]:
# Tabela przestawna dotyczaca sprzedazy Sprzedawcow zaleznie od regionu
pivot = df_sales.pivot_table(values=['Sprzedaż'], index=['Sprzedawca','Region'], aggfunc={'Sprzedaż': ['count', 'mean', 'sum']}) # Uzycie aggfunc, do utworzenia wielu funkcji agregujacych na kolumnie sprzedaż.
pivot.columns = ['ilosc', 'srednia', 'suma'] # Zmiana nazw kolumn agregujacych, z funkcji aggfunc
pivot 

Unnamed: 0_level_0,Unnamed: 1_level_0,ilosc,srednia,suma
Sprzedawca,Region,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Anna,Południe,2,2775.0,5550.0
Anna,Północ,4,2625.0,10500.0
Bartek,Południe,2,2450.0,4900.0
Bartek,Północ,2,1525.0,3050.0
Kasia,Wschód,1,2300.0,2300.0
Kasia,Zachód,3,1900.0,5700.0
Marek,Wschód,3,2300.0,6900.0


In [6]:
df_sales[(df_sales['Produkt'] == 'Smartfon') & (df_sales['Region'] == 'Wschód')]

Unnamed: 0,Region,Produkt,Typ,Sprzedawca,Sprzedaż
7,Wschód,Smartfon,B2C,Kasia,
19,Wschód,Smartfon,B2B,Kasia,2300.0


In [None]:
# Brak Smartfon + Południe w datasetcie
df_sales.loc[(df_sales['Produkt'] == 'Smartfon') & (df_sales['Region'] == 'Południe')]

Unnamed: 0,Region,Produkt,Typ,Sprzedawca,Sprzedaż


In [None]:
df_sales.pivot_table(values=['Sprzedaż'], index=['Produkt'], columns=['Region'], aggfunc='sum') # Bez fill_value

Unnamed: 0_level_0,Sprzedaż,Sprzedaż,Sprzedaż,Sprzedaż
Region,Południe,Północ,Wschód,Zachód
Produkt,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Laptop,8650.0,5900.0,5200.0,2600.0
Smartfon,,4600.0,2300.0,4100.0
Tablet,3700.0,3050.0,1700.0,1600.0


In [None]:
df_sales.pivot_table(values=['Sprzedaż'], index=['Produkt'], columns=['Region'], aggfunc='sum', fill_value=20_000) # fill_value, uzupelnia Nan w przypadku gdy dana para nie istnieje, tak jak po lewej
# Para Południe + Smartfon, nie istnieje w Datasetcie, ale została wymuszona do pokazania w Pivot table, dlatego Zamiast Nan zostalo 20_000 

Unnamed: 0_level_0,Sprzedaż,Sprzedaż,Sprzedaż,Sprzedaż
Region,Południe,Północ,Wschód,Zachód
Produkt,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Laptop,8650.0,5900.0,5200.0,2600.0
Smartfon,20000.0,4600.0,2300.0,4100.0
Tablet,3700.0,3050.0,1700.0,1600.0


In [None]:
df_sales.pivot_table(values=['Sprzedaż'], index='Produkt', columns=['Region'], margins=True, margins_name='Suma', aggfunc='sum', fill_value=10_000) # margins, dziala jako horyzontalna funkcja agregująca, ktora wykonuje funckje agregacyjna w pionie i poziomie dla wszystkich wartosci. Dziala prawidlowo z jedna funkcja agregacyjną

Unnamed: 0_level_0,Sprzedaż,Sprzedaż,Sprzedaż,Sprzedaż,Sprzedaż
Region,Południe,Północ,Wschód,Zachód,Suma
Produkt,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Laptop,8650.0,5900.0,5200.0,2600.0,22350.0
Smartfon,10000.0,4600.0,2300.0,4100.0,11000.0
Tablet,3700.0,3050.0,1700.0,1600.0,10050.0
Suma,12350.0,13550.0,9200.0,8300.0,43400.0


In [25]:
df_sales.pivot_table(values=['Sprzedaż'], index='Produkt', columns=['Region'], margins=True, margins_name='Suma', aggfunc=['sum', 'count'], fill_value=10_000) # 2 funkcje agregujące

Unnamed: 0_level_0,sum,sum,sum,sum,sum,count,count,count,count,count
Unnamed: 0_level_1,Sprzedaż,Sprzedaż,Sprzedaż,Sprzedaż,Sprzedaż,Sprzedaż,Sprzedaż,Sprzedaż,Sprzedaż,Sprzedaż
Region,Południe,Północ,Wschód,Zachód,Suma,Południe,Północ,Wschód,Zachód,Suma
Produkt,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3
Laptop,8650.0,5900.0,5200.0,2600.0,22350.0,3,2,2,1,8
Smartfon,10000.0,4600.0,2300.0,4100.0,11000.0,10000,2,1,2,5
Tablet,3700.0,3050.0,1700.0,1600.0,10050.0,2,2,1,1,6
Suma,12350.0,13550.0,9200.0,8300.0,43400.0,5,6,4,4,19


In [None]:
pd.crosstab(index=df_sales['Produkt'], columns=df_sales['Region'], values=df_sales['Sprzedaż'], aggfunc='sum') # Prostsza wersja pivot_table, glownie do liczenia ('count'). 
# Mniej uniwersalne i mniej opcji

Region,Południe,Północ,Wschód,Zachód
Produkt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Laptop,8650.0,5900.0,5200.0,2600.0
Smartfon,,4600.0,2300.0,4100.0
Tablet,3700.0,3050.0,1700.0,1600.0


Reshape danych

In [32]:
df_sales

Unnamed: 0,Region,Produkt,Typ,Sprzedawca,Sprzedaż
0,Północ,Laptop,B2B,Anna,3000.0
1,Północ,Tablet,B2C,Bartek,1500.0
2,Południe,Laptop,B2B,Anna,2800.0
3,Zachód,Smartfon,B2C,Kasia,2000.0
4,Wschód,Tablet,B2B,Marek,1700.0
5,Południe,Laptop,B2C,Bartek,3100.0
6,Zachód,Laptop,B2B,,2600.0
7,Wschód,Smartfon,B2C,Kasia,
8,Południe,Tablet,B2C,Bartek,
9,Północ,Smartfon,B2B,Anna,2400.0


In [44]:
df_sales.dropna(inplace=True)

In [66]:
df_melt = pd.read_csv(StringIO("""Produkt,Kategoria,2020,2021,2022,2023
Laptop,Elektronika,15000,17000,16000,18000
Tablet,Elektronika,8000,9500,9200,9800
Smartfon,Elektronika,20000,21000,22000,23000
Drukarka,AGD,3000,3200,3100,3300
Telewizor,AGD,9000,8800,9100,9500
"""))

df_melted_1 = df_melt.melt(id_vars=['Produkt', 'Kategoria'], # Kolumny, ktore chce zostawic
             value_vars=['2020', '2021'], # Wartosci, ktore przeksztalcam w jedna tabele, maja tutaj takie same dane
             var_name='Years',
             value_name='Sprzedaz')
df_melted_1

Unnamed: 0,Produkt,Kategoria,Years,Sprzedaz
0,Laptop,Elektronika,2020,15000
1,Tablet,Elektronika,2020,8000
2,Smartfon,Elektronika,2020,20000
3,Drukarka,AGD,2020,3000
4,Telewizor,AGD,2020,9000
5,Laptop,Elektronika,2021,17000
6,Tablet,Elektronika,2021,9500
7,Smartfon,Elektronika,2021,21000
8,Drukarka,AGD,2021,3200
9,Telewizor,AGD,2021,8800


In [75]:
df_melted_1.pivot(index=['Produkt', 'Kategoria'], # id_vars, ktore uzylem
                  columns='Years', # nazwa kolumny, ktora przechowuje zlaczone dane, czyli value_vars
                  values='Sprzedaz'# nazwa kolumny, ktora przechowuje wartosci, value_name
                  ).reset_index() # Zresetowanie indeksu, aby rzywrocic normalny wyglad tabeli
# Pivot uzywany do wrocenia do widoku szerokiego, poczatkowego z melt, dziala takze jako odpowiednik pivot_table, ktory jest prostszy - podobnie jak crosstab, ogolnie lepiej crosstab lub najlepiej pivot_table

Years,Produkt,Kategoria,2020,2021
0,Drukarka,AGD,3000,3200
1,Laptop,Elektronika,15000,17000
2,Smartfon,Elektronika,20000,21000
3,Tablet,Elektronika,8000,9500
4,Telewizor,AGD,9000,8800


In [None]:
df_melted = df_sales.melt(
    id_vars=['Produkt', 'Region'],  # Ustawienie kolumn, ktore chce aby byly, tak jak wczesniej. 
    value_vars=['Sprzedaż', 'Typ'], # Kolumny, ktore przeksztalcam w jedna kolumne, najlepiej aby byly to kolumny z takimi samymi danymi
    var_name='Typ/Sprzedaz', # nazwa zmiennych, kolumny w ktorej mam dane, ktore rozdzielilem
    value_name='wartosc' # nazwa wartosci
)
df_melted

Unnamed: 0,Produkt,Region,Typ/Sprzedaz,wartosc
0,Laptop,Północ,Sprzedaż,3000.0
1,Tablet,Północ,Sprzedaż,1500.0
2,Laptop,Południe,Sprzedaż,2800.0
3,Smartfon,Zachód,Sprzedaż,2000.0
4,Tablet,Wschód,Sprzedaż,1700.0
5,Laptop,Południe,Sprzedaż,3100.0
6,Smartfon,Północ,Sprzedaż,2400.0
7,Laptop,Wschód,Sprzedaż,2700.0
8,Laptop,Północ,Sprzedaż,2900.0
9,Tablet,Południe,Sprzedaż,1800.0


In [76]:
# df_unmelted = df_melted.pivot(index=['Produkt', 'Region'], ## Jakis blad
#                               columns=['Typ/Sprzedaz'],
#                               values='wartosc').reset_index()

df_stack

In [None]:
df_melt.stack(level=0) # nwm

0  Produkt           Laptop
   Kategoria    Elektronika
   2020               15000
   2021               17000
   2022               16000
   2023               18000
1  Produkt           Tablet
   Kategoria    Elektronika
   2020                8000
   2021                9500
   2022                9200
   2023                9800
2  Produkt         Smartfon
   Kategoria    Elektronika
   2020               20000
   2021               21000
   2022               22000
   2023               23000
3  Produkt         Drukarka
   Kategoria            AGD
   2020                3000
   2021                3200
   2022                3100
   2023                3300
4  Produkt        Telewizor
   Kategoria            AGD
   2020                9000
   2021                8800
   2022                9100
   2023                9500
dtype: object

df query i eval

df.query(warunek), filtrowanie jak w SQL, szybsze w pisaniu niz .loc,, .iloc, itp Oraz obsluguje zmienne poprzez @

In [None]:
df_sales.query("Region == 'Północ'") # => df_sales.loc[df_sales['Region'] == 'Północ']

Unnamed: 0,Region,Produkt,Typ,Sprzedawca,Sprzedaż
0,Północ,Laptop,B2B,Anna,3000.0
1,Północ,Tablet,B2C,Bartek,1500.0
9,Północ,Smartfon,B2B,Anna,2400.0
11,Północ,Laptop,B2B,Anna,2900.0
14,Północ,Smartfon,B2C,Anna,2200.0
18,Północ,Tablet,B2C,Bartek,1550.0


In [None]:
df_sales.query("Sprzedaż >= 2000 and Sprzedawca == 'Bartek'") # => df_sales.loc[(df_sales['Sprzedaż'] >= 2000) & (df_sales['Sprzedawca'] == 'Bartek')]

Unnamed: 0,Region,Produkt,Typ,Sprzedawca,Sprzedaż
5,Południe,Laptop,B2C,Bartek,3100.0


In [96]:
prog = 2500
df_sales.query("Sprzedaż <= @prog")

Unnamed: 0,Region,Produkt,Typ,Sprzedawca,Sprzedaż
1,Północ,Tablet,B2C,Bartek,1500.0
3,Zachód,Smartfon,B2C,Kasia,2000.0
4,Wschód,Tablet,B2B,Marek,1700.0
9,Północ,Smartfon,B2B,Anna,2400.0
12,Południe,Tablet,B2B,Bartek,1800.0
13,Zachód,Tablet,B2C,Kasia,1600.0
14,Północ,Smartfon,B2C,Anna,2200.0
15,Wschód,Laptop,B2B,Marek,2500.0
16,Zachód,Smartfon,B2C,Kasia,2100.0
18,Północ,Tablet,B2C,Bartek,1550.0


df.eval()

df.eval("Nowa_kolumna = Kol_1 + Kol2")

In [97]:
df_sales

Unnamed: 0,Region,Produkt,Typ,Sprzedawca,Sprzedaż
0,Północ,Laptop,B2B,Anna,3000.0
1,Północ,Tablet,B2C,Bartek,1500.0
2,Południe,Laptop,B2B,Anna,2800.0
3,Zachód,Smartfon,B2C,Kasia,2000.0
4,Wschód,Tablet,B2B,Marek,1700.0
5,Południe,Laptop,B2C,Bartek,3100.0
9,Północ,Smartfon,B2B,Anna,2400.0
10,Wschód,Laptop,B2C,Marek,2700.0
11,Północ,Laptop,B2B,Anna,2900.0
12,Południe,Tablet,B2B,Bartek,1800.0


In [98]:
df_sales.eval("Vat = Sprzedaż * 0.23")

Unnamed: 0,Region,Produkt,Typ,Sprzedawca,Sprzedaż,Vat
0,Północ,Laptop,B2B,Anna,3000.0,690.0
1,Północ,Tablet,B2C,Bartek,1500.0,345.0
2,Południe,Laptop,B2B,Anna,2800.0,644.0
3,Zachód,Smartfon,B2C,Kasia,2000.0,460.0
4,Wschód,Tablet,B2B,Marek,1700.0,391.0
5,Południe,Laptop,B2C,Bartek,3100.0,713.0
9,Północ,Smartfon,B2B,Anna,2400.0,552.0
10,Wschód,Laptop,B2C,Marek,2700.0,621.0
11,Północ,Laptop,B2B,Anna,2900.0,667.0
12,Południe,Tablet,B2B,Bartek,1800.0,414.0


In [99]:
podwyzka = 200
df_sales.eval("Cena_po_podwyzce = Sprzedaż + @podwyzka")

Unnamed: 0,Region,Produkt,Typ,Sprzedawca,Sprzedaż,Cena_po_podwyzce
0,Północ,Laptop,B2B,Anna,3000.0,3200.0
1,Północ,Tablet,B2C,Bartek,1500.0,1700.0
2,Południe,Laptop,B2B,Anna,2800.0,3000.0
3,Zachód,Smartfon,B2C,Kasia,2000.0,2200.0
4,Wschód,Tablet,B2B,Marek,1700.0,1900.0
5,Południe,Laptop,B2C,Bartek,3100.0,3300.0
9,Północ,Smartfon,B2B,Anna,2400.0,2600.0
10,Wschód,Laptop,B2C,Marek,2700.0,2900.0
11,Północ,Laptop,B2B,Anna,2900.0,3100.0
12,Południe,Tablet,B2B,Bartek,1800.0,2000.0


In [101]:
kurs_euro = 4.5
df_sales.eval("Cena_po_przewalutowaniu = Sprzedaż / @kurs_euro")

Unnamed: 0,Region,Produkt,Typ,Sprzedawca,Sprzedaż,Cena_po_przewalutowaniu
0,Północ,Laptop,B2B,Anna,3000.0,666.666667
1,Północ,Tablet,B2C,Bartek,1500.0,333.333333
2,Południe,Laptop,B2B,Anna,2800.0,622.222222
3,Zachód,Smartfon,B2C,Kasia,2000.0,444.444444
4,Wschód,Tablet,B2B,Marek,1700.0,377.777778
5,Południe,Laptop,B2C,Bartek,3100.0,688.888889
9,Północ,Smartfon,B2B,Anna,2400.0,533.333333
10,Wschód,Laptop,B2C,Marek,2700.0,600.0
11,Północ,Laptop,B2B,Anna,2900.0,644.444444
12,Południe,Tablet,B2B,Bartek,1800.0,400.0


In [None]:
import numpy as np
df_sales.eval("random = Sprzedaż + log(Sprzedaż)") # uzycie podstawowych funkcji matematycznych numpy

Unnamed: 0,Region,Produkt,Typ,Sprzedawca,Sprzedaż,random
0,Północ,Laptop,B2B,Anna,3000.0,3008.006368
1,Północ,Tablet,B2C,Bartek,1500.0,1507.31322
2,Południe,Laptop,B2B,Anna,2800.0,2807.937375
3,Zachód,Smartfon,B2C,Kasia,2000.0,2007.600902
4,Wschód,Tablet,B2B,Marek,1700.0,1707.438384
5,Południe,Laptop,B2C,Bartek,3100.0,3108.039157
9,Północ,Smartfon,B2B,Anna,2400.0,2407.783224
10,Wschód,Laptop,B2C,Marek,2700.0,2707.901007
11,Północ,Laptop,B2B,Anna,2900.0,2907.972466
12,Południe,Tablet,B2B,Bartek,1800.0,1807.495542


parametr **engine=python**, pozwala zmienic silnik wykonywania skryptu w eval i w query na python z jakiegos innego i wykonywac bardziej zlozone operacje, ktore wyrzucaja normalnie bledy.

In [128]:
df_sales.query("Produkt.str.contains('n', case=False)", engine='python') # wyswietla rzedy ktore w Produkt maja n

Unnamed: 0,Region,Produkt,Typ,Sprzedawca,Sprzedaż
3,Zachód,Smartfon,B2C,Kasia,2000.0
9,Północ,Smartfon,B2B,Anna,2400.0
14,Północ,Smartfon,B2C,Anna,2200.0
16,Zachód,Smartfon,B2C,Kasia,2100.0
19,Wschód,Smartfon,B2B,Kasia,2300.0


In [130]:
df_sales.query("Produkt.isin(['Laptop', 'Tablet'])")

Unnamed: 0,Region,Produkt,Typ,Sprzedawca,Sprzedaż
0,Północ,Laptop,B2B,Anna,3000.0
1,Północ,Tablet,B2C,Bartek,1500.0
2,Południe,Laptop,B2B,Anna,2800.0
4,Wschód,Tablet,B2B,Marek,1700.0
5,Południe,Laptop,B2C,Bartek,3100.0
10,Wschód,Laptop,B2C,Marek,2700.0
11,Północ,Laptop,B2B,Anna,2900.0
12,Południe,Tablet,B2B,Bartek,1800.0
13,Zachód,Tablet,B2C,Kasia,1600.0
15,Wschód,Laptop,B2B,Marek,2500.0


In [None]:
produkty = ['Smartfon', 'Telewizor', 'Laptop']
cena = 2500
df_sales.query("Produkt.isin(@produkty) and Sprzedaż >= @cena", engine='python') # Produkty, ktore sa z listy produkty i maja cene wyzsza niz

Unnamed: 0,Region,Produkt,Typ,Sprzedawca,Sprzedaż
0,Północ,Laptop,B2B,Anna,3000.0
2,Południe,Laptop,B2B,Anna,2800.0
5,Południe,Laptop,B2C,Bartek,3100.0
10,Wschód,Laptop,B2C,Marek,2700.0
11,Północ,Laptop,B2B,Anna,2900.0
15,Wschód,Laptop,B2B,Marek,2500.0
20,Południe,Laptop,B2B,Anna,2750.0
