# Pandas

Pandas (**P**ython **AN**alysis of **DA**ta) – biblioteka do przetwarzania i analizy zbiorów danych

Instalacja pakietu - w wierszu poleceń:

```
   pip install pandas
```

W Pythonie:

In [1]:
import pandas as pd
import numpy as np   # też nadal ważna

Dwa typy struktur w Pandas:

- jednowymiarowa: **Series** - zmienna, lista wartości jednego typu
- dwuwymiarowa: **DataFrame** - tabela, lista zmiennych

## Zawartość pliku

1.	Serie – pandas.series
    -	utworzenie serii
    -	indeksowanie i slicing
    -	operacje na seriach
2.	Ramki danych – pandas.dataframe
    -	utworzenie ramki danych
    -	wczytanie ramki danych z pliku 
    -	zapis ramki danych w plik    
3.	Struktura danych
    -	podgląd fragmentu danych
    -	podstawowe informacje o danych
4.	Indeksowanie i slicing – Subsetting
    -	wybór kolumn przez nazwy
    -	wybór kolumn przez typ
    -	wybór podzbiorów funkcją loc
    -	wybór podzbiorów funkcją filter
5.	Operacje
    -	operacje matematyczne
    -	operacje stringowe
    -	operacje logiczne
    -	mapowanie
6.	Filtrowanie
    -	filtrowanie
    -	subsetting z filtrowaniem
7.	Modyfikacja
    -	modyfikacja wybranych wartości
    -	dodawanie / modyfikacja kolumn 
    -	przesuwanie kolumn
    -	usuwanie kolumn
    -	dodawanie wierszy
    -	usuwanie wierszy
8.	Łączenie ramek
    -	konkatenacja
    -	złączenia
9.	Utworzenie kopii ramki
10.	Przekształcenia ramki
    -	dane szerokie -> dane długie
    -	dane długie -> dane szerokie
    -	transpozycja
    -	sortowanie
11.	Modyfikacja etykiet
    -	usunięcie etykiet indeksów
    -	zmiana etykiet indeksów
    -	zmiana nazw kolumn
    -	zmiana nazw list etykiet

## 1. Serie - pandas.series

### Utworzenie serii

**Za pomocą listy/numpy.array**

In [2]:
zmienna1 = pd.Series([1, 2, 3])

print(zmienna1)

0    1
1    2
2    3
dtype: int64


In [3]:
print(zmienna1.shape)

(3,)


Pandas.series mają indeksowane elementy w przeciwieństwie do list lub numpy.array.

In [4]:
print(pd.Series([1, 2, 3], index = ['x', 'y', 'z']))

x    1
y    2
z    3
dtype: int64


**Za pomocą słownika**

In [5]:
zmienna2 =  pd.Series({'a':'pies', 'b':'kot', 'c':'krowa'})
print(zmienna2)

a     pies
b      kot
c    krowa
dtype: object


### Indeksowanie i slicing

**Indeksowanie**

In [6]:
print(zmienna1[1])
print(zmienna2['b'])

2
kot


**Slicing**

In [7]:
print(zmienna1[1:])

1    2
2    3
dtype: int64


In [8]:
print(zmienna2[:'b'])    # włącznie z 'b'!

a    pies
b     kot
dtype: object


---

Pandas.series nie powinien składać się z elementów różnego typu - w pamięci przechowywane są oryginalne typy elementów, ale podczas operowania na całym pandas.series typ jest ujednolicany do najbardziej ogólnego:

In [9]:
lista = [1, 'a', 3]

print(lista)
print(pd.Series(lista))  # zmiana int -> object (str)

[1, 'a', 3]
0    1
1    a
2    3
dtype: object


### Operacje na seriach

Pandas.series posiadają podobny (ale nie identyczny) zbiór funkcjonalności do numpy.array:

In [10]:
zmienna = pd.Series([-1, 0, 1], dtype = 'object')  # zdefiniowanie typu elementów
print(zmienna)

0    -1
1     0
2     1
dtype: object


In [11]:
zmienna1 = pd.Series([1, 2, 3])
zmienna2 = pd.Series([4, 5, 6])

print(zmienna1 + zmienna2)                  # operacje matematyczne
print(zmienna1 * 2)                         # broadcasting
print(pd.concat([zmienna1, zmienna2]))      # konkatenacja
print(zmienna1[zmienna1 > 1])               # operacje logiczne i filtrowanie
zmienna1[1] = 9; print(zmienna1)            # modyfikacja
print(zmienna1.round())                     # funkcje matematyczne
print(zmienna1.sum())                       # funkcje statystyczne

0    5
1    7
2    9
dtype: int64
0    2
1    4
2    6
dtype: int64
0    1
1    2
2    3
0    4
1    5
2    6
dtype: int64
1    2
2    3
dtype: int64
0    1
1    9
2    3
dtype: int64
0    1
1    9
2    3
dtype: int64
13


## 2. Ramki danych - pandas.dataframe

### Utworzenie ramki danych

**Za pomocą listy/numpy.array**

In [12]:
tabela = pd.DataFrame([[1, 2, 'pies'],
                       [4, 5, 'kot'],
                       [7, 8, 'krowa']])
tabela

Unnamed: 0,0,1,2
0,1,2,pies
1,4,5,kot
2,7,8,krowa


In [13]:
tabela = pd.DataFrame([[1, 2, 'pies'],
                       [4, 5, 'kot'],
                       [7, 8, 'krowa']],
                      columns = ['a', 'b', 'c'],  # nazwy kolumn
                      index   = [1, 2, 3])        # indeksy wierszy
tabela

Unnamed: 0,a,b,c
1,1,2,pies
2,4,5,kot
3,7,8,krowa


**Za pomocą słownika**

In [14]:
tabela = pd.DataFrame({'a': [1, 4, 7],
                       'b': [2, 5, 8],
                       'c': ['pies', 'kot', 'krowa']})
tabela

Unnamed: 0,a,b,c
0,1,2,pies
1,4,5,kot
2,7,8,krowa


In [15]:
tabela = pd.DataFrame({'a': [1, 2, 3],                 # 'nazwa_zmiennej':lista_wartości
                       'b': [4, 5, 6],
                       'c': ['pies', 'kot', 'krowa']},
                      index = ['x', 'y', 'z'])         # indeksy wierszy
tabela

Unnamed: 0,a,b,c
x,1,4,pies
y,2,5,kot
z,3,6,krowa


In [16]:
tabela.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, x to z
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   a       3 non-null      int64 
 1   b       3 non-null      int64 
 2   c       3 non-null      object
dtypes: int64(2), object(1)
memory usage: 96.0+ bytes


Każda kolumna pandas.dataframe to pandas.series. Konsekwencja: powinna zawierać tylko jeden typ danych.

In [17]:
type(tabela['a'])

pandas.core.series.Series

---

Utworzenie DataFrame za pomocą numpy.array jest właściwe, jeśli nasze dane są jednego typu, np. dane tylko ilościowe. \
W przeciwnym razie, typy danych mogą zmienić się na niepożądane.

In [18]:
tabela_lst = pd.DataFrame([[1, 2, 'pies'],
                           [4, 5, 'kot'],
                           [7, 8, 'krowa']])

tabela_nmp = pd.DataFrame(np.array([[1, 2, 'pies'],
                                    [4, 5, 'kot'],
                                    [7, 8, 'krowa']]))

tabela_lst.info()
tabela_nmp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3 non-null      int64 
 1   1       3 non-null      int64 
 2   2       3 non-null      object
dtypes: int64(2), object(1)
memory usage: 200.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3 non-null      object
 1   1       3 non-null      object
 2   2       3 non-null      object
dtypes: object(3)
memory usage: 200.0+ bytes


### Wczytanie ramki danych z pliku

Docelowo chcemy jako DataFrame wczytywać pliki o rozszerzeniach "xlsx", "csv", "txt", aby móc przetworzyć zebrane wcześniej dane. \
Jeśli nie chcemy podawać ścieżki bezwzględnej do pliku, ani ustawiać katalogu roboczego, to najlepiej mieć dane w tym samym folderze, co plik z kodem.

**Pliki csv i txt**

Instrukcja funkcji read_csv:

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [19]:
pd.read_csv('data.csv')          

Unnamed: 0,a,b,c
0,1,2,słoń
1,4,5,bażant
2,7,8,chrabąszcz


In [None]:
pd.read_csv('data_ansi.csv',
            #encoding = 'ansi'        # kodowanie pliku, np. 'utf-8' (domyślne), 'cp1250'
            ) 

In [22]:
pd.read_csv('data_semicolon.csv',
            #sep = ';'                 # separator komórek, np. ',' (domyślne), ' ', '\t' (tabulacja)
            ) 

Unnamed: 0,a;b;c
0,1;2;słoń
1,4;5;bażant
2,7;8;chrabąszcz


In [None]:
pd.read_csv('data_specific.csv')       # domyślne ustawienia nie pozwalają na odczytanie pliku!

In [33]:
pd.read_csv('data_specific.csv',
            sep       = ';',
            decimal   = ',',                   # znak dziesiętny, np. '.' (domyślne)
            #header    = None,                 # nr wiersza z nazwami kolumn, np. 0,1,2, None (brak)
            #index_col = 0,                    # nr kolumny z indeksami wierszy
            #names     = ['w', 'x', 'y', 'z']  # nazwy kolumn (były już zdefiniowane->dopisanie nad; nie było->zastąpienie)
            )

Unnamed: 0,a,5,2,5.1,żółty
0,b,1.0,2.0,3.0,różowy
1,c,4.0,5.0,60.0,brąz
2,d,7.0,8.0,90.0,czerń
3,e,10.0,,12.0,łososiowy


**Pliki xlsx**

Instrukcja funkcji read_excel:

https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html

In [24]:
pd.read_excel('data.xlsx', 'tabela',           # dane i arkusz
              header = 0                       # dalsze argumenty, analogiczne do read_csv
              ) 

Unnamed: 0,a,b,c
0,1,2,słoń
1,4,5,bażant
2,7,8,chrabąszcz


Instrukcja funkcji ExcelFile:

https://pandas.pydata.org/docs/reference/api/pandas.ExcelFile.html

In [290]:
plik_excel = pd.ExcelFile('data.xlsx')         # wczytanie danych z xlsx (całego pliku)
plik_excel.sheet_names                         # lista arkuszy danych pliku xlsx

['tabela', 'pracownicy', 'przypadki']

In [291]:
dane = plik_excel.parse('pracownicy',          # wczytanie danych z xlsx (konkretnego arkusza), domyślnie pierwszy
                        index_col = 0          # dalsze argumenty, analogiczne do read_csv 
                        )                    
dane   

Unnamed: 0,Imię,Nazwisko,Data urodzin,Zarobki,Premia,Stanowisko
AK77,Anastazja,Kowalska,1977-09-13,4000,300,programista
LW89,Leon,Wiśniewski,1989-08-23,4400,500,kierownik
AN01,Andrzej,Nowak,2001-02-18,3500,200,analityk
BS99,Beata,Stein,1999-02-03,3100,100,programista
AK94,Anna,Kostewicz,1994-04-02,3000,200,programista
JM00,Jan,Mateja,2000-04-01,3100,200,sprzedawca
KM00,Krzysztof,Miller,2000-04-03,3100,200,analityk
AP98,Alina,Peres,1998-10-12,3000,200,analityk
WN88,Wojciech,Nowak,1988-03-27,3200,200,programista
MS90,Marcin,Sobański,1990-01-30,2800,200,analityk


### Zapis ramki danych w pliku

In [27]:
dane.to_csv('data_saved.csv',       
            index = False                # zapis bez indeksów wierszy
            )          

In [28]:
dane.to_excel('data_saved.xlsx',    
              index = False              # zapis bez indeksów wierszy
              )

Sprawdzenie:

In [29]:
pd.read_csv('data_saved.csv') 

Unnamed: 0,Imię,Nazwisko,Data urodzin,Zarobki,Premia,Stanowisko
0,Anastazja,Kowalska,1977-09-13,4000,300,programista
1,Leon,Wiśniewski,1989-08-23,4400,500,kierownik
2,Andrzej,Nowak,2001-02-18,3500,200,analityk
3,Beata,Stein,1999-02-03,3100,100,programista
4,Anna,Kostewicz,1994-04-02,3000,200,programista
5,Jan,Mateja,2000-04-01,3100,200,sprzedawca
6,Krzysztof,Miller,2000-04-03,3100,200,analityk
7,Alina,Peres,1998-10-12,3000,200,analityk
8,Wojciech,Nowak,1988-03-27,3200,200,programista
9,Marcin,Sobański,1990-01-30,2800,200,analityk


In [30]:
pd.read_excel('data_saved.xlsx') 

Unnamed: 0,Imię,Nazwisko,Data urodzin,Zarobki,Premia,Stanowisko
0,Anastazja,Kowalska,1977-09-13,4000,300,programista
1,Leon,Wiśniewski,1989-08-23,4400,500,kierownik
2,Andrzej,Nowak,2001-02-18,3500,200,analityk
3,Beata,Stein,1999-02-03,3100,100,programista
4,Anna,Kostewicz,1994-04-02,3000,200,programista
5,Jan,Mateja,2000-04-01,3100,200,sprzedawca
6,Krzysztof,Miller,2000-04-03,3100,200,analityk
7,Alina,Peres,1998-10-12,3000,200,analityk
8,Wojciech,Nowak,1988-03-27,3200,200,programista
9,Marcin,Sobański,1990-01-30,2800,200,analityk


## 3. Struktura danych

### Podgląd fragmentu danych

In [31]:
print(dane.head())                            # 5 pierwszych wierszy
print()
print(dane.head(2))                           # k pierwszych wierszy
print()
print(dane.tail())                            # 5 ostatnich wierszy

           Imię    Nazwisko Data urodzin  Zarobki  Premia   Stanowisko
AK77  Anastazja    Kowalska   1977-09-13     4000     300  programista
LW89       Leon  Wiśniewski   1989-08-23     4400     500    kierownik
AN01    Andrzej       Nowak   2001-02-18     3500     200     analityk
BS99      Beata       Stein   1999-02-03     3100     100  programista
AK94       Anna   Kostewicz   1994-04-02     3000     200  programista

           Imię    Nazwisko Data urodzin  Zarobki  Premia   Stanowisko
AK77  Anastazja    Kowalska   1977-09-13     4000     300  programista
LW89       Leon  Wiśniewski   1989-08-23     4400     500    kierownik

          Imię    Nazwisko Data urodzin  Zarobki  Premia   Stanowisko
AP98     Alina       Peres   1998-10-12     3000     200     analityk
WN88  Wojciech       Nowak   1988-03-27     3200     200  programista
MS90    Marcin    Sobański   1990-01-30     2800     200     analityk
JB95       Jan      Borski   1995-07-02     2600     100   sprzedawca
ŁG96    Ł

In [32]:
print(dane.sample())                          # losowy wiersz
print()
print(dane.sample(4))                         # k losowych wierszy

      Imię   Nazwisko Data urodzin  Zarobki  Premia   Stanowisko
AK94  Anna  Kostewicz   1994-04-02     3000     200  programista

           Imię  Nazwisko Data urodzin  Zarobki  Premia   Stanowisko
AK77  Anastazja  Kowalska   1977-09-13     4000     300  programista
MS90     Marcin  Sobański   1990-01-30     2800     200     analityk
WN88   Wojciech     Nowak   1988-03-27     3200     200  programista
AN01    Andrzej     Nowak   2001-02-18     3500     200     analityk


### Podstawowe informacje o danych

In [33]:
dane.info()                                   # podsumowanie kluczowych informacji o danych

<class 'pandas.core.frame.DataFrame'>
Index: 12 entries, AK77 to ŁG96
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   Imię          12 non-null     object        
 1   Nazwisko      12 non-null     object        
 2   Data urodzin  12 non-null     datetime64[ns]
 3   Zarobki       12 non-null     int64         
 4   Premia        12 non-null     int64         
 5   Stanowisko    12 non-null     object        
dtypes: datetime64[ns](1), int64(2), object(3)
memory usage: 672.0+ bytes


In [34]:
print(dane.index)                             # indeksy wierszy
print(dane.columns)                           # nazwy kolumn

Index(['AK77', 'LW89', 'AN01', 'BS99', 'AK94', 'JM00', 'KM00', 'AP98', 'WN88',
       'MS90', 'JB95', 'ŁG96'],
      dtype='object')
Index(['Imię', 'Nazwisko', 'Data urodzin', 'Zarobki', 'Premia', 'Stanowisko'], dtype='object')


In [35]:
print(dane.count())                           # liczba niepustych wartości w kolumnach
print(dane.dtypes)                            # typy zmiennych

Imię            12
Nazwisko        12
Data urodzin    12
Zarobki         12
Premia          12
Stanowisko      12
dtype: int64
Imię                    object
Nazwisko                object
Data urodzin    datetime64[ns]
Zarobki                  int64
Premia                   int64
Stanowisko              object
dtype: object


In [36]:
print(dane.shape)                             # wymiary zbioru danych (liczba wierszy i kolumn)
print(len(dane))                              # liczba wierszy
print(len(dane.columns))                      # liczba kolumn

(12, 6)
12
6


## 4. Indeksowanie i slicing - Subsetting

### Wybór kolumn poprzez ich nazwy

**Jedna kolumna**

In [37]:
print(dane['Imię'])                           # kolumna jako pandas.series
print(dane.Imię)

AK77    Anastazja
LW89         Leon
AN01      Andrzej
BS99        Beata
AK94         Anna
JM00          Jan
KM00    Krzysztof
AP98        Alina
WN88     Wojciech
MS90       Marcin
JB95          Jan
ŁG96       Łukasz
Name: Imię, dtype: object
AK77    Anastazja
LW89         Leon
AN01      Andrzej
BS99        Beata
AK94         Anna
JM00          Jan
KM00    Krzysztof
AP98        Alina
WN88     Wojciech
MS90       Marcin
JB95          Jan
ŁG96       Łukasz
Name: Imię, dtype: object


In [38]:
print(dane[['Imię']])                         # kolumna jako pandas.dataframe

           Imię
AK77  Anastazja
LW89       Leon
AN01    Andrzej
BS99      Beata
AK94       Anna
JM00        Jan
KM00  Krzysztof
AP98      Alina
WN88   Wojciech
MS90     Marcin
JB95        Jan
ŁG96     Łukasz


In [39]:
print(type(dane['Imię']),   dane['Imię'].shape)
print(type(dane[['Imię']]), dane[['Imię']].shape)

<class 'pandas.core.series.Series'> (12,)
<class 'pandas.core.frame.DataFrame'> (12, 1)


Gdy nazwa kolumny jest dwuczłonowa dostęp do niej jest tylko na pierwszy ze sposobów:

In [40]:
print(dane['Data urodzenia']) 
#print(dane.Data urodzenia)                    # błąd składni (SyntaxError)

AK77   1977-09-13
LW89   1989-08-23
AN01   2001-02-18
BS99   1999-02-03
AK94   1994-04-02
JM00   2000-04-01
KM00   2000-04-03
AP98   1998-10-12
WN88   1988-03-27
MS90   1990-01-30
JB95   1995-07-02
ŁG96   1996-11-09
Name: Data urodzin, dtype: datetime64[ns]


**Kilka kolumn**

In [41]:
dane[['Imię', 'Nazwisko']]

Unnamed: 0,Imię,Nazwisko
AK77,Anastazja,Kowalska
LW89,Leon,Wiśniewski
AN01,Andrzej,Nowak
BS99,Beata,Stein
AK94,Anna,Kostewicz
JM00,Jan,Mateja
KM00,Krzysztof,Miller
AP98,Alina,Peres
WN88,Wojciech,Nowak
MS90,Marcin,Sobański


### Wybór kolumn poprzez ich typ

**Jeden typ**

In [42]:
dane.select_dtypes('object')

Unnamed: 0,Imię,Nazwisko,Stanowisko
AK77,Anastazja,Kowalska,programista
LW89,Leon,Wiśniewski,kierownik
AN01,Andrzej,Nowak,analityk
BS99,Beata,Stein,programista
AK94,Anna,Kostewicz,programista
JM00,Jan,Mateja,sprzedawca
KM00,Krzysztof,Miller,analityk
AP98,Alina,Peres,analityk
WN88,Wojciech,Nowak,programista
MS90,Marcin,Sobański,analityk


**Kilka typów**

In [219]:
 dane.select_dtypes(['object', 'datetime'])

Unnamed: 0,Imię,Nazwisko,Data urodzenia,Stanowisko
AK77,Anastazja,Kowalska,1977-09-13,programista
LW89,Leon,Wiśniewski,1989-08-23,kierownik
AN01,Andrzej,Nowak,2001-02-18,analityk
BS99,Beata,Stein,1999-02-03,programista
AK94,Anna,Kostewicz,1994-04-02,programista
JM00,Jan,Mateja,2000-04-01,sprzedawca
KM00,Krzysztof,Miller,2000-04-03,analityk
AP98,Alina,Peres,1998-10-12,analityk
WN88,Wojciech,Nowak,1988-03-27,programista
MS90,Marcin,Sobański,1990-01-30,kierownik


### Wybór podzbiorów poprzez funkcję `loc`

Funkcja `loc` pozwala na indeksowanie wierszy i kolumn za pomocą ich nazw.

**Jeden wiersz**

In [44]:
dane.loc['AN01']

Imię                        Andrzej
Nazwisko                      Nowak
Data urodzin    2001-02-18 00:00:00
Zarobki                        3500
Premia                          200
Stanowisko                 analityk
Name: AN01, dtype: object

**Kilka wierszy**

In [45]:
dane.loc[['AN01', 'KM00']]

Unnamed: 0,Imię,Nazwisko,Data urodzin,Zarobki,Premia,Stanowisko
AN01,Andrzej,Nowak,2001-02-18,3500,200,analityk
KM00,Krzysztof,Miller,2000-04-03,3100,200,analityk


In [46]:
dane.loc['AN01':'KM00']

Unnamed: 0,Imię,Nazwisko,Data urodzin,Zarobki,Premia,Stanowisko
AN01,Andrzej,Nowak,2001-02-18,3500,200,analityk
BS99,Beata,Stein,1999-02-03,3100,100,programista
AK94,Anna,Kostewicz,1994-04-02,3000,200,programista
JM00,Jan,Mateja,2000-04-01,3100,200,sprzedawca
KM00,Krzysztof,Miller,2000-04-03,3100,200,analityk


**Jedna komórka**

In [47]:
dane.loc['AN01', 'Imię']                       

'Andrzej'

**Dowolny podzbiór**

In [48]:
dane.loc[['AN01', 'KM00'], 'Imię']

AN01      Andrzej
KM00    Krzysztof
Name: Imię, dtype: object

In [49]:
dane.loc['AN01', ['Imię', 'Nazwisko']]  

Imię        Andrzej
Nazwisko      Nowak
Name: AN01, dtype: object

In [51]:
dane.loc[['AN01', 'KM00'], ['Imię', 'Nazwisko']]

Unnamed: 0,Imię,Nazwisko
AN01,Andrzej,Nowak
KM00,Krzysztof,Miller


In [52]:
dane.loc[:'JM00', 'Zarobki':'Stanowisko']    

Unnamed: 0,Zarobki,Premia,Stanowisko
AK77,4000,300,programista
LW89,4400,500,kierownik
AN01,3500,200,analityk
BS99,3100,100,programista
AK94,3000,200,programista
JM00,3100,200,sprzedawca


### Wybór podzbiorów poprzez funkcję `filter`

**Wybieranie kolumn**

In [53]:
dane.filter(['Imię', 'Nazwisko'])     # poprzez nazwy

Unnamed: 0,Imię,Nazwisko
AK77,Anastazja,Kowalska
LW89,Leon,Wiśniewski
AN01,Andrzej,Nowak
BS99,Beata,Stein
AK94,Anna,Kostewicz
JM00,Jan,Mateja
KM00,Krzysztof,Miller
AP98,Alina,Peres
WN88,Wojciech,Nowak
MS90,Marcin,Sobański


In [54]:
dane.filter(like = 'ko')              # poprzez obecność w nazwie podstringa

Unnamed: 0,Nazwisko,Stanowisko
AK77,Kowalska,programista
LW89,Wiśniewski,kierownik
AN01,Nowak,analityk
BS99,Stein,programista
AK94,Kostewicz,programista
JM00,Mateja,sprzedawca
KM00,Miller,analityk
AP98,Peres,analityk
WN88,Nowak,programista
MS90,Sobański,analityk


In [55]:
dane.filter(regex = 'sko$')           # poprzez wyrażenie regularne (tu kończące się na "sko")

Unnamed: 0,Nazwisko,Stanowisko
AK77,Kowalska,programista
LW89,Wiśniewski,kierownik
AN01,Nowak,analityk
BS99,Stein,programista
AK94,Kostewicz,programista
JM00,Mateja,sprzedawca
KM00,Miller,analityk
AP98,Peres,analityk
WN88,Nowak,programista
MS90,Sobański,analityk


**Wybieranie wierszy**

In [56]:
dane.filter(['AN01', 'KM00'], axis = 'rows')     # poprzez nazwy

Unnamed: 0,Imię,Nazwisko,Data urodzin,Zarobki,Premia,Stanowisko
AN01,Andrzej,Nowak,2001-02-18,3500,200,analityk
KM00,Krzysztof,Miller,2000-04-03,3100,200,analityk


In [57]:
dane.filter(like = 'M0',      axis = 'rows')     # poprzez obecność w nazwie podstringa

Unnamed: 0,Imię,Nazwisko,Data urodzin,Zarobki,Premia,Stanowisko
JM00,Jan,Mateja,2000-04-01,3100,200,sprzedawca
KM00,Krzysztof,Miller,2000-04-03,3100,200,analityk


In [58]:
dane.filter(regex = '^A',     axis = 'rows')     # poprzez wyrażenie regularne (tu zaczynające się na "A")

Unnamed: 0,Imię,Nazwisko,Data urodzin,Zarobki,Premia,Stanowisko
AK77,Anastazja,Kowalska,1977-09-13,4000,300,programista
AN01,Andrzej,Nowak,2001-02-18,3500,200,analityk
AK94,Anna,Kostewicz,1994-04-02,3000,200,programista
AP98,Alina,Peres,1998-10-12,3000,200,analityk


Wszystkie z powyższych opcji odwołujących się do nazw kolumn lub wierszy, mogą zostać wykorzystane do zmiany ich kolejności, poprzez podanie wszystkich kolumn lub wierszy w ustalonym porządku.

---

### Ćwiczenia

1. Wybierz kolumy 'Data urodzenia', 'Zarobki' i 'Premia' odwołując się:
    * bezpośrednio do ich nazw

   * do ich nazw oraz sąsiadowania (użyj slicingu)

   * do ich typów

   * do tego, że są to jedyne kolumny z literą 'r'.

2. Wybierz kolumnę 'Stanowisko' dla osób o indeksach 'JM00', 'KM00' i 'MS90', odwołując się:
- do nazw indeksów

- do tego, że tylko tych indeksów nazwy kończą się na '0'.

---

## 5. Operacje w ramkach danych

Na pandas.dataframe można wykonywać podobny zbiór operacji jak na pandas.series, ale w większości przypadków bardziej praktyczne jest zastosowanie tych drugich - na kolumnach ramki danych.

### Operacje matematyczne

In [61]:
print(dane['Zarobki'] + dane['Premia'])      # operacje matematyczne
print(dane['Zarobki'] * 2)                   # broadcasting
print(dane[['Zarobki', 'Premia']] * 2)       # broadcasting na DataFrame

AK77    4300
LW89    4900
AN01    3700
BS99    3200
AK94    3200
JM00    3300
KM00    3300
AP98    3200
WN88    3400
MS90    3000
JB95    2700
ŁG96    3000
dtype: int64
AK77    8000
LW89    8800
AN01    7000
BS99    6200
AK94    6000
JM00    6200
KM00    6200
AP98    6000
WN88    6400
MS90    5600
JB95    5200
ŁG96    5800
Name: Zarobki, dtype: int64
      Zarobki  Premia
AK77     8000     600
LW89     8800    1000
AN01     7000     400
BS99     6200     200
AK94     6000     400
JM00     6200     400
KM00     6200     400
AP98     6000     400
WN88     6400     400
MS90     5600     400
JB95     5200     200
ŁG96     5800     200


### Operacje stringowe

https://pandas.pydata.org/docs/reference/series.html#string-handling

In [62]:
print(dane['Nazwisko'] + '-' + dane['Stanowisko'])     # konkatenacja stringów
print(dane['Nazwisko'].str.lower())                    # małe litery
print(dane['Nazwisko'].str.upper())                    # wielkie litery
print(dane['Nazwisko'].str[0:3])                       # podstring 
print(dane['Nazwisko'].str.replace('ski', 'iak'))      # zamiana podstringa

AK77     Kowalska-programista
LW89     Wiśniewski-kierownik
AN01           Nowak-analityk
BS99        Stein-programista
AK94    Kostewicz-programista
JM00        Mateja-sprzedawca
KM00          Miller-analityk
AP98           Peres-analityk
WN88        Nowak-programista
MS90        Sobański-analityk
JB95        Borski-sprzedawca
ŁG96      Guzdrowski-analityk
dtype: object
AK77      kowalska
LW89    wiśniewski
AN01         nowak
BS99         stein
AK94     kostewicz
JM00        mateja
KM00        miller
AP98         peres
WN88         nowak
MS90      sobański
JB95        borski
ŁG96    guzdrowski
Name: Nazwisko, dtype: object
AK77      KOWALSKA
LW89    WIŚNIEWSKI
AN01         NOWAK
BS99         STEIN
AK94     KOSTEWICZ
JM00        MATEJA
KM00        MILLER
AP98         PERES
WN88         NOWAK
MS90      SOBAŃSKI
JB95        BORSKI
ŁG96    GUZDROWSKI
Name: Nazwisko, dtype: object
AK77    Kow
LW89    Wiś
AN01    Now
BS99    Ste
AK94    Kos
JM00    Mat
KM00    Mil
AP98    Per
WN88    Now
MS

### Operacje logiczne

**Z operatorami logicznymi**

In [64]:
print(dane['Zarobki'] == (dane['Premia'] + 3000))
print(dane['Zarobki'] != (dane['Premia'] + 3000))
print(dane['Zarobki'] < (dane['Premia'] + 3000))
print(dane['Zarobki'] < 3100)
print((dane['Zarobki'] > 3100) & (dane['Zarobki'] < 3800))

AK77    False
LW89    False
AN01    False
BS99     True
AK94    False
JM00    False
KM00    False
AP98    False
WN88     True
MS90    False
JB95    False
ŁG96    False
dtype: bool
AK77     True
LW89     True
AN01     True
BS99    False
AK94     True
JM00     True
KM00     True
AP98     True
WN88    False
MS90     True
JB95     True
ŁG96     True
dtype: bool
AK77    False
LW89    False
AN01    False
BS99    False
AK94     True
JM00     True
KM00     True
AP98     True
WN88    False
MS90     True
JB95     True
ŁG96     True
dtype: bool
AK77    False
LW89    False
AN01    False
BS99    False
AK94     True
JM00    False
KM00    False
AP98     True
WN88    False
MS90     True
JB95     True
ŁG96     True
Name: Zarobki, dtype: bool
AK77    False
LW89    False
AN01     True
BS99    False
AK94    False
JM00    False
KM00    False
AP98    False
WN88     True
MS90    False
JB95    False
ŁG96    False
Name: Zarobki, dtype: bool


**Z funkcjami o wartościach boolowskich**

In [65]:
print(dane['Zarobki'].isin([3100, 3800]))              # należenie do zbioru
print(dane['Imię'].isin(['Jan', 'Andrzej']))           
print(dane['Nazwisko'].str.contains('ski'))            # obecność podstringa
print(dane['Zarobki'].isna())                          # brak danych

AK77    False
LW89    False
AN01    False
BS99     True
AK94    False
JM00     True
KM00     True
AP98    False
WN88    False
MS90    False
JB95    False
ŁG96    False
Name: Zarobki, dtype: bool
AK77    False
LW89    False
AN01     True
BS99    False
AK94    False
JM00     True
KM00    False
AP98    False
WN88    False
MS90    False
JB95     True
ŁG96    False
Name: Imię, dtype: bool
AK77    False
LW89     True
AN01    False
BS99    False
AK94    False
JM00    False
KM00    False
AP98    False
WN88    False
MS90     True
JB95     True
ŁG96     True
Name: Nazwisko, dtype: bool
AK77    False
LW89    False
AN01    False
BS99    False
AK94    False
JM00    False
KM00    False
AP98    False
WN88    False
MS90    False
JB95    False
ŁG96    False
Name: Zarobki, dtype: bool


### Mapowanie

*mapowanie danych* - przekształcanie poszczególnych wartości na inne wartości, zgodnie z podaną instrukcją

**Przekształcenia liczbowe**:

In [67]:
print(dane['Zarobki'] * 3)                                         # wcześniejszy sposób

def razy3(x):
    return x * 3

print(dane['Zarobki'].map(razy3))                                  # argumentem map może być funkcja mapująca

print(dane['Zarobki'].map(lambda x: x * 3))                        # funkcja "definiowana w miejscu", bez nazwy

print(dane[['Zarobki', 'Premia']].map(lambda x: x * 3))            # map na DataFrame

AK77    12000
LW89    13200
AN01    10500
BS99     9300
AK94     9000
JM00     9300
KM00     9300
AP98     9000
WN88     9600
MS90     8400
JB95     7800
ŁG96     8700
Name: Zarobki, dtype: int64
AK77    12000
LW89    13200
AN01    10500
BS99     9300
AK94     9000
JM00     9300
KM00     9300
AP98     9000
WN88     9600
MS90     8400
JB95     7800
ŁG96     8700
Name: Zarobki, dtype: int64
AK77    12000
LW89    13200
AN01    10500
BS99     9300
AK94     9000
JM00     9300
KM00     9300
AP98     9000
WN88     9600
MS90     8400
JB95     7800
ŁG96     8700
Name: Zarobki, dtype: int64
      Zarobki  Premia
AK77    12000     900
LW89    13200    1500
AN01    10500     600
BS99     9300     300
AK94     9000     600
JM00     9300     600
KM00     9300     600
AP98     9000     600
WN88     9600     600
MS90     8400     600
JB95     7800     300
ŁG96     8700     300


**Klasyfikacja**:

Na podstawie przedziałów:

In [68]:
print(dane['Zarobki'].map(lambda x: 'wysokie' if x > 3000 else 'niskie'))      # dychotomizacja zmiennej 
print(dane['Zarobki'].map(lambda x: 'wysokie' if x > 3300 else (
                                    'średnie' if x > 3000 else
                                    'niskie')))

AK77    high
LW89    high
AN01    high
BS99    high
AK94     low
JM00    high
KM00    high
AP98     low
WN88    high
MS90     low
JB95     low
ŁG96     low
Name: Zarobki, dtype: object
AK77      high
LW89      high
AN01      high
BS99    medium
AK94       low
JM00    medium
KM00    medium
AP98       low
WN88    medium
MS90       low
JB95       low
ŁG96       low
Name: Zarobki, dtype: object


Na podstawie zbiorów:

In [69]:
print(dane['Stanowisko'].map(lambda x: 'IT'  if x in ['programista', 'analityk'] else 'non-IT'))
print(dane['Stanowisko'].map(lambda x: 'IT'  if x in ['programista', 'analityk'] else (
                                       'MNG' if x == 'kierownik' else
                                       'BSN')))

AK77        IT
LW89    non-IT
AN01        IT
BS99        IT
AK94        IT
JM00    non-IT
KM00        IT
AP98        IT
WN88        IT
MS90        IT
JB95    non-IT
ŁG96        IT
Name: Stanowisko, dtype: object
AK77     IT
LW89    MNG
AN01     IT
BS99     IT
AK94     IT
JM00    BSN
KM00     IT
AP98     IT
WN88     IT
MS90     IT
JB95    BSN
ŁG96     IT
Name: Stanowisko, dtype: object


Na podstawie poszczególnych wartości:

In [70]:
dane['Stanowisko'].map({'programista':'IT',          # mapowanie przy pomocy słownika - gdy wartości jest wiele
                        'analityk'   :'IT',
                        'kierownik'  :'MNG',
                        'sprzedawca' :'BSN'
                       })

AK77     IT
LW89    MNG
AN01     IT
BS99     IT
AK94     IT
JM00    BSN
KM00     IT
AP98     IT
WN88     IT
MS90     IT
JB95    BSN
ŁG96     IT
Name: Stanowisko, dtype: object

**Kodowanie**:

In [71]:
dane['Stanowisko'].map({'programista':1,             
                        'analityk'   :2,
                        'kierownik'  :3,
                        'sprzedawca' :4
                        })

AK77    1
LW89    3
AN01    2
BS99    1
AK94    1
JM00    4
KM00    2
AP98    2
WN88    1
MS90    2
JB95    4
ŁG96    2
Name: Stanowisko, dtype: int64

Kodowanie jest często wykorzystywane do analizy zmiennych porządkowych.

---

### Ćwiczenia

1. Oblicz, ile wynosiłyby zarobki pracowników, gdyby dać im podwójną premię.

2. Utwórz listę stringów zawierających pierwsze trzy litery imion i nazwisk, np. Anastazja Kowalska -> AnaKow.

3. Sklasyfikuj pracowników jako młodszych lub starszych na podstawie tego, czy urodzili się przed rokiem 2000 (dane['Data urodzenia'].dt.year przechowuje rok).

4. Zakoduj stanowiska na podstawie ich pierwszych liter pisanych z wielkiej litery, np. programista -> P.
- za pomocą funkcji na stringach

- za pomocą funkcji `map`

---

## 6. Filtrowanie

### Filtrowanie 

Jeden warunek:

In [72]:
print(dane['Zarobki'] < 3100)                                     # nie "dane[['Zarobki']]" !
print(dane[dane['Zarobki'] < 3100])
print(dane.query('Zarobki < 3100'))

AK77    False
LW89    False
AN01    False
BS99    False
AK94     True
JM00    False
KM00    False
AP98     True
WN88    False
MS90     True
JB95     True
ŁG96     True
Name: Zarobki, dtype: bool
        Imię    Nazwisko Data urodzin  Zarobki  Premia   Stanowisko
AK94    Anna   Kostewicz   1994-04-02     3000     200  programista
AP98   Alina       Peres   1998-10-12     3000     200     analityk
MS90  Marcin    Sobański   1990-01-30     2800     200     analityk
JB95     Jan      Borski   1995-07-02     2600     100   sprzedawca
ŁG96  Łukasz  Guzdrowski   1996-11-09     2900     100     analityk
        Imię    Nazwisko Data urodzin  Zarobki  Premia   Stanowisko
AK94    Anna   Kostewicz   1994-04-02     3000     200  programista
AP98   Alina       Peres   1998-10-12     3000     200     analityk
MS90  Marcin    Sobański   1990-01-30     2800     200     analityk
JB95     Jan      Borski   1995-07-02     2600     100   sprzedawca
ŁG96  Łukasz  Guzdrowski   1996-11-09     2900     100   

In [85]:
print(dane['Stanowisko'] != "analityk")
print(dane[dane['Stanowisko'] != "analityk"])
print(dane.query('Stanowisko != "analityk"'))

AK77     True
LW89     True
AN01    False
BS99     True
AK94     True
JM00     True
KM00    False
AP98    False
WN88     True
MS90    False
JB95     True
ŁG96    False
Name: Stanowisko, dtype: bool
           Imię    Nazwisko Data urodzin  Zarobki  Premia   Stanowisko
AK77  Anastazja    Kowalska   1977-09-13     4000     300  programista
LW89       Leon  Wiśniewski   1989-08-23     4400     500    kierownik
BS99      Beata       Stein   1999-02-03     3100     100  programista
AK94       Anna   Kostewicz   1994-04-02     3000     200  programista
JM00        Jan      Mateja   2000-04-01     3100     200   sprzedawca
WN88   Wojciech       Nowak   1988-03-27     3200     200  programista
JB95        Jan      Borski   1995-07-02     2600     100   sprzedawca
           Imię    Nazwisko Data urodzin  Zarobki  Premia   Stanowisko
AK77  Anastazja    Kowalska   1977-09-13     4000     300  programista
LW89       Leon  Wiśniewski   1989-08-23     4400     500    kierownik
BS99      Beata      

Kombinacja kilku warunków:

In [73]:
print(dane[(dane['Zarobki'] < 3100) & (dane['Zarobki'] > 2900)])
print(dane.query('Zarobki < 3100 and Zarobki > 2900'))            # & - and, | - or, ~ - not

       Imię   Nazwisko Data urodzin  Zarobki  Premia   Stanowisko
AK94   Anna  Kostewicz   1994-04-02     3000     200  programista
AP98  Alina      Peres   1998-10-12     3000     200     analityk
       Imię   Nazwisko Data urodzin  Zarobki  Premia   Stanowisko
AK94   Anna  Kostewicz   1994-04-02     3000     200  programista
AP98  Alina      Peres   1998-10-12     3000     200     analityk


### Subsetting z użyciem filtrowania

In [78]:
print(dane[dane['Zarobki'] < 3100]['Stanowisko'])
print(dane['Stanowisko'][dane['Zarobki'] < 3100])

print(dane.loc[dane['Zarobki'] < 3100, 'Stanowisko'])  
print(dane.query('Zarobki < 3100').filter(['Stanowisko']))  

AK94    programista
AP98       analityk
MS90       analityk
JB95     sprzedawca
ŁG96       analityk
Name: Stanowisko, dtype: object
AK94    programista
AP98       analityk
MS90       analityk
JB95     sprzedawca
ŁG96       analityk
Name: Stanowisko, dtype: object
AK94    programista
AP98       analityk
MS90       analityk
JB95     sprzedawca
ŁG96       analityk
Name: Stanowisko, dtype: object
       Stanowisko
AK94  programista
AP98     analityk
MS90     analityk
JB95   sprzedawca
ŁG96     analityk


In [79]:
print(dane[dane['Zarobki'] < 3100][['Data urodzenia', 'Stanowisko']])
print(dane[['Data urodzenia', 'Stanowisko']][dane['Zarobki'] < 3100])

print(dane.loc[dane['Zarobki'] < 3100, ['Data urodzenia', 'Stanowisko']])
print(dane.query('Zarobki < 3100').filter(['Data urodzenia', 'Stanowisko']))  

     Data urodzin   Stanowisko
AK94   1994-04-02  programista
AP98   1998-10-12     analityk
MS90   1990-01-30     analityk
JB95   1995-07-02   sprzedawca
ŁG96   1996-11-09     analityk
     Data urodzin   Stanowisko
AK94   1994-04-02  programista
AP98   1998-10-12     analityk
MS90   1990-01-30     analityk
JB95   1995-07-02   sprzedawca
ŁG96   1996-11-09     analityk
     Data urodzin   Stanowisko
AK94   1994-04-02  programista
AP98   1998-10-12     analityk
MS90   1990-01-30     analityk
JB95   1995-07-02   sprzedawca
ŁG96   1996-11-09     analityk
     Data urodzin   Stanowisko
AK94   1994-04-02  programista
AP98   1998-10-12     analityk
MS90   1990-01-30     analityk
JB95   1995-07-02   sprzedawca
ŁG96   1996-11-09     analityk


## 7. Modyfikacja

### Modyfikacja wybranych wartości

**Jedna wartość**

In [309]:
print(dane.loc['MS90', 'Stanowisko'])

dane.loc['MS90', 'Stanowisko'] = 'kierownik'

print(dane.loc['MS90', 'Stanowisko'])

analityk
kierownik


**Wiele wartości**

In [310]:
print(dane.loc[['JM00', 'JB95'], 'Premia'] )

dane.loc[['JM00', 'JB95'], 'Premia'] = [100, 200]   

print(dane.loc[['JM00', 'JB95'], 'Premia'])

JM00    200
JB95    100
Name: Premia, dtype: int64
JM00    100
JB95    200
Name: Premia, dtype: int64


In [311]:
print(dane.loc[dane['Stanowisko'] == 'sprzedawca', 'Premia'])

dane.loc[dane['Stanowisko'] == 'sprzedawca', 'Premia'] = 300          # ta sama wartość dla podzbioru

print(dane.loc[dane['Stanowisko'] == 'sprzedawca', 'Premia'])

JM00    100
JB95    200
Name: Premia, dtype: int64
JM00    300
JB95    300
Name: Premia, dtype: int64


In [312]:
print(dane.loc[dane['Premia'] == 200, 'Zarobki'])

dane.loc[dane['Premia'] == 200, 'Zarobki'] = dane.loc[dane['Premia'] == 200, 'Zarobki'].replace(3500, 3400)               # zmiana konkretnej/ych wartości na inne
dane.loc[dane['Premia'] == 200, 'Zarobki'] = dane.loc[dane['Premia'] == 200, 'Zarobki'].replace({3100:3300, 2800:2900})

print(dane.loc[dane['Premia'] == 200, 'Zarobki'])

AN01    3500
AK94    3000
KM00    3100
AP98    3000
WN88    3200
MS90    2800
Name: Zarobki, dtype: int64
AN01    3400
AK94    3000
KM00    3300
AP98    3000
WN88    3200
MS90    2900
Name: Zarobki, dtype: int64


In [313]:
print(dane[['Zarobki', 'Premia']])

dane.replace({'Zarobki':{3300:3100, 2900:2800},                       # zmiana konkretnej/ych wartości na inne w całej kolumnie/ach
              'Premia' :{300:250}},
             inplace = True)

print(dane[['Zarobki', 'Premia']])

      Zarobki  Premia
AK77     4000     300
LW89     4400     500
AN01     3400     200
BS99     3100     100
AK94     3000     200
JM00     3100     300
KM00     3300     200
AP98     3000     200
WN88     3200     200
MS90     2900     200
JB95     2600     300
ŁG96     2900     100
      Zarobki  Premia
AK77     4000     250
LW89     4400     500
AN01     3400     200
BS99     3100     100
AK94     3000     200
JM00     3100     250
KM00     3100     200
AP98     3000     200
WN88     3200     200
MS90     2800     200
JB95     2600     250
ŁG96     2800     100


`inplace = True` - działanie "w miejscu" - z uruchomieniem funkcji ramka w pamięci jest modyfikowana \
`inplace = False` - uruchomienie funkcji nie powoduje zmian w oryginalnej ramce, a tworzy zmodyfikowaną kopię ramki; \
zmiana w oryginalnej ramce wymaga wtedy przypisania wyniku do jej nazwy

---

### Ćwiczenia

1. Znajdź pracowników, którzy zarabiają co najmniej 3000, ale nie więcej niż 3500 i są programistami lub sprzedawcami.

2. Osoby o identyfikatorach AP98 i JB95 ustal kierownikami.

3. Programistom zwiększ premię o 100.

4. Nowakom, jeśli zarabiają 3400, zmień ich zarobki na 3700, a jeśli 3500, to na 3800.

5. Zmień wszędzie stanowisko "analityk" na "analityk danych" (nie modyfikuj danych w pamięci - wyświetl tylko zmodyfikowaną ramkę danych).

---

### Dodawanie / Modyfikacja kolumn

In [178]:
dane['A'] = np.random.randint(1, 10, 12)             
dane['B'] = 99                                              # jedna wartość dla całej kolumny
dane['C'] = dane['A'] + 100                                 # kolumna z przekształcenia innej
dane

Unnamed: 0,Imię,Nazwisko,Data urodzin,Zarobki,Premia,Stanowisko,A,B,C
AK77,Anastazja,Kowalska,1977-09-13,4000,250,programista,8,99,108
LW89,Leon,Wiśniewski,1989-08-23,4400,500,kierownik,4,99,104
AN01,Andrzej,Nowak,2001-02-18,3400,200,analityk,1,99,101
BS99,Beata,Stein,1999-02-03,3100,100,programista,2,99,102
AK94,Anna,Kostewicz,1994-04-02,3000,200,programista,6,99,106
JM00,Jan,Mateja,2000-04-01,3100,250,sprzedawca,7,99,107
KM00,Krzysztof,Miller,2000-04-03,3100,200,analityk,7,99,107
AP98,Alina,Peres,1998-10-12,3000,200,analityk,6,99,106
WN88,Wojciech,Nowak,1988-03-27,3200,200,programista,9,99,109
MS90,Marcin,Sobański,1990-01-30,2800,200,kierownik,3,99,103


In [179]:
dane = dane.assign(A2 = np.random.randint(1, 10, 12),                          
                   B2 = -99,
                   C2 = dane['A'] + 100,
                   D2 = lambda df: df['A2'] + 100           # jeśli zmienna, do której się odwołujemy, została "świeżo" zdefiniowana,
                   )                                        # potrzebujemy funkcji lambda, które "podstawia" aktualną ramkę danych
dane

Unnamed: 0,Imię,Nazwisko,Data urodzin,Zarobki,Premia,Stanowisko,A,B,C,A2,B2,C2,D2
AK77,Anastazja,Kowalska,1977-09-13,4000,250,programista,8,99,108,5,-99,108,105
LW89,Leon,Wiśniewski,1989-08-23,4400,500,kierownik,4,99,104,5,-99,104,105
AN01,Andrzej,Nowak,2001-02-18,3400,200,analityk,1,99,101,2,-99,101,102
BS99,Beata,Stein,1999-02-03,3100,100,programista,2,99,102,5,-99,102,105
AK94,Anna,Kostewicz,1994-04-02,3000,200,programista,6,99,106,8,-99,106,108
JM00,Jan,Mateja,2000-04-01,3100,250,sprzedawca,7,99,107,7,-99,107,107
KM00,Krzysztof,Miller,2000-04-03,3100,200,analityk,7,99,107,4,-99,107,104
AP98,Alina,Peres,1998-10-12,3000,200,analityk,6,99,106,6,-99,106,106
WN88,Wojciech,Nowak,1988-03-27,3200,200,programista,9,99,109,2,-99,109,102
MS90,Marcin,Sobański,1990-01-30,2800,200,kierownik,3,99,103,8,-99,103,108


Oba sposoby - odwołanie do kolumny i użycie funkcji `assign`, w przypadku istnienia kolumny o danej nazwie, nadpisują ją, dzięki czemu równie często służą do modyfikacji już istniejącej kolumny.

### Przesuwanie kolumn

In [130]:
dane.insert(column = 'Nazwisko',                            # nazwa
            value  = dane.pop('Nazwisko'),                  # lista wartości 
            loc    = 0)                                     # nowa pozycja - o indeksie 0
dane

Unnamed: 0,Nazwisko,Imię,Data urodzin,Zarobki,Premia,Stanowisko,A,B,C,A2,B2,C2,D2
AK77,Kowalska,Anastazja,1977-09-13,4000,250,programista,9,99,109,5,-99,109,105
LW89,Wiśniewski,Leon,1989-08-23,4400,500,kierownik,3,99,103,4,-99,103,104
AN01,Nowak,Andrzej,2001-02-18,3400,200,analityk,3,99,103,8,-99,103,108
BS99,Stein,Beata,1999-02-03,3100,100,programista,3,99,103,1,-99,103,101
AK94,Kostewicz,Anna,1994-04-02,3000,200,programista,7,99,107,9,-99,107,109
JM00,Mateja,Jan,2000-04-01,3100,250,sprzedawca,7,99,107,6,-99,107,106
KM00,Miller,Krzysztof,2000-04-03,3100,200,analityk,3,99,103,1,-99,103,101
AP98,Peres,Alina,1998-10-12,3000,200,analityk,6,99,106,2,-99,106,102
WN88,Nowak,Wojciech,1988-03-27,3200,200,programista,4,99,104,5,-99,104,105
MS90,Sobański,Marcin,1990-01-30,2800,200,kierownik,6,99,106,8,-99,106,108


In [131]:
dane.insert(column = 'Nazwisko',
            value  = dane.pop('Nazwisko'),
            loc    = dane.columns.get_loc('Imię') + 1)      # pozycja za kolumną Imię
dane

Unnamed: 0,Imię,Nazwisko,Data urodzin,Zarobki,Premia,Stanowisko,A,B,C,A2,B2,C2,D2
AK77,Anastazja,Kowalska,1977-09-13,4000,250,programista,9,99,109,5,-99,109,105
LW89,Leon,Wiśniewski,1989-08-23,4400,500,kierownik,3,99,103,4,-99,103,104
AN01,Andrzej,Nowak,2001-02-18,3400,200,analityk,3,99,103,8,-99,103,108
BS99,Beata,Stein,1999-02-03,3100,100,programista,3,99,103,1,-99,103,101
AK94,Anna,Kostewicz,1994-04-02,3000,200,programista,7,99,107,9,-99,107,109
JM00,Jan,Mateja,2000-04-01,3100,250,sprzedawca,7,99,107,6,-99,107,106
KM00,Krzysztof,Miller,2000-04-03,3100,200,analityk,3,99,103,1,-99,103,101
AP98,Alina,Peres,1998-10-12,3000,200,analityk,6,99,106,2,-99,106,102
WN88,Wojciech,Nowak,1988-03-27,3200,200,programista,4,99,104,5,-99,104,105
MS90,Marcin,Sobański,1990-01-30,2800,200,kierownik,6,99,106,8,-99,106,108


Powyższa funkcja może być użyta też do zdefiniowania nowej kolumny, gdy chcemy dodać ją w miejscu o określonym indeksie.

*Uwaga*! Funkcja `insert` działa "w miejscu" - uruchomienie automatycznie dodaje/modyfikuje kolumnę w zapisanej ramce.

### Usuwanie kolumn

In [180]:
dane.drop(columns = 'A',                                inplace = True)     # jednej kolumny
dane.drop(columns = ['B', 'C', 'A2', 'B2', 'C2', 'D2'], inplace = True)     # kilku kolumn

dane

Unnamed: 0,Imię,Nazwisko,Data urodzin,Zarobki,Premia,Stanowisko
AK77,Anastazja,Kowalska,1977-09-13,4000,250,programista
LW89,Leon,Wiśniewski,1989-08-23,4400,500,kierownik
AN01,Andrzej,Nowak,2001-02-18,3400,200,analityk
BS99,Beata,Stein,1999-02-03,3100,100,programista
AK94,Anna,Kostewicz,1994-04-02,3000,200,programista
JM00,Jan,Mateja,2000-04-01,3100,250,sprzedawca
KM00,Krzysztof,Miller,2000-04-03,3100,200,analityk
AP98,Alina,Peres,1998-10-12,3000,200,analityk
WN88,Wojciech,Nowak,1988-03-27,3200,200,programista
MS90,Marcin,Sobański,1990-01-30,2800,200,kierownik


### Dodawanie wierszy

In [187]:
dane.loc['BM02'] = ['Barnaba', 'Maślicki', pd.to_datetime('2002-10-05', , format = '%Y-%m-%d'), 3000, 100, 'programista']          # jeden wiersz

dane = pd.concat([dane,                                                                              # wiele wierszy - pionowa konkatenacja ramek
                  pd.DataFrame([['Kajetan', 'Bury',    pd.to_datetime('1999-09-20', format = '%Y-%m-%d'), 2900, 200, 'sprzedawca'],
                                ['Renata',  'Tomicka', pd.to_datetime('1990-02-09', format = '%Y-%m-%d'), 3300, 200, 'analityk']],
                               index   = ['KB99', 'RT90'],
                               columns = dane.columns)],
                 axis = 'rows'                                                                       # oś łączenia - wiersze
                 )                                                   

dane

Unnamed: 0,Imię,Nazwisko,Data urodzenia,Zarobki,Premia,Stanowisko
AK77,Anastazja,Kowalska,1977-09-13,4000,250,programista
LW89,Leon,Wiśniewski,1989-08-23,4400,500,kierownik
AN01,Andrzej,Nowak,2001-02-18,3400,200,analityk
BS99,Beata,Stein,1999-02-03,3100,100,programista
AK94,Anna,Kostewicz,1994-04-02,3000,200,programista
JM00,Jan,Mateja,2000-04-01,3100,250,sprzedawca
KM00,Krzysztof,Miller,2000-04-03,3100,200,analityk
AP98,Alina,Peres,1998-10-12,3000,200,analityk
WN88,Wojciech,Nowak,1988-03-27,3200,200,programista
MS90,Marcin,Sobański,1990-01-30,2800,200,kierownik


### Usuwanie wierszy

In [None]:
dane.drop('BM02',           inplace = True)       # jednego wiersza
dane.drop(['KB99', 'RT90'], inplace = True)       # kilku wierszy

dane

----

### Ćwiczenia

1. Dodaj dowolną kolumnę do danych.

2. Dodaj do danych kolumnę powstałą w oparciu o dodaną przed chwilą.

3. Usuń obie kolumny.

---

## 8. Łączenie ramek

### Konkatenacja

Przy dodawaniu wierszy podana została pozioma konkatenacja ramek. Ta sama funkcja, ale z argumentem `axis = 'columns'`, konkatenuje w poziomie, łacząc kolumny.

In [192]:
 pd.concat([dane,                                                     
            pd.DataFrame({'A':np.random.randint(1, 10, 12),
                          'B':-99},
                         index = dane.index)],
           axis = 'columns')    

Unnamed: 0,Imię,Nazwisko,Data urodzenia,Zarobki,Premia,Stanowisko,A,B
AK77,Anastazja,Kowalska,1977-09-13,4000,250,programista,6,-99
LW89,Leon,Wiśniewski,1989-08-23,4400,500,kierownik,2,-99
AN01,Andrzej,Nowak,2001-02-18,3400,200,analityk,4,-99
BS99,Beata,Stein,1999-02-03,3100,100,programista,3,-99
AK94,Anna,Kostewicz,1994-04-02,3000,200,programista,4,-99
JM00,Jan,Mateja,2000-04-01,3100,250,sprzedawca,9,-99
KM00,Krzysztof,Miller,2000-04-03,3100,200,analityk,4,-99
AP98,Alina,Peres,1998-10-12,3000,200,analityk,6,-99
WN88,Wojciech,Nowak,1988-03-27,3200,200,programista,7,-99
MS90,Marcin,Sobański,1990-01-30,2800,200,kierownik,6,-99


Funkcja `concat` nie pozwala na przetwarzanie w tzw. potoku. W takiej sytuacji możemy skorzystać z funkcji `pipe` i podania w argumencie odpowiedniej funkcji.

In [193]:
dane.pipe(lambda df: pd.concat([df,
                               pd.DataFrame({'A2':np.random.randint(1, 10, 12),
                                             'B2':-99},
                                            index = dane.index)],
                               axis = 'columns'))

Unnamed: 0,Imię,Nazwisko,Data urodzenia,Zarobki,Premia,Stanowisko,A2,B2
AK77,Anastazja,Kowalska,1977-09-13,4000,250,programista,7,-99
LW89,Leon,Wiśniewski,1989-08-23,4400,500,kierownik,5,-99
AN01,Andrzej,Nowak,2001-02-18,3400,200,analityk,5,-99
BS99,Beata,Stein,1999-02-03,3100,100,programista,7,-99
AK94,Anna,Kostewicz,1994-04-02,3000,200,programista,3,-99
JM00,Jan,Mateja,2000-04-01,3100,250,sprzedawca,2,-99
KM00,Krzysztof,Miller,2000-04-03,3100,200,analityk,9,-99
AP98,Alina,Peres,1998-10-12,3000,200,analityk,8,-99
WN88,Wojciech,Nowak,1988-03-27,3200,200,programista,5,-99
MS90,Marcin,Sobański,1990-01-30,2800,200,kierownik,3,-99


### Złączenia

Złączenia tabel polegają na połączeniu tabel na podstawie powiązanych kolumn. \
W złączeniach w przeciwieństwie do konkatenacji, nie wszystkie wiersze sobie odpowiadają.

In [194]:
dane_stanowiska = pd.DataFrame({'Stanowisko':['kierownik', 'programista', 'analityk', 'sprzedawca'],
                                'Dział':     ['MNG',       'IT',          'IT',       'BSN']})
dane_stanowiska

Unnamed: 0,Stanowisko,Dział
0,kierownik,MNG
1,programista,IT
2,analityk,IT
3,sprzedawca,BSN


In [195]:
dane.merge(dane_stanowiska)

Unnamed: 0,Imię,Nazwisko,Data urodzenia,Zarobki,Premia,Stanowisko,Dział
0,Anastazja,Kowalska,1977-09-13,4000,250,programista,IT
1,Leon,Wiśniewski,1989-08-23,4400,500,kierownik,MNG
2,Andrzej,Nowak,2001-02-18,3400,200,analityk,IT
3,Beata,Stein,1999-02-03,3100,100,programista,IT
4,Anna,Kostewicz,1994-04-02,3000,200,programista,IT
5,Jan,Mateja,2000-04-01,3100,250,sprzedawca,BSN
6,Krzysztof,Miller,2000-04-03,3100,200,analityk,IT
7,Alina,Peres,1998-10-12,3000,200,analityk,IT
8,Wojciech,Nowak,1988-03-27,3200,200,programista,IT
9,Marcin,Sobański,1990-01-30,2800,200,kierownik,MNG


In [196]:
dane.merge(dane_stanowiska
           ).set_index(dane.index)    # z zachowaniem indeksu (poprzez przypisanie go na nowo)

Unnamed: 0,Imię,Nazwisko,Data urodzenia,Zarobki,Premia,Stanowisko,Dział
AK77,Anastazja,Kowalska,1977-09-13,4000,250,programista,IT
LW89,Leon,Wiśniewski,1989-08-23,4400,500,kierownik,MNG
AN01,Andrzej,Nowak,2001-02-18,3400,200,analityk,IT
BS99,Beata,Stein,1999-02-03,3100,100,programista,IT
AK94,Anna,Kostewicz,1994-04-02,3000,200,programista,IT
JM00,Jan,Mateja,2000-04-01,3100,250,sprzedawca,BSN
KM00,Krzysztof,Miller,2000-04-03,3100,200,analityk,IT
AP98,Alina,Peres,1998-10-12,3000,200,analityk,IT
WN88,Wojciech,Nowak,1988-03-27,3200,200,programista,IT
MS90,Marcin,Sobański,1990-01-30,2800,200,kierownik,MNG


Dla głębiej zainteresowanych:
- o złączeniach w Pythonie: https://kajodata.com/excel-sql-python-powerbi-tableau-baza-wiedzy/baza-wiedzy-python-darmowa-wiedza/jak-dziala-pandas-merge-w-python-przyklad-mmk/
- szczegóły funkcji `merge`: https://pandas.pydata.org/docs/reference/api/pandas.merge.html
- szczegóły funkcji `join`- funkcji do złączeń na podstawie indeksów: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html

## 9. Utworzenie kopii ramki

Tak jak w przypadku numpy.array, aby utworzyć niezależną kopię danych, która nie będzie modyfikowana wraz ze swoim oryginałem, należy użyć funkcji `copy`.

In [197]:
dane2 = dane
dane3 = dane.loc[:, :]
dane4 = dane.copy()      # funkcja kopiująca
dane

Unnamed: 0,Imię,Nazwisko,Data urodzenia,Zarobki,Premia,Stanowisko
AK77,Anastazja,Kowalska,1977-09-13,4000,250,programista
LW89,Leon,Wiśniewski,1989-08-23,4400,500,kierownik
AN01,Andrzej,Nowak,2001-02-18,3400,200,analityk
BS99,Beata,Stein,1999-02-03,3100,100,programista
AK94,Anna,Kostewicz,1994-04-02,3000,200,programista
JM00,Jan,Mateja,2000-04-01,3100,250,sprzedawca
KM00,Krzysztof,Miller,2000-04-03,3100,200,analityk
AP98,Alina,Peres,1998-10-12,3000,200,analityk
WN88,Wojciech,Nowak,1988-03-27,3200,200,programista
MS90,Marcin,Sobański,1990-01-30,2800,200,kierownik


In [198]:
dane['Firma'] = 'ABC' 

print(dane.columns)
print(dane2.columns)           # nie działa !
print(dane3.columns)           # działa (choć numpy.array[:,:] nie działa)
print(dane4.columns)           # działa 

Index(['Imię', 'Nazwisko', 'Data urodzenia', 'Zarobki', 'Premia', 'Stanowisko',
       'Firma'],
      dtype='object')
Index(['Imię', 'Nazwisko', 'Data urodzenia', 'Zarobki', 'Premia', 'Stanowisko',
       'Firma'],
      dtype='object')
Index(['Imię', 'Nazwisko', 'Data urodzenia', 'Zarobki', 'Premia',
       'Stanowisko'],
      dtype='object')
Index(['Imię', 'Nazwisko', 'Data urodzenia', 'Zarobki', 'Premia',
       'Stanowisko'],
      dtype='object')


## 10. Przekształcenia ramki

In [199]:
dane_wide = plik_excel.parse('przypadki')
dane_wide                                                  # format szeroki

Unnamed: 0,Kraj,1999,2000,2001
0,Polska,489,512,634
1,Brazylia,2340,2699,2503
2,Australia,312,390,433


*długi format danych* - wartości zmiennej są w jednej kolumnie; każdy obserwacja ma swój wiersz

*szeroki format danych* - wartości zmiennej są w kilku kolumnach; wiersze mają po kilka obserwacji

### Dane szerokie -> dane długie

In [200]:
dane_long = dane_wide.melt(value_vars = [1999, 2000, 2001], # zmienne, które mają być scalone
                           var_name   = 'Rok',              # nazwa scalonej zmiennej
                           value_name = 'Przypadki',        # nazwa zmiennej z wartościami scalanych zmiennych
                           id_vars    = ['Kraj'])           # zmienne, które pozostawiamy       
dane_long                                                   # format długi

Unnamed: 0,Kraj,Rok,Przypadki
0,Polska,1999,489
1,Brazylia,1999,2340
2,Australia,1999,312
3,Polska,2000,512
4,Brazylia,2000,2699
5,Australia,2000,390
6,Polska,2001,634
7,Brazylia,2001,2503
8,Australia,2001,433


### Dane długie -> dane szerokie

In [201]:
dane_wide_again = dane_long.pivot(columns = 'Rok',        # zmienna rozdzielona na inne zmienne - jej wartości ich nazwami
                                  values  = 'Przypadki',  # zmienna z rozdzielanymi wartościami
                                  index   = 'Kraj')       # zmienna, która będzie indeksem
dane_wide_again                                           # znów format szeroki

Rok,1999,2000,2001
Kraj,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Australia,312,390,433
Brazylia,2340,2699,2503
Polska,489,512,634


### Transpozycja

*transpozycja tabeli* - zamiana wierszy i kolumn ze sobą

In [202]:
dane_wide_again.transpose()

Kraj,Australia,Brazylia,Polska
Rok,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1999,312,2340,489
2000,390,2699,512
2001,433,2503,634


### Sortowanie

In [203]:
print(dane_long.sort_values('Przypadki'))                      # po kolumnie
print(dane_long.sort_values('Przypadki', ascending = False,    # po kolumnie malejąco
                            #inplace = True
                            ))   

        Kraj   Rok  Przypadki
2  Australia  1999        312
5  Australia  2000        390
8  Australia  2001        433
0     Polska  1999        489
3     Polska  2000        512
6     Polska  2001        634
1   Brazylia  1999       2340
7   Brazylia  2001       2503
4   Brazylia  2000       2699
        Kraj   Rok  Przypadki
4   Brazylia  2000       2699
7   Brazylia  2001       2503
1   Brazylia  1999       2340
6     Polska  2001        634
3     Polska  2000        512
0     Polska  1999        489
8  Australia  2001        433
5  Australia  2000        390
2  Australia  1999        312


In [322]:
print(dane_long.sort_values(['Rok', 'Przypadki']))                            # po kolumnach
print(dane_long.sort_values(['Rok', 'Przypadki'], ascending = False))         # po kolumnach malejąco
print(dane_long.sort_values(['Rok', 'Przypadki'], ascending = [False, True])) # po kolumnach, odpowiednio malejąco i rosnąco
print(dane_long.sort_values(['Przypadki', 'Rok'], ascending = [True, False])) # po kolumnach, ale inna kolejność -> inny wynik

        Kraj   Rok  Przypadki
2  Australia  1999        312
0     Polska  1999        489
1   Brazylia  1999       2340
5  Australia  2000        390
3     Polska  2000        512
4   Brazylia  2000       2699
8  Australia  2001        433
6     Polska  2001        634
7   Brazylia  2001       2503
        Kraj   Rok  Przypadki
7   Brazylia  2001       2503
6     Polska  2001        634
8  Australia  2001        433
4   Brazylia  2000       2699
3     Polska  2000        512
5  Australia  2000        390
1   Brazylia  1999       2340
0     Polska  1999        489
2  Australia  1999        312
        Kraj   Rok  Przypadki
8  Australia  2001        433
6     Polska  2001        634
7   Brazylia  2001       2503
5  Australia  2000        390
3     Polska  2000        512
4   Brazylia  2000       2699
2  Australia  1999        312
0     Polska  1999        489
1   Brazylia  1999       2340
        Kraj   Rok  Przypadki
2  Australia  1999        312
5  Australia  2000        390
8  Austral

In [205]:
print(dane.head())
print(dane.head().sort_index())                             # po indeksach
print(dane.head().sort_index(ascending = False))            # po indeksach malejąco

           Imię    Nazwisko Data urodzenia  Zarobki  Premia   Stanowisko Firma
AK77  Anastazja    Kowalska     1977-09-13     4000     250  programista   ABC
LW89       Leon  Wiśniewski     1989-08-23     4400     500    kierownik   ABC
AN01    Andrzej       Nowak     2001-02-18     3400     200     analityk   ABC
BS99      Beata       Stein     1999-02-03     3100     100  programista   ABC
AK94       Anna   Kostewicz     1994-04-02     3000     200  programista   ABC
           Imię    Nazwisko Data urodzenia  Zarobki  Premia   Stanowisko Firma
AK77  Anastazja    Kowalska     1977-09-13     4000     250  programista   ABC
AK94       Anna   Kostewicz     1994-04-02     3000     200  programista   ABC
AN01    Andrzej       Nowak     2001-02-18     3400     200     analityk   ABC
BS99      Beata       Stein     1999-02-03     3100     100  programista   ABC
LW89       Leon  Wiśniewski     1989-08-23     4400     500    kierownik   ABC
           Imię    Nazwisko Data urodzenia  Zarobki 

## 11. Modyfikacja etykiet 

### Usunięcie etykiet indeksów

In [206]:
dane_wide_again.reset_index()                            # z przeniesieniem ich do pierwszej kolumny

Rok,Kraj,1999,2000,2001
0,Australia,312,390,433
1,Brazylia,2340,2699,2503
2,Polska,489,512,634


In [207]:
dane_wide_again.reset_index(drop = True,                 # z odrzuceniem ich
                            #inplace = True
                            )

Rok,1999,2000,2001
0,312,390,433
1,2340,2699,2503
2,489,512,634


### Zmiana etykiet indeksów

In [208]:
dane_wide_again.set_index(pd.Series([1, 2, 3]),          # podana lista
                          #inplace = True
                          )     

Rok,1999,2000,2001
1,312,390,433
2,2340,2699,2503
3,489,512,634


In [209]:
dane_wide_again.reset_index().set_index('Kraj')          # podana zmienna

Rok,1999,2000,2001
Kraj,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Australia,312,390,433
Brazylia,2340,2699,2503
Polska,489,512,634


### Zmiana nazw kolumn

In [210]:
dane_wide.rename(columns = {1999:'1999', 2000:'2001', 2001:'2001'},   # słownik wszystkich lub niektórych nazw zmiennych
                 #inplace = True
                 )  

Unnamed: 0,Kraj,1999,2001,2001.1
0,Polska,489,512,634
1,Brazylia,2340,2699,2503
2,Australia,312,390,433


In [211]:
dane_wide.rename(columns = lambda x: str(x))         # funkcja przekształcająca (efekt tutaj jak powyżej) [funkcja na każdym obiekcie, nie na pandas.series]

Unnamed: 0,Kraj,1999,2000,2001
0,Polska,489,512,634
1,Brazylia,2340,2699,2503
2,Australia,312,390,433


In [212]:
dane_long.rename(columns = lambda x: x.replace('a', ':)'))           

Unnamed: 0,Kr:)j,Rok,Przyp:)dki
0,Polska,1999,489
1,Brazylia,1999,2340
2,Australia,1999,312
3,Polska,2000,512
4,Brazylia,2000,2699
5,Australia,2000,390
6,Polska,2001,634
7,Brazylia,2001,2503
8,Australia,2001,433


### Zmiana nazw list etykiet

In [213]:
dane_wide_again.rename_axis('Czas',    axis = 'columns', inplace = True)
dane_wide_again.rename_axis('Państwo', axis = 'index',   inplace = True)

print(dane_wide_again.index.name, dane_wide_again.columns.name)
dane_wide_again

Państwo Czas


Czas,1999,2000,2001
Państwo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Australia,312,390,433
Brazylia,2340,2699,2503
Polska,489,512,634


---

### Ćwiczenia

1. Zmień nazwę kolumny "Zarobki" na "Pensja".

2. Zmień nazwy kolumn na pisane małą literą, a spacje zamień na "_".

3. Posortuj pracowników rosnąco po nazwisku i malejąco po dacie urodzenia.

---

# Więcej funkcji

`pandas.DataFrame`: https://pandas.pydata.org/docs/reference/frame.html

`pandas.Series`:    https://pandas.pydata.org/docs/reference/series.html