# Biblioteka pandas w Pythonie

Pandas to rozbudowana biblioteka do manipulowania danymi, tj. procesu pobierania danych i zmieniania ich formatu celem  łatwiejszego odczytu lub lepszego uporządkowania, oraz do analizy danych w Pythonie. 

Nazwa pochodzi od "**pan**el **da**ta", terminu powszechnie używanego w odniesieniu do wielowymiarowych zbiorów danych spotykanych w statystyce i ekonometrii.

## 0. Instalacja oraz import biblioteki pandas

Instalujemy za pomocą komendy pip:

In [None]:
pip install pandas

oraz importujemy za pomocą instrukcji

In [2]:
import pandas as pd

# Przyda się nam też NumPy, więc od razu i tę biblotekę zaimportujemy
import numpy as np

## 1. Podstawowe struktury danych w pandas

Serie danych (klasa [pandas.Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html)) – to jednowymiarowa tablica z etykietami, która może przechowywać dowolny typ danych.

Ramka danych (klasa [pandas.DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)) – dwuwymiarowa struktura z etykietami, mogąca przechowywać kolumny z różnymi typami danych.

Indeks (klasa [pandas.Index](https://pandas.pydata.org/docs/reference/api/pandas.Index.html#pandas.Index)) - niezmienialny ciąg obiektów używany do indeksowania serii i ramek danych. 

### Seria i indeks w pandas

Serię danych możemy utworzyć w następujący sposób:

In [3]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

W powyższym przykładzie kolejne wartości są indeksowane automatycznie:

In [4]:
list(s.index)

[0, 1, 2, 3, 4, 5]

Oczywiście możemy określić swój własny sposób indeksowania wartości: 

In [5]:
s = pd.Series([12, 23, 19, 20], index=['Ala', 'Ola', 'Marek', 'Tomek'], dtype='int32')
s

Ala      12
Ola      23
Marek    19
Tomek    20
dtype: int32

Indeks pozwala nam odczytywać poszczególne elementy serii danych.

Na przykład tak:

In [6]:
s['Marek']

19

Ale można i tak, korzystając z odpowiedniego atrybutu:

In [7]:
s.Marek

19

Oczywiście możemy też odczytywać dane z serii danych w "tradycyjny" sposób, tj. tak jak w przypadku standardowych list w Pythonie czy tabel w NumPy:

In [8]:
s[0]

  s[0]


12

In [9]:
s[1:3]

Ola      23
Marek    19
dtype: int32

W prosty sposób możemy stworzyć serię danych dla odczytów w określonych datach, punktach czasowych, itp. Tworzymy indeks dla poszczególnych odczytów, np. dla pierwszego dnia każdego miesiąca w 2020r.: 

In [10]:
daty = pd.date_range('20200101', periods=12, freq='MS')
print(daty)

DatetimeIndex(['2020-01-01', '2020-02-01', '2020-03-01', '2020-04-01',
               '2020-05-01', '2020-06-01', '2020-07-01', '2020-08-01',
               '2020-09-01', '2020-10-01', '2020-11-01', '2020-12-01'],
              dtype='datetime64[ns]', freq='MS')


'MS' jest napisem określającym częstotliwość z jaką mają być generowane kolejne elementy zakresu. Możliwe inne wartości tego parametru są dostępne [tutaj](https://pandas.pydata.org/docs/user_guide/timeseries.html#timeseries-offset-aliases).

Następnie utworzymy serię danych zawierającą średnie wartości temperatury powietrza w Warszawie w poszczególnych miesiącach 2020r. zmierzone przez stację meteorologiczną Warszawa-Filtry (dla zainteresowanych: dane są dostępne [tutaj](https://meteomodel.pl/dane/srednie-miesieczne/?imgwid=252200230&par=tm&max_empty=2)):

In [11]:
temp = pd.Series([2.7, 4.2, 5.4, 10.0, 12.8, 20.0, 20.3, 21.3, 16.0, 10.8, 6.0, 2.1], index=daty)
temp

2020-01-01     2.7
2020-02-01     4.2
2020-03-01     5.4
2020-04-01    10.0
2020-05-01    12.8
2020-06-01    20.0
2020-07-01    20.3
2020-08-01    21.3
2020-09-01    16.0
2020-10-01    10.8
2020-11-01     6.0
2020-12-01     2.1
Freq: MS, dtype: float64

Poszczególne wartości możemy odczytwać z serii danych na różne sposoby.

Pojedynczy element:

In [12]:
temp.iloc[0]

2.7

In [13]:
temp['2020-01-01']

2.7

In [14]:
temp['2020/5/1']

12.8

In [15]:
temp['2020-01']

2020-01-01    2.7
Freq: MS, dtype: float64

Ale to już nie zadziała:

In [16]:
temp.2020-01-01

SyntaxError: leading zeros in decimal integer literals are not permitted; use an 0o prefix for octal integers (2885049886.py, line 1)

ani to:

In [17]:
temp.'2020-01-01'

SyntaxError: invalid syntax (2684510860.py, line 1)

Ale możemy tak:

In [18]:
ts = pd.to_datetime('2020-01-01')
ts

Timestamp('2020-01-01 00:00:00')

i jeszcze na kilka różnych sposobów:

In [19]:
ts = pd.to_datetime('2020-01')
ts

Timestamp('2020-01-01 00:00:00')

In [20]:
pd.to_datetime('2020')

Timestamp('2020-01-01 00:00:00')

In [21]:
temp[ts]

2.7

In [22]:
temp['2020']

2020-01-01     2.7
2020-02-01     4.2
2020-03-01     5.4
2020-04-01    10.0
2020-05-01    12.8
2020-06-01    20.0
2020-07-01    20.3
2020-08-01    21.3
2020-09-01    16.0
2020-10-01    10.8
2020-11-01     6.0
2020-12-01     2.1
Freq: MS, dtype: float64

In [23]:
temp['2020-05-01':'2020-08-01']

2020-05-01    12.8
2020-06-01    20.0
2020-07-01    20.3
2020-08-01    21.3
Freq: MS, dtype: float64

Co ciekawe, można i tak:

In [24]:
temp['2020-05-01':'2020-08-12']

2020-05-01    12.8
2020-06-01    20.0
2020-07-01    20.3
2020-08-01    21.3
Freq: MS, dtype: float64

W naszym przykładzie serii danych zawierających średnie wartości temperatur dla poszczególnych miesięcy, etykiety indeksu są jednak mylące, gdyż zawierają informację o dniu - sugerują jakby pomiary były dokonywane w pierwszym dniu każdego miesiąca, co nie jest zgodne ze stanem faktycznym. Dlatego spróbujemy poprawić nasz indeks. Możemy zrobić to używająć funkcji [period_range](https://pandas.pydata.org/docs/reference/api/pandas.period_range.html). Najpierw utworzymy nowy indeks:

In [25]:
nowy_indeks = pd.period_range("2020/01/01", freq="M", periods=12)
nowy_indeks

PeriodIndex(['2020-01', '2020-02', '2020-03', '2020-04', '2020-05', '2020-06',
             '2020-07', '2020-08', '2020-09', '2020-10', '2020-11', '2020-12'],
            dtype='period[M]')

Zauważmy, że przy okazji zmienimy klasę indeksu z [DatetimeIndex](https://pandas.pydata.org/docs/reference/api/pandas.DatetimeIndex.html) na [PeriodIndex](https://pandas.pydata.org/docs/reference/api/pandas.PeriodIndex.html).
Teraz dokonamy podmiany:

In [26]:
temp.index = nowy_indeks
temp

2020-01     2.7
2020-02     4.2
2020-03     5.4
2020-04    10.0
2020-05    12.8
2020-06    20.0
2020-07    20.3
2020-08    21.3
2020-09    16.0
2020-10    10.8
2020-11     6.0
2020-12     2.1
Freq: M, dtype: float64

Przy okazji nie tylko mamy bardziej poprawny indeks, ale też zredukowaliśmy zużycie pamięci:

In [27]:
print(f"Niepoprawny indeks zajmował {daty.memory_usage()} bajtów.")
print(f"Poprawny indeks zajmuje {nowy_indeks.memory_usage()} bajtów.")

Niepoprawny indeks zajmował 396 bajtów.
Poprawny indeks zajmuje 96 bajtów.


In [28]:
daty.dtype

dtype('<M8[ns]')

In [29]:
nowy_indeks.dtype

period[M]

Do zagadnień związanych z czasem i manipulowaniem nim w pandas jeszcze wrócimy na końcu dzisiejszych zajęć.

Umówimy jeszcze metodę [pandas.Series.map](https://pandas.pydata.org/docs/reference/api/pandas.Series.map.html) dla serii danych. Pozwala ona na zastępowanie wartości serii danych innymi wartościami zadanymi przez funkcję, słownik lub inną serię danych:

In [30]:
s = pd.Series(['cat', 'dog', np.nan, 'rabbit'])
s

0       cat
1       dog
2       NaN
3    rabbit
dtype: object

Nowe wartości zadane za pomocą słownika. Jeżeli w słowniku brakuje odpowiedniego klucza, to nową wartością jest NaN, chyba że słownik określa waertość domyślną:

In [31]:
s.map({'cat': 'kitten', 'dog': 'puppy'})

0    kitten
1     puppy
2       NaN
3       NaN
dtype: object

Nowe wartości zadane za pomocą funkcji:

In [32]:
s.map('I am a {}'.format, na_action='ignore')

0       I am a cat
1       I am a dog
2              NaN
3    I am a rabbit
dtype: object

In [33]:
pd.Series([1,2,3,4,5]).map(lambda x: x+2)

0    3
1    4
2    5
3    6
4    7
dtype: int64

Nowe wartości zadane za pomocą innej serii:

In [34]:
s = pd.Series(['A','B','C','D'])
other_series = pd.Series(range(len(s)), index = ['C', 'D', 'B', 'A'])
s.map(other_series)

0    3
1    2
2    0
3    1
dtype: int64

### Ćwiczenie 1

Utworzyć serię danych ciśnienia atmosferycznego w hPa w pierwszych siedmiu dniach roku 2024 w Warszawie. Wartości liczbowe można pobrać [stąd](https://www.ekologia.pl/pogoda/polska/mazowieckie/warszawa/archiwum,zakres,01-01-2024_07-01-2024).

In [35]:
# Rozwiązanie
daty = pd.date_range('20200101', periods=7, freq='D')
cisnienie = pd.Series([1004.25, 1006.5, 992.25, 992.75, 1009.75, 1013, 1020.25], index = daty)
cisnienie

2020-01-01    1004.25
2020-01-02    1006.50
2020-01-03     992.25
2020-01-04     992.75
2020-01-05    1009.75
2020-01-06    1013.00
2020-01-07    1020.25
Freq: D, dtype: float64

---

### Ramka danych w pandas

Teraz przejdziemy do omówienia klasy [pandas.DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html). Obiekty tej klasy to dwuwymiarowe tablice danych z indeksami kolumn i wierszy, gdzie poszczególne kolumny to serie danych, tj. obiekty klasy [pandas.Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html).

Na początek utworzymy obiekt DataFrame na podstawie słownika:

In [48]:
data = {'Kraj': ['Belgia', 'Indie', 'Brazylia'],
        'Stolica': ['Bruksela', 'New Delhi', 'Brasilia'],
        'Populacja': [11190846, 1303171035, 207847528]}
df = pd.DataFrame(data,columns=['Kraj', 'Stolica', 'Populacja'])
df

Unnamed: 0,Kraj,Stolica,Populacja
0,Belgia,Bruksela,11190846
1,Indie,New Delhi,1303171035
2,Brazylia,Brasilia,207847528


Sprawdźmy indkes kolumn tego obiektu:

In [49]:
df.columns

Index(['Kraj', 'Stolica', 'Populacja'], dtype='object')

Listę zawierającą nazwy kolumn możemy uzyskać w ten sposób:

In [50]:
df.columns.tolist()

['Kraj', 'Stolica', 'Populacja']

A teraz zobaczmy czym jest indeks wierszy:

In [51]:
df.index

RangeIndex(start=0, stop=3, step=1)

Sprawdźmy jeszcze obiektem jakiej klasy jest jedna z kolumn:

In [52]:
type(df['Kraj'])

pandas.core.series.Series

Kolumny są obiektami klasy [pandas.Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html). Ale elementy poszczególnych kolumn już mogą być różnych typów. Dlatego też dla każdej kolumny DataFrame przechowywany jest jej typ danych. Możemy to sprawdzić za pomocą atrybutu dtypes:

In [53]:
print(df.dtypes)

Kraj         object
Stolica      object
Populacja     int64
dtype: object


Możemy też utworzyć obiekt klasy DataFrame łącząc serie danych:

Przykład 1:

In [54]:
s1 = pd.Series(range(6))
s2 = pd.Series(range(6,12))
df = pd.concat([s1, s2], axis=1)
df

Unnamed: 0,0,1
0,0,6
1,1,7
2,2,8
3,3,9
4,4,10
5,5,11


Przykład 2: Różne indeksy dla poszczególnych serii danych

In [55]:
s1 = pd.Series(range(6))
s2 = s1 ** s1
# Zmieniamy indeks s2
s2.index = s2.index + 3
df = pd.concat([s1, s2], axis=1)
df

Unnamed: 0,0,1
0,0.0,
1,1.0,
2,2.0,
3,3.0,1.0
4,4.0,1.0
5,5.0,4.0
6,,27.0
7,,256.0
8,,3125.0


Przykład 3:

In [56]:
s3 = pd.Series({'Tomek':1, 'Ala':4, 'Ola':9})
s4 = pd.Series({'Kasia':3, 'Ala':2, 'Tomek':5})
df = pd.concat({'A':s3, 'B':s4}, axis=1)
df

Unnamed: 0,A,B
Tomek,1.0,5.0
Ala,4.0,2.0
Ola,9.0,
Kasia,,3.0


Co mogliśmy zaobserwować?

- Indeksy poszczególnych serii danych były uzgadniane a brakujące wartości dla poszczególnych elementów indeksu uzupełniane NaN.
- Kolejność elementów w wynikowym obiekcie klasy DataFrame mogła ulec zmianie w stosunku do kolejności w wejściowych seriach danych.

Obiekt klasy DataFrame możemy też utworzyć wczytując dane z pliku, np. w formacie CSV:

In [57]:
import csv

with open('kraje_dane.csv', 'w', newline='') as file:
    writer = csv.writer(file)
    field = ["Kraj", "Stolica", "Populacja"]
    writer.writerow(field)
    writer.writerow(['Belgia', 'Bruksela', 11190846])
    writer.writerow(['Indie', 'New Delhi', 1303171035])
    writer.writerow(['Brazylia', 'Brasilia', 207847528])

In [58]:
df = pd.read_csv('kraje_dane.csv', header=0)
df

Unnamed: 0,Kraj,Stolica,Populacja
0,Belgia,Bruksela,11190846
1,Indie,New Delhi,1303171035
2,Brazylia,Brasilia,207847528


Obiekt klasy DataFrame możemy skonwertować do tablicy NumPy za pomocą metody pandas.DataFrame.to_numpy():

In [59]:
df_np = df.to_numpy()
df_np

array([['Belgia', 'Bruksela', 11190846],
       ['Indie', 'New Delhi', 1303171035],
       ['Brazylia', 'Brasilia', 207847528]], dtype=object)

lub za pomocą atrybutu [pandas.DataFrame.values](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.values.html):

In [60]:
df.values

array([['Belgia', 'Bruksela', 11190846],
       ['Indie', 'New Delhi', 1303171035],
       ['Brazylia', 'Brasilia', 207847528]], dtype=object)

W łatwy sposób możemy podmienić zawartość kolumn w obiekcie DataFrame:

In [61]:
df[['Stolica', 'Populacja']] = df[['Populacja', 'Stolica']]
df

Unnamed: 0,Kraj,Stolica,Populacja
0,Belgia,11190846,Bruksela
1,Indie,1303171035,New Delhi
2,Brazylia,207847528,Brasilia


Tylko, że w tym przypadku nie ma to sensu. Dlatego przywracamy pierwotną postać:

In [62]:
df[['Stolica', 'Populacja']] = df[['Populacja', 'Stolica']]
df

Unnamed: 0,Kraj,Stolica,Populacja
0,Belgia,Bruksela,11190846
1,Indie,New Delhi,1303171035
2,Brazylia,Brasilia,207847528


---
Wczytamy teraz słynny zbiór danych z pomiarami kwiatów irysa, udostępniony po raz pierwszy przez Ronalda Fishera w roku 1936. Jest to jeden z najbardziej znanych zbiorów w analizie danych, stosowany do konstruowania modeli do rozwiązywania zadania klasyfikacji. Zbiór jest udostępniony m. in. w repozytorium [UC Irvine Machine Learning Repository](https://archive.ics.uci.edu/dataset/53/iris).

Zbiór składa się ze 150 obserwacji, po 50 dla każdego z trzech gatunków kwiatów irysa: irys (kosaciec) szczecinkowaty (ang. *setosa*), irys wirginijski (ang. *virginica*) i irys różnobarwny (ang. *versicolor*). Mierzone były
4 cechy (w centymetrach): długości i szerokości działki kielicha (ang. *sepal*) oraz płatka (ang. *petal*).

In [63]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
df = pd.read_csv(url, header=None)
df.columns = ['sepal length','sepal width','petal length','petal width','class']

Wypiszmy informacje o utworzonej ramce danych. 

In [64]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal length  150 non-null    float64
 1   sepal width   150 non-null    float64
 2   petal length  150 non-null    float64
 3   petal width   150 non-null    float64
 4   class         150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


W szczególności widzimy, że nasz zbiór danych nie zawiera brakujących danych.

Wypiszmy pierwszych kilka wierszy:

In [65]:
df.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


i kilka ostatnich wierszy: 

In [66]:
df.tail()

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


W łatwy sposób możemy też policzyć podstawowe statystyki dla poszczególnych kolumn zawierających dane liczbowe:

In [67]:
df.describe()

Unnamed: 0,sepal length,sepal width,petal length,petal width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Mamy możliwość wybrania pojedynczej kolumny

- do serii danych:

In [68]:
df['sepal length']

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepal length, Length: 150, dtype: float64

- do ramki danych (zwróćmy uwagę na użycie podwójnego nawiasowania):

In [69]:
df[['sepal length']]

Unnamed: 0,sepal length
0,5.1
1,4.9
2,4.7
3,4.6
4,5.0
...,...
145,6.7
146,6.3
147,6.5
148,6.2


W przypadku wyboru więcej niż jednej kolumny, musimy użyć podwójnego nawiasowania: 

In [70]:
df[['sepal length', 'petal width']]

Unnamed: 0,sepal length,petal width
0,5.1,0.2
1,4.9,0.2
2,4.7,0.2
3,4.6,0.2
4,5.0,0.2
...,...,...
145,6.7,2.3
146,6.3,1.9
147,6.5,2.0
148,6.2,2.3


To już nie zadziała:

In [71]:
df['sepal length', 'petal width']

KeyError: ('sepal length', 'petal width')

Możemy dokonywać wyboru kolumn za pomocą zakresu etykiet lub wartości boolowskich:

In [72]:
df.loc[:, 'sepal length':'petal length']

Unnamed: 0,sepal length,sepal width,petal length
0,5.1,3.5,1.4
1,4.9,3.0,1.4
2,4.7,3.2,1.3
3,4.6,3.1,1.5
4,5.0,3.6,1.4
...,...,...,...
145,6.7,3.0,5.2
146,6.3,2.5,5.0
147,6.5,3.0,5.2
148,6.2,3.4,5.4


In [73]:
df.loc[:, [False, False, True, False, True]]

Unnamed: 0,petal length,class
0,1.4,Iris-setosa
1,1.4,Iris-setosa
2,1.3,Iris-setosa
3,1.5,Iris-setosa
4,1.4,Iris-setosa
...,...,...
145,5.2,Iris-virginica
146,5.0,Iris-virginica
147,5.2,Iris-virginica
148,5.4,Iris-virginica


Wiersze mogą być wybierane za pomocą wartości indeksu:

In [74]:
idx = df[df['petal length'] <= 2].index
print(df.loc[idx])

    sepal length  sepal width  petal length  petal width        class
0            5.1          3.5           1.4          0.2  Iris-setosa
1            4.9          3.0           1.4          0.2  Iris-setosa
2            4.7          3.2           1.3          0.2  Iris-setosa
3            4.6          3.1           1.5          0.2  Iris-setosa
4            5.0          3.6           1.4          0.2  Iris-setosa
5            5.4          3.9           1.7          0.4  Iris-setosa
6            4.6          3.4           1.4          0.3  Iris-setosa
7            5.0          3.4           1.5          0.2  Iris-setosa
8            4.4          2.9           1.4          0.2  Iris-setosa
9            4.9          3.1           1.5          0.1  Iris-setosa
10           5.4          3.7           1.5          0.2  Iris-setosa
11           4.8          3.4           1.6          0.2  Iris-setosa
12           4.8          3.0           1.4          0.1  Iris-setosa
13           4.3    

In [76]:
df['petal length'] <= 2

0       True
1       True
2       True
3       True
4       True
       ...  
145    False
146    False
147    False
148    False
149    False
Name: petal length, Length: 150, dtype: bool

Możemy dostawać się do konkretnych elementów ramki danych za pomocą standardowych indeksów całkowitoliczbowych korzystając z metody [pandas.DataFrame.iloc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html):

In [92]:
sub_df = df.iloc[:5,:5]
sub_df

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


Możemy też zmienić wartość konkretnego elementu: 

In [93]:
sub_df.iloc[2,1] = -3.2
sub_df

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,-3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


Zobaczmy czy nasze przypisanie spowodowało zmiany w df:

In [94]:
df.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


Nie, a więc df.iloc utworzyło kopię zadanego fragmentu ramki danych!

Możemy usunąć kolumnę z ramki danych w następujący sposób:

In [95]:
sub_df.columns

Index(['sepal length', 'sepal width', 'petal length', 'petal width', 'class'], dtype='object')

In [96]:
removed_col = sub_df.pop('sepal width')
removed_col

0    3.5
1    3.0
2   -3.2
3    3.1
4    3.6
Name: sepal width, dtype: float64

In [97]:
sub_df

Unnamed: 0,sepal length,petal length,petal width,class
0,5.1,1.4,0.2,Iris-setosa
1,4.9,1.4,0.2,Iris-setosa
2,4.7,1.3,0.2,Iris-setosa
3,4.6,1.5,0.2,Iris-setosa
4,5.0,1.4,0.2,Iris-setosa


Możemy iterować po kolumnach ramki danych:

In [98]:
for name in df.columns:
    print('Nazwa kolumny: ' + str(name))
    print('Trzecia wartość w kolumnie: ' + str(df[name][2]) + '\n')

Nazwa kolumny: sepal length
Trzecia wartość w kolumnie: 4.7

Nazwa kolumny: sepal width
Trzecia wartość w kolumnie: 3.2

Nazwa kolumny: petal length
Trzecia wartość w kolumnie: 1.3

Nazwa kolumny: petal width
Trzecia wartość w kolumnie: 0.2

Nazwa kolumny: class
Trzecia wartość w kolumnie: Iris-setosa



lub po wierszach:

In [99]:
for (row_index, series) in df.iloc[:5,:].iterrows():
    print(f"Indeks wiersza: {row_index}")
    print(f"Pierwszy element w wierszu: {series.iat[0]}")

Indeks wiersza: 0
Pierwszy element w wierszu: 5.1
Indeks wiersza: 1
Pierwszy element w wierszu: 4.9
Indeks wiersza: 2
Pierwszy element w wierszu: 4.7
Indeks wiersza: 3
Pierwszy element w wierszu: 4.6
Indeks wiersza: 4
Pierwszy element w wierszu: 5.0


---

## 2. Przykłady operacji matematycznych na kolumnach ramki danych w pandas

Suma elementów w kolumnie

In [100]:
df['petal length'].sum()

563.8

Iloczyn elementów w kolumnie

In [101]:
df['petal length'].prod()

3.774489440906495e+76

Najmniejsza wartość w kolumnie

In [102]:
df['petal length'].min()

1.0

Wartość średnia wartości w kolumnie

In [103]:
df['petal length'].mean()

3.758666666666666

Mediana wartości w kolumnie

In [104]:
df['petal length'].median()

4.35

Podstawowe statystyki dla wartości w kolumnie

In [105]:
df['petal length'].describe()

count    150.000000
mean       3.758667
std        1.764420
min        1.000000
25%        1.600000
50%        4.350000
75%        5.100000
max        6.900000
Name: petal length, dtype: float64

Indeks wierszowy dla wartości minimalnej w kolumnie

In [106]:
df['petal length'].idxmin()

22

i dla wartości maksymalnej

In [107]:
df['petal length'].idxmax()

118

---
## 3. Przykłady sortowania ramki danych w pandas

In [108]:
df = pd.DataFrame({'col1': ['A', 'A', 'B', np.nan, 'D', 'C'],
                   'col2': [2, 1, 9, 8, 7, 4],
                   'col3': [0, 1, 9, 4, 2, 3],
                   'col4': ['a', 'B', 'c', 'D', 'e', 'F']
})
df

Unnamed: 0,col1,col2,col3,col4
0,A,2,0,a
1,A,1,1,B
2,B,9,9,c
3,,8,4,D
4,D,7,2,e
5,C,4,3,F


Sortowanie ramki danych według wybranej kolumny

In [109]:
df.sort_values(by=['col4'])

Unnamed: 0,col1,col2,col3,col4
1,A,1,1,B
3,,8,4,D
5,C,4,3,F
0,A,2,0,a
2,B,9,9,c
4,D,7,2,e


Sortowanie ramki danych według kilku kolumn

In [110]:
df.sort_values(by=['col1', 'col2'])

Unnamed: 0,col1,col2,col3,col4
1,A,1,1,B
0,A,2,0,a
2,B,9,9,c
5,C,4,3,F
4,D,7,2,e
3,,8,4,D


Sortowanie malejąco według określonej kolumny z wartościami NaN na pierwszych pozycjach:

In [112]:
df.sort_values(by='col1', ascending=False, na_position='first')

Unnamed: 0,col1,col2,col3,col4
3,,8,4,D
4,D,7,2,e
5,C,4,3,F
2,B,9,9,c
0,A,2,0,a
1,A,1,1,B


Sortowanie z wykorzystaniem funkcji zwracającej wartość klucza:

In [113]:
df.sort_values(by='col4', key=lambda col: col.str.lower())

Unnamed: 0,col1,col2,col3,col4
0,A,2,0,a
1,A,1,1,B
2,B,9,9,c
3,,8,4,D
4,D,7,2,e
5,C,4,3,F


In [114]:

df['col4'].str.lower()

0    a
1    b
2    c
3    d
4    e
5    f
Name: col4, dtype: object

In [115]:
df.sort_values(by=['col1','col4'], key=lambda col: col.str.lower())

Unnamed: 0,col1,col2,col3,col4
0,A,2,0,a
1,A,1,1,B
2,B,9,9,c
5,C,4,3,F
4,D,7,2,e
3,,8,4,D


**Uwaga:** Argumentami funkcji lambda są całe serie danych odpowiadające poszczególnym kolumnom z listy 'by' a nie poszczególne elementy w kolumnach.

### Ćwiczenie 2

Dana jest ramka danych oraz lista zawierająca wszystkie unikatowe wartości jednej z kolumn ramki. Posortuj wiersze ramki, tak aby wartości w tej kolumnie występowały w tym samym porządku co na podanej liście.

Przykład:
Dla ramki danych

<table>
  <tr>
    <th>colA</th>
    <th>colB</th>
  </tr>
  <tr>
    <th>A</th>
    <th>1</th>
  </tr>
  <tr>
    <th>B</th>
    <th>2</th>
  </tr>
  <tr>
    <th>C</th>
    <th>3</th>
  </tr>
  <tr>
    <th>D</th>
    <th>4</th>
  </tr>
</table>

i listy ['C','A','D','B'] dla kolumny colA wynikiem powinno być

<table>
  <tr>
    <th>colA</th>
    <th>colB</th>
  </tr>
  <tr>
    <th>C</th>
    <th>3</th>
  </tr>
  <tr>
    <th>A</th>
    <th>1</th>
  </tr>
  <tr>
    <th>D</th>
    <th>4</th>
  </tr>
  <tr>
    <th>B</th>
    <th>2</th>
  </tr>
</table>

In [122]:
# Rozwiązanie
df = pd.DataFrame({
    "colA": ["A", "B", "C", "D"],
    "colB": [1, 2, 3, 4]
})
lista = ["C", "A", "D", "B"]

def sort_by_column(df, lista):
    for c in df.columns:
        if all(df[c].isin(lista)):
            column = c
            break  # Exit loop once a valid column is found
    return df.sort_values(by=column, key = lambda x: x.map(lista.index))
    
sorted_df = sort_by_column(df, lista)
print(sorted_df)

  colA  colB
2    C     3
0    A     1
3    D     4
1    B     2


---
## 4. Złączenia ramek danych w pandas

Istnieją następujące sposoby złączania ramek danych w pandas:
- za pomocą metod [pandas.DataFrame.merge](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html) lub [pandas.DataFrame.join](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html#pandas.DataFrame.join) (bazodanowe SQL join)
- za pomocą funkcji [pandas.concat](https://pandas.pydata.org/docs/reference/api/pandas.concat.html) (dołączanie kolumn lub wierszy)
- combine_first

In [None]:
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'],
                    
                    'value': [1, 2, 3, 5]})

df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'],

                    'value': [5, 6, 7, 8]})

Bazodanowe złączenie po indeksach (SQL full outer join):

In [None]:
df_merged = pd.merge(left=df1, right=df2, left_index=True, right_index=True)
df_merged

Bazodanowe złączenie po określonych kolumnach (kluczach):

In [None]:
df1.merge(df2, how='left', left_on='lkey', right_on='rkey')

In [None]:
df1.merge(df2, how='right', left_on='lkey', right_on='rkey')

Zwróćmy uwagę, jak zostały zmienione etykiety 'value' w odpowiednich kolumnach.

Przemianowywanie kolumn o takich samych etykietach można dostosować do własnych potrzeb:

In [None]:
df1.merge(df2, how='left', left_on='lkey', right_on='rkey', suffixes=('_left', '_right'))

Przyjrzymy się teraz różnym rodzajom złączeń bazodanowych:

In [None]:
df1 = pd.DataFrame({'a': ['foo', 'bar'], 'b': [1, 2]})
df2 = pd.DataFrame({'a': ['foo', 'baz'], 'c': [3, 4]})
print(df1)
print(df2)

Odpowiednik 'SQL full outer join'; używa teoriomnogościowej sumy zbiorów kluczy, która jest sortowana leksykograficznie:

In [None]:
df1.merge(df2, how='outer', on='a')

Odpowiednik 'SQL inner join'; używa teoriomnogościwego iloczynu (przecięcia) zbiorów kluczy, zachowując kolejność kluczy w lewej ramce:

In [None]:
#pd.merge(left=df1, right=df2, how='inner', on='a')
df1.merge(df2, how='inner', on='a')

Odpowiednik 'SQL left outer join'; używa wyłącznie kluczy z lewej ramki zachowując ich kolejność:

In [None]:
#pd.merge(left=df1, right=df2, how='left', on='a')
df1.merge(df2, how='left', on='a')

Odpowiednik 'SQL right outer join', używa wyłącznik kluczy prawej ramki zachowując ich kolejność:

In [None]:
#pd.merge(left=df1, right=df2, how='right', on='a')
df1.merge(df2, how='right', on='a')

Iloczyn kartezjański obu ramek danych, który zachowuje kolejność kluczy lewej ramki:

In [None]:
df1.merge(df2, how='cross')

Złączenia można realizować także za pomocą metody [pandas.DataFrame.join](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html#pandas.DataFrame.join), która domyślnie realizuje złączenie po indeksach (w odróżnieniu od merge, która domyślnie dokonuje złączenia po wspólnych kolumnach):

In [None]:
df1.join(other=df2, how='outer', lsuffix='_lewa', rsuffix='_prawa')

Następująca próba złączenia nie zadziała, gdyż próbuje dokonać złączenia na kolumnie df1.'a' i indeksie df2, których elementy są różnych typów: 

In [None]:
df1.join(other=df2, on=['a'], how='outer', lsuffix='_lewa', rsuffix='_prawa')

Za pomocą funkcji [pandas.concat](https://pandas.pydata.org/docs/reference/api/pandas.concat.html) możemy połączyć ramki danych w jedną ramkę kolumnami:

In [None]:
pd.concat([df1,df2],axis=1)

bądź wierszami:

In [None]:
pd.concat([df1,df2],axis=0)

Przy wierszowym łączeniu ramek przydatna może okazać się możliwość ignorowania wartości indeksów łączonych ramek danych. W takim przypadku kolejne wiersze będą inkesowane liczbami od 0 do n-1:

In [None]:
pd.concat([df1,df2],axis=0,ignore_index=True)

Domyślną wartością parametru join jest 'outer'. Możemy wywołać funkcję concat z argumentem join o wartości 'inner', co spowoduje uwzględnienie w wyniku naszego wywołania tylko kolumn o wspólnych etykiach w łączonych ramkach danych:

In [None]:
pd.concat([df1,df2],axis=0,join='inner')

W przypadku łaczenia wierszy zadziała to tak:

In [None]:
df1 = pd.DataFrame({'a': ['foo', 'bar', 'abc'], 'b': [1, 2, 7]})
df2 = pd.DataFrame({'a': ['foo', 'baz'], 'c': [3, 4]})
print(df1)
print(df2)
pd.concat([df1,df2],axis=1,join='inner')

Metoda [pandas.DataFrame.combine_first](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.combine_first.html) pozwala na uzupełnianie brakujących wartości (None) danej ramki danych odpowiednimi wartościami z drugiej ramki danych:

In [None]:
df1 = pd.DataFrame({'A': [None, 0], 'B': [None, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})
print(df1)
print(df2)
df1.combine_first(df2)

Wywołanie df1.combine_first(df2) łączy dwie ramki danych uzupełniając brakujące wartości w lokacjach ramki df1 istniejącymi wartościami w odpowiadających lokacjach ramki df2. Brakująca wartość pozostanie w df1 jeżeli nie ma określonej wartości w odpowiadającej lokacji w ramce df2.

Indeksy kolumn i wierszy wynikowej ramki danych są teoriomnogościową sumą odpowiednich indeksów obu ramek.

In [None]:
df1 = pd.DataFrame({'A': [None, 0], 'B': [4, None]})
df2 = pd.DataFrame({'B': [3, 3], 'C': [1, 1]}, index=[1, 2])
print(df1)
print(df2)
df1.combine_first(df2)

---
## 5. Grupowanie w pandas

Mechanizm grupowania w pandas pozwala podzielić dane na grupy i zastosować funkcję agregującą do każdej z grup niezależnie.

Metoda [pandas.DataFrame.groupby](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html) zwraca obiekt groupby zawierający informacje o utworzonych grupach:

In [None]:
df = pd.DataFrame({'Animal': ['Falcon', 'Falcon', 'Parrot', 'Parrot'],
                   'Max Speed': [380., 370., 24., 26.]})

Grupowanie za pomocą kolumny grupującej:

In [None]:
gb = df.groupby(['Animal'])

Wartością atrubytu .groups jest słownik reprezentujący grupy:

In [None]:
gb.groups

Iteracja po grupach (zwykle nie jest używana):

In [None]:
for name, group in gb:
    print (name)
    print (group)

In [None]:
gb.get_group('Parrot')

Możemy teraz policzyć średnie prędkości uzyskiwane przez zwierzęta stosując funkcję agregującą, w naszym przypadku funkcję mean():

In [None]:
gb.mean()

Funkcja mean() zostanie zastosowana do każdej kolumny w każdej z grup niezależnie. Zobaczymy to jeszcze poniżej.

Możemy też zastosować wiele funkcji agregujących do jednej kolumny.

In [None]:
df_result = gb.agg([np.sum, np.mean, np.std])
df_result

Wynikowa ramka danych posiada indeks hierarchiczny ([MultiIndex](https://pandas.pydata.org/docs/user_guide/advanced.html)) dla kolumn:

In [None]:
df_result.columns

Możemy też zastosować wiele (różnych) funkcji agregujących do wielu kolumn: 

In [None]:
l = [[1, 2, 3], [1, 5, 4], [2, 0, 3], [1, 2, 2]]
df_abc = pd.DataFrame(l, columns=["a", "b", "c"])
df_abc

In [None]:
df_abc.groupby('a').agg({'b': np.count_nonzero, 'c': [np.mean, np.sum]})

Jeżeli kluczem grupy jest NA, wiersze/kolumny odpowiadające takiej grupie domyślnie zostaną pominięte. Aby to zmienić, należy wartość argumentu dropna ustawić na False. Przeanalizujemy to na przykładzie:

In [None]:
l = [[1, 2, 3], [1, None, 4], [2, 1, 3], [1, 2, 2]]
df = pd.DataFrame(l, columns=["a", "b", "c"])
df

Pogrupujemy po kolumnie 'b' z domyślną wartością argumentu dropna:

In [None]:
df.groupby(by=["b"]).sum()

W powyższym przykładzie funkcja agregującą sum() została zastosowana do wszystkich kolumn, tj. a i c, dla każdej z grup niezależnie. Możemy to zmienić wybierając kolumny, do których chcemy zastosować funkcję agregującą:

In [None]:
df.groupby(by=["b"])[['c']].sum()

Teraz zmienimy wartość dropna na False:

In [None]:
df.groupby(by=["b"], dropna=False).sum()

Możemy również grupować za pomocą poszczególnych poziomów indeksu hierarchicznego.

Najpierw utworzymy indeks hierarchiczny z tablicy:

In [None]:
arrays = [['Falcon', 'Falcon', 'Parrot', 'Parrot'],
          ['Captive', 'Wild', 'Captive', 'Wild']]
index = pd.MultiIndex.from_arrays(arrays, names=('Animal', 'Type'))
index

Następnie utworzymy ramkę danych z naszymi danymi indeksowaną indeksem hierarchicznym:

In [None]:
df = pd.DataFrame({'Max Speed': [390., 350., 30., 20.]}, index=index)
df

Pogrupujemy dane na podstawie pierwszego poziomu indeksu hierarchicznego:

In [None]:
df.groupby(level=0).groups

a teraz na podstawie poziomu drugiego:

In [None]:
df.groupby(level='Type').groups

---
## Małe zadanie domowe 12

Poczytać o funkcji [pandas.pivot_table](https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html) i przeanalizować jej działanie w podanych przykładach. 

Następnie, dla danych podanych poniżej w ramce df_employees, za pomocą funkcji pivot_table utworzyć podsumowująca ramkę danych, której indeks będzie składał się z poszczególnych rodzajów zatrudnienia, tj. unikatowych wartości kolumny 'Type', a poszczególne kolumny będą zawierały sumę zarobków, wartość średnią zarobków i liczbę pracowników odzielnie dla każdego z wydziałów, tj. dla każdej z unikatowych wartości w kolumnie 'Department'. 

In [188]:
df_employees = pd.DataFrame({'First Name': ['Tom', 'Adam', 'Jane', 'Alice', 'Robert', 'Bob', 'John', 'Frank', 'Eva',
                                            'John', 'Lois'],
                   'Last Name': ['Brown', 'Green', 'Thompson', 'Smith', 'Newman', 'Parker', 'Williams', 'Taylor', 'Evans',
                                 'Lewis', 'White'],
                   'Type': ['Full-time Employee', 'Intern', 'Full-time Employee', 'Part-time Employee', 
                            'Full-time Employee', 'Intern', 'Intern', 'Part-time Employee', 'Part-time Employee',
                            'Full-time Employee', 'Part-time Employee'],
                   'Department': ['Administration', 'Technical', 'Administration', 'Technical', 'Management',
                                  'Administration', 'Management', 'Administration', 'Management', 'Technical',
                                  'Management'],
                   'YearsOfExperience': [4, 3, 5, 7, 6, 1, 2, 2, 4, 5, 2],
                   'Salary': [15000, 6000, 9000, 10000, 20000, 3000, 4000, 6000, 12000, 8000, 5500]})

df_employees

Unnamed: 0,First Name,Last Name,Type,Department,YearsOfExperience,Salary
0,Tom,Brown,Full-time Employee,Administration,4,15000
1,Adam,Green,Intern,Technical,3,6000
2,Jane,Thompson,Full-time Employee,Administration,5,9000
3,Alice,Smith,Part-time Employee,Technical,7,10000
4,Robert,Newman,Full-time Employee,Management,6,20000
5,Bob,Parker,Intern,Administration,1,3000
6,John,Williams,Intern,Management,2,4000
7,Frank,Taylor,Part-time Employee,Administration,2,6000
8,Eva,Evans,Part-time Employee,Management,4,12000
9,John,Lewis,Full-time Employee,Technical,5,8000


In [194]:
#Rozwiązanie: Stworzenie pivot table

table = pd.pivot_table(df_employees, values=['Salary', 'First Name' ], columns = ['Department'], index=['Type'],
                       aggfunc={'Salary': ["sum", "mean"],
                                'First Name': "count"})

table

Unnamed: 0_level_0,First Name,First Name,First Name,Salary,Salary,Salary,Salary,Salary,Salary
Unnamed: 0_level_1,count,count,count,mean,mean,mean,sum,sum,sum
Department,Administration,Management,Technical,Administration,Management,Technical,Administration,Management,Technical
Type,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
Full-time Employee,2,1,1,12000.0,20000.0,8000.0,24000,20000,8000
Intern,1,1,1,3000.0,4000.0,6000.0,3000,4000,6000
Part-time Employee,1,2,1,6000.0,8750.0,10000.0,6000,17500,10000


In [195]:
# Zmiana nazwy z "First Name" na "N of Workers"
table.rename(columns={'First Name': 'N of Workers'}, level=0, inplace=True)

table

Unnamed: 0_level_0,N of Workers,N of Workers,N of Workers,Salary,Salary,Salary,Salary,Salary,Salary
Unnamed: 0_level_1,count,count,count,mean,mean,mean,sum,sum,sum
Department,Administration,Management,Technical,Administration,Management,Technical,Administration,Management,Technical
Type,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
Full-time Employee,2,1,1,12000.0,20000.0,8000.0,24000,20000,8000
Intern,1,1,1,3000.0,4000.0,6000.0,3000,4000,6000
Part-time Employee,1,2,1,6000.0,8750.0,10000.0,6000,17500,10000


#### Dalej to już moja zabawa

In [196]:
# Aaaa tu mamy total:
total_table = pd.pivot_table(df_employees, values=['Salary', 'First Name' ], index=['Type'],
                       aggfunc={'Salary': ["sum", "mean"],
                                'First Name': "count"})

total_table.rename(columns={'First Name': 'N of Workers'}, level=0, inplace=True)

total_table
# Możnaby więc to jeszcze dołączyć do naszej wcześniejszej tabeli

Unnamed: 0_level_0,N of Workers,Salary,Salary
Unnamed: 0_level_1,count,mean,sum
Type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Full-time Employee,4,13000.0,52000
Intern,3,4333.333333,13000
Part-time Employee,4,8375.0,33500


In [170]:
#Wersja z "Total" w poziomie z pomocą gpt
# Calculate total salary and total first name counts across all departments
total_salary = df_employees['Salary'].sum()
total_first_name = len(df_employees)

# Add total values as a new row to the pivot table
table.loc['Total', ('Salary', 'sum')] = total_salary
table.loc['Total', ('N of Workers', 'count')] = total_first_name

table


Unnamed: 0_level_0,N of Workers,N of Workers,N of Workers,Salary,Salary,Salary,Salary,Salary,Salary
Unnamed: 0_level_1,count,count,count,mean,mean,mean,sum,sum,sum
Department,Administration,Management,Technical,Administration,Management,Technical,Administration,Management,Technical
Type,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
Full-time Employee,2.0,1.0,1.0,12000.0,20000.0,8000.0,24000.0,20000.0,8000.0
Intern,1.0,1.0,1.0,3000.0,4000.0,6000.0,3000.0,4000.0,6000.0
Part-time Employee,1.0,2.0,1.0,6000.0,8750.0,10000.0,6000.0,17500.0,10000.0
Total,11.0,11.0,11.0,,,,98500.0,98500.0,98500.0


---
## 6. Czas w pandas

Tak jak było zapowiedziane wcześniej, na koniec wrócimy jeszcze do zagadnień związanych z czasem w pandas.

Pandas wprowadza trzy główne pojęcia związane z czasem:
- Datetimes - konkretne daty i czasy wraz z informacją o strefie czasowej;
- Timedeltas - bezwględne czasy trwania;
- Timespans - przedziały czasowe określone poprzez czasy początkowy, końcowe, i krok czasowy.

Podstawową klasą jest klasa [pandas.Timestamp](https://pandas.pydata.org/docs/reference/api/pandas.Timestamp.html#pandas.Timestamp), będąca podklasą klasy [datetime.datetime](https://docs.python.org/3/library/datetime.html#datetime.datetime) z biblioteki standardowej. Pozwala na tworzenie obiektów reprezentujących konkretną datę i czas wraz z informacją o strefie czasowej.

In [None]:
pd.Timestamp(year=2023, month=12, day=17, hour=11)

Czas może być bardzo dokładny, tzn. określony z dokładnością co do nanosekundy:

In [None]:
pd.Timestamp('2020-03-14T15:32:52.192548651', tz='UTC')

Zobaczmy jak można konwertować czas z uwzględnieniem informacji o strefie czasowej:

In [None]:
ts = pd.Timestamp(year=2023, month=10, day=17, hour=11, tz="Europe/Warsaw")
ts

Konwersji można dokonać za pomocą metody [Timestamp.tz_convert()](https://pandas.pydata.org/docs/reference/api/pandas.Timestamp.tz_convert.html#pandas.Timestamp.tz_convert):

In [None]:
ts.tz_convert("US/Eastern")

albo [Timestamp.astimezone()](https://pandas.pydata.org/docs/reference/api/pandas.Timestamp.astimezone.html#pandas.Timestamp.astimezone):

In [None]:
ts.astimezone("US/Eastern")

Możemy też wypisać datę i czas obiektu Timestamp w formacie POSIX, tj. w posraci czasu uniksowego, czyli liczbę sekund od początku 1970 roku [UTC](https://en.wikipedia.org/wiki/Coordinated_Universal_Time), tj. od chwili zwanej początkiem epoki Uniksa (ang. *Unix Epoch*), ale bez uwzględnienia [sekund przestępnych](https://pl.wikipedia.org/wiki/Sekunda_przest%C4%99pna):

In [None]:
ts.timestamp()

Ciekawostka: możemy nawet wypisać datę i czas w postaci [dni juliańskich](https://pl.wikipedia.org/wiki/Data_julia%C5%84ska), czyli liczby dni, która upłynęła od godziny 12:00 czasu uniwersalnego (czasu południka zerowego) w dniu 1 stycznia roku 4713 p.n.e. według kalendarza juliańskiego (przedłużonego odpowiednio wstecz):

In [None]:
ts.to_julian_date()

Możemy odejmować obiekty klasy Timestamp jeżeli strefy czasowe obu obiektów są określone:

In [None]:
teraz = ts.today()
print(teraz)

To nie zadziała:

In [None]:
teraz - ts

ale teraz już tak:

In [None]:
teraz = teraz.tz_localize(tz="Europe/Warsaw")

dt = teraz - ts
dt

W rezultacie dostajemy obiekt klasy [Timedelta](https://pandas.pydata.org/docs/reference/api/pandas.Timedelta.html). I możemy go wykorzystać np. w taki oto sposób:

In [None]:
pd.Timestamp('2020-03-14T15:32:52.192548651', tz='UTC') + dt