# Biblioteka pandas w Pythonie

[Pandas](https://pandas.pydata.org/) to rozbudowana biblioteka do manipulowania danymi, tj. procesu pobierania danych i zmieniania ich formatu celem  łatwiejszego odczytu lub lepszego uporządkowania, oraz do analizy danych w Pythonie. 

Nazwa pochodzi od "**pan**el **da**ta", terminu powszechnie używanego w odniesieniu do wielowymiarowych zbiorów danych spotykanych w statystyce i ekonometrii.

**Uwaga**: Biblioteka pandas jest doskonałym narzędziem do pracy z małymi i średnimi zbiorami danych. Jednak zdolność pandas do przetwarzania dużych zbiorów danych jest ograniczona. Dzieje się tak, ponieważ pandas ładuje cały zbiór danych do pamięci RAM przed przetwarzaniem, co może być problematyczne, jeśli rozmiar zbioru danych przekracza dostępną pamięć.

## 0. Instalacja oraz import biblioteki pandas

Instalujemy za pomocą komendy pip:

In [None]:
!pip install pandas

oraz importujemy za pomocą instrukcji

In [None]:
import pandas as pd

# Przyda się nam też NumPy, więc od razu i tę biblotekę zaimportujemy
import numpy as np

## 1. Podstawowe struktury danych w pandas

Serie danych (klasa [pandas.Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html)) – to jednowymiarowa tablica z etykietami, która może przechowywać dowolny typ danych.

Ramka danych (klasa [pandas.DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)) – dwuwymiarowa struktura z etykietami, mogąca przechowywać kolumny z różnymi typami danych.

Indeks (klasa [pandas.Index](https://pandas.pydata.org/docs/reference/api/pandas.Index.html#pandas.Index)) - niezmienialny ciąg obiektów używany do indeksowania serii i ramek danych. 

### Seria i indeks w pandas

Serię danych możemy utworzyć w następujący sposób:

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

W powyższym przykładzie kolejne wartości są indeksowane automatycznie:

In [None]:
list(s.index)

Oczywiście możemy określić swój własny sposób indeksowania wartości: 

In [None]:
s = pd.Series([12, 23, 19, 20], index=['Ala', 'Ola', 'Marek', 'Tomek'], dtype='int32')
s

Indeks pozwala nam odczytywać poszczególne elementy serii danych.

Na przykład tak:

In [None]:
s['Marek']

Ale można i tak, korzystając z odpowiedniego atrybutu:

In [None]:
s.Marek

Możemy też odczytywać dane z serii danych w "tradycyjny" sposób, tj. tak jak w przypadku standardowych list w Pythonie czy tabel w NumPy:

In [None]:
s[0]

choć w przyszłości najprawdopodobniej zostanie to zmienione (w wersji 2.2.3 pojawia się odpowiednie ostrzeżenie).

In [None]:
s[1:3]

W prosty sposób możemy stworzyć serię danych dla odczytów w określonych datach, punktach czasowych, itp. Tworzymy indeks dla poszczególnych odczytów, np. dla pierwszego dnia każdego miesiąca w 2020r.: 

In [None]:
daty = pd.date_range('20200101', periods=12, freq='MS')
print(daty)

'MS' jest napisem określającym częstotliwość z jaką mają być generowane kolejne elementy zakresu. Możliwe inne wartości tego parametru są dostępne [tutaj](https://pandas.pydata.org/docs/user_guide/timeseries.html#timeseries-offset-aliases).

Utworzymy teraz serię danych zawierającą średnie wartości temperatury powietrza w Warszawie w poszczególnych miesiącach 2020r. zmierzone przez stację meteorologiczną Warszawa-Filtry (dla zainteresowanych: dane są dostępne [tutaj](https://meteomodel.pl/dane/srednie-miesieczne/?imgwid=252200230&par=tm&max_empty=2)):

In [None]:
temp = pd.Series([2.7, 4.2, 5.4, 10.0, 12.8, 20.0, 20.3, 21.3, 16.0, 10.8, 6.0, 2.1], index=daty)
temp

Poszczególne wartości możemy odczytwać z serii danych na różne sposoby.

Pojedynczy element:

In [None]:
temp[0]

In [None]:
temp['2020-01-01']

In [None]:
temp['2020/5/1']

In [None]:
temp['2020-01']

Ale to już nie zadziała:

In [None]:
temp.2020-01-01

ani to:

In [None]:
temp.'2020-01-01'

Ale możemy tak:

In [None]:
ts = pd.to_datetime('2020-01-01')
ts

i jeszcze na kilka różnych sposobów:

In [None]:
ts = pd.to_datetime('2020-01')
ts

In [None]:
pd.to_datetime('2020')

In [None]:
temp[ts]

In [None]:
temp['2020']

In [None]:
temp['2020-05-01':'2020-08-01']

Co ciekawe, można i tak:

In [None]:
temp['2020-05-01':'2020-08-12']

W naszym przykładzie serii danych zawierających średnie wartości temperatur dla poszczególnych miesięcy, etykiety indeksu są jednak mylące, gdyż zawierają informację o dniu - sugerują jakby pomiary były dokonywane w pierwszym dniu każdego miesiąca, co nie jest zgodne ze stanem faktycznym. Dlatego spróbujemy poprawić nasz indeks. Możemy zrobić to używająć funkcji [period_range](https://pandas.pydata.org/docs/reference/api/pandas.period_range.html). Najpierw utworzymy nowy indeks:

In [None]:
nowy_indeks = pd.period_range("2020/01/01", freq="M", periods=12)
nowy_indeks

Zauważmy, że przy okazji zmienimy klasę indeksu z [DatetimeIndex](https://pandas.pydata.org/docs/reference/api/pandas.DatetimeIndex.html) na [PeriodIndex](https://pandas.pydata.org/docs/reference/api/pandas.PeriodIndex.html).
Teraz dokonamy podmiany:

In [None]:
temp.index = nowy_indeks
temp

Przy okazji nie tylko mamy bardziej poprawny indeks, ale też zredukowaliśmy zużycie pamięci:

In [None]:
print(f"Niepoprawny indeks zajmował {daty.memory_usage()} bajtów.")
print(f"Poprawny indeks zajmuje {nowy_indeks.memory_usage()} bajtów.")

In [None]:
daty.dtype

In [None]:
nowy_indeks.dtype

Do zagadnień związanych z czasem i manipulowaniem nim w pandas jeszcze wrócimy na końcu dzisiejszych zajęć.

Omówimy jeszcze metodę [pandas.Series.map](https://pandas.pydata.org/docs/reference/api/pandas.Series.map.html) dla serii danych. Pozwala ona na zastępowanie wartości serii danych innymi wartościami zadanymi przez funkcję, słownik lub inną serię danych:

In [None]:
s = pd.Series(['cat', 'dog', np.nan, 'rabbit'])
s

Najpierw nowe wartości zadamy za pomocą słownika. Jeżeli w słowniku brakuje odpowiedniego klucza, to nową wartością jest NaN, chyba że słownik określa wartość domyślną:

In [None]:
s.map({'cat': 'kitten', 'dog': 'puppy'})

Teraz nowe wartości zostaną zadane za pomocą funkcji. Na przykład tak:

In [None]:
s.map('I am a {}'.format, na_action='ignore')

albo tak, używając wyrażenia lambda:

In [None]:
pd.Series([1,2,3,4,5]).map(lambda x: x+2)

No i jeszcze zadamy nowe wartości za pomocą innej serii:

In [None]:
s = pd.Series(['A','B','C','D'])
other_series = pd.Series(range(len(s)), index = ['C', 'D', 'B', 'A'])
s.map(other_series)

### Ćwiczenie 1

Utworzyć serię danych ciśnienia atmosferycznego w hPa w pierwszych siedmiu dniach roku 2024 w Warszawie. Wartości liczbowe można pobrać [stąd](https://www.ekologia.pl/pogoda/polska/mazowieckie/warszawa/archiwum,zakres,01-01-2024_07-01-2024).

---

### Ramka danych w pandas

Teraz przejdziemy do omówienia klasy [pandas.DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html). Obiekty tej klasy to dwuwymiarowe tablice danych z indeksami kolumn i wierszy, gdzie poszczególne kolumny to serie danych, tj. obiekty klasy [pandas.Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html).

Na początek utworzymy obiekt DataFrame na podstawie słownika:

In [None]:
data = {'Kraj': ['Belgia', 'Indie', 'Brazylia'],
        'Stolica': ['Bruksela', 'New Delhi', 'Brasilia'],
        'Populacja': [11190846, 1303171035, 207847528]}
df = pd.DataFrame(data,columns=['Kraj', 'Stolica', 'Populacja'])
df

Sprawdźmy indkes kolumn tego obiektu:

In [None]:
df.columns

Listę zawierającą nazwy kolumn możemy uzyskać w ten sposób:

In [None]:
df.columns.tolist()

A teraz zobaczmy czym jest indeks wierszy:

In [None]:
df.index

Sprawdźmy jeszcze obiektem jakiej klasy jest jedna z kolumn:

In [None]:
type(df['Kraj'])

Kolumny są obiektami klasy [pandas.Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html). Ale elementy poszczególnych kolumn już mogą być różnych typów. Dlatego też dla każdej kolumny DataFrame przechowywany jest jej typ danych. Informacje o tym typie możemy uzyskać za pomocą atrybutu dtypes:

In [None]:
print(df.dtypes)

Możemy też utworzyć obiekt klasy DataFrame łącząc serie danych:

Przykład 1:

In [None]:
s1 = pd.Series(range(6))
s2 = pd.Series(range(6,12))
df = pd.concat([s1, s2], axis=1)
df

Przykład 2: Różne indeksy dla poszczególnych serii danych

In [None]:
s1 = pd.Series(range(6))
s2 = s1 ** s1
# Zmieniamy indeks s2
s2.index = s2.index + 3
df = pd.concat([s1, s2], axis=1)
df

Przykład 3:

In [None]:
s3 = pd.Series({'Tomek':1, 'Ala':4, 'Ola':9})
s4 = pd.Series({'Kasia':3, 'Ala':2, 'Tomek':5})
df = pd.concat({'A':s3, 'B':s4}, axis=1)
df

Co mogliśmy zaobserwować?

- Indeksy poszczególnych serii danych były uzgadniane a brakujące wartości dla poszczególnych elementów indeksu uzupełniane NaN.
- Kolejność elementów w wynikowym obiekcie klasy DataFrame mogła ulec zmianie w stosunku do kolejności w wejściowych seriach danych.

Obiekt klasy DataFrame możemy też utworzyć wczytując dane z pliku, np. w formacie CSV:

In [None]:
import csv

with open('kraje_dane.csv', 'w', newline='') as file:
    writer = csv.writer(file)
    field = ["Kraj", "Stolica", "Populacja"]
    writer.writerow(field)
    writer.writerow(['Belgia', 'Bruksela', 11190846])
    writer.writerow(['Indie', 'New Delhi', 1303171035])
    writer.writerow(['Brazylia', 'Brasilia', 207847528])

In [None]:
df = pd.read_csv('kraje_dane.csv', header=0)
df

Obiekt klasy DataFrame możemy skonwertować to tablicy NumPy za pomocą metody pandas.DataFrame.to_numpy():

In [None]:
df_np = df.to_numpy()
df_np

lub za pomocą atrybutu [pandas.DataFrame.values](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.values.html):

In [None]:
df.values

W łatwy sposób możemy podmienić zawartość kolumn w obiekcie DataFrame:

In [None]:
df[['Stolica', 'Populacja']] = df[['Populacja', 'Stolica']]
df

Tylko, że w tym przypadku nie ma to sensu. Dlatego przywracamy pierwotną postać:

In [None]:
df[['Stolica', 'Populacja']] = df[['Populacja', 'Stolica']]
df

---
Wczytamy teraz słynny zbiór danych z pomiarami kwiatów irysa, udostępniony po raz pierwszy przez Ronalda Fishera w roku 1936. Jest to jeden z najbardziej znanych zbiorów w analizie danych, stosowany do konstruowania modeli do rozwiązywania zadania klasyfikacji. Zbiór jest udostępniony m. in. w repozytorium [UC Irvine Machine Learning Repository](https://archive.ics.uci.edu/dataset/53/iris).

Zbiór składa się ze 150 obserwacji, po 50 dla każdego z trzech gatunków kwiatów irysa: irys (kosaciec) szczecinkowaty (ang. *setosa*), irys wirginijski (ang. *virginica*) i irys różnobarwny (ang. *versicolor*). Mierzone były
4 cechy (w centymetrach): długości i szerokości działki kielicha (ang. *sepal*) oraz płatka (ang. *petal*).

<center>
<div>
<img src="img/iris1.png" width="400"><img src="img/iris2.jpg" width="150">
</div>
</center>

In [None]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
df = pd.read_csv(url, header=None)
df.columns = ['sepal length','sepal width','petal length','petal width','class']

Wypiszmy informacje o utworzonej ramce danych. 

In [None]:
df.info()

W szczególności widzimy, że nasz zbiór danych nie zawiera brakujących danych.

Wypiszmy pierwszych kilka wierszy:

In [None]:
df.head()

i kilka ostatnich wierszy: 

In [None]:
df.tail()

W łatwy sposób możemy też policzyć podstawowe statystyki dla poszczególnych kolumn zawierających dane liczbowe:

In [None]:
df.describe()

Mamy możliwość wybrania pojedynczej kolumny

- do serii danych:

In [None]:
df['sepal length']

- do ramki danych (zwróćmy uwagę na użycie podwójnego nawiasowania):

In [None]:
df[['sepal length']]

W przypadku wyboru więcej niż jednej kolumny, musimy użyć podwójnego nawiasowania: 

In [None]:
df[['sepal length', 'petal width']]

To już nie zadziała:

In [None]:
df['sepal length', 'petal width']

Możemy dokonywać wyboru kolumn za pomocą zakresu etykiet lub wartości boolowskich:

In [None]:
df.loc[:, 'sepal length':'petal length']

In [None]:
df.loc[:, [False, False, True, False, True]]

Wiersze mogą być wybierane za pomocą wartości indeksu:

In [None]:
idx = df[df['petal length'] <= 2].index
print(df.loc[idx])

In [None]:
df['petal length'] <= 2

Możemy dostawać się do konkretnych elementów ramki danych za pomocą standardowych indeksów całkowitoliczbowych korzystając z metody [pandas.DataFrame.iloc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html):

In [None]:
sub_df = df.iloc[:5,:5]
sub_df

Możemy też zmienić wartość konkretnego elementu: 

In [None]:
sub_df.iloc[2,1] = -3.2
sub_df

Zobaczmy czy nasze przypisanie spowodowało zmiany w df:

In [None]:
df.head()

Nie, a więc df.iloc utworzyło kopię zadanego fragmentu ramki danych!

Możemy usunąć kolumnę z ramki danych w następujący sposób:

In [None]:
removed_col = sub_df.pop('sepal width')
removed_col

In [None]:
sub_df

Możemy iterować po kolumnach ramki danych:

In [None]:
for (name, series) in df.items():
    print('Nazwa kolumny: ' + str(name))
    print('Trzecia wartość w kolumnie: ' + str(series.iat[2]) + '\n')

lub po wierszach:

In [None]:
for (row_index, series) in df.iloc[:5,:].iterrows():
    print(f"Indeks wiersza: {row_index}")
    print(f"Pierwszy element w wierszu: {series.iat[0]}")

---

## 2. Przykłady operacji matematycznych na kolumnach ramki danych w pandas

Suma elementów w kolumnie

In [None]:
df['petal length'].sum()

Iloczyn elementów w kolumnie

In [None]:
df['petal length'].prod()

Najmniejsza wartość w kolumnie

In [None]:
df['petal length'].min()

Wartość średnia wartości w kolumnie

In [None]:
df['petal length'].mean()

Mediana wartości w kolumnie

In [None]:
df['petal length'].median()

Podstawowe statystyki dla wartości w kolumnie

In [None]:
df['petal length'].describe()

Indeks wierszowy dla wartości minimalnej w kolumnie

In [None]:
df['petal length'].idxmin()

i dla wartości maksymalnej

In [None]:
df['petal length'].idxmax()

---
## 3. Przykłady sortowania ramki danych w pandas

In [None]:
df = pd.DataFrame({'col1': ['A', 'A', 'B', np.nan, 'D', 'C'],
                   'col2': [2, 1, 9, 8, 7, 4],
                   'col3': [0, 1, 9, 4, 2, 3],
                   #'col4': ['a', 'B', 'c', 'D', 'e', 'F']
                   'col4': ['b', 'a', 'c', 'D', 'e', 'F']
})
df

Sortowanie ramki danych według wybranej kolumny

In [None]:
df.sort_values(by=['col4'])

Sortowanie ramki danych według kilku kolumn

In [None]:
df.sort_values(by=['col1', 'col2'])

Sortowanie malejąco według określonej kolumny z wartościami NaN na pierwszych pozycjach:

In [None]:
df.sort_values(by='col1', ascending=False, na_position='first')

Sortowanie z wykorzystaniem funkcji zwracającej wartość klucza:

In [None]:
df.sort_values(by='col4', key=lambda col: col.str.lower())

In [None]:
df['col4'].str.lower()

In [None]:
df.sort_values(by=['col1','col4'], key=lambda col: col.str.lower())

**Uwaga:** Argumentami funkcji lambda są całe serie danych odpowiadające poszczególnym kolumnom z listy 'by' a nie poszczególne elementy w kolumnach. Możemy to zaobserwować tutaj:

In [None]:
df.sort_values(by=['col1','col4'], key=lambda col: (print(col),col.str.lower())[1])

Argument key jest podobny do tego we wbudowanej funkcji [sorted()](https://docs.python.org/3/library/functions.html#sorted). Ale jest pewna istotna różnica. Funkcja podawana jako key w przypadku df.sort_values() powinna być zwektoryzowana. Powinna przyjmować serię danych jako argument i zwracać serię danych o tym samym kształcie co argument. Funkcja ta jest aplikowana niezależnie do każdej kolumny wymienionej w by.

### Ćwiczenie 2

Dana jest ramka danych oraz lista zawierająca wszystkie unikatowe wartości jednej z kolumn ramki. Posortuj wiersze ramki tak, aby wartości w tej kolumnie występowały w tym samym porządku co na podanej liście.

Przykład:
Dla ramki danych

<table>
  <tr>
    <th>colA</th>
    <th>colB</th>
  </tr>
  <tr>
    <th>A</th>
    <th>1</th>
  </tr>
  <tr>
    <th>B</th>
    <th>2</th>
  </tr>
  <tr>
    <th>C</th>
    <th>3</th>
  </tr>
  <tr>
    <th>D</th>
    <th>4</th>
  </tr>
</table>

i listy ['C','A','D','B'] dla kolumny colA wynikiem powinno być

<table>
  <tr>
    <th>colA</th>
    <th>colB</th>
  </tr>
  <tr>
    <th>C</th>
    <th>3</th>
  </tr>
  <tr>
    <th>A</th>
    <th>1</th>
  </tr>
  <tr>
    <th>D</th>
    <th>4</th>
  </tr>
  <tr>
    <th>B</th>
    <th>2</th>
  </tr>
</table>

---
## 4. Złączenia ramek danych w pandas

Istnieją następujące sposoby złączania ramek danych w pandas:
- za pomocą metod [pandas.DataFrame.merge](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html) lub [pandas.DataFrame.join](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html#pandas.DataFrame.join) (bazodanowe SQL join);
- za pomocą funkcji [pandas.concat](https://pandas.pydata.org/docs/reference/api/pandas.concat.html) (dołączanie kolumn lub wierszy);
- za pomocą metody [pandas.DataFrame.combine_first](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.combine_first.html).

In [None]:
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'],
                    
                    'value': [1, 2, 3, 5]})

df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'],

                    'value': [5, 6, 7, 8]})

Bazodanowe złączenie po indeksach (SQL full outer join):

In [None]:
df_merged = pd.merge(left=df1, right=df2, left_index=True, right_index=True)
df_merged

Bazodanowe złączenie po określonych kolumnach (kluczach):

In [None]:
df1.merge(df2, how='left', left_on='lkey', right_on='rkey')

In [None]:
df1.merge(df2, how='right', left_on='lkey', right_on='rkey')

Zwróćmy uwagę, jak zostały zmienione etykiety 'value' w odpowiednich kolumnach.

Przemianowywanie kolumn o takich samych etykietach można dostosować do własnych potrzeb:

In [None]:
df1.merge(df2, how='left', left_on='lkey', right_on='rkey', suffixes=('_left', '_right'))

Przyjrzymy się teraz różnym rodzajom złączeń bazodanowych:

In [None]:
df1 = pd.DataFrame({'a': ['foo', 'bar'], 'b': [1, 2]})
df2 = pd.DataFrame({'a': ['foo', 'baz'], 'c': [3, 4]})
print(df1)
print(df2)

Odpowiednik 'SQL full outer join'; używa teoriomnogościowej sumy zbiorów kluczy, która jest sortowana leksykograficznie:

In [None]:
df1.merge(df2, how='outer', on='a')

Odpowiednik 'SQL inner join'; używa teoriomnogościwego iloczynu (przecięcia) zbiorów kluczy, zachowując kolejność kluczy w lewej ramce:

In [None]:
#pd.merge(left=df1, right=df2, how='inner', on='a')
df1.merge(df2, how='inner', on='a')

Odpowiednik 'SQL left outer join'; używa wyłącznie kluczy z lewej ramki zachowując ich kolejność:

In [None]:
#pd.merge(left=df1, right=df2, how='left', on='a')
df1.merge(df2, how='left', on='a')

Odpowiednik 'SQL right outer join', używa wyłącznie kluczy prawej ramki zachowując ich kolejność:

In [None]:
#pd.merge(left=df1, right=df2, how='right', on='a')
df1.merge(df2, how='right', on='a')

Iloczyn kartezjański obu ramek danych, który zachowuje kolejność kluczy lewej ramki:

In [None]:
df1.merge(df2, how='cross')

Złączenia można realizować także za pomocą metody [pandas.DataFrame.join](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html#pandas.DataFrame.join), która domyślnie realizuje złączenie po indeksach (w odróżnieniu od merge, która domyślnie dokonuje złączenia po wspólnych kolumnach):

In [None]:
df1.join(other=df2, how='outer', lsuffix='_lewa', rsuffix='_prawa')

Następująca próba złączenia nie zadziała, gdyż próbuje dokonać złączenia na kolumnie df1.'a' i indeksie df2, których elementy są różnych typów: 

In [None]:
df1.join(other=df2, on=['a'], how='outer', lsuffix='_lewa', rsuffix='_prawa')

Za pomocą funkcji [pandas.concat](https://pandas.pydata.org/docs/reference/api/pandas.concat.html) możemy połączyć ramki danych w jedną ramkę kolumnami:

In [None]:
pd.concat([df1,df2],axis=1)

bądź wierszami:

In [None]:
pd.concat([df1,df2],axis=0)

Przy wierszowym łączeniu ramek przydatna może okazać się możliwość ignorowania wartości indeksów łączonych ramek danych. W takim przypadku kolejne wiersze będą inkesowane liczbami od 0 do n-1:

In [None]:
pd.concat([df1,df2],axis=0,ignore_index=True)

Domyślną wartością parametru join jest 'outer'. Możemy wywołać funkcję concat z argumentem join o wartości 'inner', co spowoduje uwzględnienie w wyniku naszego wywołania tylko kolumn o wspólnych etykiach w łączonych ramkach danych:

In [None]:
pd.concat([df1,df2],axis=0,join='inner')

W przypadku łaczenia wierszy zadziała to tak:

In [None]:
df1 = pd.DataFrame({'a': ['foo', 'bar', 'abc'], 'b': [1, 2, 7]})
df2 = pd.DataFrame({'a': ['foo', 'baz'], 'c': [3, 4]})
print(df1)
print(df2)
pd.concat([df1,df2],axis=1,join='inner')

Metoda [pandas.DataFrame.combine_first](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.combine_first.html) pozwala na uzupełnianie brakujących wartości (NaN) danej ramki danych odpowiednimi wartościami z drugiej ramki danych:

In [None]:
df1 = pd.DataFrame({'A': [None, 0], 'B': [None, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})
print(df1)
print(df2)
df1.combine_first(df2)

Wywołanie df1.combine_first(df2) łączy dwie ramki danych uzupełniając brakujące wartości w lokacjach ramki df1 istniejącymi wartościami w odpowiadających lokacjach ramki df2. Brakująca wartość pozostanie w df1 jeżeli nie ma określonej wartości w odpowiadającej lokacji w ramce df2.

Indeksy kolumn i wierszy wynikowej ramki danych są teoriomnogościową sumą odpowiednich indeksów obu ramek.

In [None]:
df1 = pd.DataFrame({'A': [None, 0], 'B': [4, None]})
df2 = pd.DataFrame({'B': [3, 3], 'C': [1, 1]}, index=[1, 2])
print(df1)
print(df2)
df1.combine_first(df2)

---
## 5. Grupowanie w pandas

Mechanizm grupowania w pandas pozwala podzielić dane na grupy i zastosować funkcję agregującą do każdej z grup niezależnie.

Metoda [pandas.DataFrame.groupby](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html) zwraca obiekt groupby zawierający informacje o utworzonych grupach:

In [None]:
df = pd.DataFrame({'Animal': ['Falcon', 'Falcon', 'Parrot', 'Parrot'],
                   'Max Speed': [380., 370., 24., 26.]})
df

Grupowanie za pomocą kolumny grupującej:

In [None]:
gb = df.groupby(['Animal'])
gb

Wartością atrubytu .groups jest słownik reprezentujący grupy, gdzie klucze to wartości z kiolumny grupującej a wartości to odpowiadające tym wartościom wiersze:

In [None]:
gb.groups

Iteracja po grupach (zwykle nie jest używana):

In [None]:
for name, group in gb:
    print (name)
    print (group)

In [None]:
# gb.get_group('Parrot') # Starsze wersje pandas
gb.get_group(('Parrot',)) # W przyszłych wersjach pandas

Możemy teraz policzyć średnie prędkości uzyskiwane przez poszczególne zwierzęta stosując funkcję agregującą, w naszym przypadku funkcję mean():

In [None]:
gb.mean()

Funkcja mean() zostanie zastosowana do każdej kolumny w każdej z grup niezależnie. Zobaczymy to jeszcze poniżej.

Możemy też zastosować wiele funkcji agregujących do jednej kolumny.

In [None]:
#df_result = gb.agg([np.sum, np.mean, np.std])
df_result = gb.agg(["sum", "mean", "std"]) # W przyszłych wersjach pandas
df_result

Wynikowa ramka danych posiada indeks hierarchiczny ([MultiIndex](https://pandas.pydata.org/docs/user_guide/advanced.html)) dla kolumn:

In [None]:
df_result.columns

Możemy też zastosować wiele (różnych) funkcji agregujących do wielu kolumn: 

In [None]:
l = [[1, 2, 3], [1, 5, 4], [2, 0, 3], [1, 2, 2]]
df_abc = pd.DataFrame(l, columns=["a", "b", "c"])
df_abc

In [None]:
#df_abc.groupby('a').agg({'b': np.count_nonzero, 'c': [np.mean, np.sum]})
df_abc.groupby('a').agg({'b': np.count_nonzero, 'c': ["mean", "sum"]}) # W przyszłości

Jeżeli kluczem grupy jest NA, wiersze/kolumny odpowiadające takiej grupie domyślnie zostaną pominięte. Aby to zmienić, należy wartość argumentu dropna ustawić na False. Przeanalizujemy to na przykładzie:

In [None]:
l = [[1, 2, 3], [1, None, 4], [2, 1, 3], [1, 2, 2]]
df = pd.DataFrame(l, columns=["a", "b", "c"])
df

Pogrupujemy po kolumnie 'b' z domyślną wartością argumentu dropna:

In [None]:
df.groupby(by=["b"]).sum()

W powyższym przykładzie funkcja agregującą sum() została zastosowana do wszystkich kolumn, tj. a i c, dla każdej z grup niezależnie. Możemy to zmienić wybierając kolumny, do których chcemy zastosować funkcję agregującą:

In [None]:
df.groupby(by=["b"])[['c']].sum()

Teraz zmienimy wartość dropna na False:

In [None]:
df.groupby(by=["b"], dropna=False).sum()

Możemy również grupować za pomocą poszczególnych poziomów indeksu hierarchicznego.

Najpierw utworzymy indeks hierarchiczny z tablicy:

In [None]:
arrays = [['Falcon', 'Falcon', 'Parrot', 'Parrot'],
          ['Captive', 'Wild', 'Captive', 'Wild']]
index = pd.MultiIndex.from_arrays(arrays, names=('Animal', 'Type'))
index

Następnie utworzymy ramkę danych z naszymi danymi indeksowaną indeksem hierarchicznym:

In [None]:
df = pd.DataFrame({'Max Speed': [390., 350., 30., 20.]}, index=index)
df

Pogrupujemy dane na podstawie pierwszego poziomu indeksu hierarchicznego:

In [None]:
df.groupby(level=0).groups

a teraz na podstawie poziomu drugiego:

In [None]:
df.groupby(level='Type').groups

---
## 6. Czas w pandas

Tak jak było zapowiedziane wcześniej, na koniec wrócimy jeszcze do zagadnień związanych z czasem w pandas.

Pandas wprowadza trzy główne pojęcia związane z czasem:
- Datetimes - konkretne daty i czasy wraz z informacją o strefie czasowej;
- Timedeltas - bezwględne czasy trwania;
- Timespans - przedziały czasowe określone poprzez czasy początkowy i końcowy oraz krok czasowy.
- 
Podstawową klasą jest klasa [pandas.Timestamp](https://pandas.pydata.org/docs/reference/api/pandas.Timestamp.html#pandas.Timestamp), będąca podklasą klasy [datetime.datetime](https://docs.python.org/3/library/datetime.html#datetime.datetime) z biblioteki standardowej. Pozwala na tworzenie obiektów reprezentujących konkretną datę i czas wraz z informacją o strefie czasowej.

In [None]:
pd.Timestamp(year=2023, month=12, day=17, hour=11)

Czas może być bardzo dokładny, tzn. określony z dokładnością co do nanosekundy:

In [None]:
pd.Timestamp('2020-03-14T15:32:52.192548651', tz='UTC')

Zobaczmy jak można konwertować czas z uwzględnieniem informacji o strefie czasowej:

In [None]:
ts = pd.Timestamp(year=2023, month=10, day=17, hour=11, tz="Europe/Warsaw")
ts

Konwersji można dokonać za pomocą metody [Timestamp.tz_convert()](https://pandas.pydata.org/docs/reference/api/pandas.Timestamp.tz_convert.html#pandas.Timestamp.tz_convert):

In [None]:
ts.tz_convert("US/Eastern")

albo [Timestamp.astimezone()](https://pandas.pydata.org/docs/reference/api/pandas.Timestamp.astimezone.html#pandas.Timestamp.astimezone):

In [None]:
ts.astimezone("US/Eastern")

Możemy też wypisać datę i czas obiektu Timestamp w formacie POSIX, tj. w postaci czasu uniksowego, czyli liczbę sekund od początku 1970 roku [UTC](https://en.wikipedia.org/wiki/Coordinated_Universal_Time), tj. od chwili zwanej początkiem epoki Uniksa (ang. *Unix Epoch*), ale bez uwzględnienia [sekund przestępnych](https://pl.wikipedia.org/wiki/Sekunda_przest%C4%99pna):

In [None]:
ts.timestamp()

Ciekawostka: możemy nawet wypisać datę i czas w postaci [dni juliańskich](https://pl.wikipedia.org/wiki/Data_julia%C5%84ska), czyli liczby dni, która upłynęła od godziny 12:00 czasu uniwersalnego (czasu południka zerowego) w dniu 1 stycznia roku 4713 p.n.e. według kalendarza juliańskiego (przedłużonego odpowiednio wstecz):

In [None]:
ts.to_julian_date()

Możemy odejmować obiekty klasy Timestamp jeżeli strefy czasowe obu obiektów są określone:

In [None]:
teraz = ts.today()
print(teraz)

To nie zadziała:

In [None]:
teraz - ts

ale po dookreśleniu strefy czasowej dla teraz już tak:

In [None]:
teraz = teraz.tz_localize(tz="Europe/Warsaw")

dt = teraz - ts
dt

W rezultacie dostajemy obiekt klasy [Timedelta](https://pandas.pydata.org/docs/reference/api/pandas.Timedelta.html). I możemy go wykorzystać np. w taki oto sposób:

In [None]:
pd.Timestamp('2020-03-14T15:32:52.192548651', tz='UTC') + dt