## Analiza danych z biblioteką `Pandas`

![image.png](attachment:78b3e54b-f3e5-45e0-a324-869a3ecc67fd.png)

### 1. Konfiguracja środowiska

Ćwiczenia będziemy wykonywać na Pythonie w wersji 3.12

In [None]:
...

oraz bibliotece Pandas w wersji 2.2

In [None]:
...

ale wszystkie materiały powinny działać na wersjach Python 3.6+ oraz Pandas 2.0+.

Sprawdź, czy masz poprawnie skonfigurowane środowisko uruchamiając poniższą komórkę.

In [None]:
from check_env import run_env_check

run_env_check()

Jeżeli pojawił się przynajmniej jeden czerwony komunikat zapoznaj się z jego treścią i odpowiednio popraw konfigurację swojego środowiska, a następnie ponownie uruchom komórkę. Jeżeli wszystkie komunikaty są zielone gratulacje! Twoje środowisko jest poprawnie skonfigurowane. Możesz przystąpić do ćwiczeń.

### 2. Wstęp

#### Dlaczego Python do analizy danych ?

Zastosowanie Pythona w analizie danych, obliczeniach interaktywnych i wizualizacji danych można porównać z innymi otwartymi i komercyjnymi językami i narzędziami, takimi jak `R`, `Matlab`, `SAS` i `Stat`. W ciągu kilkunastu ostatnich lat wsparcie biblioteki Python uległo znacznej poprawie, a biblioteki takie jak `pandas` i `scikit-learn` sprawiły, że Python zaczął być powszechnie używany podczas analizy danych. To oraz doskonałe możliwości tworzenia oprogramowania ogólnego przeznaczenia przyczyniły się do tego, że Python doskonale sprawdza się w roli głównego języka używanego do budowania aplikacji przetwarzających danych.

#### Dlaczego Pandas ?

Biblioteka Pandas łączy wysoką wydajność obliczeń tablicowych pakietu `Numpy` z możliwością elastycznego manipulowania danymi oferowaną przez arkusze kalkulacyjne i relacyjne bazy danych. Zapewnia funkcje indeksowania dzięki którym łatwiej jest przetwarzać i dzielić dane, a także przeprowadzać agregację i wybierać podzbiory. Nazwa `pandas` pochodzi od ekonometrycznego terminu **panel data** (dane panelowe) określającego wielowymiarowe ustrukturyzowane zbiory danych.

Oficjalna strona biblioteki znajduje się na https://pandas.pydata.org/

![image.png](attachment:acfdc849-05a3-4ce6-b0ae-da8e29c60dc7.png)

Dokumentacje można znaleźć na na https://pandas.pydata.org/docs/

![image.png](attachment:a48a269e-34cd-4921-ac7b-bab7c725d88b.png)

Pakiet Pandas zapewnia struktury danych i funkcje wysokiego poziomu, które przyśpieszają pracę z ustrukturyzowanymi danymi, a także danymi w formie tabel. Biblioteka powstała w 2010, a jej twórcą był Wes McKinney, który jest również autorem najpopularniejszej obecnie książki o bibliotece Pandas - [Python for Data Analysis](https://www.amazon.com/Python-Data-Analysis-Wrangling-Jupyter/dp/109810403X/) (polski tytuł to "Python w analizie danych").

![image.png](attachment:1d8a2049-ad72-455d-b164-773e429912ae.png)

Wes McKinney pracę nad biblioteką rozpoczął w 2008 roku, w latach 2011-2013 współtworzyli ją Adam Klein oraz Chang She. W 2013 roku biblioteka stała się w pełni własnością społeczności użytkowników i ponad dwóch tysięcy współautorów z całego świata, którzy ją utrzymują. Od tego czasu Wes McKinney nie angażuje się aktywnie w jej rozwój.

W skład biblioteki `Pandas` wchodzą struktury danych i narzędzia przeznaczone do przetwarzania danych, które ułatwiają i przyśpieszają oczyszczanie danych i analizę w Pythonie. Biblioteka pandas jest często używana w połączeniu z innymi narzędziami przeznaczonymi do przetwarzania danych numerycznych, takimi jak `Numpy` i `SciyPy`, bibliotekami analitycznymi, takimi jak `statsmodels` i `scikit-learn`, a także bibliotekami przeznaczonymi do wizualizacji danych takimi jak `matplotlib`. Pakiet pandas przypomina pakiet numpy - jest nastawiony na przetwarzanie tablic, oferuje wiele funkcji operujących na tablicach i umożliwia przetwarzanie danych bez użycia pętli. W bibliotece pandas zastosowano wiele rozwiązań zaczerpniętych z numpy, ale największą różnicą pomiędzy tymi bibliotekami jest to, że pandas została zaprojektowana z myślą o pracy z danymi w formie tabel lub danymi o charakterze **heterogenicznym**, a biblioteka numpy jest **zoptymalizowana** pod kątem pracy z homogenicznymi tablicami danych liczbowych.

### 3. Wprowadzenie do struktur danych biblioteki pandas

Do podstawowych obiektów biblioteki Pandas należą:
- a. [Series](https://pandas.pydata.org/docs/reference/series.html) (seria)
- b. [DataFrame](https://pandas.pydata.org/docs/reference/frame.html) (ramka danych)
- c. [Index](https://pandas.pydata.org/docs/reference/indexing.html) (indeks)

Zaimportujmy bibliotekę

In [None]:
...

i zacznijmy od `Series`.

#### a. [`Series`](https://pandas.pydata.org/docs/reference/api/pandas.Series.html#pandas-series)

Obiekt klasy `Series` (aka **seria**) to jednowymiarowy obiekt przypominający tablicę. Składa się z sekwencji wartości i przypisanych do tych wartości etykiet określanych mianem **indeksu**.

O obiekcie klasy Series możemy myśleć jak o "liście na sterydach". Składa się z: 
- `ndarray` (którą znamy z pakietu numpy)
- specjalnego obiektu do przechowywania informacji o indeksach poszczególnych elementów `ndarray`
- zestawu dodatkowych metod i atrybutów

Innymi słowy jest to worek na tablicę numpy, obiekt reprezentujący indeksy poszczególnych elementów tej tablicy oraz zestaw metod na tych dwóch powiązanych ze sobą strukturach. 

##### Series i listy

Chociaż istnieją inne sposoby inicjalizowania obiektu klasy Series, najprostszym ze sposobów jest utworzenie takiego obiektu na bazie listy.

In [None]:
arr = [3, 354, -42, 0]

...

Reprezentacja napisowa serii to dwie kolumny. Pierwsza kolumna zawiera indeks, a druga wartości. Dodatkowo, pod kolumnami, wyświetlany jest typ wartości przechowywanych w obiekcie (tutaj int64).

Indeks generowany jest automatycznie jako sekwencja liczb od zera do $n-1$, gdzie $n$ to liczba przechowywanych wartości. Indeks można jawnie zdefiniować za pomocą parametru *index* konstruktora klasy Series.

In [None]:
s2 = ...

Etykiety (indeksy) nie muszą mieć wartości liczbowych.

In [None]:
s3 = ...

Długość listy z indeksami musi zgadzać się długością listy wartości w przeciwnym razie zostanie rzucony wyjątek `ValueError`.

In [None]:
...  # za mało indeksów

In [None]:
...  # za dużo indeksów

Jeżeli chcemy wyciągnąć indeksy zadanego obiektu klasy Series możemy to zrobić za pomocą atrybutu `index`. 

In [None]:
...

In [None]:
...

Indeksy przechowywane są w obiekcie klasy `Index` pakietu pandas.

Wartości wyciągniemy za pomocą atrybutu `values`.

In [None]:
...

Wartości przechowywane są w tablicy numpy

In [None]:
...

Do zapisania wartości pandas użył w tym przypadku typu `int64` (64-bitowa watość całkowitoliczbowa).

In [None]:
...

W celu wybrania pojedynczej wartości można skorzystać z etykiet umieszczonych w indeksie.

In [None]:
...

In [None]:
...

In [None]:
...

Ale Pandas jest wyposażone w specjalne operatory przeznaczone do indeksowania.

##### Operatory indeksowania

Operatory indeksowanie `loc` i `iloc` pozwalają na wybranie wiersza na podstawie etykiety (`loc`) lub pozycji (`iloc`).

In [None]:
...

In [None]:
...

In [None]:
...

In [None]:
...

Operatory indeksowania pozwalają na indeksowanie za pomocą notacji zbliżonej do notacji numpy i potrafią znacznie więcej. Omówimy je w szczegółach na późniejszym etapie.

Ponadto obiekty klasy `Series` obsługują operacje, które znamy z biblioteki numpy, w tym:

##### Zaawansowanie indeksowanie

In [None]:
...

In [None]:
...

##### Filtrowanie

In [None]:
...

##### Operacje zwektoryzowane

In [None]:
...

In [None]:
...

In [None]:
...

Jak widać wszystkie powyższe operacje nie gubią powiązania pomiędzy indeksem a wartością.

##### Serie i słowniki

Obiekty klasy `Series` można porównać do słowników, gdzie kluczami są indeksy. Obiekty te implementują dużą część api pythonowych słowników.

In [None]:
# wyciąganie kluczy (indeksów)
...

In [None]:
# wyciąganie wartości
...

In [None]:
# lista krotek (key, value)
...

In [None]:
# słownikowa metoda get
...

In [None]:
# słownikowa metoda get
...

In [None]:
# operator członkowstwa
...

In [None]:
# operator członkowstwa
...

Do konstruktora klasy Series poza listą można przekazać również słownik. Jeżeli w argumencie konstruktora zostanie umieszczony wyłącznie słownik, indeks wynikowej serii będzie odzwierciedlał wartości zwracane przez metodę `keys` słownika.

In [None]:
# liczba ludności w mln
city_data = {
    'Warszawa': 1.71,
    'Kraków': 0.76,
    'Łódź': 0.74,
    'Wrocław': 0.63
}

In [None]:
...

Przypisanie indeksów można zmodyfikować podając indeksy wprost do parametru `index` konstruktora. W przypadku tworzenia obiektów klasy Series na podstawie słownika lista indeksów może być krótsza lub dłuższa od listy wartości. Nieistniejącym wcześniej indeksom zostanie przypisana pusta wartość (`NaN`, znana z pakietu numpy). 

In [None]:
index = [ 'Warszawa', 'Wrocław', 'Gdańsk']

In [None]:
...

Do sprawdzania czy wartość dla zadanego indeksu ma pustą wartość w pakiecie pandas mamy funkcje `isnull`, `notnull`. 

In [None]:
...

In [None]:
...

Oraz analogiczne metody obiektów klasy Series.

In [None]:
...

In [None]:
...

Obiekt klasy Series można również przekształcić w słownik za pomocą metody `to_dict`.

In [None]:
...

Koercja (niejawne rzutowanie) działa identycznie jak w numpy.

In [None]:
s6 = pd.Series([1, 2, 3, 4])
s6

In [None]:
s7 = pd.Series([1., 2., 3., 4.])
s7

In [None]:
...

#### Modyfikowanie serii

Jeżeli chcemy zmodyfikować istniejący wpis w serii używamy notacji słownikowej.

In [None]:
# modyfikujemy Gdańśk (0.58)
...

To samo dotyczy dodawania kolejnego elementu do serii.

In [None]:
# Dodajemy Szczecin (0.4)
...

Ale uważaj, w przypadku dodania nowego elementu odtwarzany jest cały indek (reindeksowanie) co w pewnych sytuacja można znacząco podnieść koszt takiej operacji. Dlatego jeżeli chcesz dodać wiele elementów do serii najlepiej najperw przygotować obiekt zawierający wszystkie te elementy zamiast w pętli pojedynczo dodawać nowe elementy.

Do usuwania elementu z serii służy operator `del`.

In [None]:
# usuwamy Szczecin
...

In [None]:
# usuwamy element, którego populacja wynosi 0.63
...

oraz metoda `drop`.

In [None]:
# usuwamy element, którego populacja wynosi 0.63
...

Co jeszcze potrafią obiekty klasy series ?

In [None]:
print(dir(s2))

Dużo rzeczy. Pomówimy o nich później. Popatrzmy na `zadania/01_series.ipynb`.

### b. [`DataFrame`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html#pandas-dataframe)

Obiekt klasy `DataFrame` (aka **ramka danych**) jest prostokątną tabelą danych. Zawiera uporządkowany zbiór kolumn, a w każdej kolumnie może znaleźć się wartość innego typu (wartość liczbowa, łańcuch znaków, wartość logiczna, itd.) Ramki danych posiadają indeksy wierszy i kolumn. Można je postrzegać jako słownik z obiektami klasy `Series` współdzielącymi ten sam indeks (taki worek na obiekty klasy Series).

Ramka danych ma charakter dwuwymiarowy, ale może być używana do reprezentowania danych o większej liczbie wymiarów (służy do tego tzw. indeksowanie hierarchiczne).

Obiekty klasy DataFrame można tworzyć na wiele sposób. Jednym z najpopularniejszych jest generowanie ramki na podstawie słownika list o równej długości.

In [None]:
data = {
    "state": ['Warszawa', 'Warszawa', 'Warszawa', 'Kraków', 'Kraków', 'Kraków'],
    "year": [2013, 2014, 2015, 2013, 2014, 2015],
    "population": [1.724, 1.735, 1.744, 0.749, 0.75, 0.753]
}
...

Otrzymaliśmy obiekt klasy DataFrame. W notatniku Jupyter obiekty klasy DataFrame (aka ramki) posiadają atrakcyjną, tabelaryczną wizualizacje.

Otrzymany obiekt będzie posiadał automatycznie przypisany indeks (mechanizm działa identycznie jak w przypadku obiektu klasy Series), a kolumny są uporządkowane według klucza, czyli zgodnie z kolejnością umieszczenia elementów w słowniku na podstawie którego powstał nasz obiekt.

Wyświetlane kolumny i ich kolejność w ramce możemy kontrolować za pomocą parametru `columns` konstruktora. Wskazanie na nieistniejącą kolumnę spowoduje jej wygenerowanie i wypełnienie wartością NaN.

In [None]:
...

##### Wybieranie podzbiorów ramki

Podczas pracy z dużymi ramkami możemy wyświetlić kilka pierwszych elementów za pomocą metody `head`

In [None]:
...

Domyślnie wyświetla się 5 pierwszych elementów, ale liczbę wyświetlanych elementów możemy kontrolować za pomocą parametru `n`.

In [None]:
...

Podobnie do wyświetlania kilku ostatnich elementów ramki możemy użyć metody `tail`.

In [None]:
...

Dane z pojedynczej kolumny możemy wyciągnąć za pomocą słownikowego lookupu albo notacji obiektowej.

In [None]:
...

In [None]:
...

Przy czym słownikowy lookup jest jedynym rozwiązaniem kiedy nazwa kolumny nie jest poprawnym identyfikatorem języka python (zawiera spacje lub inne znaki niedozwolone w nazewnictwie identyfikatorów).

W wyniku dostajemy obiekt klasy Series, który już poznaliśmy.

In [None]:
...

Identycznie jak przy obiektach klasy Series dostęp do poszczególnych wierszy można uzyskać za pomocą operatorów indeksowania `loc` i `iloc`.

In [None]:
# operator loc
...

In [None]:
# operator iloc
...

W wyniku otrzymujemy znany nam obiekt klasy Series.

In [None]:
...

In [None]:
...

Operatory `loc` i `iloc` pozwalają na dostęp do pojedynczej komórki ramki za pomocą zwięzłej notacji.

In [None]:
# .loc[wiersz, kolumna]
...

In [None]:
# .iloc[wiersz, kolumna]
...

Bez użycia operatów `loc`, `iloc`, w celu odwołania się do pojedynczej komórki ramki trzeba używać indeksowania stosowanego na zagnieżdżonych tablicach.

In [None]:
# [kolumna, wiersz]
...

#### Modyfikowanie ramki

Przypomnijmy sobie jak wygląda ramka frame2.

In [None]:
frame2

Kolumny mogą być modyfikowane za pomocą operacji przypisywania. Do kolumny można przypisać wartość skalaraną lub listę z wieloma wartościami.

In [None]:
...

In [None]:
...

In [None]:
...

In [None]:
...

Jeżeli przypisujemy listę to jej długość musi być równa długości kolumny, do której przypisujemy tę listę, w przeciwnym przypadku zostanie podniesiony `ValueError`.

In [None]:
...

Do kolumny można również przypisać obiekt klasy Series.

In [None]:
s10 = pd.Series(range(120, 126))
s10

In [None]:
...

W przypadku przypisywania serii do kolumny, seria (w odróżnieniu od zwykłej listy) nie musi być równa dlugości kolumny. Kolumna w brakujących miejsach zostanie wypłeniona wartościami NaN.

In [None]:
s10 = pd.Series([122, 124, 130])
...

Indeksy wstawianego obiektu klasy Series są wyrównywane z indeksami ramki. W naszym przypadku indeks obiektu klasy Series został wygenerowany automatycznie czyli ma postać [0, 1, 2], dlatego właśnie w takie miejsca zostały wstawione wartości. Jeżeli chcemy, żeby wartości obiektu klasy Series znalazły się w innym miejscu ramki, należy to zrobić definiując samodzielnie indeks obiektu.

In [None]:
s11 = pd.Series([122, 124, 130], index=[2, 4, 5])
...

Przy tworzeniu nowej kolumny możemy użyć dowolnego wyrażenia, które wygeneruje nam obiekt, który możemy przypisać do tej kolumny. W szczególności możemy odwołać się do istniejącej ramki.

In [None]:
...

Kolumnę można usunąć z ramki za pomocą operatora `del`

In [None]:
...

In [None]:
frame2

Aby zmodyfikować pojedynczą komórkę ramki należy się do tej komórki odwołać.

In [None]:
...

#### Inne sposoby tworzenia ramki.

Konstruktor ramki przyjmuje również zagnieżdżone słowniki.

In [None]:
data = {
    "Warszawa": {2013: 1.724, 2014: 1.735, 2015: 1.744},
    "Kraków": {2013: 0.749, 2014: 0.75, 2015: 0.753},
}

Jeżeli zagnieżdżony słownik zostanie przekazany do ramki, to biblioteka pandas potraktuje klucze zewnętrznego słownika jako kolumny, a klucze wewnętrznego słownika jako indeksy wierszy.

In [None]:
...

Klucze w wewnętrznych słownikach są łączone i sortowane w celu utworzenia indeksu.

Konstruktor ramki przyjmuje również słowniki z obiektami klasy Series.

In [None]:
warsaw_serie = frame3['Warszawa']
warsaw_serie

In [None]:
cracow_serie = frame3['Kraków']
cracow_serie

In [None]:
data = {
    "Warszawa": warsaw_serie,
    "Kraków": cracow_serie
}

In [None]:
...

W poniższej tabeli znajdziesz wszystkie obsługiwane przez konstruktor ramki typy danych.

| Typ | Uwagi |
| --- | ---   |
| Dwuwymiarowa tablica `ndarray`  | Macierz danych; umożliwia przekazanie dodatkowych etykiet wierszy i kolumn |
| Słownik tablic, list lub krotek | Każda sekwencja staje się kolumną ramki danych; wszystkie sekwencje muszą być tej samej długości |
| Tablica z rekordami o strukturze zgodniej z numpy | Dane traktowane tak samo jak w przypadku słownika tablic |
| Słownik obiektów klasy Series | Każda wartość staje się kolumną; w razie niezdefiniowania indeksu w sposób jawny klucze poszczególnych serii są łączone w unię w celu utworzenia indeksu wierszy ramki danych |
| Słownik słowników | Każdy wewnętrzny słownik staje się kolumną; klucze są łączone w unię w celu utworzenia indeksu wierszy (tak samo jak w przypadku słownika obiektów klasy Series) |
| Lista słowników lub obiektów klasy Series | Każdy element staje się wierszem ramki danych; unia kluczy słownika lub indeksów serii staje się etykietami kolumn ramki danych |
| Lista list lub krotek | Traktowana tak samo jak dwuwymiarowa tablica `ndarray` |
| Inna ramka danych | W razie nieprzekazania indeksów w sposób jawny wczytywane są indeksy ramki danych |
| Obiekty numpy `MaskedArray` | Obiekt jest traktowany tak samo jak dwuwymiarowa tablica `ndarray`, ale maskowane wartości są traktowane jako brakujące dane. |

Metoda `to_numpy` ramki zwraca dane w postaci dwuwymiarowej tablicy ndarray.

In [None]:
...

In [None]:
...

Popatrzmy na `zadania/02_dataframe.ipynb`.

### c. [`Index`](https://pandas.pydata.org/docs/reference/api/pandas.Index.html#pandas-index)

Indeksy (obiekty klasy Index) są używane do przechowywania etykiet osi lub innych metadanych, takich jak np. nazwy osi. Tablica lub inna sekwencja etykiet może zostać użyta podczas tworzenia serii lub ramki danych w celu jawnego zdefiniowania indeksu.

Weźmy prostą serię i przeanalizujmy jej indeks.

In [None]:
...

In [None]:
...

Popatrzmy co potrafią indeksy.

In [None]:
...

Widzimy, że posiadają metodą `__getitem__` czyli są obiektami indeksowalnymi.

In [None]:
...

Indeksy są niemodyfikowalne.

In [None]:
...

Dzięki temu, że są nimodyfikowalne współdzielenie indeksów pomiędzy różnymi obiektami (np. serii i ramki) jest znacznie bezpieczniejsze.

Popatrzmy na ramkę.

In [None]:
frame

W obiektach klasy Index przechowywany są zarówno informacje o kolumnach ramki

In [None]:
...

jak i informacje o indeksach wierszy ramki 

In [None]:
...

Indeksy są wewnętrznym narzędziem biblioteki pandas, wykorzystywanym przez wyżej poziomowe narzędzia biblioteki. Prawodopodobieństwo, że będziemy musieli bezpośrednio działać na indeksach jest małe. Niemniej warto zapoznać się z podstawową logiką ich działania, ponieważ "pod maską" obiekty klasy Index występują wszędzie, w każdej serii i ramce.

Indeks możemy utworzyć z dowolnego typu iterowalnego.

In [None]:
...

Jeżeli do utworzenia indeksu użyjemy generatora, to podczas tworzenia generator nie zostanie skonsumowany.

In [None]:
...

Indeksy pandas mogą zawierać zduplikowane etykiety.

In [None]:
...

Indeksy posiadają kilka metod, które mogą przydać się podczas analizy danych. W poniższej tabeli przedstawione są najpopularniejsze metody obiektów klasy Index.

| Metoda | Opis |
| --- | --- |
| append | Łączy obiekty typu indeks w celu utworzenia nowego indeksu |
| difference | Zwraca różnicę zbiorów w postaci indeksu |
| intersection | Zwraca część wspólną zbiorów |
| union | Zwraca efekt operacji sumowania |
| isin | Generuje tablicę wartości logicznych informujących o tym, czy każda z wartości znajduje się w przekazywanym ciągu |
| delete | Tworzy nowy indeks po usunięciu elementu znajdującego się pod indeksem i |
| drop | Tworzy nowy indeks po usunięciu przekazanych wartości |
| insert | Tworzy nowy indeks po wstawieniu elementu pod indeksem i |
| is_monotonic | Zwraca True, jeżeli każdy element jest większy od poprzedniego elementu (lub jest mu równy) |
| is_unique | Zwraca True, jeżeli indeks nie zawiera zduplikowanych wartości |
| unique | Tworzy tablicę unikalnych wartości indeksu |