## Analiza danych z biblioteką `Pandas`

![image.png](attachment:78b3e54b-f3e5-45e0-a324-869a3ecc67fd.png)

### 1. Konfiguracja środowiska

Ćwiczenia będziemy wykonywać na Pythonie w wersji 3.12

In [2]:
import sys

sys.version

'3.12.6 (tags/v3.12.6:a4a2d2b, Sep  6 2024, 20:11:23) [MSC v.1940 64 bit (AMD64)]'

oraz bibliotece Pandas w wersji 2.2

In [3]:
import pandas as pd

pd.__version__

'2.2.3'

ale wszystkie materiały powinny działać na wersjach Python 3.6+ oraz Pandas 2.0+.

Sprawdź, czy masz poprawnie skonfigurowane środowisko uruchamiając poniższą komórkę.

In [5]:
from check_env import run_env_check

run_env_check()

[42m[ OK ][0m Python
[42m[ OK ][0m pandas


Jeżeli pojawił się przynajmniej jeden czerwony komunikat zapoznaj się z jego treścią i odpowiednio popraw konfigurację swojego środowiska, a następnie ponownie uruchom komórkę. Jeżeli wszystkie komunikaty są zielone gratulacje! Twoje środowisko jest poprawnie skonfigurowane. Możesz przystąpić do ćwiczeń.

### 2. Wstęp

#### Dlaczego Python do analizy danych ?

Zastosowanie Pythona w analizie danych, obliczeniach interaktywnych i wizualizacji danych można porównać z innymi otwartymi i komercyjnymi językami i narzędziami, takimi jak `R`, `Matlab`, `SAS` i `Stat`. W ciągu kilkunastu ostatnich lat wsparcie biblioteki Python uległo znacznej poprawie, a biblioteki takie jak `pandas` i `scikit-learn` sprawiły, że Python zaczął być powszechnie używany podczas analizy danych. To oraz doskonałe możliwości tworzenia oprogramowania ogólnego przeznaczenia przyczyniły się do tego, że Python doskonale sprawdza się w roli głównego języka używanego do budowania aplikacji przetwarzających danych.

#### Dlaczego Pandas ?

Biblioteka Pandas łączy wysoką wydajność obliczeń tablicowych pakietu `Numpy` z możliwością elastycznego manipulowania danymi oferowaną przez arkusze kalkulacyjne i relacyjne bazy danych. Zapewnia funkcje indeksowania dzięki którym łatwiej jest przetwarzać i dzielić dane, a także przeprowadzać agregację i wybierać podzbiory. Nazwa `pandas` pochodzi od ekonometrycznego terminu **panel data** (dane panelowe) określającego wielowymiarowe ustrukturyzowane zbiory danych.

Oficjalna strona biblioteki znajduje się na https://pandas.pydata.org/

![image.png](attachment:acfdc849-05a3-4ce6-b0ae-da8e29c60dc7.png)

Dokumentacje można znaleźć na na https://pandas.pydata.org/docs/

![image.png](attachment:a48a269e-34cd-4921-ac7b-bab7c725d88b.png)

Pakiet Pandas zapewnia struktury danych i funkcje wysokiego poziomu, które przyśpieszają pracę z ustrukturyzowanymi danymi, a także danymi w formie tabel. Biblioteka powstała w 2010, a jej twórcą był Wes McKinney, który jest również autorem najpopularniejszej obecnie książki o bibliotece Pandas - [Python for Data Analysis](https://www.amazon.com/Python-Data-Analysis-Wrangling-Jupyter/dp/109810403X/) (polski tytuł to "Python w analizie danych").

![image.png](attachment:1d8a2049-ad72-455d-b164-773e429912ae.png)

Wes McKinney pracę nad biblioteką rozpoczął w 2008 roku, w latach 2011-2013 współtworzyli ją Adam Klein oraz Chang She. W 2013 roku biblioteka stała się w pełni własnością społeczności użytkowników i ponad dwóch tysięcy współautorów z całego świata, którzy ją utrzymują. Od tego czasu Wes McKinney nie angażuje się aktywnie w jej rozwój.

W skład biblioteki `Pandas` wchodzą struktury danych i narzędzia przeznaczone do przetwarzania danych, które ułatwiają i przyśpieszają oczyszczanie danych i analizę w Pythonie. Biblioteka pandas jest często używana w połączeniu z innymi narzędziami przeznaczonymi do przetwarzania danych numerycznych, takimi jak `Numpy` i `SciyPy`, bibliotekami analitycznymi, takimi jak `statsmodels` i `scikit-learn`, a także bibliotekami przeznaczonymi do wizualizacji danych takimi jak `matplotlib`. Pakiet pandas przypomina pakiet numpy - jest nastawiony na przetwarzanie tablic, oferuje wiele funkcji operujących na tablicach i umożliwia przetwarzanie danych bez użycia pętli. W bibliotece pandas zastosowano wiele rozwiązań zaczerpniętych z numpy, ale największą różnicą pomiędzy tymi bibliotekami jest to, że pandas została zaprojektowana z myślą o pracy z danymi w formie tabel lub danymi o charakterze **heterogenicznym**, a biblioteka numpy jest **zoptymalizowana** pod kątem pracy z homogenicznymi tablicami danych liczbowych.

### 3. Wprowadzenie do struktur danych biblioteki pandas

Do podstawowych obiektów biblioteki Pandas należą:
- a. [Series](https://pandas.pydata.org/docs/reference/series.html) (seria)
- b. [DataFrame](https://pandas.pydata.org/docs/reference/frame.html) (ramka danych)
- c. [Index](https://pandas.pydata.org/docs/reference/indexing.html) (indeks)

Zaimportujmy bibliotekę

In [6]:
import pandas as pd

i zacznijmy od `Series`.

#### a. [`Series`](https://pandas.pydata.org/docs/reference/api/pandas.Series.html#pandas-series)

Obiekt klasy `Series` (aka **seria**) to jednowymiarowy obiekt przypominający tablicę. Składa się z sekwencji wartości i przypisanych do tych wartości etykiet określanych mianem **indeksu**.

O obiekcie klasy Series możemy myśleć jak o "liście na sterydach". Składa się z: 
- `ndarray` (którą znamy z pakietu numpy)
- specjalnego obiektu do przechowywania informacji o indeksach poszczególnych elementów `ndarray`
- zestawu dodatkowych metod i atrybutów

Innymi słowy jest to worek na tablicę numpy, obiekt reprezentujący indeksy poszczególnych elementów tej tablicy oraz zestaw metod na tych dwóch powiązanych ze sobą strukturach. 

##### Series i listy

Chociaż istnieją inne sposoby inicjalizowania obiektu klasy Series, najprostszym ze sposobów jest utworzenie takiego obiektu na bazie listy.

In [8]:
arr = [3, 354, -42, 0]

s = pd.Series(arr)
s

0      3
1    354
2    -42
3      0
dtype: int64

Reprezentacja napisowa serii to dwie kolumny. Pierwsza kolumna zawiera indeks, a druga wartości. Dodatkowo, pod kolumnami, wyświetlany jest typ wartości przechowywanych w obiekcie (tutaj int64).

Indeks generowany jest automatycznie jako sekwencja liczb od zera do $n-1$, gdzie $n$ to liczba przechowywanych wartości. Indeks można jawnie zdefiniować za pomocą parametru *index* konstruktora klasy Series.

In [11]:
s2 = pd.Series(arr, index = [2, 4, 8, 16])
s2

2       3
4     354
8     -42
16      0
dtype: int64

Etykiety (indeksy) nie muszą mieć wartości liczbowych.

In [12]:
s3 = pd.Series(arr, index = ['d', 'a', 'c', 'b'])
s3

d      3
a    354
c    -42
b      0
dtype: int64

In [13]:
type(s3)

pandas.core.series.Series

Długość listy z indeksami musi zgadzać się długością listy wartości w przeciwnym razie zostanie rzucony wyjątek `ValueError`.

In [14]:
pd.Series(arr, index = [2, 4, 8])  # za mało indeksów

ValueError: Length of values (4) does not match length of index (3)

In [15]:
pd.Series(arr, index = [2, 4, 8, 12, 16])  # za dużo indeksów

ValueError: Length of values (4) does not match length of index (5)

Jeżeli chcemy wyciągnąć indeksy zadanego obiektu klasy Series możemy to zrobić za pomocą atrybutu `index`. 

In [16]:
s2.index

Index([2, 4, 8, 16], dtype='int64')

In [17]:
type(s2.index)

pandas.core.indexes.base.Index

Indeksy przechowywane są w obiekcie klasy `Index` pakietu pandas.

Wartości wyciągniemy za pomocą atrybutu `values`.

In [18]:
s2.values

array([  3, 354, -42,   0])

Wartości przechowywane są w tablicy numpy

In [19]:
type(s2.values)

numpy.ndarray

Do zapisania wartości pandas użył w tym przypadku typu `int64` (64-bitowa watość całkowitoliczbowa).

In [20]:
s2.dtype

dtype('int64')

W celu wybrania pojedynczej wartości można skorzystać z etykiet umieszczonych w indeksie.

In [22]:
item = s2[2]
item

np.int64(3)

In [23]:
type(item)

numpy.int64

In [24]:
s3['c']

np.int64(-42)

Ale Pandas jest wyposażone w specjalne operatory przeznaczone do indeksowania.

##### Operatory indeksowania

Operatory indeksowanie `loc` i `iloc` pozwalają na wybranie wiersza na podstawie etykiety (`loc`) lub pozycji (`iloc`).

In [25]:
s3

d      3
a    354
c    -42
b      0
dtype: int64

In [26]:
s3.loc

<pandas.core.indexing._LocIndexer at 0x20757462710>

In [27]:
s3.loc['c']

np.int64(-42)

In [28]:
s3.iloc

<pandas.core.indexing._iLocIndexer at 0x20756be8f00>

In [29]:
s3.iloc[2]

np.int64(-42)

Operatory indeksowania pozwalają na indeksowanie za pomocą notacji zbliżonej do notacji numpy i potrafią znacznie więcej. Omówimy je w szczegółach na późniejszym etapie.

Ponadto obiekty klasy `Series` obsługują operacje, które znamy z biblioteki numpy, w tym:

##### Zaawansowanie indeksowanie

In [33]:
s2

2       3
4     354
8     -42
16      0
dtype: int64

In [32]:
s2[ [8, 2, 16] ]

8    -42
2      3
16     0
dtype: int64

In [35]:
s3

d      3
a    354
c    -42
b      0
dtype: int64

In [34]:
s3[ ['c', 'a', 'd'] ]

c    -42
a    354
d      3
dtype: int64

##### Filtrowanie

In [36]:
s2[ s2 > 0 ]

2      3
4    354
dtype: int64

##### Operacje zwektoryzowane

In [37]:
s2 * 2

2       6
4     708
8     -84
16      0
dtype: int64

In [38]:
import numpy as np

In [39]:
np.exp(s2)

2      2.008554e+01
4     5.498530e+153
8      5.749522e-19
16     1.000000e+00
dtype: float64

Jak widać wszystkie powyższe operacje nie gubią powiązania pomiędzy indeksem a wartością.

##### Serie i słowniki

Obiekty klasy `Series` można porównać do słowników, gdzie kluczami są indeksy. Obiekty te implementują dużą część api pythonowych słowników.

In [43]:
s = {'a': 1, 'b': 2}
dir(s)

['__class__',
 '__class_getitem__',
 '__contains__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__ior__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__or__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__reversed__',
 '__ror__',
 '__setattr__',
 '__setitem__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'clear',
 'copy',
 'fromkeys',
 'get',
 'items',
 'keys',
 'pop',
 'popitem',
 'setdefault',
 'update',
 'values']

In [44]:
# wyciąganie kluczy (indeksów)
s2.keys()

Index([2, 4, 8, 16], dtype='int64')

In [45]:
# wyciąganie wartości
s2.values

array([  3, 354, -42,   0])

In [47]:
# lista krotek (key, value)
s2.items()

<zip at 0x20757398880>

In [48]:
list(s2.items())

[(2, 3), (4, 354), (8, -42), (16, 0)]

In [49]:
# słownikowa metoda get
s2.get(2)

np.int64(3)

In [51]:
s2[14]

KeyError: 14

In [50]:
s2.get(14)

In [52]:
s2.get(1, [])

[]

In [53]:
# operator członkowstwa
14 in s2

False

In [54]:
# operator członkowstwa
2 in s2

True

Do konstruktora klasy Series poza listą można przekazać również słownik. Jeżeli w argumencie konstruktora zostanie umieszczony wyłącznie słownik, indeks wynikowej serii będzie odzwierciedlał wartości zwracane przez metodę `keys` słownika.

In [55]:
# liczba ludności w mln
city_data = {
    'Warszawa': 1.71,
    'Kraków': 0.76,
    'Łódź': 0.74,
    'Wrocław': 0.63
}

In [56]:
city_series = pd.Series(city_data)
city_series

Warszawa    1.71
Kraków      0.76
Łódź        0.74
Wrocław     0.63
dtype: float64

Przypisanie indeksów można zmodyfikować podając indeksy wprost do parametru `index` konstruktora. W przypadku tworzenia obiektów klasy Series na podstawie słownika lista indeksów może być krótsza lub dłuższa od listy wartości. Nieistniejącym wcześniej indeksom zostanie przypisana pusta wartość (`NaN`, znana z pakietu numpy). 

In [57]:
index = [ 'Warszawa', 'Wrocław', 'Gdańsk']

In [58]:
city_series2 = pd.Series(city_data, index)
city_series2

Warszawa    1.71
Wrocław     0.63
Gdańsk       NaN
dtype: float64

Do sprawdzania czy wartość dla zadanego indeksu ma pustą wartość w pakiecie pandas mamy funkcje `isnull`, `notnull`. 

In [59]:
pd.isnull(city_series2)

Warszawa    False
Wrocław     False
Gdańsk       True
dtype: bool

In [80]:
pd.notnull(city_series2)

Warszawa    True
Gdańsk      True
dtype: bool

Oraz analogiczne metody obiektów klasy Series.

In [81]:
city_series2.isnull()

Warszawa    False
Gdańsk      False
dtype: bool

In [61]:
city_series2.notnull()

Warszawa     True
Wrocław      True
Gdańsk      False
dtype: bool

Obiekt klasy Series można również przekształcić w słownik za pomocą metody `to_dict`.

In [63]:
city_series2.to_dict()

{'Warszawa': 1.71, 'Wrocław': 0.63, 'Gdańsk': nan}

Koercja (niejawne rzutowanie) działa identycznie jak w numpy.

In [64]:
s6 = pd.Series([1, 2, 3, 4])
s6

0    1
1    2
2    3
3    4
dtype: int64

In [65]:
s7 = pd.Series([1., 2., 3., 4.])
s7

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64

In [66]:
s6 + s7

0    2.0
1    4.0
2    6.0
3    8.0
dtype: float64

#### Modyfikowanie serii

Jeżeli chcemy zmodyfikować istniejący wpis w serii używamy notacji słownikowej.

In [68]:
# modyfikujemy Gdańśk (0.58)
city_series2['Gdańsk'] = 0.58
city_series2

Warszawa    1.71
Wrocław     0.63
Gdańsk      0.58
Szczecin    0.40
dtype: float64

To samo dotyczy dodawania kolejnego elementu do serii.

In [71]:
# Dodajemy Szczecin (0.4)
city_series2['Szczecin'] = 0.4
city_series2

Warszawa    1.71
Wrocław     0.63
Gdańsk      0.58
Szczecin    0.40
dtype: float64

Ale uważaj, w przypadku dodania nowego elementu odtwarzany jest cały indek (reindeksowanie) co w pewnych sytuacja można znacząco podnieść koszt takiej operacji. Dlatego jeżeli chcesz dodać wiele elementów do serii najlepiej najperw przygotować obiekt zawierający wszystkie te elementy zamiast w pętli pojedynczo dodawać nowe elementy.

Do usuwania elementu z serii służy operator `del`.

In [72]:
# usuwamy Szczecin
del city_series2['Szczecin']
city_series2

Warszawa    1.71
Wrocław     0.63
Gdańsk      0.58
dtype: float64

In [73]:
# usuwamy element, którego populacja wynosi 0.63
city_series2[city_series2 == 0.63]

Wrocław    0.63
dtype: float64

In [75]:
city_series2[city_series2 == 0.63].index[0]

'Wrocław'

In [76]:
idx = city_series2[city_series2 == 0.63].index[0]
del city_series2[idx]

oraz metoda `drop`.

In [77]:
# usuwamy element, którego populacja wynosi 0.63
city_series2.drop('Gdańsk')
city_series2

Warszawa    1.71
Gdańsk      0.58
dtype: float64

In [78]:
updated_series = city_series2.drop('Gdańsk')
updated_series

Warszawa    1.71
dtype: float64

Co jeszcze potrafią obiekty klasy series ?

In [79]:
print(dir(s2))

['T', '_AXIS_LEN', '_AXIS_ORDERS', '_AXIS_TO_AXIS_NUMBER', '_HANDLED_TYPES', '__abs__', '__add__', '__and__', '__annotations__', '__array__', '__array_priority__', '__array_ufunc__', '__bool__', '__class__', '__column_consortium_standard__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dict__', '__dir__', '__divmod__', '__doc__', '__eq__', '__finalize__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattr__', '__getattribute__', '__getitem__', '__getstate__', '__gt__', '__hash__', '__iadd__', '__iand__', '__ifloordiv__', '__imod__', '__imul__', '__init__', '__init_subclass__', '__int__', '__invert__', '__ior__', '__ipow__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__lt__', '__matmul__', '__mod__', '__module__', '__mul__', '__ne__', '__neg__', '__new__', '__nonzero__', '__or__', '__pandas_priority__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdivmod__', '__reduce__', '__reduce_ex__', '__repr__', '__rfl

Dużo rzeczy. Pomówimy o nich później. Popatrzmy na `zadania/01_series.ipynb`.

### b. [`DataFrame`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html#pandas-dataframe)

Obiekt klasy `DataFrame` (aka **ramka danych**) jest prostokątną tabelą danych. Zawiera uporządkowany zbiór kolumn, a w każdej kolumnie może znaleźć się wartość innego typu (wartość liczbowa, łańcuch znaków, wartość logiczna, itd.) Ramki danych posiadają indeksy wierszy i kolumn. Można je postrzegać jako słownik z obiektami klasy `Series` współdzielącymi ten sam indeks (taki worek na obiekty klasy Series).

Ramka danych ma charakter dwuwymiarowy, ale może być używana do reprezentowania danych o większej liczbie wymiarów (służy do tego tzw. indeksowanie hierarchiczne).

Obiekty klasy DataFrame można tworzyć na wiele sposób. Jednym z najpopularniejszych jest generowanie ramki na podstawie słownika list o równej długości.

In [82]:
data = {
    "state": ['Warszawa', 'Warszawa', 'Warszawa', 'Kraków', 'Kraków', 'Kraków'],
    "year": [2013, 2014, 2015, 2013, 2014, 2015],
    "population": [1.724, 1.735, 1.744, 0.749, 0.75, 0.753]
}

frame = pd.DataFrame(data)
frame


Unnamed: 0,state,year,population
0,Warszawa,2013,1.724
1,Warszawa,2014,1.735
2,Warszawa,2015,1.744
3,Kraków,2013,0.749
4,Kraków,2014,0.75
5,Kraków,2015,0.753


Otrzymaliśmy obiekt klasy DataFrame. W notatniku Jupyter obiekty klasy DataFrame (aka ramki) posiadają atrakcyjną, tabelaryczną wizualizacje.

Otrzymany obiekt będzie posiadał automatycznie przypisany indeks (mechanizm działa identycznie jak w przypadku obiektu klasy Series), a kolumny są uporządkowane według klucza, czyli zgodnie z kolejnością umieszczenia elementów w słowniku na podstawie którego powstał nasz obiekt.

Wyświetlane kolumny i ich kolejność w ramce możemy kontrolować za pomocą parametru `columns` konstruktora. Wskazanie na nieistniejącą kolumnę spowoduje jej wygenerowanie i wypełnienie wartością NaN.

In [84]:
frame = pd.DataFrame(data, columns = ['population', 'state', 'area'])
frame

Unnamed: 0,population,state,area
0,1.724,Warszawa,
1,1.735,Warszawa,
2,1.744,Warszawa,
3,0.749,Kraków,
4,0.75,Kraków,
5,0.753,Kraków,


##### Wybieranie podzbiorów ramki

Podczas pracy z dużymi ramkami możemy wyświetlić kilka pierwszych elementów za pomocą metody `head`

In [85]:
frame.head()

Unnamed: 0,population,state,area
0,1.724,Warszawa,
1,1.735,Warszawa,
2,1.744,Warszawa,
3,0.749,Kraków,
4,0.75,Kraków,


Domyślnie wyświetla się 5 pierwszych elementów, ale liczbę wyświetlanych elementów możemy kontrolować za pomocą parametru `n`.

In [86]:
frame.head(n = 3)

Unnamed: 0,population,state,area
0,1.724,Warszawa,
1,1.735,Warszawa,
2,1.744,Warszawa,


Podobnie do wyświetlania kilku ostatnich elementów ramki możemy użyć metody `tail`.

In [87]:
frame.tail()

Unnamed: 0,population,state,area
1,1.735,Warszawa,
2,1.744,Warszawa,
3,0.749,Kraków,
4,0.75,Kraków,
5,0.753,Kraków,


Dane z pojedynczej kolumny możemy wyciągnąć za pomocą słownikowego lookupu albo notacji obiektowej.

In [89]:
frame['population']

0    1.724
1    1.735
2    1.744
3    0.749
4    0.750
5    0.753
Name: population, dtype: float64

In [90]:
frame.population

0    1.724
1    1.735
2    1.744
3    0.749
4    0.750
5    0.753
Name: population, dtype: float64

Przy czym słownikowy lookup jest jedynym rozwiązaniem kiedy nazwa kolumny nie jest poprawnym identyfikatorem języka python (zawiera spacje lub inne znaki niedozwolone w nazewnictwie identyfikatorów).

W wyniku dostajemy obiekt klasy Series, który już poznaliśmy.

In [92]:
type(frame.population)

pandas.core.series.Series

Identycznie jak przy obiektach klasy Series dostęp do poszczególnych wierszy można uzyskać za pomocą operatorów indeksowania `loc` i `iloc`.

In [93]:
# operator loc
frame.loc[1]

population       1.735
state         Warszawa
area               NaN
Name: 1, dtype: object

In [94]:
# operator iloc
frame.iloc[1]

population       1.735
state         Warszawa
area               NaN
Name: 1, dtype: object

W wyniku otrzymujemy znany nam obiekt klasy Series.

In [95]:
type(frame.iloc[1])

pandas.core.series.Series

In [96]:
type(frame.loc[1])

pandas.core.series.Series

Operatory `loc` i `iloc` pozwalają na dostęp do pojedynczej komórki ramki za pomocą zwięzłej notacji.

In [98]:
# .loc[wiersz, kolumna]
frame.loc[1, 'population']

np.float64(1.735)

In [99]:
frame.loc[1]['population']

np.float64(1.735)

In [101]:
# .iloc[wiersz, kolumna]
frame.iloc[1, 0]

np.float64(1.735)

Bez użycia operatów `loc`, `iloc`, w celu odwołania się do pojedynczej komórki ramki trzeba używać indeksowania stosowanego na zagnieżdżonych tablicach.

In [102]:
# [kolumna, wiersz]
frame.iloc[1]['population']

np.float64(1.735)

#### Modyfikowanie ramki

Przypomnijmy sobie jak wygląda ramka frame2.

In [104]:
frame

Unnamed: 0,population,state,area
0,1.724,Warszawa,
1,1.735,Warszawa,
2,1.744,Warszawa,
3,0.749,Kraków,
4,0.75,Kraków,
5,0.753,Kraków,


Kolumny mogą być modyfikowane za pomocą operacji przypisywania. Do kolumny można przypisać wartość skalaraną lub listę z wieloma wartościami.

In [105]:
frame['area'] = 20_000
frame

Unnamed: 0,population,state,area
0,1.724,Warszawa,20000
1,1.735,Warszawa,20000
2,1.744,Warszawa,20000
3,0.749,Kraków,20000
4,0.75,Kraków,20000
5,0.753,Kraków,20000


In [106]:
frame['area'] = range(120, 126)
frame

Unnamed: 0,population,state,area
0,1.724,Warszawa,120
1,1.735,Warszawa,121
2,1.744,Warszawa,122
3,0.749,Kraków,123
4,0.75,Kraków,124
5,0.753,Kraków,125


In [None]:
...

In [None]:
...

Jeżeli przypisujemy listę to jej długość musi być równa długości kolumny, do której przypisujemy tę listę, w przeciwnym przypadku zostanie podniesiony `ValueError`.

In [None]:
...

Do kolumny można również przypisać obiekt klasy Series.

In [107]:
s10 = pd.Series(range(120, 126))
s10

0    120
1    121
2    122
3    123
4    124
5    125
dtype: int64

In [108]:
frame['area'] = s10
frame

Unnamed: 0,population,state,area
0,1.724,Warszawa,120
1,1.735,Warszawa,121
2,1.744,Warszawa,122
3,0.749,Kraków,123
4,0.75,Kraków,124
5,0.753,Kraków,125


W przypadku przypisywania serii do kolumny, seria (w odróżnieniu od zwykłej listy) nie musi być równa dlugości kolumny. Kolumna w brakujących miejsach zostanie wypłeniona wartościami NaN.

In [None]:
s10 = pd.Series([122, 124, 130])
...

Indeksy wstawianego obiektu klasy Series są wyrównywane z indeksami ramki. W naszym przypadku indeks obiektu klasy Series został wygenerowany automatycznie czyli ma postać [0, 1, 2], dlatego właśnie w takie miejsca zostały wstawione wartości. Jeżeli chcemy, żeby wartości obiektu klasy Series znalazły się w innym miejscu ramki, należy to zrobić definiując samodzielnie indeks obiektu.

In [109]:
s11 = pd.Series([122, 124, 130], index=[2, 4, 5])
frame['area'] = s11
frame

Unnamed: 0,population,state,area
0,1.724,Warszawa,
1,1.735,Warszawa,
2,1.744,Warszawa,122.0
3,0.749,Kraków,
4,0.75,Kraków,124.0
5,0.753,Kraków,130.0


Przy tworzeniu nowej kolumny możemy użyć dowolnego wyrażenia, które wygeneruje nam obiekt, który możemy przypisać do tej kolumny. W szczególności możemy odwołać się do istniejącej ramki.

In [110]:
frame

Unnamed: 0,population,state,area
0,1.724,Warszawa,
1,1.735,Warszawa,
2,1.744,Warszawa,122.0
3,0.749,Kraków,
4,0.75,Kraków,124.0
5,0.753,Kraków,130.0


In [112]:
frame['population^2'] = frame['population'] ** 2
frame

Unnamed: 0,population,state,area,population^2
0,1.724,Warszawa,,2.972176
1,1.735,Warszawa,,3.010225
2,1.744,Warszawa,122.0,3.041536
3,0.749,Kraków,,0.561001
4,0.75,Kraków,124.0,0.5625
5,0.753,Kraków,130.0,0.567009


Kolumnę można usunąć z ramki za pomocą operatora `del`

In [113]:
del frame['area']

In [114]:
frame

Unnamed: 0,population,state,population^2
0,1.724,Warszawa,2.972176
1,1.735,Warszawa,3.010225
2,1.744,Warszawa,3.041536
3,0.749,Kraków,0.561001
4,0.75,Kraków,0.5625
5,0.753,Kraków,0.567009


Aby zmodyfikować pojedynczą komórkę ramki należy się do tej komórki odwołać.

In [116]:
frame['state'][5] = 'Gdańsk'
frame

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  frame['state'][5] = 'Gdańsk'


Unnamed: 0,population,state,population^2
0,1.724,Warszawa,2.972176
1,1.735,Warszawa,3.010225
2,1.744,Warszawa,3.041536
3,0.749,Kraków,0.561001
4,0.75,Kraków,0.5625
5,0.753,Gdańsk,0.567009


In [None]:
# alt
# frame.loc[5, 'state'] = 'Gdańsk'

#### Inne sposoby tworzenia ramki.

Konstruktor ramki przyjmuje również zagnieżdżone słowniki.

In [117]:
data = {
    "Warszawa": {2013: 1.724, 2014: 1.735, 2015: 1.744},
    "Kraków": {2013: 0.749, 2014: 0.75, 2015: 0.753},
}

Jeżeli zagnieżdżony słownik zostanie przekazany do ramki, to biblioteka pandas potraktuje klucze zewnętrznego słownika jako kolumny, a klucze wewnętrznego słownika jako indeksy wierszy.

In [118]:
frame2 = pd.DataFrame(data)
frame2

Unnamed: 0,Warszawa,Kraków
2013,1.724,0.749
2014,1.735,0.75
2015,1.744,0.753


Klucze w wewnętrznych słownikach są łączone i sortowane w celu utworzenia indeksu.

Konstruktor ramki przyjmuje również słowniki z obiektami klasy Series.

In [120]:
warsaw_serie = frame2['Warszawa']
warsaw_serie

2013    1.724
2014    1.735
2015    1.744
Name: Warszawa, dtype: float64

In [121]:
cracow_serie = frame2['Kraków']
cracow_serie

2013    0.749
2014    0.750
2015    0.753
Name: Kraków, dtype: float64

In [122]:
data = {
    "Warszawa": warsaw_serie,
    "Kraków": cracow_serie
}

In [124]:
frame3 = pd.DataFrame(data)
frame3

Unnamed: 0,Warszawa,Kraków
2013,1.724,0.749
2014,1.735,0.75
2015,1.744,0.753


W poniższej tabeli znajdziesz wszystkie obsługiwane przez konstruktor ramki typy danych.

| Typ | Uwagi |
| --- | ---   |
| Dwuwymiarowa tablica `ndarray`  | Macierz danych; umożliwia przekazanie dodatkowych etykiet wierszy i kolumn |
| Słownik tablic, list lub krotek | Każda sekwencja staje się kolumną ramki danych; wszystkie sekwencje muszą być tej samej długości |
| Tablica z rekordami o strukturze zgodniej z numpy | Dane traktowane tak samo jak w przypadku słownika tablic |
| Słownik obiektów klasy Series | Każda wartość staje się kolumną; w razie niezdefiniowania indeksu w sposób jawny klucze poszczególnych serii są łączone w unię w celu utworzenia indeksu wierszy ramki danych |
| Słownik słowników | Każdy wewnętrzny słownik staje się kolumną; klucze są łączone w unię w celu utworzenia indeksu wierszy (tak samo jak w przypadku słownika obiektów klasy Series) |
| Lista słowników lub obiektów klasy Series | Każdy element staje się wierszem ramki danych; unia kluczy słownika lub indeksów serii staje się etykietami kolumn ramki danych |
| Lista list lub krotek | Traktowana tak samo jak dwuwymiarowa tablica `ndarray` |
| Inna ramka danych | W razie nieprzekazania indeksów w sposób jawny wczytywane są indeksy ramki danych |
| Obiekty numpy `MaskedArray` | Obiekt jest traktowany tak samo jak dwuwymiarowa tablica `ndarray`, ale maskowane wartości są traktowane jako brakujące dane. |

Metoda `to_numpy` ramki zwraca dane w postaci dwuwymiarowej tablicy ndarray.

In [125]:
frame3.to_numpy()

array([[1.724, 0.749],
       [1.735, 0.75 ],
       [1.744, 0.753]])

In [None]:
...

Popatrzmy na `zadania/02_dataframe.ipynb`.

### c. [`Index`](https://pandas.pydata.org/docs/reference/api/pandas.Index.html#pandas-index)

Indeksy (obiekty klasy Index) są używane do przechowywania etykiet osi lub innych metadanych, takich jak np. nazwy osi. Tablica lub inna sekwencja etykiet może zostać użyta podczas tworzenia serii lub ramki danych w celu jawnego zdefiniowania indeksu.

Weźmy prostą serię i przeanalizujmy jej indeks.

In [None]:
...

In [None]:
...

Popatrzmy co potrafią indeksy.

In [None]:
...

Widzimy, że posiadają metodą `__getitem__` czyli są obiektami indeksowalnymi.

In [None]:
...

Indeksy są niemodyfikowalne.

In [None]:
...

Dzięki temu, że są nimodyfikowalne współdzielenie indeksów pomiędzy różnymi obiektami (np. serii i ramki) jest znacznie bezpieczniejsze.

Popatrzmy na ramkę.

In [None]:
frame

W obiektach klasy Index przechowywany są zarówno informacje o kolumnach ramki

In [None]:
...

jak i informacje o indeksach wierszy ramki 

In [None]:
...

Indeksy są wewnętrznym narzędziem biblioteki pandas, wykorzystywanym przez wyżej poziomowe narzędzia biblioteki. Prawodopodobieństwo, że będziemy musieli bezpośrednio działać na indeksach jest małe. Niemniej warto zapoznać się z podstawową logiką ich działania, ponieważ "pod maską" obiekty klasy Index występują wszędzie, w każdej serii i ramce.

Indeks możemy utworzyć z dowolnego typu iterowalnego.

In [None]:
...

Jeżeli do utworzenia indeksu użyjemy generatora, to podczas tworzenia generator nie zostanie skonsumowany.

In [None]:
...

Indeksy pandas mogą zawierać zduplikowane etykiety.

In [None]:
...

Indeksy posiadają kilka metod, które mogą przydać się podczas analizy danych. W poniższej tabeli przedstawione są najpopularniejsze metody obiektów klasy Index.

| Metoda | Opis |
| --- | --- |
| append | Łączy obiekty typu indeks w celu utworzenia nowego indeksu |
| difference | Zwraca różnicę zbiorów w postaci indeksu |
| intersection | Zwraca część wspólną zbiorów |
| union | Zwraca efekt operacji sumowania |
| isin | Generuje tablicę wartości logicznych informujących o tym, czy każda z wartości znajduje się w przekazywanym ciągu |
| delete | Tworzy nowy indeks po usunięciu elementu znajdującego się pod indeksem i |
| drop | Tworzy nowy indeks po usunięciu przekazanych wartości |
| insert | Tworzy nowy indeks po wstawieniu elementu pod indeksem i |
| is_monotonic | Zwraca True, jeżeli każdy element jest większy od poprzedniego elementu (lub jest mu równy) |
| is_unique | Zwraca True, jeżeli indeks nie zawiera zduplikowanych wartości |
| unique | Tworzy tablicę unikalnych wartości indeksu |