# Wprowadzenie do `pandas`. Struktury danych

W tej części kursu omówimy dwie podstawowe struktury danych z pakietu `pandas`: `DataFrame` i `Series`, obliczanie najprostszych deskryptywnych statystyk oraz podstawowe operacje na ramkach danych (wybieranie obserwacji, dodawanie nowych kolumn itp.). Sprawne manipulowanie tymi obiektami jest podstawą analizy danych w Pythonie. Aby z nich korzystać musimy najpierw załadować do Pythona odpowiednie pakiety.

In [110]:
import pandas as pd
from pandas import DataFrame, Series

## `Series` z pakietu `pandas`

Obiekty klasy `Series` można tworzyć na wiele sposobów. Zwykle danych nie będziemy wprowadzać ręcznie, lecz będziemy wczytywać je z plików. Na potrzeby przykładu stworzymy jednak prosty obiekt klasy `Series` ręcznie. Najprostszym sposobem jest przekazanie konstruktorowi listy wartości, jaki chcemy umieścić w naszym obiekcie.

In [111]:
oceny = Series([4, 4.5 ,4, 3, 4.5, 5, 3, 2, 2])

Jak możemy zobaczyć nasza zmienna `oceny` to faktycznie obiekt Series:

In [112]:
type(oceny)

pandas.core.series.Series

Obiekt taki możemy wyświetlić albo za pomocą funkcji `print` albo (jeśli korzystamy z Notebooków lub podobnego rozwiązania) po prostu wywołując tę zmienną. Warto zwrócić uwagę na dwa fakty:
* na samym dole znajdziemy informację, że obiekt ten przechowuje wartości typu `float64` (czyli liczby zmiennoprzecinkowe). Sugeruje to, że inne typy danych również mogą być przechowywane za pomocą obiektu `Series`,
* po lewej stronie wyświetlany jest indeks, który `Series` przypisuje kolejnym wartościom.

In [113]:
oceny

0    4.0
1    4.5
2    4.0
3    3.0
4    4.5
5    5.0
6    3.0
7    2.0
8    2.0
dtype: float64

Domyślnie indeks to kolejne liczby naturalne:

In [114]:
oceny.index

RangeIndex(start=0, stop=9, step=1)

Nic nie stoi jednak na przeszkodzie, aby zastąpić ten indeks np. imionami studentów:

In [115]:
oceny.index = ['Kasia', 'Marek', 'Zosia', 'Basia', 'Tomasz', 'Ela', 'Piotr', 'Paweł', 'Lucyna']
oceny

Kasia     4.0
Marek     4.5
Zosia     4.0
Basia     3.0
Tomasz    4.5
Ela       5.0
Piotr     3.0
Paweł     2.0
Lucyna    2.0
dtype: float64

Jeżeli `Series` zawiera liczby, to możemy łatwo obliczyć podstawowe statystyki deskryptywne. Odpowiednie metody mają dość intuicyjne nazwy. W poniższym przykładzie obliczamy średnią, odchylenie standardowę oraz wariancję dla naszych wartości.

In [143]:
print('Podstawowe statystyki deskryptywne')
print('Średnia: ', oceny.mean())
print('Odchylenie standardowe: ', oceny.std())
print('Wariancja: ', oceny.var())

Podstawowe statystyki deskryptywne
Średnia:  3.5555555555555554
Odchylenie standardowe:  1.102396379610246
Wariancja:  1.2152777777777777


Jeśli chcemy od razu zobaczyć więcej informacji o naszej zmiennej, możemy posłużyć się metodą `describe`. Zwraca ona nie tylko średnią i odchylenie standardowe, ale również medianę (50 percentyl), kwartyle, najmniejszą oraz największą wartość. 

In [117]:
oceny.describe()

count    9.000000
mean     3.555556
std      1.102396
min      2.000000
25%      3.000000
50%      4.000000
75%      4.500000
max      5.000000
dtype: float64

Na obiektach klasy `Series`, które zawierają wartości liczbowe możemy wykonywać rozmaite operacje wektorowe. Załóżmy, że chcemy wystandaryzować nasz zbiór danych, to znaczy obliczyć z-score każdej obserwacji. Odpowiedni wzór na z-score to:

$$ z = \frac{x - \bar{x}}{S} $$

Innymi słowy od każdej obserwacji odejmujemy średnią a następnie dzielimy tę wartość przez odchylenie standardowe. W przypadku `pandas` operacja ta wygląda bardzo podobnie jak w R:

In [118]:
(oceny - oceny.mean())/oceny.std() # operacje wykonywane są element po elemencie

Kasia     0.403162
Marek     0.856719
Zosia     0.403162
Basia    -0.503953
Tomasz    0.856719
Ela       1.310277
Piotr    -0.503953
Paweł    -1.411067
Lucyna   -1.411067
dtype: float64

Klasa `Series` przydatna jest nie tylko do przechowywania liczb. Możemy przechowywać w niej również inne rodzaje danych, np. łańcuchy znaków. Sposób ręcznego tworzenia takiego obiektu jest identyczny - wystarczy przekazać konstruktorowi listę z wartościami. Dodatkowo już tworząc obiekt ustalimy odpowiedni indeks, tzn. imiona studentów.

In [119]:
plec = Series(['K', 'M', 'K', 'K', 'M', 'K', 'M', 'M', 'K'], index = oceny.index)

Możemy zauważyć, że metoda `describe` jest sprytna i w przypadku innych niż liczbowe wartości zwraca inny zbiór informacji o zmiennej. W tym przypadku mówi nam ile jest unikatowych wartości, jaka jest najczęściej występująca wartość oraz ile razy ta wartość wystąpiła w naszym zbiorze danych. W naszym przypadku dowiadujemy się, że najczęściej występującą wartością było 'K' (kobieta) oraz, że wartość ta wystąpiła 5 razy.

In [120]:
plec.describe()

count     9
unique    2
top       K
freq      5
dtype: object

Jeżeli chcemy się dowiedzieć jak czesto występowały w naszym zbiorze danych poszczególne wartości, musimy posłużyć się metodą `value_counts`. Dowiadujemy się, że w naszym zbiorze mamy 5 wartości 'K' oraz 4 wartości 'M'.

In [121]:
plec.value_counts()

K    5
M    4
dtype: int64

## `DataFrame` z pakietu `pandas`

Z punktu widzenia manipulacji danych najbardziej przydatnym narzędziem oferowanym przez `pandas` jest klasa `DataFrame` (ramka danych). W zasadzie wygląda (i działa) ona bardzo podobnie, jak struktura `data.frame` w R. Obiekty klasy `DataFrame` możemy tworzyć na wiele sposobów. My wykorzystamy sposób, w którym konstruktorowi przekazujemy słownik, w którym kluczami są nazwy kolumn a wartościami są obiekty klasy `Series` lub po prostu zwykłe Pythonowskie listy (uwaga! muszą mieć taką samą długość).

In [122]:
df = DataFrame({'Ocena z filozofii' : oceny,
                'Ocena z psychologii' : [3,3,4.5,4,5,3.5,4,5,3],
               'Płeć' : plec})

Ramki danych możemy ładnie wydrukować w Notebookach po prostu wywołując ich nazwę: 

In [123]:
df

Unnamed: 0,Ocena z filozofii,Ocena z psychologii,Płeć
Kasia,4.0,3.0,K
Marek,4.5,3.0,M
Zosia,4.0,4.5,K
Basia,3.0,4.0,K
Tomasz,4.5,5.0,M
Ela,5.0,3.5,K
Piotr,3.0,4.0,M
Paweł,2.0,5.0,M
Lucyna,2.0,3.0,K


W przypadku ramki danych metoda `describe` będzie starała się sprytnie zgadnąć, o co nam chodzi. Tutaj pokazuje nam statystyki deskryptywne dla wszystkich liczbowych zmiennych w naszym zbiorze danych:

In [124]:
df.describe()

Unnamed: 0,Ocena z filozofii,Ocena z psychologii
count,9.0,9.0
mean,3.555556,3.888889
std,1.102396,0.820738
min,2.0,3.0
25%,3.0,3.0
50%,4.0,4.0
75%,4.5,4.5
max,5.0,5.0


Poszczególne pojedyncze kolumny możemy wybierać z ramki danych używając składni: `ramka[nazwa_kolumny]`. Taka konstrukcja zwraca po prostu obiekt klasy `Series`.

In [125]:
df['Ocena z filozofii']

Kasia     4.0
Marek     4.5
Zosia     4.0
Basia     3.0
Tomasz    4.5
Ela       5.0
Piotr     3.0
Paweł     2.0
Lucyna    2.0
Name: Ocena z filozofii, dtype: float64

Ze względu na to, że omówiona wyżej konstrukcja zwraca obiekt `Series`, jesteśmy w stanie wykonywać wektorowe operacje. Załóżmy, że chcemy się dowiedzieć jaką średnią ocenę z filozofii otrzymały kobiety z naszego zbioru danych. W tym celu najpierw musimy wybrać z naszego zbioru danych te obseracje, które dotyczą kobiet. Najpierw spróbujmy dowiedzieć się, które obserwacje dotyczą kobiet:

In [126]:
df['Płeć'] == 'K'

Kasia      True
Marek     False
Zosia      True
Basia      True
Tomasz    False
Ela        True
Piotr     False
Paweł     False
Lucyna     True
Name: Płeć, dtype: bool

Otrzymaliśmy `Series` z wartościami logicznymi. Możemy takiego obiektu łatwo użyć do odfiltrowania interesujących nas obserwacji. Odpowiednia składnia to: `ramka_danych[series_typu_bool]`

In [127]:
df[df['Płeć'] == 'K']

Unnamed: 0,Ocena z filozofii,Ocena z psychologii,Płeć
Kasia,4.0,3.0,K
Zosia,4.0,4.5,K
Basia,3.0,4.0,K
Ela,5.0,3.5,K
Lucyna,2.0,3.0,K


Polecenie takie zwraca ramkę danych (precyzyjniej - kopia widoku odpowiedniej ramki danych, do czego dojdziemy w dalszej części omawiania `pandas`). Teraz możemy wybrać interesującą nas kolumnę ("Ocena z filozofii") i obliczyć średnią.

In [128]:
(df[df['Płeć'] == 'K']['Ocena z filozofii']).mean()

3.6

Załóżmy, że chcielibyśmy dodać trzy dodatkowe kolumny. Pierwszą z nich będzie informacja o tym, jaki kierunek studiów studiuje dana osoba. W naszym przypadku wszystkie osoby studiują kognitywistykę. Druga kolumna będzie zawierała informacje o tym, czy dana osoba jest na studiach licencjackich czy magisterskich. Tak się składa, że wszystkie kobiety są na studiach magisterskich, a wszyscy mężczyźni na licencjackich. Ostatnia kolumna zawierać ma informacje o tym ze dana osoba jest dobrym studentem. Pojęcie dobrego studenta definiujemy jako taką osobę, która otrzymała z obu przedmiotów przynajmniej czwórkę.

Pierwsza operacja jest bardzo prosta. Jeżeli użyjemy składni `ramka_danych[nazwa_kolumny] = wartość` to `pandas` przypisze tę wartość wszystkim obserwacjom w ramce danych:

In [129]:
df['Kierunek studiów'] = 'Kognitywistyka'

In [130]:
df

Unnamed: 0,Ocena z filozofii,Ocena z psychologii,Płeć,Kierunek studiów
Kasia,4.0,3.0,K,Kognitywistyka
Marek,4.5,3.0,M,Kognitywistyka
Zosia,4.0,4.5,K,Kognitywistyka
Basia,3.0,4.0,K,Kognitywistyka
Tomasz,4.5,5.0,M,Kognitywistyka
Ela,5.0,3.5,K,Kognitywistyka
Piotr,3.0,4.0,M,Kognitywistyka
Paweł,2.0,5.0,M,Kognitywistyka
Lucyna,2.0,3.0,K,Kognitywistyka


Drugi problem jest nieco bardziej złożony. Intuicyjnie wydawałoby, że powinniśmy najpierw wybrać odpowiednie obserwacje z naszej ramki danych, a potem zastosować tę samą składnię, co powyżej. Niestety takie rozwiązanie jest błędne, o czym informuje nas Python:

In [131]:
df[df['Płeć'] == 'K']['Stopień'] = 'Magisterskie' 

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [132]:
df

Unnamed: 0,Ocena z filozofii,Ocena z psychologii,Płeć,Kierunek studiów
Kasia,4.0,3.0,K,Kognitywistyka
Marek,4.5,3.0,M,Kognitywistyka
Zosia,4.0,4.5,K,Kognitywistyka
Basia,3.0,4.0,K,Kognitywistyka
Tomasz,4.5,5.0,M,Kognitywistyka
Ela,5.0,3.5,K,Kognitywistyka
Piotr,3.0,4.0,M,Kognitywistyka
Paweł,2.0,5.0,M,Kognitywistyka
Lucyna,2.0,3.0,K,Kognitywistyka


Jak możemy zobaczyć wcale nie dodaliśmy odpowiedniej kolumny do naszego zbioru! Dlaczego? Dzieje się tak ponieważ używając składni `ramka_danych[series_typu_bool]` tworzymy kopię widoku ramki danych. Nasza operacja przypisania wartości działała na kopii, nie na oryginalnym obiekcie. Sam Python mówi nam jednak jak temu zaradzić - wystarczy użyć składni `df.loc[obiekt_indeksujący_wiersze, obiekt_indeksujący_kolumny]`. W naszym wypadku wyglądać to będzie tak:

In [133]:
df.loc[df['Płeć'] == 'K', 'Stopień'] = 'Magisterskie'

In [134]:
df

Unnamed: 0,Ocena z filozofii,Ocena z psychologii,Płeć,Kierunek studiów,Stopień
Kasia,4.0,3.0,K,Kognitywistyka,Magisterskie
Marek,4.5,3.0,M,Kognitywistyka,
Zosia,4.0,4.5,K,Kognitywistyka,Magisterskie
Basia,3.0,4.0,K,Kognitywistyka,Magisterskie
Tomasz,4.5,5.0,M,Kognitywistyka,
Ela,5.0,3.5,K,Kognitywistyka,Magisterskie
Piotr,3.0,4.0,M,Kognitywistyka,
Paweł,2.0,5.0,M,Kognitywistyka,
Lucyna,2.0,3.0,K,Kognitywistyka,Magisterskie


Brakuje nam jednak wartości dla mężczyzn. Dodamy je tak samo jak wartości dla kobiet:

In [135]:
df.loc[df['Płeć'] == 'M', 'Stopień'] = 'Licencjackie'

In [136]:
df

Unnamed: 0,Ocena z filozofii,Ocena z psychologii,Płeć,Kierunek studiów,Stopień
Kasia,4.0,3.0,K,Kognitywistyka,Magisterskie
Marek,4.5,3.0,M,Kognitywistyka,Licencjackie
Zosia,4.0,4.5,K,Kognitywistyka,Magisterskie
Basia,3.0,4.0,K,Kognitywistyka,Magisterskie
Tomasz,4.5,5.0,M,Kognitywistyka,Licencjackie
Ela,5.0,3.5,K,Kognitywistyka,Magisterskie
Piotr,3.0,4.0,M,Kognitywistyka,Licencjackie
Paweł,2.0,5.0,M,Kognitywistyka,Licencjackie
Lucyna,2.0,3.0,K,Kognitywistyka,Magisterskie


Ostatnie zadanie jest najtrudniejsze. Wiemy jak dowiedzieć się, którzy studenci uzyskali więcej niż 4 z każdego z egzaminów:

In [137]:
df['Ocena z filozofii'] > 4

Kasia     False
Marek      True
Zosia     False
Basia     False
Tomasz     True
Ela        True
Piotr     False
Paweł     False
Lucyna    False
Name: Ocena z filozofii, dtype: bool

In [138]:
df['Ocena z psychologii'] > 4

Kasia     False
Marek     False
Zosia      True
Basia     False
Tomasz     True
Ela       False
Piotr     False
Paweł      True
Lucyna    False
Name: Ocena z psychologii, dtype: bool

Wydawałoby się, że należy po prostu połączyć te dwa wyrażenia za pomocą Pythonowskiego operatora `and`. To jednak nie działa.

In [139]:
(df['Ocena z filozofii'] > 4) and (df['Ocena z psychologii'] > 4)

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

Pythonowski operator `and` działa na wartościach logicznych (prawda, fałsz) i jest operatorem binarnym (przyjmuje dwa argumenty). Aby go zastosować `pandas` musi przekształcić obiekt typu `Series` w taki sposób, aby zwrócił jedną wartość typu logicznego. To jest jednak operacja niejednoznaczna - może nam np. chodzić o to, aby wszystkie wartości w `Series` były prawdą (wtedy użyjemy `obiekt_series.all()` albo aby wystąpiła przynajmniej jedna wartość prawdy logicznej (wtedy użyjemy `obiekt_series.any()`). Np. chcemy się dowiedzieć, czy była przynajmniej jedna osoba, która dostała 5 z egzaminu z psychologii:

In [140]:
(df['Ocena z psychologii'] == 5).any()

True

Aby wykonać nasze zadanie potrzebujemy operatora koniunkcji logicznej, który porównywałby poszczególne elementy naszego `Series`. Całe szczęście aby osiągnąć ten efekt wystarczy posłużyć się operatorem `&` (analogicznie `or` zastąpić możemy `&`):

In [141]:
df['Dobry student'] = (df['Ocena z filozofii'] > 4) & (df['Ocena z psychologii'] > 4)

In [142]:
df

Unnamed: 0,Ocena z filozofii,Ocena z psychologii,Płeć,Kierunek studiów,Stopień,Dobry student
Kasia,4.0,3.0,K,Kognitywistyka,Magisterskie,False
Marek,4.5,3.0,M,Kognitywistyka,Licencjackie,False
Zosia,4.0,4.5,K,Kognitywistyka,Magisterskie,False
Basia,3.0,4.0,K,Kognitywistyka,Magisterskie,False
Tomasz,4.5,5.0,M,Kognitywistyka,Licencjackie,True
Ela,5.0,3.5,K,Kognitywistyka,Magisterskie,False
Piotr,3.0,4.0,M,Kognitywistyka,Licencjackie,False
Paweł,2.0,5.0,M,Kognitywistyka,Licencjackie,False
Lucyna,2.0,3.0,K,Kognitywistyka,Magisterskie,False
