In [2]:
import pandas as pd

## Obiekty pandas

Pandas oferuje dodatkowe struktury danych bardziej wyspecjalizowane niż podstawowe kolekcje Pythona. Korzysta przy tym z funkcjonalności jeszcze innej biblioteki - numpy - oferującej wydajną implementację wielowymiarowych tablic. W tym kursie skoncentrujemy się przede wszystkim na wysokopoziomowych strukturach Pandas.

Series (seria) danych może być traktowana jako pojedyncza kolumna wartości, wraz z indeksem.

In [3]:
pd.Series([1, 2, 3, 4])

0    1
1    2
2    3
3    4
dtype: int64

In [4]:
s = pd.Series([1, 2, 3, 4])
s.index

Int64Index([0, 1, 2, 3], dtype='int64')

DataFrame (ramka danych) to zbiór kolumn, reprezentowanych przy pomocy Series, ze wspólnym indeksem. Można ją traktować jako listę rekordów, zawierających określone pola. DataFrame stanowi odpowiednik pojedynczego arkusza Excela albo pojedynczej tabeli w bazie danych.

In [5]:
d = pd.DataFrame({"a": [1,2,3], "b": [2,3,4]})
d

Unnamed: 0,a,b
0,1,2
1,2,3
2,3,4


In [6]:
d["a"]

0    1
1    2
2    3
Name: a, dtype: int64

Można utworzyć ramkę z listy list, bez podawania nazw kolumn:

In [7]:
d = pd.DataFrame([[1,2,3],[2,3,4]])
d

Unnamed: 0,0,1,2
0,1,2,3
1,2,3,4


Nazwy kolumn i wierszy mogą być modyfikowane po utworzeniu ramki danych:

In [8]:
d.columns = ["a", "b", "c"]
d.index = [10, 20]
d

Unnamed: 0,a,b,c
10,1,2,3
20,2,3,4


## Indeksowanie

* nazwy kolumn, nazwy wierszy
* indeksy liczbowe
* indeksowanie mieszane
* zakresy, pozdbiory

Podstawową operacją wykonywaną na kolekcjach jest indeksowanie. Do tej pory indeksowaliśmy listy i słowniki.

Indeksowanie listy:

In [9]:
a = [1, 2, 3, 4, 5]
a[0]

1

Można indeksować przy pomocy zakresów:

In [10]:
a[1:3], a[1:], a[:3]

([2, 3], [2, 3, 4, 5], [1, 2, 3])

Można też indeksować od końca:

In [11]:
a[-1], a[-3:-1], a[-3:], a[1:-2]

(5, [3, 4], [3, 4, 5], [2, 3])

Słowniki indeksowaliśmy przy pomocy kluczy-wartości:

In [12]:
b = {"a": 1, "b": 2, (1, 1): 3}
b["a"], b[(1, 1)]

(1, 3)

Klucze w słowniku nie są uporządkowane, nie występują w żadnej określonej kolejności. Słowników nie można indeksować przy pomocy zakresów:

In [13]:
b["a":"b"]

TypeError: unhashable type: 'slice'

Struktury Pandas mogą indeksowane według ich indeksu, co przypomina indeksowanie słownika:

In [14]:
a = pd.Series([1, 2, 3, 4, 5], index=["a", "b", "c", "d", "e"])
a["a"], a["d"]

(1, 4)

Z drugiej strony wartości indeksu są uporządkowane, dzięki czemu można indeksować przy pomocy zakresów:

In [15]:
a["b":"d"]

b    2
c    3
d    4
dtype: int64

Zakres serii sam jest serią. Dodatkowo, możliwy jest wybór podzbioru elementów nie występujących w kolejności (w przypadku zwykłej listy nie było to możliwe):

In [16]:
a[["a", "c", "d"]]

a    1
c    3
d    4
dtype: int64

Ramki danych można indeksować analogicznie, zachowują się one jak kolekcja kolumn:

In [17]:
d = pd.DataFrame({"a": [1,2,3], "b": [2,3,4], "c": [3,4,5]})
print(d)
print("")
print(d["a"])
print("")
print(d["a"][1])

   a  b  c
0  1  2  3
1  2  3  4
2  3  4  5

0    1
1    2
2    3
Name: a, dtype: int64

2


Bardziej zaawansowanych możliwości indeksowania dostarczają specjalne indeksery .loc, .iloc oraz .ix. Umożliwiają one indeksowanie w obu wymiarach na raz. Indekser .loc operuje na etykietach wierszy i kolumn: 

In [18]:
print(d.loc[0,"a"])
print(d.loc[2,"b"])

1
4


Tutaj również można używać zakresów:

In [19]:
print(d.loc[0,"b":"c"])
print("")
print(d.loc[:2,"b"])
print("")
d.loc[:2,"b":"c"]

b    2
c    3
Name: 0, dtype: int64

0    2
1    3
2    4
Name: b, dtype: int64



Unnamed: 0,b,c
0,2,3
1,3,4
2,4,5


W szczególności można użyć pustego zakresu, żeby wybierać całe wiersze lub kolumny:

In [20]:
d.loc[:,"a"]

0    1
1    2
2    3
Name: a, dtype: int64

In [21]:
d.loc[0,:]

a    1
b    2
c    3
Name: 0, dtype: int64

Indekser .iloc pozwala na indeksowanie nie przy użyciu etykiet, ale numerów porządkowych:

In [22]:
d.iloc[1,1]

3

In [23]:
d.iloc[:2,-2:]

Unnamed: 0,b,c
0,2,3
1,3,4


Indekser .ix pozwala mieszać te dwa rodzaje indeksowania: klucz w pierwszej kolejności traktowany jest jak etykieta, a w drugiej jako liczba porządkowa. 

In [29]:
d.ix[2, -1]

5

Złożonych sposób indeksowania można używać łącznie z instrukcjami przypisania.

In [30]:
d

Unnamed: 0,a,b,c
0,1,2,3
1,2,3,4
2,3,4,5


In [31]:
d.loc[:1, "a"] = 0
d

Unnamed: 0,a,b,c
0,0,2,3
1,0,3,4
2,3,4,5


In [32]:
d.loc[:1, "a"] = d.loc[:1, "b"]
d

Unnamed: 0,a,b,c
0,2,2,3
1,3,3,4
2,3,4,5


In [34]:
d.loc[:1, "a"] = d["b"]
d

Unnamed: 0,a,b,c
0,2,2,3
1,3,3,4
2,3,4,5


In [36]:
d["a"] = d.loc[:1, "b"]
d

Unnamed: 0,a,b,c
0,2.0,2,3
1,3.0,3,4
2,,4,5


Pytanie: co stało się w każdym z powyższych przykładów?

### Ćwiczenie

[tu jakieś konkretne ćwiczenie, które da się zrobić z indeksowaniem, np. wypełnianie macierzy według określonych reguł]

## Operacje zwektoryzowane

### Wybór wartości według maski

Mając do dyspozycji 

## Proste manipulacje

* transpozycja
* zamiany kolejności kolumn/wierszy
* usuwanie kolumn/wierszy
* merge

## Proste statystyki

* średnia
* suma

## Sortowanie, rangowanie

## Grupowanie

## pivot

## Iterowanie po elementach

## Obsługa brakujących danych