# Indeksowanie, filtrowanie, przetwarzanie

Julian Zubek, 2015, [DELab UW](http://www.delab.uw.edu.pl/)

In [1]:
import pandas as pd

Wczytamy dane dotyczące lotnisk na świecie.

<img src="openflights-apdb.png" />

In [2]:
airports = pd.read_csv("../dane/airports.csv", header=None)
airports.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,1,Goroka,Goroka,Papua New Guinea,GKA,AYGA,-6.081689,145.391881,5282,10,U,Pacific/Port_Moresby
1,2,Madang,Madang,Papua New Guinea,MAG,AYMD,-5.207083,145.7887,20,10,U,Pacific/Port_Moresby
2,3,Mount Hagen,Mount Hagen,Papua New Guinea,HGU,AYMH,-5.826789,144.295861,5388,10,U,Pacific/Port_Moresby
3,4,Nadzab,Nadzab,Papua New Guinea,LAE,AYNZ,-6.569828,146.726242,239,10,U,Pacific/Port_Moresby
4,5,Port Moresby Jacksons Intl,Port Moresby,Papua New Guinea,POM,AYPY,-9.443383,147.22005,146,10,U,Pacific/Port_Moresby


## Indeksowanie

Wygodniej jest posługiwać się nazwami kolumn, które mówią coś użytkownikowi. Zmienimy więc indeks i wyświetlimy pierwsze trzy wiersze tabeli:

In [3]:
airports.columns = ["Airport ID", "Name", "City", "Country", "IATA/FAA", "ICAO", "Latitude", "Longitude", "Altitude", "Timezone", "DST", "Tz database time zone"]
airports[:3]

Unnamed: 0,Airport ID,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone
0,1,Goroka,Goroka,Papua New Guinea,GKA,AYGA,-6.081689,145.391881,5282,10,U,Pacific/Port_Moresby
1,2,Madang,Madang,Papua New Guinea,MAG,AYMD,-5.207083,145.7887,20,10,U,Pacific/Port_Moresby
2,3,Mount Hagen,Mount Hagen,Papua New Guinea,HGU,AYMH,-5.826789,144.295861,5388,10,U,Pacific/Port_Moresby


Na podobnej zasadzie możemy wybrać wiersze między 10 a 15:

In [4]:
airports[10:15]

Unnamed: 0,Airport ID,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone
10,11,Akureyri,Akureyri,Iceland,AEY,BIAR,65.659994,-18.072703,6,0,N,Atlantic/Reykjavik
11,12,Egilsstadir,Egilsstadir,Iceland,EGS,BIEG,65.283333,-14.401389,76,0,N,Atlantic/Reykjavik
12,13,Hornafjordur,Hofn,Iceland,HFN,BIHN,64.295556,-15.227222,24,0,N,Atlantic/Reykjavik
13,14,Husavik,Husavik,Iceland,HZK,BIHU,65.952328,-17.425978,48,0,N,Atlantic/Reykjavik
14,15,Isafjordur,Isafjordur,Iceland,IFJ,BIIS,66.058056,-23.135278,8,0,N,Atlantic/Reykjavik


Indeks podawany w nawiasach kwadratowych może być zakresem wierszy lub nazwą pojedynczej kolumny:

In [5]:
airports["Name"].head()

0                        Goroka
1                        Madang
2                   Mount Hagen
3                        Nadzab
4    Port Moresby Jacksons Intl
Name: Name, dtype: object

Kolumnę możemy dalej indeksować, żeby wybrać konkretne pozycje:

In [6]:
airports["Name"][2]

'Mount Hagen'

### Ćwiczenie

Wybierz nazywa państw ostatnich 10 lotnisk.

Bardziej zaawansowanych możliwości indeksowania dostarczają specjalne indeksery .loc, .iloc oraz .ix. Umożliwiają one indeksowanie w obu wymiarach na raz. Indekser .loc operuje na etykietach wierszy i kolumn:

In [7]:
airports.loc[10, "Name"]

'Akureyri'

Tutaj również można używać zakresów:

In [8]:
airports.loc[10:15, "Name":"Country"]

Unnamed: 0,Name,City,Country
10,Akureyri,Akureyri,Iceland
11,Egilsstadir,Egilsstadir,Iceland
12,Hornafjordur,Hofn,Iceland
13,Husavik,Husavik,Iceland
14,Isafjordur,Isafjordur,Iceland
15,Keflavik International Airport,Keflavik,Iceland


W szczególności można użyć pustego zakresu, żeby wybierać całe wiersze lub kolumny:

In [9]:
airports.loc[2, :]

Airport ID                                  3
Name                              Mount Hagen
City                              Mount Hagen
Country                      Papua New Guinea
IATA/FAA                                  HGU
ICAO                                     AYMH
Latitude                            -5.826789
Longitude                            144.2959
Altitude                                 5388
Timezone                                   10
DST                                         U
Tz database time zone    Pacific/Port_Moresby
Name: 2, dtype: object

Indekser .iloc pozwala na indeksowanie nie przy użyciu etykiet, ale numerów porządkowych (uwaga, liczymy od 0!):

In [10]:
airports.iloc[1,1]

'Madang'

## Wybór według maski

Możliwe jest masowe porównywanie wartości:

In [11]:
airports["Timezone"] == 0

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10     True
11     True
12     True
13     True
14     True
...
8092    False
8093    False
8094    False
8095    False
8096    False
8097    False
8098    False
8099    False
8100    False
8101    False
8102    False
8103    False
8104    False
8105    False
8106    False
Name: Timezone, Length: 8107, dtype: bool

Taką kolekcję wartości logicznych nazywamy maską i możemy jej używać do filtrowania tabeli. Przykładowo, wybierzmy wszystkie lotniska w strefie czasowej GMT 0:

In [12]:
airports[airports["Timezone"] == 0].head()

Unnamed: 0,Airport ID,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone
10,11,Akureyri,Akureyri,Iceland,AEY,BIAR,65.659994,-18.072703,6,0,N,Atlantic/Reykjavik
11,12,Egilsstadir,Egilsstadir,Iceland,EGS,BIEG,65.283333,-14.401389,76,0,N,Atlantic/Reykjavik
12,13,Hornafjordur,Hofn,Iceland,HFN,BIHN,64.295556,-15.227222,24,0,N,Atlantic/Reykjavik
13,14,Husavik,Husavik,Iceland,HZK,BIHU,65.952328,-17.425978,48,0,N,Atlantic/Reykjavik
14,15,Isafjordur,Isafjordur,Iceland,IFJ,BIIS,66.058056,-23.135278,8,0,N,Atlantic/Reykjavik


In [13]:
airports[airports["Timezone"] != 0].head()

Unnamed: 0,Airport ID,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone
0,1,Goroka,Goroka,Papua New Guinea,GKA,AYGA,-6.081689,145.391881,5282,10,U,Pacific/Port_Moresby
1,2,Madang,Madang,Papua New Guinea,MAG,AYMD,-5.207083,145.7887,20,10,U,Pacific/Port_Moresby
2,3,Mount Hagen,Mount Hagen,Papua New Guinea,HGU,AYMH,-5.826789,144.295861,5388,10,U,Pacific/Port_Moresby
3,4,Nadzab,Nadzab,Papua New Guinea,LAE,AYNZ,-6.569828,146.726242,239,10,U,Pacific/Port_Moresby
4,5,Port Moresby Jacksons Intl,Port Moresby,Papua New Guinea,POM,AYPY,-9.443383,147.22005,146,10,U,Pacific/Port_Moresby


In [14]:
airports[airports["Timezone"] > 3].head()

Unnamed: 0,Airport ID,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone
0,1,Goroka,Goroka,Papua New Guinea,GKA,AYGA,-6.081689,145.391881,5282,10,U,Pacific/Port_Moresby
1,2,Madang,Madang,Papua New Guinea,MAG,AYMD,-5.207083,145.7887,20,10,U,Pacific/Port_Moresby
2,3,Mount Hagen,Mount Hagen,Papua New Guinea,HGU,AYMH,-5.826789,144.295861,5388,10,U,Pacific/Port_Moresby
3,4,Nadzab,Nadzab,Papua New Guinea,LAE,AYNZ,-6.569828,146.726242,239,10,U,Pacific/Port_Moresby
4,5,Port Moresby Jacksons Intl,Port Moresby,Papua New Guinea,POM,AYPY,-9.443383,147.22005,146,10,U,Pacific/Port_Moresby


## Ćwiczenie

Wybierz wszystkie lotniska w Polsce. Wyświetl pierwsze z nich.

## Ćwiczenie

Kolumny można porównywać bezpośrednio między sobą. Wybierz wszystkie lotniska, których nazwa różni się od nazwy miasta, w którym się znajdują.

## Ćwiczenie (\*)

Napisz funkcję obliczającą tzw. odległość Hamminga pomiędzy słowami. Użyj następującej procedury:
1. Weź słowa a i b.
2. Wybierz dłuższe z nich i przytnij je tak, aby odpowiadało długości pierwszego.
3. Zwróć liczbę pozycji, na których słowa się różnią.

Oblicz odległości Hamminga pomiędzy wartościami z kolumna "Name" i "City" tabeli airports. Wybierz wszystkie lotniska, dla których odległość ta jest większa niż 2.

## Arytmetyka, modyfikacje komórek

Podobnie, jak w przypadku porównań, możemy wykonywać operacje arytmetyczne na całych zakresach tabeli. Przykładowo, gdybyśmy chcieli wyrazić czas lokalny każdego lotniska względem Warszawy (strefa GMT +1), należałoby odjąć 1 od stosownej kolumny:

In [15]:
(airports["Timezone"] - 1).head()

0    9
1    9
2    9
3    9
4    9
Name: Timezone, dtype: float64

Możemy przypisać tak zmodyfikowaną wartość spowrotem do tabeli:

In [16]:
airports["Timezone"] = airports["Timezone"] - 1
airports.head()

Unnamed: 0,Airport ID,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone
0,1,Goroka,Goroka,Papua New Guinea,GKA,AYGA,-6.081689,145.391881,5282,9,U,Pacific/Port_Moresby
1,2,Madang,Madang,Papua New Guinea,MAG,AYMD,-5.207083,145.7887,20,9,U,Pacific/Port_Moresby
2,3,Mount Hagen,Mount Hagen,Papua New Guinea,HGU,AYMH,-5.826789,144.295861,5388,9,U,Pacific/Port_Moresby
3,4,Nadzab,Nadzab,Papua New Guinea,LAE,AYNZ,-6.569828,146.726242,239,9,U,Pacific/Port_Moresby
4,5,Port Moresby Jacksons Intl,Port Moresby,Papua New Guinea,POM,AYPY,-9.443383,147.22005,146,9,U,Pacific/Port_Moresby


### Ćwiczenie

W naszej tabeli wysokość jest podana w stopach nad poziomem morza. 1 stopa angielska = 30,48 cm. Przelicz wartości wysokości na metry i zapisz zmodyfikowaną kolumnę.

## Proste statystyki

Biblioteka pandas pozwala na szybkie obliczenie prostych statystyk.

Minimalna, średnia i maksymalna wysokość lotniska:

In [17]:
airports["Altitude"].min(), airports["Altitude"].mean(), airports["Altitude"].max()

(-1266, 933.44936474651536, 14472)

Jak widać minimalna wysokość jest ujemna. Przyjrzyjmy się temu wierszowi:

In [18]:
airports[airports["Altitude"] == airports["Altitude"].min()]

Unnamed: 0,Airport ID,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone
1573,1600,I Bar Yehuda,Metzada,Israel,,LLMZ,31.328169,35.388608,-1266,1,U,Asia/Jerusalem


Okazuje się, że jest to pustynne lotnisko położone nad Morzem Martwym:

<img src="bar_jehuda.jpg" width="600px" />

Lotnisko znajduje się 6 razy głębiej niż średnia głębokość Bałtyku. Pomimo pięknych widoków, możemy nie mieć ochoty lądować w takim miejscu. Odrzucimy ten port lotniczy:

In [19]:
airports1 = airports.drop(1573)
airports1["Altitude"].min(), airports1["Altitude"].mean(), airports1["Altitude"].max()

(-164, 933.72070071551934, 14472)

In [20]:
airports1 = airports.drop(airports.index[airports["Altitude"] == airports["Altitude"].min()])
airports1["Altitude"].min(), airports1["Altitude"].mean(), airports1["Altitude"].max()

(-164, 933.72070071551934, 14472)

Możemy też zadawać pytania o kolumny kategorialne, na przykład: „W ilu państwach świata znajduje się przynajmniej jedno lotnisko”?

In [21]:
len(airports["Country"].unique())

240

Po ile lotnisk znajduje się w danym kraju?

In [22]:
airports["Country"].value_counts().head()

United States    1697
Canada            435
Germany           321
Australia         263
Russia            249
dtype: int64

## Ćwiczenie

Przefiltruj tabelę airports zostawiając jedynie lotniska, znajdujące się w krajach, w których znajduje się więcej niż 10 lotnisk.

Wskazówka 1: data.index pozwala odwoływać się do wartości indeksu.

In [23]:
airports.index[:10]

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype='int64')

Wskazówka 2: metoda .isin pozwala testować, czy wartość znajduje się na podanej liście.

In [24]:
airports[airports["Country"].isin(["Niue", "Bhutan"])]

Unnamed: 0,Airport ID,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone
3072,3155,Paro,Thimphu,Bhutan,PBH,VQPR,27.403192,89.424606,7332,5,N,Asia/Thimphu
4438,5884,Niue International Airport,Alofi,Niue,IUE,NIUE,-19.080028,-169.925639,209,-12,U,Pacific/Niue


## Łączenie różnych zbiorów

In [25]:
areas = pd.read_csv("../dane/area.csv")
areas.head()

Unnamed: 0,Country Code,Country Name,Land area
0,AFG,Afghanistan,652230
1,ALB,Albania,27400
2,DZA,Algeria,2381740
3,ASM,American Samoa,200
4,AND,Andorra,470


In [26]:
s1 = areas["Land area"]
s1.index = areas["Country Name"]
s1 = pd.DataFrame(s1)
s1.head()

Unnamed: 0_level_0,Land area
Country Name,Unnamed: 1_level_1
Afghanistan,652230
Albania,27400
Algeria,2381740
American Samoa,200
Andorra,470


In [27]:
s2 = airports["Country"].value_counts()
s2 = pd.DataFrame(s2)
s2.head()

Unnamed: 0,0
United States,1697
Canada,435
Germany,321
Australia,263
Russia,249


In [42]:
pd.merge(s1, s2, right_index=True, left_index=True).head()

Unnamed: 0,Land area,0
United States,9147420,1697
Canada,9093510,435
Germany,348610,321
Australia,7682300,263
France,547660,233


## Ćwiczenie

Oblicz gęstość lotnisk na km$^2$ dla poszczególnych krajów. Zignoruj przypadki, w których nazwa kraju jest niespójna pomiędzy dwoma zbiorami. Wypisz 20 krajów z największą gęstością lotnisk. Następnie wypisz 20 krajów z największą gęstością lotnisk spośród krajów o powierzchni większej niż 30000 km$^2$.

Wskazówka:

In [44]:
airports["Altitude"].order() # zwraca wysokości posortowane rosnąco

airports["Altitude"].order(ascending=False) # zwraca wysokości posortowane malejąco

7875    14472
5269    14219
7487    14042
6505    13780
5394    13411
2690    13325
3988    13136
6468    13000
2692    12913
7534    12591
2720    12552
7010    12408
6340    12309
2691    12146
5370    12020
...
6321       0
6320       0
1105      -6
575      -11
584      -13
586      -15
5485     -24
2080     -40
3659     -42
3590     -54
4390     -61
2887     -65
2103     -70
1568    -164
1573   -1266
Name: Altitude, Length: 8107, dtype: int64