# Indeksowanie, filtrowanie, przetwarzanie

Julian Zubek, 2015, [DELab UW](http://www.delab.uw.edu.pl/)

In [1]:
import pandas as pd

Wczytamy dane dotyczące lotnisk na świecie.

<img src="openflights-apdb.png" />

In [2]:
airports = pd.read_csv("../dane/airports.csv", header=None)
airports.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,1,Goroka,Goroka,Papua New Guinea,GKA,AYGA,-6.081689,145.391881,5282,10,U,Pacific/Port_Moresby
1,2,Madang,Madang,Papua New Guinea,MAG,AYMD,-5.207083,145.7887,20,10,U,Pacific/Port_Moresby
2,3,Mount Hagen,Mount Hagen,Papua New Guinea,HGU,AYMH,-5.826789,144.295861,5388,10,U,Pacific/Port_Moresby
3,4,Nadzab,Nadzab,Papua New Guinea,LAE,AYNZ,-6.569828,146.726242,239,10,U,Pacific/Port_Moresby
4,5,Port Moresby Jacksons Intl,Port Moresby,Papua New Guinea,POM,AYPY,-9.443383,147.22005,146,10,U,Pacific/Port_Moresby


In [3]:
airports.head(2)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,1,Goroka,Goroka,Papua New Guinea,GKA,AYGA,-6.081689,145.391881,5282,10,U,Pacific/Port_Moresby
1,2,Madang,Madang,Papua New Guinea,MAG,AYMD,-5.207083,145.7887,20,10,U,Pacific/Port_Moresby


In [4]:
airports.tail(2)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
8105,9540,Deer Harbor Seaplane,Deer Harbor,United States,DHB,\N,48.618397,-123.00596,0,-8,A,America/Los_Angeles
8106,9541,San Diego Old Town Transit Center,San Diego,United States,OLT,\N,32.7552,-117.1995,0,-8,A,America/Los_Angeles


## Indeksowanie

Wygodniej jest posługiwać się nazwami kolumn, które mówią coś użytkownikowi. Zmienimy więc indeks i wyświetlimy pierwsze trzy wiersze tabeli:

In [5]:
airports.columns = ["Airport ID", "Name", "City", "Country", "IATA/FAA", "ICAO", "Latitude", "Longitude", "Altitude", "Timezone", "DST", "Tz database time zone"]
airports.head()

Unnamed: 0,Airport ID,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone
0,1,Goroka,Goroka,Papua New Guinea,GKA,AYGA,-6.081689,145.391881,5282,10,U,Pacific/Port_Moresby
1,2,Madang,Madang,Papua New Guinea,MAG,AYMD,-5.207083,145.7887,20,10,U,Pacific/Port_Moresby
2,3,Mount Hagen,Mount Hagen,Papua New Guinea,HGU,AYMH,-5.826789,144.295861,5388,10,U,Pacific/Port_Moresby
3,4,Nadzab,Nadzab,Papua New Guinea,LAE,AYNZ,-6.569828,146.726242,239,10,U,Pacific/Port_Moresby
4,5,Port Moresby Jacksons Intl,Port Moresby,Papua New Guinea,POM,AYPY,-9.443383,147.22005,146,10,U,Pacific/Port_Moresby


Indeks podawany w nawiasach kwadratowych może być zakresem wierszy lub nazwą pojedynczej kolumny:

In [6]:
airports["Name"].head()

0                        Goroka
1                        Madang
2                   Mount Hagen
3                        Nadzab
4    Port Moresby Jacksons Intl
Name: Name, dtype: object

Kolumnę możemy dalej indeksować, żeby wybrać konkretne pozycje:

In [7]:
airports["Name"][2]

'Mount Hagen'

In [8]:
airports["Name"][2:5]

2                   Mount Hagen
3                        Nadzab
4    Port Moresby Jacksons Intl
Name: Name, dtype: object

### Ćwiczenie

Wybierz nazwy państw ostatnich 10 lotnisk w tabeli.

Bardziej zaawansowanych możliwości indeksowania dostarczają specjalne indeksery .loc, .iloc. Umożliwiają one indeksowanie w obu wymiarach na raz. Indekser .loc operuje na etykietach wierszy i kolumn:

In [9]:
airports.loc[10, "Name"]

'Akureyri'

Tutaj również można używać zakresów:

In [10]:
airports.loc[10:15, "Name":"Country"]

Unnamed: 0,Name,City,Country
10,Akureyri,Akureyri,Iceland
11,Egilsstadir,Egilsstadir,Iceland
12,Hornafjordur,Hofn,Iceland
13,Husavik,Husavik,Iceland
14,Isafjordur,Isafjordur,Iceland
15,Keflavik International Airport,Keflavik,Iceland


**Uwaga!** W przypadku indeksera .loc zakres traktowany jest jako domknięty z obydwu stron (ostatni element zakresu jest włączany).

W szczególności można użyć pustego zakresu, żeby wybierać całe wiersze lub kolumny:

In [11]:
airports.loc[2, :]

Airport ID                                  3
Name                              Mount Hagen
City                              Mount Hagen
Country                      Papua New Guinea
IATA/FAA                                  HGU
ICAO                                     AYMH
Latitude                            -5.826789
Longitude                            144.2959
Altitude                                 5388
Timezone                                   10
DST                                         U
Tz database time zone    Pacific/Port_Moresby
Name: 2, dtype: object

Indekser .iloc pozwala na indeksowanie nie przy użyciu etykiet, ale numerów porządkowych (uwaga, liczymy od 0!):

In [12]:
airports.iloc[1, 1]

'Madang'

In [13]:
airports.iloc[-10:, 1:3]

Unnamed: 0,Name,City
8097,Prominent Hill,Prominent Hill
8098,Chatsworth Station,Chatsworth
8099,Algerciras Port,Algerciras
8100,Ganges Water Aerodrome,Ganges
8101,Pender Harbour Water Aerodrome,Pender Harbour
8102,Mansons Landing Water Aerodrome,Mansons Landing
8103,Port McNeill Airport,Port McNeill
8104,Sullivan Bay Water Aerodrome,Sullivan Bay
8105,Deer Harbor Seaplane,Deer Harbor
8106,San Diego Old Town Transit Center,San Diego


W powyższych przykładach w przypadku wierszy indeksery .loc oraz .iloc działały tak samo. Wczytamy teraz dane na nowo używając pierwszej kolumny jako indeksu.

In [14]:
airports = pd.read_csv("../dane/airports.csv", header=None, index_col=0)
airports.columns = ["Name", "City", "Country", "IATA/FAA", "ICAO", "Latitude", "Longitude", "Altitude", "Timezone", "DST", "Tz database time zone"]
airports.index.name = "Airport ID"
airports.head()

Unnamed: 0_level_0,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone
Airport ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Goroka,Goroka,Papua New Guinea,GKA,AYGA,-6.081689,145.391881,5282,10,U,Pacific/Port_Moresby
2,Madang,Madang,Papua New Guinea,MAG,AYMD,-5.207083,145.7887,20,10,U,Pacific/Port_Moresby
3,Mount Hagen,Mount Hagen,Papua New Guinea,HGU,AYMH,-5.826789,144.295861,5388,10,U,Pacific/Port_Moresby
4,Nadzab,Nadzab,Papua New Guinea,LAE,AYNZ,-6.569828,146.726242,239,10,U,Pacific/Port_Moresby
5,Port Moresby Jacksons Intl,Port Moresby,Papua New Guinea,POM,AYPY,-9.443383,147.22005,146,10,U,Pacific/Port_Moresby


## Ćwiczenie

1. Wybierz wiersz o indeksie 1 korzystając z indeksera .loc oraz .iloc. Wyjaśnij, dlaczego otrzymane wyniki są różne.
2. Wybierz zakres [:10] wierszy korzystając z indeksera .loc oraz .iloc. Wyjaśnij, dlaczego otrzymane wyniki są takie same.

## Wybór według maski

Możliwe jest masowe porównywanie wartości:

In [15]:
airports["Timezone"] == 0

Airport ID
1       False
2       False
3       False
4       False
5       False
6       False
7       False
8       False
9       False
10      False
11       True
12       True
13       True
14       True
15       True
16       True
17       True
18       True
19       True
20       True
21      False
22      False
23      False
24      False
25      False
26      False
27      False
28      False
29      False
30      False
        ...  
9512    False
9513    False
9514    False
9515    False
9516    False
9517    False
9518    False
9519    False
9520    False
9521    False
9522    False
9523    False
9524    False
9525    False
9526    False
9527    False
9528    False
9529    False
9530    False
9531    False
9532    False
9533    False
9534    False
9535    False
9536    False
9537    False
9538    False
9539    False
9540    False
9541    False
Name: Timezone, dtype: bool

Taką kolekcję wartości logicznych nazywamy maską i możemy jej używać do filtrowania tabeli. Przykładowo, wybierzmy wszystkie lotniska w strefie czasowej GMT 0:

In [16]:
airports[airports["Timezone"] == 0].head()

Unnamed: 0_level_0,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone
Airport ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
11,Akureyri,Akureyri,Iceland,AEY,BIAR,65.659994,-18.072703,6,0,N,Atlantic/Reykjavik
12,Egilsstadir,Egilsstadir,Iceland,EGS,BIEG,65.283333,-14.401389,76,0,N,Atlantic/Reykjavik
13,Hornafjordur,Hofn,Iceland,HFN,BIHN,64.295556,-15.227222,24,0,N,Atlantic/Reykjavik
14,Husavik,Husavik,Iceland,HZK,BIHU,65.952328,-17.425978,48,0,N,Atlantic/Reykjavik
15,Isafjordur,Isafjordur,Iceland,IFJ,BIIS,66.058056,-23.135278,8,0,N,Atlantic/Reykjavik


In [17]:
airports[airports["Timezone"] != 0].head()

Unnamed: 0_level_0,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone
Airport ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Goroka,Goroka,Papua New Guinea,GKA,AYGA,-6.081689,145.391881,5282,10,U,Pacific/Port_Moresby
2,Madang,Madang,Papua New Guinea,MAG,AYMD,-5.207083,145.7887,20,10,U,Pacific/Port_Moresby
3,Mount Hagen,Mount Hagen,Papua New Guinea,HGU,AYMH,-5.826789,144.295861,5388,10,U,Pacific/Port_Moresby
4,Nadzab,Nadzab,Papua New Guinea,LAE,AYNZ,-6.569828,146.726242,239,10,U,Pacific/Port_Moresby
5,Port Moresby Jacksons Intl,Port Moresby,Papua New Guinea,POM,AYPY,-9.443383,147.22005,146,10,U,Pacific/Port_Moresby


In [18]:
airports[airports["Timezone"] > 3].head()

Unnamed: 0_level_0,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone
Airport ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Goroka,Goroka,Papua New Guinea,GKA,AYGA,-6.081689,145.391881,5282,10,U,Pacific/Port_Moresby
2,Madang,Madang,Papua New Guinea,MAG,AYMD,-5.207083,145.7887,20,10,U,Pacific/Port_Moresby
3,Mount Hagen,Mount Hagen,Papua New Guinea,HGU,AYMH,-5.826789,144.295861,5388,10,U,Pacific/Port_Moresby
4,Nadzab,Nadzab,Papua New Guinea,LAE,AYNZ,-6.569828,146.726242,239,10,U,Pacific/Port_Moresby
5,Port Moresby Jacksons Intl,Port Moresby,Papua New Guinea,POM,AYPY,-9.443383,147.22005,146,10,U,Pacific/Port_Moresby


## Ćwiczenie

Wybierz wszystkie lotniska w Polsce. Wyświetl pierwsze z nich.

In [19]:
airports["Latitude"] == airports["Longitude"]

Airport ID
1       False
2       False
3       False
4       False
5       False
6       False
7       False
8       False
9       False
10      False
11      False
12      False
13      False
14      False
15      False
16      False
17      False
18      False
19      False
20      False
21      False
22      False
23      False
24      False
25      False
26      False
27      False
28      False
29      False
30      False
        ...  
9512    False
9513    False
9514    False
9515    False
9516    False
9517    False
9518    False
9519    False
9520    False
9521    False
9522    False
9523    False
9524    False
9525    False
9526    False
9527    False
9528    False
9529    False
9530    False
9531    False
9532    False
9533    False
9534    False
9535    False
9536    False
9537    False
9538    False
9539    False
9540    False
9541    False
dtype: bool

## Ćwiczenie

Kolumny można porównywać bezpośrednio między sobą. Wybierz wszystkie lotniska, których nazwa różni się od nazwy miasta, w którym się znajdują.

Wybieranie wartości według maski zbudowanej w oparciu o kolumny tabeli jest bardzo często operacją. Żeby uprościć jej zapis możemy posłużyć się wygodną metodą .query.

In [20]:
airports.query("Timezone > 3").head()

Unnamed: 0_level_0,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone
Airport ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Goroka,Goroka,Papua New Guinea,GKA,AYGA,-6.081689,145.391881,5282,10,U,Pacific/Port_Moresby
2,Madang,Madang,Papua New Guinea,MAG,AYMD,-5.207083,145.7887,20,10,U,Pacific/Port_Moresby
3,Mount Hagen,Mount Hagen,Papua New Guinea,HGU,AYMH,-5.826789,144.295861,5388,10,U,Pacific/Port_Moresby
4,Nadzab,Nadzab,Papua New Guinea,LAE,AYNZ,-6.569828,146.726242,239,10,U,Pacific/Port_Moresby
5,Port Moresby Jacksons Intl,Port Moresby,Papua New Guinea,POM,AYPY,-9.443383,147.22005,146,10,U,Pacific/Port_Moresby


Przyjmuje ona jako parametr ciąg znaków, zawierający wyrażenie, w którym odwołujemy się bezpośrednio do nazw kolumn.

## Arytmetyka, modyfikacje komórek

Podobnie, jak w przypadku porównań, możemy wykonywać operacje arytmetyczne na całych zakresach tabeli. Przykładowo, gdybyśmy chcieli wyrazić czas lokalny każdego lotniska względem Warszawy (strefa GMT +1), należałoby odjąć 1 od stosownej kolumny:

In [21]:
(airports["Timezone"] - 1).head()

Airport ID
1    9
2    9
3    9
4    9
5    9
Name: Timezone, dtype: float64

Możemy przypisać tak zmodyfikowaną wartość spowrotem do tabeli:

In [22]:
airports["Timezone"] = airports["Timezone"] - 1
airports.head()

Unnamed: 0_level_0,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone
Airport ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Goroka,Goroka,Papua New Guinea,GKA,AYGA,-6.081689,145.391881,5282,9,U,Pacific/Port_Moresby
2,Madang,Madang,Papua New Guinea,MAG,AYMD,-5.207083,145.7887,20,9,U,Pacific/Port_Moresby
3,Mount Hagen,Mount Hagen,Papua New Guinea,HGU,AYMH,-5.826789,144.295861,5388,9,U,Pacific/Port_Moresby
4,Nadzab,Nadzab,Papua New Guinea,LAE,AYNZ,-6.569828,146.726242,239,9,U,Pacific/Port_Moresby
5,Port Moresby Jacksons Intl,Port Moresby,Papua New Guinea,POM,AYPY,-9.443383,147.22005,146,9,U,Pacific/Port_Moresby


Można też zapisać wartość w nowej kolumnie:

In [23]:
airports["Timezone 0"] = airports["Timezone"] + 1
airports.head()

Unnamed: 0_level_0,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone,Timezone 0
Airport ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,Goroka,Goroka,Papua New Guinea,GKA,AYGA,-6.081689,145.391881,5282,9,U,Pacific/Port_Moresby,10
2,Madang,Madang,Papua New Guinea,MAG,AYMD,-5.207083,145.7887,20,9,U,Pacific/Port_Moresby,10
3,Mount Hagen,Mount Hagen,Papua New Guinea,HGU,AYMH,-5.826789,144.295861,5388,9,U,Pacific/Port_Moresby,10
4,Nadzab,Nadzab,Papua New Guinea,LAE,AYNZ,-6.569828,146.726242,239,9,U,Pacific/Port_Moresby,10
5,Port Moresby Jacksons Intl,Port Moresby,Papua New Guinea,POM,AYPY,-9.443383,147.22005,146,9,U,Pacific/Port_Moresby,10


### Ćwiczenie

W naszej tabeli wysokość jest podana w stopach nad poziomem morza. 1 stopa angielska = 30,48 cm. Przelicz wartości wysokości na metry i zapisz zmodyfikowaną kolumnę w miejsce starej.

## Proste statystyki

Biblioteka pandas pozwala na szybkie obliczenie prostych statystyk. Metoda .describe() liczy podstawowe statystyki dla wszystkich kolumn numerycznych.

In [24]:
airports.describe()

Unnamed: 0,Latitude,Longitude,Altitude,Timezone,Timezone 0
count,8107.0,8107.0,8107.0,8107.0,8107.0
mean,26.81772,-3.921969,933.449365,-0.830764,0.169236
std,27.866953,85.900873,1624.740899,5.737326,5.737326
min,-89.999997,-179.877,-1266.0,-13.0,-12.0
25%,8.824928,-79.022498,38.0,-6.0,-5.0
50%,34.9878,5.292028,272.0,0.0,1.0
75%,47.957599,49.785821,1020.0,3.0,4.0
max,82.517778,179.951,14472.0,12.0,13.0


Pojedyncze statystyki:

In [25]:
airports.count()

Name                     8107
City                     8107
Country                  8107
IATA/FAA                 5880
ICAO                     8043
Latitude                 8107
Longitude                8107
Altitude                 8107
Timezone                 8107
DST                      8107
Tz database time zone    8107
Timezone 0               8107
dtype: int64

In [26]:
airports.mean()

Latitude       26.817720
Longitude      -3.921969
Altitude      933.449365
Timezone       -0.830764
Timezone 0      0.169236
dtype: float64

W tym przypadku statystyki mają jasną interpretację wyłącznie dla wysokości lotniska. Policzymy podstawowe statystyki oddzielnie. Minimalna, średnia i maksymalna wysokość lotniska:

In [27]:
airports["Altitude"].min(), airports["Altitude"].mean(), airports["Altitude"].max()

(-1266, 933.44936474651536, 14472)

Jak widać minimalna wysokość jest ujemna. Przyjrzyjmy się temu wierszowi:

In [28]:
airports[airports["Altitude"] == airports["Altitude"].min()]

Unnamed: 0_level_0,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone,Timezone 0
Airport ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1600,I Bar Yehuda,Metzada,Israel,,LLMZ,31.328169,35.388608,-1266,1,U,Asia/Jerusalem,2


Okazuje się, że jest to pustynne lotnisko położone nad Morzem Martwym:

<img src="bar_jehuda.jpg" width="600px" />

Lotnisko znajduje się 6 razy głębiej niż średnia głębokość Bałtyku. Pomimo pięknych widoków, możemy nie mieć ochoty lądować w takim miejscu. Odrzucimy ten port lotniczy:

In [29]:
airports1 = airports.drop(1600)
airports1["Altitude"].min(), airports1["Altitude"].mean(), airports1["Altitude"].max()

(-164, 933.72070071551934, 14472)

In [30]:
airports1 = airports.drop(airports.index[airports["Altitude"] == airports["Altitude"].min()])
airports1["Altitude"].min(), airports1["Altitude"].mean(), airports1["Altitude"].max()

(-164, 933.72070071551934, 14472)

Możemy też zadawać pytania o kolumny kategorialne, na przykład: „W ilu państwach świata znajduje się przynajmniej jedno lotnisko”?

In [31]:
len(airports["Country"].unique())

240

Po ile lotnisk znajduje się w danym kraju?

In [32]:
airports["Country"].value_counts().head()

United States    1697
Canada            435
Germany           321
Australia         263
Russia            249
dtype: int64

## Ćwiczenie

Znajdź wszystkie państwa, w których znajduje się wyłącznie 1 lotnisko. Wybierz wyłącznie listę nazw państw (bez liczby lotnisk).

Wskazówka 1: data.index pozwala odwoływać się do wartości indeksu.

Filtrując tabelę często zachodzi potrzeba wyboru wartości należących do konkretnego zbioru. Nie można tego dokonać przy pomocy standardowego operatora in. Służy do tego metoda .isin:

In [33]:
airports[airports["Country"].isin(["Niue", "Bhutan"])]

Unnamed: 0_level_0,Name,City,Country,IATA/FAA,ICAO,Latitude,Longitude,Altitude,Timezone,DST,Tz database time zone,Timezone 0
Airport ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
3155,Paro,Thimphu,Bhutan,PBH,VQPR,27.403192,89.424606,7332,5,N,Asia/Thimphu,6
5884,Niue International Airport,Alofi,Niue,IUE,NIUE,-19.080028,-169.925639,209,-12,U,Pacific/Niue,-11


## Ćwiczenie

Przefiltruj tabelę airports zostawiając jedynie lotniska, znajdujące się w krajach, w których znajduje się wyłącznie 1 lotnisko.

## Łączenie różnych zbiorów

In [34]:
areas = pd.read_csv("../dane/area.csv")
areas.head()

Unnamed: 0,Country Code,Country Name,Land area
0,AFG,Afghanistan,652230
1,ALB,Albania,27400
2,DZA,Algeria,2381740
3,ASM,American Samoa,200
4,AND,Andorra,470


In [35]:
s1 = areas["Land area"]
s1.index = areas["Country Name"]
s1 = pd.DataFrame(s1)
s1.head()

Unnamed: 0_level_0,Land area
Country Name,Unnamed: 1_level_1
Afghanistan,652230
Albania,27400
Algeria,2381740
American Samoa,200
Andorra,470


In [36]:
s2 = airports["Country"].value_counts()
s2.name = "Number of airports"
s2 = pd.DataFrame(s2)
s2.head()

Unnamed: 0,Number of airports
United States,1697
Canada,435
Germany,321
Australia,263
Russia,249


In [37]:
pd.merge(s1, s2, right_index=True, left_index=True).head()

Unnamed: 0,Land area,Number of airports
United States,9147420,1697
Canada,9093510,435
Germany,348610,321
Australia,7682300,263
France,547660,233


## Ćwiczenie

Oblicz gęstość lotnisk na km$^2$ dla poszczególnych krajów. 

Stosunkowo typową operacją jest posortowanie wartości pojedynczej kolumny. Służy do tego metoda .order:

In [91]:
airports["Altitude"].order() # zwraca wysokości posortowane rosnąco

Airport ID
1600    -1266
1595     -164
2151      -70
2966      -65
5932      -61
3689      -54
3758      -42
2123      -40
6747      -24
591       -15
589       -13
580       -11
1126       -6
7746        0
7747        0
9467        0
7748        0
9541        0
7749        0
7743        0
7742        0
8786        0
7741        0
7740        0
7739        0
5863        0
7736        0
7737        0
7745        0
7744        0
        ...  
9311    10466
6971    10552
3104    10682
2812    10860
4174    11000
6453    11000
2791    11034
2787    11300
4301    11311
2479    11414
6817    11500
7688    11500
9284    11710
7313    11990
6501    12000
6502    12020
2763    12146
7766    12309
8442    12408
2792    12552
8969    12591
2764    12913
7894    13000
4097    13136
2762    13325
6935    13411
7932    13780
8921    14042
6396    14219
9310    14472
Name: Altitude, dtype: int64

In [92]:
airports["Altitude"].order(ascending=False) # zwraca wysokości posortowane malejąco

Airport ID
9310    14472
6396    14219
8921    14042
7932    13780
6935    13411
2762    13325
4097    13136
7894    13000
2764    12913
8969    12591
2792    12552
8442    12408
7766    12309
2763    12146
6502    12020
6501    12000
7313    11990
9284    11710
7688    11500
6817    11500
2479    11414
4301    11311
2787    11300
2791    11034
6453    11000
4174    11000
2812    10860
3104    10682
6971    10552
9311    10466
        ...  
7744        0
7745        0
7737        0
7736        0
5863        0
7739        0
7740        0
7741        0
8786        0
7742        0
7743        0
7749        0
9541        0
7748        0
9467        0
7747        0
7746        0
1126       -6
580       -11
589       -13
591       -15
6747      -24
2123      -40
3758      -42
3689      -54
5932      -61
2966      -65
2151      -70
1595     -164
1600    -1266
Name: Altitude, dtype: int64

## Ćwiczenie

Wypisz 20 krajów z największą gęstością lotnisk.

## Ćwiczenie

Wypisz 20 krajów z największą gęstością lotnisk spośród krajów o powierzchni większej niż 30000 km$^2$.