In [None]:
!pip install nycflights13

In [None]:
import pandas as pd
import nycflights13

In [None]:
airlines = nycflights13.airlines
airports = nycflights13.airports
flights = nycflights13.flights
planes = nycflights13.planes
weather = nycflights13.weather

In [None]:
flights2 = flights[['year', 'month', 'day', 'hour', 'origin', 'dest', 'tailnum', 'carrier']]

In [None]:
# Co zawierają różne tabelki? 


## Zaawansowane operacje na ramkach danych

### 1. Join

In [None]:
# Jak się nazywało lotnisko z którego odlatywały samoloty?

flights2.merge(airports[['faa', 'name']], left_on='origin', right_on='faa')

**Dlaczego `.merge()` a nie `.join()`?**

Dlatego, że `.merge()` działa na kolumnach, natomiast `.join()` działa na indeksach. 

In [None]:
# Jak się nazywała firma organizująca lot? 

flights2.merge(airlines, left_on='carrier', right_on='carrier')

In [None]:
# Jaki silnik miał samolot który odbył dany lot?

# todo

### 2. Join po kilku kolumnach


In [None]:
# Jaka była pogoda w trakcie lotu? 

flights2.merge(weather, on=['origin','year','month','day','hour'])

### 3. Group by

In [None]:
# Liczba lotów danego dnia

flight_count = flights2.groupby(['year', 'month', 'day'])\
                .count()\
                .reset_index()\
                .drop(['origin','dest','tailnum','carrier'], axis=1)\
                .rename(columns={'hour': 'count'})

flight_count

In [None]:
# Chcemy to umieścić na wykresie, co trzeba poprawić?

flight_count['date'] = pd.to_datetime(flight_count[['year', 'month', 'day']])
flight_count = flight_count.drop(['year', 'month', 'day'], axis=1)

In [None]:
flight_count.plot(x='date', y='count', figsize=(15, 10))

In [None]:
# Jaka jest średnia liczba miejsc w zależności od producenta?

planes.groupby('manufacturer')\
            .mean()['seats']\
            .reset_index()\
            .plot(x='manufacturer', y='seats', kind='bar', figsize=(15, 5))

In [None]:
# Ile różnych modeli ma każdy producent?


planes.groupby('manufacturer')\
            .model\
            .nunique()\
            .reset_index()\
            .plot(x='manufacturer', y='model', kind='bar', figsize=(15, 5))

In [None]:
# Jaka jest maksymalna liczba silników w samolocie w zależności od producenta?

# todo

### 4. Kilka innych pandasowych operacji

In [None]:
# sort values (DataFrame)
# Dziesięć samolotów o najwyższej liczbie miejsc?

planes.sort_values(by='seats', ascending=False).head(10)

In [None]:
# unique (Series)
# Jakie są rodzaje silników samolotów?

planes['engine'].unique()

In [None]:
# isin (Series)
# Ile lostów zostało wykonane przez samoloty o numerach N14228, N668DN i N511MQ?

tailnums = ['N14228', 'N668DN', 'N511MQ']

flights2[flights2['tailnum'].isin(tailnums)].shape[0]

In [None]:
# value_counts (Series)
# Jaki są trzy najpopularniejsze modele samolotów?

planes['model'].value_counts()[:3]

### 4. Zadania

**4.1** Ile lotów w poszczególnych miesiącach obsługiwała firma "JetBlue Airways"?

**4.2** W którym miesiącu jest najwięcej lotów firmy "JetBlue Airways"?

**4.3** Jaki jest `tailnum` samolotu który wykonał najwięcej lotów?

**4.4** Narysuj na mapie lotniska (x = lon; y = lat), do których samoloty lecą nie dłużej niż 5h z lotniska w JFK (faa='JFK').

Wskazówka: zacznij od stworzenia listy lotnisk. 