In [89]:
import pandas as pd
import pandasql as ps

Корабли в «классах» построены по одному и тому же проекту, и классу присваивается либо имя первого корабля, построенного по данному проекту, либо названию класса дается имя проекта, которое не совпадает ни с одним из кораблей в БД. Корабль, давший название классу, называется головным.
Отношение Classes содержит имя класса, тип (bb для боевого (линейного) корабля или bc для боевого крейсера), страну, в которой построен корабль, число главных орудий, калибр орудий (диаметр ствола орудия в дюймах) и водоизмещение ( вес в тоннах). В отношении Ships записаны название корабля, имя его класса и год спуска на воду. В отношение Battles включены название и дата битвы, в которой участвовали корабли, а в отношении Outcomes – результат участия данного корабля в битве (потоплен-sunk, поврежден - damaged или невредим - OK).
Замечания. 1) В отношение Outcomes могут входить корабли, отсутствующие в отношении Ships. 2) Потопленный корабль в последующих битвах участия не принимает.

![](scheme1.png)

In [2]:
classes = pd.read_csv('classes.csv', index_col='class')
ships = pd.read_csv('ships.csv', index_col='name')
outcomes = pd.read_csv('outcomes.csv', index_col=['ship', 'battle'])
battles = pd.read_csv('battles.csv', index_col='name')

Задача 1. Найдите страны, имевшие когда-либо классы обычных боевых кораблей ('bb') и имевшие когда-либо классы крейсеров ('bc').

![](scheme1.png)

In [3]:
query = '''
select country
from classes
group by country
having count(distinct type) = 2
'''

ps.sqldf(query)

Unnamed: 0,country
0,Gt.Britain
1,Japan


In [45]:
# Использовать groupby и nunique
# Решить одной командой без использования merge и без дополнительных переменных
# Разрешается отдельно не выделять True страны
classes.groupby('country').nunique().loc[classes.groupby('country').nunique()['type'] == 2, []]

Gt.Britain
Japan


Задача 2.  Для каждого класса определите год, когда был спущен на воду первый корабль этого из класса.
![](scheme1.png)

In [46]:
query = '''
select a.class, b.c
from (select class from classes) a
left join (
    select class, min(launched) as c
    from ships group by class) b
on a.class=b.class
'''
ps.sqldf(query)

Unnamed: 0,class,c
0,Bismarck,
1,Iowa,1943.0
2,Kongo,1913.0
3,North Carolina,1941.0
4,Renown,1916.0
5,Revenge,1916.0
6,Tennessee,1920.0
7,Yamato,1941.0


In [61]:
# Применить merge, groupby, min
# Решить одной командой без введения дополнительных переменных
pd.merge(classes.loc[classes.index, []], ships.groupby('class').min(),
         how='left', right_index=True, left_on='class')

Unnamed: 0_level_0,launched
class,Unnamed: 1_level_1
Bismarck,
Iowa,1943.0
Kongo,1913.0
North Carolina,1941.0
Renown,1916.0
Revenge,1916.0
Tennessee,1920.0
Yamato,1941.0


Таблица company содержит идентификатор и название компании, осуществляющей перевозку пассажиров. Таблица trip содержит информацию о рейсах: номер рейса, идентификатор компании, тип самолета, город отправления, город прибытия, время отправления и время прибытия. Таблица passenger содержит идентификатор и имя пассажира. Таблица pass_in_trip содержит информацию о полетах: номер рейса, дата вылета (день), идентификатор пассажира и место, на котором он сидел во время полета.


![](scheme2.png)

In [62]:
trip = pd.read_csv('trip.csv', index_col='trip_no',
    parse_dates=['time_out', 'time_in'], infer_datetime_format=True)
pass_in_trip = pd.read_csv('pass_in_trip.csv',
    infer_datetime_format=True, parse_dates=['date'])
company = pd.read_csv('company.csv', index_col='id_comp')
passenger = pd.read_csv('passenger.csv', index_col='id_psg')

Задача 3. Определить имена пассажиров, когда-либо летевших на одном и том же месте более одного раза. 

![](scheme2.png)

In [38]:
query = '''
select name
from passenger
join(
    select *
    from pass_in_trip
    group by id_psg, place
    having count(place) > 1) b
on passenger.id_psg = b.id_psg
'''
ps.sqldf(query)

Unnamed: 0,name
0,Bruce Willis
1,Nikole Kidman
2,Mullah Omar


In [284]:
# Решить одной командой используя один merge и два groupby, функции count и sum
# Запрещается введение дополнительных переменных
pd.merge(pass_in_trip.groupby(['id_psg', 'place']).count().loc[
    (pass_in_trip.groupby(['id_psg', 'place']).count() > 1)['trip_no'], []],
     passenger, how='left', right_index=True, left_on='id_psg').reset_index('place').drop('place', axis=1)

Unnamed: 0_level_0,name
id_psg,Unnamed: 1_level_1
1,Bruce Willis
8,Nikole Kidman
37,Mullah Omar


Задача 4.

Для каждой авиакомпании определить:

* количество выполненных перелетов;
* число использованных типов самолетов;
* количество перевезенных различных пассажиров;
* общее число перевезенных компанией пассажиров. 

![](scheme2.png)

In [90]:
query = '''
    select count(id_psg), count(distinct id_psg), count(distinct plane), count(distinct a.trip_no)
    from trip a
    left join pass_in_trip b
    on a.trip_no = b.trip_no
    group by id_comp
'''
ps.sqldf(query)

Unnamed: 0,count(id_psg),count(distinct id_psg),count(distinct plane),count(distinct a.trip_no)
0,9,6,2,6
1,2,2,1,2
2,4,4,1,2
3,1,1,1,2
4,16,6,1,10


In [261]:
# Решить одной командой используя nunique
# Запрещается введение дополнительных переменных
pd.merge(
    pd.merge(pass_in_trip.loc[pass_in_trip.index, ['trip_no', 'id_psg']],
             trip.loc[trip.index,['plane', 'id_comp']], how='outer',right_index=True,
             left_on='trip_no').groupby('id_comp').nunique().drop('id_comp',axis=1),
    pd.merge(pass_in_trip.loc[pass_in_trip.index, ['trip_no', 'id_psg']],
             trip.loc[trip.index,['id_comp']], how='outer',right_index=True,
             left_on='trip_no').groupby('id_comp').count().drop(['trip_no'], axis=1),
    right_index=True, left_on='id_comp')

Unnamed: 0_level_0,trip_no,id_psg_x,plane,id_psg_y
id_comp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,6,6,2,9
2,2,2,1,2
3,2,4,1,4
4,2,1,1,1
5,10,6,1,16


Задача 5. Найти количество маршрутов, которые обслуживаются наибольшим числом рейсов.
Замечания.
* A - B и B - A считать разными маршрутами.
* Использовать только таблицу Trip 
![](scheme2.png)

In [108]:
query = '''
select count(*)
from
    (select max(cnt) as m
    from (select count(*) as cnt
    from trip
    group by town_from, town_to) ) a,
    (select count(*) as cnt
    from trip
    group by town_from, town_to) b
where a.m = b.cnt
'''
ps.sqldf(query)

Unnamed: 0,count(*)
0,4


In [131]:
# Решить одной командой
# Не допускается ипользование merge и дополнительных переменных
(trip.groupby(['town_to', 'town_from']).count()['id_comp'] ==
trip.groupby(['town_to', 'town_from']).count()['id_comp'].max()).sum()

4

Задача 6. Определить номера пассажиров, которые больше других времени провели в полетах.
Вывести имена и общее время в минутах, проведенное в полетах

![](scheme2.png)

In [14]:
# Решить одной командой без использования дополнительных переменных
# Здесь расматриваются типы времени: изначально timestamp, и после взятия разности -- timediff.
# Обращение к методам времени осуществляется через поле series.dt
# Использовать pd.DataFrame для создания промежуточного массива времен, groupby, sum и idxmax

14

In [243]:
pd.merge(pass_in_trip.loc[pass_in_trip.index,['id_psg', 'trip_no']],
         pd.DataFrame((trip['time_in'] - trip['time_out']).dt.seconds / 60, columns = ['diff']),
         right_index=True, left_on='trip_no').groupby('id_psg').sum()['diff'].idxmax()

14

In [277]:
x = pd.merge(pass_in_trip.loc[pass_in_trip.index,['id_psg', 'trip_no']],
         pd.DataFrame((trip['time_in'] - trip['time_out']).dt.seconds / 60, columns = ['diff']),
         right_index=True, left_on='trip_no').groupby('id_psg').sum()
pd.merge(x.loc[x.index == x['diff'].idxmax(), ['diff']], passenger,
         how='left', right_index=True, left_on='id_psg')

Unnamed: 0_level_0,diff,name
id_psg,Unnamed: 1_level_1,Unnamed: 2_level_1
14,2100.0,Michael Caine


In [279]:
# ОТВЕТ
pd.merge(pd.merge(pass_in_trip.loc[pass_in_trip.index,['id_psg', 'trip_no']],
         pd.DataFrame((trip['time_in'] - trip['time_out']).dt.seconds / 60, columns = ['diff']),
         right_index=True, left_on='trip_no').groupby('id_psg').sum().loc[pd.merge(
    pass_in_trip.loc[pass_in_trip.index,['id_psg', 'trip_no']],
         pd.DataFrame((trip['time_in'] - trip['time_out']).dt.seconds / 60, columns = ['diff']),
         right_index=True, left_on='trip_no').groupby('id_psg').sum().index == pd.merge(
    pass_in_trip.loc[pass_in_trip.index,['id_psg', 'trip_no']],
         pd.DataFrame((trip['time_in'] - trip['time_out']).dt.seconds / 60, columns = ['diff']),
         right_index=True, left_on='trip_no').groupby('id_psg').sum()['diff'].idxmax(), ['diff']],
         passenger, how='left', right_index=True, left_on='id_psg')

Unnamed: 0_level_0,diff,name
id_psg,Unnamed: 1_level_1,Unnamed: 2_level_1
14,2100.0,Michael Caine
