### Часть 1. Программирование на Python

Ссылка на контест:

http://45.77.142.102/cgi-bin/new-client?contest_id=8

### Часть 2. Проверка статистических гипотез

На платформе Delivery Club рестораны с быстрой скоростью доставки (готовка блюда + доставка блюда курьером до клиента), как правило - это рестораны, которые пользуются наибольшей популярность среди пользователей и получают наивысшую оценку (5 баллов). 

Дан датасет **quality_restaurants.csv**, который преставляет из себя выборку с характеристиками некоторых ресторанов платформы DC. 

*avg_cook_time* - среднее время готовки ресторана, 

*avg_rest_toclient_time* - среднее время доставки блюда курьером ресторана до клиента, 

*rating* - бальная оценка ресторана (средний пользовательский рейтинг).

*restaurant_id* - идентификатор ресторана

*city_id* - идентификатор города

### Задание 1

Есть ли разница между **средним временем доставки ресторанов с рейтингом 5 звезд, 4 звезды, меньше 4 звезд.** При оценке использовать непараметрический критерий.

In [15]:
import pandas as pd
from scipy import stats

In [9]:
df = pd.read_csv('quality_restaurants.csv')

In [10]:
df.shape

(302, 5)

In [11]:
df.head()

Unnamed: 0,avg_cook_time,avg_rest_toclient_time,rating,city_id,restaurant_id
0,14.567977,18.829249,5,1,0
1,2.663857,2.358426,3,3,1
2,11.066652,13.0,1,3,2
3,14.843242,12.670241,5,3,3
4,8.097093,21.126678,3,2,4


In [18]:
r5 = df[df['rating'] == 5]['avg_rest_toclient_time']
r4 = df[df['rating'] == 4]['avg_rest_toclient_time']
r0 = df[df['rating'] < 4]['avg_rest_toclient_time']

In [22]:
r5.head()

0    18.829249
3    12.670241
5    15.557156
6    25.317246
8    13.610394
Name: avg_rest_toclient_time, dtype: float64

H0 - нет никакой разницы между группами.

H1 - разница между группами есть.

In [24]:
scipy.stats.kruskal(r0, r4, r5)

KruskalResult(statistic=45.79900806604573, pvalue=1.1346757155270986e-10)

При уровне значимости a=0.05(и значительно меньше) нулевая гипотеза отвергается => есть разница между средним временем доставки ресторанов с рейтингом 5 звезд, 4 звезды, меньше 4 звезд.

Проверим с помощью критерия Манна-Уитни. Уровень значимости возьмем 0.05, сделаем 3 сравнения => сделаем поправку Бенферонни. Уровень значимости будет 0.017.

In [32]:
stats.mannwhitneyu(r0, r4)

MannwhitneyuResult(statistic=1875.0, pvalue=0.027722679082655376)

In [33]:
stats.mannwhitneyu(r0, r5)

MannwhitneyuResult(statistic=4122.0, pvalue=4.913300064219226e-12)

In [34]:
stats.mannwhitneyu(r4, r5)

MannwhitneyuResult(statistic=2399.5, pvalue=0.005311183697053034)

По последнему также получаем, что нулевую гипотезу нужно отвергнуть => различия есть.

### Задание 2


Для **города 3** рассчитать силу взаимосвязи между среднем временем готовки ресторана и среднем временем доставки. Позволяют ли полученные данные говорить о существовании связи? 

In [12]:
city3 = df[df['city_id'] == 3]
city3.head()

Unnamed: 0,avg_cook_time,avg_rest_toclient_time,rating,city_id,restaurant_id
1,2.663857,2.358426,3,3,1
2,11.066652,13.0,1,3,2
3,14.843242,12.670241,5,3,3
11,13.61751,21.48637,5,3,11
17,5.334727,13.0,2,3,17


In [13]:
city3.corr()

Unnamed: 0,avg_cook_time,avg_rest_toclient_time,rating,city_id,restaurant_id
avg_cook_time,1.0,1.0,0.017757,,0.147782
avg_rest_toclient_time,1.0,1.0,0.017755,,0.147781
rating,0.017757,0.017755,1.0,,0.017673
city_id,,,,,
restaurant_id,0.147782,0.147781,0.017673,,1.0


In [16]:
stats.pearsonr(city3.avg_cook_time, city3.avg_rest_toclient_time)

(0.9999999999782527, 0.0)

Коэффициент корреляции Пирсона близок к единице => можно говорить о связи между средним времем доставки и средним временем готовки.

### Часть 3. SQL

Дана таблица **CLIENTS** со следующими столбцами: id (идентификатор клиента), point (местоположение клиента).
Также дана таблица **RESTAURANTS**, поля - id (идентификатор ресторана), point (местоположение ресторана).
Задача - написать SQL-запрос, отвечающий на следующий вопрос: какое среднее расстояние между каждым клиентом и каждым рестораном.

*Примечание*: функция для вычисления расстояни между 2 местоположениями - st_distance(point1,point2).

In [35]:
"""SELECT id, point 
    FROM CLIENTS
    UNION
    SELECT id, point
    FROM RESTAURANTS
    ...
    """

'SELECT id, point \n    FROM CLIENTS\n    UNION\n    SELECT id, point\n    FROM RESTAURANTS\n    ...\n    '