### Часть 1. Программирование на Python

Ссылка на контест:

http://45.77.142.102/cgi-bin/new-client?contest_id=8

### Часть 2. Проверка статистических гипотез

На платформе Delivery Club рестораны с быстрой скоростью доставки (готовка блюда + доставка блюда курьером до клиента), как правило - это рестораны, которые пользуются наибольшей популярность среди пользователей и получают наивысшую оценку (5 баллов). 

Дан датасет **quality_restaurants.csv**, который преставляет из себя выборку с характеристиками некоторых ресторанов платформы DC. 

*avg_cook_time* - среднее время готовки ресторана, 

*avg_rest_toclient_time* - среднее время доставки блюда курьером ресторана до клиента, 

*rating* - бальная оценка ресторана (средний пользовательский рейтинг).

*restaurant_id* - идентификатор ресторана

*city_id* - идентификатор города

In [53]:
import pandas as pd
import numpy as np

In [54]:
df = pd.read_csv('quality_restaurants.csv')

In [55]:
df.head()

Unnamed: 0,avg_cook_time,avg_rest_toclient_time,rating,city_id,restaurant_id
0,14.567977,18.829249,5,1,0
1,2.663857,2.358426,3,3,1
2,11.066652,13.0,1,3,2
3,14.843242,12.670241,5,3,3
4,8.097093,21.126678,3,2,4


In [56]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 302 entries, 0 to 301
Data columns (total 5 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   avg_cook_time           302 non-null    float64
 1   avg_rest_toclient_time  302 non-null    float64
 2   rating                  302 non-null    int64  
 3   city_id                 302 non-null    int64  
 4   restaurant_id           302 non-null    int64  
dtypes: float64(2), int64(3)
memory usage: 11.9 KB


In [57]:
df.describe()

Unnamed: 0,avg_cook_time,avg_rest_toclient_time,rating,city_id,restaurant_id
count,302.0,302.0,302.0,302.0,302.0
mean,99350.87,883005.6,3.754967,2.049669,150.5
std,993357.9,8829814.0,1.480625,0.823764,87.324109
min,2.200281,2.255455,1.0,1.0,0.0
25%,10.0,9.878653,2.0,1.0,75.25
50%,13.12884,13.53347,4.0,2.0,150.5
75%,18.24393,19.73878,5.0,3.0,225.75
max,9999927.0,88887790.0,5.0,3.0,301.0


### Задание 1

Есть ли разница между **средним временем доставки ресторанов с рейтингом 5 звезд, 4 звезды, меньше 4 звезд.** При оценке использовать непараметрический критерий.

In [58]:
from scipy import stats

In [59]:
avg_5 = df[df.rating == 5].avg_rest_toclient_time
avg_4 = df[df.rating == 4].avg_rest_toclient_time
avg_123 = df[df.rating < 4].avg_rest_toclient_time

Так как выборки не связаны, то воспользуемся критерием Манна-Уитни

H0: Среднее время доставки в ресторанах с 5 звездами и 4 звездами одинаковое

H1: Среднее время доставки в ресторанах с 5 звездами и 4 звездами разное

In [60]:
stats.mannwhitneyu(avg_5, avg_4, alternative='two-sided')

MannwhitneyuResult(statistic=4050.5, pvalue=0.010622367394106068)

pvalue < 0.05 => нулевая гипотеза отвергается.

**Время доставки в ресторанах с 5 и 4 звездами разное.**

H0: Среднее время доставки в ресторанах с 5 звездами и <4 звездами одинаковое

H1: Среднее время доставки в ресторанах с 5 звездами и <4 звездами разное

In [61]:
stats.mannwhitneyu(avg_5, avg_123, alternative='two-sided')

MannwhitneyuResult(statistic=12228.0, pvalue=9.826600128438452e-12)

pvalue < 0.05 => нулевая гипотеза отвергается.

**Время доставки в ресторанах с 5 и <4 звездами разное.**

H0: Среднее время доставки в ресторанах с 4 звездами и <4 звездами одинаковое

H1: Среднее время доставки в ресторанах с 4 звездами и <4 звездами разное

In [62]:
stats.mannwhitneyu(avg_4, avg_123, alternative='two-sided')

MannwhitneyuResult(statistic=2812.0, pvalue=0.05544535816531075)

pvalue > 0.05 => нулевая гипотеза не отвергается.

**Значит, мы не можем сказать, что время доставки в ресторанах с 4 звездами и <4 звездами разное, то есть разницы нет.**

### Задание 2


Для **города 1** рассчитать силу взаимосвязи между среднем временем готовки ресторана и среднем временем доставки. Позволяют ли полученные данные говорить о существовании связи? 

In [11]:
df_cur = df[df.city_id == 1]

In [12]:
df_cur[['avg_cook_time','avg_rest_toclient_time']].corr()

Unnamed: 0,avg_cook_time,avg_rest_toclient_time
avg_cook_time,1.0,1.0
avg_rest_toclient_time,1.0,1.0


In [13]:
# H0: r = 0
# H1: r <> 0

stats.pearsonr(df_cur.avg_cook_time, df_cur.avg_rest_toclient_time)

(0.9999999999861343, 0.0)

Нулевая гипотеза отвергается, коэффициент корреляции пирсона почти 1, значит мы можем утверждать, что существует сильная связь.

### Часть 3. SQL

Дана таблица **ORDERS** со следующими столбцами: id (идентификатор заказа), city_id (идентификатор города), user_id (идентификатор клиента).
Также дана таблица **CITIES**, поля - id (идентификатор города), city_name (название города).
Задача - написать SQL-запрос, отвечающий на следующий вопрос: сколько уникальных клиентов выполнили заказ в городах на букву П.

In [None]:
"""
SELECT count()
FROM 
(SELECT distinct user_id
FROM (SELECT * FROM orders INNER JOIN cities ON orders.city_id = cities.id)
WHERE city_name LIKE 'П%')
"""