# Задачи по библиотеке Pandas от mail.ru #

**1. Импортировать датасет из файла 'restaurants.csv' и присвоить его переменной (например, переменной df).** 

In [1]:
import pandas as pd
import numpy as np


In [2]:
df = pd.read_csv('restaurants.csv')

**2. Вывести первые 10 строк датафрейма. Изучить структуру таблицы.**

In [3]:
df.head()

Unnamed: 0,vendor_id,chain_id,city_name,specialisation,successful_orders,fail_orders,reorders
0,28957,20633,Архангельск,Супы,0.0,2.0,0.0
1,37381,27399,Архангельск,Пироги,0.0,0.0,0.0
2,28703,20431,Архангельск,Суши,111.0,3.0,0.0
3,37382,27399,Архангельск,Пироги,1.0,0.0,0.0
4,36877,27151,Архангельск,Бургеры,22.0,2.0,0.0


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 784 entries, 0 to 783
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   vendor_id          784 non-null    int64  
 1   chain_id           784 non-null    int64  
 2   city_name          784 non-null    object 
 3   specialisation     784 non-null    object 
 4   successful_orders  784 non-null    float64
 5   fail_orders        784 non-null    float64
 6   reorders           784 non-null    float64
dtypes: float64(3), int64(2), object(2)
memory usage: 43.0+ KB


**Таблица состоит из 7 колонок:** 
- vendor_id (уникальный идентификатор ресторана), 
- chain_id (уникальный идентификатор сети, в которую входит ресторан), 
- city_name (город), 
- specialisation(специализация ресторана), 
- successful_orders(кол-во успешных заказов), 
- fail_orders(кол-во не успешных заказов), 
- reorders (перезаказы

**3. Сколько в датафрейме колонок с типом float64?**

In [8]:
num_of_floats = df.select_dtypes(include = 'float64').shape[1]
print("Количество столбцов со значением float64:", num_of_floats)

Количество столбцов со значением float64: 3


**4. Сколько наблюдений в датафрейме?**

In [13]:
num_of_observation = df.shape[0]
num_of_observation

784

**5. Сколько колонок в датафрейме?**

In [12]:
num_of_col = df.shape[1]
num_of_col

7

**6. Сколько уникальных городов в датафрейме?**

In [15]:
pd.unique(df['city_name']).shape[0]

63

**7. Кол-во ресторанов специализации "Рыба"?**

In [19]:
df[df.specialisation == 'Рыба'].shape[0]

30

**8. Получить в общем среднее кол-во успешных заказов (ответ округлить до целого)**

In [21]:
round(df.successful_orders.mean())

115

**9. Сколько ресторанов имеют более 20 неуспешных заказов?**

In [22]:
df[df.fail_orders > 20].shape[0]

10

**10. Сколько ресторанов имеют более 20 неуспешных заказов и менее 500 успешных заказов?**


In [23]:
df[(df.fail_orders > 20) & df.successful_orders < 500].shape[0]

784

**11. Среднее кол-во успешных заказов в ресторанах со специализацией "Выпечка" (ответ округлить до целого).**


In [26]:
df0 = df[df.specialisation == 'Выпечка' ]
round(df0.successful_orders.mean())

13

**12. Какая специализация имеют самую высокую долю неуспешных заказов (все заказы по конкретному ресторану складываются из успешных, неуспешных заказов и перезаказов)?**

In [47]:
dfg = df.groupby('specialisation') \
.aggregate({'successful_orders': 'sum', 'fail_orders': 'sum', 'reorders': 'sum' }) 
dfg ['share'] = dfg ['fail_orders'] / (dfg['successful_orders'] +  dfg ['fail_orders'] +  dfg ['reorders'])
dfg.loc[dfg['share'] == max(dfg['share'])]

Unnamed: 0_level_0,successful_orders,fail_orders,reorders,share
specialisation,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Вегетарианское меню,12.0,7.0,4.0,0.304348


**13. Максимальное количество успешных заказов в ресторане для специализации "Бургеры".**

In [51]:
df_burg = df[df.specialisation == 'Бургеры']
max(df_burg['successful_orders'])

506.0

**14. Рассчитать среднее кол-во успешных заказов по специализации "Суши" в городе Белгород (ответ округлить до целого).**

In [53]:
df [ (df.specialisation == 'Суши') & (df.city_name == 'Белгород')].successful_orders.mean()

328.0

**15. Импортировать таблицу "restaurant_scores.csv". В исходную таблицу добавить новый столбец "model_score" из таблицы "restaurant_scores", соединив таблицы по логически подходящему столбцу (id и vendor_id).**

In [55]:
newdf = pd.read_csv('restaurant_scores.csv', sep = ',')
df = pd.merge(df, newdf, left_on='vendor_id', right_on = 'id').drop('id', axis = 1)
df.head(5)

Unnamed: 0,vendor_id,chain_id,city_name,specialisation,successful_orders,fail_orders,reorders,model_score
0,28957,20633,Архангельск,Супы,0.0,2.0,0.0,0.421871
1,37381,27399,Архангельск,Пироги,0.0,0.0,0.0,0.386503
2,28703,20431,Архангельск,Суши,111.0,3.0,0.0,0.664808
3,37382,27399,Архангельск,Пироги,1.0,0.0,0.0,0.838883
4,36877,27151,Архангельск,Бургеры,22.0,2.0,0.0,0.176469


**16. Вывести среднее значение model_score с vendor_id равным 27399**

In [56]:
mean_score = df.model_score[df.vendor_id == 27399].mean()
mean_score

nan