# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

In [43]:
import pandas as pd
import numpy as np

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [44]:
df_sp500 = pd.read_csv('./sp500hst.txt', names=['date', 'ticker', 'open', 'high', 'low', 'close', 'volume'])
df_sp500.sample(5)

Unnamed: 0,date,ticker,open,high,low,close,volume
110890,20100614,TXT,19.56,19.94,19.24,19.3,29404
9619,20100707,ATI,44.05,46.72,43.9,46.61,15975
111777,20100129,UPS,59.13,59.79,57.71,57.77,65674
80897,20091016,NVLS,21.27,21.35,20.9,21.24,50195
16447,20100330,BSX,7.07,7.27,7.01,7.25,508708


In [45]:
df_sp500.dtypes

date        int64
ticker     object
open      float64
high      float64
low       float64
close     float64
volume      int64
dtype: object

2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

In [46]:
df_sp500.iloc[:, 3:7].mean()

high         43.102243
low          42.054464
close        42.601865
volume    81395.068138
dtype: float64

3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [47]:
df_sp500['month'] = df_sp500.date.astype('str').str.slice(start=4,stop=6)
df_sp500.sample(5)

Unnamed: 0,date,ticker,open,high,low,close,volume,month
107508,20100816,TIE,19.31,19.61,19.0,19.3,16661,8
20414,20100212,CEPH,65.98,65.98,64.86,65.6,17867,2
111622,20100609,UNP,69.92,71.94,69.1,69.38,46587,6
33501,20100802,DRI,42.48,42.7,41.53,42.3,27234,8
65283,20100119,LLY,35.99,37.92,35.91,37.41,177957,1


4. Рассчитайте суммарный объем торгов для для одинаковых значений тикеров.

In [48]:
df_sp500.groupby(by='ticker').volume.sum()

ticker
A        8609336
AA      81898998
AAPL    52261170
ABC      9006756
ABT     18975870
          ...   
XTO     21297931
YHOO    56837171
YUM     10971538
ZION    15551119
ZMH      4938916
Name: volume, Length: 524, dtype: int64

5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

In [49]:
df_sp500_with_names = pd.read_csv('./sp500hst.txt', names=['date', 'ticker', 'open', 'high', 'low', 'close', 'volume'])

In [50]:
df_sp500_names = pd.read_csv('./sp_data2.csv',sep=';', names=['ticker', 'name', 'percent'])
df_sp500_names.sample(5)

Unnamed: 0,ticker,name,percent
338,ESS,Essex Property Trust,0.1%
18,PFE,Pfizer,0.8%
434,XRAY,Dentsply Sirona,0.0%
187,MNST,Monster Beverage,0.1%
461,PHM,PulteGroup,0.0%


In [51]:
df_sp500_with_names = df_sp500_with_names.merge(right=df_sp500_names,
                                                how='left',left_on='ticker'
                                                ,right_on='ticker')

In [52]:
df_sp500_with_names.loc[df_sp500_with_names.name.isna(), 'name'] = \
           df_sp500_with_names.loc[df_sp500_with_names.name.isna(), 'ticker']

In [53]:
df_sp500_with_names

Unnamed: 0,date,ticker,open,high,low,close,volume,name,percent
0,20090821,A,25.60,25.6100,25.220,25.55,34758,Agilent Technologies,0.1%
1,20090824,A,25.64,25.7400,25.330,25.50,22247,Agilent Technologies,0.1%
2,20090825,A,25.50,25.7000,25.225,25.34,30891,Agilent Technologies,0.1%
3,20090826,A,25.32,25.6425,25.145,25.48,33334,Agilent Technologies,0.1%
4,20090827,A,25.50,25.5700,25.230,25.54,70176,Agilent Technologies,0.1%
...,...,...,...,...,...,...,...,...,...
122569,20100813,ZMH,51.72,51.9000,51.380,51.44,14561,ZMH,
122570,20100816,ZMH,51.13,51.4700,50.600,51.00,13489,ZMH,
122571,20100817,ZMH,51.14,51.6000,50.890,51.21,20498,ZMH,
122572,20100819,ZMH,51.63,51.6300,50.170,50.22,18259,ZMH,


## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца с индексами в таблице `reviews` (безымянный столбец).

In [54]:
recipes = pd.read_csv('./recipes_sample.csv')
recipes.sample(5)

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
20188,peanut brownies,217374,35,322326,2007-03-18,9.0,peanut brownies are my all time favourite and ...,8.0
2801,ben s garlic cheddar mashed potatoes,257766,65,482933,2007-10-08,9.0,i like to fix this whenever i do not have gravy.,
8556,crock o cranberry meatballs,89272,440,136138,2004-04-17,5.0,i first had this at a graduation party. it's a...,10.0
1208,asian chicken ravioli with v8 creamy tomato sauce,368003,30,58439,2009-04-26,25.0,"am proud to say,\r\nthis recipe makes my day!\...",19.0
25671,spinach salad with salmon,499375,15,560491,2013-04-24,,a great salad can keep you going for hours -- ...,


In [55]:
reviews = pd.read_csv('./reviews_sample.csv')
reviews.sample(5)

Unnamed: 0.1,Unnamed: 0,user_id,recipe_id,date,rating,review
50902,948258,52282,14537,2004-03-17,5,this was the leanest corned beef i have ever m...
121949,1124965,15521,138305,2009-12-20,5,"Yummy! I left out the red bell pepper, and al..."
43351,402207,296612,27084,2006-03-03,0,"I tried this for supper tonight, and it was gr..."
104297,518758,626408,54715,2007-10-30,5,This is such a simple and excellent tasting re...
81363,15932,746639,7397,2008-02-19,0,"Super easy! I am not a great baker, but this c..."


*Как мы видим, данные безымянного столбца считались корректно*

1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

*Выведем основные параметры датафрейма recepies, для этого воспользуемся методом info():*

In [56]:
recipes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   name            30000 non-null  object 
 1   id              30000 non-null  int64  
 2   minutes         30000 non-null  int64  
 3   contributor_id  30000 non-null  int64  
 4   submitted       30000 non-null  object 
 5   n_steps         18810 non-null  float64
 6   description     29377 non-null  object 
 7   n_ingredients   21120 non-null  float64
dtypes: float64(2), int64(3), object(3)
memory usage: 1.8+ MB


*Как мы видим, датафрейм содержит 30000 строк, 8 столбцов, присутствуют такие типы столбцов, как строковый, целочисленный и численный с плавающей точкой.*

*Проделаем то же самое для датафрейма reviews:*

In [57]:
reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 126696 entries, 0 to 126695
Data columns (total 6 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   Unnamed: 0  126696 non-null  int64 
 1   user_id     126696 non-null  int64 
 2   recipe_id   126696 non-null  int64 
 3   date        126696 non-null  object
 4   rating      126696 non-null  int64 
 5   review      126679 non-null  object
dtypes: int64(4), object(2)
memory usage: 5.8+ MB


*Как мы видим, датафрейм содержит 126696 строк, 6 столбцов, присутствуют такие типы столбцов, как строковый и целочисленный.*

1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

*Посмотрим в какоих столбцах датафрейма recepies содержатся пропуски и в каких количествах:*

In [58]:
recipes.isna().sum()

name                  0
id                    0
minutes               0
contributor_id        0
submitted             0
n_steps           11190
description         623
n_ingredients      8880
dtype: int64

*Посчитаем долю строк, содержащих пропуски, в отношении к общему количеству строк:*

In [59]:
recipes.isna().sum()/len(recipes)

name              0.000000
id                0.000000
minutes           0.000000
contributor_id    0.000000
submitted         0.000000
n_steps           0.373000
description       0.020767
n_ingredients     0.296000
dtype: float64

*Проделаем то же самое для датафрейма reviews:*

In [60]:
reviews.isna().sum()

Unnamed: 0     0
user_id        0
recipe_id      0
date           0
rating         0
review        17
dtype: int64

In [61]:
reviews.isna().sum()/len(reviews)

Unnamed: 0    0.000000
user_id       0.000000
recipe_id     0.000000
date          0.000000
rating        0.000000
review        0.000134
dtype: float64

1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [62]:
recipes[['minutes','n_steps', 'n_ingredients']].mean()

minutes          123.358133
n_steps            9.805582
n_ingredients      9.008286
dtype: float64

In [63]:
reviews['rating'].mean()

4.410802235271832

1.5 Создайте серию из 10 случайных названий рецептов.

In [64]:
recepiesSample = recipes.name.sample(10)
recepiesSample

12491                               grapes in kirsch cream
3682                                   breaded cauliflower
11846    garlic roasted broccoli drizzled with balsamic...
12374                      grandma d s chicken noodle soup
23319                              sancocho new york style
5903                                      chicken picquant
7186                                    classic onion soup
8270                             creamy herb dijon chicken
21226              pork chops with tangy red currant sauce
28900     vine ripened tomato  sweet onion and basil salad
Name: name, dtype: object

1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [65]:
reviews = reviews.reindex()
reviews

Unnamed: 0.1,Unnamed: 0,user_id,recipe_id,date,rating,review
0,370476,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
1,624300,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
2,187037,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
3,706134,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
4,312179,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...
...,...,...,...,...,...,...
126691,1013457,1270706,335534,2009-05-17,4,This recipe was great! I made it last night. I...
126692,158736,2282344,8701,2012-06-03,0,This recipe is outstanding. I followed the rec...
126693,1059834,689540,222001,2008-04-08,5,"Well, we were not a crowd but it was a fabulou..."
126694,453285,2000242659,354979,2015-06-02,5,I have been a steak eater and dedicated BBQ gr...


1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [66]:
recipes[recipes.minutes <= 5]

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
7,say what banana sandwich,95926,5,118163,2004-07-20,4.0,you just have to try it to believe it.,
37,almost starbucks frappuccino,289671,5,89831,2008-03-02,6.0,since i serve this is very large glasses i hav...,6.0
38,amish cake frosting icing,44050,5,41706,2002-10-25,,yummmmmy! my amish mother-in-law shared this p...,
46,fraicheur vinaigrette,367987,5,797706,2009-04-26,,this is a lovely salad dressing from a local g...,7.0
77,spring in your step smoothie raw food,327979,5,424680,2008-09-30,2.0,this recipe was pulled off the internet.,
...,...,...,...,...,...,...,...,...
29794,yummy tuna salad,207363,5,319738,2007-01-23,2.0,this is my version of tuna salad. great as a ...,
29798,yummy scrummy banana shake,173389,5,322326,2006-06-17,,"there are no other words for it, it is yummy, ...",5.0
29817,zen wine spritzer,498523,1,2585084,2013-04-06,3.0,this is a light and refreshing beverage that i...,4.0
29831,zesty crouton salad,343767,5,166642,2008-12-15,,i love croutons so i had to save this recipe f...,7.0


### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

*Преобразуем тип столбца с помощью метода to_datetime библиотеки pandas и посмотрим на результат*

In [67]:
recipes.submitted = pd.to_datetime(recipes.submitted)
recipes.dtypes

name                      object
id                         int64
minutes                    int64
contributor_id             int64
submitted         datetime64[ns]
n_steps                  float64
description               object
n_ingredients            float64
dtype: object

*Посмотрим на получившиеся значения*

In [68]:
recipes.sample(5)

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
2629,beef fajita burrito,340257,15,1018770,2008-11-30,,serves 4,
20759,pimiento cheese sandwich spread,56474,15,66321,2003-03-17,2.0,found this recipe in an old southern cookbook-...,5.0
6828,chocolate peanut butter cookies,322287,25,780172,2008-08-30,7.0,"these are so easy kids can make them, perfect ...",
28419,uncle bill s corn on the cob microwave,132249,6,27416,2005-08-03,10.0,this is such a simple way of preparing and coo...,4.0
1439,authentic spanish sangria,148073,10,272641,2005-12-12,,i'm sick of getting american sangria that's ju...,8.0


*Загрузим столбец в нужном формате сразу и посмотрим на результат:*

In [69]:
recipes_with_date = pd.read_csv('./recipes_sample.csv', parse_dates=['submitted'])
recipes_with_date.dtypes

name                      object
id                         int64
minutes                    int64
contributor_id             int64
submitted         datetime64[ns]
n_steps                  float64
description               object
n_ingredients            float64
dtype: object

In [70]:
recipes_with_date.sample(5)

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
21899,quick barley soup,236129,30,412186,2007-06-20,3.0,easy with just a few ingredients.the fresh veg...,7.0
16142,light scalloped potatoes,55506,80,61388,2003-03-03,,that's right -- a lighter version of scalloped...,6.0
2691,beef tips on rice pressure cooker,402156,45,1461806,2009-12-01,9.0,a pressure cooker makes this much faster.,11.0
25026,soutzoukakia mini greek meatballs,433324,85,1138444,2010-07-27,12.0,this is my husband's favorite dish! most of t...,15.0
15974,lemon verbena blueberry scones,430349,40,177443,2010-06-19,24.0,i have an abundance of lemon verbena growing i...,13.0


2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [71]:
recipes[recipes.submitted >= '2010-01-01']

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
8,1 in canada chocolate chip cookies,453467,45,1848091,2011-04-11,12.0,this is the recipe that we use at my school ca...,11.0
13,blepandekager danish apple pancakes,503475,50,128473,2013-07-08,10.0,this recipe has been posted here for play in z...,
36,5 minute bread pizza,487173,45,2406227,2012-09-19,30.0,my son recently showed me a recipe for artisan...,8.0
39,bacon cheeseburger and fries soup,447429,60,1355934,2011-01-26,,"my son asked for cheeseburger soup, and having...",17.0
47,full cool macaroni and cheese,463219,25,383346,2011-08-28,8.0,a recipe from ricardo that is popular with kid...,11.0
...,...,...,...,...,...,...,...,...
29965,zucchini sausage casserole,472482,80,447199,2012-01-20,13.0,this was a real hit with my family! this recip...,
29976,zucchini tots,505053,20,798181,2013-07-31,,'the happy homemaker blog' shared this recipe ...,
29992,zucchini courgette soup good for weight watc...,415406,45,485109,2010-03-04,5.0,this is a favourite winter warmer. by british ...,
29994,zuppa by luisa,464576,70,226863,2011-09-20,14.0,this soup is a hearty meal! from luisa musso.,17.0


### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

*Для этого используем метод len() и посмотрим на результат:*

In [72]:
recipes['description_length'] = recipes.description.str.len()
recipes.sample(5)

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
19689,paifala american samoa half moon pies,465662,65,473343,2011-10-07,11.0,"this recipe is from week six of my food blog, ...",9.0,266.0
26540,swedish glogg,169759,60,83093,2006-05-25,9.0,"glögg, pronounced gloog, is a high octane, hot...",,647.0
517,almond flour stevia cookies,519547,28,1489145,2014-11-17,6.0,this is a basic cookie made with real whole fo...,6.0,264.0
8723,crock pot sweet and sour pork,223281,505,89831,2007-04-17,13.0,this recipe can be adapted to make on top of t...,17.0,127.0
3268,bleu cheese cold cole slaw,107308,20,81064,2004-12-31,5.0,this tangy cold slaw is served along with garl...,8.0,131.0


3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

*Для этого используем метод title() и посмотрим на результат:*

In [73]:
recipes.name = recipes.name.str.title()
recipes.sample(5)

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
22814,Roasted Red Onion Mayo,510337,35,2597942,2013-12-05,12.0,this is a great spread for almost any sandwich...,5.0,487.0
19035,Old Bay Tilapia Sweet Potatoes And Veggies,197390,60,374416,2006-11-23,,i'm not a huge fan of the classic sweet potato...,10.0,314.0
4739,Caribbean Crabmeat Salad With Creamy Gingered ...,146481,15,232669,2005-11-28,5.0,this is so delicious and easy to make. makes a...,16.0,309.0
29998,Zydeco Soup,486161,60,227978,2012-08-29,,this is a delicious soup that i originally fou...,,648.0
1577,B B Homemade Granola,264683,40,621920,2007-11-10,4.0,i got this granola recipe from a lovely countr...,7.0,152.0


3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами). Обратите внимание, что между словами может располагаться несколько пробелов подряд.

In [74]:
recipes

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
0,George S At The Cove Black Bean Soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,330.0
1,Healthy For Them Yogurt Popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,255.0
2,I Can T Believe It S Spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,39.0
3,Italian Gut Busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,154.0
4,Love Is In The Air Beef Fondue Sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,587.0
...,...,...,...,...,...,...,...,...,...
29995,Zurie S Holey Rustic Olive And Cheddar Bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0,484.0
29996,Zwetschgenkuchen Bavarian Plum Cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0,286.0
29997,Zwiebelkuchen Southwest German Onion Cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,,311.0
29998,Zydeco Soup,486161,60,227978,2012-08-29,,this is a delicious soup that i originally fou...,,648.0


In [75]:
recipes['name_word_count'] = recipes.name.str.split(pat='\s+').str.len()
recipes.sample(5)

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length,name_word_count
14551,Irish Cream Fudge,87673,30,108846,2004-03-29,9.0,this delicious treat makes a great gift and fa...,9.0,410.0,3
1137,Arroz Con Pollo,321647,75,74281,2008-08-27,,i could not stop thinking about the arroz con ...,23.0,317.0,3
21640,Pumpernickel Prune Bread Abm,368038,250,599450,2009-04-26,1.0,"based on a recipe from bh&g’s cookbook, bread ...",11.0,544.0,4
12755,Green Split Pea And Bacon Soup,312598,55,286566,2008-07-07,,from super food ideas july 2008. though i hav...,10.0,439.0,6
21704,Pumpkin Hazelnut Cheesecake,36897,0,15718,2002-08-12,14.0,,,,3


### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

In [76]:
recipes.contributor_id.value_counts().idxmax()

89831

*Как мы видим, участник с id= 89831 добавил максимальное количество рецептов*

4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы? Обратите внимание, что отзыв с нулевым рейтингом или не заполненным текстовым описанием не считается отсутствующим.

*Посчитаем средний рейтинг к каждому из рецептов, для этого сгрупируем отзывы по recipe_id и применим агрегацию mean*

In [77]:
reviews.groupby(by='recipe_id').rating.agg('mean')

recipe_id
48        1.000000
55        4.750000
66        4.944444
91        4.750000
94        5.000000
            ...   
536547    5.000000
536610    0.000000
536728    4.000000
536729    4.750000
536747    0.000000
Name: rating, Length: 28100, dtype: float64

*Посмотрим, для скольких рецептов отсутствуют отзывы*

In [78]:
recipes_not_rated = recipes.merge(right=reviews, how='left', left_on='id',
                         right_on='recipe_id')[['id', 'name', 'user_id', 'rating']]
recipes_not_rated = recipes_not_rated[recipes_not_rated.user_id.isna()]



*Как мы видим, отзывы отсутствуют для 1900 рецептов*

4.3 Посчитайте количество рецептов с разбивкой по годам создания.

In [79]:
recipes.submitted.dt.year.value_counts()

2007    4429
2008    4029
2006    3473
2005    3130
2009    2963
2002    2644
2003    2334
2004    2153
2010    1538
2011     922
2012     659
2001     589
2013     490
1999     275
2014     139
2000     104
2015      42
2017      39
2016      24
2018      24
Name: submitted, dtype: int64

### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты, на которые не оставлен ни один отзыв, должны отсутствовать в полученной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и попытавшись найти строку, соответствующую этому рецепту, в полученном `DataFrame`.

*При помощи метода merge, создадим DataFrame, состоящий из четырех столбцов: id, name, user_id, rating. Объединять будем по полям 'id' и 'recipe_id', тип соединения - inner, так как нам нужны только рецепты с отзывами*

In [80]:
mergedDf = recipes.merge(right=reviews, how='inner', left_on='id',
                         right_on='recipe_id')[['id', 'name', 'user_id', 'rating']]
mergedDf

Unnamed: 0,id,name,user_id,rating
0,44123,George S At The Cove Black Bean Soup,743566,5
1,44123,George S At The Cove Black Bean Soup,76503,5
2,44123,George S At The Cove Black Bean Soup,34206,5
3,67664,Healthy For Them Yogurt Popsicles,494084,5
4,67664,Healthy For Them Yogurt Popsicles,303445,5
...,...,...,...,...
126691,486161,Zydeco Soup,305531,5
126692,486161,Zydeco Soup,1271506,5
126693,486161,Zydeco Soup,724631,5
126694,486161,Zydeco Soup,133174,5


*Протестируем написанный код, взяв несколько рецептов, к которым нет отзывов*

In [81]:
def mergeTestCase():
    tests = {223349, 249846, 216068}    
    result = mergedDf[mergedDf.id.isin(tests)].size
    if result == 0:
        print('OK')
    else:
        print('Not passed')
    
mergeTestCase()

OK


*Как мы видим, все работает корректно*

5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`, где столбец `review_count` содержит кол-во отзывов, оставленных на рецепт `recipe_id`. У рецептов, на которые не оставлен ни один отзыв, в столбце `review_count` должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и найдя строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [82]:
review_count_df = recipes.merge(right=reviews.groupby(by='recipe_id',as_index=False).agg('count'),
                                how='left', left_on='id', right_on='recipe_id')[['id','name', 'review']]
review_count_df.columns = ['recipe_id', 'name', 'review_count']
review_count_df.review_count = review_count_df.review_count.fillna(0)
review_count_df


Unnamed: 0,recipe_id,name,review_count
0,44123,George S At The Cove Black Bean Soup,3.0
1,67664,Healthy For Them Yogurt Popsicles,8.0
2,38798,I Can T Believe It S Spinach,3.0
3,35173,Italian Gut Busters,1.0
4,84797,Love Is In The Air Beef Fondue Sauces,8.0
...,...,...,...
29995,267661,Zurie S Holey Rustic Olive And Cheddar Bread,4.0
29996,386977,Zwetschgenkuchen Bavarian Plum Cake,2.0
29997,103312,Zwiebelkuchen Southwest German Onion Cake,6.0
29998,486161,Zydeco Soup,6.0


*Проверим правильность работы кода*

In [83]:
review_count_df[review_count_df.recipe_id == 216068]

Unnamed: 0,recipe_id,name,review_count
49,216068,Goulashy Beef Stew For The Slow Cooker,0.0


In [84]:
def reviewCountTestCase():
    tests = {223349, 249846, 216068}    
    result = review_count_df[review_count_df.recipe_id.isin(tests)].review_count.sum()
    if result == 0:
        print('OK')
    else:
        print('Not passed')
    
reviewCountTestCase()

OK


5.3. Выясните, рецепты, добавленные в каком году, имеют наименьший средний рейтинг?

In [85]:
mergedDfDate = recipes.merge(right=reviews, how='inner', left_on='id',
                         right_on='recipe_id')[['id', 'name', 'user_id', 'rating', 'submitted']]
mergedDfDate['year'] = mergedDfDate.submitted.dt.year
mergedDfDate.groupby(by='year').rating.agg('mean').idxmin()

2017

*Как мы видим, минимальный средний рейтинг имеют рецепты, добавленные в 2017 году*

### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

In [86]:
recipes.sort_values(by='name_word_count', ascending=False).to_csv('./recipes_result.csv')

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.

In [87]:
with pd.ExcelWriter('./recipes_result_excel.xlsx') as writer:
    mergedDf.to_excel(writer, sheet_name='Рецепты с оценками')
    review_count_df.to_excel(writer, sheet_name='Количество отзывов по рецептам') 

#### [версия 2]
* Уточнены формулировки задач 1.1, 3.3, 4.2, 5.1, 5.2, 5.3