# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [None]:
import pandas as pd
import numpy as np

In [None]:
txt = pd.read_csv('sp500hst.txt', delimiter=',', names=['date','ticker','open','high','low','close','volume'])
txt[:10]

Unnamed: 0,date,ticker,open,high,low,close,volume
0,20090821,A,25.6,25.61,25.22,25.55,34758
1,20090824,A,25.64,25.74,25.33,25.5,22247
2,20090825,A,25.5,25.7,25.225,25.34,30891
3,20090826,A,25.32,25.6425,25.145,25.48,33334
4,20090827,A,25.5,25.57,25.23,25.54,70176
5,20090828,A,25.67,26.05,25.63,25.83,39694
6,20090831,A,25.45,25.74,25.31,25.68,51064
7,20090901,A,25.51,26.33,25.48,25.85,66422
8,20090902,A,25.97,25.97,24.96,25.22,64614
9,20090903,A,25.47,25.54,25.0,25.29,46369


2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

In [None]:
txt.open.mean(), txt.high.mean(), txt.low.mean(), txt.close.mean(), txt.volume.mean()

(42.59545765904678,
 43.102243387667855,
 42.05446366521448,
 42.60186484817335,
 81395.06813843067)

3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [None]:
txt['date'] = pd.to_datetime(txt['date'])
txt['month'] = txt['date'].dt.month
txt[:7]

Unnamed: 0,date,ticker,open,high,low,close,volume,month
0,1970-01-01 00:00:00.020090821,A,25.6,25.61,25.22,25.55,34758,1
1,1970-01-01 00:00:00.020090824,A,25.64,25.74,25.33,25.5,22247,1
2,1970-01-01 00:00:00.020090825,A,25.5,25.7,25.225,25.34,30891,1
3,1970-01-01 00:00:00.020090826,A,25.32,25.6425,25.145,25.48,33334,1
4,1970-01-01 00:00:00.020090827,A,25.5,25.57,25.23,25.54,70176,1
5,1970-01-01 00:00:00.020090828,A,25.67,26.05,25.63,25.83,39694,1
6,1970-01-01 00:00:00.020090831,A,25.45,25.74,25.31,25.68,51064,1


4. Рассчитайте суммарный объем торгов для для одинаковых значений тикеров.

In [None]:
txt[['ticker','volume']].groupby('ticker').sum()[:7]

Unnamed: 0_level_0,volume
ticker,Unnamed: 1_level_1
A,8609336
AA,81898998
AAPL,52261170
ABC,9006756
ABT,18975870
ACE,2906506
ACS,1801668


5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

In [None]:
txt1 = pd.read_csv('sp_data2.csv', delimiter=';', names=['ticker','name_ticker','%'])
txt1[:7]

Unnamed: 0,ticker,name_ticker,%
0,AAPL,Apple,3.6%
1,AMZN,Amazon.com,3.2%
2,GOOGL,Alphabet,3.1%
3,GOOG,Alphabet,3.1%
4,MSFT,Microsoft,3.0%
5,FB,Facebook,2.2%
6,BRK.B,Berkshire Hathaway,1.8%


In [None]:
txt2 = pd.merge(txt, txt1)
txt2[:7]

Unnamed: 0,date,ticker,open,high,low,close,volume,month,name_ticker,%
0,1970-01-01 00:00:00.020090821,A,25.6,25.61,25.22,25.55,34758,1,Agilent Technologies,0.1%
1,1970-01-01 00:00:00.020090824,A,25.64,25.74,25.33,25.5,22247,1,Agilent Technologies,0.1%
2,1970-01-01 00:00:00.020090825,A,25.5,25.7,25.225,25.34,30891,1,Agilent Technologies,0.1%
3,1970-01-01 00:00:00.020090826,A,25.32,25.6425,25.145,25.48,33334,1,Agilent Technologies,0.1%
4,1970-01-01 00:00:00.020090827,A,25.5,25.57,25.23,25.54,70176,1,Agilent Technologies,0.1%
5,1970-01-01 00:00:00.020090828,A,25.67,26.05,25.63,25.83,39694,1,Agilent Technologies,0.1%
6,1970-01-01 00:00:00.020090831,A,25.45,25.74,25.31,25.68,51064,1,Agilent Technologies,0.1%


## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца с индексами в таблице `reviews` (безымянный столбец).

In [None]:
recipes = pd.read_csv('recipes_sample.csv', delimiter=',')
recipes[:7]

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,
5,mennonite corn fritters,44045,15,41706,2002-10-25,,ok - my heritage has been revealed. :) these a...,
6,open sesame noodles,107229,28,173674,2004-12-30,8.0,this is a very versatile and widely enjoyed pa...,12.0


In [None]:
reviews = pd.read_csv('reviews_sample.csv', delimiter=',')
reviews[:7]

Unnamed: 0.1,Unnamed: 0,user_id,recipe_id,date,rating,review
0,370476,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
1,624300,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
2,187037,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
3,706134,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
4,312179,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...
5,910362,35106,31322,2003-01-03,4,I forgot to add skim milk but it still tasted ...
6,212649,404333,199579,2006-12-10,5,"Made this for dinner it was so excellent, fina..."


1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [None]:
len(recipes.index), len(recipes.columns), [type(recipes[col][0]) for col in list(recipes.columns)]

(30000,
 9,
 [str,
  numpy.int64,
  numpy.int64,
  numpy.int64,
  str,
  numpy.float64,
  str,
  numpy.float64,
  numpy.int64])

In [None]:
len(reviews.index), len(reviews.columns), [type(reviews[col][0]) for col in list(reviews.columns)]

(126696, 6, [numpy.int64, numpy.int64, numpy.int64, str, numpy.int64, str])

1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [None]:
recipes.isna().any(axis=1).sum()/len(recipes.index)

0.5684666666666667

In [None]:
reviews.isna().any(axis=1).sum()/len(reviews.index)

0.00013417945317926376

1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [None]:
recipes_type = {col:type(recipes[col][0]) for col in list(recipes.columns)}

for col,tp in recipes_type.items():
    if tp != str:
        print(f'column {col} mean = {recipes[col].mean()}')

column id mean = 221879.294
column minutes mean = 123.35813333333333
column contributor_id mean = 5635900.5728
column n_steps mean = 9.805582137161085
column n_ingredients mean = 9.008285984848484
column description_length mean = 36.57083333333333


In [None]:
reviews_type = {col:type(reviews[col][0]) for col in list(reviews.columns)}

for col,tp in reviews_type.items():
    if tp != str:
        print(f'column {col} mean = {reviews[col].mean()}')

column Unnamed: 0 mean = 566089.8211466818
column user_id mean = 140801264.7374108
column recipe_id mean = 160094.38706036497
column rating mean = 4.410802235271832


1.5 Создайте серию из 10 случайных названий рецептов.

sample()- случайная выборка строк из DataFrame

In [None]:
random_rec = recipes['name'].sample(n=10)
random_rec

17539               mexican style pork   rice soup
27012                       taramosalata  fish roe
25225              spiced brown sugar carrot bread
7100                citron presse  french lemonade
16061                                 lentil chili
18365    mustard chicken and cabbage   hcg phase 2
227                         55 minute dinner rolls
22186                        raspberry lemon  bars
14612                        italian beef stir fry
13703                 herringpudding   sillpudding
Name: name, dtype: object

1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [None]:
reviews['index'] = reviews.index -1 #индексы начиная с 0
reviews.set_index('index', inplace=True) #установка 'index' в качестве индекса DataFrame
reviews[:7]

Unnamed: 0_level_0,Unnamed: 0,user_id,recipe_id,date,rating,review
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
-1,370476,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
0,624300,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
1,187037,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
2,706134,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
3,312179,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...
4,910362,35106,31322,2003-01-03,4,I forgot to add skim milk but it still tasted ...
5,212649,404333,199579,2006-12-10,5,"Made this for dinner it was so excellent, fina..."


In [None]:
# еще вариант
new_reviews = pd.DataFrame(reviews, index = np.arange(len(reviews)))
new_reviews

Unnamed: 0.1,Unnamed: 0,user_id,recipe_id,date,rating,review
0,624300.0,4.318130e+05,142201.0,2007-09-16,5.0,So simple and so tasty! I used a yellow capsi...
1,187037.0,4.007080e+05,252013.0,2008-01-10,4.0,"Very nice breakfast HH, easy to make and yummy..."
2,706134.0,2.001852e+09,404716.0,2017-12-11,5.0,These are a favorite for the holidays and so e...
3,312179.0,9.581000e+04,129396.0,2008-03-14,5.0,Excellent soup! The tomato flavor is just gre...
4,910362.0,3.510600e+04,31322.0,2003-01-03,4.0,I forgot to add skim milk but it still tasted ...
...,...,...,...,...,...,...
126691,158736.0,2.282344e+06,8701.0,2012-06-03,0.0,This recipe is outstanding. I followed the rec...
126692,1059834.0,6.895400e+05,222001.0,2008-04-08,5.0,"Well, we were not a crowd but it was a fabulou..."
126693,453285.0,2.000243e+09,354979.0,2015-06-02,5.0,I have been a steak eater and dedicated BBQ gr...
126694,691207.0,4.634350e+05,415599.0,2010-09-30,5.0,Wonderful and simple to prepare seasoning blen...


1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [None]:
recipes[(recipes.minutes <= 20) & (recipes.n_ingredients <= 5)][:10]

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
28,quick biscuit bread,302399,20,213909,2008-05-06,11.0,this is a wonderful quick bread to make as an ...,5.0,23
60,peas fit for a king or queen,303944,20,213909,2008-05-16,,this recipe is so simple and the flavors are s...,5.0,34
90,hawaiian sunrise mimosa,100837,5,58104,2004-09-29,4.0,pineapple mimosa was changed to hawaiian sunri...,3.0,54
91,tasty dish s banana pudding in 2 minutes,286484,2,47892,2008-02-13,,"""mmmm, i love bananas!"" a --tasty dish-- origi...",4.0,18
94,1 minute meatballs,11361,13,4470,2001-09-03,,this is a real short cut for cooks in a hurry....,2.0,41
112,10 minute lime pie,513963,10,2284242,2014-03-04,12.0,a super easy stand-in for traditional key lime...,5.0,37
117,100 year old pie crust,126072,15,205983,2005-06-15,,very nice light crust,5.0,4
121,1000 island vegetable dip,121712,20,210965,2005-05-12,3.0,this is a delicious yet quick and easy vegetab...,2.0,44
143,2 minute broccoli,256464,4,165433,2007-10-01,7.0,"so easy. tender crisp. hot, steamed broccoli...",2.0,14
165,3 fruit salad,112648,15,107135,2005-03-04,,"we have this at the holidays, like everyone el...",5.0,41


### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

In [None]:
recipes['submitted'] = pd.to_datetime(recipes['submitted']) #время как строку, в корректное представление времени
recipes[:7]

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,61
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,46
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,8
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,30
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,113
5,mennonite corn fritters,44045,15,41706,2002-10-25,,ok - my heritage has been revealed. :) these a...,,27
6,open sesame noodles,107229,28,173674,2004-12-30,8.0,this is a very versatile and widely enjoyed pa...,12.0,55


2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [None]:
recipes[recipes['submitted'].dt.year <= 2010][:5]

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,61
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,46
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,8
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,30
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,113


### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

In [None]:
import re
recipes['description_length'] = [len(re.split(' ', str(row))) for row in recipes.description]
recipes[:7]

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,61
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,46
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,8
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,30
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,113
5,mennonite corn fritters,44045,15,41706,2002-10-25,,ok - my heritage has been revealed. :) these a...,,27
6,open sesame noodles,107229,28,173674,2004-12-30,8.0,this is a very versatile and widely enjoyed pa...,12.0,55


3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

str.capitalize() преобразовывает первую буквы строки к прописную

In [None]:
recipes['name'] = recipes['name'].str.capitalize()
recipes[:4]

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
0,George s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,61
1,Healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,46
2,I can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,8
3,Italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,30


3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами). Обратите внимание, что между словами может располагаться несколько пробелов подряд.

In [None]:
recipes['name_word_count'] = [len(row.split()) for row in recipes.name]
recipes[:4]

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length,name_word_count
0,George s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,61,8
1,Healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,46,5
2,I can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,8,7
3,Italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,30,3


### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

ДЛЯ СЕБЯ:
- В pandas, метод size() возвращает значения числа элементов в группах, и при этом возвращает серию, а метод count() возвращает количество непропущенных значений в каждой группе, и при этом возвращает таблицу (DataFrame).
- При использовании метода size(), вы получите серию, где индексы будут значениями, по которым производилась группировка (например, значениями в столбце contributor_id), а значениями серии будут количество элементов в каждой группе.
- При использовании метода count(), вы получите таблицу (DataFrame), в которой каждая строка соответствует группе, каждый столбец будет представлять собой столбцы исходной таблицы, а значения будут отображать количество непропущенных значений в каждом столбце для каждой группы.

size() возвращает количество элементов в каждой группе, включая пропущенные значения (NaN), если они есть

In [None]:
recipes.groupby('contributor_id').size()

contributor_id
1530            5
1533          186
1534           50
1535           40
1538            8
             ... 
2001968497      2
2002059754      1
2002234079      1
2002234259      1
2002247884      1
Length: 8404, dtype: int64

In [None]:
recipes.groupby('contributor_id').count()

Unnamed: 0_level_0,name,id,minutes,submitted,n_steps,description,n_ingredients,description_length,name_word_count
contributor_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1530,5,5,5,5,2,2,3,5,5
1533,186,186,186,186,114,70,133,186,186
1534,50,50,50,50,27,15,36,50,50
1535,40,40,40,40,21,38,29,40,40
1538,8,8,8,8,5,3,6,8,8
...,...,...,...,...,...,...,...,...,...
2001968497,2,2,2,2,0,2,1,2,2
2002059754,1,1,1,1,1,1,1,1,1
2002234079,1,1,1,1,1,1,1,1,1
2002234259,1,1,1,1,1,1,0,1,1


idxmax() возвращает индекс (то есть метку или номер строки) первого вхождения самого большого значения

In [None]:
recipes.groupby('contributor_id').size().idxmax()

89831

4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы? Обратите внимание, что отзыв с нулевым рейтингом или не заполненным текстовым описанием не считается отсутствующим.

In [None]:
reviews.rating.isna().sum() # количество рецептов, для которых отсутствуют отзывы

0

In [None]:
rating = reviews.groupby('recipe_id')['rating'].mean()
rating[:5], rating[57993]

(recipe_id
 48    1.000000
 55    4.750000
 66    4.944444
 91    4.750000
 94    5.000000
 Name: rating, dtype: float64,
 4.818181818181818)

4.3 Посчитайте количество рецептов с разбивкой по годам создания.

In [None]:
recipes.groupby(recipes['submitted'].dt.year).size()

submitted
1999     275
2000     104
2001     589
2002    2644
2003    2334
2004    2153
2005    3130
2006    3473
2007    4429
2008    4029
2009    2963
2010    1538
2011     922
2012     659
2013     490
2014     139
2015      42
2016      24
2017      39
2018      24
dtype: int64

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты, на которые не оставлен ни один отзыв, должны отсутствовать в полученной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и попытавшись найти строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [None]:
merged = pd.merge(recipes, reviews, left_on = 'id', right_on = 'recipe_id')
merged = merged[merged['review'].notnull()] #удаление строк с нулевыми review
# merged.sort_values('review')   #проверка
desired_columns = ['id', 'name', 'user_id', 'rating']
merged = merged[desired_columns].sort_values('id')
# .sort_values('id'): строки будут упорядочены по возрастанию значения идентификаторов 'id'
merged

Unnamed: 0,id,name,user_id,rating
16365,48,Boston cream pie,32421,0
16366,48,Boston cream pie,68674,2
14328,55,Betty crocker s southwestern guacamole dip,165567,5
14330,55,Betty crocker s southwestern guacamole dip,53959,4
14331,55,Betty crocker s southwestern guacamole dip,1060485,5
...,...,...,...,...
36930,536729,Creole watermelon feta salad,226863,4
71115,536747,Lemon pom pom cake,2001996022,0
71112,536747,Lemon pom pom cake,2002007477,0
71114,536747,Lemon pom pom cake,2001285346,0


5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`, где столбец `review_count` содержит кол-во отзывов, оставленных на рецепт `recipe_id`. У рецептов, на которые не оставлен ни один отзыв, в столбце `review_count` должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и найдя строку, соответствующую этому рецепту, в полученном `DataFrame`.

1. Объединяет таблицы reviews и recipes по столбцам 'recipe_id' и 'id' соответственно. Таблица сортируется по столбцу 'recipe_id'.
2. Создает список desired_columns2, содержащий столбцы 'recipe_id', 'name' и 'review_count'.
3. Создает новую таблицу nulls, которая содержит строки, где отзыв (review) отсутствует, и заполняет значения review_count нулями.
4. Вычисляет количество отзывов для каждого рецепта (recipe_id) в объединенной таблице.
5. Объединяет таблицу connected_dataframe с таблицей review_count по столбцу 'recipe_id'.
6. Добавляет строки из таблицы nulls в объединенную таблицу и удаляет дубликаты, сортируя результат по 'review_count'.
7. Выводит итоговую таблицу connected_dataframe_with_review_count со столбцами 'recipe_id', 'name' и 'review_count'.

In [None]:
connected_dataframe = pd.merge(reviews, recipes, left_on = 'recipe_id', right_on = 'id').sort_values('recipe_id')

desired_columns2 = ['recipe_id', 'name', 'review_count']

nulls = connected_dataframe[connected_dataframe['review'].isnull()][desired_columns2[:-1]]
nulls['review_count'] = 0

review_count = connected_dataframe.groupby('recipe_id')['review'].count().reset_index(name = 'review_count')
connected_dataframe_with_review_count = pd.merge(connected_dataframe, review_count, left_on = 'recipe_id', right_on = 'recipe_id')

connected_dataframe_with_review_count = connected_dataframe_with_review_count[desired_columns2]._append(nulls).sort_values('review_count').drop_duplicates()
connected_dataframe_with_review_count

Unnamed: 0,recipe_id,name,review_count
110660,524744,Thanksgiving piecaken,0
85304,3662,German chocolate sauerkraut cake,0
9908,9054,Leftover mashed potato pancakes,0
52497,15553,Clove and cinnamon tea,0
102425,25190,Meal in a bowl noodle soup for 1 double fo...,0
...,...,...,...
29066,50719,The sweetest blueberry muffins,486
58854,107786,Beth s melt in your mouth barbecue ribs oven,591
69596,135350,Fannie farmer s classic baked macaroni cheese,674
46092,82102,Kittencal s moist cheddar garlic oven fried ch...,708


5.3. Выясните, рецепты, добавленные в каком году, имеют наименьший средний рейтинг?

1. Преобразует столбец 'submitted', содержащий даты, в числовой формат, указывающий на год, с помощью метода dt.year.
2. Группирует данные в connected_dataframe по столбцу 'submitted' (который теперь содержит только год) и вычисляет средний рейтинг (среднюю оценку) для каждого года.
3. Создает новый DataFrame mean_rating, содержащий столбцы 'submitted' (переименованный в 'year_of_recipe') и 'mean_rating', где 'mean_rating' представляет собой средний рейтинг для каждого года.
4. Переименовывает столбец 'submitted' в 'year_of_recipe'.
5. Сортирует данные в таблице mean_rating по столбцу 'mean_rating', чтобы результаты были отсортированы по среднему рейтингу в порядке возрастания.

In [None]:
connected_dataframe['submitted'] = connected_dataframe['submitted'].dt.year
mean_rating = connected_dataframe.groupby('submitted')['rating'].mean().reset_index(name = 'mean_rating')
mean_rating.rename(columns = {'submitted': 'year_of_recipe'}).sort_values('mean_rating')

Unnamed: 0,year_of_recipe,mean_rating
18,2017,2.75
19,2018,3.388889
17,2016,3.538462
16,2015,4.207317
0,1999,4.274895
1,2000,4.284585
14,2013,4.336508
10,2009,4.360447
12,2011,4.37585
9,2008,4.387416


### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл.

In [None]:
recipes3 = recipes.sort_values(by='name_word_count', ascending=False)
recipes3

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length,name_word_count
26223,Subru uncle s whole green moong dal i ll be ma...,77188,95,6357,2003-11-21,,my dad and mom quite enjoy this lentil curry. ...,15.0,63,15
28083,Tsr version of t g i friday s black bean soup...,102274,75,74652,2004-10-19,9.0,from www.topsecretrecipes.com i got this copyc...,16.0,85,14
26222,Subru uncle s toor ki dal sindhi style dad m...,76908,65,6357,2003-11-18,29.0,this is the lentil curry that subru uncle(our ...,15.0,212,14
27876,Top secret recipes version of i h o p griddl...,113346,20,175727,2005-03-14,5.0,this recipe is top secret recipes version of i...,9.0,21,14
5734,Chicken curry or cat s vomit on a bed of magg...,294898,30,802799,2008-03-28,11.0,an old family recipe that's easy to make since...,12.0,28,13
...,...,...,...,...,...,...,...,...,...,...
3253,Blackmoons,323195,430,415934,2008-09-04,5.0,my mom was a newlywed in the 1950s when she fo...,,76,1
4138,Bushwhacker,156521,10,177392,2006-02-17,1.0,this drink is an excellent after dinner drink ...,6.0,23,1
2357,Basbousa,12957,60,18391,2001-10-20,,this is a traditional middle eastern dessert. ...,,12,1
15052,Josefinas,264859,20,498271,2007-11-11,7.0,"from the junior league of corpus christi tx, t...",,16,1


In [None]:
recipes3.to_csv('recipes.csv', index=False)

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.

In [None]:
with pd.ExcelWriter("ExcelWriter.xlsx") as writer:
    merged.to_excel(writer, sheet_name="recipes_with_rating")
    connected_dataframe_with_review_count.to_excel(writer, sheet_name="amount_of_reviews_on_recipes")

Exception ignored in: <function ZipFile.__del__ at 0x79e5aadf6320>
Traceback (most recent call last):
  File "/usr/lib/python3.10/zipfile.py", line 1821, in __del__
    self.close()
  File "/usr/lib/python3.10/zipfile.py", line 1838, in close
    self.fp.seek(self.start_dir)
ValueError: seek of closed file


NameError: name 'connected_dataframe_with_review_count' is not defined