# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

In [1]:
import pandas as pd

## Задачи для совместного разбора

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [2]:
df = pd.read_csv('./data/sp500hst.txt', sep=',',
                header=None, names=["date",  "ticker", "open", "high", "low", "close", "volume"])
df

Unnamed: 0,date,ticker,open,high,low,close,volume
0,20090821,A,25.60,25.6100,25.220,25.55,34758
1,20090824,A,25.64,25.7400,25.330,25.50,22247
2,20090825,A,25.50,25.7000,25.225,25.34,30891
3,20090826,A,25.32,25.6425,25.145,25.48,33334
4,20090827,A,25.50,25.5700,25.230,25.54,70176
...,...,...,...,...,...,...,...
122569,20100813,ZMH,51.72,51.9000,51.380,51.44,14561
122570,20100816,ZMH,51.13,51.4700,50.600,51.00,13489
122571,20100817,ZMH,51.14,51.6000,50.890,51.21,20498
122572,20100819,ZMH,51.63,51.6300,50.170,50.22,18259


2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

In [3]:
df[['open', 'high', 'low', 'close', 'volume']].iloc[3:7].mean(axis=0)

open         25.485000
high         25.750625
low          25.328750
close        25.632500
volume    48567.000000
dtype: float64

3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [4]:
df.dtypes

date        int64
ticker     object
open      float64
high      float64
low       float64
close     float64
volume      int64
dtype: object

In [5]:
pd.to_datetime(df['date'], format='%Y%m%d').dt.month

0         8
1         8
2         8
3         8
4         8
         ..
122569    8
122570    8
122571    8
122572    8
122573    8
Name: date, Length: 122574, dtype: int64

In [6]:
df['month'] = pd.to_datetime(df['date'], format='%Y%m%d').dt.month
df.dtypes

date        int64
ticker     object
open      float64
high      float64
low       float64
close     float64
volume      int64
month       int64
dtype: object

In [7]:
df['ticker'].str.lower()

0           a
1           a
2           a
3           a
4           a
         ... 
122569    zmh
122570    zmh
122571    zmh
122572    zmh
122573    zmh
Name: ticker, Length: 122574, dtype: object

4. Рассчитайте суммарный объем торгов для для одинаковых значений тикеров.

In [8]:
df.groupby('ticker')['open'].sum()

ticker
A        7407.540
AA       3206.305
AAPL    53343.525
ABC      6720.870
ABT     12494.210
          ...    
XTO      9240.550
YHOO     3852.710
YUM      9176.940
ZION     4805.350
ZMH     13774.140
Name: open, Length: 524, dtype: float64

In [9]:
df['open'].mean()

42.5954576590471

In [10]:
df.groupby('ticker')['open'].mean()

ticker
A        30.234857
AA       13.086959
AAPL    221.342427
ABC      27.432122
ABT      50.996776
           ...    
XTO      44.640338
YHOO     15.854774
YUM      37.456898
ZION     19.694057
ZMH      56.220980
Name: open, Length: 524, dtype: float64

5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

In [11]:
sp = pd.read_csv('./data/sp_data2.csv', sep=';',
                header=None, names=["ticker",  "company", "percent",])
sp.head()

Unnamed: 0,ticker,company,percent
0,AAPL,Apple,3.6%
1,AMZN,Amazon.com,3.2%
2,GOOGL,Alphabet,3.1%
3,GOOG,Alphabet,3.1%
4,MSFT,Microsoft,3.0%


In [12]:
pd.merge(df, sp, how='inner', left_on='ticker', right_on='ticker')

Unnamed: 0,date,ticker,open,high,low,close,volume,month,company,percent
0,20090821,A,25.60,25.6100,25.220,25.55,34758,8,Agilent Technologies,0.1%
1,20090824,A,25.64,25.7400,25.330,25.50,22247,8,Agilent Technologies,0.1%
2,20090825,A,25.50,25.7000,25.225,25.34,30891,8,Agilent Technologies,0.1%
3,20090826,A,25.32,25.6425,25.145,25.48,33334,8,Agilent Technologies,0.1%
4,20090827,A,25.50,25.5700,25.230,25.54,70176,8,Agilent Technologies,0.1%
...,...,...,...,...,...,...,...,...,...,...
82167,20100813,ZION,20.17,20.4300,19.840,19.89,25193,8,Zions Bancorp,0.0%
82168,20100816,ZION,19.81,19.9600,19.600,19.95,25914,8,Zions Bancorp,0.0%
82169,20100817,ZION,20.07,20.4700,19.830,20.31,31717,8,Zions Bancorp,0.0%
82170,20100819,ZION,19.83,20.0000,19.130,19.35,45935,8,Zions Bancorp,0.0%


In [13]:
merging_df = pd.merge(df, sp, how='left')
merging_df.fillna('-')

Unnamed: 0,date,ticker,open,high,low,close,volume,month,company,percent
0,20090821,A,25.60,25.6100,25.220,25.55,34758,8,Agilent Technologies,0.1%
1,20090824,A,25.64,25.7400,25.330,25.50,22247,8,Agilent Technologies,0.1%
2,20090825,A,25.50,25.7000,25.225,25.34,30891,8,Agilent Technologies,0.1%
3,20090826,A,25.32,25.6425,25.145,25.48,33334,8,Agilent Technologies,0.1%
4,20090827,A,25.50,25.5700,25.230,25.54,70176,8,Agilent Technologies,0.1%
...,...,...,...,...,...,...,...,...,...,...
122569,20100813,ZMH,51.72,51.9000,51.380,51.44,14561,8,-,-
122570,20100816,ZMH,51.13,51.4700,50.600,51.00,13489,8,-,-
122571,20100817,ZMH,51.14,51.6000,50.890,51.21,20498,8,-,-
122572,20100819,ZMH,51.63,51.6300,50.170,50.22,18259,8,-,-


## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца(ов) с индексами.

In [14]:
recipes = pd.read_csv('./data/recipes_sample.csv', sep=',')
reviews = pd.read_csv('./data/reviews_sample.csv', sep=',', index_col=0)

In [15]:
print('RECIPES')
recipes.head()

RECIPES


Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,


In [16]:
print('REVIEWS')
reviews.head()

REVIEWS


Unnamed: 0,user_id,recipe_id,date,rating,review
370476,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
624300,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
187037,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
706134,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
312179,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...


1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [17]:
# количество точек данных (строк)
print('RECIPES: ', recipes.shape[0])
print('REVIEWS: ', reviews.shape[0])

RECIPES:  30000
REVIEWS:  126696


In [18]:
# количество столбцов
print('RECIPES: ', recipes.shape[1])
print('REVIEWS: ', reviews.shape[1])

RECIPES:  8
REVIEWS:  5


In [19]:
# тип данных каждого столбца
print('RECIPES: \n\n', recipes.dtypes, '\n\n')
print('REVIEWS: \n\n', reviews.dtypes)

RECIPES: 

 name               object
id                  int64
minutes             int64
contributor_id      int64
submitted          object
n_steps           float64
description        object
n_ingredients     float64
dtype: object 


REVIEWS: 

 user_id       int64
recipe_id     int64
date         object
rating        int64
review       object
dtype: object


1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [20]:
pd.isna(recipes) #recipes

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,False,False,False,False,False,True,False,False
1,False,False,False,False,False,True,False,True
2,False,False,False,False,False,True,False,False
3,False,False,False,False,False,True,False,True
4,False,False,False,False,False,False,False,True
...,...,...,...,...,...,...,...,...
29995,False,False,False,False,False,False,False,False
29996,False,False,False,False,False,True,False,False
29997,False,False,False,False,False,True,False,True
29998,False,False,False,False,False,True,False,True


In [21]:
pd.isna(reviews) #reviews

Unnamed: 0,user_id,recipe_id,date,rating,review
370476,False,False,False,False,False
624300,False,False,False,False,False
187037,False,False,False,False,False
706134,False,False,False,False,False
312179,False,False,False,False,False
...,...,...,...,...,...
1013457,False,False,False,False,False
158736,False,False,False,False,False
1059834,False,False,False,False,False
453285,False,False,False,False,False


In [22]:
pd.isna(recipes).sum() #recipes

name                  0
id                    0
minutes               0
contributor_id        0
submitted             0
n_steps           11190
description         623
n_ingredients      8880
dtype: int64

In [23]:
pd.isna(reviews).sum() #reviews

user_id       0
recipe_id     0
date          0
rating        0
review       17
dtype: int64

In [24]:
print('RECIPES')
pd.isna(recipes).sum() / recipes.shape[0]

RECIPES


name              0.000000
id                0.000000
minutes           0.000000
contributor_id    0.000000
submitted         0.000000
n_steps           0.373000
description       0.020767
n_ingredients     0.296000
dtype: float64

In [25]:
#общая сумма
(pd.isna(recipes).sum() / recipes.shape[0]).sum()

0.6897666666666666

In [26]:
print('REVIEWS')
pd.isna(reviews).sum() / reviews.shape[0]

REVIEWS


user_id      0.000000
recipe_id    0.000000
date         0.000000
rating       0.000000
review       0.000134
dtype: float64

In [27]:
#общая сумма
(pd.isna(reviews).sum() / reviews.shape[0]).sum()

0.00013417945317926376

1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [28]:
recipes.select_dtypes('number').mean()[1:] #v1 | recipes

minutes           1.233581e+02
contributor_id    5.635901e+06
n_steps           9.805582e+00
n_ingredients     9.008286e+00
dtype: float64

In [29]:
recipes.describe().iloc[1][1:] #v2 | recipes

minutes           1.233581e+02
contributor_id    5.635901e+06
n_steps           9.805582e+00
n_ingredients     9.008286e+00
Name: mean, dtype: float64

In [30]:
reviews.select_dtypes('number').mean()[1:] #v1 | reviews

recipe_id    160094.387060
rating            4.410802
dtype: float64

In [31]:
reviews.describe().iloc[1][1:] #v2 | reviews

recipe_id    160094.387060
rating            4.410802
Name: mean, dtype: float64

1.5 Создайте серию из 10 случайных названий рецептов.

In [32]:
recipes['name'].sample(10)

18240                      muffin tin crab cakes
18438                  my kids shells and cheese
17220    mcdonald s big mac sauce copycat recipe
29996       zwetschgenkuchen  bavarian plum cake
28033                       tropical green beans
21001                     plum delicious chicken
15607                         lamb with apricots
13419                     healthier french toast
15477                           koffie van brunt
25028          soy bread made in a bread machine
Name: name, dtype: object

1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [33]:
reviews.reset_index(drop=True, inplace=True)
reviews.head()

Unnamed: 0,user_id,recipe_id,date,rating,review
0,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
1,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
2,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
3,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
4,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...


1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [34]:
recipes[(recipes.minutes <= 20) & (recipes.n_ingredients <= 5)].head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
28,quick biscuit bread,302399,20,213909,2008-05-06,11.0,this is a wonderful quick bread to make as an ...,5.0
60,peas fit for a king or queen,303944,20,213909,2008-05-16,,this recipe is so simple and the flavors are s...,5.0
90,hawaiian sunrise mimosa,100837,5,58104,2004-09-29,4.0,pineapple mimosa was changed to hawaiian sunri...,3.0
91,tasty dish s banana pudding in 2 minutes,286484,2,47892,2008-02-13,,"""mmmm, i love bananas!"" a --tasty dish-- origi...",4.0
94,1 minute meatballs,11361,13,4470,2001-09-03,,this is a real short cut for cooks in a hurry....,2.0


### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

In [35]:
recipes.submitted = pd.to_datetime(recipes.submitted, format='%Y-%m-%d')
recipes.submitted.dt.day

0        25
1        26
2        29
3        27
4        23
         ..
29995    25
29996    24
29997     3
29998    29
29999    15
Name: submitted, Length: 30000, dtype: int64

In [36]:
#модификация решения 1.1

recipes = pd.read_csv('./data/recipes_sample.csv', sep=',', parse_dates=[4], infer_datetime_format=True)
reviews = pd.read_csv('./data/reviews_sample.csv', sep=',', index_col=0, parse_dates=[3], infer_datetime_format=True)
recipes.submitted.dt.year

0        2002
1        2003
2        2002
3        2002
4        2004
         ... 
29995    2007
29996    2009
29997    2004
29998    2012
29999    2008
Name: submitted, Length: 30000, dtype: int64

2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [37]:
recipes[recipes.submitted.dt.year > 2010].head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
8,1 in canada chocolate chip cookies,453467,45,1848091,2011-04-11,12.0,this is the recipe that we use at my school ca...,11.0
13,blepandekager danish apple pancakes,503475,50,128473,2013-07-08,10.0,this recipe has been posted here for play in z...,
36,5 minute bread pizza,487173,45,2406227,2012-09-19,30.0,my son recently showed me a recipe for artisan...,8.0
39,bacon cheeseburger and fries soup,447429,60,1355934,2011-01-26,,"my son asked for cheeseburger soup, and having...",17.0
47,full cool macaroni and cheese,463219,25,383346,2011-08-28,8.0,a recipe from ricardo that is popular with kid...,11.0


### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

In [38]:
recipes['description_length'] = recipes.description.str.len()
recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,330.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,255.0
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,39.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,154.0
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,587.0


3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

In [39]:
recipes.name = recipes.name.str.title()
recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
0,George S At The Cove Black Bean Soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,330.0
1,Healthy For Them Yogurt Popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,255.0
2,I Can T Believe It S Spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,39.0
3,Italian Gut Busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,154.0
4,Love Is In The Air Beef Fondue Sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,587.0


3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами).

In [40]:
recipes['name_word_count'] = recipes.name.str.split().str.len()
recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length,name_word_count
0,George S At The Cove Black Bean Soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,330.0,8
1,Healthy For Them Yogurt Popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,255.0,5
2,I Can T Believe It S Spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,39.0,7
3,Italian Gut Busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,154.0,3
4,Love Is In The Air Beef Fondue Sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,587.0,8


### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

In [41]:
recipes.groupby('contributor_id').count().sort_values(by='id', ascending=False).head(1)

Unnamed: 0_level_0,name,id,minutes,submitted,n_steps,description,n_ingredients,description_length,name_word_count
contributor_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
89831,421,421,421,421,254,421,291,421,421


4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы?

In [42]:
reviews.groupby('recipe_id')['rating'].agg(['mean'])

Unnamed: 0_level_0,mean
recipe_id,Unnamed: 1_level_1
48,1.000000
55,4.750000
66,4.944444
91,4.750000
94,5.000000
...,...
536547,5.000000
536610,0.000000
536728,4.000000
536729,4.750000


In [43]:
reviews[reviews.isnull().any(axis=1)].shape[0] #отсутствую для 17 рецептов

17

4.3 Посчитайте количество рецептов с разбивкой по годам создания.

In [44]:
recipes.groupby(recipes.submitted.dt.year).count()['id']

submitted
1999     275
2000     104
2001     589
2002    2644
2003    2334
2004    2153
2005    3130
2006    3473
2007    4429
2008    4029
2009    2963
2010    1538
2011     922
2012     659
2013     490
2014     139
2015      42
2016      24
2017      39
2018      24
Name: id, dtype: int64

### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты без отзывов должны отсутствовать в данной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и выведя на экран строку из полученного `DataFrame`, содержащую информацию об этом отзыве.

In [45]:
new_table = pd.merge(recipes[['id', 'name']], reviews[['user_id', 'rating', 'recipe_id']].dropna(), 
                     how='right', left_on='id', right_on='recipe_id')
new_table.drop('recipe_id',  axis=1, inplace=True)

new_table.head()

Unnamed: 0,id,name,user_id,rating
0,57993,Salmon With Tomatoes,21752,5
1,57993,Salmon With Tomatoes,86359,5
2,57993,Salmon With Tomatoes,67026,5
3,57993,Salmon With Tomatoes,371697,5
4,57993,Salmon With Tomatoes,175286,5


In [46]:
# без null
new_table[new_table.id == 388773]

Unnamed: 0,id,name,user_id,rating
121794,388773,Chocolate Cherry Sourdough Bread,2849249,5


In [47]:
# проверка на id == 9054 -- отзыв существующий
new_table[(new_table.id == 9054) & (new_table.user_id == 2002151127)]

Unnamed: 0,id,name,user_id,rating
9978,9054,Leftover Mashed Potato Pancakes,2002151127,5


In [48]:
# проверка на id == 9054 -- отзыв несуществующий
new_table[(new_table.id == 9054) & (new_table.user_id == 2001567544)]

Unnamed: 0,id,name,user_id,rating
9901,9054,Leftover Mashed Potato Pancakes,2001567544,5


5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`. У рецептов, для которых отсутствуют отзывы, в соответствущем столбце должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и выведя на экран строку из полученного `DataFrame`, содержащую информацию об этом отзыве.


In [49]:
new_table_2 = pd.merge(recipes[['id', 'name', 'description']], reviews['recipe_id'], 
                     how='right', left_on='id', right_on='recipe_id')
new_table_2.drop('id',  axis=1, inplace=True)

new_table_2.head()

Unnamed: 0,name,description,recipe_id
0,Salmon With Tomatoes,this savoury dish is very popular in andalusia...,57993
1,Salmon With Tomatoes,this savoury dish is very popular in andalusia...,57993
2,Salmon With Tomatoes,this savoury dish is very popular in andalusia...,57993
3,Salmon With Tomatoes,this savoury dish is very popular in andalusia...,57993
4,Salmon With Tomatoes,this savoury dish is very popular in andalusia...,57993


In [50]:
new_table_3 = pd.merge(new_table_2, new_table_2.groupby('recipe_id')['description'].count(), 
                       how='left', left_on='recipe_id', right_on='recipe_id')
new_table_3.drop_duplicates('name', inplace=True)
new_table_3.drop('description_x',  axis=1, inplace=True)
new_table_3.rename(columns={'description_y': 'review_count'}, inplace=True)
new_table_3 = new_table_3.reindex(['recipe_id', 'name', 'review_count'], axis=1)

new_table_3.head()

Unnamed: 0,recipe_id,name,review_count
0,57993,Salmon With Tomatoes,11
11,142201,Lemon Cajun Stir Fry,12
23,252013,Cottage Cheese Honey And Cinnamon On Toast,1
24,404716,Belly Buttons,11
35,129396,Double Tomato Soup,2


In [51]:
new_table_3[new_table_3.recipe_id == 48]  #подтверждение правильности работы

Unnamed: 0,recipe_id,name,review_count
110259,48,Boston Cream Pie,0


5.3. Выясните, отзывы, добавленные в каком году, имеют наименьший средний рейтинг?

In [52]:
reviews.groupby(reviews.date.dt.year).mean()['rating'].min()

3.3530416951469584

### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

In [53]:
recipes.sort_values(by='name_word_count', ascending=False).to_csv('./result/result.csv')

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.

In [54]:
with pd.ExcelWriter("./result/result_2.xlsx") as writer:
    new_table.to_excel(writer, sheet_name="Рецепты с оценками", index=False)
    new_table_3.to_excel(writer, sheet_name="Количество отзывов по рецептам", index=False)