# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [128]:
import numpy as np
import pandas as pd

sr = pd.Series(np.loadtxt('sp500hst.txt', delimiter=',', dtype=np.string_).transpose().tolist(), index=["date", "ticker", "open", "high", "low", "close", "volume"])
print(sr)

print('\nВторой способ\n')

csv_data = pd.read_csv('sp500hst.txt', sep=',')
csv_data.columns = ["date", "ticker", "open", "high", "low", "close", "volume"]
print(csv_data)

date      [b'20090821', b'20090824', b'20090825', b'2009...
ticker    [b'A', b'A', b'A', b'A', b'A', b'A', b'A', b'A...
open      [b'25.6', b'25.64', b'25.5', b'25.32', b'25.5'...
high      [b'25.61', b'25.74', b'25.7', b'25.6425', b'25...
low       [b'25.22', b'25.33', b'25.225', b'25.145', b'2...
close     [b'25.55', b'25.5', b'25.34', b'25.48', b'25.5...
volume    [b'34758', b'22247', b'30891', b'33334', b'701...
dtype: object

Второй способ

            date ticker   open     high     low  close  volume
0       20090824      A  25.64  25.7400  25.330  25.50   22247
1       20090825      A  25.50  25.7000  25.225  25.34   30891
2       20090826      A  25.32  25.6425  25.145  25.48   33334
3       20090827      A  25.50  25.5700  25.230  25.54   70176
4       20090828      A  25.67  26.0500  25.630  25.83   39694
...          ...    ...    ...      ...     ...    ...     ...
122568  20100813    ZMH  51.72  51.9000  51.380  51.44   14561
122569  20100816    ZMH  51.13  51.4700  50.60

2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

In [129]:
import numpy as np
import pandas as pd

sr = pd.Series(np.loadtxt('sp500hst.txt', delimiter=',', dtype=np.string_).transpose().tolist(), index=["date", "ticker", "open", "high", "low", "close", "volume"])

for i in range(3, 7):
    df = pd.DataFrame(sr[i])
    print(np.average(df.astype('float64')))

43.102243387667855
42.05446366521448
42.60186484817335
81395.06813843067


3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [130]:
import numpy as np
import pandas as pd

data = np.loadtxt('sp500hst.txt', delimiter=',', dtype=np.string_)
df = pd.DataFrame(data, columns=["date", "ticker", "open", "high", "low", "close", "volume"])

df['month'] = pd.to_datetime(df['date'].astype(np.int32), format='%Y%m%d').dt.month
print(df)

               date  ticker      open        high        low     close  \
0       b'20090821'    b'A'   b'25.6'    b'25.61'   b'25.22'  b'25.55'   
1       b'20090824'    b'A'  b'25.64'    b'25.74'   b'25.33'   b'25.5'   
2       b'20090825'    b'A'   b'25.5'     b'25.7'  b'25.225'  b'25.34'   
3       b'20090826'    b'A'  b'25.32'  b'25.6425'  b'25.145'  b'25.48'   
4       b'20090827'    b'A'   b'25.5'    b'25.57'   b'25.23'  b'25.54'   
...             ...     ...       ...         ...        ...       ...   
122569  b'20100813'  b'ZMH'  b'51.72'     b'51.9'   b'51.38'  b'51.44'   
122570  b'20100816'  b'ZMH'  b'51.13'    b'51.47'    b'50.6'     b'51'   
122571  b'20100817'  b'ZMH'  b'51.14'     b'51.6'   b'50.89'  b'51.21'   
122572  b'20100819'  b'ZMH'  b'51.63'    b'51.63'   b'50.17'  b'50.22'   
122573  b'20100820'  b'ZMH'  b'50.03'    b'50.55'   b'49.48'  b'49.82'   

          volume  month  
0       b'34758'      8  
1       b'22247'      8  
2       b'30891'      8  
3      

4. Рассчитайте суммарный объем торгов для для одинаковых значений тикеров.

In [131]:
import pandas as pd

csv_data = pd.read_csv('sp500hst.txt', sep=',')
csv_data.columns = ["date", "ticker", "open", "high", "low", "close", "volume"]
summary = csv_data.groupby('ticker')['volume'].sum()
print(summary)

ticker
A        8574578
AA      81898998
AAPL    52261170
ABC      9006756
ABT     18975870
          ...   
XTO     21297931
YHOO    56837171
YUM     10971538
ZION    15551119
ZMH      4938916
Name: volume, Length: 524, dtype: int64


5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

In [132]:
import pandas as pd

csv_data = pd.read_csv('sp500hst.txt', sep=',', names=["date", "ticker", "open", "high", "low", "close", "volume"])
extra_data = pd.read_csv('sp_data2.csv', sep =';', names = ["ticker", "ticker_full_name", "percent"])

# Из данных от sp_data2.csv убирается третий столбец 
extra_data = extra_data.drop('percent', axis=1)
# К csv_data добавляется столбец ticker_full_name, опираясь на ticker
result = pd.merge(csv_data, extra_data)
print(result)

           date ticker   open     high     low  close  volume  \
0      20090821      A  25.60  25.6100  25.220  25.55   34758   
1      20090824      A  25.64  25.7400  25.330  25.50   22247   
2      20090825      A  25.50  25.7000  25.225  25.34   30891   
3      20090826      A  25.32  25.6425  25.145  25.48   33334   
4      20090827      A  25.50  25.5700  25.230  25.54   70176   
...         ...    ...    ...      ...     ...    ...     ...   
82167  20100813   ZION  20.17  20.4300  19.840  19.89   25193   
82168  20100816   ZION  19.81  19.9600  19.600  19.95   25914   
82169  20100817   ZION  20.07  20.4700  19.830  20.31   31717   
82170  20100819   ZION  19.83  20.0000  19.130  19.35   45935   
82171  20100820   ZION  19.15  19.2700  18.810  19.14   37225   

           ticker_full_name  
0      Agilent Technologies  
1      Agilent Technologies  
2      Agilent Technologies  
3      Agilent Technologies  
4      Agilent Technologies  
...                     ...  
82167    

## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца с индексами в таблице `reviews` (безымянный столбец).

In [133]:
import pandas as pd

recipes = pd.read_csv('recipes_sample.csv', header=0)
reviews = pd.read_csv('reviews_sample.csv', header=0)
# Можно ещё через .rename(columns={'old_name': 'new_name'})
reviews.columns.values[0] = 'review_id'
# Требуется модифицировать по условию из 2.2
recipes['submitted'] = pd.to_datetime(recipes['submitted'])

print(recipes.head())
print(reviews.head())

                                       name     id  minutes  contributor_id  \
0     george s at the cove  black bean soup  44123       90           35193   
1        healthy for them  yogurt popsicles  67664       10           91970   
2              i can t believe it s spinach  38798       30            1533   
3                      italian  gut busters  35173       45           22724   
4  love is in the air  beef fondue   sauces  84797       25            4470   

   submitted  n_steps                                        description  \
0 2002-10-25      NaN  an original recipe created by chef scott meska...   
1 2003-07-26      NaN  my children and their friends ask for my homem...   
2 2002-08-29      NaN            these were so go, it surprised even me.   
3 2002-07-27      NaN  my sister-in-law made these for us at a family...   
4 2004-02-23      4.0  i think a fondue is a very romantic casual din...   

   n_ingredients  
0           18.0  
1            NaN  
2          

1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [134]:
dataframes = [recipes, reviews]
names = ['Recipes', 'Reviews']

for i in range(len(dataframes)):
    print(f'{names[i]}: {len(dataframes[i].index)} indexes, {len(dataframes[i].columns)} columns')

print(f'\nRecipes:\n{recipes.dtypes}')
print(f'\nReviews:\n{reviews.dtypes}')

Recipes: 30000 indexes, 8 columns
Reviews: 126696 indexes, 6 columns

Recipes:
name                      object
id                         int64
minutes                    int64
contributor_id             int64
submitted         datetime64[ns]
n_steps                  float64
description               object
n_ingredients            float64
dtype: object

Reviews:
review_id     int64
user_id       int64
recipe_id     int64
date         object
rating        int64
review       object
dtype: object


1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [135]:
# .dropna() удаляет пропуски
print((len(recipes) - len(recipes.dropna())) / len(recipes))

0.5684666666666667


1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [136]:
print(f'Recipes: minutes mean = {recipes["minutes"].mean()}, n_ingredients mean = {recipes["n_ingredients"].dropna().mean()}')
print(f'Reviews: rating mean = {reviews["rating"].mean()}')

Recipes: minutes mean = 123.35813333333333, n_ingredients mean = 9.008285984848484
Reviews: rating mean = 4.410802235271832


1.5 Создайте серию из 10 случайных названий рецептов.

In [137]:
import numpy as np

ser = pd.Series([recipes.iloc[i]['name'] for i in np.random.randint(0, 29999, 10)])
print(ser)

0                            smoky peas   potatoes
1                        italian sausage orzo soup
2                      crock pot apple brown betty
3                                   birdseed bread
4                      jolean s hominy and sausage
5      moosewood red  gold  black  and green chili
6                         low fat creamy cucumbers
7                    melon balls with rum and lime
8    lisa s white chocolate strawberry mousse cake
9                          broccoli cheese squares
dtype: object


1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [138]:
reviews_temp = reviews.copy()
# Перенумерация строк с нуля (принудительная)
reviews_temp = reviews_temp.reset_index(drop=True)
print(reviews_temp)

        review_id     user_id  recipe_id        date  rating  \
0          370476       21752      57993  2003-05-01       5   
1          624300      431813     142201  2007-09-16       5   
2          187037      400708     252013  2008-01-10       4   
3          706134  2001852463     404716  2017-12-11       5   
4          312179       95810     129396  2008-03-14       5   
...           ...         ...        ...         ...     ...   
126691    1013457     1270706     335534  2009-05-17       4   
126692     158736     2282344       8701  2012-06-03       0   
126693    1059834      689540     222001  2008-04-08       5   
126694     453285  2000242659     354979  2015-06-02       5   
126695     691207      463435     415599  2010-09-30       5   

                                                   review  
0       Last week whole sides of frozen salmon fillet ...  
1       So simple and so tasty!  I used a yellow capsi...  
2       Very nice breakfast HH, easy to make and yu

1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [139]:
# Пересечение масок
# Для масок применимы операторы ~, &, |
print(recipes[(recipes['minutes'] <= 20) & (recipes['n_ingredients'] <= 5)]) 

                                                    name      id  minutes  \
28                                   quick biscuit bread  302399       20   
60                         peas  fit for a king or queen  303944       20   
90                     hawaiian sunrise           mimosa  100837        5   
91            tasty dish s   banana pudding in 2 minutes  286484        2   
94                                    1 minute meatballs   11361       13   
...                                                  ...     ...      ...   
29873  zip and steam red potatoes with butter and garlic  304922       13   
29874                          ziplock vanilla ice cream   74250       10   
29905                      zucchini and corn with cheese  256177       15   
29980               zucchini with jalapeno monterey jack  320622       10   
29983                          zucchini with serrano ham  162411       15   

       contributor_id  submitted  n_steps  \
28             213909 2008-05-

### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

In [140]:
recipes_temp = recipes.copy()
recipes_temp['submitted'] = pd.to_datetime(recipes_temp['submitted'])
print(recipes_temp)

                                               name      id  minutes  \
0             george s at the cove  black bean soup   44123       90   
1                healthy for them  yogurt popsicles   67664       10   
2                      i can t believe it s spinach   38798       30   
3                              italian  gut busters   35173       45   
4          love is in the air  beef fondue   sauces   84797       25   
...                                             ...     ...      ...   
29995  zurie s holey rustic olive and cheddar bread  267661       80   
29996          zwetschgenkuchen  bavarian plum cake  386977      240   
29997   zwiebelkuchen   southwest german onion cake  103312       75   
29998                                   zydeco soup  486161       60   
29999        cookies by design   cookies on a stick  298512       29   

       contributor_id  submitted  n_steps  \
0               35193 2002-10-25      NaN   
1               91970 2003-07-26      NaN   


2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [141]:
print(recipes[recipes['submitted'].dt.year <= 2010])

                                               name      id  minutes  \
0             george s at the cove  black bean soup   44123       90   
1                healthy for them  yogurt popsicles   67664       10   
2                      i can t believe it s spinach   38798       30   
3                              italian  gut busters   35173       45   
4          love is in the air  beef fondue   sauces   84797       25   
...                                             ...     ...      ...   
29993                     zuni caf zucchini pickles  316950     2895   
29995  zurie s holey rustic olive and cheddar bread  267661       80   
29996          zwetschgenkuchen  bavarian plum cake  386977      240   
29997   zwiebelkuchen   southwest german onion cake  103312       75   
29999        cookies by design   cookies on a stick  298512       29   

       contributor_id  submitted  n_steps  \
0               35193 2002-10-25      NaN   
1               91970 2003-07-26      NaN   


### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

In [176]:
desc_len_column = pd.DataFrame({'description_length': recipes['description'].str.len()})
recipes_temp_3_1 = pd.concat([recipes, desc_len_column], axis=1)
print(recipes_temp_3_1)

                                               name      id  minutes  \
0             george s at the cove  black bean soup   44123       90   
1                healthy for them  yogurt popsicles   67664       10   
2                      i can t believe it s spinach   38798       30   
3                              italian  gut busters   35173       45   
4          love is in the air  beef fondue   sauces   84797       25   
...                                             ...     ...      ...   
29995  zurie s holey rustic olive and cheddar bread  267661       80   
29996          zwetschgenkuchen  bavarian plum cake  386977      240   
29997   zwiebelkuchen   southwest german onion cake  103312       75   
29998                                   zydeco soup  486161       60   
29999        cookies by design   cookies on a stick  298512       29   

       contributor_id  submitted  n_steps  \
0               35193 2002-10-25      NaN   
1               91970 2003-07-26      NaN   


3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

In [178]:
recipes_temp_3_2 = recipes.copy()
for col in recipes_temp_3_2.columns:
    try:
        recipes_temp_3_2[col] = recipes_temp_3_2[col].str.title()
    except AttributeError:
        pass  # Столбец не со строками
print(recipes_temp_3_2)

                                               name      id  minutes  \
0             George S At The Cove  Black Bean Soup   44123       90   
1                Healthy For Them  Yogurt Popsicles   67664       10   
2                      I Can T Believe It S Spinach   38798       30   
3                              Italian  Gut Busters   35173       45   
4          Love Is In The Air  Beef Fondue   Sauces   84797       25   
...                                             ...     ...      ...   
29995  Zurie S Holey Rustic Olive And Cheddar Bread  267661       80   
29996          Zwetschgenkuchen  Bavarian Plum Cake  386977      240   
29997   Zwiebelkuchen   Southwest German Onion Cake  103312       75   
29998                                   Zydeco Soup  486161       60   
29999        Cookies By Design   Cookies On A Stick  298512       29   

       contributor_id  submitted  n_steps  \
0               35193 2002-10-25      NaN   
1               91970 2003-07-26      NaN   


3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами). Обратите внимание, что между словами может располагаться несколько пробелов подряд.

In [179]:
recipes_temp_3_3 = recipes.copy()
name_word_count_column = pd.DataFrame({'name_word_count': recipes_temp['name'].transform(lambda x: len(x.split()))})
recipes_temp_3_3 = pd.concat([recipes_temp_3_3, name_word_count_column], axis=1)
print(recipes_temp_3_3)

                                               name      id  minutes  \
0             george s at the cove  black bean soup   44123       90   
1                healthy for them  yogurt popsicles   67664       10   
2                      i can t believe it s spinach   38798       30   
3                              italian  gut busters   35173       45   
4          love is in the air  beef fondue   sauces   84797       25   
...                                             ...     ...      ...   
29995  zurie s holey rustic olive and cheddar bread  267661       80   
29996          zwetschgenkuchen  bavarian plum cake  386977      240   
29997   zwiebelkuchen   southwest german onion cake  103312       75   
29998                                   zydeco soup  486161       60   
29999        cookies by design   cookies on a stick  298512       29   

       contributor_id  submitted  n_steps  \
0               35193 2002-10-25      NaN   
1               91970 2003-07-26      NaN   


### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

In [145]:
recipes_temp = recipes.copy()
recipes_temp['name_word_count'] = recipes_temp['name'].apply(lambda x: len(str(x).split()))
print(recipes_temp.head(1))

                                    name     id  minutes  contributor_id  \
0  george s at the cove  black bean soup  44123       90           35193   

   submitted  n_steps                                        description  \
0 2002-10-25      NaN  an original recipe created by chef scott meska...   

   n_ingredients  name_word_count  
0           18.0                8  


4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы? Обратите внимание, что отзыв с нулевым рейтингом или не заполненным текстовым описанием не считается отсутствующим.

In [146]:
recipes_temp = recipes.copy()
recipes_temp = recipes_temp.groupby('contributor_id')['name'].count().reset_index(name='num_recipes')
print(recipes_temp)

      contributor_id  num_recipes
0               1530            5
1               1533          186
2               1534           50
3               1535           40
4               1538            8
...              ...          ...
8399      2001968497            2
8400      2002059754            1
8401      2002234079            1
8402      2002234259            1
8403      2002247884            1

[8404 rows x 2 columns]


4.3 Посчитайте количество рецептов с разбивкой по годам создания.

In [150]:
recipes_temp = recipes.copy()
recipes_temp['year'] = pd.to_datetime(recipes_temp['submitted']).dt.year
print(recipes_temp.groupby('year')['name'].count().sort_values()[::-1])

year
2007    4429
2008    4029
2006    3473
2005    3130
2009    2963
2002    2644
2003    2334
2004    2153
2010    1538
2011     922
2012     659
2001     589
2013     490
1999     275
2014     139
2000     104
2015      42
2017      39
2016      24
2018      24
Name: name, dtype: int64


### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты, на которые не оставлен ни один отзыв, должны отсутствовать в полученной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и попытавшись найти строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [163]:
# Только не пустые строки
reviews_temp = reviews[~reviews['review'].isna()]
# На рецепт есть отзыв
recipes_temp = recipes[recipes['id'].isin(reviews_temp['recipe_id'])]
# Объединение
result_5_1 = pd.merge(recipes_temp, reviews_temp, left_on='id', right_on='recipe_id')
# Оставляем только полезные столбцы, потому что иначе слишком много лишних
result_5_1 = result_5_1[['id', 'name', 'user_id', 'rating']]
print(result_5_1)

            id                                    name  user_id  rating
0        44123   george s at the cove  black bean soup   743566       5
1        44123   george s at the cove  black bean soup    76503       5
2        44123   george s at the cove  black bean soup    34206       5
3        67664      healthy for them  yogurt popsicles   494084       5
4        67664      healthy for them  yogurt popsicles   303445       5
...        ...                                     ...      ...     ...
126674  486161                             zydeco soup   305531       5
126675  486161                             zydeco soup  1271506       5
126676  486161                             zydeco soup   724631       5
126677  486161                             zydeco soup   133174       5
126678  298512  cookies by design   cookies on a stick   804234       1

[126679 rows x 4 columns]


5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`, где столбец `review_count` содержит кол-во отзывов, оставленных на рецепт `recipe_id`. У рецептов, на которые не оставлен ни один отзыв, в столбце `review_count` должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и найдя строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [182]:
result_5_2 = result_5_1.copy()
result_5_2 = result_5_2[['id', 'name', 'user_id']]
result_5_2.columns.values[0] = 'recipe_id'

result_5_2['review_count'] = result_5_2['recipe_id'].apply(lambda x: len(result_5_2[result_5_2['recipe_id'] == x]))

print(result_5_2.head(2))

   recipe_id                                   name  user_id  review_count
0      44123  george s at the cove  black bean soup   743566             3
1      44123  george s at the cove  black bean soup    76503             3


5.3. Выясните, рецепты, добавленные в каком году, имеют наименьший средний рейтинг?

In [173]:
temp = pd.merge(recipes, reviews, left_on='id', right_on='recipe_id', how='inner')

temp['submitted_year'] = pd.to_datetime(temp['submitted']).dt.year
avg_ratings_by_year = temp.groupby('submitted_year')['rating'].mean()
# Год с минимальным средним рейтингом
min_average_rating_year = avg_ratings_by_year.idxmin()

print(f"Год с наименьшим средним рейтингом: {min_average_rating_year}")

Год с наименьшим средним рейтингом: 2017


### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

In [181]:
recipes_temp = recipes.copy()
recipes_temp['name_word_count'] = recipes_temp['name'].apply(lambda x: len(str(x).split()))
recipes_temp = recipes_temp.sort_values(by='name_word_count', ascending=False)

print(recipes_temp)

recipes_temp_3_1.to_csv('saved_3_1.scv', index=False)
recipes_temp_3_2.to_csv('saved_3_2.scv', index=False)
recipes_temp_3_3.to_csv('saved_3_3.scv', index=False)

                                                    name      id  minutes  \
26223  subru uncle s whole green moong dal i ll be ma...   77188       95   
28083  tsr version of t g i  friday s black bean soup...  102274       75   
26222  subru uncle s toor ki dal sindhi style  dad  m...   76908       65   
27876  top secret recipes version of  i h o p  griddl...  113346       20   
5734   chicken curry or  cat s vomit on a bed of magg...  294898       30   
...                                                  ...     ...      ...   
3253                                          blackmoons  323195      430   
4138                                         bushwhacker  156521       10   
2357                                            basbousa   12957       60   
15052                                          josefinas  264859       20   
4710                                            caramels  143615       30   

       contributor_id  submitted  n_steps  \
26223            6357 2003-11-

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.

In [184]:
# pip install openpyxl

with pd.ExcelWriter('ExcelFile_6_2.xlsx') as writer:
    result_5_1.to_excel(writer, sheet_name='Рецепты с оценками', index=False)
    result_5_2.to_excel(writer, sheet_name='Количество отзывов по рецептам', index=False)

#### [версия 2]
* Уточнены формулировки задач 1.1, 3.3, 4.2, 5.1, 5.2, 5.3