# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [2]:
import pandas as pd

with open(r'data/sp500hst.txt') as f:
    names = ["date", "ticker", "open", "high", "low", "close", "volume"]
    d = pd.read_csv(f, names=names)
    print(d.head())
    
d

       date ticker   open     high     low  close  volume
0  20090821      A  25.60  25.6100  25.220  25.55   34758
1  20090824      A  25.64  25.7400  25.330  25.50   22247
2  20090825      A  25.50  25.7000  25.225  25.34   30891
3  20090826      A  25.32  25.6425  25.145  25.48   33334
4  20090827      A  25.50  25.5700  25.230  25.54   70176


Unnamed: 0,date,ticker,open,high,low,close,volume
0,20090821,A,25.60,25.6100,25.220,25.55,34758
1,20090824,A,25.64,25.7400,25.330,25.50,22247
2,20090825,A,25.50,25.7000,25.225,25.34,30891
3,20090826,A,25.32,25.6425,25.145,25.48,33334
4,20090827,A,25.50,25.5700,25.230,25.54,70176
...,...,...,...,...,...,...,...
122569,20100813,ZMH,51.72,51.9000,51.380,51.44,14561
122570,20100816,ZMH,51.13,51.4700,50.600,51.00,13489
122571,20100817,ZMH,51.14,51.6000,50.890,51.21,20498
122572,20100819,ZMH,51.63,51.6300,50.170,50.22,18259


2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

In [3]:
d.iloc[:, 3:].mean()

high         43.102243
low          42.054464
close        42.601865
volume    81395.068138
dtype: float64

3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [4]:
d['date'] = pd.to_datetime(d['date'], format='%Y%m%d')
d['month'] = d['date'].dt.month
d

Unnamed: 0,date,ticker,open,high,low,close,volume,month
0,2009-08-21,A,25.60,25.6100,25.220,25.55,34758,8
1,2009-08-24,A,25.64,25.7400,25.330,25.50,22247,8
2,2009-08-25,A,25.50,25.7000,25.225,25.34,30891,8
3,2009-08-26,A,25.32,25.6425,25.145,25.48,33334,8
4,2009-08-27,A,25.50,25.5700,25.230,25.54,70176,8
...,...,...,...,...,...,...,...,...
122569,2010-08-13,ZMH,51.72,51.9000,51.380,51.44,14561,8
122570,2010-08-16,ZMH,51.13,51.4700,50.600,51.00,13489,8
122571,2010-08-17,ZMH,51.14,51.6000,50.890,51.21,20498,8
122572,2010-08-19,ZMH,51.63,51.6300,50.170,50.22,18259,8


4. Рассчитайте суммарный объем торгов для для одинаковых значений тикеров.

In [5]:
d = pd.DataFrame(d)
samesum = d.groupby('ticker')['volume'].agg(['sum'])
samesum

Unnamed: 0_level_0,sum
ticker,Unnamed: 1_level_1
A,8609336
AA,81898998
AAPL,52261170
ABC,9006756
ABT,18975870
...,...
XTO,21297931
YHOO,56837171
YUM,10971538
ZION,15551119


5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

In [6]:
with open(r'data/sp_data2.csv') as f:
    df = pd.read_csv(f, sep = ';')

lst_0 = [i for i in df.iloc[:, 1]]
lst = [i for i in df.iloc[:,0]]
z = dict(zip(lst, lst_0))
try:
    d['description'] = [z[i] for i in d['ticker']]
except KeyError:
    d['description'] = '-'

d


Unnamed: 0,date,ticker,open,high,low,close,volume,month,description
0,2009-08-21,A,25.60,25.6100,25.220,25.55,34758,8,-
1,2009-08-24,A,25.64,25.7400,25.330,25.50,22247,8,-
2,2009-08-25,A,25.50,25.7000,25.225,25.34,30891,8,-
3,2009-08-26,A,25.32,25.6425,25.145,25.48,33334,8,-
4,2009-08-27,A,25.50,25.5700,25.230,25.54,70176,8,-
...,...,...,...,...,...,...,...,...,...
122569,2010-08-13,ZMH,51.72,51.9000,51.380,51.44,14561,8,-
122570,2010-08-16,ZMH,51.13,51.4700,50.600,51.00,13489,8,-
122571,2010-08-17,ZMH,51.14,51.6000,50.890,51.21,20498,8,-
122572,2010-08-19,ZMH,51.63,51.6300,50.170,50.22,18259,8,-


## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца с индексами в таблице `reviews` (безымянный столбец).

In [7]:
recipes_file_path = r'data/recipes_sample.csv'
reviews_file_path = r'data/reviews_sample.csv'
# Загрузка данных в DataFrame

recipes = pd.read_csv(recipes_file_path)
reviews = pd.read_csv(reviews_file_path, index_col = 0)
reviews['date'] = pd.to_datetime(reviews['date'])
recipes['submitted'] = pd.to_datetime(recipes['submitted'])
print(recipes, reviews)

                                               name      id  minutes  \
0             george s at the cove  black bean soup   44123       90   
1                healthy for them  yogurt popsicles   67664       10   
2                      i can t believe it s spinach   38798       30   
3                              italian  gut busters   35173       45   
4          love is in the air  beef fondue   sauces   84797       25   
...                                             ...     ...      ...   
29995  zurie s holey rustic olive and cheddar bread  267661       80   
29996          zwetschgenkuchen  bavarian plum cake  386977      240   
29997   zwiebelkuchen   southwest german onion cake  103312       75   
29998                                   zydeco soup  486161       60   
29999        cookies by design   cookies on a stick  298512       29   

       contributor_id  submitted  n_steps  \
0               35193 2002-10-25      NaN   
1               91970 2003-07-26      NaN   


1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [8]:
str_rec = len(reviews)
str_rev = len(recipes)
len_col_rec = reviews.shape[1]
len_col_rev = recipes.shape[1]
dtype_rev = reviews.dtypes
dtype_rec = recipes.dtypes
print(f' количество точек данных (строк) в recipes : {str_rec}. \n количество точек данных (строк) в reviews : {str_rev}. \n Длина recipes и reviews соответственно : {len_col_rec}, {len_col_rev}. \n тип данных каждого столбца: \n recipes - \n{dtype_rec}, \n\n revies - \n{dtype_rev}')

 количество точек данных (строк) в recipes : 126696. 
 количество точек данных (строк) в reviews : 30000. 
 Длина recipes и reviews соответственно : 5, 8. 
 тип данных каждого столбца: 
 recipes - 
name                      object
id                         int64
minutes                    int64
contributor_id             int64
submitted         datetime64[ns]
n_steps                  float64
description               object
n_ingredients            float64
dtype: object, 

 revies - 
user_id               int64
recipe_id             int64
date         datetime64[ns]
rating                int64
review               object
dtype: object


1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [9]:
rec = recipes.isna().any()
rev = reviews.isna().any()
print(f'{rec} \n\n\n{rev}\n\n\n')
s = 0
percent_rev = round(reviews[reviews.isna().any(axis=1)].shape[0] / reviews.shape[0], 2)
percent_rec = round(recipes[recipes.isna().any(axis=1)].shape[0] / recipes.shape[0], 2)
print(f'Доля строк, содержащих пропуски, в отношении к общему количеству строк в таблице recipes: {percent_rec} \n\nДоля строк, содержащих пропуски, в отношении к общему количеству строк в таблице reviews: {percent_rev}')

name              False
id                False
minutes           False
contributor_id    False
submitted         False
n_steps            True
description        True
n_ingredients      True
dtype: bool 


user_id      False
recipe_id    False
date         False
rating       False
review        True
dtype: bool



Доля строк, содержащих пропуски, в отношении к общему количеству строк в таблице recipes: 0.57 

Доля строк, содержащих пропуски, в отношении к общему количеству строк в таблице reviews: 0.0


1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [10]:
numeric_columns_rev = reviews.select_dtypes(include='number')
numeric_columns_rec = recipes.select_dtypes(include='number')
agg_df1 = round(numeric_columns_rev.mean(skipna = True), 1)
agg_df2 = round(numeric_columns_rec.mean(skipna = True), 1)

# Объединяем результаты агрегации в один DataFrame
print(f'{agg_df1} \n\n\n{agg_df2}')

user_id      140801264.7
recipe_id       160094.4
rating               4.4
dtype: float64 


id                 221879.3
minutes               123.4
contributor_id    5635900.6
n_steps                 9.8
n_ingredients           9.0
dtype: float64


1.5 Создайте серию из 10 случайных названий рецептов.

In [11]:
r = recipes['name'].sample(10)
r

14065                 honey gingered pork tenderloin
3309                      blue cheese bacon dressing
29499               wolfensburger pass hot chocolate
20697                 pickled cucumber dipping sauce
18297                  mushroom green bean casserole
8448                        crescent chick be quicks
8293                 creamy maple fondue from quebec
14746    italian stuffed beef   sausage bell peppers
13115                             guacamol eh la bas
9568                    double chocolate cherry cake
Name: name, dtype: object

1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [12]:
dropped_rev = reviews.reset_index(drop = True)
dropped_rec = recipes.reset_index(drop = True)
dropped_rev

Unnamed: 0,user_id,recipe_id,date,rating,review
0,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
1,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
2,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
3,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
4,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...
...,...,...,...,...,...
126691,1270706,335534,2009-05-17,4,This recipe was great! I made it last night. I...
126692,2282344,8701,2012-06-03,0,This recipe is outstanding. I followed the rec...
126693,689540,222001,2008-04-08,5,"Well, we were not a crowd but it was a fabulou..."
126694,2000242659,354979,2015-06-02,5,I have been a steak eater and dedicated BBQ gr...


In [13]:
dropped_rec

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,
...,...,...,...,...,...,...,...,...
29995,zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0
29996,zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0
29997,zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,
29998,zydeco soup,486161,60,227978,2012-08-29,,this is a delicious soup that i originally fou...,


1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [14]:
rec = (recipes['minutes'] <= 20) & (recipes['n_ingredients'] <=5)
recipes[rec]

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
28,quick biscuit bread,302399,20,213909,2008-05-06,11.0,this is a wonderful quick bread to make as an ...,5.0
60,peas fit for a king or queen,303944,20,213909,2008-05-16,,this recipe is so simple and the flavors are s...,5.0
90,hawaiian sunrise mimosa,100837,5,58104,2004-09-29,4.0,pineapple mimosa was changed to hawaiian sunri...,3.0
91,tasty dish s banana pudding in 2 minutes,286484,2,47892,2008-02-13,,"""mmmm, i love bananas!"" a --tasty dish-- origi...",4.0
94,1 minute meatballs,11361,13,4470,2001-09-03,,this is a real short cut for cooks in a hurry....,2.0
...,...,...,...,...,...,...,...,...
29873,zip and steam red potatoes with butter and garlic,304922,13,724218,2008-05-27,9.0,"i haven't tried this yet, but i am going to so...",5.0
29874,ziplock vanilla ice cream,74250,10,24386,2003-10-29,8.0,a fun thing for kids to do. may want to use mi...,3.0
29905,zucchini and corn with cheese,256177,15,305531,2007-09-29,4.0,from betty crocker fresh spring recipes. i lik...,5.0
29980,zucchini with jalapeno monterey jack,320622,10,305531,2008-08-20,3.0,simple and yummy!,3.0


### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

In [15]:
recipes['submitted'] = pd.to_datetime(recipes['submitted'])
recipes.dtypes

name                      object
id                         int64
minutes                    int64
contributor_id             int64
submitted         datetime64[ns]
n_steps                  float64
description               object
n_ingredients            float64
dtype: object

2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [16]:
tm = recipes['submitted'].dt.year <= 2010
recipes[tm]

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,
...,...,...,...,...,...,...,...,...
29993,zuni caf zucchini pickles,316950,2895,62264,2008-07-31,,refrigerator pickles for some of the zucchini ...,8.0
29995,zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0
29996,zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0
29997,zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,


### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

In [17]:
recipes['description_length'] = recipes['description'].apply(lambda x: len(str(x)))
recipes

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,330
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,255
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,39
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,154
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,587
...,...,...,...,...,...,...,...,...,...
29995,zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0,484
29996,zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0,286
29997,zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,,311
29998,zydeco soup,486161,60,227978,2012-08-29,,this is a delicious soup that i originally fou...,,648


3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

In [18]:
recipes['name'] = recipes['name'].str.capitalize()
recipes

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
0,George s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,330
1,Healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,255
2,I can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,39
3,Italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,154
4,Love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,587
...,...,...,...,...,...,...,...,...,...
29995,Zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0,484
29996,Zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0,286
29997,Zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,,311
29998,Zydeco soup,486161,60,227978,2012-08-29,,this is a delicious soup that i originally fou...,,648


3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами). Обратите внимание, что между словами может располагаться несколько пробелов подряд.

In [19]:
recipes['name_word_count'] = recipes['name'].apply(lambda x: len(str(x).split(' ')))
recipes

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length,name_word_count
0,George s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,330,9
1,Healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,255,6
2,I can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,39,7
3,Italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,154,4
4,Love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,587,11
...,...,...,...,...,...,...,...,...,...,...
29995,Zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0,484,8
29996,Zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0,286,5
29997,Zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,,311,7
29998,Zydeco soup,486161,60,227978,2012-08-29,,this is a delicious soup that i originally fou...,,648,2


### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

In [20]:
contributor_counts = recipes.groupby('contributor_id')['name'].agg(['count'])
# Находим contributor_id, у которого максимальное количество рецептов
max_contributor_id = contributor_counts['count'].idxmax()
# Получаем максимальное количество рецептов
max_recipe_count = contributor_counts.loc[max_contributor_id, 'count']
print("Участник", max_contributor_id, "добавил максимальное количество рецептов:", max_recipe_count)

Участник 89831 добавил максимальное количество рецептов: 421


4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы? Обратите внимание, что отзыв с нулевым рейтингом или не заполненным текстовым описанием не считается отсутствующим.

In [30]:
perc = reviews.groupby('recipe_id').agg({'rating': 'mean'})
absent_rate = len(set(recipes['id']) - set(reviews['recipe_id']))

print(perc, absent_rate,  sep = '\n\n\n')

             rating
recipe_id          
48         1.000000
55         4.750000
66         4.944444
91         4.750000
94         5.000000
...             ...
536547     5.000000
536610     0.000000
536728     4.000000
536729     4.750000
536747     0.000000

[28100 rows x 1 columns]


1900


4.3 Посчитайте количество рецептов с разбивкой по годам создания.

In [31]:
t = recipes['submitted'].dt.year
times = recipes.groupby(t).agg(['count'])
times

Unnamed: 0_level_0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length,name_word_count
Unnamed: 0_level_1,count,count,count,count,count,count,count,count,count,count
submitted,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
1999,275,275,275,275,275,164,150,203,275,275
2000,104,104,104,104,104,50,61,69,104,104
2001,589,589,589,589,589,360,507,417,589,589
2002,2644,2644,2644,2644,2644,1652,2406,1873,2644,2644
2003,2334,2334,2334,2334,2334,1481,2228,1646,2334,2334
2004,2153,2153,2153,2153,2153,1309,2142,1526,2153,2153
2005,3130,3130,3130,3130,3130,1995,3124,2196,3130,3130
2006,3473,3473,3473,3473,3473,2210,3469,2437,3473,3473
2007,4429,4429,4429,4429,4429,2752,4427,3090,4429,4429
2008,4029,4029,4029,4029,4029,2546,4027,2841,4029,4029


### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты, на которые не оставлен ни один отзыв, должны отсутствовать в полученной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и попытавшись найти строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [37]:
merged_df = recipes.merge(reviews, left_on='id', right_on='recipe_id', how='inner')
merged_df = merged_df[['id', 'name', 'user_id', 'rating']]
recipes_without_reviews = set(recipes['id']) - set(reviews['recipe_id'])
without_absent = merged_df[~merged_df['id'].isin(recipes_without_reviews)]
print(merged_df)
print(without_absent)


            id                                    name  user_id  rating
0        44123   George s at the cove  black bean soup   743566       5
1        44123   George s at the cove  black bean soup    76503       5
2        44123   George s at the cove  black bean soup    34206       5
3        67664      Healthy for them  yogurt popsicles   494084       5
4        67664      Healthy for them  yogurt popsicles   303445       5
...        ...                                     ...      ...     ...
126691  486161                             Zydeco soup   305531       5
126692  486161                             Zydeco soup  1271506       5
126693  486161                             Zydeco soup   724631       5
126694  486161                             Zydeco soup   133174       5
126695  298512  Cookies by design   cookies on a stick   804234       1

[126696 rows x 4 columns]
            id                                    name  user_id  rating
0        44123   George s at the cove

In [35]:
import pandas as pd

# Ваш DataFrame
df = pd.DataFrame({
    'id': [1, 2, 3, 4, 5],
    'name': ['Recipe A', 'Recipe B', 'Recipe C', 'Recipe D', 'Recipe E']
})

# Ваше множество id для удаления
ids_to_remove = {2, 4}

# Удаление строк, соответствующих id в множестве
df = df[~df['id'].isin(ids_to_remove)]

# Вывод результата
print(df)

   id      name
0   1  Recipe A
2   3  Recipe C
4   5  Recipe E


5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`, где столбец `review_count` содержит кол-во отзывов, оставленных на рецепт `recipe_id`. У рецептов, на которые не оставлен ни один отзыв, в столбце `review_count` должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и найдя строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [27]:
merged = reviews.merge(recipes, left_on='recipe_id', right_on='id')
merged = merged[['recipe_id', 'name']]
new_ = reviews[reviews['review'].str.len() > 0]
gr = new_.groupby('recipe_id').sum()
#unique_values_count = new_['recipe_id'].nunique()
merged['review_count'] = gr['rating']
neww = merged['review_count'].where(merged['review_count'] == 0, 0)
merged['review_count'] = merged['review_count'].fillna(0)
m = merged.groupby(['recipe_id', 'name'], as_index=False).sum()
print(m)

       recipe_id                                        name  review_count
0             48                            Boston cream pie           0.0
1             55  Betty crocker s southwestern guacamole dip           0.0
2             66                 Black coffee barbecue sauce         173.0
3             91              Brown rice and vegetable pilaf           0.0
4             94                       Blueberry buttertarts           0.0
...          ...                                         ...           ...
28095     536547                         Cauliflower ceviche           0.0
28096     536610               Miracle home made puff pastry           0.0
28097     536728                       Gluten free  vegemite           0.0
28098     536729                Creole watermelon feta salad           0.0
28099     536747                          Lemon pom pom cake           0.0

[28100 rows x 3 columns]


5.3. Выясните, рецепты, добавленные в каком году, имеют наименьший средний рейтинг?

In [79]:
mergedd = reviews.merge(recipes, left_on='recipe_id', right_on='id')
average_rating = mergedd.groupby('recipe_id')['rating'].mean().reset_index()
# Извлечение года добавления рецепта
average_rating['year_submitted'] = mergedd['submitted'].dt.year
print(average_rating)
# Группировка по году и вычисление среднего рейтинга
average_rating_by_year = average_rating.groupby('year_submitted')['rating'].mean().reset_index()
# Находим год с наименьшим средним рейтингом
min_avg_rating_year = average_rating_by_year.loc[average_rating_by_year['rating'].idxmin()]
print("Год с наименьшим средним рейтингом:", min_avg_rating_year['year_submitted'])
print("Средний рейтинг:", min_avg_rating_year['rating'])

       recipe_id    rating  year_submitted
0             48  1.000000            2003
1             55  4.750000            2003
2             66  4.944444            2003
3             91  4.750000            2003
4             94  5.000000            2003
...          ...       ...             ...
28095     536547  5.000000            2004
28096     536610  0.000000            2002
28097     536728  4.000000            2002
28098     536729  4.750000            2002
28099     536747  0.000000            2002

[28100 rows x 3 columns]
Год с наименьшим средним рейтингом: 2000.0
Средний рейтинг: 4.059280303030303


### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

In [7]:
df_sorted = recipes.sort_values(by='name_word_count', ascending=False)
df_sorted.to_csv('3.1-3.3.csv', index=False)

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.

In [28]:
with pd.ExcelWriter('5.1-5.2.xlsx', engine='xlsxwriter') as writer:
    # Записываем DataFrame в лист 'recipes_without_reviews' файла Excel
    merged_df.to_excel(writer, sheet_name='Рецепты с оценками', index=False)
    m.to_excel(writer, sheet_name = 'Количество отзывов по рецептам', index = False)