# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [3]:
import pandas as pd
data = pd.read_csv('data/sp500hst.txt', sep=',', header=None)
# "data/..."" - потому что находится в папке data, sep - разделитель, хедара - нет в самом файле, поэтому None
data.columns = ["date", "ticker", "open", "high", "low", "close", "volume"]
# добовляем headеры по заданию
data.head()

Unnamed: 0,date,ticker,open,high,low,close,volume
0,20090821,A,25.6,25.61,25.22,25.55,34758
1,20090824,A,25.64,25.74,25.33,25.5,22247
2,20090825,A,25.5,25.7,25.225,25.34,30891
3,20090826,A,25.32,25.6425,25.145,25.48,33334
4,20090827,A,25.5,25.57,25.23,25.54,70176


2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

In [5]:
average_values = data.iloc[:, 3:7].mean() #iloc ограничивает по столбцам, до 7, чтобы 6 было включительно, mean - ср-арефм по английски
print("Средние значения для каждого из столбцов с номерами 3-6:")
average_values

Средние значения для каждого из столбцов с номерами 3-6:


high         43.102243
low          42.054464
close        42.601865
volume    81395.068138
dtype: float64

3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [11]:
data['date'] = pd.to_datetime(data['date'], unit='s') #.to_datetime переводит в тип времени
# `unit='s'` - это аргумент, который указывает, что входные данные представляют собой секунды с начала эпохи (UNIX-время).
data['month_day'] = pd.DatetimeIndex(data['date']).month 
# `pd.DatetimeIndex(data['date'])` - это создание объекта DatetimeIndex из столбца 'date' в dataframe `data`.
data

Unnamed: 0,date,ticker,open,high,low,close,volume,month_day
0,1970-08-21 12:47:01,A,25.60,25.6100,25.220,25.55,34758,8
1,1970-08-21 12:47:04,A,25.64,25.7400,25.330,25.50,22247,8
2,1970-08-21 12:47:05,A,25.50,25.7000,25.225,25.34,30891,8
3,1970-08-21 12:47:06,A,25.32,25.6425,25.145,25.48,33334,8
4,1970-08-21 12:47:07,A,25.50,25.5700,25.230,25.54,70176,8
...,...,...,...,...,...,...,...,...
122569,1970-08-21 15:33:33,ZMH,51.72,51.9000,51.380,51.44,14561,8
122570,1970-08-21 15:33:36,ZMH,51.13,51.4700,50.600,51.00,13489,8
122571,1970-08-21 15:33:37,ZMH,51.14,51.6000,50.890,51.21,20498,8
122572,1970-08-21 15:33:39,ZMH,51.63,51.6300,50.170,50.22,18259,8


4. Рассчитайте суммарный объем торгов для для одинаковых значений тикеров.

In [5]:
total_volume = data.groupby('ticker')['volume'].sum() # .groupby группирует по одинаковым значениям
total_volume

ticker
A        8609336
AA      81898998
AAPL    52261170
ABC      9006756
ABT     18975870
          ...   
XTO     21297931
YHOO    56837171
YUM     10971538
ZION    15551119
ZMH      4938916
Name: volume, Length: 524, dtype: int64

5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

In [12]:
# Загрузка данных из файла sp500hst.txt
data = pd.read_csv('data/sp500hst.txt', sep=',', header=None)
# Обозначение столбцов
data.columns = ["date", "ticker", "open", "high", "low", "close", "volume"]
# Загрузка данных из файла sp_data2.csv
ticker_names = pd.read_csv('data/sp_data2.csv', sep=';', header=None)
# Обозначение столбцов
ticker_names.columns = ["ticker", "name", "percent"]
# Словарь для хранения расшифрованных названий тикеров
ticker_dict = dict(zip(ticker_names['ticker'], ticker_names['name']))
# Добавление столбца с расшифровкой названия тикера
data['ticker_name'] = data['ticker'].map(ticker_dict)
# Если для какого-то тикера нет соответствия в файле sp_data2.csv, заполним его значением "Unknown"
data['ticker_name'].fillna('Unknown', inplace=True) #.fillna() в библиотеке pandas используется для заполнения пропущенных значений 
# Выводим результаты
data.head()

Unnamed: 0,date,ticker,open,high,low,close,volume,ticker_name
0,20090821,A,25.6,25.61,25.22,25.55,34758,Agilent Technologies
1,20090824,A,25.64,25.74,25.33,25.5,22247,Agilent Technologies
2,20090825,A,25.5,25.7,25.225,25.34,30891,Agilent Technologies
3,20090826,A,25.32,25.6425,25.145,25.48,33334,Agilent Technologies
4,20090827,A,25.5,25.57,25.23,25.54,70176,Agilent Technologies


## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца с индексами в таблице `reviews` (безымянный столбец).

In [10]:
recipes = pd.read_csv('data/recipes_sample.csv')
# Загрузка данных из файла reviews_sample.csv, учитывая безымянный столбец как индекс
reviews = pd.read_csv('data/reviews_sample.csv', index_col=0) #index_col - для корректное считывание столбца с индексами
# Вывод первых нескольких строк каждого DataFrame для проверки
print("Первые строки таблицы recipes:")
display(recipes.head()) # display - делает красивые таблички
print("\nПервые строки таблицы reviews:")
reviews.head()

Первые строки таблицы recipes:


Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,



Первые строки таблицы reviews:


Unnamed: 0,user_id,recipe_id,date,rating,review
370476,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
624300,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
187037,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
706134,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
312179,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...


1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [11]:
print("Основные параметры для таблицы recipes:")
print(recipes.info()) #info - для вывода основных параметров
print("\nОсновные параметры для таблицы reviews:")
print(reviews.info())

Основные параметры для таблицы recipes:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   name            30000 non-null  object 
 1   id              30000 non-null  int64  
 2   minutes         30000 non-null  int64  
 3   contributor_id  30000 non-null  int64  
 4   submitted       30000 non-null  object 
 5   n_steps         18810 non-null  float64
 6   description     29377 non-null  object 
 7   n_ingredients   21120 non-null  float64
dtypes: float64(2), int64(3), object(3)
memory usage: 1.8+ MB
None

Основные параметры для таблицы reviews:
<class 'pandas.core.frame.DataFrame'>
Index: 126696 entries, 370476 to 691207
Data columns (total 5 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   user_id    126696 non-null  int64 
 1   recipe_id  126696 non-null  int64 
 2   date       126696 n

1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [13]:
# Исследование пропусков в таблице recipes
missing_values_recipes = recipes.isnull().sum() 
print(missing_values_recipes)
print(missing_values_recipes[missing_values_recipes > 0]) #missing_values_recipes > 0 - выводим только те столбуы где есть пусытые значения

# Исследование пропусков в таблице recipes
missing_values_recipes = recipes.isnull().sum()  # Подсчитываем количество пропусков в каждом столбце таблицы recipes, .isnull() - возвращает True, если пустое
print("Пропуски в таблице recipes:")
print(missing_values_recipes[missing_values_recipes > 0])  # Выводим столбцы, в которых есть пропуски

# Посчитаем долю строк с пропусками в таблице recipes
missing_percentage_recipes = recipes.isnull().mean() * 100  # Подсчитываем долю пропусков в каждом столбце таблицы recipes
total_rows_recipes = len(recipes)  # Общее количество строк в таблице recipes
rows_with_missing_recipes = recipes[recipes.isnull().any(axis=1)]  # Выбираем строки, содержащие хотя бы один пропуск
percentage_rows_with_missing_recipes = (len(rows_with_missing_recipes) / total_rows_recipes) * 100  # Рассчитываем долю строк с пропусками относительно общего числа строк

print(f"\nДоля строк с пропусками в таблице recipes: {percentage_rows_with_missing_recipes:.2f}%")  # Выводим долю строк с пропусками в таблице recipes

# Исследование пропусков в таблице reviews
missing_values_reviews = reviews.isnull().sum()  # Подсчитываем количество пропусков в каждом столбце таблицы reviews
print("\nПропуски в таблице reviews:")
print(missing_values_reviews[missing_values_reviews > 0])  # Выводим столбцы, в которых есть пропуски

# Посчитаем долю строк с пропусками в таблице reviews
missing_percentage_reviews = reviews.isnull().mean() * 100  # Подсчитываем долю пропусков в каждом столбце таблицы reviews
total_rows_reviews = len(reviews)  # Общее количество строк в таблице reviews
rows_with_missing_reviews = reviews[reviews.isnull().any(axis=1)]  # Выбираем строки, содержащие хотя бы один пропуск
percentage_rows_with_missing_reviews = (len(rows_with_missing_reviews) / total_rows_reviews) * 100  # Рассчитываем долю строк с пропусками относительно общего числа строк

print(f"\nДоля строк с пропусками в таблице reviews: {percentage_rows_with_missing_reviews:.2f}%")  # Выводим долю строк с пропусками в таблице reviews

Пропуски в таблице recipes:
name                  0
id                    0
minutes               0
contributor_id        0
submitted             0
n_steps           11190
description         623
n_ingredients      8880
dtype: int64
n_steps          11190
description        623
n_ingredients     8880
dtype: int64

Доля строк с пропусками в таблице recipes: 56.85%

Пропуски в таблице reviews:
review    17
dtype: int64

Доля строк с пропусками в таблице reviews: 0.01%


1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [15]:
recipes_numeric_mean = recipes.drop(columns=['id', 'contributor_id']).mean(numeric_only=True) # только числовые и которые имеют смысл
# Рассчет среднего значения для каждого из числовых столбцов в таблице reviews, исключая столбец id
reviews_numeric_mean = reviews.drop(columns=['user_id', 'recipe_id']).mean(numeric_only=True) 
# Вывод результатов
print("Среднее значение для каждого из числовых столбцов в таблице recipes:")
print(recipes_numeric_mean)
print("\nСреднее значение для каждого из числовых столбцов в таблице reviews:")
print(reviews_numeric_mean)

Среднее значение для каждого из числовых столбцов в таблице recipes:
minutes          123.358133
n_steps            9.805582
n_ingredients      9.008286
dtype: float64

Среднее значение для каждого из числовых столбцов в таблице reviews:
rating    4.410802
dtype: float64


1.5 Создайте серию из 10 случайных названий рецептов.

In [17]:
import random
random_recipe_names = recipes['name'].sample(n=10) # все по заданию
random_recipe_names

1733                             baked apple pie jam
12344                     gramma s hamburger hotdish
21967             quick pecan sour cream coffee cake
23052                             rum louis cocktail
56            mcgriddle  pancakes breakfast sandwich
7976                  cranberry streusel coffee cake
28709                         vegetarian cajun gumbo
7322                              coconut washboards
2978     better than sex cake  weight watchers style
21284      pork tenderloin with creamy mustard sauce
Name: name, dtype: object

1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [19]:
reviews.reset_index(drop=True, inplace=True) # тоже все по заданию
reviews.head()

Unnamed: 0,user_id,recipe_id,date,rating,review
0,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
1,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
2,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
3,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
4,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...


1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [20]:
filtered_recipes = recipes[(recipes['minutes'] <= 20) & (recipes['n_ingredients'] <= 5)]
filtered_recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
28,quick biscuit bread,302399,20,213909,2008-05-06,11.0,this is a wonderful quick bread to make as an ...,5.0
60,peas fit for a king or queen,303944,20,213909,2008-05-16,,this recipe is so simple and the flavors are s...,5.0
90,hawaiian sunrise mimosa,100837,5,58104,2004-09-29,4.0,pineapple mimosa was changed to hawaiian sunri...,3.0
91,tasty dish s banana pudding in 2 minutes,286484,2,47892,2008-02-13,,"""mmmm, i love bananas!"" a --tasty dish-- origi...",4.0
94,1 minute meatballs,11361,13,4470,2001-09-03,,this is a real short cut for cooks in a hurry....,2.0


### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

In [21]:
import pandas as pd
# Загрузка данных из файла recipes_sample.csv с преобразованием столбца submitted в формат времени
recipes = pd.read_csv('data/recipes_sample.csv', parse_dates=['submitted'])
# Обозначение столбцов
recipes.columns = ["name", "id", "minutes", "contributor_id", "submitted", "n_steps", "description", "n_ingredients"]
# Вывод основной информации о таблице
recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,


2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [23]:
recipes_before_2011 = recipes[recipes['submitted'].dt.year <= 2010]
recipes_before_2011.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,


### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

In [24]:
recipes['description_length'] = recipes['description'].apply(lambda x: len(str(x)))
recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,330
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,255
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,39
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,154
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,587


3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

In [25]:
recipes['name'] = recipes['name'].apply(lambda x: x.title()) #.title() - делает начало с заглавной буквы
recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
0,George S At The Cove Black Bean Soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,330
1,Healthy For Them Yogurt Popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,255
2,I Can T Believe It S Spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,39
3,Italian Gut Busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,154
4,Love Is In The Air Beef Fondue Sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,587


3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами). Обратите внимание, что между словами может располагаться несколько пробелов подряд.

In [26]:
recipes['name_word_count'] = recipes['name'].apply(lambda x: len(x.split()))
recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length,name_word_count
0,George S At The Cove Black Bean Soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,330,8
1,Healthy For Them Yogurt Popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,255,5
2,I Can T Believe It S Spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,39,7
3,Italian Gut Busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,154,3
4,Love Is In The Air Beef Fondue Sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,587,8


### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

In [28]:
# Подсчет количества рецептов, представленных каждым участником
recipes_per_contributor = recipes['contributor_id'].value_counts()
# Определение участника, добавившего максимальное количество рецептов
max_recipes_contributor = recipes_per_contributor.idxmax()
max_recipes_count = recipes_per_contributor.max()
# Вывод результатов
print("Количество рецептов, представленных каждым участником:")
display(recipes_per_contributor)
print("\nУчастник, добавивший максимальное количество рецептов (ID):", max_recipes_contributor)
print("Количество рецептов, добавленных этим участником:", max_recipes_count)

Количество рецептов, представленных каждым участником:


contributor_id
89831      421
37449      346
37779      345
1533       186
169430     183
          ... 
1061628      1
1076183      1
429061       1
64032        1
186118       1
Name: count, Length: 8404, dtype: int64


Участник, добавивший максимальное количество рецептов (ID): 89831
Количество рецептов, добавленных этим участником: 421


4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы? Обратите внимание, что отзыв с нулевым рейтингом или не заполненным текстовым описанием не считается отсутствующим.

In [30]:
# Рассчет среднего рейтинга для каждого рецепта
mean_rating_per_recipe = reviews.groupby('recipe_id')['rating'].mean()
# Определение количества рецептов, для которых отсутствуют отзывы
no_reviews_count = recipes[~recipes['id'].isin(mean_rating_per_recipe.index)].shape[0]
# Вывод результатов
print("Средний рейтинг для каждого рецепта:")
display(mean_rating_per_recipe)
print("\nКоличество рецептов, для которых отсутствуют отзывы:", no_reviews_count)

Средний рейтинг для каждого рецепта:


recipe_id
48        1.000000
55        4.750000
66        4.944444
91        4.750000
94        5.000000
            ...   
536547    5.000000
536610    0.000000
536728    4.000000
536729    4.750000
536747    0.000000
Name: rating, Length: 28100, dtype: float64


Количество рецептов, для которых отсутствуют отзывы: 1900


4.3 Посчитайте количество рецептов с разбивкой по годам создания.

In [31]:
# Извлечение года из столбца submitted
recipes['year_created'] = recipes['submitted'].dt.year
# Подсчет количества рецептов с разбивкой по годам создания
recipe_count_per_year = recipes['year_created'].value_counts().sort_index()
# Вывод результатов
print("Количество рецептов с разбивкой по годам создания:")
recipe_count_per_year

Количество рецептов с разбивкой по годам создания:


year_created
1999     275
2000     104
2001     589
2002    2644
2003    2334
2004    2153
2005    3130
2006    3473
2007    4429
2008    4029
2009    2963
2010    1538
2011     922
2012     659
2013     490
2014     139
2015      42
2016      24
2017      39
2018      24
Name: count, dtype: int64

### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты, на которые не оставлен ни один отзыв, должны отсутствовать в полученной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и попытавшись найти строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [33]:
# Объединяем таблицы по столбцу id
merged_df = pd.merge(recipes, reviews, left_on='id', right_on='recipe_id')
# Создаем DataFrame с нужными столбцами
result_df = merged_df[['id', 'name', 'user_id', 'rating']]
# Удаляем рецепты без отзывов
recipes_without_reviews = recipes[~recipes['id'].isin(result_df['id'])] 
# Выбираем рецепт без отзывов
recipe_without_review_id = recipes_without_reviews.iloc[0]['id']
recipe_without_review_name = recipes_without_reviews.iloc[0]['name']
# Попытка найти строку, соответствующую рецепту без отзывов
row_for_recipe_without_review = result_df[result_df['id'] == recipe_without_review_id]
if row_for_recipe_without_review.empty:
    print(f"Рецепт '{recipe_without_review_name}' отсутствует в полученной таблице.")
else:
    print("Ошибка! Рецепт без отзывов найден в полученной таблице.")

Рецепт 'Pasta  With Shrimp   Eggplant' отсутствует в полученной таблице.


5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`, где столбец `review_count` содержит кол-во отзывов, оставленных на рецепт `recipe_id`. У рецептов, на которые не оставлен ни один отзыв, в столбце `review_count` должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и найдя строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [40]:
# Объединяем таблицы по столбцу id
merged_df = pd.merge(recipes, reviews, left_on='id', right_on='recipe_id', how='left')
# Группируем по recipe_id и считаем количество отзывов
grouped_df = merged_df.groupby(['id', 'name'], as_index=False).agg({'user_id': 'count'})
grouped_df.columns = ['recipe_id', 'name', 'review_count']
# Заменяем отсутствующие отзывы на нули
grouped_df['review_count'] = grouped_df['review_count'].fillna(0).astype(int)
# Выводим полученный DataFrame
display(grouped_df)
# Выбираем рецепт без отзывов
recipe_without_review_id = recipes_without_reviews.iloc[0]['id']
# Ищем строку в DataFrame, соответствующую рецепту без отзывов
row_for_recipe_without_review = grouped_df[grouped_df['recipe_id'] == recipe_without_review_id]
# Выводим строку для рецепта без отзывов
print(row_for_recipe_without_review)

Unnamed: 0,recipe_id,name,review_count
0,48,Boston Cream Pie,2
1,55,Betty Crocker S Southwestern Guacamole Dip,4
2,66,Black Coffee Barbecue Sauce,18
3,91,Brown Rice And Vegetable Pilaf,4
4,94,Blueberry Buttertarts,4
...,...,...,...
29995,536547,Cauliflower Ceviche,1
29996,536610,Miracle Home Made Puff Pastry,1
29997,536728,Gluten Free Vegemite,1
29998,536729,Creole Watermelon Feta Salad,4


       recipe_id                           name  review_count
16052     223349  Pasta  With Shrimp   Eggplant             0


5.3. Выясните, рецепты, добавленные в каком году, имеют наименьший средний рейтинг?

In [41]:
# Объединение таблиц recipes и reviews по столбцу id
merged_df = pd.merge(recipes, reviews, left_on='id', right_on='recipe_id', how='inner')
# Группировка данных по году создания и рассчет среднего рейтинга для каждого года
mean_rating_per_year = merged_df.groupby('year_created')['rating'].mean()
# Нахождение года с наименьшим средним рейтингом
min_mean_rating_year = mean_rating_per_year.idxmin()
# Вывод результата
print("Год с наименьшим средним рейтингом:", min_mean_rating_year)

Год с наименьшим средним рейтингом: 2017


### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

In [43]:
recipes_sorted = recipes.sort_values(by='name_word_count', ascending=False)
# Сохранение результатов выполнения заданий 3.1-3.3 в CSV файл, они все сохранены
recipes_sorted.to_csv('data/recipes_sorted.csv', index=False)
# Вывод первых нескольких строк отсортированной таблицы для проверки
recipes_sorted.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length,name_word_count,year_created
26223,Subru Uncle S Whole Green Moong Dal I Ll Be Ma...,77188,95,6357,2003-11-21,,my dad and mom quite enjoy this lentil curry. ...,15.0,343,15,2003
28083,Tsr Version Of T G I Friday S Black Bean Soup...,102274,75,74652,2004-10-19,9.0,from www.topsecretrecipes.com i got this copyc...,16.0,436,14,2004
26222,Subru Uncle S Toor Ki Dal Sindhi Style Dad M...,76908,65,6357,2003-11-18,29.0,this is the lentil curry that subru uncle(our ...,15.0,1087,14,2003
27876,Top Secret Recipes Version Of I H O P Griddl...,113346,20,175727,2005-03-14,5.0,this recipe is top secret recipes version of i...,9.0,129,14,2005
5734,Chicken Curry Or Cat S Vomit On A Bed Of Magg...,294898,30,802799,2008-03-28,11.0,an old family recipe that's easy to make since...,12.0,144,13,2008


6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.

In [None]:
# Создание объекта pd.ExcelWriter
with pd.ExcelWriter('data/recipes_reviews.xlsx') as writer:
    # Сохранение результатов выполнения задания 5.1 на лист "Рецепты с оценками"
    result_df.to_excel(writer, sheet_name='Рецепты с оценками', index=False)
    # Сохранение результатов выполнения задания 5.2 на лист "Количество отзывов по рецептам"
    grouped_df.to_excel(writer, sheet_name='Количество отзывов по рецептам', index=False)

#### [версия 2]
* Уточнены формулировки задач 1.1, 3.3, 4.2, 5.1, 5.2, 5.3