# Pandas

Полезные ссылки:
* https://pandas.pydata.org/docs/user_guide/index.html
* https://pandas.pydata.org/docs/reference/index.html

### Задачи

1. В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца(ов) с индексами.

In [56]:
import pandas as pd

recipes = pd.read_csv('data/recipes_sample.csv')
reviews = pd.read_csv('data/reviews_sample.csv')

print('Recipes')
print(recipes.head())
print('Reviews')
print(reviews.head())

Recipes
                                       name     id  minutes  contributor_id  \
0     george s at the cove  black bean soup  44123       90           35193   
1        healthy for them  yogurt popsicles  67664       10           91970   
2              i can t believe it s spinach  38798       30            1533   
3                      italian  gut busters  35173       45           22724   
4  love is in the air  beef fondue   sauces  84797       25            4470   

    submitted  n_steps                                        description  \
0  2002-10-25      NaN  an original recipe created by chef scott meska...   
1  2003-07-26      NaN  my children and their friends ask for my homem...   
2  2002-08-29      NaN            these were so go, it surprised even me.   
3  2002-07-27      NaN  my sister-in-law made these for us at a family...   
4  2004-02-23     4.00  i think a fondue is a very romantic casual din...   

   n_ingredients  
0          18.00  
1            NaN

2. Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [57]:
recipes_params = {
    'Rows': recipes.shape[0],
    'Columns': recipes.shape[1],
    'Data_types': recipes.dtypes,
}

reviews_params = {
    'Rows': recipes.shape[0],
    'Columns': recipes.shape[1],
    'Data_types': recipes.dtypes,
}

print(reviews_params)
print(recipes_params)

{'Rows': 30000, 'Columns': 8, 'Data_types': name               object
id                  int64
minutes             int64
contributor_id      int64
submitted          object
n_steps           float64
description        object
n_ingredients     float64
dtype: object}
{'Rows': 30000, 'Columns': 8, 'Data_types': name               object
id                  int64
minutes             int64
contributor_id      int64
submitted          object
n_steps           float64
description        object
n_ingredients     float64
dtype: object}


3. Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [58]:
recipes_missing = recipes.isnull().sum()  
recipes_missing_percent = recipes.isnull().any(axis=1).mean()  

reviews_missing = reviews.isnull().sum() 
reviews_missing_percent = reviews.isnull().any(axis=1).mean()  

print("Пропуски в таблице recipes:")
print(recipes_missing)
print(f"Доля строк с пропусками: {recipes_missing_percent:.2%}")

print("\nПропуски в таблице reviews:")
print(reviews_missing)
print(f"Доля строк с пропусками: {reviews_missing_percent:.2%}")

Пропуски в таблице recipes:
name                  0
id                    0
minutes               0
contributor_id        0
submitted             0
n_steps           11190
description         623
n_ingredients      8880
dtype: int64
Доля строк с пропусками: 56.85%

Пропуски в таблице reviews:
Unnamed: 0     0
user_id        0
recipe_id      0
date           0
rating         0
review        17
dtype: int64
Доля строк с пропусками: 0.01%


4. Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [59]:
pd.options.display.float_format = '{:,.2f}'.format

recipes_middle = recipes.select_dtypes(include=['number']).mean()
reviews_middle = reviews.select_dtypes(include=['number']).mean()

print(recipes_middle)
print(reviews_middle)

id                 221,879.29
minutes                123.36
contributor_id   5,635,900.57
n_steps                  9.81
n_ingredients            9.01
dtype: float64
Unnamed: 0       566,089.82
user_id      140,801,264.74
recipe_id        160,094.39
rating                 4.41
dtype: float64


5. Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [60]:
recipes_task = recipes[(recipes['minutes'] <= 20) & (recipes['n_ingredients'] <= 5)]
print(recipes_task)

                                                    name      id  minutes  \
28                                   quick biscuit bread  302399       20   
60                         peas  fit for a king or queen  303944       20   
90                     hawaiian sunrise           mimosa  100837        5   
91            tasty dish s   banana pudding in 2 minutes  286484        2   
94                                    1 minute meatballs   11361       13   
...                                                  ...     ...      ...   
29873  zip and steam red potatoes with butter and garlic  304922       13   
29874                          ziplock vanilla ice cream   74250       10   
29905                      zucchini and corn with cheese  256177       15   
29980               zucchini with jalapeno monterey jack  320622       10   
29983                          zucchini with serrano ham  162411       15   

       contributor_id   submitted  n_steps  \
28             213909  2008-0

6. Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [61]:
recipes.submitted = pd.to_datetime(recipes.submitted)
recipes_task = recipes[(recipes.submitted <= '2010-12-31')]
print(recipes_task)

                                               name      id  minutes  \
0             george s at the cove  black bean soup   44123       90   
1                healthy for them  yogurt popsicles   67664       10   
2                      i can t believe it s spinach   38798       30   
3                              italian  gut busters   35173       45   
4          love is in the air  beef fondue   sauces   84797       25   
...                                             ...     ...      ...   
29993                     zuni caf zucchini pickles  316950     2895   
29995  zurie s holey rustic olive and cheddar bread  267661       80   
29996          zwetschgenkuchen  bavarian plum cake  386977      240   
29997   zwiebelkuchen   southwest german onion cake  103312       75   
29999        cookies by design   cookies on a stick  298512       29   

       contributor_id  submitted  n_steps  \
0               35193 2002-10-25      NaN   
1               91970 2003-07-26      NaN   


7.  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

In [62]:
recipes['description_length'] = recipes.description.str.len()
print(recipes)

                                               name      id  minutes  \
0             george s at the cove  black bean soup   44123       90   
1                healthy for them  yogurt popsicles   67664       10   
2                      i can t believe it s spinach   38798       30   
3                              italian  gut busters   35173       45   
4          love is in the air  beef fondue   sauces   84797       25   
...                                             ...     ...      ...   
29995  zurie s holey rustic olive and cheddar bread  267661       80   
29996          zwetschgenkuchen  bavarian plum cake  386977      240   
29997   zwiebelkuchen   southwest german onion cake  103312       75   
29998                                   zydeco soup  486161       60   
29999        cookies by design   cookies on a stick  298512       29   

       contributor_id  submitted  n_steps  \
0               35193 2002-10-25      NaN   
1               91970 2003-07-26      NaN   


8. Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

In [63]:
recipes.name = recipes.name.str.lower()
print(recipes.name)

0               george s at the cove  black bean soup
1                  healthy for them  yogurt popsicles
2                        i can t believe it s spinach
3                                italian  gut busters
4            love is in the air  beef fondue   sauces
                             ...                     
29995    zurie s holey rustic olive and cheddar bread
29996            zwetschgenkuchen  bavarian plum cake
29997     zwiebelkuchen   southwest german onion cake
29998                                     zydeco soup
29999          cookies by design   cookies on a stick
Name: name, Length: 30000, dtype: object


9. Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами).

In [64]:
recipes['name_word_count'] = recipes.name.str.split().apply(len)
print(recipes)

                                               name      id  minutes  \
0             george s at the cove  black bean soup   44123       90   
1                healthy for them  yogurt popsicles   67664       10   
2                      i can t believe it s spinach   38798       30   
3                              italian  gut busters   35173       45   
4          love is in the air  beef fondue   sauces   84797       25   
...                                             ...     ...      ...   
29995  zurie s holey rustic olive and cheddar bread  267661       80   
29996          zwetschgenkuchen  bavarian plum cake  386977      240   
29997   zwiebelkuchen   southwest german onion cake  103312       75   
29998                                   zydeco soup  486161       60   
29999        cookies by design   cookies on a stick  298512       29   

       contributor_id  submitted  n_steps  \
0               35193 2002-10-25      NaN   
1               91970 2003-07-26      NaN   


10. Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

In [65]:
contributor_recipe_count = recipes['contributor_id'].value_counts()

print(contributor_recipe_count)

max_contributor = contributor_recipe_count.idxmax()  
max_contributor_count = contributor_recipe_count.max() 

print(f"Участник с максимальным количеством рецептов: {max_contributor} ({max_contributor_count} рецептов)")

contributor_id
89831      421
37449      346
37779      345
1533       186
169430     183
          ... 
1061628      1
1076183      1
429061       1
64032        1
186118       1
Name: count, Length: 8404, dtype: int64
Участник с максимальным количеством рецептов: 89831 (421 рецептов)


11. При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты без отзывов должны отсутствовать в данной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и выведя на экран строку из полученного `DataFrame`, содержащую информацию об этом отзыве.

In [66]:
# Объединяем таблицы recipes и reviews по столбцу 'id', оставляя только те рецепты, для которых есть отзывы
merged_df = pd.merge(recipes[['id', 'name']], reviews[['recipe_id', 'user_id', 'rating']], left_on='id', right_on='recipe_id', how='inner')

# Выбираем только нужные столбцы (id, name, user_id, rating)
merged_df = merged_df[['id', 'name', 'user_id', 'rating']]

# Выводим первые несколько строк результата
print(merged_df.head())

      id                                   name  user_id  rating
0  44123  george s at the cove  black bean soup   743566       5
1  44123  george s at the cove  black bean soup    76503       5
2  44123  george s at the cove  black bean soup    34206       5
3  67664     healthy for them  yogurt popsicles   494084       5
4  67664     healthy for them  yogurt popsicles   303445       5
