# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

4. Рассчитайте суммарный объем торгов для для одинаковых значений тикеров.

5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца с индексами в таблице `reviews` (безымянный столбец).

In [None]:
import pandas as pd

recipes = pd.read_csv('data/recipes_sample.csv')
reviews = pd.read_csv('data/reviews_sample.csv', index_col=0)

1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [None]:
print("Recipes table:")
print("Number of rows:", recipes.shape[0])
print("Number of columns:", recipes.shape[1])
print("Data types:")
print(recipes.dtypes)

print("\nReviews table:")
print("Number of rows:", reviews.shape[0])
print("Number of columns:", reviews.shape[1])
print("Data types:")
print(reviews.dtypes)

Recipes table:
Number of rows: 30000
Number of columns: 8
Data types:
name               object
id                  int64
minutes             int64
contributor_id      int64
submitted          object
n_steps           float64
description        object
n_ingredients     float64
dtype: object

Reviews table:
Number of rows: 126696
Number of columns: 5
Data types:
user_id       int64
recipe_id     int64
date         object
rating        int64
review       object
dtype: object


1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [None]:
print("Recipes table:")
for col in recipes.columns:
    if recipes[col].isna().sum() > 0:
        print(f"Column {col} has {recipes[col].isna().mean():.2%} missing values.")
    else:
        print(f"Column {col} has no missing values.")

print("\nReviews table:")
for col in reviews.columns:
    if reviews[col].isna().sum() > 0:
        print(f"Column {col} has {reviews[col].isna().mean():.2%} missing values.")
    else:
        print(f"Column {col} has no missing values.")

Recipes table:
Column name has no missing values.
Column id has no missing values.
Column minutes has no missing values.
Column contributor_id has no missing values.
Column submitted has no missing values.
Column n_steps has 37.30% missing values.
Column description has 2.08% missing values.
Column n_ingredients has 29.60% missing values.

Reviews table:
Column user_id has no missing values.
Column recipe_id has no missing values.
Column date has no missing values.
Column rating has no missing values.
Column review has 0.01% missing values.


1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [None]:
numeric_cols = recipes.select_dtypes(include=['int64', 'float64']).columns.drop(['id', 'contributor_id'])
print("Recipes table:")
for col in numeric_cols:
    print(f"Average value for {col}: {recipes[col].mean()}")

numeric_cols = reviews.select_dtypes(include=['int64', 'float64']).columns.drop(['user_id', 'recipe_id'])
print("\nReviews table:")
for col in numeric_cols:
    print(f"Average value for {col}: {reviews[col].mean()}")

Recipes table:
Average value for minutes: 123.35813333333333
Average value for n_steps: 9.805582137161085
Average value for n_ingredients: 9.008285984848484

Reviews table:
Average value for rating: 4.410802235271832


1.5 Создайте серию из 10 случайных названий рецептов.

In [None]:
import numpy as np

random_names = recipes['name'].sample(n=10)
print(random_names)

5740     chicken cutlets with fried capers  parsley  an...
5533                           chicken   leeks and spinach
530                                       almond meltaways
14805                    jacques pepin family style shrimp
26405            super chocolate bundt cake  uses cake mix
13064                                grilled tuscan salmon
16035                                   lemony green beans
3156             black bottom cupcakes  the correct recipe
201                                  4 in 1 bean casserole
1569                               awesome turkey sandwich
Name: name, dtype: object


1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [None]:
reviews = reviews.reset_index(drop=True)
print(reviews.head())

      user_id  recipe_id        date  rating  \
0       21752      57993  2003-05-01       5   
1      431813     142201  2007-09-16       5   
2      400708     252013  2008-01-10       4   
3  2001852463     404716  2017-12-11       5   
4       95810     129396  2008-03-14       5   

                                              review  
0  Last week whole sides of frozen salmon fillet ...  
1  So simple and so tasty!  I used a yellow capsi...  
2  Very nice breakfast HH, easy to make and yummy...  
3  These are a favorite for the holidays and so e...  
4  Excellent soup!  The tomato flavor is just gre...  


1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [None]:
quick_and_easy = recipes[(recipes['minutes'] <= 20) & (recipes['n_ingredients'] <= 5)]
print(quick_and_easy[['name', 'minutes', 'n_ingredients']])

                                                    name  minutes  \
28                                   quick biscuit bread       20   
60                         peas  fit for a king or queen       20   
90                     hawaiian sunrise           mimosa        5   
91            tasty dish s   banana pudding in 2 minutes        2   
94                                    1 minute meatballs       13   
...                                                  ...      ...   
29873  zip and steam red potatoes with butter and garlic       13   
29874                          ziplock vanilla ice cream       10   
29905                      zucchini and corn with cheese       15   
29980               zucchini with jalapeno monterey jack       10   
29983                          zucchini with serrano ham       15   

       n_ingredients  
28               5.0  
60               5.0  
90               3.0  
91               4.0  
94               2.0  
...              ...  
29873     

### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

In [None]:
recipes = pd.read_csv('data/recipes_sample.csv', parse_dates=['submitted'])
print(recipes.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   name            30000 non-null  object        
 1   id              30000 non-null  int64         
 2   minutes         30000 non-null  int64         
 3   contributor_id  30000 non-null  int64         
 4   submitted       30000 non-null  datetime64[ns]
 5   n_steps         18810 non-null  float64       
 6   description     29377 non-null  object        
 7   n_ingredients   21120 non-null  float64       
dtypes: datetime64[ns](1), float64(2), int64(3), object(2)
memory usage: 1.8+ MB
None


2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [None]:
old_recipes = recipes[recipes['submitted'].dt.year <= 2010]
print(old_recipes[['name', 'submitted']])

                                               name  submitted
0             george s at the cove  black bean soup 2002-10-25
1                healthy for them  yogurt popsicles 2003-07-26
2                      i can t believe it s spinach 2002-08-29
3                              italian  gut busters 2002-07-27
4          love is in the air  beef fondue   sauces 2004-02-23
...                                             ...        ...
29993                     zuni caf zucchini pickles 2008-07-31
29995  zurie s holey rustic olive and cheddar bread 2007-11-25
29996          zwetschgenkuchen  bavarian plum cake 2009-08-24
29997   zwiebelkuchen   southwest german onion cake 2004-11-03
29999        cookies by design   cookies on a stick 2008-04-15

[27661 rows x 2 columns]


### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

In [None]:
recipes['description_length'] = recipes['description'].str.len()
print(recipes.head())

                                       name     id  minutes  contributor_id  \
0     george s at the cove  black bean soup  44123       90           35193   
1        healthy for them  yogurt popsicles  67664       10           91970   
2              i can t believe it s spinach  38798       30            1533   
3                      italian  gut busters  35173       45           22724   
4  love is in the air  beef fondue   sauces  84797       25            4470   

   submitted  n_steps                                        description  \
0 2002-10-25      NaN  an original recipe created by chef scott meska...   
1 2003-07-26      NaN  my children and their friends ask for my homem...   
2 2002-08-29      NaN            these were so go, it surprised even me.   
3 2002-07-27      NaN  my sister-in-law made these for us at a family...   
4 2004-02-23      4.0  i think a fondue is a very romantic casual din...   

   n_ingredients  description_length  
0           18.0             

3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

In [None]:
recipes['name'] = recipes['name'].str.title()
print(recipes.head())

                                       name     id  minutes  contributor_id  \
0     George S At The Cove  Black Bean Soup  44123       90           35193   
1        Healthy For Them  Yogurt Popsicles  67664       10           91970   
2              I Can T Believe It S Spinach  38798       30            1533   
3                      Italian  Gut Busters  35173       45           22724   
4  Love Is In The Air  Beef Fondue   Sauces  84797       25            4470   

   submitted  n_steps                                        description  \
0 2002-10-25      NaN  an original recipe created by chef scott meska...   
1 2003-07-26      NaN  my children and their friends ask for my homem...   
2 2002-08-29      NaN            these were so go, it surprised even me.   
3 2002-07-27      NaN  my sister-in-law made these for us at a family...   
4 2004-02-23      4.0  i think a fondue is a very romantic casual din...   

   n_ingredients  description_length  
0           18.0             

3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами). Обратите внимание, что между словами может располагаться несколько пробелов подряд.

In [None]:
recipes['name_word_count'] = recipes['name'].str.split().str.len()
print(recipes.head())

                                       name     id  minutes  contributor_id  \
0     George S At The Cove  Black Bean Soup  44123       90           35193   
1        Healthy For Them  Yogurt Popsicles  67664       10           91970   
2              I Can T Believe It S Spinach  38798       30            1533   
3                      Italian  Gut Busters  35173       45           22724   
4  Love Is In The Air  Beef Fondue   Sauces  84797       25            4470   

   submitted  n_steps                                        description  \
0 2002-10-25      NaN  an original recipe created by chef scott meska...   
1 2003-07-26      NaN  my children and their friends ask for my homem...   
2 2002-08-29      NaN            these were so go, it surprised even me.   
3 2002-07-27      NaN  my sister-in-law made these for us at a family...   
4 2004-02-23      4.0  i think a fondue is a very romantic casual din...   

   n_ingredients  description_length  name_word_count  
0           

### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

In [None]:
recipe_counts = recipes['contributor_id'].value_counts()

max_contributor = recipe_counts.idxmax()

print("Number of recipes submitted by each contributor:\n")
print(recipe_counts)
print("\nContributor who added the most recipes: {}\n".format(max_contributor))

Number of recipes submitted by each contributor:

89831      421
37449      346
37779      345
1533       186
169430     183
          ... 
1061628      1
1076183      1
429061       1
64032        1
186118       1
Name: contributor_id, Length: 8404, dtype: int64

Contributor who added the most recipes: 89831



4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы? Обратите внимание, что отзыв с нулевым рейтингом или не заполненным текстовым описанием не считается отсутствующим.

In [None]:
avg_ratings = reviews.groupby('recipe_id')['rating'].mean()

missing_reviews = recipes['id'].nunique() - avg_ratings.count()

print("Average rating for each recipe:\n")
print(avg_ratings)
print("\nNumber of recipes with missing reviews: {}\n".format(missing_reviews))

Average rating for each recipe:

recipe_id
48        1.000000
55        4.750000
66        4.944444
91        4.750000
94        5.000000
            ...   
536547    5.000000
536610    0.000000
536728    4.000000
536729    4.750000
536747    0.000000
Name: rating, Length: 28100, dtype: float64

Number of recipes with missing reviews: 1900



4.3 Посчитайте количество рецептов с разбивкой по годам создания.

In [None]:
recipes_by_year = recipes.groupby(recipes['submitted'].dt.year).size()

print("Number of recipes by year of creation:\n")
print(recipes_by_year)

Number of recipes by year of creation:

submitted
1999     275
2000     104
2001     589
2002    2644
2003    2334
2004    2153
2005    3130
2006    3473
2007    4429
2008    4029
2009    2963
2010    1538
2011     922
2012     659
2013     490
2014     139
2015      42
2016      24
2017      39
2018      24
dtype: int64


### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты, на которые не оставлен ни один отзыв, должны отсутствовать в полученной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и попытавшись найти строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [None]:
merged = pd.merge(recipes[['id', 'name']], reviews[['recipe_id', 'user_id', 'rating']], left_on='id', right_on='recipe_id')

merged.drop('recipe_id', axis=1, inplace=True)

print(merged)

            id                                    name  user_id  rating
0        44123   George S At The Cove  Black Bean Soup   743566       5
1        44123   George S At The Cove  Black Bean Soup    76503       5
2        44123   George S At The Cove  Black Bean Soup    34206       5
3        67664      Healthy For Them  Yogurt Popsicles   494084       5
4        67664      Healthy For Them  Yogurt Popsicles   303445       5
...        ...                                     ...      ...     ...
126691  486161                             Zydeco Soup   305531       5
126692  486161                             Zydeco Soup  1271506       5
126693  486161                             Zydeco Soup   724631       5
126694  486161                             Zydeco Soup   133174       5
126695  298512  Cookies By Design   Cookies On A Stick   804234       1

[126696 rows x 4 columns]


In [None]:
no_reviews_recipe = recipes[recipes['id'] == 222261]

print(merged[merged['id'] == 222261])

Empty DataFrame
Columns: [id, name, user_id, rating]
Index: []


5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`, где столбец `review_count` содержит кол-во отзывов, оставленных на рецепт `recipe_id`. У рецептов, на которые не оставлен ни один отзыв, в столбце `review_count` должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и найдя строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [None]:
merged = pd.merge(recipes[['id', 'name']], reviews[['recipe_id']], left_on='id', right_on='recipe_id')

review_counts = merged.groupby('recipe_id')['recipe_id'].count()

recipe_review_counts = pd.DataFrame({'recipe_id': review_counts.index, 'review_count': review_counts.values})

recipe_review_counts = pd.merge(recipe_review_counts, recipes[['id', 'name']], left_on='recipe_id', right_on='id')

recipe_review_counts.drop(['id', 'recipe_id'], axis=1, inplace=True)

recipe_review_counts.set_index('name', inplace=True)

print(recipe_review_counts)

                                            review_count
name                                                    
Boston Cream Pie                                       2
Betty Crocker S Southwestern Guacamole Dip             4
Black Coffee Barbecue Sauce                           18
Brown Rice And Vegetable Pilaf                         4
Blueberry Buttertarts                                  4
...                                                  ...
Cauliflower Ceviche                                    1
Miracle Home Made Puff Pastry                          1
Gluten Free  Vegemite                                  1
Creole Watermelon Feta Salad                           4
Lemon Pom Pom Cake                                     4

[28100 rows x 1 columns]


In [None]:
no_reviews_recipe = recipes[recipes['id'] == 222261]

print(recipe_review_counts.loc[no_reviews_recipe['name']])

Empty DataFrame
Columns: [review_count]
Index: []


5.3. Выясните, рецепты, добавленные в каком году, имеют наименьший средний рейтинг?

In [None]:
merged = pd.merge(recipes[['id', 'name', 'submitted']], reviews[['recipe_id', 'rating']], left_on='id', right_on='recipe_id')

grouped = merged.groupby([merged['submitted'].dt.year, 'name'])['rating'].mean()

lowest_rating = grouped.idxmin()

print("Year and recipe with the lowest average rating: {}\n".format(lowest_rating))

Year and recipe with the lowest average rating: (1999, 'Bugwiches')



### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

In [None]:
recipes['description_length'] = recipes['description'].apply(lambda x: len(str(x).split()))

recipes['name'] = recipes['name'].apply(lambda x: x.title())

recipes['name_word_count'] = recipes['name'].apply(lambda x: len(str(x).split()))

recipes_sorted = recipes.sort_values(by='name_word_count', ascending=False)

recipes_sorted.to_csv('recipes_sorted.csv', index=False)

In [None]:
recipes['description_length'] = recipes['description'].apply(lambda x: len(str(x).split()))

recipes['name'] = recipes['name'].apply(lambda x: x.title())

recipes['name_word_count'] = recipes['name'].apply(lambda x: len(str(x).split()))

recipes_sorted = recipes.sort_values(by='name_word_count', ascending=False)

quick_and_simple_recipes = recipes[(recipes['minutes'] <= 20) & (recipes['n_ingredients'] <= 5)]
quick_and_simple_recipes.to_csv('recipes_sorted.csv', mode='a', index=False, header=False)

recipes['name'] = recipes['name'].apply(lambda x: x.title())

recipes['name_word_count'] = recipes['name'].apply(lambda x: len(str(x).split()))

recipes.to_csv('recipes_sorted.csv', mode='a', index=False, header=False)

print("Quick and simple recipes:\n")
print(quick_and_simple_recipes)

Quick and simple recipes:

                                                    name      id  minutes  \
28                                   Quick Biscuit Bread  302399       20   
60                         Peas  Fit For A King Or Queen  303944       20   
90                     Hawaiian Sunrise           Mimosa  100837        5   
91            Tasty Dish S   Banana Pudding In 2 Minutes  286484        2   
94                                    1 Minute Meatballs   11361       13   
...                                                  ...     ...      ...   
29873  Zip And Steam Red Potatoes With Butter And Garlic  304922       13   
29874                          Ziplock Vanilla Ice Cream   74250       10   
29905                      Zucchini And Corn With Cheese  256177       15   
29980               Zucchini With Jalapeno Monterey Jack  320622       10   
29983                          Zucchini With Serrano Ham  162411       15   

       contributor_id  submitted  n_steps  \
28 

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.

In [None]:
merged = pd.merge(recipes[['id', 'name', 'contributor_id']], reviews[['recipe_id', 'user_id', 'rating']], left_on='id', right_on='recipe_id')

merged = merged.dropna(subset=['rating'])

review_count = merged.groupby(['id', 'name'])['rating'].count().reset_index()

review_count = review_count.rename(columns={'rating': 'review_count'})

with pd.ExcelWriter('recipes_and_review_scores.xlsx') as writer:
    merged[['id', 'name', 'user_id', 'rating']].to_excel(writer, sheet_name='Recipes with grades', index=False)

with pd.ExcelWriter('recipes_and_review_scores.xlsx', mode='a') as writer:
    review_count[['id', 'name', 'review_count']].to_excel(writer, sheet_name='Number of reviews on recipes', index=False)

#### [версия 2]
* Уточнены формулировки задач 1.1, 3.3, 4.2, 5.1, 5.2, 5.3