# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [None]:
import pandas as pd
import numpy as np

data = pd.read_csv("sp500hst.txt", sep=",")
data.columns = ["date", "ticker", "open", "high", "low", "close", "volume"]
print(data[:5])

       date ticker   open     high     low  close  volume
0  20090824      A  25.64  25.7400  25.330  25.50   22247
1  20090825      A  25.50  25.7000  25.225  25.34   30891
2  20090826      A  25.32  25.6425  25.145  25.48   33334
3  20090827      A  25.50  25.5700  25.230  25.54   70176
4  20090828      A  25.67  26.0500  25.630  25.83   39694


2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

In [None]:
import statistics
mean_3 = statistics.mean(data["open"])
print("среднее значение показателей 3-го столбца:", mean_3)

mean_4 = statistics.mean(data["high"])
print("среднее значение показателей 4-го столбца:", mean_4)

mean_5 = statistics.mean(data["low"])
print("среднее значение показателей 5-го столбца:", mean_5)

mean_6 = statistics.mean(data["close"])
print("среднее значение показателей 6-го столбца:", mean_6)

среднее значение показателей 3-го столбца: 42.59559631484911
среднее значение показателей 4-го столбца: 43.10238609644865
среднее значение показателей 5-го столбца: 42.05460100756284
среднее значение показателей 6-го столбца: 42.60200396416829


3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [None]:
data['date'] = pd.to_datetime(data['date'], format='%Y%m%d')
data["Month number"] = data["date"].dt.month
print(data[:5])

        date ticker   open     high     low  close  volume  Month number
0 2009-08-24      A  25.64  25.7400  25.330  25.50   22247             8
1 2009-08-25      A  25.50  25.7000  25.225  25.34   30891             8
2 2009-08-26      A  25.32  25.6425  25.145  25.48   33334             8
3 2009-08-27      A  25.50  25.5700  25.230  25.54   70176             8
4 2009-08-28      A  25.67  26.0500  25.630  25.83   39694             8


4. Рассчитайте суммарный объем торгов для для одинаковых значений тикеров.

In [None]:
tickers = data["ticker"].unique()
result = []
for i in tickers:
  result.append(data.loc[data["ticker"] == i, "volume"].sum())
result

In [None]:
data.groupby("ticker").volume.sum()

ticker
A        8574578
AA      81898998
AAPL    52261170
ABC      9006756
ABT     18975870
          ...   
XTO     21297931
YHOO    56837171
YUM     10971538
ZION    15551119
ZMH      4938916
Name: volume, Length: 524, dtype: int64

5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

In [None]:
new_data = pd.read_csv("sp_data2.csv", sep=";", error_bad_lines=False)
new_data.columns = ["Abbreviation", "Full name", "Percent"]
print(new_data)

    Abbreviation        Full name Percent
0           AMZN       Amazon.com    3.2%
1          GOOGL         Alphabet    3.1%
2           GOOG         Alphabet    3.1%
3           MSFT        Microsoft    3.0%
4             FB         Facebook    2.2%
..           ...              ...     ...
499          SCG            SCANA    0.0%
500          AIZ         Assurant    0.0%
501          AYI    Acuity Brands    0.0%
502          HRB        H&R Block    0.0%
503          RRC  Range Resources    0.0%

[504 rows x 3 columns]




  new_data = pd.read_csv("sp_data2.csv", sep=";", error_bad_lines=False)


In [None]:
#data["Full name"] = new_data.loc[new_data["Abbreviation"] == data["ticker"], "Full name"]
#data

## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца с индексами в таблице `reviews` (безымянный столбец).

In [None]:
recipes = pd.read_csv('recipes_sample.csv', parse_dates=["submitted"])
reviews = pd.read_csv('reviews_sample.csv', index_col=0)
reviews.head()

Unnamed: 0,user_id,recipe_id,date,rating,review
370476,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
624300,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
187037,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
706134,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
312179,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...


In [None]:
recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,


1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [None]:
print(recipes.shape[0])
print(reviews.shape[0])
print(recipes.shape[1])
print(reviews.shape[1])
print(recipes["name"].dtype)
print(recipes["id"].dtype)
print(recipes["minutes"].dtype)
print(recipes["contributor_id"].dtype)
print(recipes["submitted"].dtype)
print(recipes["n_steps"].dtype)
print(recipes["description"].dtype)
print(recipes["n_ingredients"].dtype)

30000
23239
8
5
object
int64
int64
int64
object
float64
object
float64


1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [None]:
missing_values_recipes = recipes.isnull().sum()
print("Пропуски в таблице с рецептами:")
print(missing_values_recipes)

Пропуски в таблице с рецептами:
name                  0
id                    0
minutes               0
contributor_id        0
submitted             0
n_steps           11190
description         623
n_ingredients      8880
dtype: int64


In [None]:
missing_values_reviews = reviews.isnull().sum()
print("Пропуски в таблице с отзывами:")
print(missing_values_reviews)

Пропуски в таблице с отзывами:
user_id      1
recipe_id    1
date         1
rating       1
review       5
dtype: int64


In [None]:
missing_row_recipes = recipes.isnull().any(axis=1).mean()
print(missing_values_recipes)

name                  0
id                    0
minutes               0
contributor_id        0
submitted             0
n_steps           11190
description         623
n_ingredients      8880
dtype: int64
30000


In [None]:
missing_row_reviews = reviews.isnull().any(axis=1).mean()
print(missing_values_reviews)

user_id      1
recipe_id    1
date         1
rating       1
review       5
dtype: int64


1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [None]:
recipes.loc[:, ["minutes", "n_ingredients"]].mean(), reviews.loc[:, ["rating"]].mean()

(minutes          123.358133
 n_ingredients      9.008286
 dtype: float64,
 rating    4.425553
 dtype: float64)

1.5 Создайте серию из 10 случайных названий рецептов.

In [None]:
names = recipes.name.sample(n=10)
names, type(names)

(18383    my  base for everything  zippy  marinara sauce
 26582            sweet  sugar free gluten free  granola
 10246                       easy sweet potato casserole
 11604                               fruit dessert salad
 8900                                  cucumber lemonade
 19797       pannbiff med lok   meat patties with onions
 7347                          coffee can campfire bread
 19553                                      ouzo martini
 14151                                 hot apple toddies
 19776           panch phoron  indian spice seed mixture
 Name: name, dtype: object,
 pandas.core.series.Series)

1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [None]:
reviews.index = range(0, reviews.shape[0])
reviews

In [None]:
reviews.reset_index(drop=True, inplace=True)
print(reviews.head())

        user_id  recipe_id        date  rating  \
0  2.175200e+04    57993.0  2003-05-01     5.0   
1  4.318130e+05   142201.0  2007-09-16     5.0   
2  4.007080e+05   252013.0  2008-01-10     4.0   
3  2.001852e+09   404716.0  2017-12-11     5.0   
4  9.581000e+04   129396.0  2008-03-14     5.0   

                                              review  
0  Last week whole sides of frozen salmon fillet ...  
1  So simple and so tasty!  I used a yellow capsi...  
2  Very nice breakfast HH, easy to make and yummy...  
3  These are a favorite for the holidays and so e...  
4  Excellent soup!  The tomato flavor is just gre...  


\1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [None]:
result = recipes.query("minutes <= 20 and n_ingredients <= 5")
print(result)

In [None]:
result1 = recipes.loc[(recipes["minutes"] <= 20) & (recipes["n_ingredients"] <= 5)]
print(result1)

### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

In [None]:
recipes["submitted"] = pd.to_datetime(recipes["submitted"])
recipes.dtypes

name                      object
id                         int64
minutes                    int64
contributor_id             int64
submitted         datetime64[ns]
n_steps                  float64
description               object
n_ingredients            float64
dtype: object

2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [None]:
recipes[(recipes.submitted < "2010.01.01")]

### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

In [None]:
recipes["description_length"] = recipes.description.apply(lambda x: len(str(x)))
recipes

3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

In [None]:
recipes["name"] = recipes["name"].apply(lambda x: x.title())
print(recipes.head())

3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами). Обратите внимание, что между словами может располагаться несколько пробелов подряд.

In [None]:
recipes["name_word_count"] = recipes["name"].apply(lambda x: len(x.split()))
recipes

### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

In [None]:
recipe_counts = recipes["contributor_id"].value_counts()
recipe_counts

max_contributor_id = recipe_counts.idxmax()
print(max_contributor_id)

max_recipe_count = recipe_counts.max()
print(max_recipe_count)

89831
421


4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов

*   List item
*   List item

отсутствуют отзывы? Обратите внимание, что отзыв с нулевым рейтингом или не заполненным текстовым описанием не считается отсутствующим.

In [None]:
marks = reviews.groupby("recipe_id").rating.mean()
marks

print("Отзывы отсутсвуют для рецептов:")
recipes.shape[0] - pd.unique(reviews.recipe_id).shape[0]

Отзывы отсутсвуют для рецептов:


1900

4.3 Посчитайте количество рецептов с разбивкой по годам создания.

In [None]:
print(pd.DatetimeIndex(recipes["submitted"]).year.value_counts().sort_index())

In [None]:
recipes.groupby(recipes["submitted"].dt.year).size()

### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты, на которые не оставлен ни один отзыв, должны отсутствовать в полученной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и попытавшись найти строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [None]:
merge_df = pd.merge(recipes, reviews, left_on="id", right_on="recipe_id")
result_df = merge_df[["id", "name", "user_id", "rating"]]
print(result_df.head())
#Проверка рецепта без отзывов:
recipe_without_reviews = recipes.loc[recipes.id == 48]
print(recipe_without_reviews)

      id                                   name  user_id  rating
0  44123  George S At The Cove  Black Bean Soup   743566       5
1  44123  George S At The Cove  Black Bean Soup    76503       5
2  44123  George S At The Cove  Black Bean Soup    34206       5
3  67664     Healthy For Them  Yogurt Popsicles   494084       5
4  67664     Healthy For Them  Yogurt Popsicles   303445       5
                  name  id  minutes  contributor_id  submitted  n_steps  \
3535  Boston Cream Pie  48      135            1545 1999-08-24     32.0   

     description  n_ingredients  description_length  name_word_count  
3535         NaN           15.0                   3                3  


5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`, где столбец `review_count` содержит кол-во отзывов, оставленных на рецепт `recipe_id`. У рецептов, на которые не оставлен ни один отзыв, в столбце `review_count` должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и найдя строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [None]:
merged_df = pd.merge(recipes, reviews, left_on="id", right_on="recipe_id", how="left")
review_count_df = merged_df.groupby(["id", "name"]).size().reset_index(name="review_count")
result_df = pd.merge(recipes[["id", "name"]], review_count_df, left_on="id", right_on="id", how="left").fillna(0)

recipe_without_reviews = recipes.loc[recipes.id == 48]
print(recipe_without_reviews)

print(result_df.head())

                  name  id  minutes  contributor_id  submitted  n_steps  \
3535  Boston Cream Pie  48      135            1545 1999-08-24     32.0   

     description  n_ingredients  description_length  name_word_count  
3535         NaN           15.0                   3                3  
      id                                    name_x  \
0  44123     George S At The Cove  Black Bean Soup   
1  67664        Healthy For Them  Yogurt Popsicles   
2  38798              I Can T Believe It S Spinach   
3  35173                      Italian  Gut Busters   
4  84797  Love Is In The Air  Beef Fondue   Sauces   

                                     name_y  review_count  
0     George S At The Cove  Black Bean Soup             3  
1        Healthy For Them  Yogurt Popsicles             8  
2              I Can T Believe It S Spinach             3  
3                      Italian  Gut Busters             1  
4  Love Is In The Air  Beef Fondue   Sauces             8  


5.3. Выясните, рецепты, добавленные в каком году, имеют наименьший средний рейтинг?

In [None]:
#avr_rating_per_year = reviews.groupby(reviews["date"].dt.year)["rating"].mean()
#avr_rating_per_year[avr_rating_per_year < avr_rating_per_year.quantile(q=0.1)]

### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл.

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.

#### [версия 2]
* Уточнены формулировки задач 1.1, 3.3, 4.2, 5.1, 5.2, 5.3