# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

In [360]:
import numpy as np
import pandas as pd

## Задачи для совместного разбора

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [361]:
df = pd.read_csv("sp500hst.txt", sep=",", header=None, 
                 names=["date", "ticker", "open", "high", "low", "close", "volume"])
df.head()

Unnamed: 0,date,ticker,open,high,low,close,volume
0,20090821,A,25.6,25.61,25.22,25.55,34758
1,20090824,A,25.64,25.74,25.33,25.5,22247
2,20090825,A,25.5,25.7,25.225,25.34,30891
3,20090826,A,25.32,25.6425,25.145,25.48,33334
4,20090827,A,25.5,25.57,25.23,25.54,70176


2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

In [362]:
df[df.columns[3:7]].mean()

high         43.102243
low          42.054464
close        42.601865
volume    81395.068138
dtype: float64

3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [363]:
df["month"] = pd.to_datetime(df['date'], format="%Y%m%d").dt.month
df.head()

Unnamed: 0,date,ticker,open,high,low,close,volume,month
0,20090821,A,25.6,25.61,25.22,25.55,34758,8
1,20090824,A,25.64,25.74,25.33,25.5,22247,8
2,20090825,A,25.5,25.7,25.225,25.34,30891,8
3,20090826,A,25.32,25.6425,25.145,25.48,33334,8
4,20090827,A,25.5,25.57,25.23,25.54,70176,8


4. Рассчитайте суммарный объем торгов для для одинаковых значений тикеров.

In [365]:
df.groupby('ticker')['volume'].sum().head()

ticker
A        8609336
AA      81898998
AAPL    52261170
ABC      9006756
ABT     18975870
Name: volume, dtype: int64

5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

In [366]:
dff = pd.read_csv("sp_data2.csv", sep=";", header=None, names=["ticker", "name", "prs"], usecols=[0,1])
dff.head()

Unnamed: 0,ticker,name
0,AAPL,Apple
1,AMZN,Amazon.com
2,GOOGL,Alphabet
3,GOOG,Alphabet
4,MSFT,Microsoft


In [367]:
pd.merge(df, dff, left_on='ticker', right_on='ticker').head()

Unnamed: 0,date,ticker,open,high,low,close,volume,month,name
0,20090821,A,25.6,25.61,25.22,25.55,34758,8,Agilent Technologies
1,20090824,A,25.64,25.74,25.33,25.5,22247,8,Agilent Technologies
2,20090825,A,25.5,25.7,25.225,25.34,30891,8,Agilent Technologies
3,20090826,A,25.32,25.6425,25.145,25.48,33334,8,Agilent Technologies
4,20090827,A,25.5,25.57,25.23,25.54,70176,8,Agilent Technologies


In [368]:
pd.merge(df, dff, left_on='ticker', right_on='ticker', how='left').head()

Unnamed: 0,date,ticker,open,high,low,close,volume,month,name
0,20090821,A,25.6,25.61,25.22,25.55,34758,8,Agilent Technologies
1,20090824,A,25.64,25.74,25.33,25.5,22247,8,Agilent Technologies
2,20090825,A,25.5,25.7,25.225,25.34,30891,8,Agilent Technologies
3,20090826,A,25.32,25.6425,25.145,25.48,33334,8,Agilent Technologies
4,20090827,A,25.5,25.57,25.23,25.54,70176,8,Agilent Technologies


## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца(ов) с индексами.

In [369]:
recipes = pd.read_csv("recipes_sample.csv", sep=",")
recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,


In [370]:
reviews = pd.read_csv("reviews_sample.csv", sep=",", parse_dates=['date'])
reviews.rename(columns={'Unnamed: 0': 'id'}, inplace=True)
reviews.head()

Unnamed: 0,id,user_id,recipe_id,date,rating,review
0,370476,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
1,624300,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
2,187037,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
3,706134,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
4,312179,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...


1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [371]:
print(recipes.shape[0])
print(recipes.shape[1])
print(recipes.dtypes)

30000
8
name               object
id                  int64
minutes             int64
contributor_id      int64
submitted          object
n_steps           float64
description        object
n_ingredients     float64
dtype: object


In [372]:
print(reviews.shape[0])
print(reviews.shape[1])
print(reviews.dtypes)

126696
6
id                    int64
user_id               int64
recipe_id             int64
date         datetime64[ns]
rating                int64
review               object
dtype: object


1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [373]:
recipes.isna().head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,False,False,False,False,False,True,False,False
1,False,False,False,False,False,True,False,True
2,False,False,False,False,False,True,False,False
3,False,False,False,False,False,True,False,True
4,False,False,False,False,False,False,False,True


In [374]:
print(recipes[recipes.columns[recipes.isna().sum(axis=0) > 0]].head(0))
print(recipes.isna().sum(axis=0))

Empty DataFrame
Columns: [n_steps, description, n_ingredients]
Index: []
name                  0
id                    0
minutes               0
contributor_id        0
submitted             0
n_steps           11190
description         623
n_ingredients      8880
dtype: int64


In [375]:
sum(recipes.isna().sum(axis=1) > 0)/recipes.shape[0]

0.5684666666666667

1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [376]:
print(recipes[['minutes', 'n_steps', 'n_ingredients']].mean())
print(reviews[['rating']].mean())

minutes          123.358133
n_steps            9.805582
n_ingredients      9.008286
dtype: float64
rating    4.410802
dtype: float64


1.5 Создайте серию из 10 случайных названий рецептов.

In [377]:
recipes.sample(10)['name']

2890                                  best ever beef roast
15815               lemon belgian waffles with berry syrup
28128                                tuna stuffed tomatoes
17535                mexican style  spicy  corn on the cob
8552                    croatian flour soup  prezgana juha
14995                                   jicama apple salad
17200    matbucha    moroccan grilled red peppers   tom...
7299                        coconut macaroon cookie recipe
246                        90 minute beer brined pot roast
27104                                   tequila pork roast
Name: name, dtype: object

1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [378]:
reviews['id']= reviews['id']-reviews['id'].min()
reviews.head()

Unnamed: 0,id,user_id,recipe_id,date,rating,review
0,370471,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
1,624295,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
2,187032,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
3,706129,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
4,312174,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...


1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [379]:
recipes[(recipes.minutes <= 20) & (recipes.n_ingredients <= 5)].head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
28,quick biscuit bread,302399,20,213909,2008-05-06,11.0,this is a wonderful quick bread to make as an ...,5.0
60,peas fit for a king or queen,303944,20,213909,2008-05-16,,this recipe is so simple and the flavors are s...,5.0
90,hawaiian sunrise mimosa,100837,5,58104,2004-09-29,4.0,pineapple mimosa was changed to hawaiian sunri...,3.0
91,tasty dish s banana pudding in 2 minutes,286484,2,47892,2008-02-13,,"""mmmm, i love bananas!"" a --tasty dish-- origi...",4.0
94,1 minute meatballs,11361,13,4470,2001-09-03,,this is a real short cut for cooks in a hurry....,2.0


### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

In [380]:
pd.to_datetime(recipes['submitted'], format="%Y-%m-%d").head()

0   2002-10-25
1   2003-07-26
2   2002-08-29
3   2002-07-27
4   2004-02-23
Name: submitted, dtype: datetime64[ns]

In [381]:
recipes = pd.read_csv("recipes_sample.csv", sep=",", parse_dates=['submitted'])
recipes.dtypes

name                      object
id                         int64
minutes                    int64
contributor_id             int64
submitted         datetime64[ns]
n_steps                  float64
description               object
n_ingredients            float64
dtype: object

2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [382]:
recipes[recipes.submitted.dt.year <= 2010].head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,


### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

In [383]:
recipes['description_lenght'] = recipes['description'].str.len()
recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_lenght
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,330.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,255.0
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,39.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,154.0
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,587.0


3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

In [384]:
recipes['name'] = recipes['name'].str.title()
recipes['name'].head()

0       George S At The Cove  Black Bean Soup
1          Healthy For Them  Yogurt Popsicles
2                I Can T Believe It S Spinach
3                        Italian  Gut Busters
4    Love Is In The Air  Beef Fondue   Sauces
Name: name, dtype: object

3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами).

In [385]:
recipes['name_word_count'] = recipes['name'].str.split().str.len()
recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_lenght,name_word_count
0,George S At The Cove Black Bean Soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,330.0,8
1,Healthy For Them Yogurt Popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,255.0,5
2,I Can T Believe It S Spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,39.0,7
3,Italian Gut Busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,154.0,3
4,Love Is In The Air Beef Fondue Sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,587.0,8


### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

In [386]:
recipes.groupby('contributor_id')['id'].count().head()

contributor_id
1530      5
1533    186
1534     50
1535     40
1538      8
Name: id, dtype: int64

In [387]:
recipes.groupby('contributor_id')['id'].count().idxmax()

89831

4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы?

In [388]:
reviews.groupby('recipe_id')['rating'].mean().head()

recipe_id
48    1.000000
55    4.750000
66    4.944444
91    4.750000
94    5.000000
Name: rating, dtype: float64

In [389]:
sum(reviews.groupby('recipe_id')['review'].count() == 0)

0

4.3 Посчитайте количество рецептов с разбивкой по годам создания.

In [390]:
recipes.groupby(recipes['submitted'].dt.year)['id'].count().head()

submitted
1999     275
2000     104
2001     589
2002    2644
2003    2334
Name: id, dtype: int64

### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты без отзывов должны отсутствовать в данной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и выведя на экран строку из полученного `DataFrame`, содержащую информацию об этом отзыве.

In [391]:
df = pd.merge(recipes[['id','name']], reviews[['recipe_id','user_id','rating']], left_on='id', right_on='recipe_id', how='inner')
df.drop('recipe_id', axis=1, inplace=True)
df.head()

Unnamed: 0,id,name,user_id,rating
0,44123,George S At The Cove Black Bean Soup,743566,5
1,44123,George S At The Cove Black Bean Soup,76503,5
2,44123,George S At The Cove Black Bean Soup,34206,5
3,67664,Healthy For Them Yogurt Popsicles,494084,5
4,67664,Healthy For Them Yogurt Popsicles,303445,5


In [392]:
df_all = recipes[['id']].merge(reviews[['recipe_id']].drop_duplicates(), left_on='id', right_on='recipe_id', how='left', indicator=True)
df_all[df_all['_merge'] == 'left_only'].head()

Unnamed: 0,id,recipe_id,_merge
26,223349,,left_only
29,342620,,left_only
35,276594,,left_only
49,216068,,left_only
59,306590,,left_only


In [393]:
df[df['id'] == 223349]

Unnamed: 0,id,name,user_id,rating


5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`. У рецептов, для которых отсутствуют отзывы, в соответствущем столбце должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и выведя на экран строку из полученного `DataFrame`, содержащую информацию об этом отзыве.


In [394]:
rew= reviews.groupby('recipe_id')['review'].count()
df2 = pd.merge(recipes[['id','name']], rew, left_on='id', right_on='recipe_id', how='left')
df2 = df2.rename(columns={'review': 'review_count'})
df2['review_count'] = df2['review_count'].fillna(0)
df2.head()

Unnamed: 0,id,name,review_count
0,44123,George S At The Cove Black Bean Soup,3.0
1,67664,Healthy For Them Yogurt Popsicles,8.0
2,38798,I Can T Believe It S Spinach,3.0
3,35173,Italian Gut Busters,1.0
4,84797,Love Is In The Air Beef Fondue Sauces,8.0


In [395]:
df2[df2['id'] == 223349]

Unnamed: 0,id,name,review_count
26,223349,Pasta With Shrimp Eggplant,0.0


5.3. Выясните, отзывы, добавленные в каком году, имеют наименьший средний рейтинг?

In [396]:
gr = reviews.groupby(reviews['date'].dt.year)['rating']
print(gr.sum()/gr.count())
(gr.sum()/gr.count()).idxmin()

date
2000    3.384615
2001    4.134426
2002    4.481556
2003    4.526940
2004    4.546548
2005    4.563680
2006    4.603673
2007    4.547077
2008    4.484635
2009    4.524728
2010    4.454440
2011    4.302045
2012    4.341427
2013    4.274168
2014    4.110595
2015    4.047145
2016    3.912603
2017    3.353042
2018    3.504076
Name: rating, dtype: float64


2017

### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

In [355]:
recipes = recipes.sort_values(by='name_word_count', ascending=False)
recipes.to_csv('rec3.csv', encoding='utf-8')

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.

In [357]:
ex = pd.ExcelWriter('rec5.xlsx')
df.to_excel(ex, 'Рецепты с оценками')
df2.to_excel(ex, 'Количество отзывов по рецептам')
ex.save()