# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [6]:
import pandas as pd
import numpy as np


In [29]:
sp = pd.read_csv("sp500hst.txt", header=None)
type(sp)
sp.columns = ["date", "ticker", "open", "high", "low", "close", "volume"]
sp.head()

Unnamed: 0,date,ticker,open,high,low,close,volume
0,20090821,A,25.6,25.61,25.22,25.55,34758
1,20090824,A,25.64,25.74,25.33,25.5,22247
2,20090825,A,25.5,25.7,25.225,25.34,30891
3,20090826,A,25.32,25.6425,25.145,25.48,33334
4,20090827,A,25.5,25.57,25.23,25.54,70176


2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

In [13]:
sp.iloc[:, 3:].mean(axis=0)

high         43.102243
low          42.054464
close        42.601865
volume    81395.068138
dtype: float64

3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [30]:
sp['date']=pd.to_datetime(sp['date'],format='%Y%m%d')
sp['month']=sp['date'].dt.month
sp.head()

Unnamed: 0,date,ticker,open,high,low,close,volume,month
0,2009-08-21,A,25.6,25.61,25.22,25.55,34758,8
1,2009-08-24,A,25.64,25.74,25.33,25.5,22247,8
2,2009-08-25,A,25.5,25.7,25.225,25.34,30891,8
3,2009-08-26,A,25.32,25.6425,25.145,25.48,33334,8
4,2009-08-27,A,25.5,25.57,25.23,25.54,70176,8


4. Рассчитайте суммарный объем торгов для  одинаковых значений тикеров.

In [33]:
ticker_name = pd.read_csv(r"data/sp_data2.csv",sep=";",header= None)
ticker_name.columns=['ticker', 'name', '%']
ticker_name

Unnamed: 0,ticker,name,%
0,AAPL,Apple,3.6%
1,AMZN,Amazon.com,3.2%
2,GOOGL,Alphabet,3.1%
3,GOOG,Alphabet,3.1%
4,MSFT,Microsoft,3.0%
...,...,...,...
500,SCG,SCANA,0.0%
501,AIZ,Assurant,0.0%
502,AYI,Acuity Brands,0.0%
503,HRB,H&R Block,0.0%


In [34]:
sp.merge(ticker_name,how='left',left_on='ticker',right_on='ticker').tail(3)


Unnamed: 0,date,ticker,open,high,low,close,volume,month,name,%
122571,2010-08-17,ZMH,51.14,51.6,50.89,51.21,20498,8,,
122572,2010-08-19,ZMH,51.63,51.63,50.17,50.22,18259,8,,
122573,2010-08-20,ZMH,50.03,50.55,49.48,49.82,17792,8,,


# Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца с индексами в таблице `reviews` (безымянный столбец).

In [116]:
import numpy as np
import pandas as pd

recipies = pd.read_csv("recipes_sample.csv", header = 0, parse_dates = [4])
reviews = pd.read_csv("reviews_sample.csv", header = 0, parse_dates = [3])
print(recipies)
print(reviews)

                                               name      id  minutes  \
0             george s at the cove  black bean soup   44123       90   
1                healthy for them  yogurt popsicles   67664       10   
2                      i can t believe it s spinach   38798       30   
3                              italian  gut busters   35173       45   
4          love is in the air  beef fondue   sauces   84797       25   
...                                             ...     ...      ...   
29995  zurie s holey rustic olive and cheddar bread  267661       80   
29996          zwetschgenkuchen  bavarian plum cake  386977      240   
29997   zwiebelkuchen   southwest german onion cake  103312       75   
29998                                   zydeco soup  486161       60   
29999        cookies by design   cookies on a stick  298512       29   

       contributor_id  submitted  n_steps  \
0               35193 2002-10-25      NaN   
1               91970 2003-07-26      NaN   


1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [3]:
print(recipies.shape)
print(recipies.dtypes)
print(reviews.shape)
print(reviews.dtypes)

(30000, 8)
name               object
id                  int64
minutes             int64
contributor_id      int64
submitted          object
n_steps           float64
description        object
n_ingredients     float64
dtype: object
(126696, 6)
Unnamed: 0     int64
user_id        int64
recipe_id      int64
date          object
rating         int64
review        object
dtype: object


1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [4]:
nans1 = recipies.isna()
nans2 = reviews.isna()

columns1 = nans1.any()
strings1 = nans1.any(axis = 1)
print(columns1)
print(strings1[strings1].size/strings1.size)

columns2 = nans2.any()
strings2 = nans2.any(axis = 1)
print(columns2)
print(strings2[strings2].size/strings2.size)

name              False
id                False
minutes           False
contributor_id    False
submitted         False
n_steps            True
description        True
n_ingredients      True
dtype: bool
0.5684666666666667
Unnamed: 0    False
user_id       False
recipe_id     False
date          False
rating        False
review         True
dtype: bool
0.00013417945317926376


1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [10]:
print(recipies.mean(axis = 0, numeric_only = True))
print(reviews.mean(axis = 0, numeric_only = True))



id                2.218793e+05
minutes           1.233581e+02
contributor_id    5.635901e+06
n_steps           9.805582e+00
n_ingredients     9.008286e+00
dtype: float64
Unnamed: 0    5.660898e+05
user_id       1.408013e+08
recipe_id     1.600944e+05
rating        4.410802e+00
dtype: float64


1.5 Создайте серию из 10 случайных названий рецептов.

In [14]:
ser = recipies['name'].sample(10)
print(ser)

17881                                      mock crab cakes
9426       diane s carrot cake and cream cheese  rum icing
11150                     flourless chocolate truffle cake
10587                               english toffee squares
2883     best classic white layer cake with raspberry a...
8483                            crispy baked orange roughy
11216                                 four cheese macaroni
4048                                        buddha bellies
8509                           crispy homemade hash browns
4250          butternut squash soup with bacon and cheddar
Name: name, dtype: object


1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [22]:
reviews.index = range(0, reviews['date'].size)

        Unnamed: 0     user_id  recipe_id        date  rating  \
0           370476       21752      57993  2003-05-01       5   
1           624300      431813     142201  2007-09-16       5   
2           187037      400708     252013  2008-01-10       4   
3           706134  2001852463     404716  2017-12-11       5   
4           312179       95810     129396  2008-03-14       5   
...            ...         ...        ...         ...     ...   
126691     1013457     1270706     335534  2009-05-17       4   
126692      158736     2282344       8701  2012-06-03       0   
126693     1059834      689540     222001  2008-04-08       5   
126694      453285  2000242659     354979  2015-06-02       5   
126695      691207      463435     415599  2010-09-30       5   

                                                   review  
0       Last week whole sides of frozen salmon fillet ...  
1       So simple and so tasty!  I used a yellow capsi...  
2       Very nice breakfast HH, easy to

1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [30]:
new_recipies = recipies[(recipies['minutes'] <= 20) & (recipies['n_ingredients'] <= 5)]
print(new_recipies.dropna())

                                                    name      id  minutes  \
28                                   quick biscuit bread  302399       20   
90                     hawaiian sunrise           mimosa  100837        5   
112                                   10 minute lime pie  513963       10   
121                            1000 island vegetable dip  121712       20   
143                                    2 minute broccoli  256464        4   
...                                                  ...     ...      ...   
29873  zip and steam red potatoes with butter and garlic  304922       13   
29874                          ziplock vanilla ice cream   74250       10   
29905                      zucchini and corn with cheese  256177       15   
29980               zucchini with jalapeno monterey jack  320622       10   
29983                          zucchini with serrano ham  162411       15   

       contributor_id   submitted  n_steps  \
28             213909  2008-0

### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

In [37]:
recipies = recipies.astype({'submitted' : 'datetime64'})

2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [45]:
print(recipies[recipies['submitted'] >= '2010-01-01'])

                                                    name      id  minutes  \
8                     1 in canada chocolate chip cookies  453467       45   
13               blepandekager   danish   apple pancakes  503475       50   
36                                 5 minute bread  pizza  487173       45   
39                    bacon cheeseburger and fries  soup  447429       60   
47                        full cool  macaroni and cheese  463219       25   
...                                                  ...     ...      ...   
29965                         zucchini sausage casserole  472482       80   
29976                                      zucchini tots  505053       20   
29992  zucchini  courgette soup  good for weight watc...  415406       45   
29994                                     zuppa by luisa  464576       70   
29998                                        zydeco soup  486161       60   

       contributor_id  submitted  n_steps  \
8             1848091 2011-04-

### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

In [177]:
lengths = recipies['description'].str.len()
recipies['description_length'] = lengths


3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

In [178]:
capitalized = recipies['name'].str.title()
recipies['name'] = capitalized

3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами). Обратите внимание, что между словами может располагаться несколько пробелов подряд.

In [179]:
words = recipies['name'].str.split()
recipies['name_word_count'] = words.str.len()




### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

In [85]:
dat = recipies['contributor_id'].value_counts()
print(dat)



89831      421
37449      346
37779      345
1533       186
169430     183
          ... 
1061628      1
1076183      1
429061       1
64032        1
186118       1
Name: contributor_id, Length: 8404, dtype: int64


4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы? Обратите внимание, что отзыв с нулевым рейтингом или не заполненным текстовым описанием не считается отсутствующим.

In [121]:
avg_score = reviews.groupby('recipe_id')['rating'].mean()
print(avg_score)
ex1 = recipies['id'].unique()
ex2 = reviews['recipe_id'].unique()
diff = np.setdiff1d(ex1, ex2)
print(diff.size)

recipe_id
48        1.000000
55        4.750000
66        4.944444
91        4.750000
94        5.000000
            ...   
536547    5.000000
536610    0.000000
536728    4.000000
536729    4.750000
536747    0.000000
Name: rating, Length: 28100, dtype: float64
1900


4.3 Посчитайте количество рецептов с разбивкой по годам создания.

In [120]:
reviews['year'] = reviews['date'].dt.year
years = reviews['year'].unique()

counts = reviews.groupby(['year'], group_keys = years)['recipe_id'].size()
print(counts)




year
2000       13
2001      305
2002     2494
2003     3879
2004     5070
2005     7577
2006     9964
2007    15634
2008    18614
2009    17672
2010    12094
2011     8118
2012     6095
2013     5679
2014     3445
2015     2715
2016     2071
2017     2926
2018     2331
Name: recipe_id, dtype: int64


### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты, на которые не оставлен ни один отзыв, должны отсутствовать в полученной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и попытавшись найти строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [132]:
new_frame = pd.DataFrame(recipies, columns = ['id', 'name', 'contributor_id'])
avg_score = avg_score.rename_axis('id')
new_frame2 = pd.DataFrame(avg_score)
new_frame2.reset_index(inplace = True)
new_frame.merge(new_frame2)





Unnamed: 0,id,name,contributor_id,rating
0,44123,george s at the cove black bean soup,35193,5.000000
1,67664,healthy for them yogurt popsicles,91970,5.000000
2,38798,i can t believe it s spinach,1533,3.666667
3,35173,italian gut busters,22724,4.000000
4,84797,love is in the air beef fondue sauces,4470,4.000000
...,...,...,...,...
28095,267661,zurie s holey rustic olive and cheddar bread,200862,3.750000
28096,386977,zwetschgenkuchen bavarian plum cake,177443,5.000000
28097,103312,zwiebelkuchen southwest german onion cake,161745,3.666667
28098,486161,zydeco soup,227978,5.000000


5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`, где столбец `review_count` содержит кол-во отзывов, оставленных на рецепт `recipe_id`. У рецептов, на которые не оставлен ни один отзыв, в столбце `review_count` должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и найдя строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [157]:
new_frame3 = pd.DataFrame(recipies, columns = ['id', 'name'])
new_frame3 = new_frame3.rename(columns = {'id' : 'recipe_id'})
counts2 = reviews.groupby(['recipe_id']).size()
new_frame4 = pd.DataFrame(counts2, columns = ['review_count'])
new_frame4.reset_index(inplace = True)
new_frame3.merge(new_frame4)




Unnamed: 0,recipe_id,name,review_count
0,44123,george s at the cove black bean soup,3
1,67664,healthy for them yogurt popsicles,8
2,38798,i can t believe it s spinach,3
3,35173,italian gut busters,1
4,84797,love is in the air beef fondue sauces,8
...,...,...,...
28095,267661,zurie s holey rustic olive and cheddar bread,4
28096,386977,zwetschgenkuchen bavarian plum cake,2
28097,103312,zwiebelkuchen southwest german onion cake,6
28098,486161,zydeco soup,6


5.3. Выясните, рецепты, добавленные в каком году, имеют наименьший средний рейтинг?

In [171]:
counts5 = reviews.groupby(['year'], group_keys = years)['rating'].mean()
print(counts5[counts5 == counts5.min()])




year
2017    3.353042
Name: rating, dtype: float64


### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

In [183]:
out = recipies.sort_values('name_word_count')
out.to_csv('newfile.csv')




6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.

ModuleNotFoundError: No module named 'openpyxl'