# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [7]:
import pandas as pd
dt = pd.read_csv("./data/sp500hst.txt", sep=",", header=None, names=["date", "ticker", "open", "high", "low", "close", "volume"])
dt.tail()

Unnamed: 0,date,ticker,open,high,low,close,volume
122569,20100813,ZMH,51.72,51.9,51.38,51.44,14561
122570,20100816,ZMH,51.13,51.47,50.6,51.0,13489
122571,20100817,ZMH,51.14,51.6,50.89,51.21,20498
122572,20100819,ZMH,51.63,51.63,50.17,50.22,18259
122573,20100820,ZMH,50.03,50.55,49.48,49.82,17792


In [6]:
dt[["low", "close"]]

Unnamed: 0,low,close
0,25.220,25.55
1,25.330,25.50
2,25.225,25.34
3,25.145,25.48
4,25.230,25.54
...,...,...
122569,51.380,51.44
122570,50.600,51.00
122571,50.890,51.21
122572,50.170,50.22


2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

In [11]:
dt.iloc[:, 3:5].mean() # считает значение по столбцам

high    43.102243
low     42.054464
dtype: float64

In [26]:
dt.iloc[:, 3:5]

Unnamed: 0,high,low
0,25.6100,25.220
1,25.7400,25.330
2,25.7000,25.225
3,25.6425,25.145
4,25.5700,25.230
...,...,...
122569,51.9000,51.380
122570,51.4700,50.600
122571,51.6000,50.890
122572,51.6300,50.170


In [12]:
dt.dtypes

date        int64
ticker     object
open      float64
high      float64
low       float64
close     float64
volume      int64
dtype: object

3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [27]:
pd.to_datetime(dt["date"], format="%Y%m%d").dt.month

0         8
1         8
2         8
3         8
4         8
         ..
122569    8
122570    8
122571    8
122572    8
122573    8
Name: date, Length: 122574, dtype: int64

In [25]:
dt["ticker"].str.lower()

0           a
1           a
2           a
3           a
4           a
         ... 
122569    zmh
122570    zmh
122571    zmh
122572    zmh
122573    zmh
Name: ticker, Length: 122574, dtype: object

In [45]:
# dt.iloc[5:15]["date"]
# или так
dt.loc[5:10, "date"]

5     20090828
6     20090831
7     20090901
8     20090902
9     20090903
10    20090904
Name: date, dtype: int64

4. Рассчитайте суммарный объем торгов для для одинаковых значений тикеров.


In [42]:
dt.groupby("ticker")["open"].mean()

ticker
A        30.234857
AA       13.086959
AAPL    221.342427
ABC      27.432122
ABT      50.996776
           ...    
XTO      44.640338
YHOO     15.854774
YUM      37.456898
ZION     19.694057
ZMH      56.220980
Name: open, Length: 524, dtype: float64

5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

In [39]:
sp = pd.read_csv("./data/sp_data2.csv", sep=";", header=None, names=["ticker", "company","%"])
sp

Unnamed: 0,ticker,company,%
0,AAPL,Apple,3.6%
1,AMZN,Amazon.com,3.2%
2,GOOGL,Alphabet,3.1%
3,GOOG,Alphabet,3.1%
4,MSFT,Microsoft,3.0%
...,...,...,...
500,SCG,SCANA,0.0%
501,AIZ,Assurant,0.0%
502,AYI,Acuity Brands,0.0%
503,HRB,H&R Block,0.0%


In [41]:
pd.merge(dt, sp, how="inner", left_on="ticker", right_on="ticker")

Unnamed: 0,date,ticker,open,high,low,close,volume,company,%
0,20090821,A,25.60,25.6100,25.220,25.55,34758,Agilent Technologies,0.1%
1,20090824,A,25.64,25.7400,25.330,25.50,22247,Agilent Technologies,0.1%
2,20090825,A,25.50,25.7000,25.225,25.34,30891,Agilent Technologies,0.1%
3,20090826,A,25.32,25.6425,25.145,25.48,33334,Agilent Technologies,0.1%
4,20090827,A,25.50,25.5700,25.230,25.54,70176,Agilent Technologies,0.1%
...,...,...,...,...,...,...,...,...,...
82167,20100813,ZION,20.17,20.4300,19.840,19.89,25193,Zions Bancorp,0.0%
82168,20100816,ZION,19.81,19.9600,19.600,19.95,25914,Zions Bancorp,0.0%
82169,20100817,ZION,20.07,20.4700,19.830,20.31,31717,Zions Bancorp,0.0%
82170,20100819,ZION,19.83,20.0000,19.130,19.35,45935,Zions Bancorp,0.0%


## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца(ов) с индексами.

In [92]:
recipes = pd.read_csv("./data/recipes_sample.csv", sep=",")
reviews = pd.read_csv("./data/reviews_sample.csv", sep=",")
print(recipes)
# print(reviews)

                                               name      id  minutes  \
0             george s at the cove  black bean soup   44123       90   
1                healthy for them  yogurt popsicles   67664       10   
2                      i can t believe it s spinach   38798       30   
3                              italian  gut busters   35173       45   
4          love is in the air  beef fondue   sauces   84797       25   
...                                             ...     ...      ...   
29995  zurie s holey rustic olive and cheddar bread  267661       80   
29996          zwetschgenkuchen  bavarian plum cake  386977      240   
29997   zwiebelkuchen   southwest german onion cake  103312       75   
29998                                   zydeco soup  486161       60   
29999        cookies by design   cookies on a stick  298512       29   

       contributor_id   submitted  n_steps  \
0               35193  2002-10-25      NaN   
1               91970  2003-07-26      NaN 

1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [68]:
print(f"Для рецептов\n\nКоличество строк: {recipes.shape[0]}\nКоличество столбцов: {recipes.shape[1]}\nТип данных:\n{recipes.dtypes}")
print(f"\n\nДля ревью\n\nКоличество строк: {reviews.shape[0]}\nКоличество столбцов: {reviews.shape[1]}\nТип данных:\n{reviews.dtypes}")

Для рецептов

Количество строк: 30000
Количество столбцов: 8
Тип данных:
name               object
id                  int64
minutes             int64
contributor_id      int64
submitted          object
n_steps           float64
description        object
n_ingredients     float64
dtype: object


Для ревью

Количество строк: 126696
Количество столбцов: 6
Тип данных:
Unnamed: 0     int64
user_id        int64
recipe_id      int64
date          object
rating         int64
review        object
dtype: object


1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [73]:
# TODO

TypeError: '(slice(None, None, None), 1)' is an invalid key

1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [84]:
print("Ср время:", recipes["minutes"].mean())
print("Ср кол-во шагов:", recipes["n_steps"].mean())


print("Ср рейтинг:", reviews["rating"].mean())

Ср время: 123.35813333333333
Ср кол-во шагов: 9.805582137161085
Ср рейтинг: 4.410802235271832


1.5 Создайте серию из 10 случайных названий рецептов.

In [87]:
# TODO

1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [91]:
reviews.index = (reviews.index + 1)
print(reviews)

        Unnamed: 0     user_id  recipe_id        date  rating  \
1           370476       21752      57993  2003-05-01       5   
2           624300      431813     142201  2007-09-16       5   
3           187037      400708     252013  2008-01-10       4   
4           706134  2001852463     404716  2017-12-11       5   
5           312179       95810     129396  2008-03-14       5   
...            ...         ...        ...         ...     ...   
126692     1013457     1270706     335534  2009-05-17       4   
126693      158736     2282344       8701  2012-06-03       0   
126694     1059834      689540     222001  2008-04-08       5   
126695      453285  2000242659     354979  2015-06-02       5   
126696      691207      463435     415599  2010-09-30       5   

                                                   review  
1       Last week whole sides of frozen salmon fillet ...  
2       So simple and so tasty!  I used a yellow capsi...  
3       Very nice breakfast HH, easy to

1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [103]:
recipes[(recipes["minutes"] < 20) & (recipes["n_ingredients"] < 6)]

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
90,hawaiian sunrise mimosa,100837,5,58104,2004-09-29,4.0,pineapple mimosa was changed to hawaiian sunri...,3.0
91,tasty dish s banana pudding in 2 minutes,286484,2,47892,2008-02-13,,"""mmmm, i love bananas!"" a --tasty dish-- origi...",4.0
94,1 minute meatballs,11361,13,4470,2001-09-03,,this is a real short cut for cooks in a hurry....,2.0
112,10 minute lime pie,513963,10,2284242,2014-03-04,12.0,a super easy stand-in for traditional key lime...,5.0
117,100 year old pie crust,126072,15,205983,2005-06-15,,very nice light crust,5.0
...,...,...,...,...,...,...,...,...
29873,zip and steam red potatoes with butter and garlic,304922,13,724218,2008-05-27,9.0,"i haven't tried this yet, but i am going to so...",5.0
29874,ziplock vanilla ice cream,74250,10,24386,2003-10-29,8.0,a fun thing for kids to do. may want to use mi...,3.0
29905,zucchini and corn with cheese,256177,15,305531,2007-09-29,4.0,from betty crocker fresh spring recipes. i lik...,5.0
29980,zucchini with jalapeno monterey jack,320622,10,305531,2008-08-20,3.0,simple and yummy!,3.0


### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

In [109]:

pd.to_datetime(recipes["submitted"], format="%Y-%m-%d")

0       2002-10-25
1       2003-07-26
2       2002-08-29
3       2002-07-27
4       2004-02-23
           ...    
29995   2007-11-25
29996   2009-08-24
29997   2004-11-03
29998   2012-08-29
29999   2008-04-15
Name: submitted, Length: 30000, dtype: datetime64[ns]

2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [121]:

recipes[pd.to_datetime(recipes["submitted"], format="%Y-%m-%d").dt.year < 2010]

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,
...,...,...,...,...,...,...,...,...
29993,zuni caf zucchini pickles,316950,2895,62264,2008-07-31,,refrigerator pickles for some of the zucchini ...,8.0
29995,zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0
29996,zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0
29997,zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,


### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами).

### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы?

4.3 Посчитайте количество рецептов с разбивкой по годам создания.

### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты без отзывов должны отсутствовать в данной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и выведя на экран строку из полученного `DataFrame`, содержащую информацию об этом отзыве.

5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`. У рецептов, для которых отсутствуют отзывы, в соответствущем столбце должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и выведя на экран строку из полученного `DataFrame`, содержащую информацию об этом отзыве.


5.3. Выясните, отзывы, добавленные в каком году, имеют наименьший средний рейтинг?

### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.