# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [1]:
import pandas as pd
name_columns=["date", "ticker", "open", "high", "low", "close", "volume"]
data=pd.DataFrame(pd.read_csv('sp500hst.txt',names=name_columns))
data

Unnamed: 0,date,ticker,open,high,low,close,volume
0,20090821,A,25.60,25.6100,25.220,25.55,34758
1,20090824,A,25.64,25.7400,25.330,25.50,22247
2,20090825,A,25.50,25.7000,25.225,25.34,30891
3,20090826,A,25.32,25.6425,25.145,25.48,33334
4,20090827,A,25.50,25.5700,25.230,25.54,70176
...,...,...,...,...,...,...,...
122569,20100813,ZMH,51.72,51.9000,51.380,51.44,14561
122570,20100816,ZMH,51.13,51.4700,50.600,51.00,13489
122571,20100817,ZMH,51.14,51.6000,50.890,51.21,20498
122572,20100819,ZMH,51.63,51.6300,50.170,50.22,18259


2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

In [2]:
sred_36=data.iloc[:,3:7].mean()
sred_36

high         43.102243
low          42.054464
close        42.601865
volume    81395.068138
dtype: float64

3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [3]:
import pandas as pd
data['date'] = pd.to_datetime(data['date'], format='%Y%m%d') 
data['month_day'] = data['date'].dt.day

data

Unnamed: 0,date,ticker,open,high,low,close,volume,month_day
0,2009-08-21,A,25.60,25.6100,25.220,25.55,34758,21
1,2009-08-24,A,25.64,25.7400,25.330,25.50,22247,24
2,2009-08-25,A,25.50,25.7000,25.225,25.34,30891,25
3,2009-08-26,A,25.32,25.6425,25.145,25.48,33334,26
4,2009-08-27,A,25.50,25.5700,25.230,25.54,70176,27
...,...,...,...,...,...,...,...,...
122569,2010-08-13,ZMH,51.72,51.9000,51.380,51.44,14561,13
122570,2010-08-16,ZMH,51.13,51.4700,50.600,51.00,13489,16
122571,2010-08-17,ZMH,51.14,51.6000,50.890,51.21,20498,17
122572,2010-08-19,ZMH,51.63,51.6300,50.170,50.22,18259,19


4. Рассчитайте суммарный объем торгов для для одинаковых значений тикеров.

In [4]:
total_volume=data.groupby('ticker')['volume'].sum()
total_volume

ticker
A        8609336
AA      81898998
AAPL    52261170
ABC      9006756
ABT     18975870
          ...   
XTO     21297931
YHOO    56837171
YUM     10971538
ZION    15551119
ZMH      4938916
Name: volume, Length: 524, dtype: int64

5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

In [5]:
import pandas as pd
col_names=['tickername','company','percent']
data1=pd.read_csv('sp_data2.csv',names=col_names,sep=';')
datan=pd.merge(data,data1,left_on='ticker',right_on='tickername')
datan.iloc[:,1:10]

Unnamed: 0,ticker,open,high,low,close,volume,month_day,tickername,company
0,A,25.60,25.6100,25.220,25.55,34758,21,A,Agilent Technologies
1,A,25.64,25.7400,25.330,25.50,22247,24,A,Agilent Technologies
2,A,25.50,25.7000,25.225,25.34,30891,25,A,Agilent Technologies
3,A,25.32,25.6425,25.145,25.48,33334,26,A,Agilent Technologies
4,A,25.50,25.5700,25.230,25.54,70176,27,A,Agilent Technologies
...,...,...,...,...,...,...,...,...,...
82167,ZION,20.17,20.4300,19.840,19.89,25193,13,ZION,Zions Bancorp
82168,ZION,19.81,19.9600,19.600,19.95,25914,16,ZION,Zions Bancorp
82169,ZION,20.07,20.4700,19.830,20.31,31717,17,ZION,Zions Bancorp
82170,ZION,19.83,20.0000,19.130,19.35,45935,19,ZION,Zions Bancorp


## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца с индексами в таблице `reviews` (безымянный столбец).

In [6]:
import pandas as pd
recipes=pd.DataFrame(pd.read_csv('recipes_sample.csv',parse_dates=['submitted']))
reviews=pd.DataFrame(pd.read_csv('reviews_sample.csv'))
reviews=reviews.rename(columns={'Unnamed: 0':'index'})
reviews=reviews.set_index('index').sort_values('index')
recipes

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,
...,...,...,...,...,...,...,...,...
29995,zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0
29996,zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0
29997,zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,
29998,zydeco soup,486161,60,227978,2012-08-29,,this is a delicious soup that i originally fou...,


1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [7]:
print(len(recipes),len(reviews))
print(len(recipes.columns),len(reviews.columns))
print(recipes.dtypes) 
print()
print(reviews.dtypes)

30000 126696
8 5
name                      object
id                         int64
minutes                    int64
contributor_id             int64
submitted         datetime64[ns]
n_steps                  float64
description               object
n_ingredients            float64
dtype: object

user_id       int64
recipe_id     int64
date         object
rating        int64
review       object
dtype: object


1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [8]:
null=recipes.isnull().any(axis=1).sum()
print(null1/len(recipes)*100)

null=reviews.isnull().any(axis=1).sum()
print(null1/len(reviews)*100)
reviews

NameError: name 'null1' is not defined

1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [None]:
#reviews
#средний рейтинг рецепта
reviews_new=reviews.dropna()
mean_review_rating=reviews_new['rating'].mean()
#recipes
#средняя длительность рецепта
recipes_new=recipes.dropna()
mean_recipe_time=recipes_new['minutes'].mean()
#среднее колво шагов
mean_recipe_nsteps=recipes_new['n_steps'].mean()
#среднее колво ингридиентов
mean_recipe_nigredients=recipes_new['n_ingredients'].mean()

print('recipes',mean_recipe_time,mean_recipe_nsteps,mean_recipe_nigredients,'reviews',mean_review_rating)
recipes

1.5 Создайте серию из 10 случайных названий рецептов.

In [None]:
recipes['name'].sample(n=10)

1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [None]:
import numpy as np
reviews=reviews.set_index(np.arange(len(reviews)))
reviews

1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [None]:
recipes[(recipes['minutes']<=20) & (recipes['n_ingredients']<=5)]

### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

In [None]:
recipes['submitted']=pd.to_datetime(recipes['submitted'])
type(recipes['submitted'][0])

2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [None]:
recipes['year']=recipes['submitted'].dt.year
recipes[recipes['year']<=2010]

### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

In [None]:
recipes['description_length']=recipes['description'].str.len()
recipes

3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

In [None]:
recipes['name']=recipes['name'].str.capitalize()
recipes

3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами). Обратите внимание, что между словами может располагаться несколько пробелов подряд.

In [None]:
recipes['name_word_count']=recipes['name'].str.split().str.len()
recipes

### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

In [None]:
n_table = pd.merge(reviews, recipes, left_on='user_id', right_on='id')
recipes_count = n_table.groupby('user_id')['recipe_id'].count().reset_index(name='recipes_count')
n_table['user_id'] = n_table['user_id'].drop_duplicates()
n_table=pd.merge(n_table,recipes_count)
n_table[['user_id','recipes_count']].sort_values(by=['recipes_count'],ascending=False)


4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы? Обратите внимание, что отзыв с нулевым рейтингом или не заполненным текстовым описанием не считается отсутствующим.

In [None]:
reviews

In [None]:
recipes

In [None]:
n_table=pd.merge(reviews,recipes,left_on='recipe_id',right_on='id')
mean_rating=n_table.groupby('recipe_id')['rating'].mean().reset_index()
mean_rating

In [None]:
len(recipes)-len(reviews['recipe_id'].drop_duplicates())

4.3 Посчитайте количество рецептов с разбивкой по годам создания.

### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты, на которые не оставлен ни один отзыв, должны отсутствовать в полученной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и попытавшись найти строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [None]:
connected_df=pd.merge(reviews,recipes,left_on='recipe_id',right_on='id').sort_values('recipe_id')

desired_columns=['id', 'name', 'user_id', 'rating']
merged_df=connected_df[connected_df['review'].notnull()][desired_columns][:-1]
connected_df['review_count']=0
merged_df

5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`, где столбец `review_count` содержит кол-во отзывов, оставленных на рецепт `recipe_id`. У рецептов, на которые не оставлен ни один отзыв, в столбце `review_count` должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и найдя строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [None]:
connected_df=pd.merge(reviews,recipes,left_on='recipe_id',right_on='id').sort_values('recipe_id')

desired_columns2=['recipe_id', 'name', 'review_count']
#nulls=connected_df[connected_df['review'].isnull()][desired_columns2][:-1]
#nulls['review_count']=0

review_count=connected_df.groupby('recipe_id')['review'].count().reset_index(name='review_count')
connected_df_with_review_count=pd.merge(connected_df,review_count,left_on='recipe_id',right_on='recipe_id')
#connected_df_with_review_count=connected_df_with_review_count[desired_columns2]._append(nulls).sort_values('review_count')
connected_df_with_review_count[desired_columns2].drop_duplicates().sort_values('review_count')

5.3. Выясните, рецепты, добавленные в каком году, имеют наименьший средний рейтинг?

In [None]:
mean_rating=connected_df.groupby(connected_df['year'])['rating'].mean().reset_index(name='mean_rating')
mean_rating.sort_values('mean_rating')

### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

In [None]:
recipes.sort_values('name_word_count')
recipes.to_csv('recipes_with_word_count.csv',index=False)

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.

In [None]:
with pd.ExcelWriter('recipes_reviews.xlsx') as writer:
    merged_df.to_excel(writer, sheet_name='Рецепты с оценками')
    connected_df_with_review_count.to_excel(writer, sheet_name='Количество отзывов по рецептам')

#### [версия 2]
* Уточнены формулировки задач 1.1, 3.3, 4.2, 5.1, 5.2, 5.3