# Введение в Pandas

Библиотека Pandas обеспечивает быстрые, гибкие и выразительные структуры данных. Это один из основных "кирпичиков" в инфраструктуре Python, позволяющих заниматься анализом данных на этом языке.

Pandas хорошо подходит для:
* табличных	данных, при условии однотипности данных в столбцах, как в таблицах SQL или Excel;
* упорядоченных и неупорядоченных временных рядов;
* произвольных (однотипных или разнотипных) данных, представленных в матрицах с метками столбцов и строк;
* различных данных наблюдений / статистических наборов данных. 

Основные возможности:
* удобная обработка пропущенных значений;
* изменение размеров: столбцы и строки могут быть легко добавлены и удалены;
* выравнивание данных: можно в ручную указать как выравнивать данные или воспрользоваться автоматическим выравниваниям по меткам;
* мощные и гибкие средства группировки данных, позволяющих обрабатывать данные с помощью операций разделить-применить-объединить (split-apply-combine);
* удобный доступ к данным с помощью срезов, различных вариантов индексирования для больших наборов данных;
* интуитивно понятные операции объединения наборов данных
* гибкие операции изменения размеров и перегруппировки данных;
* иерархические метки осей;
* средства для ввода-вывода данных, позволяющие работать с текстовыми файлами, базами данных, файлами Excel, и HDF5;
* средства для работы с временными рядами, такие как генерация списков временных меток, преобразование частоты, статистические функции для скользящих окон, скользящая регрессия, задержки и т.п.

## Структуры данных
Две основных структуры данных, определённые в библиотеке Pandas -- это Series и DataFrame. Обе структуры опираются на массивы  numPy (а следовательно работают быстро).

Код ниже требуется запустить для подключения библиотек для работы с Pandas и Numpy, а также построения графиков matplotlib.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
pd.set_option('max_columns', 50)
%matplotlib inline

### Series

Series это одномерный объект, сходный с массивами, списками или столбцами в таблице. Каждый элемент данных Series сопоставляет с **меткой**. 

По умолчанию в качестве меток используются числа от 0 до N, где N -- это число элементов в Series минус один.

Series с таким вариантом индекса можно создать из обычного списка:


In [2]:
s = pd.Series([7, 'Tver', 3.14, -1789710578, 'Happy studing!'])
s

0                 7
1              Tver
2              3.14
3       -1789710578
4    Happy studing!
dtype: object

Метки могут принимать любые удобные значения (и иметь разные типы).
Свой набор меток можно указать в параметре index при создании  Series:

In [7]:
s = pd.Series([7, 'Tver', 3.14, -1789710578, 'Happy studing!'],
              index=['A', 'Z', 'C', 'Y', 'E'])
s

A                 7
Z              Tver
C              3.14
Y       -1789710578
E    Happy studing!
dtype: object

_Создайте свой набор данных Series и присвойте метки._

In [13]:
a = pd.Series([1,21,41,-124,21.1,'так'],
  index= ['A','C','E',4,5,6])
a

A       1
C      21
E      41
4    -124
5    21.1
6     так
dtype: object

Другим вариантом задать метки для элементов при создании Series является использование словарей:

In [19]:
d = {'Chicago': 1000, 'New York': 1300, 'Portland': 900, 'San Francisco': 1100,
     'Austin': 450, 'Boston': None}  #создали словарь, где каждому ключу соответствует значение
cities = pd.Series(d) 


Обратите внимание, что значение None при помещении в Series было заменено на NaN. "Не числа" NaN'ы обычно используются в Pandas чтобы отметить пропущенные (неизвестные) значения в данных.

_Создайте Series с теми же значениями, что Вы создавали в предыдущем задании, но используя словари._

In [16]:
a ={'A':1,'C':21,'E':41,'4':-124,'5':21.1,'6':'так'}
b = pd.Series(a)
b

A       1
C      21
E      41
4    -124
5    21.1
6     так
dtype: object

Метки можно использовать для извлечения соответствующих им значений, используя оператор [ ]:

In [20]:
cities['Chicago']

1000.0

In [21]:
cities[['Chicago', 'Portland', 'San Francisco']]

Chicago          1000.0
Portland          900.0
San Francisco    1100.0
dtype: float64

Series также поддерживает индексацию массивами логических значений:

In [22]:
cities[cities < 1000]

Portland    900.0
Austin      450.0
dtype: float64

Рассмотрим этот пример подробнее.
    
Выражение `cities < 1000` возвращает Series логических значений. Значением `True` отмечены метки элементов, для которых сравнение было верно:

In [23]:
cities < 1000

Chicago          False
New York         False
Portland          True
San Francisco    False
Austin            True
Boston           False
dtype: bool

Этот Series с логическими значениями передаётся в оператор [ ] исходного ряда данных, который возвращает только элементы, для которых указано значение `True`.

Поэлементные логические функции над Series реализованы с помощью операторов & (и), | (или) и ~ (отрицание). Это делает работу со сложными условиями более удобной, чем с массивами в numPy, для которых нужно использовать функции с длинными названиями, например `np.logical_and()`. Необходимо только помещать все операции в скобки:

In [24]:
cities[(cities > 500) & (~(cities > 1000))]

Chicago     1000.0
Portland     900.0
dtype: float64

_Дополните код в поле ниже так, чтобы напечатались только те города, в которых показатель больше 1100 и ниже 900._

In [49]:
d = {'Chicago': 1000, 'New York': 1300, 'Portland': 900, 'San Francisco': 1100,
     'Austin': 450, 'Boston': None}
cities = pd.Series(d)
c = cities[(cities > 1100) & (cities < 900) ]
c


Series([], dtype: float64)

Оператор [ ] позволяет изменять значения отдельных элементов в Series:

In [26]:
print('старое значение:', cities['Chicago'])
cities['Chicago'] = 1400

старое значение: 1000.0


Можно изменять сразу несколько элементов, если использовать индексацию логическими значениями:

In [None]:
cities[cities < 1000] = 750

_С помощью оператора [] поменяйте значения Boston на любое и для всех городов с показателем больше 1100 и ниже 900 установите значение 50._  

In [51]:
d = {'Chicago': 1000, 'New York': 1300, 'Portland': 900, 'San Francisco': 1100,
     'Austin': 450, 'Boston': None}
cities = pd.Series(d)
cities['Boston'] = 101
c = cities[(cities > 1100) & (cities < 900)] = 50
cities

Chicago          1000.0
New York         1300.0
Portland          900.0
San Francisco    1100.0
Austin            450.0
Boston            101.0
dtype: float64

Наличие метки с определённым значением можно проверять с помощью стандартных операторов `in` / `not in` языка Python. 

_Здесь и далее запускайте код самостоятельно и анализируйте результат:_

In [52]:
print('Seattle' in cities)
print('San Francisco' in cities)

False
True


Series поддерживает векторные реализации математических операций c числами и применение универсальных функций, подобно массивам NumPy. При этом метки сохраняются.

In [53]:
cities / 3

Chicago          333.333333
New York         433.333333
Portland         300.000000
San Francisco    366.666667
Austin           150.000000
Boston            33.666667
dtype: float64

In [54]:
np.square(cities)

Chicago          1000000.0
New York         1690000.0
Portland          810000.0
San Francisco    1210000.0
Austin            202500.0
Boston             10201.0
dtype: float64

Операция сложения между двумя Series приводит к формированию объединённого Series, при этом:
* значения с одинаковыми метками складываются;
* если метка есть только в одном из Series, то для неё в результат записывается значение NaN.

In [55]:
cities1 = cities[['Chicago', 'New York', 'Portland']]
print(cities1, '\n')
cities2 = cities[['Austin', 'New York']]
print(cities2, '\n')
cities1 + cities2

Chicago     1000.0
New York    1300.0
Portland     900.0
dtype: float64 

Austin       450.0
New York    1300.0
dtype: float64 



Austin         NaN
Chicago        NaN
New York    2600.0
Portland       NaN
dtype: float64

Обратите внимание, что для Austin, Chicago и New York в результе получилось NaN, так как данные для них были представлены только в одном из слагаемых.

Найти элементы, отмеченные как пропущенные (NaN) можно с помощью метода `.isnull()`. Метод `.notnull()` выполняет противоположную функцию.

_Проверьте работу этих функций._

In [56]:
cities.isnull()

Chicago          False
New York         False
Portland         False
San Francisco    False
Austin           False
Boston           False
dtype: bool

In [57]:
cities.notnull()

Chicago          True
New York         True
Portland         True
San Francisco    True
Austin           True
Boston           True
dtype: bool

Часто пропущенные данные требуется удалить. Это можно сделать с помощью метода `.dropna()`.

In [58]:
cities.dropna()

Chicago          1000.0
New York         1300.0
Portland          900.0
San Francisco    1100.0
Austin            450.0
Boston            101.0
dtype: float64

_В коде ниже в виде списков представленны данные для двух Series._

_Создайте Series с именем `cities` из списка `d` и `newCities` из списка `newD`._

_Выявите все элементы с пропущенными полями для `cities`. Установите для одного из них какое-либо значение, а другой -- удалите._

_В `newCities` содержатся обновлённые данные по городам. Определите прирост(убыток) значения данного показателя для всех городов, используя математическую операцию между двумя Series._

In [126]:
d = {'Chicago': None, 'New York': 1300, 'Tver': None, 'Portland': 900, 'San Francisco': 1100,
     'Austin': 450, 'Boston': None}

newD = {'New York': 1100, 'San Francisco': 2000, 'Austin': 650}


cities = pd.Series(d)
c =cities.isnull()
print(c[c==True])
cities['Boston'] = 10
print(cities.dropna())

newCities = pd.Series(newD)
a =newCities + cities
print(a.dropna())

Chicago    True
Tver       True
Boston     True
dtype: bool
New York         1300.0
Portland          900.0
San Francisco    1100.0
Austin            450.0
Boston             10.0
dtype: float64
Austin           1100.0
New York         2400.0
San Francisco    3100.0
dtype: float64


### DataFrame

DataFrame -- это табличная структура, состоящая из столбцов и строк, сходная с листом Excel или таблицой реляционной базы данных. 

Можно представить себе что DataFrame -- это объединение нескольких столбцов, представленных Series с одинаковыми метками (но можно получить и строку в виде Series, метками которого будут имена столбцов).

DataFrame -- это основной объект, с помощью которого проводится обработка данных в Pandas.


Чтобы создать DataFrame из стандартных объектов Python требуется передать конструктору словарь списков. При этом ключи словаря - названия будущих столбцов, а соответствующие списки - их данные.

По умолчанию столбцы будут упорядочены по алфавиту. Если это не подходит - можно передать список имён в требуемом порядке через аргумент `columns`.


In [None]:
data = {'year': [2010, 2011, 2012, 2011, 2012, 2010, 2011, 2012],
        'team': ['Bears', 'Bears', 'Bears', 'Packers', 'Packers', 'Lions', 'Lions', 'Lions'],
        'wins': [11, 8, 10, 15, 11, 6, 10, 4],
        'losses': [5, 8, 6, 1, 5, 10, 6, 12]}
football = pd.DataFrame(data, columns=['year', 'team', 'wins', 'losses'])


Чаще всего исходные данные для анализа сохранены в каких-то файлах и их читают с помощью специальных методов Pandas.

Распространённым вариантом передачи данных являются текстовые файлы с разделитеями в формате csv.

Такие файлы можно загрузить при помощи функции `read_csv()`:

In [5]:
from_csv = pd.read_csv('C:/Users/Михаил/Desktop/img/mariano-rivera.csv')
from_csv.head()

Unnamed: 0,Year,Age,Tm,Lg,W,L,W-L%,ERA,G,GS,GF,CG,SHO,SV,IP,H,R,ER,HR,BB,IBB,SO,HBP,BK,WP,BF,ERA+,FIP,WHIP,H9,HR9,BB9,SO9,SO/W,Awards
0,1995,25,NYY,AL,5,3,0.625,5.51,19,10,2,0,0,0,67.0,71,43,41,11,30,0,51,2,1,0,301,84,5.15,1.507,9.5,1.5,4.0,6.9,1.7,
1,1996,26,NYY,AL,8,3,0.727,2.09,61,0,14,0,0,5,107.2,73,25,25,1,34,3,130,2,0,1,425,240,1.88,0.994,6.1,0.1,2.8,10.9,3.82,CYA-3MVP-12
2,1997,27,NYY,AL,6,4,0.6,1.88,66,0,56,0,0,43,71.2,65,17,15,5,20,6,68,0,0,2,301,239,2.96,1.186,8.2,0.6,2.5,8.5,3.4,ASMVP-25
3,1998,28,NYY,AL,3,0,1.0,1.91,54,0,49,0,0,36,61.1,48,13,13,3,17,1,36,1,0,0,246,233,3.48,1.06,7.0,0.4,2.5,5.3,2.12,
4,1999,29,NYY,AL,4,3,0.571,1.83,66,0,63,0,0,45,69.0,43,15,14,2,18,3,52,3,1,2,268,257,2.92,0.884,5.6,0.3,2.3,6.8,2.89,ASCYA-3MVP-14


Метод `.head()` печатает 5 первых строк данных, что полезно для получения первого представления о содержании большого набора данных. Метод `tail()` печатает 5 последних строк.

По умолчанию функция `.read_csv()` берёт имена столбцов из **первой строки файла**. 

Если в файле нет заголовков, то нужно указать параметр `header=None` и задать имена столбцов с помощью аргумента `names`.

Параметр `sep` позволяет задать разделитель, который используется в файле данных.

Параметр `encoding` позволяет задать кодировку текста, что особенно полезно при наличии в файле русского текста.

In [8]:
cols = ['num', 'game', 'date', 'team', 'home_away', 'opponent',
        'result', 'quarter', 'distance', 'receiver', 'score_before',
        'score_after']
no_headers = pd.read_csv('C:/Users/Михаил/Desktop/img/peyton-passing-TDs-2012.csv', sep=',', encoding='latin-1', header=None, names=cols)
no_headers.head()

Unnamed: 0,num,game,date,team,home_away,opponent,result,quarter,distance,receiver,score_before,score_after
1,2012-09-09,1,,DEN,,PIT,W 31-19,3,71,Demaryius Tomas,Trail 7-13,Lead 14-13*
2,2012-09-09,1,,DEN,,PIT,W 31-19,4,1,Jacob Tamme,Trail 14-19,Lead 22-19*
3,2012-09-17,2,,DEN,@,ATL,L 21-27,2,17,Demaryius Thomas,Trail 0-20,Trail 7-20
4,2012-09-23,3,,DEN,,HOU,L 25-31,4,38,Brandon Stokley,Trail 11-31,Trail 18-31
5,2012-09-23,3,,DEN,,HOU,L 25-31,4,6,Joel Dreessen,Trail 18-31,Trail 25-31


Функции чтения данных в Pandas имеют множество других параметров, которые позволяют:

-- пропускать строки или столбцы файла, 

-- читать дату/время в различных форматах, 

-- детектировать и обрабатывать пропущенные значения

-- и так далее.

Кроме текстовых файлов, Pandas может читать книги Excel, файлы HDF5 (специальный формат для эффективного хранения данных), загружать данные из СУБД, буфера обмена, скачивать напрямую из Web и загружать через различные API. 

Результаты обработки потом можно сохранить в эти же форматы. 

Познакомиться со всеми возможностями Pandas по работе с источниками данных можно в документации: http://pandas.pydata.org/pandas-docs/stable/user_guide/io.html


Проведём небольшой анализ данных по фильмам, представленных MovieLens.
1. Создайте список названий столбцов для данных о пользователях. Столбцы будут иметь следующие заголовки: `'user_id', 'age', 'sex', 'occupation', 'zip_code'`.
2. В  переменную `users` прочитайте данные из "data/u.user" (файл u.user из папки data) с помощью функции `read_csv`, указав в качестве разделителя вертикальную линию (`|`), кодировку `latin-1` и в качестве заголовков столбцов созданый Вами список (п.1).

In [4]:
col = ['user_id', 'age', 'sex', 'occupation', 'zip_code']
users = pd.read_csv('C:/Users/Михаил/Desktop/img/u.user', sep='|', encoding='latin-1', header=None, names=col)
users.head()


Unnamed: 0,user_id,age,sex,occupation,zip_code
0,400,24,M,technician,85711
1,402,53,F,other,94043
2,404,23,M,writer,32067
3,406,24,M,technician,43537
4,408,33,F,other,15213


Произведите аналогичную операцию для файлов:
1. 'data/u.data', разделитель `'\t'`, кодировка `latin-1`, заголовки столбцов: `'user_id', 'movie_id', 'rating', 'unix_timestamp'`. Назовите DataFrame `ratings`.
2. 'data/u.item', разделитель `|`, кодировка `latin-1`, заголовки столбцов: `'movie_id', 'title', 'release_date', 'video_release_date', 'imdb_url'`. 
Из этих данных мы будем использовать только 5 первых столбцов, поэтому в функцию `read_csv` добавьте параметр `usecols` равный `range(5)`. DataFrame назовите `movies`.

In [49]:
col = ['user_id', 'movie_id', 'rating', 'unix_timestamp']
ratings = pd.read_csv('C:/Users/Михаил/Desktop/img/u.data', sep='\t', encoding='latin-1', header=None, names=col)
print(ratings.head())

col_1 = ['movie_id', 'title', 'release_date', 'video_release_date', 'imdb_url']
movies = pd.read_csv('C:/Users/Михаил/Desktop/img/u.item', sep='|', encoding='latin-1', header=None, names=col_1,usecols = range(5))
movies.head()

   user_id  movie_id  rating  unix_timestamp
0      196       242       3       881250949
1      186       302       3       891717742
2       22       377       1       878887116
3      244        51       2       880606923
4      166       346       1       886397596


Unnamed: 0,movie_id,title,release_date,video_release_date,imdb_url
0,1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...
1,2,GoldenEye (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?GoldenEye%20(...
2,3,Four Rooms (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Four%20Rooms%...
3,4,Get Shorty (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Get%20Shorty%...
4,5,Copycat (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Copycat%20(1995)


В Pandas существует множество функций для получения базовой информации о созданных DataFrame.

Рассмотрим метод `info()`, который позволяет получить основую информацию.

In [50]:
movies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1682 entries, 0 to 1681
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   movie_id            1682 non-null   int64  
 1   title               1682 non-null   object 
 2   release_date        1681 non-null   object 
 3   video_release_date  0 non-null      float64
 4   imdb_url            1679 non-null   object 
dtypes: float64(1), int64(1), object(3)
memory usage: 65.8+ KB


Выведется следующая информация:
- в данных содержится 1682 строки и 5 столбцов, один из которых (video_release_date) не заполнен и 2 заполнены частично (release_date и imdb_url);
- тип данных содержимого в каждом из столбцов. Также для получения типов данных можно воспользоваться методом `dtypes` интересующего DataFrame;
- количество памяти для хранения DataFrame.

_Примените к DataFrame `movies` методы `head()` и `tail()`, посмотрите, как выглядят данные._

_Распечатайте поле `dtypes` у DataFrame `movies` и сопоставьте выведенные типы с полученными с помощью `info`. Обратите внимание, что `dtypes` это имя поля (переменной) класса, а не функция, и круглые скобки писать не надо._

In [53]:
print(movies.head())
movies.tail()

   movie_id              title release_date  video_release_date  \
0         1   Toy Story (1995)  01-Jan-1995                 NaN   
1         2   GoldenEye (1995)  01-Jan-1995                 NaN   
2         3  Four Rooms (1995)  01-Jan-1995                 NaN   
3         4  Get Shorty (1995)  01-Jan-1995                 NaN   
4         5     Copycat (1995)  01-Jan-1995                 NaN   

                                            imdb_url  
0  http://us.imdb.com/M/title-exact?Toy%20Story%2...  
1  http://us.imdb.com/M/title-exact?GoldenEye%20(...  
2  http://us.imdb.com/M/title-exact?Four%20Rooms%...  
3  http://us.imdb.com/M/title-exact?Get%20Shorty%...  
4  http://us.imdb.com/M/title-exact?Copycat%20(1995)  


Unnamed: 0,movie_id,title,release_date,video_release_date,imdb_url
1677,1678,Mat' i syn (1997),06-Feb-1998,,http://us.imdb.com/M/title-exact?Mat%27+i+syn+...
1678,1679,B. Monkey (1998),06-Feb-1998,,http://us.imdb.com/M/title-exact?B%2E+Monkey+(...
1679,1680,Sliding Doors (1998),01-Jan-1998,,http://us.imdb.com/Title?Sliding+Doors+(1998)
1680,1681,You So Crazy (1994),01-Jan-1994,,http://us.imdb.com/M/title-exact?You%20So%20Cr...
1681,1682,Scream of Stone (Schrei aus Stein) (1991),08-Mar-1996,,http://us.imdb.com/M/title-exact?Schrei%20aus%...


Примените к DataFrame метод `describe()`, который отразит простую статистику по всем **числовым** данным. 

Но при анализе полученных данных следует быть внимательным и осторожным. 

_Чтобы понять, что имеется в виду, запустите данный метод для DataFrame `users`._

In [56]:
users.describe()

Unnamed: 0,user_id,age
count,943.0,943.0
mean,1342.0,34.051962
std,544.729902,12.19274
min,400.0,7.0
25%,871.0,25.0
50%,1342.0,31.0
75%,1813.0,43.0
max,2284.0,73.0


Заметим, что в анализ данных включён столбец user_id (т.к. он числовой), хотя его содержимое никак не влияет на результат. Поэтому не стоит обращать на него внимание.

По данным, представленным в анализе, можно сделать следующие выводы о возрасте пользователей:
- средний возраст пользователей составляет 34 года, самому молодому человеку 7 лет, а самому старому - 73.
- медиана равна 31 год, нижняя квартиль -- 25 лет, верхняя -- 43 года.


**Выбор отдельных столбцов**

DataFrame удобны тем, что их можно предсталять как несколько Series (столбцов), сгруппированных вместе, и при необходимости выбирать нужный столбец. 

При выборе одного столбца из DataFrame вернётся объект типа Series.
К примеру, посмотрим род деятельности первых пяти пользователей:

In [57]:
users['occupation'].head()

0    technician
1         other
2        writer
3    technician
4         other
Name: occupation, dtype: object

Если имя столбца является корректным именем переменной с точки зрения Python, и переменной или функции с таким названием в DataFrame нет, то доступ к столбцу можно получить не только с помощью оператора [ ]. Pandas автоматически создаёт в DataFrame одноимённые переменные, дающие доступ к столбцу:

In [58]:
users.occupation.head()

0    technician
1         other
2        writer
3    technician
4         other
Name: occupation, dtype: object

Для выбора нескольких столбцов, укажите вместо одного заголовка список заголовков столбцов (_распечатайте значения самостоятельно_):

In [62]:
users[['age', 'zip_code']].head()

# список также можно хранить в переменной:
columns_you_want = ['occupation', 'sex'] 
#users[columns_you_want].head()
print(users)

     user_id  age sex     occupation zip_code
0        400   24   M     technician    85711
1        402   53   F          other    94043
2        404   23   M         writer    32067
3        406   24   M     technician    43537
4        408   33   F          other    15213
..       ...  ...  ..            ...      ...
938     2276   26   F        student    33319
939     2278   32   M  administrator    02215
940     2280   20   M        student    97229
941     2282   48   F      librarian    78209
942     2284   22   M        student    77841

[943 rows x 5 columns]


Выбор строк также можно осуществлять разными способами, наиболее простой -- использовать индивидуальные индексы или логическую(булевскую) индексацию:

In [63]:
# пользователи старше 25
users[users.age > 25].head(3)

# пользователи младше 30 или женского пола
users[(users.sex == 'F') | (users.age < 30)].head(3)

Unnamed: 0,user_id,age,sex,occupation,zip_code
0,400,24,M,technician,85711
1,402,53,F,other,94043
2,404,23,M,writer,32067


_Распечатайте 4 первых пользователей мужского пола в возрасте 40 лет:_

In [5]:
users[(users.age == 40) & (users.sex == 'M')].head(4)

Unnamed: 0,user_id,age,sex,occupation,zip_code
18,436,40,M,librarian,2138
82,564,40,M,other,44133
115,630,40,M,healthcare,97232
199,798,40,M,programmer,93402


Теперь обратим внимание на индексацию строк.

В данный момент строчные индексы не несут в себе никакого смысла. Установим в качестве индексов значения из столбца `user_id`, используя метод `set_index()`:

In [83]:
print(users.set_index('user_id').head()) #распечатаем то, что должно теперь получиться в DataFrame
print('\n')
 
print(users.head()) #что теперь лежит в DataFrame

         age sex  occupation zip_code
user_id                              
400       24   M  technician    85711
402       53   F       other    94043
404       23   M      writer    32067
406       24   M  technician    43537
408       33   F       other    15213


   user_id  age sex  occupation zip_code
0      400   24   M  technician    85711
1      402   53   F       other    94043
2      404   23   M      writer    32067
3      406   24   M  technician    43537
4      408   33   F       other    15213


Обратите внимание на содержимое DataFrame `users`. Изменилось ли оно?

Дело в том, что функция `set_index()` не изменяет текущий, а возвращает новый DataFrame и его нужно куда-то сохранить:

In [91]:
with_new_index = users.set_index('user_id')

print('new users: \n', with_new_index.head())
print('\n')
print('old users: \n', users.head())

new users: 
          age sex  occupation zip_code
user_id                              
400       24   M  technician    85711
402       53   F       other    94043
404       23   M      writer    32067
406       24   M  technician    43537
408       33   F       other    15213


old users: 
    user_id  age sex  occupation zip_code
0      400   24   M  technician    85711
1      402   53   F       other    94043
2      404   23   M      writer    32067
3      406   24   M  technician    43537
4      408   33   F       other    15213


Будьте внимательны при работе с функциями такого рода.

Добавьте в функцию `set_index()` параметр `inplace=True` и проверьте его работу для DataFrame users.

In [116]:
users.set_index('user_id',inplace=True)
print(users.head())

         age sex  occupation zip_code
user_id                              
400       24   M  technician    85711
402       53   F       other    94043
404       23   M      writer    32067
406       24   M  technician    43537
408       33   F       other    15213


__*Что изменилось? Результат запишите в данном поле после двоеточия:*  мы изменяем заголовок без создания нового DataFrame__

Обратим внимание на то, что мы заменили общепринятую индексацию с нуля содержанием столбца user_id. 

Но ничего страшного, мы всё ещё можем выбирать строки по индексам, используя метод `iloc[]`:

In [117]:
print(users.iloc[99])
print('\n')
print(users.iloc[[1, 50, 300]]) #индексация с помощью списка

age                  36
sex                   M
occupation    executive
zip_code          90254
Name: 598, dtype: object


         age sex occupation zip_code
user_id                             
402       53   F      other    94043
500       28   M   educator    16509
1000      24   M    student    55439


Заметим, что для DataFrame действует механизм срезов.

_Проверьте, работает ли в функции `iloc[]` индексация с использованием срезов:_

In [118]:
print(users.iloc[::2])

         age sex     occupation zip_code
user_id                                 
400       24   M     technician    85711
404       23   M         writer    32067
408       33   F          other    15213
412       57   M  administrator    91344
416       29   M        student    01002
...      ...  ..            ...      ...
2268      42   M         doctor    66221
2272      48   M       educator    98072
2276      26   F        student    33319
2280      20   M        student    97229
2284      22   M        student    77841

[472 rows x 4 columns]


Строки можно выбирать не только по индексам, но и по установленным нами значениям меток (значениям из столбца user_id). Для этого воспользуемся функцией `loc[]`:

In [122]:
print(users.loc[100])

user_id           600
age                15
sex                 M
occupation    student
zip_code        05146
Name: 100, dtype: object


_Используя функцию `loc[]`, выберите значения из users:_

In [123]:
print(users.loc[101])

user_id              602
age                   38
sex                    M
occupation    programmer
zip_code           30220
Name: 101, dtype: object


*Стало понятно, что, возможно, мы зря установили столбец user_id в качестве индекса. Чтобы всё вернуть на место, используйте фунцию `reset_index()`. Не забудьте про параметр `inplace`! Проверьте с помощью `head()`, что DataFrame выглядит как раньше.*

In [136]:
users.reset_index(inplace =True)
users.head()

Unnamed: 0,index,user_id,age,sex,occupation,zip_code
0,0,400,24,M,technician,85711
1,1,402,53,F,other,94043
2,2,404,23,M,writer,32067
3,3,406,24,M,technician,43537
4,4,408,33,F,other,15213


Таким образом, есть 2 основные функции для индексации:
1. `loc[]` для индексации по значениям меток;
2. `iloc[]` для определения по позиции по счёту (с нуля), не обращая внимания на значения меток.

_Поработайте с функциями `loc[]` и `iloc[]` в коде ниже._

_Попробуйте с помощью `loc` выбрать среди всех чисел те, у которых в стобце 'A' записаны значения, превышающие 0.5:_

In [304]:
df1 = pd.DataFrame(np.random.randn(16,4), index=list('abcdefghijklmnop'), columns=list('ABCD'))
print(df1)

df1.loc[df1.A >0.5]

          A         B         C         D
a  1.088585  1.673303  1.099325  0.364998
b  1.862824 -0.154885  0.930129  0.143395
c -1.393243  0.959608 -0.910652 -0.194743
d -0.903563 -1.009849  1.758464 -0.894579
e -0.475582  0.734588 -0.282511  1.129542
f  0.352334 -0.161404 -1.904922  0.630840
g -0.070004  1.518817 -0.551718  0.636888
h  1.922215 -2.698494  0.373259  0.091090
i -1.760354  0.089604 -0.641115  0.145013
j -0.990653 -1.279319  1.046886  0.737755
k  1.127785  1.358429  0.915669 -0.400436
l  0.538722 -1.626295 -2.039002 -0.071811
m -0.290334 -0.026068  0.610378 -1.358676
n  0.089867  1.926739  0.662135  0.090796
o  0.060707 -2.009308 -0.587924  1.438528
p  2.030371  1.805353 -1.429767  0.307039


Unnamed: 0,A,B,C,D
a,1.088585,1.673303,1.099325,0.364998
b,1.862824,-0.154885,0.930129,0.143395
h,1.922215,-2.698494,0.373259,0.09109
k,1.127785,1.358429,0.915669,-0.400436
l,0.538722,-1.626295,-2.039002,-0.071811
p,2.030371,1.805353,-1.429767,0.307039


**Объединение DataFrame**

В процессе проведения анализа данных бывают ситуации, когда требуется объединить наборы данных, т.к. данные обычно хранятся в реляционном стиле.

Данные MovieLens является хорошим примером реляционных отношений -- рейтинг(ratings) требует информацию и от пользователей(users), и от фильмов (movies) и получается, что наборы данных связаны между собой по ключу -- в данном случае user_id и movie_id. 

При этом пользователь может быть связан как с большим количеаством фильмов и рейтингов, так и не иметь таких связей. Аналогичная ситуация и с фильмом -- его могут оценить и несколько раз, и один, и не оценивать вообще, и при этом различным числом пользователей.

По аналогии с функцией JOIN в SQL `pd.merge` позволяет объединить два DataFrame по одному или нескольким ключам. У данной функции множество параметров: on, left_on, right_on, left_index, right_index и др., позволяющих задать столбцы или индексы, по которым требуется объединить наборы данных.

Разные типа объединений SQL представлены на рисунке:
<img src="img/JOIN.png">

По умолчанию `pd.merge()` ведёт себя как операция inner join, данное поведение меняется с помощью параметра `how`. 

Возможные варианты значения параметра `how`: `{'left', 'right', 'outer', 'inner'}`.

В примере ниже в параметре `how` указан вариант для inner join -- `inner`. 

In [154]:
left_frame = pd.DataFrame({'key': range(5), 'left_value': ['a', 'b', 'c', 'd', 'e']})
right_frame = pd.DataFrame({'key': range(2, 7), 'right_value': ['f', 'g', 'h', 'i', 'j']})
pd.merge(left_frame, right_frame, on='key', how='inner')

Unnamed: 0,key,left_value,right_value
0,2,c,f
1,3,d,g
2,4,e,h


__*Какие из значений `left_frame` и `right_frame` были объединены в результате работы `pd.merge`? Ответ напишите после двоеточия: * значения с 2 по 4 из (range(5) и range(2,7)) __

В случае, если название ключевых столбцов двух DataFrame не совпадают, можно прописать необходимые ключи:

In [155]:
left_frame = pd.DataFrame({'left_key': range(5), 'left_value': ['a', 'b', 'c', 'd', 'e']})
right_frame = pd.DataFrame({'right_key': range(2, 7), 'right_value': ['f', 'g', 'h', 'i', 'j']})
pd.merge(left_frame, right_frame, left_on='left_key', right_on='right_key')

Unnamed: 0,left_key,left_value,right_key,right_value
0,2,c,2,f
1,3,d,3,g
2,4,e,4,h


Что получится в результате выполнения операции pd.merge() в случае, если параметр `how` = `left`, или `right`, или `outer`?
Проведите исследование на подходящем примере и ответьте на вопрос в поле ниже, чем поле кода.

In [161]:
left_frame = pd.DataFrame({'key': range(5), 'left_value': ['a', 'b', 'c', 'd', 'e']})
right_frame = pd.DataFrame({'key': range(2, 7), 'right_value': ['f', 'g', 'h', 'i', 'j']})
print(pd.merge(left_frame, right_frame, how = 'left'))
print('\n')
print(pd.merge(left_frame, right_frame, how = 'right'))
print('\n')
print(pd.merge(left_frame, right_frame, how = 'outer'))

   key left_value right_value
0    0          a         NaN
1    1          b         NaN
2    2          c           f
3    3          d           g
4    4          e           h


   key left_value right_value
0    2          c           f
1    3          d           g
2    4          e           h
3    5        NaN           i
4    6        NaN           j


   key left_value right_value
0    0          a         NaN
1    1          b         NaN
2    2          c           f
3    3          d           g
4    4          e           h
5    5        NaN           i
6    6        NaN           j


**`left`**: Берет все значения из left_frame и значения которые будут совпадать с right_frame (left_frame = right_frame)

**`right`**:Аналогично, только для right_frame

**`outer`**:Взял все значения из обоих таблиц

**Объединение наборов данных**

Функционал Pandas позволяет соединять DataFrame по любому из измерений (axes) с помощью функции `pd.concat()`. Данная функция в некотором смысле эквивалентна операции UNION из SQL.

Функция `pd.concat()` принимает на вход список Series или DataFrame и возвращает Series или DataFrame соединённых объектов. Заметим, что т.к. `pd.concat()` принимает на вход список, то это даёт возможность соединить сразу несколько наборов данных.


In [162]:
pd.concat([left_frame, right_frame])

Unnamed: 0,key,left_value,right_value
0,0,a,
1,1,b,
2,2,c,
3,3,d,
4,4,e,
0,2,,f
1,3,,g
2,4,,h
3,5,,i
4,6,,j


По умолчанию функция присоединяет наборы данных друг к другу по вертикали, комбинируя столбцы с одинаковыми именами. И все недостающие значения помечаются как NULL. 

Чтобы склеить наборы данных по другим осям, можно использовать параметр `axis`.  Справка для этой функции доступна по ссылке: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html

*Установите значение параметра `axis` равное 1 и проверьте результат выполнения операции pd.concat для наборов данных left_frame и right_frame.*

In [163]:
pd.concat([left_frame, right_frame],axis = 1)

Unnamed: 0,key,left_value,key.1,right_value
0,0,a,2,f
1,1,b,3,g
2,2,c,4,h
3,3,d,5,i
4,4,e,6,j


**Функции преобразования данных и их агрегирование**

Библиотека Pandas богата на методы для манипуляции с данными. 
Наиболее распространёнными являются следующие: `groupby`, `aggregate` , `filter`, `merge`, `transform ` и пр. 

Попробуем разобраться с преобразованием данных на примере. 

Проанализируем маленький набор данных о продажах, состоящий из 12 строк. Для просмотра данных запустите код ниже:

In [109]:
df = pd.read_excel("C:/Users/Михаил/Desktop/img/sales_transactions.xlsx")
df

Unnamed: 0,account,name,order,sku,quantity,unit price,ext price
0,383080,Will LLC,10001,B1-20000,7,33.69,235.83
1,383080,Will LLC,10001,S1-27722,11,21.12,232.32
2,383080,Will LLC,10001,B1-86481,3,35.99,107.97
3,412290,Jerde-Hilpert,10005,S1-06532,48,55.82,2679.36
4,412290,Jerde-Hilpert,10005,S1-82801,21,13.62,286.02
5,412290,Jerde-Hilpert,10005,S1-06532,9,92.55,832.95
6,412290,Jerde-Hilpert,10005,S1-47412,44,78.91,3472.04
7,412290,Jerde-Hilpert,10005,S1-27722,36,25.42,915.12
8,218895,Kulas Inc,10006,S1-27722,32,95.66,3061.12
9,218895,Kulas Inc,10006,B1-33087,23,22.55,518.65


Как можно видеть, данные содержат 3 заказа (10001, 10005 и 10006), по несколько товаров в каждом (sku).

Ставится задача определить процент стоимости каждого из товаров в рамках заказа. То есть, к примеру, суммарная стоимость товаров по заказу 10001 составляет $576.12, из них:

- товар B1-20000 = $235.83 или 40.9%

- товар S1-27722 = $232.32 или 40.3%

- товар B1-86481 = $107.97 или 18.7%.

Проблема состоит в том, чтобы для определения данного показателя необходимо сначала посчитать суммарную стоимость товаров по каждому заказу, далее вернуться к отдельным товарам и для каждого подсчитать процент от общей суммы по заказам, к которым они относятся. 

Решим задачу двумя разными способами.

**1 вариант решения: соединение с помощью функции `merge()`.**

Очевидным решением является группировка данных по номерам заказов с помощью метода `groupby()`, которому в качестве аргумента зададим столбец `order`. Далее подсчитаем суммарную стоимость заказа:

In [110]:
df.groupby('order')["ext price"].sum()

order
10001     576.12
10005    8185.49
10006    3724.49
Name: ext price, dtype: float64

Следующая диаграмма иллюстрирует действия, производимые с помощью `groupby`:
<img src="C:/Users/Михаил/Desktop/img/simple_groupby.png">

Теперь присоединим полученные цифры к исходному набору данных с помощью функции `merge` между исходными и посчитанными наборами даннных, в итоге получим новый DataFrame:

In [168]:
order_total = df.groupby('order')["ext price"].sum().rename("Order_Total").reset_index() 
df_1 = df.merge(order_total)
df_1["Percent_of_Order"] = df_1["ext price"] / df_1["Order_Total"]*100
df_1

Unnamed: 0,account,name,order,sku,quantity,unit price,ext price,Order_Total,Percent_of_Order
0,383080,Will LLC,10001,B1-20000,7,33.69,235.83,576.12,40.93418
1,383080,Will LLC,10001,S1-27722,11,21.12,232.32,576.12,40.324932
2,383080,Will LLC,10001,B1-86481,3,35.99,107.97,576.12,18.740887
3,412290,Jerde-Hilpert,10005,S1-06532,48,55.82,2679.36,8185.49,32.733043
4,412290,Jerde-Hilpert,10005,S1-82801,21,13.62,286.02,8185.49,3.494232
5,412290,Jerde-Hilpert,10005,S1-06532,9,92.55,832.95,8185.49,10.175933
6,412290,Jerde-Hilpert,10005,S1-47412,44,78.91,3472.04,8185.49,42.417009
7,412290,Jerde-Hilpert,10005,S1-27722,36,25.42,915.12,8185.49,11.179783
8,218895,Kulas Inc,10006,S1-27722,32,95.66,3061.12,3724.49,82.188971
9,218895,Kulas Inc,10006,B1-33087,23,22.55,518.65,3724.49,13.925396


Как Вы можете видеть, наш алгоритм сработал верно, но в ходе выполнения пришлось сделать некоторые шаги по перегруппировке и созданию нового набора данных, израсходовав на это память.

**2 вариант решения: использование `transform`.**

Вернёмся к исходным данным.

Применим функцию `groupby()` по столбцу `order` и возьмём данные из столбца `ext price`, как и делали в первом варианте решения.

Но сделаем более хитрую функцию `sum` "внутри" функции `transform`:


In [172]:
df.groupby('order')["ext price"].transform('sum')

0      576.12
1      576.12
2      576.12
3     8185.49
4     8185.49
5     8185.49
6     8185.49
7     8185.49
8     3724.49
9     3724.49
10    3724.49
11    3724.49
Name: ext price, dtype: float64

Как Вы уже успели заметить, данная строчка кода вернула нам "полноразмерный" столбец данных (с числом строк, равным числу строк в исходных данных), а не как это было в первом варианте с тремя строчками (по количеству заказов). И эта магия работает благодаря функции `transform`.

С помощью этой строки кода добавим к набору данных столбец "Order_Total" и далее посчитаем процент от стоимости по каждому из заказов (что и требуется в задании):

In [175]:
df = pd.read_excel("C:/Users/Михаил/Desktop/img/sales_transactions.xlsx")
df["Order_Total"] = df.groupby('order')["ext price"].transform('sum')
df["Percent_of_Order"] = df["ext price"] / df["Order_Total"]*100
df

Unnamed: 0,account,name,order,sku,quantity,unit price,ext price,Order_Total,Percent_of_Order
0,383080,Will LLC,10001,B1-20000,7,33.69,235.83,576.12,40.93418
1,383080,Will LLC,10001,S1-27722,11,21.12,232.32,576.12,40.324932
2,383080,Will LLC,10001,B1-86481,3,35.99,107.97,576.12,18.740887
3,412290,Jerde-Hilpert,10005,S1-06532,48,55.82,2679.36,8185.49,32.733043
4,412290,Jerde-Hilpert,10005,S1-82801,21,13.62,286.02,8185.49,3.494232
5,412290,Jerde-Hilpert,10005,S1-06532,9,92.55,832.95,8185.49,10.175933
6,412290,Jerde-Hilpert,10005,S1-47412,44,78.91,3472.04,8185.49,42.417009
7,412290,Jerde-Hilpert,10005,S1-27722,36,25.42,915.12,8185.49,11.179783
8,218895,Kulas Inc,10006,S1-27722,32,95.66,3061.12,3724.49,82.188971
9,218895,Kulas Inc,10006,B1-33087,23,22.55,518.65,3724.49,13.925396


А в качестве приятного бонуса можно свернуть данную операцию в одну строку, не добавляя в данные промежуточный столбец "Order_Total":

In [176]:
df = pd.read_excel("C:/Users/Михаил/Desktop/img//sales_transactions.xlsx")
df["Percent_of_Order"] = df["ext price"] / df.groupby('order')["ext price"].transform('sum') * 100
df

Unnamed: 0,account,name,order,sku,quantity,unit price,ext price,Percent_of_Order
0,383080,Will LLC,10001,B1-20000,7,33.69,235.83,40.93418
1,383080,Will LLC,10001,S1-27722,11,21.12,232.32,40.324932
2,383080,Will LLC,10001,B1-86481,3,35.99,107.97,18.740887
3,412290,Jerde-Hilpert,10005,S1-06532,48,55.82,2679.36,32.733043
4,412290,Jerde-Hilpert,10005,S1-82801,21,13.62,286.02,3.494232
5,412290,Jerde-Hilpert,10005,S1-06532,9,92.55,832.95,10.175933
6,412290,Jerde-Hilpert,10005,S1-47412,44,78.91,3472.04,42.417009
7,412290,Jerde-Hilpert,10005,S1-27722,36,25.42,915.12,11.179783
8,218895,Kulas Inc,10006,S1-27722,32,95.66,3061.12,82.188971
9,218895,Kulas Inc,10006,B1-33087,23,22.55,518.65,13.925396


Операции, производимые с помощью `transform` можно представить следующим образом:
<img src="img/transform_groupby.png">

Возможно, операции, производимые при помощи `transform` на первый взгляд покажутся сложными для восприятия, но если уделить изучению этого метода достаточное время, становится ясно, насколько он эффективен и удобен.

Задание 1

_Допустим, что первые две буквы кода товара (sku) кодируют категорию, к которой относится этот товар. Посчитайте среднюю цену, за которую продаётся единица товара (unit price) каждой категории.
Указание: при решении может быть удобно использовать функцию `Series.apply(funcSplit)`, которая возвращает новый Series, результаты которого получены применением функции `funcSplit` ко всем элементам исходного._

In [89]:
df = pd.read_excel("C:/Users/Михаил/Desktop/img/sales_transactions.xlsx")
print(df)

def funcSplit(a):
    df_new = df['sku'].str.split('-', expand=True)
    del df['sku']
    df_new = pd.concat([df, df_new],axis = 1)
    po = df_new.rename(columns={0: "sku_1", 1: "sku_2"})
    print(po)
    print("\n")
    otvet = (po.groupby(['sku_1'])["unit price"].mean()) 
    
    return otvet

funcSplit(df)

    account           name  order       sku  quantity  unit price  ext price
0    383080       Will LLC  10001  B1-20000         7       33.69     235.83
1    383080       Will LLC  10001  S1-27722        11       21.12     232.32
2    383080       Will LLC  10001  B1-86481         3       35.99     107.97
3    412290  Jerde-Hilpert  10005  S1-06532        48       55.82    2679.36
4    412290  Jerde-Hilpert  10005  S1-82801        21       13.62     286.02
5    412290  Jerde-Hilpert  10005  S1-06532         9       92.55     832.95
6    412290  Jerde-Hilpert  10005  S1-47412        44       78.91    3472.04
7    412290  Jerde-Hilpert  10005  S1-27722        36       25.42     915.12
8    218895      Kulas Inc  10006  S1-27722        32       95.66    3061.12
9    218895      Kulas Inc  10006  B1-33087        23       22.55     518.65
10   218895      Kulas Inc  10006  B1-33364         3       72.30     216.90
11   218895      Kulas Inc  10006  B1-20000        -1       72.18     -72.18

sku_1
B1    47.342000
S1    54.728571
Name: unit price, dtype: float64

_Теперь добавьте в исходный DataFrame столбец булевого типа, в котором значениями True обозначены те товары, которые были проданы по цене меньшей, чем средняя цена их категории._

In [93]:
import pandas as pd
df = pd.read_excel("C:/Users/Михаил/Desktop/img/sales_transactions.xlsx")

def funcSplit(a):
    df_new = df['sku'].str.split('-', expand=True)
    df_new = pd.concat([df, df_new],axis = 1)
    po = df_new.rename(columns={0: "sku_1", 1: "sku_2"})
    return po

e = funcSplit(df)
B1 = e.loc[e.sku_1 =='B1']
S1 = e.loc[e.sku_1 =='S1']
df["bin_otvet"] = (B1["unit price"] < B1["unit price"].mean()) | (S1["unit price"] < S1["unit price"].mean())
print(df)


    account           name  order       sku  quantity  unit price  ext price  \
0    383080       Will LLC  10001  B1-20000         7       33.69     235.83   
1    383080       Will LLC  10001  S1-27722        11       21.12     232.32   
2    383080       Will LLC  10001  B1-86481         3       35.99     107.97   
3    412290  Jerde-Hilpert  10005  S1-06532        48       55.82    2679.36   
4    412290  Jerde-Hilpert  10005  S1-82801        21       13.62     286.02   
5    412290  Jerde-Hilpert  10005  S1-06532         9       92.55     832.95   
6    412290  Jerde-Hilpert  10005  S1-47412        44       78.91    3472.04   
7    412290  Jerde-Hilpert  10005  S1-27722        36       25.42     915.12   
8    218895      Kulas Inc  10006  S1-27722        32       95.66    3061.12   
9    218895      Kulas Inc  10006  B1-33087        23       22.55     518.65   
10   218895      Kulas Inc  10006  B1-33364         3       72.30     216.90   
11   218895      Kulas Inc  10006  B1-20

Задание 2

_Напишите функцию, на вход которой подаётся prices -- список ежемесячных цен на товар за разные годы (во внутренних скобках указаны цены в каждый месяц года)._

_Функция должна вернуть датафрейм, в стобцах которого содержатся результаты применения функции pd.describe к ценам за каждый год. Номер столбца должен соответствовать номеру года, начиная с 1:_
<img src="img/prices.png" width="224" height="224" align="center"/></i>

Про describe можно почитать тут: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html

_Попробуйте выполнить это задание двумя способами: с помощью concat и цикла и с помощью apply._

In [34]:
prices = [[12, 10, 5, 11, 10, 5, 11, 9, 6, 12, 10, 5],[12, 19, 6, 13, 20, 5, 14, 21, 5, 8, 20, 6], 
         [112, 110, 15, 111, 110, 15, 111, 19, 16, 112, 101, 51], [122, 139, 26, 143, 220, 45, 414, 521, 65, 28, 320, 26]]
#mount = ['January','February','March','April','May','June','Jule','August','September','October','November','December']

def describePrices(prices):
    e = pd.DataFrame(prices)
    print(e)
    print("\n")
    po =e.T
    otvet =po.describe()
    print(otvet)
    
describePrices(prices)


    0    1   2    3    4   5    6    7   8    9    10  11
0   12   10   5   11   10   5   11    9   6   12   10   5
1   12   19   6   13   20   5   14   21   5    8   20   6
2  112  110  15  111  110  15  111   19  16  112  101  51
3  122  139  26  143  220  45  414  521  65   28  320  26


               0          1           2           3
count  12.000000  12.000000   12.000000   12.000000
mean    8.833333  12.416667   73.583333  172.416667
std     2.790677   6.374072   45.552085  165.129953
min     5.000000   5.000000   15.000000   26.000000
25%     5.750000   6.000000   18.250000   40.750000
50%    10.000000  12.500000  105.500000  130.500000
75%    11.000000  19.250000  111.000000  245.000000
max    12.000000  21.000000  112.000000  521.000000
