In [1]:
!git clone https://github.com/neuralcomputer/ML_School.git

Cloning into 'ML_School'...
remote: Enumerating objects: 91, done.[K
remote: Counting objects: 100% (12/12), done.[K
remote: Compressing objects: 100% (12/12), done.[K
remote: Total 91 (delta 4), reused 0 (delta 0), pack-reused 79[K
Receiving objects: 100% (91/91), 26.02 MiB | 24.44 MiB/s, done.
Resolving deltas: 100% (28/28), done.


# Работа с табличными данными
Большое количество данных, которые используются в машинном обучении, представлены в виде таблиц, где в столбцах представлены различные признаки и целевые переменные.
Для работы с такими данными в Python есть замечательная библиотека [`pandas`](https://pandas.pydata.org/docs/user_guide/index.html) тесно связанная с уже известной нам `numpy`. К пандам отношения не имеет, название пошло от "панельные данные".


# Pandas
## Создание и индексация
В `pandas` два основных вида объектов (типов) Series и Dataframe, они похожи между собой, но Dataframe это фактически таблица, в которой есть строки, столбцы, а Series это один столбец со строками.
Столбцы и\или строки могут иметь названия, которые выступают их индексами и к определенному столбцу (или строке) можно обращаться именно по названию.  

Создадим Series (давайте назовем это последовательностью), в которой будут записаны некоторые данные имеющие названия (индексы). И данные (data) и индексы (index) могут иметь различный тип: числа, строки, объекты.

Но будьте аккуратны, индексы надо делать так, чтобы было понятно. Ниже увидим примеры разрешенных, но совершенно не понятных индексов.

In [2]:
import pandas as pd # подключим библиотеку
import numpy as np

In [7]:
s = pd.Series(data=[10, "11", ['a',12], 'ppp', 14, 42], # данные
              index=[2.1, '2', 'два', 2, 2.1, -2]) # их индексы
s # здесь 5 ячеек

2.1         10
2           11
два    [a, 12]
2          ppp
2.1         14
-2          42
dtype: object

в этой последовательности 5 ячеек (data) и к ним можно обратиться по индексам (index), важно понять, что здесь индексы именно названия, а не номера строк.

In [8]:
print(s[2]) # здесь вернется подпоследовательность элементов у которых индекс называется 2 (первая и четвертая ячейки)
print('\n')
print(s['2']) # это ячейка с названием '2', это совершенно другой индекс, отличается от названия 2 (вторая ячейка)
print('\n')
print(s['два']) # это ячейка с названием 'два', третья ячейка, в которой записан массив
print('\n')
print(s[-2]) # это ячейка с названием -2, пятая ячейка

ppp


11


['a', 12]


42


In [4]:
s['hello']

KeyError: ignored

In [6]:
s[2.1]

10

Как и в numpy можно делать срезы, в этом случае указываются номера, а не названия элементов.

In [9]:
s

2.1         10
2           11
два    [a, 12]
2          ppp
2.1         14
-2          42
dtype: object

In [11]:
s[1:3] # срез, вторая и третья ячейки, здесь это номера, а не названия.

2           11
два    [a, 12]
dtype: object

In [12]:
s[1:2]

2    11
dtype: object

In [13]:
s[1] # это ошибка, нет элемента с названием 1

KeyError: ignored

Но срезы могут быть строковыми (удивительно), тогда это именно названия. Pandas сопоставит символьные индексы числовым, найдет их в последовательности, и вернет все, что между ними, включая границы.

In [14]:
v = pd.Series(data=[10, "11", ['a',12], 'ppp', 14], # данные
              index=['a', 'f', 'c', 'd', 'e']) # их индексы
v['a':'d']
# v['a':'g'] # так работать не будет, потому что индекса 'g' нет.

a         10
f         11
c    [a, 12]
d        ppp
dtype: object

Создайте свои последовательности, обратитесь к элементам. Проверьте, что будет если при создании последовательности не указать index?  А если при строковом индексе в последовательности индексы будут повторяться?

Аналогично можно создать таблицу Dataframe, в которой несколько столбцов.

In [15]:
df = pd.DataFrame([[10, 'aaa'], [s, 21], [30, 31]])
df

Unnamed: 0,0,1
0,10,aaa
1,"2.1 10 2 11 два [a, 12] 2...",21
2,30,31


здесь два столбца, три строки, названия их сделаны по умолчанию, в одну ячейку мы записали последовательность s.
Столбцы (columns) и строки (index) можно назвать.


In [16]:
df = pd.DataFrame([[10, 'aaa'], [s, 21], [30, 31]],
                  columns=['невторой',2],
                  index=[1,'1','один'])
df

Unnamed: 0,невторой,2
1,10,aaa
1,"2.1 10 2 11 два [a, 12] 2...",21
один,30,31


При индексации по названию сначала указываем название столбца - вернется весь столбец в виде последовательности - потом для нее указываем название строки.

In [17]:
s0=df['невторой']

In [18]:
s1=df['невторой']['один']
s1

30

Названия столбцов содержатся в атрибуте columns и их можно изменять.

В некоторых случаях к столбцу можно обратиться как к атрибуту через знак "." Но это работает не всегда.
Попробуйте назвать столбец "столбец 1" или 'index' или "1" и посмотрите, что получится.

In [19]:

df.columns=['невторой','second']
#df.columns=['index','second']
df

Unnamed: 0,невторой,second
1,10,aaa
1,"2.1 10 2 11 два [a, 12] 2...",21
один,30,31


In [20]:
df.невторой # работает, название столбца как атрибут

1                                                      10
1       2.1         10
2           11
два    [a, 12]
2...
один                                                   30
Name: невторой, dtype: object

In [21]:
df.columns=['столбец 1',2] # изменяем названия столбцов
df['столбец 1']

1                                                      10
1       2.1         10
2           11
два    [a, 12]
2...
один                                                   30
Name: столбец 1, dtype: object

In [23]:
#  а вот с такими названиями работать не будет
#df.столбец 1
df.'столбец 1'

SyntaxError: ignored

In [24]:
df.columns=['index','second']
df['index']

1                                                      10
1       2.1         10
2           11
два    [a, 12]
2...
один                                                   30
Name: index, dtype: object

In [25]:
# так ошибку не выдает, но выдает что-то не то. Это потому, что index уже определен как атрибут
df.index

Index([1, '1', 'один'], dtype='object')

Атрибут index возвращает индекс (названия строк)

Атрибут columns возвращает названия столбцов (для таблиц)

Атрибут values возвращает значения ячеек как массив numpy

In [26]:
print(df.index)
print(df.columns)
print(df.values)
print(type(df.values))

Index([1, '1', 'один'], dtype='object')
Index(['index', 'second'], dtype='object')
[[10 'aaa']
 [2.1         10
  2           11
  два    [a, 12]
  2          ppp
  2.1         14
  -2          42
  dtype: object  21]
 [30 31]]
<class 'numpy.ndarray'>


Срез выполняется по строкам

In [27]:
df[1:2]

Unnamed: 0,index,second
1,"2.1 10 2 11 два [a, 12] 2...",21


Если нужно обращаться по номеру (числовому индексу), используем атрибут iloc, как если бы это был массив numpy.

In [28]:
df

Unnamed: 0,index,second
1,10,aaa
1,"2.1 10 2 11 два [a, 12] 2...",21
один,30,31


In [29]:
df.iloc[1,0]




2.1         10
2           11
два    [a, 12]
2          ppp
2.1         14
-2          42
dtype: object

In [30]:
df.iloc[1,-1]

21

Индексация может быть логической, истинные элементы (True) отбираются, ложные (False) отбрасываются.

In [32]:
np.random.seed(123)
s = pd.Series(np.random.normal(size=10))
print(s)
ind=s>0
print(ind)
r=s[ind]
print(r)

0   -1.085631
1    0.997345
2    0.282978
3   -1.506295
4   -0.578600
5    1.651437
6   -2.426679
7   -0.428913
8    1.265936
9   -0.866740
dtype: float64
0    False
1     True
2     True
3    False
4    False
5     True
6    False
7    False
8     True
9    False
dtype: bool
1    0.997345
2    0.282978
5    1.651437
8    1.265936
dtype: float64


Другие способы создания и индексации смотри в документации.

## Загрузка из файла

Если б таблички нужно было создавать вручную, это было бы слишком утомительно, к счастью, pandas обладает богатыми возможностями по загрузке файлов таблиц разного формата, \*.csv, \*.xls и других, как с диска так и из Интернет.

Команда [`read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) позволяет загрузить файлы csv с заданного файла на диске или адреса в Интернет (первый обязательный аргумент `filepath_or_buffer`). Это текстовые файлы, в которых столбцы таблиц разделяются некоторым символом (запятая, точка с запятой или другие), который можно указать команде (аргумент `sep`), возвращается объект типа Dataframe. У команды большие возможности по загрузке данных, можно ограничить количество загружаемых строк (аргумент `nrows`), можно указать загружаемые столбцы (аргумент `usecols`), указать, что делать со строками с пропущенными значениями и другие.

Давайте загрузим табличку о 500 лучших компаниях мира с адреса https://datahub.io/core/s-and-p-500-companies-financials#resource-constituents-financials  , с разделителями столбцов в виде запятой. В нашем примере по умолчанию названия столбцов будут взяты из первой строки файла, в которой они и указаны. _(Если в силу каких-то причин из Интернета не загружается, то скачайте вручную, исправьте url на file, чтобы загрузить уже скаченную копию таблицы.)_  

In [33]:
url = 'https://datahub.io/core/s-and-p-500-companies-financials/r/constituents-financials.csv'
file='constituents-financials_csv.csv'
data = pd.read_csv(url, sep=',')
data

Unnamed: 0,Symbol,Name,Sector,Price,Price/Earnings,Dividend Yield,Earnings/Share,52 Week Low,52 Week High,Market Cap,EBITDA,Price/Sales,Price/Book,SEC Filings
0,MMM,3M Company,Industrials,222.89,24.31,2.332862,7.92,259.77,175.490,138721055226,9.048000e+09,4.390271,11.34,http://www.sec.gov/cgi-bin/browse-edgar?action...
1,AOS,A.O. Smith Corp,Industrials,60.24,27.76,1.147959,1.70,68.39,48.925,10783419933,6.010000e+08,3.575483,6.35,http://www.sec.gov/cgi-bin/browse-edgar?action...
2,ABT,Abbott Laboratories,Health Care,56.27,22.51,1.908982,0.26,64.60,42.280,102121042306,5.744000e+09,3.740480,3.19,http://www.sec.gov/cgi-bin/browse-edgar?action...
3,ABBV,AbbVie Inc.,Health Care,108.48,19.41,2.499560,3.29,125.86,60.050,181386347059,1.031000e+10,6.291571,26.14,http://www.sec.gov/cgi-bin/browse-edgar?action...
4,ACN,Accenture plc,Information Technology,150.51,25.47,1.714470,5.44,162.60,114.820,98765855553,5.643228e+09,2.604117,10.62,http://www.sec.gov/cgi-bin/browse-edgar?action...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
500,XYL,Xylem Inc.,Industrials,70.24,30.94,1.170079,1.83,76.81,46.860,12915021000,7.220000e+08,2.726209,5.31,http://www.sec.gov/cgi-bin/browse-edgar?action...
501,YUM,Yum! Brands Inc,Consumer Discretionary,76.30,27.25,1.797080,4.07,86.93,62.850,27003303098,2.289000e+09,6.313636,212.08,http://www.sec.gov/cgi-bin/browse-edgar?action...
502,ZBH,Zimmer Biomet Holdings,Health Care,115.53,14.32,0.794834,9.01,133.49,108.170,24454698119,2.007400e+09,3.164895,2.39,http://www.sec.gov/cgi-bin/browse-edgar?action...
503,ZION,Zions Bancorp,Financials,50.71,17.73,1.480933,2.60,55.61,38.430,10670678640,0.000000e+00,3.794579,1.42,http://www.sec.gov/cgi-bin/browse-edgar?action...


In [34]:
data.shape # сколько строк и столбцов?

(505, 14)

In [35]:
# выводит первые несколько строк
data.head()

Unnamed: 0,Symbol,Name,Sector,Price,Price/Earnings,Dividend Yield,Earnings/Share,52 Week Low,52 Week High,Market Cap,EBITDA,Price/Sales,Price/Book,SEC Filings
0,MMM,3M Company,Industrials,222.89,24.31,2.332862,7.92,259.77,175.49,138721055226,9048000000.0,4.390271,11.34,http://www.sec.gov/cgi-bin/browse-edgar?action...
1,AOS,A.O. Smith Corp,Industrials,60.24,27.76,1.147959,1.7,68.39,48.925,10783419933,601000000.0,3.575483,6.35,http://www.sec.gov/cgi-bin/browse-edgar?action...
2,ABT,Abbott Laboratories,Health Care,56.27,22.51,1.908982,0.26,64.6,42.28,102121042306,5744000000.0,3.74048,3.19,http://www.sec.gov/cgi-bin/browse-edgar?action...
3,ABBV,AbbVie Inc.,Health Care,108.48,19.41,2.49956,3.29,125.86,60.05,181386347059,10310000000.0,6.291571,26.14,http://www.sec.gov/cgi-bin/browse-edgar?action...
4,ACN,Accenture plc,Information Technology,150.51,25.47,1.71447,5.44,162.6,114.82,98765855553,5643228000.0,2.604117,10.62,http://www.sec.gov/cgi-bin/browse-edgar?action...


In [36]:
# как называются столбцы?
data.columns

Index(['Symbol', 'Name', 'Sector', 'Price', 'Price/Earnings', 'Dividend Yield',
       'Earnings/Share', '52 Week Low', '52 Week High', 'Market Cap', 'EBITDA',
       'Price/Sales', 'Price/Book', 'SEC Filings'],
      dtype='object')

In [37]:
# количество строк
len(data)

505

In [39]:
# из них строк с компаниями из отрасли Industrials (столбец Sector)
induk=data['Sector']=='Industrials'
sum(induk)

67

> _Примечание: так как false интерпретируется как 0, а true как 1, то sum() и дает число истинных элементов._

## Группировка данных

Данные можно сгруппировать по различным критериям, за это отвечает метод [`groupby()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html), к результатам которого можно применять разные функции.

Общий подход показан на рисунке:

данные разбиваются построчно по уникальным значениям (ключ, на рисунке столбец x), стоки с одинаковыми ключами объединяются в группы и к группам применяются заданные функции (подсчет среднего на рисунке для столбца y), затем результаты объединяются.

![img](https://drive.google.com/uc?id=1bn-KonuEYEw5hQRgCuIpiLEqQEH4YE4G)

In [40]:
# группируем по значениям столбцов Sector и
group=data.groupby('Sector')
group.size() # считаем количество строк, оказавшихся в каждой группе

Sector
Consumer Discretionary        84
Consumer Staples              34
Energy                        32
Financials                    68
Health Care                   61
Industrials                   67
Information Technology        70
Materials                     25
Real Estate                   33
Telecommunication Services     3
Utilities                     28
dtype: int64

In [41]:
data.count()

Symbol            505
Name              505
Sector            505
Price             505
Price/Earnings    503
Dividend Yield    505
Earnings/Share    505
52 Week Low       505
52 Week High      505
Market Cap        505
EBITDA            505
Price/Sales       505
Price/Book        497
SEC Filings       505
dtype: int64

In [42]:
group.count() # число раз, когда значение группы встречалось
# может быть меньше, чем число строк, если значение было пропущено в файле

Unnamed: 0_level_0,Symbol,Name,Price,Price/Earnings,Dividend Yield,Earnings/Share,52 Week Low,52 Week High,Market Cap,EBITDA,Price/Sales,Price/Book,SEC Filings
Sector,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Consumer Discretionary,84,84,84,83,84,84,84,84,84,84,84,83,84
Consumer Staples,34,34,34,34,34,34,34,34,34,34,34,33,34
Energy,32,32,32,32,32,32,32,32,32,32,32,30,32
Financials,68,68,68,68,68,68,68,68,68,68,68,68,68
Health Care,61,61,61,60,61,61,61,61,61,61,61,60,61
Industrials,67,67,67,67,67,67,67,67,67,67,67,64,67
Information Technology,70,70,70,70,70,70,70,70,70,70,70,70,70
Materials,25,25,25,25,25,25,25,25,25,25,25,25,25
Real Estate,33,33,33,33,33,33,33,33,33,33,33,33,33
Telecommunication Services,3,3,3,3,3,3,3,3,3,3,3,3,3


In [43]:
#group.Price.median() # медиана для групп по числовому столбцу Price
# тут-то нам и пригодилось обращение к столбцу как к атрибуту

group['Price'].median() # альтернативное написание

Sector
Consumer Discretionary         65.140
Consumer Staples               69.750
Energy                         50.325
Financials                     71.105
Health Care                    96.420
Industrials                    87.600
Information Technology         84.770
Materials                     105.180
Real Estate                    58.360
Telecommunication Services     35.570
Utilities                      49.660
Name: Price, dtype: float64

In [44]:
# каждую группу можно посмотреть, вот состав группы Materials
group.get_group('Materials')

Unnamed: 0,Symbol,Name,Sector,Price,Price/Earnings,Dividend Yield,Earnings/Share,52 Week Low,52 Week High,Market Cap,EBITDA,Price/Sales,Price/Book,SEC Filings
15,APD,Air Products & Chemicals Inc,Materials,152.8,24.22,2.781114,13.66,175.17,133.6301,34638387128,2542500000.0,4.116368,3.35,http://www.sec.gov/cgi-bin/browse-edgar?action...
18,ALB,Albemarle Corp,Materials,105.18,26.03,1.200413,5.66,144.99,90.35,11782151266,686030000.0,5.36662,2.98,http://www.sec.gov/cgi-bin/browse-edgar?action...
63,AVY,Avery Dennison Corp,Materials,110.77,22.11,1.568218,3.11,123.67,78.471,10104814319,831200000.0,1.52065,8.83,http://www.sec.gov/cgi-bin/browse-edgar?action...
65,BLL,Ball Corp,Materials,38.44,20.56,1.017035,0.85,43.24,35.6,13767688518,1317000000.0,1.56964,3.62,http://www.sec.gov/cgi-bin/browse-edgar?action...
101,CF,CF Industries Holdings Inc,Materials,37.46,-59.46,3.039514,-1.2,43.98,25.04,9209106695,711000000.0,3.004445,2.81,http://www.sec.gov/cgi-bin/browse-edgar?action...
154,DWDP,DowDuPont,Materials,68.21,49.43,2.152975,1.59,77.08,64.01,165203312427,5250000000.0,2.692239,1.54,http://www.sec.gov/cgi-bin/browse-edgar?action...
161,EMN,Eastman Chemical,Materials,93.57,12.28,2.263084,10.12,104.08,76.02,14226830813,2152000000.0,1.490479,2.78,http://www.sec.gov/cgi-bin/browse-edgar?action...
164,ECL,Ecolab Inc.,Materials,127.76,28.08,1.231971,4.14,140.5,119.61,38460272282,2848600000.0,3.736069,5.28,http://www.sec.gov/cgi-bin/browse-edgar?action...
198,FMC,FMC Corporation,Materials,80.87,32.48,0.785995,1.56,98.7,56.53,11273961835,557800000.0,6.008903,5.26,http://www.sec.gov/cgi-bin/browse-edgar?action...
204,FCX,Freeport-McMoRan Inc.,Materials,17.16,14.67,1.119821,1.24,20.25,11.05,25853969330,5347000000.0,1.653835,3.66,http://www.sec.gov/cgi-bin/browse-edgar?action...


Уникальные (т.е. без повторов) названия (столбец Name) компаний в каждой группе.

In [45]:
group.Name.unique()

Sector
Consumer Discretionary        [Advance Auto Parts, Amazon.com Inc, Aptiv Plc...
Consumer Staples              [Altria Group Inc, Archer-Daniels-Midland Co, ...
Energy                        [Anadarko Petroleum Corp, Andeavor, Apache Cor...
Financials                    [Affiliated Managers Group Inc, AFLAC Inc, All...
Health Care                   [Abbott Laboratories, AbbVie Inc., Aetna Inc, ...
Industrials                   [3M Company, A.O. Smith Corp, Acuity Brands In...
Information Technology        [Accenture plc, Activision Blizzard, Adobe Sys...
Materials                     [Air Products & Chemicals Inc, Albemarle Corp,...
Real Estate                   [Alexandria Real Estate Equities Inc, American...
Telecommunication Services    [AT&T Inc, CenturyLink Inc, Verizon Communicat...
Utilities                     [AES Corp, Alliant Energy Corp, Ameren Corp, A...
Name: Name, dtype: object

Каждая группа здесь это кортеж названий и содержания (последовательность) группы.

Посмотрим, есть ли в группе хоть одна фирма с аббревиатурой (столбец Symbol) начинающейся на букву "А".

In [47]:
letter="A"
for i in group.Symbol:
    print('{}: {}'.format(i[0],(i[1].str.get(0)==letter).any()))

Consumer Discretionary: True
Consumer Staples: True
Energy: True
Financials: True
Health Care: True
Industrials: True
Information Technology: True
Materials: True
Real Estate: True
Telecommunication Services: False
Utilities: True


Что здесь происходит:
- группы можно итерировать, в цикле переменная i будет являться последовательно кортежем из названия и содержание каждой из групп в которой оставлен только столбец Symbol.
- i[0] - название группы, i[1] - содержимое текущей группы, в нашем случае это объект типа Series.
- у этого объекта Series есть атрибут str, который позволяет работать с элементами как со строкой.
- метод get() для строки возвращает символ строки на определенном месте, 0 - это первый символ.
- сравниваем этот первый символ с буквой "A", получаем или истину или ложь.
- так как в группе может быть не одна строка, то в результате получится логический вектор (тип Series) из значений истина\ложь.
- метод any() для логических векторов возвращает истину если хотя бы один элемент вектора истинный, что нам и требуется.
- наконец печатаем результат.



Агрегировать группы можно разными функциями, даже своими собственными, в этом помогает метод [`agg()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.core.groupby.GroupBy.agg.html?highlight=agg#pandas.core.groupby.GroupBy.agg), который позволяет применять одну или несколько функций к группам. Давайте сделаем свою функцию и применим ее к группам.

In [48]:
# своя функция, которая вычитает минимальное значение из максимального
def max_min(arr):
    return arr.max() - arr.min()

# считаем по группам для столбца Price свою функцию и среднее.
result=group.Price.agg([max_min, 'mean'])
result

Unnamed: 0_level_0,max_min,mean
Sector,Unnamed: 1_level_1,Unnamed: 2_level_1
Consumer Discretionary,1795.63,124.034524
Consumer Staples,188.77,79.764118
Energy,166.34,57.8875
Financials,496.0,89.056029
Health Care,575.8,132.515738
Industrials,319.85,116.887612
Information Technology,996.49,119.242857
Materials,370.49,102.3868
Real Estate,395.97,88.712727
Telecommunication Services,32.84,33.603333


## Разбивка на интервалы
Значения в столбце можно разбить на интервалы, назвать их и записать эти интервалы вместо значений. В этом поможет команда [`cut`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html?highlight=cut#pandas.cut) которой указываем что разбивать, сколько интервалов сделать, их названия и другие аргументы.

In [51]:
data['Price']

0      222.89
1       60.24
2       56.27
3      108.48
4      150.51
        ...  
500     70.24
501     76.30
502    115.53
503     50.71
504     71.51
Name: Price, Length: 505, dtype: float64

In [52]:
# разбиваем столбец Price на 5 интервалов, называем их.
cuted=pd.cut(data['Price'], 5,labels=['Low','Medium','High','Very High','Exclusive'], include_lowest=True)
cuted

0      Low
1      Low
2      Low
3      Low
4      Low
      ... 
500    Low
501    Low
502    Low
503    Low
504    Low
Name: Price, Length: 505, dtype: category
Categories (5, object): ['Low' < 'Medium' < 'High' < 'Very High' < 'Exclusive']

Заменим столбец Price на cuted

In [53]:
data['Price']=cuted
data

Unnamed: 0,Symbol,Name,Sector,Price,Price/Earnings,Dividend Yield,Earnings/Share,52 Week Low,52 Week High,Market Cap,EBITDA,Price/Sales,Price/Book,SEC Filings
0,MMM,3M Company,Industrials,Low,24.31,2.332862,7.92,259.77,175.490,138721055226,9.048000e+09,4.390271,11.34,http://www.sec.gov/cgi-bin/browse-edgar?action...
1,AOS,A.O. Smith Corp,Industrials,Low,27.76,1.147959,1.70,68.39,48.925,10783419933,6.010000e+08,3.575483,6.35,http://www.sec.gov/cgi-bin/browse-edgar?action...
2,ABT,Abbott Laboratories,Health Care,Low,22.51,1.908982,0.26,64.60,42.280,102121042306,5.744000e+09,3.740480,3.19,http://www.sec.gov/cgi-bin/browse-edgar?action...
3,ABBV,AbbVie Inc.,Health Care,Low,19.41,2.499560,3.29,125.86,60.050,181386347059,1.031000e+10,6.291571,26.14,http://www.sec.gov/cgi-bin/browse-edgar?action...
4,ACN,Accenture plc,Information Technology,Low,25.47,1.714470,5.44,162.60,114.820,98765855553,5.643228e+09,2.604117,10.62,http://www.sec.gov/cgi-bin/browse-edgar?action...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
500,XYL,Xylem Inc.,Industrials,Low,30.94,1.170079,1.83,76.81,46.860,12915021000,7.220000e+08,2.726209,5.31,http://www.sec.gov/cgi-bin/browse-edgar?action...
501,YUM,Yum! Brands Inc,Consumer Discretionary,Low,27.25,1.797080,4.07,86.93,62.850,27003303098,2.289000e+09,6.313636,212.08,http://www.sec.gov/cgi-bin/browse-edgar?action...
502,ZBH,Zimmer Biomet Holdings,Health Care,Low,14.32,0.794834,9.01,133.49,108.170,24454698119,2.007400e+09,3.164895,2.39,http://www.sec.gov/cgi-bin/browse-edgar?action...
503,ZION,Zions Bancorp,Financials,Low,17.73,1.480933,2.60,55.61,38.430,10670678640,0.000000e+00,3.794579,1.42,http://www.sec.gov/cgi-bin/browse-edgar?action...


В качестве упражнения выведите на экран название (Name) фирмы, у которой цена (Price) входит в интервал Exclusive

In [54]:
data[data['Price']=='Exclusive']['Name']


372    Priceline.com Inc
Name: Name, dtype: object

# Задания
Тщательно изучите документацию на библиотеку pandas и попробуйте самостоятельно выполнить группировку по другим столбцам.

# Ссылки

https://pythonru.com/biblioteki/struktury-dannyh-v-pandas