### Библиотеки

Pandas — это библиотека Python, предоставляющая широкие возможности для анализа данных. Данные, с которыми работают датасаентисты, часто хранятся в форме табличек — например, в форматах .csv, .tsv или .xlsx. С помощью библиотеки Pandas такие табличные данные очень удобно загружать, обрабатывать и анализировать с помощью SQL-подобных запросов.

Материалы, используемые для лекции:
1. Документация Pandas - https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html
2. "Python и анализ данных", автор Уэс Маккинни 
3. "Изучаем pandas", автор Майкл Хейдт
4.  Летняя школа Сбербанка 2020 года


In [None]:
import pandas as pd
import numpy as np

### Создание

Рассмотрим создание двух базовых структур данных, которые используются в pandas. Первой структурой данных, которую мы рассмотрим, будет объект Series. Для создания этого объекта воспользуемся одноименной функцией библиотеки Pandas.

#### из списка

создаем Series значений из списка целых чисел

In [None]:
s = pd.Series(data=[10, 11, 12, 13, 14],
              index=[1, 2, 3, 5, 7])
s

1    10
2    11
3    12
5    13
7    14
dtype: int64

Первый столбец чисел представляет собой индексные метки. Второй столбец содержит значения.
dtype: int64 означает тип данных, к которому относятся значения объекта Series.

Создаем Series из строковых значений и не указываем значения index.

In [None]:
s = pd.Series(['Blue', 'Yellow', 'Green'])
s

0      Blue
1    Yellow
2     Green
dtype: object

Cоздаем Series из 5 элементов, каждый элемент - list python

In [None]:
l = [[1, 2]]
s = pd.Series(l*5)
s

0    [1, 2]
1    [1, 2]
2    [1, 2]
3    [1, 2]
4    [1, 2]
dtype: object

Теперь рассмотрим другую структуру данных библиотеки Pandas - Dataframe. Для создания используется одноименная функция. Dataframe (датафрейм) расширяет фунционал объекта Series. Появляется возможность работать с 2 измерениями.

Cоздаем DataFrame из двумерного списка

In [None]:
df = pd.DataFrame([[10, 11], [20, 21], [30, 31]])
df

Unnamed: 0,0,1
0,10,11
1,20,21
2,30,31


Задаем имена столбцов

In [None]:
df = pd.DataFrame([[10, 11], [20, 21], [30, 31]],
                  columns=['A', 'B'])
df

Unnamed: 0,A,B
0,10,11
1,20,21
2,30,31


Создаем DataFrame для списка объектов Series

In [None]:
series_1 = pd.Series([70, 90])
series_2 = pd.Series([71, 91])
df = pd.DataFrame([series_1, series_2])
df

Unnamed: 0,0,1
0,70,90
1,71,91


задаем имена столбцов после создания датафрейма

In [None]:
df.columns = ['col_1', 'col_2']
df

Unnamed: 0,col_1,col_2
0,70,90
1,71,91


Мы рассмотрели создание объектов Series и DataFrame, используя в качестве исходных данных списки. Конечно же это не единственный способ. Далее справочно рассмотрено создание при помощи словаря, а также функций библитеки numpy, которую мы с вами рассматривали в работе 1.

#### из словаря 

создаем объект Series из словаря, при этом посмотрим, как изменились индексы

In [None]:
s = pd.Series({'Homer': 'Dad',
               'Marge': 'Mom',
               'Bart': 'Son',
               'Lisa': 'Daughter',
               'Maggie': 'Daughter'})
s

Homer          Dad
Marge          Mom
Bart           Son
Lisa      Daughter
Maggie    Daughter
dtype: object

создание DataFrame с помощью питоновского словаря

In [None]:
list_1 = [70, 71]
list_2 = [90, 91]
temperatures = {'col_1': list_1,
                'col_2': list_2}
pd.DataFrame(temperatures)

Unnamed: 0,col_1,col_2
0,70,90
1,71,91


создание DataFrame с помощью словаря, состоящего из объектов Series

In [None]:
series_1 = pd.Series([70, 71])
series_2 = pd.Series([90, 91])

df = pd.DataFrame({'col_1': series_1,
                   'col_2': series_2})
df

Unnamed: 0,col_1,col_2
0,70,90
1,71,91


#### при помощи функций

создание Series, используя np.arange - последовательность чисел от **start** до **stop-1** с шагом **step**:
```python 
np.arange(start, stop, step) 
```

In [None]:
s = pd.Series(np.arange(15,25,2))
s

0    15
1    17
2    19
3    21
4    23
dtype: int64

создаем Series из 5 значений, равномерно разбивающих отрезок 0 до 9

In [None]:
s = pd.Series(np.linspace(0, 9, 5))
s

0    0.00
1    2.25
2    4.50
3    6.75
4    9.00
dtype: float64

Генерация случайных чисел.

Зафикисруем значение seed, что позволит нам в будущем воcпроизводить свои результаты

Создадим объект Series из 5 нормально распределенных случайных чисел

In [None]:
np.random.seed(42)
s = pd.Series(np.random.normal(size=5))
s

0    0.496714
1   -0.138264
2    0.647689
3    1.523030
4   -0.234153
dtype: float64

Создадим объект DataFrame размерности 4х3 из случайных чисел

In [None]:
np.random.seed(123)
df = pd.DataFrame(np.random.normal(size=12).reshape(4, 3),
                  index=['ind_1', 'ind_2', 'ind_3', 'ind_4'],
                  columns=['col_1', 'col_2', 'col_3'])
df

Unnamed: 0,col_1,col_2,col_3
ind_1,-1.085631,0.997345,0.282978
ind_2,-1.506295,-0.5786,1.651437
ind_3,-2.426679,-0.428913,1.265936
ind_4,-0.86674,-0.678886,-0.094709


#### [из файла](http://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-tools-text-csv-hdf5)

Чаще всего датафреймы создаются путём считывания данных из CSV-файла с помощью функции pd.read_csv. В качестве примера мы загрузим данные из файла, содержащего моментальный снимок индекса S&P 500. Этот файл называется sp500.сsv (найти можно по ссылке Data в ресурсах на Piazza. В этом датасете информаия о 500 крупнейших компаниях США.

| Column Name        | Description
| ------------- |:-------------:|
|Symbol|Сокращенное название организации|
|Name|Полное название организации|
|Sector|Сектор экономики|
|Price|Стоимость акции|
|Dividend Yield|Дивидендная доходность|
|Price/Earnings|Цена / прибыль|
|Earnings/Share|Прибыль на акцию|
|Book Value|Балансовая стоимость компании|
|52 week low|52-недельный минимум|
|52 week high|52-недельный максимум|
|Market Cap|Рыночная капитализация|
|EBITDA|**E**arnings **b**efore **i**nterest, **t**axes, **d**epreciation and **a**mortization|
|Price/Sales|Цена / объём продаж|
|Price/Book|Цена / балансовая стоимость|
|SEC Filings|Ссылка *sec.gov*|

Обращайте внимание на разделитель. Вот этот код не выдаст ошибку, но прочитает данные некорректно. Перед запуском убедитесь в том, что загрузили этот файл в коллаб.

In [None]:
pd.read_csv(filepath_or_buffer = "sp500.csv",
            sep = ';')

Unnamed: 0,"Symbol,Name,Sector,Price,Dividend Yield,Price/Earnings,Earnings/Share,Book Value,52 week low,52 week high,Market Cap,EBITDA,Price/Sales,Price/Book,SEC Filings"
0,"MMM,3M Co.,Industrials,141.14,2.12,20.33,6.90,..."
1,"ABT,Abbott Laboratories,Health Care,39.60,1.82..."
2,"ABBV,AbbVie Inc.,Health Care,53.95,3.02,20.87,..."
3,"ACN,Accenture,Information Technology,79.79,2.3..."
4,"ACE,ACE Limited,Financials,102.91,2.21,10.00,1..."
...,...
495,"YHOO,Yahoo Inc.,Information Technology,35.02,,..."
496,"YUM,Yum! Brands Inc,Consumer Discretionary,74...."
497,"ZMH,Zimmer Holdings,Health Care,101.84,0.81,22..."
498,"ZION,Zions Bancorp,Financials,28.43,0.56,18.82..."


Следующий код будет работать корректно.

In [None]:
pd.read_csv(filepath_or_buffer = "sp500.csv",
           sep = ',')

Unnamed: 0,Symbol,Name,Sector,Price,Dividend Yield,Price/Earnings,Earnings/Share,Book Value,52 week low,52 week high,Market Cap,EBITDA,Price/Sales,Price/Book,SEC Filings
0,MMM,3M Co.,Industrials,141.14,2.12,20.33,6.900,26.668,107.15,143.37,92.345,8.1210,2.95,5.26,http://www.sec.gov/cgi-bin/browse-edgar?action...
1,ABT,Abbott Laboratories,Health Care,39.60,1.82,25.93,1.529,15.573,32.70,40.49,59.477,4.3590,2.74,2.55,http://www.sec.gov/cgi-bin/browse-edgar?action...
2,ABBV,AbbVie Inc.,Health Care,53.95,3.02,20.87,2.570,2.954,40.10,54.78,85.784,7.1900,4.48,18.16,http://www.sec.gov/cgi-bin/browse-edgar?action...
3,ACN,Accenture,Information Technology,79.79,2.34,19.53,4.068,8.326,69.00,85.88,50.513,4.4230,1.75,9.54,http://www.sec.gov/cgi-bin/browse-edgar?action...
4,ACE,ACE Limited,Financials,102.91,2.21,10.00,10.293,86.897,84.73,104.07,34.753,4.2750,1.79,1.18,http://www.sec.gov/cgi-bin/browse-edgar?action...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,YHOO,Yahoo Inc.,Information Technology,35.02,,28.94,1.199,12.768,23.82,41.72,35.258,0.8873,7.48,2.72,http://www.sec.gov/cgi-bin/browse-edgar?action...
496,YUM,Yum! Brands Inc,Consumer Discretionary,74.77,1.93,29.86,2.507,5.147,64.08,79.70,33.002,2.8640,2.49,14.55,http://www.sec.gov/cgi-bin/browse-edgar?action...
497,ZMH,Zimmer Holdings,Health Care,101.84,0.81,22.92,4.441,37.181,74.55,108.33,17.091,1.6890,3.68,2.74,http://www.sec.gov/cgi-bin/browse-edgar?action...
498,ZION,Zions Bancorp,Financials,28.43,0.56,18.82,1.511,30.191,26.39,33.33,5.257,0.0000,2.49,0.94,http://www.sec.gov/cgi-bin/browse-edgar?action...


Функция read_csv предоставляет широкий список тонких настроек считывания данных. Здесь рассмотрим лишь некоторые из них. 

Можно считывать не все строки и не все столбцы. Строки:

In [None]:
pd.read_csv(filepath_or_buffer = "sp500.csv",
           sep = ',',
           nrows = 3)

Unnamed: 0,Symbol,Name,Sector,Price,Dividend Yield,Price/Earnings,Earnings/Share,Book Value,52 week low,52 week high,Market Cap,EBITDA,Price/Sales,Price/Book,SEC Filings
0,MMM,3M Co.,Industrials,141.14,2.12,20.33,6.9,26.668,107.15,143.37,92.345,8.121,2.95,5.26,http://www.sec.gov/cgi-bin/browse-edgar?action...
1,ABT,Abbott Laboratories,Health Care,39.6,1.82,25.93,1.529,15.573,32.7,40.49,59.477,4.359,2.74,2.55,http://www.sec.gov/cgi-bin/browse-edgar?action...
2,ABBV,AbbVie Inc.,Health Care,53.95,3.02,20.87,2.57,2.954,40.1,54.78,85.784,7.19,4.48,18.16,http://www.sec.gov/cgi-bin/browse-edgar?action...


столбцы

In [None]:
pd.read_csv(filepath_or_buffer = "sp500.csv",
           sep = ',',
           nrows = 3,
           usecols=['Symbol', 'Sector', 'Price', 'Book Value'])

Unnamed: 0,Symbol,Sector,Price,Book Value
0,MMM,Industrials,141.14,26.668
1,ABT,Health Care,39.6,15.573
2,ABBV,Health Care,53.95,2.954


индекс

In [None]:
pd.read_csv(filepath_or_buffer = "sp500.csv",
           sep = ',',
           nrows = 3,
           usecols=['Symbol', 'Sector', 'Price', 'Book Value'],
           index_col='Symbol')

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954


Для дальнейшей работы сохраним загруженный файл в датафрейм sp500. При этом нам понадобятся только 4 столбца исходного файла (используем как индекс).
Symbol - краткое обозначение названия компании. Sector - сектор экономики, в котором представлена компания. Price - стоимость акции. Book Value - балансовая стоимость.


In [None]:
sp500 = pd.read_csv(filepath_or_buffer = "sp500.csv",
                    sep = ',',
                    usecols=['Symbol', 'Sector', 'Price', 'Book Value'],
                    index_col='Symbol')
sp500

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.60,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897
...,...,...,...
YHOO,Information Technology,35.02,12.768
YUM,Consumer Discretionary,74.77,5.147
ZMH,Health Care,101.84,37.181
ZION,Financials,28.43,30.191


Работая в гугл колабе удобно некоторые датасеты хранить на гугл диске. Ниже представлен код, позволяющий организовать чтение датасетов с гугл.диска.

#### Локальное подключение

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Нужно будет перейти по ссылке, скопировать код и вставить.

#### PyDrive


Использование PyDrive для аутентификации и загрузки/скачивания файлов. Больше примеров можно найти в <a href="https://pythonhosted.org/PyDrive/">документации PyDrive</a>.

In [None]:
!pip install PyDrive

In [None]:
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

In [None]:
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

In [None]:
downloaded = drive.CreateFile({'id':"13G_yxcUABzMHjrAE9y-dui7lUY_KMbyB"})   # замените id на id своего файла
downloaded.GetContentFile('sp500.csv')

In [None]:
sp500_drive = pd.read_csv('sp500.csv', nrows = 3)

Также можно работать с датасетами, размещёнными, например, в dropbox

In [None]:
%%capture
!wget https://www.dropbox.com/s/io67uppgq66plbp/training_data.csv

In [None]:
training_data = pd.read_csv('training_data.csv', nrows = 3)

In [None]:
training_data

Unnamed: 0,SeriousDlqin2yrs,RevolvingUtilizationOfUnsecuredLines,age,NumberOfTime30-59DaysPastDueNotWorse,DebtRatio,MonthlyIncome,NumberOfOpenCreditLinesAndLoans,NumberOfTimes90DaysLate,NumberRealEstateLoansOrLines,NumberOfTime60-89DaysPastDueNotWorse,NumberOfDependents
0,0,0.250476,65,0,1963.0,,5,0,2,0,0.0
1,0,0.975402,58,0,0.049441,5905.0,1,0,0,0,0.0
2,0,0.0,82,0,0.000933,3215.0,10,0,0,0,0.0


Загружаем данные с помощие команды `!wget`. Для того, чтобы игнорировать сообщения в процессе загрузки используем магическую команду `%%capture` в первой строке.

Более подробно с загрузкой файлов с внешних источников можно ознакомиться по ссылке: https://colab.research.google.com/notebooks/io.ipynb#scrollTo=7taylj9wpsA2 

### Свойства

Мы узнали как создать основные структуры библиотеки Pandas - Series и DataFrame. Дадим описание основных свойств этих структур. 


#### создаем Series для примеров

In [None]:
Simpsons = pd.Series({'Homer': 120,
                      'Marge': 60,
                      'Bart': 35,
                      'Lisa': 30,
                      'Maggie': 7})

Simpsons

Homer     120
Marge      60
Bart       35
Lisa       30
Maggie      7
dtype: int64

In [None]:
np.random.seed(123)
numbers = pd.Series(data = np.random.normal(size=10),
                    index = np.arange(25,35))
numbers

25   -1.085631
26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
30    1.651437
31   -2.426679
32   -0.428913
33    1.265936
34   -0.866740
dtype: float64

В этом примере мы создали серию из случайных значений, взятых из нормального распределения. seed используем, чтобы случайные значения были у всех одинаковыми.

#### количество элементов

Series:

In [None]:
print('Первый способ:', len(Simpsons))
print('Второй способ:', Simpsons.size)
print('Третий способ:', Simpsons.shape)

Первый способ: 5
Второй способ: 5
Третий способ: (5,)


DataFrame:

In [None]:
print('Первый способ:', len(sp500))
print('Второй способ:', sp500.size)
print('Третий способ:', sp500.shape)

Первый способ: 500
Второй способ: 1500
Третий способ: (500, 3)


#### количество уникальных элементов

In [None]:
Simpsons.nunique()

5

In [None]:
sp500.nunique()

Sector         13
Price         495
Book Value    495
dtype: int64

#### индекс и значения

Series:

In [None]:
Simpsons.index

Index(['Homer', 'Marge', 'Bart', 'Lisa', 'Maggie'], dtype='object')

In [None]:
Simpsons.values

array([120,  60,  35,  30,   7])

DataFrame:

In [None]:
sp500.index

Index(['MMM', 'ABT', 'ABBV', 'ACN', 'ACE', 'ACT', 'ADBE', 'AES', 'AET', 'AFL',
       ...
       'XEL', 'XRX', 'XLNX', 'XL', 'XYL', 'YHOO', 'YUM', 'ZMH', 'ZION', 'ZTS'],
      dtype='object', name='Symbol', length=500)

In [None]:
sp500.values

array([['Industrials', 141.14, 26.668000000000003],
       ['Health Care', 39.6, 15.573],
       ['Health Care', 53.95, 2.9539999999999997],
       ...,
       ['Health Care', 101.84, 37.181],
       ['Financials', 28.43, 30.191],
       ['Health Care', 30.53, 2.15]], dtype=object)

In [None]:
sp500.columns

Index(['Sector', 'Price', 'Book Value'], dtype='object')

#### Пример

создаем DataFame для примера

In [None]:
np.random.seed(123)
df = pd.DataFrame({'value':np.random.random(10000), 'key':range(100, 10100)})
df.head()

Unnamed: 0,value,key
0,0.696469,100
1,0.286139,101
2,0.226851,102
3,0.551315,103
4,0.719469,104


отбираем строку, в котором значение столбца key равно 10099

In [None]:
df[df.key==10099]

Unnamed: 0,value,key
9999,0.613297,10099


измеряем время выполнения операции отбора

In [None]:
%timeit df[df.key==10099]

1000 loops, best of 3: 543 µs per loop


превращаем столбец key в index

In [None]:
df_with_index = df.set_index(['key'])
df_with_index.head()

Unnamed: 0_level_0,value
key,Unnamed: 1_level_1
100,0.696469
101,0.286139
102,0.226851
103,0.551315
104,0.719469


теперь можно найти это значение с помощью индекса

In [None]:
df_with_index.loc[10099]

value    0.613297
Name: 10099, dtype: float64

и теперь операция выполняется намного быстрее

In [None]:
%timeit df_with_index.loc[10099]

10000 loops, best of 3: 105 µs per loop


<center><font color = 'green'><b>Вывод: использование индекса повышает скорость доступа к данным более чем в 5 раз!</b></font>

#### присвоение / изменение имени

#####  объекта Series

In [None]:
Simpsons.name = 'Simpsons weight'
Simpsons

Homer     120
Marge      60
Bart       35
Lisa       30
Maggie      7
Name: Simpsons weight, dtype: int64

##### индекса

In [None]:
Simpsons.index.name = 'First name'
Simpsons

First name
Homer     120
Marge      60
Bart       35
Lisa       30
Maggie      7
Name: Simpsons weight, dtype: int64

##### столбца

In [None]:
sp500_copy = sp500.rename(columns = {'Book Value': 'BookValue'})

проверяем, не изменились ли имена столбцов в исходном датафрейме

In [None]:
sp500.columns

Index(['Sector', 'Price', 'Book Value'], dtype='object')

In [None]:
sp500_copy.columns

Index(['Sector', 'Price', 'BookValue'], dtype='object')

этот программный код переименовывает столбец на месте

In [None]:
sp500_copy.rename(columns = {'Book Value': 'BookValue'},
            inplace=True)

смотрим изменилось ли имя столбца

In [None]:
sp500_copy.columns

Index(['Sector', 'Price', 'BookValue'], dtype='object')

### Вывод значений

#### первые / последние строки

В данном разделе будут показаны несколько способов вывода значений Series и DataFrame. Библиотека Pandas предлагает методы .head() и .tail() для исследования первых или последних строк. 

In [None]:
sp500.head(10)

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897
ACT,Health Care,213.77,55.188
ADBE,Information Technology,64.3,13.262
AES,Utilities,13.61,5.781
AET,Health Care,76.39,40.021
AFL,Financials,61.31,34.527


In [None]:
Simpsons.tail(3)

Bart      35
Lisa      30
Maggie     7
dtype: int64

#### столбцы 

извлекаем столбец Sector

In [None]:
sp500['Sector'].head()

Symbol
MMM                Industrials
ABT                Health Care
ABBV               Health Care
ACN     Information Technology
ACE                 Financials
Name: Sector, dtype: object

тип столбца датафрейма:

In [None]:
type(sp500['Sector'])

pandas.core.series.Series

извлекаем столбцы Price и Book Value

In [None]:
sp500[['Price', 'Book Value']].head()

Unnamed: 0_level_0,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,141.14,26.668
ABT,39.6,15.573
ABBV,53.95,2.954
ACN,79.79,8.326
ACE,102.91,86.897


покажем, что результат является объектом DataFrame

In [None]:
type(sp500[['Price', 'Book Value']])

pandas.core.frame.DataFrame

атрибутивный доступ к столбцу по имени

In [None]:
sp500.Price.head()

Symbol
MMM     141.14
ABT      39.60
ABBV     53.95
ACN      79.79
ACE     102.91
Name: Price, dtype: float64

Обратите внимание, что для столбца Book Value аналогичный программный код не сработает, потому что имя столбца содержит пробел

In [None]:
sp500_copy.BookValue

Symbol
MMM     26.668
ABT     15.573
ABBV     2.954
ACN      8.326
ACE     86.897
         ...  
YHOO    12.768
YUM      5.147
ZMH     37.181
ZION    30.191
ZTS      2.150
Name: BookValue, Length: 500, dtype: float64

#### строки

Значения объекта Series можно отбирать с помощью меток индекса, воспользовавшись свойством .loc. Для датафрейма метод .loc позволят выбрать строки. 

##### по метке 

**Series**

In [None]:
numbers

25   -1.085631
26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
30    1.651437
31   -2.426679
32   -0.428913
33    1.265936
34   -0.866740
dtype: float64

In [None]:
numbers.loc[[25,33]]

25   -1.085631
33    1.265936
dtype: float64

ошибка - нет метки

In [None]:
numbers.loc[0]

KeyError: ignored

**DataFrame**

получаем строку с меткой индекса MMM, которая возвращается в виде объекта Series

In [None]:
sp500.loc['MMM']

Sector        Industrials
Price              141.14
Book Value         26.668
Name: MMM, dtype: object

In [None]:
type(sp500.loc['MMM'])

pandas.core.series.Series

получаем строки MMM и MSFT результатом будет объект DataFrame

In [None]:
sp500.loc[['MMM', 'MSFT']]

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
MSFT,Information Technology,40.12,10.584


In [None]:
type(sp500.loc[['MMM', 'MSFT']])

pandas.core.frame.DataFrame

##### по позиции

Второй подход к отбору значений Series и строк DataFrame - это использование номера позиции в индексе. Данную задачу решает свойство .iloc. Чтобы понять как определяются номера позиций, выведем на экран объект Series .numbers. 

**Series** 

In [None]:
numbers

25   -1.085631
26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
30    1.651437
31   -2.426679
32   -0.428913
33    1.265936
34   -0.866740
dtype: float64

Элемент с меткой индекса равной 25 имеет номер позиции - 0. Далее по номерам позиций - 0, 1, 2, 3, 4, 5. Элемент с меткой индекса 30 имеет номер позиции 5.

Существует альтернативная нумерация позиций в индексе. Нумерация с последнего элемента в индексе. Элемент с меткой индекса 34 имеет номер позиции -1. Далее - -2, -3 -4, -5. Элемент с меткой индекса равной 25 - пятый с конца, поэтому номер позиции -5. В итоге, одно и то же значение объекта Series возможно выбрать, используя нумерацию с первого или с последнего элемента.


In [None]:
numbers.iloc[[5,-3]]

30    1.651437
32   -0.428913
dtype: float64

**DataFrame**

получаем строки, имеющие позиции 0 и 2

In [None]:
sp500.head(3)

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954


In [None]:
sp500.iloc[[0, 2]]

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABBV,Health Care,53.95,2.954


#### поиск скалярного значения

Отдельные скалярные значения можно найти по метке с помощью свойства .at, передав ему одновременно метку строки и метку столбца. Кроме того, скалярные значения можно найти по позиции с помощью свойства .iat[], передав позицию строки, а затем позицию столбца. Это предпочтительный метод доступа к отдельным значениям и дает максимальную производительность.


ищем скалярное значение по метке строки и метке (имени) столбца

In [None]:
sp500.at['MMM', 'Price']

141.14

ищем скалярное значение по позиции строки и позиции столбца; извлекаем значение в строке 0, столбце 1

In [None]:
sp500.iat[0, 1]

141.14

#### одновременный отбор строк и столбцов

Отбор подмножества данных, состоящего из набора строк и столбцов, является общепринятой практикой. Данный программный код демонстрирует это, сначала отобрав строки, а затем нужные столбцы. 

Отбираем строки с метками индекса ABT и ZTS для столбцов Sector и Price.
Для этого есть две эквивалентные записи.


In [None]:
sp500.loc[['ABT', 'ZTS']][['Sector', 'Price']]

Unnamed: 0_level_0,Sector,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ABT,Health Care,39.6
ZTS,Health Care,30.53


In [None]:
sp500.loc[['ABT', 'ZTS'],['Sector', 'Price']]

Unnamed: 0_level_0,Sector,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ABT,Health Care,39.6
ZTS,Health Care,30.53


определение номера позиций заданных меток

In [None]:
print(sp500.index.get_loc('ABT'),sp500.index.get_loc('ZTS')) 

1 499


отбор строк и столбцов по номеру позиций

In [None]:
sp500.iloc[[1,499],[0,1]]

Unnamed: 0_level_0,Sector,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ABT,Health Care,39.6
ZTS,Health Care,30.53


#### транспонирование

In [None]:
sp500.head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


In [None]:
sp500.T.head()

Symbol,MMM,ABT,ABBV,ACN,ACE,ACT,ADBE,AES,AET,AFL,A,GAS,APD,ARG,AKAM,AA,ALXN,ATI,ALLE,AGN,ADS,ALL,ALTR,MO,AMZN,AEE,AEP,AXP,AIG,AMT,AMP,ABC,AME,AMGN,APH,APC,ADI,AON,APA,AIV,...,UNM,URBN,USB,VLO,VAR,VTR,VRSN,VZ,VRTX,VFC,VIAB,V,VNO,VMC,WMT,WAG,DIS,WM,WAT,WLP,WFC,WDC,WU,WY,WHR,WFM,WIN,WEC,WYN,WYNN,XEL,XRX,XLNX,XL,XYL,YHOO,YUM,ZMH,ZION,ZTS
Sector,Industrials,Health Care,Health Care,Information Technology,Financials,Health Care,Information Technology,Utilities,Health Care,Financials,Health Care,Utilities,Materials,Materials,Information Technology,Materials,Health Care,Materials,Industrials,Health Care,Information Technology,Financials,Information Technology,Consumer Staples,Consumer Discretionary,Utilities,Utilities,Financials,Financials,Financials,Financials,Health Care,Information Technology,Health Care,Industrials,Energy,Information Technology,Financials,Energy,Financials,...,Financials,Consumer Discretionary,Financials,Energy,Health Care,Financials,Information Technology,Telecommunications Services,Health Care,Consumer Discretionary,Consumer Discretionary,Information Technology,Financials,Materials,Consumer Staples,Consumer Staples,Consumer Discretionary,Industrials,Health Care,Health Care,Financials,Information Technology,Information Technology,Financials,Consumer Discretionary,Consumer Staples,Telecommunications Services,Utilities,Consumer Discretionary,Consumer Discretionary,Utilities,Information Technology,Information Technology,Financials,Industrials,Information Technology,Consumer Discretionary,Health Care,Financials,Health Care
Price,141.14,39.6,53.95,79.79,102.91,213.77,64.3,13.61,76.39,61.31,56.18,52.98,118.74,105.66,53.65,13.52,162.3,40.99,52.46,166.92,248.88,58.38,33.31,40.68,312.24,38.64,51.41,88.78,53.6,88.41,110.93,71.64,52.49,114.33,95.71,101.35,52.39,88.43,90.18,31.24,...,33.46,32.54,41.45,54.54,80.92,67.03,49.92,49.74,71.04,62.72,84.99,212.07,105.32,61.19,75.61,69.79,83.32,43.37,100.54,108.82,50.16,84.83,15.77,30.87,147.26,37.78,9.38,45.13,72.22,207.86,30.24,12.06,46.03,32.47,38.42,35.02,74.77,101.84,28.43,30.53
Book Value,26.668,15.573,2.954,8.326,86.897,55.188,13.262,5.781,40.021,34.527,16.928,32.462,34.723,24.882,15.193,9.67,13.628,26.401,0,22.207,17.392,47.465,11.026,2.072,22.452,26.847,33.635,18.846,71.775,9.279,43.786,9.43,13.341,30.045,18.315,37.876,15.698,26.801,84.811,6.331,...,34.771,10.072,20.482,37.335,16.141,29.665,-3.467,3.069,5.211,13.285,10.253,43.391,28.243,30.819,22.607,21.779,26.405,12.33,21.46,86.358,30.479,37.311,1.981,11.69,66.221,10.867,1.199,19.165,11.984,-0.719,19.45,10.471,10.247,37.451,12.127,12.768,5.147,37.181,30.191,2.15


#### случайная подвыборка

Случайная выборка – это процесс случайного отбора значений из набора данных. Мы можем отобрать данные (т.е. создать выборку данных) с помощью метода .sample(), указав количество извлекаемых наблюдений. Следующий программный код отбирает три случайные строки. В библиотеке Pandas можно выполнить случайный отбор с возвращением или без возвращения, при этом по умолчанию используется отбор без возвращения.


отбираем три случайные строки

In [None]:
sp500.sample(n=3)

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
PPL,Utilities,33.38,20.14
PFG,Financials,46.46,33.88
FOSL,Consumer Discretionary,101.72,18.98


Чтобы задать случайный отбор с возвращением, воспользуемся параметром replace=True. Параметр frac показывает процент случайно извлекаемых данных. Так как производится отбор с возвращением, то количество отобранных строк не ограничено сверху. В данном примере случайная выборка в 5 раз больше исходного датафрейма.

случайный отбор с возвращением

In [None]:
sp500.sample(frac=5, replace=True, random_state=777)

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
CLF,Materials,16.34,34.523
MHK,Consumer Discretionary,136.41,61.582
BDX,Health Care,115.70,27.510
HOT,Consumer Discretionary,78.73,17.218
CELG,Health Care,150.13,11.200
...,...,...,...
BTU,Energy,17.22,14.644
MCO,Financials,82.50,1.803
LRCX,Information Technology,60.61,29.677
CI,Health Care,89.24,39.304


### Срезы данных

Библиотека Pandas позволяет создавать срезы данных. Создание срезов – это мощный способ извлечения подмножеств данных из "пандасовского" объекта. С помощью срезов мы можем отобрать данные по номерам позиций или меткам индекса. Чтобы проиллюстрировать создание срезов, мы воспользуемся ранее созданным объектом .numbers. 


#### Series

Задаём срез по правилу: [начальная позиция: конечная позиция: величина шага], при этом:
- Правая граница - не включается
- Шаг может быть отрицательным
- Позиция также может быть отрицательной - тогда отсчёт происходит "с другого конца"
- Нумерация происходит от нуля

In [None]:
numbers

25   -1.085631
26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
30    1.651437
31   -2.426679
32   -0.428913
33    1.265936
34   -0.866740
dtype: float64

срез, содержащий элементы с позициями от 1 по 5

In [None]:
numbers.iloc[1:6]

26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
30    1.651437
dtype: float64

выбираем элементы в позициях 1, 3, 5 == выбираем элементы с 1 по 5 позицию с шагом 2

In [None]:
numbers.iloc[1:6:2]

26    0.997345
28   -1.506295
30    1.651437
dtype: float64

можем оставить только конечную позицию

In [None]:
numbers.iloc[:6]

25   -1.085631
26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
30    1.651437
dtype: float64

либо оставим только начальную позицию

In [None]:
numbers.iloc[3:]

28   -1.506295
29   -0.578600
30    1.651437
31   -2.426679
32   -0.428913
33    1.265936
34   -0.866740
dtype: float64

отбираем элементы Series в обратном порядке, начиная с 5

In [None]:
numbers.iloc[5::-1]

30    1.651437
29   -0.578600
28   -1.506295
27    0.282978
26    0.997345
25   -1.085631
dtype: float64

отбор 4 последних строк

In [None]:
numbers.iloc[-4:]

31   -2.426679
32   -0.428913
33    1.265936
34   -0.866740
dtype: float64

####  DataFrame

In [None]:
sp500.iloc[:5]

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


в обратном порядке

In [None]:
sp500.iloc[4::-1]

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ACE,Financials,102.91,86.897
ACN,Information Technology,79.79,8.326
ABBV,Health Care,53.95,2.954
ABT,Health Care,39.6,15.573
MMM,Industrials,141.14,26.668


строки, начиная с метки ABT и заканчивая меткой ACN

In [None]:
sp500.loc['ABT':'ACN']

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326


При создании среза копирования данных не производится. При создании среза происходит создание ссылки. Необходимо быть крайне аккуратным, чтобы не потерять исходные данные. 

### Фильтрация по условию

Индексы предлагают очень мощный и эффективный способ поиска значений на основе их меток. Но что, если вы хотите найти записи на основе значений? Для решения этой задачи библиотека Pandas предлагает воспользоваться фильтрацией по условию. Это применение логического выражения к значениям и возвращение нового объекта булевых значений, представляющих собой результат применения этого выражения к каждому значению. Затем этот результат можно использовать для извлечения лишь тех значений, где был получен результат True. 

Посмотрим примеры.


#### Series 

In [None]:
numbers

25   -1.085631
26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
30    1.651437
31   -2.426679
32   -0.428913
33    1.265936
34   -0.866740
dtype: float64

какие строки имеют значения больше 0 и меньше 1?

In [None]:
logical_results = (numbers > 0) & (numbers < 1)
logical_results

25    False
26     True
27     True
28    False
29    False
30    False
31    False
32    False
33    False
34    False
dtype: bool

Скобки!!! Следующий программный код приведет к выдаче исключения
```python
numbers > 0 & numbers < 1 
```

тип полученного результата - Series, который можно использовать для отбора интерсующих нас значений

In [None]:
type(logical_results)

pandas.core.series.Series

отбираем строки со значением True

In [None]:
numbers[logical_results]

26    0.997345
27    0.282978
dtype: float64

использование метода .where

Бывают ситуации когда вам необходимо сохранить все метки индекса исходной серии. В этом случае полезен метод where. Если значение удовлетворяет условию, оно сохраняется. В противном случае заполняется NaN. При помощи параметра other можно изменить заполнения значений, не удовлетворяющих условию.


In [None]:
numbers.where((numbers > 0) & (numbers < 1))

25         NaN
26    0.997345
27    0.282978
28         NaN
29         NaN
30         NaN
31         NaN
32         NaN
33         NaN
34         NaN
dtype: float64

In [None]:
numbers.where((numbers > 0) & (numbers < 1), other = -1)

25   -1.000000
26    0.997345
27    0.282978
28   -1.000000
29   -1.000000
30   -1.000000
31   -1.000000
32   -1.000000
33   -1.000000
34   -1.000000
dtype: float64

все ли элементы >= 0?

In [None]:
(numbers >= 0).all()

False

есть ли элемент < 2?

In [None]:
(numbers < 2).any()

True

сколько значений < 1?

In [None]:
numbers < 1

25     True
26     True
27     True
28     True
29     True
30    False
31     True
32     True
33    False
34     True
dtype: bool

In [None]:
(numbers < 1).sum()

8

С помощью метода .sum() вы можете определить количество элементов, удовлетворяющих выражению. Это связано с тем, что, когда задана серия булевых значений, метод .sum() объекта Series рассматривает True как 1 и False как 0.


#### DataFrame

какие строки имеют значения Price < 100?

In [None]:
sp500.Price < 100

Symbol
MMM     False
ABT      True
ABBV     True
ACN      True
ACE     False
        ...  
YHOO     True
YUM      True
ZMH     False
ZION     True
ZTS      True
Name: Price, Length: 500, dtype: bool

теперь получим строки, в которых Price < 100

In [None]:
sp500[sp500.Price < 100]

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ABT,Health Care,39.60,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ADBE,Information Technology,64.30,13.262
AES,Utilities,13.61,5.781
...,...,...,...
XYL,Industrials,38.42,12.127
YHOO,Information Technology,35.02,12.768
YUM,Consumer Discretionary,74.77,5.147
ZION,Financials,28.43,30.191


извлекаем лишь те строки, в которых значение Price < 10 и > 6

In [None]:
r = sp500[(sp500['Price'] < 10) & 
          (sp500.Price > 6)] ['Price']
r

Symbol
HCBK    9.80
HBAN    9.10
SLM     8.82
WIN     9.38
Name: Price, dtype: float64

извлекаем строки, в которых переменная Sector принимает значение Health Care, а переменная Price больше или равна 100.00

In [None]:
r = sp500[(sp500.Sector == 'Health Care') & 
          (sp500.Price >= 100.00)] [['Price', 'Sector']]
r

Unnamed: 0_level_0,Price,Sector
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ACT,213.77,Health Care
ALXN,162.3,Health Care
AGN,166.92,Health Care
AMGN,114.33,Health Care
BCR,146.62,Health Care
BDX,115.7,Health Care
BIIB,299.71,Health Care
CELG,150.13,Health Care
HUM,124.49,Health Care
ISRG,363.86,Health Care


использование метода .isin

In [None]:
s_tmp = sp500.Sector.isin(['Information Technology', 'Financials'])
s_tmp

Symbol
MMM     False
ABT     False
ABBV    False
ACN      True
ACE      True
        ...  
YHOO     True
YUM     False
ZMH     False
ZION     True
ZTS     False
Name: Sector, Length: 500, dtype: bool

In [None]:
sp500[s_tmp].head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897
ADBE,Information Technology,64.3,13.262
AFL,Financials,61.31,34.527
AKAM,Information Technology,53.65,15.193


In [None]:
r = sp500[(sp500.Sector == 'Health Care') & 
          (sp500.Price >= 100.00)] [['Price', 'Sector']]
r

Unnamed: 0_level_0,Price,Sector
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ACT,213.77,Health Care
ALXN,162.30,Health Care
AGN,166.92,Health Care
AMGN,114.33,Health Care
BCR,146.62,Health Care
...,...,...
REGN,297.77,Health Care
TMO,115.74,Health Care
WAT,100.54,Health Care
WLP,108.82,Health Care


использование метода .query для того же самого запроса, как в предыдущем примере

In [None]:
q = sp500.query("Sector=='Health Care' & Price >= 100")[['Price', 'Sector']]
q

Unnamed: 0_level_0,Price,Sector
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ACT,213.77,Health Care
ALXN,162.30,Health Care
AGN,166.92,Health Care
AMGN,114.33,Health Care
BCR,146.62,Health Care
...,...,...
REGN,297.77,Health Care
TMO,115.74,Health Care
WAT,100.54,Health Care
WLP,108.82,Health Care


### Добавление 

#### оператор [ ] 

создаем копию, чтобы исходные данные остались в неизменном виде

In [None]:
sp500_copy = sp500.copy()

добавляем столбец

In [None]:
sp500_copy['RoundedPrice'] = sp500_copy.Price.round()
sp500_copy.head(3)

Unnamed: 0_level_0,Sector,Price,Book Value,RoundedPrice
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
MMM,Industrials,141.14,26.668,141.0
ABT,Health Care,39.6,15.573,40.0
ABBV,Health Care,53.95,2.954,54.0


#### метод .insert()

создаем копию, чтобы исходные данные остались в неизменном виде

In [None]:
sp500_copy = sp500.copy()

вставляем столбец RoundedPrice в качестве третьего столбца датафрейма

In [None]:
sp500_copy.insert(3, 'RoundedPrice', sp500_copy.Price.round())
sp500_copy.head(3)

Unnamed: 0_level_0,Sector,Price,Book Value,RoundedPrice
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
MMM,Industrials,141.14,26.668,141.0
ABT,Health Care,39.6,15.573,40.0
ABBV,Health Care,53.95,2.954,54.0


### Сортировка

#### по индексу 

Для лексикографической сортировки по индексу служит метод sort_index, который возвращает новый отсортированный объект. В случае DataFrame можно сортировать по индексу, связанному с любой осью - строками или столбцами. В данном примере сортировка производится по меткам оси столбцов.


In [None]:
sp500.head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


In [None]:
sp500.sort_index().head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,Health Care,56.18,16.928
AA,Materials,13.52,9.67
AAPL,Information Technology,614.13,139.46
ABBV,Health Care,53.95,2.954
ABC,Health Care,71.64,9.43


#### по значению

Объект Dataframe можно сортировать по значениям в одном или нескольких столбцах. Для этого имена столбцов следует передать в качестве значения параметра "by" метода sort_values. По умолчанию данные сортируются в порядке возрастания, но можно отсортировать и в порядке убывания. Используем параметр ascending.

In [None]:
sp500.sort_values(by='Price').head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BEAM,Consumer Discretionary,0.0,
FTR,Telecommunications Services,5.81,3.989
SLM,Financials,8.82,11.895
HBAN,Financials,9.1,6.995
WIN,Telecommunications Services,9.38,1.199


In [None]:
sp500.sort_values(by='Price', ascending=False).head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
PCLN,Industrials,1197.12,137.886
GHC,Consumer Discretionary,677.29,0.0
AAPL,Information Technology,614.13,139.46
GOOG,Information Technology,552.7,135.977
AZO,Consumer Discretionary,540.9,-51.275


#### наименьшее / наибольшее значение

Еще один полезный функционал библиотеки Pandas - это вывод наименьших, наибольших значений. Соответственно методы .nsmallest, .nlargest

In [None]:
sp500.nsmallest(5, 'Price')

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BEAM,Consumer Discretionary,0.0,
FTR,Telecommunications Services,5.81,3.989
SLM,Financials,8.82,11.895
HBAN,Financials,9.1,6.995
WIN,Telecommunications Services,9.38,1.199


In [None]:
sp500.nlargest(5, 'Price')

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
PCLN,Industrials,1197.12,137.886
GHC,Consumer Discretionary,677.29,0.0
AAPL,Information Technology,614.13,139.46
GOOG,Information Technology,552.7,135.977
AZO,Consumer Discretionary,540.9,-51.275
