### Библиотеки

In [7]:
import pandas as pd
import numpy as np

### Создание

#### из списка

создаем Series значений из списка целых чисел

In [8]:
s = pd.Series(data=[10, 11, 12, 13, 14],
              index=[1, 2, 3, 5, 7])
s

1    10
2    11
3    12
5    13
7    14
dtype: int64

In [9]:
s = pd.Series(data=[10, 11, 12, 13, 14])
s

0    10
1    11
2    12
3    13
4    14
dtype: int64

создаем Series из строковых значений

In [10]:
s = pd.Series(['Blue', 'Yellow', 'Green'])
s

0      Blue
1    Yellow
2     Green
dtype: object

создаем Series из 5 элементов, каждый элемент - list python

In [11]:
l = [[1, 2]]
s = pd.Series(l*5)
s

0    [1, 2]
1    [1, 2]
2    [1, 2]
3    [1, 2]
4    [1, 2]
dtype: object

создаем DataFrame из двумерного списка

In [12]:
df = pd.Series({'a':1,'b':4})
df

a    1
b    4
dtype: int64

задаем имена столбцов

In [25]:
df = pd.Series([10, 11, 20, 21, 30, 31])
df

0    10
1    11
2    20
3    21
4    30
5    31
dtype: int64

In [28]:
df.index=['A', 'B','A', 'B','A']

ValueError: Length mismatch: Expected axis has 6 elements, new values have 5 elements

In [27]:
df

A    10
B    11
A    20
B    21
A    30
B    31
dtype: int64

создаем DataFrame для списка объектов Series

In [64]:
series_1 = pd.Series([70, 90])
series_2 = pd.Series([71, 91])
df = pd.DataFrame([series_1, series_2])
df

Unnamed: 0,0,1
0,70,90
1,71,91


In [65]:
series_1 = pd.Series([70, 90])
series_2 = pd.Series([71, 91])
df = pd.DataFrame([series_2, series_1])
df

Unnamed: 0,0,1
0,71,91
1,70,90


In [66]:
series_1 = pd.Series([70, 90])
series_2 = pd.Series([71, 91])
df = pd.DataFrame([series_2, series_2])
df

Unnamed: 0,0,1
0,71,91
1,71,91


задаем имена столбцов после создания датафрейма

In [67]:
df.columns = ['col_1', 'col_2']
df

Unnamed: 0,col_1,col_2
0,71,91
1,71,91


#### из словаря 

создаем объект Series из словаря, при этом посмотрим, как изменились индексы

In [68]:
s = pd.Series({'Homer': 'Dad',
               'Marge': 'Mom',
               'Bart': 'Son',
               'Lisa': 'Daughter',
               'Maggie': 'Daughter'})
s

Homer          Dad
Marge          Mom
Bart           Son
Lisa      Daughter
Maggie    Daughter
dtype: object

создание DataFrame с помощью питоновского словаря

In [69]:
list_1 = [70, 71]
list_2 = [90, 91]
temperatures = {'col_1': list_1,
                'col_2': list_2}
pd.DataFrame(temperatures)

Unnamed: 0,col_1,col_2
0,70,90
1,71,91


создание DataFrame с помощью словаря, состоящего из объектов Series

In [70]:
series_1 = pd.Series([70, 71])
series_2 = pd.Series([90, 91])

df = pd.DataFrame({'col_1': series_1,
                   'col_2': series_2})
df

Unnamed: 0,col_1,col_2
0,70,90
1,71,91


#### при помощи функций

создание Series, используя np.arange - последовательность чисел от **start** до **stop-1** с шагом **step**:
```python 
np.arange(start, stop, step) 
```

In [71]:
s = pd.Series(np.arange(15,25,2))
s

0    15
1    17
2    19
3    21
4    23
dtype: int32

создаем Series из 5 значений, равномерно разбивающих отрезок 0 до 9

In [72]:
s = pd.Series(np.linspace(0, 9, 5))
s

0    0.00
1    2.25
2    4.50
3    6.75
4    9.00
dtype: float64

Генерация случайных чисел.

Зафикисруем значение seed, что позволит нам в будущем воcпроизводить свои результаты

Создадим объект Series из 5 нормально распределенных случайных чисел

In [73]:
np.random.seed(123)
s = pd.Series(np.random.normal(size=5))
s

0   -1.085631
1    0.997345
2    0.282978
3   -1.506295
4   -0.578600
dtype: float64

Создадим объект DataFrame размерности 4х3 из случайных чисел

In [74]:
np.random.seed(123)
df = pd.DataFrame(np.random.normal(size=12).reshape(4, 3),
                  index=['ind_1', 'ind_2', 'ind_3', 'ind_4'],
                  columns=['col_1', 'col_2', 'col_3'])
df

Unnamed: 0,col_1,col_2,col_3
ind_1,-1.085631,0.997345,0.282978
ind_2,-1.506295,-0.5786,1.651437
ind_3,-2.426679,-0.428913,1.265936
ind_4,-0.86674,-0.678886,-0.094709


#### [из файла](http://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-tools-text-csv-hdf5)

| Column Name        | Description
| ------------- |:-------------:|
|Symbol|Сокращенное название организации|
|Name|Полное название организации|
|Sector|Сектор экономики|
|Price|Стоимость акции|
|Dividend Yield|Дивидендная доходность|
|Price/Earnings|Цена / прибыль|
|Earnings/Share|Прибыль на акцию|
|Book Value|Балансовая стоимость компании|
|52 week low|52-недельный минимум|
|52 week high|52-недельный максимум|
|Market Cap|Рыночная капитализация|
|EBITDA|**E**arnings **b**efore **i**nterest, **t**axes, **d**epreciation and **a**mortization|
|Price/Sales|Цена / объём продаж|
|Price/Book|Цена / балансовая стоимость|
|SEC Filings|Ссылка *sec.gov*|

In [75]:
pd.read_csv(filepath_or_buffer = "../data/sp500.csv",
            sep = ';')

Unnamed: 0,"Symbol,Name,Sector,Price,Dividend Yield,Price/Earnings,Earnings/Share,Book Value,52 week low,52 week high,Market Cap,EBITDA,Price/Sales,Price/Book,SEC Filings"
0,"MMM,3M Co.,Industrials,141.14,2.12,20.33,6.90,..."
1,"ABT,Abbott Laboratories,Health Care,39.60,1.82..."
2,"ABBV,AbbVie Inc.,Health Care,53.95,3.02,20.87,..."
3,"ACN,Accenture,Information Technology,79.79,2.3..."
4,"ACE,ACE Limited,Financials,102.91,2.21,10.00,1..."
...,...
495,"YHOO,Yahoo Inc.,Information Technology,35.02,,..."
496,"YUM,Yum! Brands Inc,Consumer Discretionary,74...."
497,"ZMH,Zimmer Holdings,Health Care,101.84,0.81,22..."
498,"ZION,Zions Bancorp,Financials,28.43,0.56,18.82..."


разделитель

In [76]:
pd.read_csv(filepath_or_buffer = "../data/sp500.csv",
           sep = ',')

Unnamed: 0,Symbol,Name,Sector,Price,Dividend Yield,Price/Earnings,Earnings/Share,Book Value,52 week low,52 week high,Market Cap,EBITDA,Price/Sales,Price/Book,SEC Filings
0,MMM,3M Co.,Industrials,141.14,2.12,20.33,6.900,26.668,107.15,143.37,92.345,8.1210,2.95,5.26,http://www.sec.gov/cgi-bin/browse-edgar?action...
1,ABT,Abbott Laboratories,Health Care,39.60,1.82,25.93,1.529,15.573,32.70,40.49,59.477,4.3590,2.74,2.55,http://www.sec.gov/cgi-bin/browse-edgar?action...
2,ABBV,AbbVie Inc.,Health Care,53.95,3.02,20.87,2.570,2.954,40.10,54.78,85.784,7.1900,4.48,18.16,http://www.sec.gov/cgi-bin/browse-edgar?action...
3,ACN,Accenture,Information Technology,79.79,2.34,19.53,4.068,8.326,69.00,85.88,50.513,4.4230,1.75,9.54,http://www.sec.gov/cgi-bin/browse-edgar?action...
4,ACE,ACE Limited,Financials,102.91,2.21,10.00,10.293,86.897,84.73,104.07,34.753,4.2750,1.79,1.18,http://www.sec.gov/cgi-bin/browse-edgar?action...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,YHOO,Yahoo Inc.,Information Technology,35.02,,28.94,1.199,12.768,23.82,41.72,35.258,0.8873,7.48,2.72,http://www.sec.gov/cgi-bin/browse-edgar?action...
496,YUM,Yum! Brands Inc,Consumer Discretionary,74.77,1.93,29.86,2.507,5.147,64.08,79.70,33.002,2.8640,2.49,14.55,http://www.sec.gov/cgi-bin/browse-edgar?action...
497,ZMH,Zimmer Holdings,Health Care,101.84,0.81,22.92,4.441,37.181,74.55,108.33,17.091,1.6890,3.68,2.74,http://www.sec.gov/cgi-bin/browse-edgar?action...
498,ZION,Zions Bancorp,Financials,28.43,0.56,18.82,1.511,30.191,26.39,33.33,5.257,0.0000,2.49,0.94,http://www.sec.gov/cgi-bin/browse-edgar?action...


количество строк

In [77]:
pd.read_csv(filepath_or_buffer = "../data/sp500.csv",
           sep = ',',
           nrows = 3)

Unnamed: 0,Symbol,Name,Sector,Price,Dividend Yield,Price/Earnings,Earnings/Share,Book Value,52 week low,52 week high,Market Cap,EBITDA,Price/Sales,Price/Book,SEC Filings
0,MMM,3M Co.,Industrials,141.14,2.12,20.33,6.9,26.668,107.15,143.37,92.345,8.121,2.95,5.26,http://www.sec.gov/cgi-bin/browse-edgar?action...
1,ABT,Abbott Laboratories,Health Care,39.6,1.82,25.93,1.529,15.573,32.7,40.49,59.477,4.359,2.74,2.55,http://www.sec.gov/cgi-bin/browse-edgar?action...
2,ABBV,AbbVie Inc.,Health Care,53.95,3.02,20.87,2.57,2.954,40.1,54.78,85.784,7.19,4.48,18.16,http://www.sec.gov/cgi-bin/browse-edgar?action...


столбцы

In [78]:
pd.read_csv(filepath_or_buffer = "../data/sp500.csv",
           sep = ',',
           nrows = 3,
           usecols=['Symbol', 'Sector', 'Price', 'Book Value'])

Unnamed: 0,Symbol,Sector,Price,Book Value
0,MMM,Industrials,141.14,26.668
1,ABT,Health Care,39.6,15.573
2,ABBV,Health Care,53.95,2.954


индекс

In [79]:
pd.read_csv(filepath_or_buffer = "../data/sp500.csv",
           sep = ',',
           nrows = 3,
           usecols=['Symbol', 'Sector', 'Price', 'Book Value'],
           index_col='Symbol')

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954


итератор

In [80]:
df_chunk = pd.read_csv(filepath_or_buffer = "../data/sp500.csv",
                       sep = ',',
                       chunksize=50,
                       usecols=['Symbol', 'Sector', 'Price', 'Book Value'],
                       index_col='Symbol')

In [81]:
for df_tmp in df_chunk:
    print('DataFrame part:', df_tmp.shape)   

DataFrame part: (50, 3)
DataFrame part: (50, 3)
DataFrame part: (50, 3)
DataFrame part: (50, 3)
DataFrame part: (50, 3)
DataFrame part: (50, 3)
DataFrame part: (50, 3)
DataFrame part: (50, 3)
DataFrame part: (50, 3)
DataFrame part: (50, 3)


In [82]:
sp500 = pd.read_csv(filepath_or_buffer = "../data/sp500.csv",
                    sep = ',',
                    usecols=['Symbol', 'Sector', 'Price', 'Book Value'],
                    index_col='Symbol')
sp500

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.60,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897
...,...,...,...
YHOO,Information Technology,35.02,12.768
YUM,Consumer Discretionary,74.77,5.147
ZMH,Health Care,101.84,37.181
ZION,Financials,28.43,30.191


### Свойства

#### создаем Series для примеров

In [83]:
Simpsons = pd.Series({'Homer': 120,
                      'Marge': 60,
                      'Bart': 35,
                      'Lisa': 30,
                      'Maggie': 7})

Simpsons

Homer     120
Marge      60
Bart       35
Lisa       30
Maggie      7
dtype: int64

In [84]:
np.random.seed(123)
numbers = pd.Series(data = np.random.normal(size=10),
                    index = np.arange(25,35))
numbers

25   -1.085631
26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
30    1.651437
31   -2.426679
32   -0.428913
33    1.265936
34   -0.866740
dtype: float64

#### тип данных

In [85]:
Simpsons.dtype

dtype('int64')

In [86]:
sp500.dtypes

Sector         object
Price         float64
Book Value    float64
dtype: object

#### количество элементов

Series:

In [87]:
print('Первый способ:', len(Simpsons))
print('Второй способ:', Simpsons.size)
print('Третий способ:', Simpsons.shape)

Первый способ: 5
Второй способ: 5
Третий способ: (5,)


DataFrame:

In [88]:
print('Первый способ:', len(sp500))
print('Второй способ:', sp500.size)
print('Третий способ:', sp500.shape)

Первый способ: 500
Второй способ: 1500
Третий способ: (500, 3)


#### количество уникальных элементов

In [89]:
Simpsons.nunique()

5

In [90]:
sp500.nunique()

Sector         13
Price         495
Book Value    495
dtype: int64

#### индекс и значения

Series:

In [91]:
Simpsons.index

Index(['Homer', 'Marge', 'Bart', 'Lisa', 'Maggie'], dtype='object')

In [92]:
Simpsons.values

array([120,  60,  35,  30,   7], dtype=int64)

DataFrame:

In [93]:
sp500.index

Index(['MMM', 'ABT', 'ABBV', 'ACN', 'ACE', 'ACT', 'ADBE', 'AES', 'AET', 'AFL',
       ...
       'XEL', 'XRX', 'XLNX', 'XL', 'XYL', 'YHOO', 'YUM', 'ZMH', 'ZION', 'ZTS'],
      dtype='object', name='Symbol', length=500)

In [94]:
sp500.values

array([['Industrials', 141.14, 26.668],
       ['Health Care', 39.6, 15.573],
       ['Health Care', 53.95, 2.954],
       ...,
       ['Health Care', 101.84, 37.181],
       ['Financials', 28.43, 30.191],
       ['Health Care', 30.53, 2.15]], dtype=object)

In [95]:
sp500.columns

Index(['Sector', 'Price', 'Book Value'], dtype='object')

#### присвоение / изменение имени

#####  объекта Series

In [96]:
Simpsons.name = 'Simpsons weight'
Simpsons

Homer     120
Marge      60
Bart       35
Lisa       30
Maggie      7
Name: Simpsons weight, dtype: int64

##### индекса

In [97]:
Simpsons.index.name = 'First name'
Simpsons

First name
Homer     120
Marge      60
Bart       35
Lisa       30
Maggie      7
Name: Simpsons weight, dtype: int64

##### столбца

In [98]:
sp500_copy = sp500.rename(columns = {'Book Value': 'BookValue'})

проверяем, не изменились ли имена столбцов в исходном датафрейме

In [99]:
sp500.columns

Index(['Sector', 'Price', 'Book Value'], dtype='object')

In [100]:
sp500_copy.columns

Index(['Sector', 'Price', 'BookValue'], dtype='object')

этот программный код переименовывает столбец на месте

In [101]:
sp500_copy.rename(columns = {'Book Value': 'BookValue'},
            inplace=True)

смотрим изменилось ли имя столбца

In [102]:
sp500_copy.columns

Index(['Sector', 'Price', 'BookValue'], dtype='object')

### Вывод значений

#### первые / последние строки

In [103]:
sp500.head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


In [104]:
Simpsons.tail(3)

First name
Bart      35
Lisa      30
Maggie     7
Name: Simpsons weight, dtype: int64

#### столбцы 

извлекаем столбец Sector

In [105]:
sp500['Sector'].head()

Symbol
MMM                Industrials
ABT                Health Care
ABBV               Health Care
ACN     Information Technology
ACE                 Financials
Name: Sector, dtype: object

тип столбца датафрейма:

In [106]:
type(sp500['Sector'])

pandas.core.series.Series

извлекаем столбцы Price и Book Value

In [107]:
sp500[['Price', 'Book Value']].head()

Unnamed: 0_level_0,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,141.14,26.668
ABT,39.6,15.573
ABBV,53.95,2.954
ACN,79.79,8.326
ACE,102.91,86.897


покажем, что результат является объектом DataFrame

In [108]:
type(sp500[['Price', 'Book Value']])

pandas.core.frame.DataFrame

атрибутивный доступ к столбцу по имени

In [109]:
sp500.Price.head()

Symbol
MMM     141.14
ABT      39.60
ABBV     53.95
ACN      79.79
ACE     102.91
Name: Price, dtype: float64

пример с названием "Book Value"

In [110]:
sp500.Book Value

SyntaxError: invalid syntax (Temp/ipykernel_12576/1239945967.py, line 1)

#### строки

##### по метке 

**Series**

In [150]:
numbers.loc[[25,33]]

25   -1.085631
33    1.265936
dtype: float64

In [155]:
numbers.loc['25']

KeyError: '25'

ошибка - нет метки

In [156]:
numbers.loc[0]

KeyError: 0

**DataFrame**

получаем строку с меткой индекса MMM,которая возвращается в виде объекта Series

In [None]:
sp500.loc['MMM']

In [None]:
type(sp500.loc['MMM'])

получаем строки MMM и MSFT результатом будет объект DataFrame

In [None]:
sp500.loc[['MMM', 'MSFT']]

In [None]:
type(sp500.loc[['MMM', 'MSFT']])

##### по позиции

**Series** 

In [None]:
numbers

по позиции

In [None]:
numbers.iloc[[5,-5]]

ошибка:

In [None]:
numbers.iloc[10]

**DataFrame**

получаем строки, имеющие позиции 0 и 2

In [None]:
sp500.iloc[[0, 2]]

получаем позиции меток MMM и A в индексе

In [None]:
i1 = sp500.index.get_loc('MMM')
i2 = sp500.index.get_loc('A')
(i1, i2)

In [None]:
sp500.index.get_loc('ZTS')

и извлекаем строки

In [None]:
sp500.iloc[[i1, i2]]

#### поиск скалярного значения

ищем скалярное значение по метке строки и метке (имени) столбца

In [None]:
sp500.at['MMM', 'Price']

In [None]:
sp500.at['ABT', 'Price']

In [None]:
sp500.at['ZTS', 'Price']

ищем скалярное значение по позиции строки и позиции столбца; извлекаем значение в строке 0, столбце 1

In [None]:
sp500.iat[0, 1]

In [None]:
sp500.iat[1, 1]

In [None]:
sp500.iat[499, 1]

#### одновременный отбор строк и столбцов

отбираем строки с метками индекса ABT и ZTS для столбцов Sector и Price

In [None]:
sp500.loc[['ABT', 'ZTS']][['Sector', 'Price']]

In [None]:
sp500.loc[['ABT', 'ZTS'],['Sector', 'Price']]

определение номера позиций заданных меток

In [None]:
print(sp500.index.get_loc('ABT'),sp500.index.get_loc('ZTS')) 

отбор строк и столбцов по номеру позиций

In [None]:
sp500.iloc[[1,499],[0,1]]

#### транспонирование

In [None]:
sp500.head()

In [None]:
sp500.T.head()

#### переиндексация

ошибка:

In [154]:
sp500.loc[['MMM', 'ABBV', 'NEW VALUE']]

KeyError: "['NEW VALUE'] not in index"

делаем переиндексацию, задав метки MMM, ABBV и NEW VALUE

In [153]:
reindexed = sp500.reindex(index=['MMM', 'ABBV', 'NEW VALUE'])

обратите внимание, что все индексы, кромя перечисленных при вызове, удалены, а *NEW VALUE* содержит значения *NaN*

In [152]:
reindexed

NameError: name 'reindexed' is not defined

выполняем переиндексацию столбцов

In [None]:
sp500.reindex(columns=['Price', 'Book Value', 'NewCol']).head()

при этом можем заполнить отсутствующие значения константами вместо *NaN*

In [None]:
sp500.reindex(columns=['Price',
                       'Book Value',
                       'NewCol'],
              fill_value=0).head()

#### случайная подвыборка

отбираем три случайные строки

In [None]:
sp500.sample(n=3)

случайный отбор с возвращением

In [None]:
sp500.sample(frac=5, replace=True, random_state=777)

#### [настройки вывода](http://pandas.pydata.org/pandas-docs/stable/user_guide/options.html#available-options)

In [None]:
pd.options.display.max_rows

In [None]:
sp500

In [None]:
pd.options.display.max_rows = 10

In [None]:
sp500

In [None]:
pd.options.display.max_rows

### Срезы данных

#### Series

Задаём срез по правилу: [начальная позиция: конечная позиция: величина шага], при этом:
- Правая граница - не включается
- Шаг может быть отрицательным
- Позиция также может быть отрицательной - тогда отсчёт происходит "с другого конца"
- Нумерация происходит от нуля

In [None]:
numbers

срез, содержащий элементы с позициями от 1 по 5

In [None]:
numbers.iloc[1:6]

выбираем элементы в позициях 1, 3, 5 == выбираем элементы с 1 по 5 позицию с шагом 2

In [None]:
numbers.iloc[1:6:2]

можем оставить только конечную позицию

In [None]:
numbers.iloc[:6]

либо оставим только начальную позицию

In [None]:
numbers.iloc[3:]

отбираем элементы Series в обратном порядке, начиная с 5

In [None]:
numbers.iloc[5::-1]

отбор 4 последних строк

In [None]:
numbers.iloc[-4:]

####  DataFrame

In [None]:
sp500.iloc[:5]

в обратном порядке

In [None]:
sp500.iloc[4::-1]

строки, начиная с метки ABT и заканчивая меткой ACN

In [None]:
sp500.loc['ABT':'ACN']

### Копирование и ссылки

In [None]:
numbers

элементы с 1 по 4

In [None]:
numbers.iloc[[1,2,3,4]]

сохранили в переменную n

In [None]:
n = numbers.iloc[[1,2,3,4]]

In [None]:
n

присваиваем значение 0 всем элементам

In [None]:
n.loc[:] = 0
n

что-нибудь произошло с numbers?

In [None]:
numbers

еще раз сохраним первые 4 элемента

In [None]:
n = numbers.iloc[[1,2,3,4]]
n

создаем переменную k = срез с 1 по 4 элемент

In [None]:
k = numbers[1:5]
k.loc[:] = 0
k

In [111]:
numbers

25   -1.085631
26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
30    1.651437
31   -2.426679
32   -0.428913
33    1.265936
34   -0.866740
dtype: float64

воcстановили numbers

In [112]:
numbers[1:5] = n
numbers

NameError: name 'n' is not defined

###  Удаление 

#### del

Series

In [None]:
Simpsons

In [None]:
Simpsons_copy = Simpsons.copy()
del Simpsons_copy['Maggie']
Simpsons_copy

DataFrame

In [None]:
sp500.head()

In [None]:
sp500_copy = sp500.copy()
del sp500_copy['Price']
sp500_copy.iloc[:2]

#### pop 

In [None]:
sp500_copy = sp500.copy()

In [None]:
sp500_copy.head(3)

эта строка удалит столбец Sector и возвратит его как серию

In [None]:
popped_column = sp500_copy.pop('Sector')

столбец Sector удален на месте

In [None]:
sp500_copy.head(3)

и у нас есть столбец Sector, полученный в результате применения pop

In [None]:
popped_column.head(3)

Для Series применение .pop идентично

#### drop 

In [None]:
sp500_copy = sp500.copy()

In [None]:
sp500_copy.head(3)

- эта строка вернет новый датафрейм с удаленным столбцом 'Sector’
- копия датафрейма не изменится

In [None]:
sp500_copy_after_drop = sp500_copy.drop(['Sector'], axis = 1)
sp500_copy_after_drop.head(3)

In [None]:
sp500_copy.head(3)

получаем копию первых 5 строк датафрейма data

In [None]:
sp500_part_copy = sp500.iloc[:5].copy()
sp500_part_copy

удаляем строки с метками ABT и ACN

In [None]:
sp500_part_copy = sp500_part_copy.drop(['ABT', 'ACN'], axis=0)
sp500_part_copy.head(5)

Для Series применение .drop идентично

### Фильтрация по условию

#### Series 

In [None]:
numbers

какие строки имеют значения больше 0 и меньше 1?

In [None]:
logical_results = (numbers > 0) & (numbers < 1)
logical_results

Скобки!!! Следующий программный код приведет к выдаче исключения
```python
numbers > 0 & numbers < 1 
```

тип полученного результата - Series, который можно использовать для отбора интерсующих нас значений

In [None]:
type(logical_results)

отбираем строки со значением True

In [None]:
numbers[logical_results]

использование метода .where

In [None]:
numbers.where((numbers > 0) & (numbers < 1))

In [None]:
numbers.where((numbers > 0) & (numbers < 1), other = -1)

все ли элементы >= 0?

In [None]:
(numbers >= 0).all()

есть ли элемент < 2?

In [113]:
(numbers < 2).any()

True

сколько значений < 1?

In [114]:
numbers < 1

25     True
26     True
27     True
28     True
29     True
30    False
31     True
32     True
33    False
34     True
dtype: bool

In [115]:
(numbers < 1).sum()

8

#### DataFrame

какие строки имеют значения Price < 100?

In [116]:
sp500.Price < 100

Symbol
MMM     False
ABT      True
ABBV     True
ACN      True
ACE     False
        ...  
YHOO     True
YUM      True
ZMH     False
ZION     True
ZTS      True
Name: Price, Length: 500, dtype: bool

теперь получим строки, в которых Price < 100

In [117]:
sp500[sp500.Price < 100]

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ABT,Health Care,39.60,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ADBE,Information Technology,64.30,13.262
AES,Utilities,13.61,5.781
...,...,...,...
XYL,Industrials,38.42,12.127
YHOO,Information Technology,35.02,12.768
YUM,Consumer Discretionary,74.77,5.147
ZION,Financials,28.43,30.191


извлекаем лишь те строки, в которых значение Price < 10 и > 6

In [118]:
r = sp500[(sp500['Price'] < 10) & 
          (sp500.Price > 6)] ['Price']
r

Symbol
HCBK    9.80
HBAN    9.10
SLM     8.82
WIN     9.38
Name: Price, dtype: float64

извлекаем строки, в которых переменная Sector принимает значение Health Care, а переменная Price больше или равна 100.00

In [119]:
r = sp500[(sp500.Sector == 'Health Care') & 
          (sp500.Price >= 100.00)] [['Price', 'Sector']]
r

Unnamed: 0_level_0,Price,Sector
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ACT,213.77,Health Care
ALXN,162.3,Health Care
AGN,166.92,Health Care
AMGN,114.33,Health Care
BCR,146.62,Health Care
BDX,115.7,Health Care
BIIB,299.71,Health Care
CELG,150.13,Health Care
HUM,124.49,Health Care
ISRG,363.86,Health Care


использование метода .isin

In [120]:
s_tmp = sp500.Sector.isin(['Information Technology', 'Financials'])
s_tmp

Symbol
MMM     False
ABT     False
ABBV    False
ACN      True
ACE      True
        ...  
YHOO     True
YUM     False
ZMH     False
ZION     True
ZTS     False
Name: Sector, Length: 500, dtype: bool

In [121]:
sp500[sp500.Sector.isin(['Information Technology', 'Financials'])].head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897
ADBE,Information Technology,64.3,13.262
AFL,Financials,61.31,34.527
AKAM,Information Technology,53.65,15.193


In [122]:
sp500[s_tmp].head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897
ADBE,Information Technology,64.3,13.262
AFL,Financials,61.31,34.527
AKAM,Information Technology,53.65,15.193


использование метода .query

In [123]:
r = sp500[(sp500.Sector == 'Health Care') & 
          (sp500.Price >= 100.00)] [['Price', 'Sector']]
r

Unnamed: 0_level_0,Price,Sector
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ACT,213.77,Health Care
ALXN,162.3,Health Care
AGN,166.92,Health Care
AMGN,114.33,Health Care
BCR,146.62,Health Care
BDX,115.7,Health Care
BIIB,299.71,Health Care
CELG,150.13,Health Care
HUM,124.49,Health Care
ISRG,363.86,Health Care


In [124]:
q = sp500.query("Sector=='Health Care' & Price >= 100")[['Price', 'Sector']]
q

Unnamed: 0_level_0,Price,Sector
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ACT,213.77,Health Care
ALXN,162.3,Health Care
AGN,166.92,Health Care
AMGN,114.33,Health Care
BCR,146.62,Health Care
BDX,115.7,Health Care
BIIB,299.71,Health Care
CELG,150.13,Health Care
HUM,124.49,Health Care
ISRG,363.86,Health Care


### Добавление 

#### оператор [ ] 

создаем копию, чтобы исходные данные остались в неизменном виде

In [125]:
sp500_copy = sp500.copy()

добавляем столбец

In [126]:
sp500_copy['RoundedPrice'] = sp500_copy.Price.round()
sp500_copy.head(3)

Unnamed: 0_level_0,Sector,Price,Book Value,RoundedPrice
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
MMM,Industrials,141.14,26.668,141.0
ABT,Health Care,39.6,15.573,40.0
ABBV,Health Care,53.95,2.954,54.0


#### метод .insert()

создаем копию, чтобы исходные данные остались в неизменном виде

In [127]:
sp500_copy = sp500.copy()

вставляем столбец RoundedPrice в качестве третьего столбца датафрейма

In [128]:
sp500_copy.insert(2, 'RoundedPrice', sp500_copy.Price.round())
sp500_copy.head(3)

Unnamed: 0_level_0,Sector,Price,RoundedPrice,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
MMM,Industrials,141.14,141.0,26.668
ABT,Health Care,39.6,40.0,15.573
ABBV,Health Care,53.95,54.0,2.954


#### метод .assign() 

создаем копию, чтобы исходные данные остались в неизменном виде

In [129]:
sp500_copy = sp500.copy()

одновременное добавление двух столбцов:

In [130]:
sp500_copy.assign(Rounded_Price=sp500_copy.Price.round(),
                  R_BookValue_Price=lambda x: (x['Book Value'] / x['Rounded_Price']))

Unnamed: 0_level_0,Sector,Price,Book Value,Rounded_Price,R_BookValue_Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
MMM,Industrials,141.14,26.668,141.0,0.189135
ABT,Health Care,39.60,15.573,40.0,0.389325
ABBV,Health Care,53.95,2.954,54.0,0.054704
ACN,Information Technology,79.79,8.326,80.0,0.104075
ACE,Financials,102.91,86.897,103.0,0.843660
...,...,...,...,...,...
YHOO,Information Technology,35.02,12.768,35.0,0.364800
YUM,Consumer Discretionary,74.77,5.147,75.0,0.068627
ZMH,Health Care,101.84,37.181,102.0,0.364520
ZION,Financials,28.43,30.191,28.0,1.078250


### Выравнивание данных

#### Series 

первая серия для примеров

In [131]:
s_1 = pd.Series(data=[77,33,11],index=['a','b','f'])
s_1

a    77
b    33
f    11
dtype: int64

вторая серия для примеров

In [132]:
s_2 = pd.Series(data=[11,5,6],index=['c','b','a'])
s_2

c    11
b     5
a     6
dtype: int64

для непересекающейся части индексов будут получены значения NaN

In [133]:
s_1+s_2

a    83.0
b    38.0
c     NaN
f     NaN
dtype: float64

метки не обязательно должны быть уникальными

In [134]:
s_1 = pd.Series(data=[77, 33, 15, 3], index=['a', 'a', 'a', 'd'])
s_1

a    77
a    33
a    15
d     3
dtype: int64

In [135]:
s_2 = pd.Series(data=[11, 5, 6], index=['c', 'a', 'a'])
s_2

c    11
a     5
a     6
dtype: int64

3 метки 'а' и 2 метки 'а', результат 6 меток а

In [136]:
s_2+s_1

a    82.0
a    38.0
a    20.0
a    83.0
a    39.0
a    21.0
c     NaN
d     NaN
dtype: float64

#### DataFrame

In [137]:
sp500_part_1 = sp500.iloc[0:5, 0:2].copy()
sp500_part_2 = sp500.iloc[2:7, 1:3].copy()

In [138]:
sp500_part_1

Unnamed: 0_level_0,Sector,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,Industrials,141.14
ABT,Health Care,39.6
ABBV,Health Care,53.95
ACN,Information Technology,79.79
ACE,Financials,102.91


In [139]:
sp500_part_2

Unnamed: 0_level_0,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ABBV,53.95,2.954
ACN,79.79,8.326
ACE,102.91,86.897
ACT,213.77,55.188
ADBE,64.3,13.262


In [140]:
sp500_part_1 + sp500_part_2

Unnamed: 0_level_0,Book Value,Price,Sector
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ABBV,,107.9,
ABT,,,
ACE,,205.82,
ACN,,159.58,
ACT,,,
ADBE,,,
MMM,,,


происходит выравнивание при создании датафрейма

In [141]:
series_1 = pd.Series([70, 90])
series_2 = pd.Series([71, 91])
series_3 = pd.Series([85, 87], index=[1, 2])
df = pd.DataFrame({'col_1': series_1,
                   'col_2': series_2,
                   'col_3': series_3})
df

Unnamed: 0,col_1,col_2,col_3
0,70.0,71.0,
1,90.0,91.0,85.0
2,,,87.0


### Сортировка

#### по индексу 

In [142]:
sp500.head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


In [143]:
sp500.sort_index().head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,Health Care,56.18,16.928
AA,Materials,13.52,9.67
AAPL,Information Technology,614.13,139.46
ABBV,Health Care,53.95,2.954
ABC,Health Care,71.64,9.43


In [144]:
sp500.sort_index(axis=1).head()

Unnamed: 0_level_0,Book Value,Price,Sector
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,26.668,141.14,Industrials
ABT,15.573,39.6,Health Care
ABBV,2.954,53.95,Health Care
ACN,8.326,79.79,Information Technology
ACE,86.897,102.91,Financials


In [145]:
sp500.sort_index(axis=0).head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,Health Care,56.18,16.928
AA,Materials,13.52,9.67
AAPL,Information Technology,614.13,139.46
ABBV,Health Care,53.95,2.954
ABC,Health Care,71.64,9.43


#### по значению

In [146]:
sp500.sort_values(by='Price').head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BEAM,Consumer Discretionary,0.0,
FTR,Telecommunications Services,5.81,3.989
SLM,Financials,8.82,11.895
HBAN,Financials,9.1,6.995
WIN,Telecommunications Services,9.38,1.199


In [147]:
sp500.sort_values(by='Price', ascending=False).head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
PCLN,Industrials,1197.12,137.886
GHC,Consumer Discretionary,677.29,0.0
AAPL,Information Technology,614.13,139.46
GOOG,Information Technology,552.7,135.977
AZO,Consumer Discretionary,540.9,-51.275


#### наименьшее / наибольшее значение

In [148]:
sp500.nsmallest(5, 'Price')

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BEAM,Consumer Discretionary,0.0,
FTR,Telecommunications Services,5.81,3.989
SLM,Financials,8.82,11.895
HBAN,Financials,9.1,6.995
WIN,Telecommunications Services,9.38,1.199


In [149]:
sp500.nlargest(5, 'Price')

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
PCLN,Industrials,1197.12,137.886
GHC,Consumer Discretionary,677.29,0.0
AAPL,Information Technology,614.13,139.46
GOOG,Information Technology,552.7,135.977
AZO,Consumer Discretionary,540.9,-51.275
