 Полезные ссылки
 * https://pythonworld.ru/obrabotka-dannyx/pandas-cookbook-0-ipython.html
 * https://khashtamov.com/ru/pandas-introduction/
 * https://pandas.pydata.org/docs/user_guide/index.html

## Первичный анализ данных в Python 1: Практика
### Темы:
#### 1. Структуры данных
#### 2. Работа с индексами и типами
#### 3. Чистка данных
#### 4. Математические операции

In [7]:
import pandas as pd
import numpy as np

для колаба

In [None]:
# !wget https://www.dropbox.com/s/pb6lb2s6fe15wri/iris.csv

In [None]:
# from google.colab import files
# uploaded = files.upload()

In [6]:
df1 = pd.read_csv('iris.csv', sep=",")
df1

Unnamed: 0,"""sepal.length"",""sepal.width"",""petal.length"",""petal.width"",""variety"""
0,"5.1,3.5,1.4,.2,""Setosa"""
1,"4.9,3,1.4,.2,""Setosa"""
2,"4.7,3.2,1.3,.2,""Setosa"""
3,"4.6,3.1,1.5,.2,""Setosa"""
4,"5,3.6,1.4,.2,""Setosa"""
...,...
145,"6.7,3,5.2,2.3,""Virginica"""
146,"6.3,2.5,5,1.9,""Virginica"""
147,"6.5,3,5.2,2,""Virginica"""
148,"6.2,3.4,5.4,2.3,""Virginica"""


---

## Структуры данных

В pandas существует два основных объекта: pandas Series и pandas DataFrame. Первая это по сути асбтракция над одномерным массивом данных с дополнительными метаданными, а вторая абстракция это по сути "таблица", состоящая из наборов pandas Series.

Начнем с pd.Series. Также, как и для numpy массива мы можем задать тип данных. Доступны все те же типы данных, что и в numpy + есть возможность конвертировать одни типы данных в другие с помощью astype + можно указывать [свои функции](https://pbpython.com/pandas_dtypes.html) для преобразования.

In [9]:
# Создадим Series с заданным типом(dtype), названием(name), индексами(index) и без них
s = pd.Series([1,2,3])
s

0    1
1    2
2    3
dtype: int64

In [12]:
s = pd.Series([0.2,2,2])
s

0    0.2
1    2.0
2    2.0
dtype: float64

In [13]:
s = pd.Series([1,2,3], dtype=np.float64, name='numbers')
s

0    1.0
1    2.0
2    3.0
Name: numbers, dtype: float64

Обратите внимание на колонку слева, это индекс, и если не указано обратное, он создается автоматически. Индексы мы будем встречать как для pd.Series, так и для pd.DataFrame. Что же он дает? Аналогия здесь такая же, что с телефонным справочником. Индексы позволяют более логично категоризовать информацию, а также более оптимально делать некоторые операции над сериями (pd.Series) и датафреймами (pd.DataFrame). Вкратце, можно отметить, что индексы
1. Идентифицируют данные (т.е. предоставляют метаданные) с помощью известных индикаторов, важных для анализа, визуализации и отображения в интерактивной консоли
2. Включают автоматическое и явное выравнивание данных.
3. Позволяют интуитивно получать и настраивать подмножества набора данных.

Помимо этого обратите внимание, что у серии также есть имя. Это полезно, когда нам нужно вставить новую колонку в DataFrame без явного указания имени.

Следующим образом мы можем задать произвольный индекс, теперь наши записи идентифицируют буквы a b c

In [16]:
s = pd.Series([1,2,3], dtype=np.int32, name='numbers', index=['a', 'b', 'c'])
s

a    1
b    2
c    3
Name: numbers, dtype: int32

### Создадим несколькими способами DataFrame

In [18]:
# Из листа с параметрами по умолчанию
data_list = [[10,11], [12, 13], [15,20]]
data_list

[[10, 11], [12, 13], [15, 20]]

In [23]:
df = pd.DataFrame([[1,3,5], [1,2,3], [4,5,6], [1,3,4]], index=[1,2,3,4], columns=["qw", "wc", "fvf"])
df

Unnamed: 0,qw,wc,fvf
1,1,3,5
2,1,2,3
3,4,5,6
4,1,3,4


In [32]:
df = pd.DataFrame(data = data_list)
df

Unnamed: 0,0,1
0,10,11
1,12,13
2,15,20


Но мы можем отказаться от всех метаданных и перейти к numpy матрице, чтобы работать с ней с помощью методов из библиотеки numpy

In [33]:
df = df.to_numpy()
df

array([[10, 11],
       [12, 13],
       [15, 20]], dtype=int64)

In [34]:
type(df)

numpy.ndarray

In [35]:
# Из листа с заданными индексами и столбцами
df = pd.DataFrame(
                [[10,11], [12, 13], [15,20]], 
                columns = ['A', 'D'], 
                index = ['first line', 'second line', 'third line'],
                )
df

Unnamed: 0,A,D
first line,10,11
second line,12,13
third line,15,20


In [39]:
df['D']

first line     11
second line    13
third line     20
Name: D, dtype: int64

In [40]:
df.A

first line     10
second line    12
third line     15
Name: A, dtype: int64

In [41]:
# Из словаря
d = {
    'name': ['Dmitry', 'Alexey', 'Vladimir', 'Elena'],
    'age': [24, 25, 30, 40]
}
pd.DataFrame(d)

Unnamed: 0,name,age
0,Dmitry,24
1,Alexey,25
2,Vladimir,30
3,Elena,40


In [42]:
# Из Series
series_1 = pd.Series([1, 2, 3])
series_2 = pd.Series([1, 2, 3])
df = pd.DataFrame([series_1, series_2])
df

Unnamed: 0,0,1,2
0,1,2,3
1,1,2,3


In [43]:
df.columns = ['col_1', 'col_2', 'col_3']
df

Unnamed: 0,col_1,col_2,col_3
0,1,2,3
1,1,2,3


In [44]:
df.index = ['ind_1', 'ind_2']
df

Unnamed: 0,col_1,col_2,col_3
ind_1,1,2,3
ind_2,1,2,3


In [52]:
# Загрузим из файла
df = pd.read_csv('iris.csv', sep = ',')
df
# nrows = 3 (из файла будет считано 3 строки)
# usecols = ['sepal.length', 'sepal.width'] (из файла будут считаны колонки 'sepal.length', 'sepal.width')
# index_col = ['variety'] (индексом станет колнка variety)
# chunksize  = 50 (считывание файла итерационно)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [82]:
df = pd.DataFrame(
                [[10,11], [12, 13], [12,20]], 
                columns = ['A', 'D'], 
                index = ['f', 's', 't'],
                )
s = pd.Series(["Anna","Max","Elena","Elena"])

### Давайте попытаемся получить какую-нибудь полезную информацию из загруженного датафрейма


In [55]:
df.head(150)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [56]:
s

0     Anna
1      Max
2    Elena
3    Elena
dtype: object

In [58]:
# Узнаем размер нашего датасета парой способов (len/size/shape)
len(df)

150

In [59]:
len(s)

4

In [60]:
df.size

750

In [61]:
s.size

4

In [74]:
a = df.shape


In [76]:
print(f'Кол-во строк {a[0]}')

Кол-во строк 150


In [77]:
s.shape

(4,)

In [79]:
s

0     Anna
1      Max
2    Elena
3    Elena
dtype: object

In [78]:
# Полезная функция .nunique !
s.nunique()

3

In [80]:
df.nunique()

sepal.length    35
sepal.width     23
petal.length    43
petal.width     22
variety          3
dtype: int64

In [84]:
df

Unnamed: 0,A,D
f,10,11
s,12,13
t,12,20


In [83]:
# Узнать индексы и значения
df.index

Index(['f', 's', 't'], dtype='object')

In [85]:
s.index

RangeIndex(start=0, stop=4, step=1)

In [86]:
df.columns # Только у DataFrame

Index(['A', 'D'], dtype='object')

In [87]:
df.values

array([[10, 11],
       [12, 13],
       [12, 20]], dtype=int64)

In [88]:
s.values

array(['Anna', 'Max', 'Elena', 'Elena'], dtype=object)

### Поговорим об обращениях к данным

По умолчанию colab notebook (или jupyter notebook) будет "обрезать" отображение табличек, так как если там много строк, они могут занимать много места, и привести ваш браузер в замешательство, а компьютер в полный аут.

In [89]:
m = np.random.rand(5,3)
df = pd.DataFrame(data=m, columns=['first', 'second', 'third'],)
df

Unnamed: 0,first,second,third
0,0.97978,0.925538,0.079802
1,0.930233,0.932565,0.503594
2,0.688146,0.446741,0.559693
3,0.718893,0.23445,0.536501
4,0.036837,0.030996,0.957796


In [90]:
pd.DataFrame(np.random.rand(100,2)) # так будет пропущено несколько строчек в целях экономии места

Unnamed: 0,0,1
0,0.890632,0.318378
1,0.646420,0.656571
2,0.068328,0.898470
3,0.810694,0.168129
4,0.889932,0.688660
...,...,...
95,0.536982,0.802182
96,0.066464,0.280748
97,0.324396,0.757980
98,0.948125,0.324944


Впрочем, вряд ли вам понадобится отсматривать, скажем, 100000 строк какой-нибудь таблицы вручную. Как правило, нам достаточно посмотреть первые несколько строк таблицы, чтобы понять что там находится, и правильно ли мы прочитали нашу таблицу из файла.

In [None]:
df.head(10) # покажем первые две строки датафрейма

Unnamed: 0,first,second,third
0,0.719402,0.456852,0.69355
1,0.152649,0.567509,0.333349
2,0.137142,0.758602,0.858672
3,0.134314,0.048748,0.271221
4,0.932392,0.594656,0.518358


In [None]:
df.tail(2) # последние две строчки с конца

Unnamed: 0,first,second,third
3,0.134314,0.048748,0.271221
4,0.932392,0.594656,0.518358


In [99]:
df.sample() #отбор с возвращением

Unnamed: 0,first,second,third
1,0.930233,0.932565,0.503594


In [106]:
df.sample(n=2)

Unnamed: 0,first,second,third
0,0.97978,0.925538,0.079802
3,0.718893,0.23445,0.536501


In [115]:
df.sample(frac=0.5)

Unnamed: 0,first,second,third
1,0.930233,0.932565,0.503594
3,0.718893,0.23445,0.536501


In [133]:
df.sample(n=4, replace = True, random_state=66)

Unnamed: 0,first,second,third
4,0.036837,0.030996,0.957796
4,0.036837,0.030996,0.957796
3,0.718893,0.23445,0.536501
2,0.688146,0.446741,0.559693


In [117]:
df

Unnamed: 0,first,second,third
0,0.97978,0.925538,0.079802
1,0.930233,0.932565,0.503594
2,0.688146,0.446741,0.559693
3,0.718893,0.23445,0.536501
4,0.036837,0.030996,0.957796


In [None]:
df

Unnamed: 0,first,second,third
0,0.719402,0.456852,0.69355
1,0.152649,0.567509,0.333349
2,0.137142,0.758602,0.858672
3,0.134314,0.048748,0.271221
4,0.932392,0.594656,0.518358


In [135]:
# Обращения к столбцам
df['second']

0    0.925538
1    0.932565
2    0.446741
3    0.234450
4    0.030996
Name: second, dtype: float64

In [137]:
df[['first','second']]

Unnamed: 0,first,second
0,0.97978,0.925538
1,0.930233,0.932565
2,0.688146,0.446741
3,0.718893,0.23445
4,0.036837,0.030996


In [139]:
df.second # Атрибутивный метод

0    0.925538
1    0.932565
2    0.446741
3    0.234450
4    0.030996
Name: second, dtype: float64

In [146]:
s = pd.Series([1, 2, 3, 4, 5], index=['w','e','r','t', 'n'])
s

w    1
e    2
r    3
t    4
n    5
dtype: int64

In [153]:
# Обращение к строкам по индексу
s.iloc[4]

5

In [148]:
df

Unnamed: 0,first,second,third
0,0.97978,0.925538,0.079802
1,0.930233,0.932565,0.503594
2,0.688146,0.446741,0.559693
3,0.718893,0.23445,0.536501
4,0.036837,0.030996,0.957796


In [149]:
df.loc[0]

first     0.979780
second    0.925538
third     0.079802
Name: 0, dtype: float64

In [150]:
df.loc[[0,1,2]]

Unnamed: 0,first,second,third
0,0.97978,0.925538,0.079802
1,0.930233,0.932565,0.503594
2,0.688146,0.446741,0.559693


In [None]:
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [None]:
# Обращение к строкам по позиции
s.iloc[1]

2

In [154]:
s.iloc[-1]

5

In [None]:
df


Unnamed: 0,first,second,third
0,0.719402,0.456852,0.69355
1,0.152649,0.567509,0.333349
2,0.137142,0.758602,0.858672
3,0.134314,0.048748,0.271221
4,0.932392,0.594656,0.518358


In [None]:
df.iloc[0]

first     0.719402
second    0.456852
third     0.693550
Name: 0, dtype: float64

In [None]:
df.iloc[[0,2]]

Unnamed: 0,first,second,third
0,0.719402,0.456852,0.69355
2,0.137142,0.758602,0.858672


In [None]:
df

Unnamed: 0,first,second,third
0,0.719402,0.456852,0.69355
1,0.152649,0.567509,0.333349
2,0.137142,0.758602,0.858672
3,0.134314,0.048748,0.271221
4,0.932392,0.594656,0.518358


In [156]:
df

Unnamed: 0,first,second,third
0,0.97978,0.925538,0.079802
1,0.930233,0.932565,0.503594
2,0.688146,0.446741,0.559693
3,0.718893,0.23445,0.536501
4,0.036837,0.030996,0.957796


In [155]:
# Обращение к конкретной ячейке at[]/iat[]
# по метке строки и метке (имени) столбца
df.at[0,'first']

0.979780037689711

In [157]:
# по позиции строки и позиции столбца; извлекаем значение в строке 0, столбце 1
df.iat[0,0]

0.979780037689711

In [158]:
df

Unnamed: 0,first,second,third
0,0.97978,0.925538,0.079802
1,0.930233,0.932565,0.503594
2,0.688146,0.446741,0.559693
3,0.718893,0.23445,0.536501
4,0.036837,0.030996,0.957796


In [160]:
# одновременный отбор (отбираем строки с метками индекса 0 и 1 для столбцов first и second)
df.loc[[0,1],['second']]

Unnamed: 0,second
0,0.925538
1,0.932565


In [161]:
# отбор строк и столбцов по номеру позиций
df.iloc[[0,1],[0,1]]

Unnamed: 0,first,second
0,0.97978,0.925538
1,0.930233,0.932565


In [162]:
# транспонирование
df

Unnamed: 0,first,second,third
0,0.97978,0.925538,0.079802
1,0.930233,0.932565,0.503594
2,0.688146,0.446741,0.559693
3,0.718893,0.23445,0.536501
4,0.036837,0.030996,0.957796


In [163]:
df.T

Unnamed: 0,0,1,2,3,4
first,0.97978,0.930233,0.688146,0.718893,0.036837
second,0.925538,0.932565,0.446741,0.23445,0.030996
third,0.079802,0.503594,0.559693,0.536501,0.957796


### Срезы данных

#### Series

Задаём срез по правилу: [начальная позиция: конечная позиция: величина шага], при этом:
- Правая граница - не включается
- Шаг может быть отрицательным
- Позиция также может быть отрицательной - тогда отсчёт происходит "с другого конца"
- Нумерация происходит от нуля

* loc выбирает строки и столбцы с определенными метками
* iloc выбирает строки и столбцы в определенных целочисленных позициях

In [None]:
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

срез, содержащий элементы с позициями от 1 по 3

In [None]:
s.iloc[1:4]

1    2
2    3
3    4
dtype: int64

выбираем элементы в позициях 1, 3 == выбираем элементы с 1 по 4 позицию с шагом 2

In [None]:
s.iloc[1:5:2]

1    2
3    4
dtype: int64

можем убрать только последнюю позицию

In [None]:
s.iloc[:4]

0    1
1    2
2    3
3    4
dtype: int64

либо уберем только первую позицию

In [None]:
s.iloc[1:]

1    2
2    3
3    4
4    5
dtype: int64

отбираем элементы Series в обратном порядке, начиная с 5

In [None]:
s.iloc[5::-1]

4    5
3    4
2    3
1    2
0    1
dtype: int64

отбор 2 последних строк

In [None]:
s.iloc[-2:]

3    4
4    5
dtype: int64

####  DataFrame

In [None]:
df

Unnamed: 0,first,second,third
0,0.719402,0.456852,0.69355
1,0.152649,0.567509,0.333349
2,0.137142,0.758602,0.858672
3,0.134314,0.048748,0.271221
4,0.932392,0.594656,0.518358


In [None]:
df.iloc[:3]

Unnamed: 0,first,second,third
0,0.719402,0.456852,0.69355
1,0.152649,0.567509,0.333349
2,0.137142,0.758602,0.858672


в обратном порядке

In [None]:
df.iloc[3::-1]

Unnamed: 0,first,second,third
3,0.134314,0.048748,0.271221
2,0.137142,0.758602,0.858672
1,0.152649,0.567509,0.333349
0,0.719402,0.456852,0.69355


строки, так же по меткам индекса



In [None]:
df.loc[0:3]

Unnamed: 0,first,second,third
0,0.719402,0.456852,0.69355
1,0.152649,0.567509,0.333349
2,0.137142,0.758602,0.858672
3,0.134314,0.048748,0.271221


###  Удаление 

#### del

In [None]:
df = pd.read_csv(filepath_or_buffer = "./sp500.csv",
                    sep = ',',
                    usecols=['Symbol', 'Sector', 'Price', 'Book Value'],
                    index_col='Symbol')
df

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.60,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897
...,...,...,...
YHOO,Information Technology,35.02,12.768
YUM,Consumer Discretionary,74.77,5.147
ZMH,Health Care,101.84,37.181
ZION,Financials,28.43,30.191


In [None]:
s = pd.Series({'Homer': 120,
                      'Marge': 60,
                      'Bart': 35,
                      'Lisa': 30,
                      'Maggie': 7})
s

Homer     120
Marge      60
Bart       35
Lisa       30
Maggie      7
dtype: int64

Series

In [None]:
s_copy = s.copy()
del s_copy['Maggie']
s_copy

Homer    120
Marge     60
Bart      35
Lisa      30
dtype: int64

DataFrame

In [None]:
df.head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


In [None]:
df_copy = df.copy()
del df_copy['Price']
df_copy.head()

Unnamed: 0_level_0,Sector,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,Industrials,26.668
ABT,Health Care,15.573
ABBV,Health Care,2.954
ACN,Information Technology,8.326
ACE,Financials,86.897


#### pop 

In [None]:
df_copy = df.copy()

In [None]:
df_copy.head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


эта строка удалит столбец Sector и возвратит его как серию

In [None]:
popped_column = df_copy.pop('Sector')

In [None]:
popped_column

Symbol
MMM                Industrials
ABT                Health Care
ABBV               Health Care
ACN     Information Technology
ACE                 Financials
                 ...          
YHOO    Information Technology
YUM     Consumer Discretionary
ZMH                Health Care
ZION                Financials
ZTS                Health Care
Name: Sector, Length: 500, dtype: object

столбец Sector удален на месте

In [None]:
df_copy.head(3)

Unnamed: 0_level_0,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,141.14,26.668
ABT,39.6,15.573
ABBV,53.95,2.954


и у нас есть столбец Sector, полученный в результате применения pop

In [None]:
popped_column.head()

Symbol
MMM                Industrials
ABT                Health Care
ABBV               Health Care
ACN     Information Technology
ACE                 Financials
Name: Sector, dtype: object

Для Series применение .pop идентично

#### drop 

In [None]:
df_copy = df.copy()

In [None]:
df_copy.head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


- эта строка вернет новый датафрейм с удаленным столбцом 'Sector’
- копия датафрейма не изменится

In [None]:
df_copy_after_drop = df_copy.drop(['Sector'], axis = 1)
df_copy_after_drop.head()

Unnamed: 0_level_0,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,141.14,26.668
ABT,39.6,15.573
ABBV,53.95,2.954
ACN,79.79,8.326
ACE,102.91,86.897


In [None]:
df_copy.head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


получаем копию первых 5 строк датафрейма data

In [None]:
df_part_copy = df.iloc[:5].copy()
df_part_copy

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


удаляем строки с метками ABT и ACN

In [None]:
df_part_copy = df_part_copy.drop(['ABT', 'ACN'], axis=0)
df_part_copy.head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABBV,Health Care,53.95,2.954
ACE,Financials,102.91,86.897


Для Series применение .drop идентично

### Фильтрация по условию

#### Series 

In [None]:
np.random.seed(12)
numbers = pd.Series(data = np.random.normal(size=10),
                    index = np.arange(25,35))
numbers

25    0.472986
26   -0.681426
27    0.242439
28   -1.700736
29    0.753143
30   -1.534721
31    0.005127
32   -0.120228
33   -0.806982
34    2.871819
dtype: float64

какие строки имеют значения больше 0 и меньше 1?

In [None]:
logical_results = (numbers > 0) & (numbers < 1) 
logical_results

25     True
26    False
27     True
28    False
29     True
30    False
31     True
32    False
33    False
34    False
dtype: bool

тип полученного результата - Series, который можно использовать для отбора интерсующих нас значений

In [None]:
type(logical_results)

pandas.core.series.Series

отбираем строки со значением True

In [None]:
numbers[logical_results]

25    0.472986
27    0.242439
29    0.753143
31    0.005127
dtype: float64

использование метода .where

In [None]:
numbers.where((numbers > 0) & (numbers < 1))

25    0.472986
26         NaN
27    0.242439
28         NaN
29    0.753143
30         NaN
31    0.005127
32         NaN
33         NaN
34         NaN
dtype: float64

In [None]:
numbers.where((numbers > 0) & (numbers < 1), other = -1)

25    0.472986
26   -1.000000
27    0.242439
28   -1.000000
29    0.753143
30   -1.000000
31    0.005127
32   -1.000000
33   -1.000000
34   -1.000000
dtype: float64

все ли элементы >= 0?

In [None]:
numbers

25    0.472986
26   -0.681426
27    0.242439
28   -1.700736
29    0.753143
30   -1.534721
31    0.005127
32   -0.120228
33   -0.806982
34    2.871819
dtype: float64

In [None]:
(numbers >= 0).all()

False

есть ли элемент < 2?

In [None]:
(numbers < 2).any()

True

сколько значений < 1?

In [None]:
numbers < 1

25     True
26     True
27     True
28     True
29     True
30     True
31     True
32     True
33     True
34    False
dtype: bool

In [None]:
(numbers < 1).sum()

9

#### DataFrame

какие строки имеют значения Price < 100?

In [None]:
df.Price

Symbol
MMM     141.14
ABT      39.60
ABBV     53.95
ACN      79.79
ACE     102.91
         ...  
YHOO     35.02
YUM      74.77
ZMH     101.84
ZION     28.43
ZTS      30.53
Name: Price, Length: 500, dtype: float64

In [None]:
df.Price < 100

Symbol
MMM     False
ABT      True
ABBV     True
ACN      True
ACE     False
        ...  
YHOO     True
YUM      True
ZMH     False
ZION     True
ZTS      True
Name: Price, Length: 500, dtype: bool

теперь получим строки, в которых Price < 100

In [None]:
df[df.Price < 100]

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ABT,Health Care,39.60,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ADBE,Information Technology,64.30,13.262
AES,Utilities,13.61,5.781
...,...,...,...
XYL,Industrials,38.42,12.127
YHOO,Information Technology,35.02,12.768
YUM,Consumer Discretionary,74.77,5.147
ZION,Financials,28.43,30.191


извлекаем лишь те строки, в которых значение Price < 10 и > 6

In [None]:
df['Price']

Symbol
MMM     141.14
ABT      39.60
ABBV     53.95
ACN      79.79
ACE     102.91
         ...  
YHOO     35.02
YUM      74.77
ZMH     101.84
ZION     28.43
ZTS      30.53
Name: Price, Length: 500, dtype: float64

In [None]:
r = df[(df['Price'] < 10) & 
          (df.Price > 6)] ['Price']
r

Symbol
HCBK    9.80
HBAN    9.10
SLM     8.82
WIN     9.38
Name: Price, dtype: float64

извлекаем строки, в которых переменная Sector принимает значение Health Care, а переменная Price больше или равна 100.00

In [None]:
r = df[(df.Sector == 'Health Care') & 
          (df.Price >= 100.00)] [['Price', 'Sector']]
r

Unnamed: 0_level_0,Price,Sector
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ACT,213.77,Health Care
ALXN,162.3,Health Care
AGN,166.92,Health Care
AMGN,114.33,Health Care
BCR,146.62,Health Care
BDX,115.7,Health Care
BIIB,299.71,Health Care
CELG,150.13,Health Care
HUM,124.49,Health Care
ISRG,363.86,Health Care


использование метода .isin

In [None]:
df

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.60,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897
...,...,...,...
YHOO,Information Technology,35.02,12.768
YUM,Consumer Discretionary,74.77,5.147
ZMH,Health Care,101.84,37.181
ZION,Financials,28.43,30.191


In [None]:
s_tmp = df.Sector.isin(['Information Technology', 'Financials'])
s_tmp

Symbol
MMM     False
ABT     False
ABBV    False
ACN      True
ACE      True
        ...  
YHOO     True
YUM     False
ZMH     False
ZION     True
ZTS     False
Name: Sector, Length: 500, dtype: bool

In [None]:
df[s_tmp].head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897
ADBE,Information Technology,64.3,13.262
AFL,Financials,61.31,34.527
AKAM,Information Technology,53.65,15.193


использование метода .query

In [None]:
r = df[(df.Sector == 'Health Care') & 
          (df.Price >= 100.00)] [['Price', 'Sector']]
r.head()

Unnamed: 0_level_0,Price,Sector
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ACT,213.77,Health Care
ALXN,162.3,Health Care
AGN,166.92,Health Care
AMGN,114.33,Health Care
BCR,146.62,Health Care


In [None]:
q = df.query("Sector=='Health Care' & Price >= 100")[['Price', 'Sector']]
q.head()


Unnamed: 0_level_0,Price,Sector
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ACT,213.77,Health Care
ALXN,162.3,Health Care
AGN,166.92,Health Care
AMGN,114.33,Health Care
BCR,146.62,Health Care


In [None]:
######################################

### Добавление 

#### оператор [ ] 

создаем копию, чтобы исходные данные остались в неизменном виде

In [None]:
df_copy = df.copy()

In [None]:
df_copy['Price']

Symbol
MMM     141.14
ABT      39.60
ABBV     53.95
ACN      79.79
ACE     102.91
         ...  
YHOO     35.02
YUM      74.77
ZMH     101.84
ZION     28.43
ZTS      30.53
Name: Price, Length: 500, dtype: float64

In [None]:
df_copy['RoundedPrice'] = df_copy['Price'].round()
df_copy.head()

Unnamed: 0_level_0,Sector,Price,Book Value,RoundedPrice
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
MMM,Industrials,141.14,26.668,141.0
ABT,Health Care,39.6,15.573,40.0
ABBV,Health Care,53.95,2.954,54.0
ACN,Information Technology,79.79,8.326,80.0
ACE,Financials,102.91,86.897,103.0


добавляем столбец

In [None]:
df_copy['RoundedPrice'] = df_copy.Price.round()
df_copy.head()

Unnamed: 0_level_0,Sector,Price,Book Value,RoundedPrice
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
MMM,Industrials,141.14,26.668,141.0
ABT,Health Care,39.6,15.573,40.0
ABBV,Health Care,53.95,2.954,54.0
ACN,Information Technology,79.79,8.326,80.0
ACE,Financials,102.91,86.897,103.0


#### метод .insert()

In [None]:
df_copy = df.copy()

вставляем столбец RoundedPrice в качестве третьего столбца датафрейма

In [None]:
x=np.arange(1,5)
x

array([1, 2, 3, 4])

In [None]:
df

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.60,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897
...,...,...,...
YHOO,Information Technology,35.02,12.768
YUM,Consumer Discretionary,74.77,5.147
ZMH,Health Care,101.84,37.181
ZION,Financials,28.43,30.191


#### метод .assign() 

In [None]:
df_copy = df.copy()

одновременное добавление двух столбцов:

In [None]:
df_copy.assign(Rounded_Price=df_copy.Price.round(),
                  R_BookValue_Price=lambda x: (x['Book Value'] / x['Rounded_Price']))

Unnamed: 0_level_0,Sector,Price,Book Value,Rounded_Price,R_BookValue_Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
MMM,Industrials,141.14,26.668,141.0,0.189135
ABT,Health Care,39.60,15.573,40.0,0.389325
ABBV,Health Care,53.95,2.954,54.0,0.054704
ACN,Information Technology,79.79,8.326,80.0,0.104075
ACE,Financials,102.91,86.897,103.0,0.843660
...,...,...,...,...,...
YHOO,Information Technology,35.02,12.768,35.0,0.364800
YUM,Consumer Discretionary,74.77,5.147,75.0,0.068627
ZMH,Health Care,101.84,37.181,102.0,0.364520
ZION,Financials,28.43,30.191,28.0,1.078250


### Выравнивание данных

#### Series 

первая серия для примеров

In [None]:
s_1 = pd.Series(data=[77,33,11],index=['a','b','f'])
s_1

a    77
b    33
f    11
dtype: int64

вторая серия для примеров

In [None]:
s_2 = pd.Series(data=[11,5,6],index=['c','b','a'])
s_2

c    11
b     5
a     6
dtype: int64

для непересекающейся части индексов будут получены значения NaN

In [None]:
s_1+s_2

a    83.0
b    38.0
c     NaN
f     NaN
dtype: float64

метки не обязательно должны быть уникальными

In [None]:
s_1 = pd.Series(data=[77, 33, 15, 3], index=['a', 'a', 'a', 'd'])
s_1

a    77
a    33
a    15
d     3
dtype: int64

In [None]:
s_2 = pd.Series(data=[11, 5, 6], index=['c', 'a', 'a'])
s_2

c    11
a     5
a     6
dtype: int64

3 метки 'а' и 2 метки 'а', результат 6 меток а

In [None]:
s_2+s_1

a    82.0
a    38.0
a    20.0
a    83.0
a    39.0
a    21.0
c     NaN
d     NaN
dtype: float64

#### DataFrame

In [None]:
df_part_1 = df.iloc[0:5, 0:2].copy()
df_part_2 = df.iloc[2:7, 1:3].copy()

In [None]:
df_part_1

Unnamed: 0_level_0,Sector,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,Industrials,141.14
ABT,Health Care,39.6
ABBV,Health Care,53.95
ACN,Information Technology,79.79
ACE,Financials,102.91


In [None]:
df_part_2

Unnamed: 0_level_0,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ABBV,53.95,2.954
ACN,79.79,8.326
ACE,102.91,86.897
ACT,213.77,55.188
ADBE,64.3,13.262


In [None]:
df_part_1 + df_part_2

Unnamed: 0_level_0,Book Value,Price,Sector
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ABBV,,107.9,
ABT,,,
ACE,,205.82,
ACN,,159.58,
ACT,,,
ADBE,,,
MMM,,,


происходит выравнивание при создании датафрейма

In [None]:
series_1 = pd.Series([70, 90]) # 0, 1
series_2 = pd.Series([71, 91]) # 0, 1
series_3 = pd.Series([85, 87], index=[1, 2])
df_col = pd.DataFrame({'col_1': series_1,
                   'col_2': series_2,
                   'col_3': series_3})
df_col

Unnamed: 0,col_1,col_2,col_3
0,70.0,71.0,
1,90.0,91.0,85.0
2,,,87.0


### Сортировка

#### по индексу 

In [None]:
df.head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


In [None]:
df.sort_index().head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,Health Care,56.18,16.928
AA,Materials,13.52,9.67
AAPL,Information Technology,614.13,139.46
ABBV,Health Care,53.95,2.954
ABC,Health Care,71.64,9.43


In [None]:
df.sort_index(axis=1).head()

Unnamed: 0_level_0,Book Value,Price,Sector
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,26.668,141.14,Industrials
ABT,15.573,39.6,Health Care
ABBV,2.954,53.95,Health Care
ACN,8.326,79.79,Information Technology
ACE,86.897,102.91,Financials


#### по значению

In [None]:
df

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.60,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897
...,...,...,...
YHOO,Information Technology,35.02,12.768
YUM,Consumer Discretionary,74.77,5.147
ZMH,Health Care,101.84,37.181
ZION,Financials,28.43,30.191


In [None]:
df.sort_values(by='Price',).head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BEAM,Consumer Discretionary,0.0,
FTR,Telecommunications Services,5.81,3.989
SLM,Financials,8.82,11.895
HBAN,Financials,9.1,6.995
WIN,Telecommunications Services,9.38,1.199


In [None]:
df.sort_values(by='Price', ascending=False).head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
PCLN,Industrials,1197.12,137.886
GHC,Consumer Discretionary,677.29,0.0
AAPL,Information Technology,614.13,139.46
GOOG,Information Technology,552.7,135.977
AZO,Consumer Discretionary,540.9,-51.275


#### наименьшее / наибольшее значение

In [None]:
df.nsmallest(6, 'Price')

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BEAM,Consumer Discretionary,0.0,
FTR,Telecommunications Services,5.81,3.989
SLM,Financials,8.82,11.895
HBAN,Financials,9.1,6.995
WIN,Telecommunications Services,9.38,1.199
HCBK,Financials,9.8,9.596


In [None]:
df.nlargest(5, 'Price')

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
PCLN,Industrials,1197.12,137.886
GHC,Consumer Discretionary,677.29,0.0
AAPL,Information Technology,614.13,139.46
GOOG,Information Technology,552.7,135.977
AZO,Consumer Discretionary,540.9,-51.275


### Операции

#### сброс индекса

исследуем несколько строк датафрейма data

In [None]:
df.head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


сбрасываем индекс, помещая значения индекса в столбец

In [None]:
index_moved_to_col = df.reset_index()
index_moved_to_col.head()

Unnamed: 0,Symbol,Sector,Price,Book Value
0,MMM,Industrials,141.14,26.668
1,ABT,Health Care,39.6,15.573
2,ABBV,Health Care,53.95,2.954
3,ACN,Information Technology,79.79,8.326
4,ACE,Financials,102.91,86.897


#### установка индекса

а теперь делаем столбец Sector индексом

In [None]:
index_moved_to_col.set_index('Sector').head()

Unnamed: 0_level_0,Symbol,Price,Book Value
Sector,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Industrials,MMM,141.14,26.668
Health Care,ABT,39.6,15.573
Health Care,ABBV,53.95,2.954
Information Technology,ACN,79.79,8.326
Financials,ACE,102.91,86.897


### Иерархическая индексация

сначала помещаем символы в столбец

In [None]:
reindexed = df.reset_index()

In [None]:
reindexed.head()

Unnamed: 0,Symbol,Sector,Price,Book Value
0,MMM,Industrials,141.14,26.668
1,ABT,Health Care,39.6,15.573
2,ABBV,Health Care,53.95,2.954
3,ACN,Information Technology,79.79,8.326
4,ACE,Financials,102.91,86.897


а теперь индексируем датафрейм data по столбцам Sector и Symbol

In [None]:
multi_fi = reindexed.set_index(['Sector', 'Symbol'])
multi_fi.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Price,Book Value
Sector,Symbol,Unnamed: 2_level_1,Unnamed: 3_level_1
Industrials,MMM,141.14,26.668
Health Care,ABT,39.6,15.573
Health Care,ABBV,53.95,2.954
Information Technology,ACN,79.79,8.326
Financials,ACE,102.91,86.897


наш индекс - это MultiIndex

In [None]:
type(multi_fi.index)

pandas.core.indexes.multi.MultiIndex

он имеет два уровня

In [None]:
len(multi_fi.index.levels)

2

каждый уровень индекса - это индекс

In [None]:
multi_fi.index.levels[1]

Index(['A', 'AA', 'AAPL', 'ABBV', 'ABC', 'ABT', 'ACE', 'ACN', 'ACT', 'ADBE',
       ...
       'XLNX', 'XOM', 'XRAY', 'XRX', 'XYL', 'YHOO', 'YUM', 'ZION', 'ZMH',
       'ZTS'],
      dtype='object', name='Symbol', length=500)

изменение порядка уровней индекса:

In [None]:
multi_fi.reorder_levels([1, 0], axis=0).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Price,Book Value
Symbol,Sector,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


In [None]:
multi_fi

Unnamed: 0_level_0,Unnamed: 1_level_0,Price,Book Value
Sector,Symbol,Unnamed: 2_level_1,Unnamed: 3_level_1
Industrials,MMM,141.14,26.668
Health Care,ABT,39.60,15.573
Health Care,ABBV,53.95,2.954
Information Technology,ACN,79.79,8.326
Financials,ACE,102.91,86.897
...,...,...,...
Information Technology,YHOO,35.02,12.768
Consumer Discretionary,YUM,74.77,5.147
Health Care,ZMH,101.84,37.181
Financials,ZION,28.43,30.191


получаем все акции, которые имеют значение Industrials <br> обратите внимание, что в результатах индекс уровня 0 не выводится 

In [None]:
multi_fi.xs('Industrials').head()

Unnamed: 0_level_0,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,141.14,26.668
ALLE,52.46,0.0
APH,95.71,18.315
AVY,48.2,15.616
BA,132.41,19.87


отбираем строки, в которых индекс уровня 1 (Symbol) имеет значение ALLE

In [None]:
multi_fi.xs('MMM', level=1)

Unnamed: 0_level_0,Price,Book Value
Sector,Unnamed: 1_level_1,Unnamed: 2_level_1
Industrials,141.14,26.668


скомбинируем уровни индексов

In [None]:
multi_fi.xs('Industrials').xs('ALLE')

Price         52.46
Book Value     0.00
Name: ALLE, dtype: float64

комбинируем уровни индексов, используя кортеж

In [None]:
multi_fi.xs(('Industrials', 'ALLE'))

Price         52.46
Book Value     0.00
Name: (Industrials, ALLE), dtype: float64

### Пропущенные значения

In [None]:
# создаем датафрейм с 5 строками и 3 столбцами
df = pd.DataFrame(np.arange(0, 15).reshape(5, 3), 
                  index=['a', 'b', 'c', 'd', 'e'], 
                  columns=['c1', 'c2', 'c3'])
df

Unnamed: 0,c1,c2,c3
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14


- добавляем несколько столбцов и строк в датафрейм столбец c4 со значениями NaN
- строка 'f' со значениями от 15 до 18 
- строка 'g', состоящая из значений NaN
- столбец 'c5', состоящий из значений NaN
- меняем значение в столбце 'c4' строки 'a'

In [None]:
df['c4'] = np.nan
df.loc['f'] = np.arange(15, 19) 
df.loc['g'] = np.nan
df['c5'] = np.nan
df['c4']['a'] = 20
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


#### поиск

какие элементы являются значениями NaN?

In [None]:
df.isnull()

Unnamed: 0,c1,c2,c3,c4,c5
a,False,False,False,False,True
b,False,False,False,True,True
c,False,False,False,True,True
d,False,False,False,True,True
e,False,False,False,True,True
f,False,False,False,False,True
g,True,True,True,True,True


какие элементы являются непропущенными значениями? (можем использовать ~df.isnull() )

In [None]:
df.notnull()

Unnamed: 0,c1,c2,c3,c4,c5
a,True,True,True,True,False
b,True,True,True,False,False
c,True,True,True,False,False
d,True,True,True,False,False
e,True,True,True,False,False
f,True,True,True,True,False
g,False,False,False,False,False


In [None]:
df.isnull()

Unnamed: 0,c1,c2,c3,c4,c5
a,False,False,False,False,True
b,False,False,False,True,True
c,False,False,False,True,True
d,False,False,False,True,True
e,False,False,False,True,True
f,False,False,False,False,True
g,True,True,True,True,True


подсчитываем количество значений NaN в каждом столбце

In [None]:
df.notnull().sum(axis=0)

c1    6
c2    6
c3    6
c4    2
c5    0
dtype: int64

вычисляем количество значений, отличных от NaN, по каждому столбцу (можем использовать len(df) - df.isnull().sum())


In [None]:
df.count(axis=0)

c1    6
c2    6
c3    6
c4    2
c5    0
dtype: int64

#### удаление

In [None]:
df.c4.notnull()

a     True
b    False
c    False
d    False
e    False
f     True
g    False
Name: c4, dtype: bool

отбираем непропущенные значения в столбце c4

In [None]:
df.c4[df.c4.notnull()]

a    20.0
f    18.0
Name: c4, dtype: float64

этот программный код извлекает в столбце c4 все значения, кроме значений NaN

In [None]:
df.c4.dropna()

a    20.0
f    18.0
Name: c4, dtype: float64

In [None]:
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


.dropna() возвращает копию с удаленными значениями исходный датафрейм/столбец не изменился

In [None]:
df.c4

a    20.0
b     NaN
c     NaN
d     NaN
e     NaN
f    18.0
g     NaN
Name: c4, dtype: float64

метод .dropna() при применении к датафрейму удаляет целиком строки, в которых есть по крайней мере одно значение NaN в данном случае будут удалены все строки

In [None]:
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


используя параметр how='all', удаляем лишь те строки, в которых все значения являются значениями NaN

In [None]:
df.dropna(how = 'all')

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,


In [None]:
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


меняем ось, чтобы удалить столбцы со значениями NaN вместо строк

In [None]:
df.dropna(how='all', axis=1) # удаляем c5

Unnamed: 0,c1,c2,c3,c4
a,0.0,1.0,2.0,20.0
b,3.0,4.0,5.0,
c,6.0,7.0,8.0,
d,9.0,10.0,11.0,
e,12.0,13.0,14.0,
f,15.0,16.0,17.0,18.0
g,,,,


- создаем копию датафрейма df
- заменяем две ячейки с пропусками значениями 0

In [None]:
df2 = df.copy()
df2.loc['g'].c1 = 0
df2.loc['g'].c3 = 0
df2

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,0.0,,0.0,,


удаляем лишь те столбцы, в которых по меньшей мере 3 значений не NaN

In [None]:
df2

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,0.0,,0.0,,


In [None]:
df2.dropna(thresh=2, axis=1)

Unnamed: 0,c1,c2,c3,c4
a,0.0,1.0,2.0,20.0
b,3.0,4.0,5.0,
c,6.0,7.0,8.0,
d,9.0,10.0,11.0,
e,12.0,13.0,14.0,
f,15.0,16.0,17.0,18.0
g,0.0,,0.0,


#### заполнение

##### константой

In [None]:
pd.read_csv

<function pandas.io.parsers._make_parser_function.<locals>.parser_f(filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]], sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal: str = '.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)>

возвращаем новый датафрейм, в котором значения NaN заполнены константой - нулями

In [None]:
filled = df.fillna(0)
filled

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,0.0
b,3.0,4.0,5.0,0.0,0.0
c,6.0,7.0,8.0,0.0,0.0
d,9.0,10.0,11.0,0.0,0.0
e,12.0,13.0,14.0,0.0,0.0
f,15.0,16.0,17.0,18.0,0.0
g,0.0,0.0,0.0,0.0,0.0


значения NaN не учитываются при вычислении средних значений

In [None]:
df.mean()

c1     7.5
c2     8.5
c3     9.5
c4    19.0
c5     NaN
dtype: float64

после замены значений NaN на 0 получаем другие средние значения

In [None]:
filled.mean()

c1    6.428571
c2    7.285714
c3    8.142857
c4    5.428571
c5    0.000000
dtype: float64

##### прямое и обратное

заполнение в прямом порядке

In [None]:
df.c4

a    20.0
b     NaN
c     NaN
d     NaN
e     NaN
f    18.0
g     NaN
Name: c4, dtype: float64

In [None]:
df.c4.fillna(method="ffill")

a    20.0
b    20.0
c    20.0
d    20.0
e    20.0
f    18.0
g    18.0
Name: c4, dtype: float64

либо выполняем обратное заполнение

In [None]:
df.c4.fillna(method="bfill")

a    20.0
b    18.0
c    18.0
d    18.0
e    18.0
f    18.0
g     NaN
Name: c4, dtype: float64

##### с помощью индексов

новая серия для примеров:

In [None]:
fill_values = pd.Series([100, 101, 102], index=['a', 'e', 'g'])
fill_values

a    100
e    101
g    102
dtype: int64

пример заполнения:

In [None]:
df.c4

a    20.0
b     NaN
c     NaN
d     NaN
e     NaN
f    18.0
g     NaN
Name: c4, dtype: float64

In [None]:
df.c4.fillna(fill_values)

a     20.0
b      NaN
c      NaN
d      NaN
e    101.0
f     18.0
g    102.0
Name: c4, dtype: float64

заполняем значения NaN в каждом столбце средним значением этого столбца

In [None]:
df.mean()

c1     7.5
c2     8.5
c3     9.5
c4    19.0
c5     NaN
dtype: float64

In [None]:
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


In [None]:
df.fillna(df.mean())

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,19.0,
c,6.0,7.0,8.0,19.0,
d,9.0,10.0,11.0,19.0,
e,12.0,13.0,14.0,19.0,
f,15.0,16.0,17.0,18.0,
g,7.5,8.5,9.5,19.0,


#### интерполяция пропущенных значений

выполняем линейную интерполяцию ( method = 'linear' по умолчанию) значений NaN с 1 по 2

In [None]:
s = pd.Series([1, np.nan, np.nan, np.nan, 3])
s

0    1.0
1    NaN
2    NaN
3    NaN
4    3.0
dtype: float64

In [None]:
s.interpolate()

0    1.0
1    1.5
2    2.0
3    2.5
4    3.0
dtype: float64

создаем временной ряд, но при этом значение по одной дате будет пропущено

создаем объект Series, чтобы продемонстрировать интерполяцию, основанную на индексных метках

In [None]:
s = pd.Series([0, np.nan, 100], index=[0, 2, 10])
s

0       0.0
2       NaN
10    100.0
dtype: float64

выполняем линейную интерполяцию

In [None]:
s.interpolate()

0       0.0
2      50.0
10    100.0
dtype: float64

выполняем интерполяцию на основе значений индекса

In [None]:
s.interpolate(method="index")

0       0.0
2      20.0
10    100.0
dtype: float64

### Повторяющиеся значения 

создаем датафрейм с дублирующимися строками

In [None]:
data = pd.DataFrame({'a': ['x'] * 3 + ['y'] * 4, 
                     'b': [1, 1, 2, 3, 3, 4, 4]})
data

Unnamed: 0,a,b
0,x,1
1,x,1
2,x,2
3,y,3
4,y,3
5,y,4
6,y,4


определяем, какие строки являются дублирующимися, то есть какие строки уже ранее встречались в датафрейме

In [None]:
data.duplicated()

0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool

удаляем дублирующиеся строки, каждый раз оставляя первое из дублирующихся наблюдений

In [None]:
data.drop_duplicates()

Unnamed: 0,a,b
0,x,1
2,x,2
3,y,3
5,y,4


удаляем дублирующиеся строки, каждый раз оставляя последнее из дублирующихся наблюдений

In [None]:
data.drop_duplicates(keep='last')

Unnamed: 0,a,b
1,x,1
2,x,2
4,y,3
6,y,4


добавляем столбец:

In [None]:
data

Unnamed: 0,a,b
0,x,1
1,x,1
2,x,2
3,y,3
4,y,3
5,y,4
6,y,4


In [None]:
data['c'] = range(7)
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6    False
dtype: bool

In [None]:
data

Unnamed: 0,a,b,c
0,x,1,0
1,x,1,1
2,x,2,2
3,y,3,3
4,y,3,4
5,y,4,5
6,y,4,6


но если мы укажем, что нужно удалить дублирующиеся строки с учетом значений в столбцах a и b, результаты будут выглядеть так

In [None]:
data.drop_duplicates(['a', 'b'])

Unnamed: 0,a,b,c
0,x,1,0
2,x,2,2
3,y,3,3
5,y,4,5


In [None]:
data

Unnamed: 0,a,b,c
0,x,1,0
1,x,1,1
2,x,2,2
3,y,3,3
4,y,3,4
5,y,4,5
6,y,4,6


### Замена значений

#### метод .map() 

создаем два объекта Series для иллюстрации процесса сопоставления значений

In [None]:
x = pd.Series({"one": 1, "two": 2, "three": 3})
y = pd.Series({1: "a", 2: "b", 3: "c"})
x

one      1
two      2
three    3
dtype: int64

In [None]:
y

1    a
2    b
3    c
dtype: object

сопоставляем значения серии x значениям серии y 

In [None]:
x.map(y)

one      a
two      b
three    c
dtype: object

если между значением серии y и индексной меткой серии x не будет найдено соответствие, будет выдано значение NaN

In [None]:
x = pd.Series({"one": 1, "two": 2, "three": 3})
y = pd.Series({1: "a", 2: "b"})

In [None]:
x

one      1
two      2
three    3
dtype: int64

In [None]:
y

1    a
2    b
dtype: object

In [None]:
x.map(y)

one        a
two        b
three    NaN
dtype: object

#### метод .replace()

для примера

In [None]:
s = pd.Series([0., 1., 2., 3., 2., 4.])
s

0    0.0
1    1.0
2    2.0
3    3.0
4    2.0
5    4.0
dtype: float64

замена 2 на 5

In [None]:
s.replace(2, 5)

0    0.0
1    1.0
2    5.0
3    3.0
4    5.0
5    4.0
dtype: float64

заменяем все элементы новыми значениями

In [None]:
s.replace([0, 1, 2, 3, 4], [4, 3, 5, 1, 0])

0    4.0
1    3.0
2    5.0
3    1.0
4    5.0
5    0.0
dtype: float64

In [None]:
s

0    0.0
1    1.0
2    2.0
3    3.0
4    2.0
5    4.0
dtype: float64

заменяем элементы, используя в качестве аргумента словарь

In [None]:
s.replace({0: 10, 2: 100})

0     10.0
1      1.0
2    100.0
3      3.0
4    100.0
5      4.0
dtype: float64

создаем датафрейм с двумя столбцами

In [None]:
df = pd.DataFrame({'a': ['y', 1, 2, 3, 4], 'b': [5, 6, 7, 8, 9]})
df

Unnamed: 0,a,b
0,y,5
1,1,6
2,2,7
3,3,8
4,4,9


задаем разные заменяемые значения для каждого столбца

In [None]:
df.replace({'a': 'y', 'b': 8}, {'a': 777, 'b': 888})


Unnamed: 0,a,b
0,777,5
1,1,6
2,2,7
3,3,888
4,4,9


In [None]:
df.replace({'a': 1, 'b': 7}, {'a': 777, 'b': 888})

Unnamed: 0,a,b
0,y,5
1,777,6
2,2,888
3,3,8
4,4,9


In [None]:
#####################################

### Применение функций

Функцию pandas apply() можно использовать для применения функции к строкам или столбцам кадра данных pandas.

Эта функция отличается от других функций, таких как drop() и replace() , которые предоставляют аргумент на месте:

#### к стокам / столбцам

иллюстрируем применение функции к каждому элементу объекта Series

In [None]:
s = pd.Series(np.arange(0, 5))
s

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [None]:
s.apply(lambda v: v * 3)

0     0
1     3
2     6
3     9
4    12
dtype: int64

создаем датафрейм, чтобы проиллюстрировать применение операции суммирования к каждому столбцу

In [None]:
df = pd.DataFrame(np.arange(12).reshape(4, 3), 
                  columns=['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


вычисляем сумму элементов в каждом столбце

In [None]:
df.apply(lambda col: col.sum())

a    18
b    22
c    26
dtype: int64

вычисляем сумму элементов в каждой строке

In [None]:
df.apply(lambda row: row.sum(), axis=1)

0     3
1    12
2    21
3    30
dtype: int64

создаем столбец 'interim' путем умножения столбцов a и b

In [None]:
df

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [None]:
df['interim'] = df.apply(lambda r: r.a * r.b, axis=1)
df

Unnamed: 0,a,b,c,interim
0,0,1,2,0
1,3,4,5,12
2,6,7,8,42
3,9,10,11,90


а теперь получаем столбец 'result' путем сложения столбцов 'interim' и 'c'

In [None]:
df['result'] = df.apply(lambda r: r.interim + r.c, axis=1)
df

Unnamed: 0,a,b,c,interim,result
0,0,1,2,0,2
1,3,4,5,12,17
2,6,7,8,42,50
3,9,10,11,90,101


#### к значениям

используем метод .applymap() для всех значений датафрейма, чтобы изменить формат всех элементов объекта DataFrame

In [None]:
df

Unnamed: 0,a,b,c,interim,result
0,0,1,2,0,2
1,3,4,5,12,17
2,6,7,8,42,50
3,9,10,11,90,101


In [None]:
df.applymap(lambda x: np.exp(x)/10)

Unnamed: 0,a,b,c,interim,result
0,0.1,0.271828,0.738906,0.1,0.7389056
1,2.008554,5.459815,14.841316,16275.48,2415495.0
2,40.342879,109.663316,298.095799,1.739275e+17,5.184706e+20
3,810.308393,2202.646579,5987.414172,1.220403e+38,7.307060000000001e+42


### Сводка статистик

In [None]:
df = pd.read_csv("./sp500.csv",
                    index_col='Symbol',
                    usecols=['Symbol', 'Sector', 'Price', 'Book Value'])

In [None]:
df.head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


считываем исторические данные о котировках акций

In [None]:
omh = pd.read_csv('./omh.csv', 
                  parse_dates=['Date'])

omh.set_index('Date', 
              inplace=True)

In [None]:
omh.head()

Unnamed: 0_level_0,MSFT,AAPL
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2014-12-01,48.62,115.07
2014-12-02,48.46,114.63
2014-12-03,48.08,115.93
2014-12-04,48.84,115.49
2014-12-05,48.42,115.0


получаем сводку статистик для датафрейма, с которой работаем как с обычным датафреймом

In [None]:
df.describe()

Unnamed: 0,Price,Book Value
count,500.0,499.0
mean,77.3686,301.611301
std,87.59694,6195.727862
min,0.0,-51.275
25%,38.745,10.8365
50%,58.355,19.098
75%,86.68,31.3865
max,1197.12,138425.4531


вычисляем сводку статистик для отдельного столбца Price

In [None]:
df.Price.describe()

count     500.00000
mean       77.36860
std        87.59694
min         0.00000
25%        38.74500
50%        58.35500
75%        86.68000
max      1197.12000
Name: Price, dtype: float64

получаем сводку статистик для нечисловых данных

In [None]:
df.Sector.describe()

count                        500
unique                        13
top       Consumer Discretionary
freq                          85
Name: Sector, dtype: object

метод info:

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 500 entries, MMM to ZTS
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Sector      500 non-null    object 
 1   Price       500 non-null    float64
 2   Book Value  499 non-null    float64
dtypes: float64(2), object(1)
memory usage: 15.6+ KB


получаем сводную статистику для нечисловых данных

In [None]:
df.Sector.value_counts(normalize=True)

Consumer Discretionary         0.170
Financials                     0.164
Industrials                    0.128
Information Technology         0.128
Health Care                    0.108
Energy                         0.082
Consumer Staples               0.078
Utilities                      0.066
Materials                      0.058
Telecommunications Services    0.012
Industries                     0.002
Consumer Discretionary         0.002
Consumer Staples               0.002
Name: Sector, dtype: float64

### Арифметические операции

- задаем стартовое значение генератора случайных чисел для получения воспроизводимых результатов
- создаем объект DataFrame

In [None]:
np.random.seed(123)
df = pd.DataFrame(np.random.randn(5, 4), 
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,-1.085631,0.997345,0.282978,-1.506295
1,-0.5786,1.651437,-2.426679,-0.428913
2,1.265936,-0.86674,-0.678886,-0.094709
3,1.49139,-0.638902,-0.443982,-0.434351
4,2.20593,2.186786,1.004054,0.386186


умножаем все на 2, берём только абсолютные значения

In [None]:
abs(df * 2)

Unnamed: 0,A,B,C,D
0,2.171261,1.994691,0.565957,3.012589
1,1.157201,3.302873,4.853358,0.857825
2,2.531873,1.733481,1.357772,0.189418
3,2.982779,1.277804,0.887964,0.868703
4,4.41186,4.373572,2.008108,0.772373


вычитаем первую строку из каждой строки объекта DataFrame

In [None]:
df

Unnamed: 0,A,B,C,D
0,-1.085631,0.997345,0.282978,-1.506295
1,-0.5786,1.651437,-2.426679,-0.428913
2,1.265936,-0.86674,-0.678886,-0.094709
3,1.49139,-0.638902,-0.443982,-0.434351
4,2.20593,2.186786,1.004054,0.386186


In [None]:
df.iloc[0]

A   -1.085631
B    0.997345
C    0.282978
D   -1.506295
Name: 0, dtype: float64

In [None]:
df - df.iloc[0]

Unnamed: 0,A,B,C,D
0,0.0,0.0,0.0,0.0
1,0.50703,0.654091,-2.709658,1.077382
2,2.351567,-1.864086,-0.961865,1.411586
3,2.57702,-1.636247,-0.72696,1.071943
4,3.291561,1.189441,0.721075,1.892481


вычитаем объект DataFrame из объекта Series

In [None]:
df.iloc[0] - df

Unnamed: 0,A,B,C,D
0,0.0,0.0,0.0,0.0
1,-0.50703,-0.654091,2.709658,-1.077382
2,-2.351567,1.864086,0.961865,-1.411586
3,-2.57702,1.636247,0.72696,-1.071943
4,-3.291561,-1.189441,-0.721075,-1.892481


In [None]:
df

Unnamed: 0,A,B,C,D
0,-1.085631,0.997345,0.282978,-1.506295
1,-0.5786,1.651437,-2.426679,-0.428913
2,1.265936,-0.86674,-0.678886,-0.094709
3,1.49139,-0.638902,-0.443982,-0.434351
4,2.20593,2.186786,1.004054,0.386186


- возьмём второе и третье поле 1-ой строки:
- добавляем столбец E
- смотрим, как применяется выравнивание в этой математической операции

In [None]:
s = df.iloc[0][1:3]
s

B    0.997345
C    0.282978
Name: 0, dtype: float64

In [None]:
df

Unnamed: 0,A,B,C,D
0,-1.085631,0.997345,0.282978,-1.506295
1,-0.5786,1.651437,-2.426679,-0.428913
2,1.265936,-0.86674,-0.678886,-0.094709
3,1.49139,-0.638902,-0.443982,-0.434351
4,2.20593,2.186786,1.004054,0.386186


In [None]:
s['E'] = 0
s

B    0.997345
C    0.282978
E    0.000000
Name: 0, dtype: float64

In [None]:
df + s

Unnamed: 0,A,B,C,D,E
0,,1.994691,0.565957,,
1,,2.648782,-2.143701,,
2,,0.130605,-0.395908,,
3,,0.358443,-0.161003,,
4,,3.184132,1.287032,,


извлекаем строки в позициях с 1-й по 3-ю и только столбцы B и C <br>
по сути - извлекаем небольшой квадрат из середины df

In [None]:
df

Unnamed: 0,A,B,C,D
0,-1.085631,0.997345,0.282978,-1.506295
1,-0.5786,1.651437,-2.426679,-0.428913
2,1.265936,-0.86674,-0.678886,-0.094709
3,1.49139,-0.638902,-0.443982,-0.434351
4,2.20593,2.186786,1.004054,0.386186


In [None]:
subframe = df[1:4][['B', 'C']].copy()
subframe

Unnamed: 0,B,C
1,1.651437,-2.426679
2,-0.86674,-0.678886
3,-0.638902,-0.443982


демонстрируем, как происходит выравнивание при выполнении операции вычитания

In [None]:
df - subframe


Unnamed: 0,A,B,C,D
0,,,,
1,,0.0,0.0,
2,,0.0,0.0,
3,,0.0,0.0,
4,,,,


### Одномерные статистики

#### минимум / максимум

определяем максимальную цену для обеих акций

In [None]:
omh.head()

Unnamed: 0_level_0,MSFT,AAPL
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2014-12-01,48.62,115.07
2014-12-02,48.46,114.63
2014-12-03,48.08,115.93
2014-12-04,48.84,115.49
2014-12-05,48.42,115.0


In [None]:
omh[['MSFT', 'AAPL']].max()

MSFT     48.84
AAPL    115.93
dtype: float64

определяем индекс, которому соответствует максимальная цена для обеих акций

In [None]:
omh[['MSFT', 'AAPL']].idxmin()

MSFT   2014-12-16
AAPL   2014-12-16
dtype: datetime64[ns]

#### cреднее значение / медиана / мода

вычисляем среднее значение для всех столбцов в датафрейме omh

In [None]:
omh.mean()

MSFT     47.493182
AAPL    112.411364
dtype: float64

вычисляем значение, усредненное по всем столбцам, для каждой строки (выведем первые 5)

In [None]:
omh.mean(axis=1).head() 

Date
2014-12-01    81.845
2014-12-02    81.545
2014-12-03    82.005
2014-12-04    82.165
2014-12-05    81.710
dtype: float64

вычисляем медиану значений для каждого столбца

In [None]:
omh.median()

MSFT     47.625
AAPL    112.530
dtype: float64

In [None]:
df

Unnamed: 0,A,B,C,D
0,-1.085631,0.997345,0.282978,-1.506295
1,-0.5786,1.651437,-2.426679,-0.428913
2,1.265936,-0.86674,-0.678886,-0.094709
3,1.49139,-0.638902,-0.443982,-0.434351
4,2.20593,2.186786,1.004054,0.386186


вычисляем моду для столбца A

In [None]:
df.A.mode()

0   -1.085631
1   -0.578600
2    1.265936
3    1.491390
4    2.205930
dtype: float64

мод может быть несколько, поэтому результат операции - Series 

In [None]:
s = pd.Series([1, 2, 3, 3, 5, 1])
s.mode()

0    1
1    3
dtype: int64

#### [дисперсия](https://ru.wikipedia.org/wiki/Дисперсия_случайной_величины) / среднеквадратичное отклонение

вычисляем дисперсию значений в каждом столбце

In [None]:
omh.var()

MSFT    0.870632
AAPL    5.706231
dtype: float64

вычисляем среднеквадратичное отклонение

In [None]:
omh.std()

MSFT    0.933077
AAPL    2.388772
dtype: float64

#### [ковариация](https://ru.wikipedia.org/wiki/Ковариация) / [корреляция](https://ru.wikipedia.org/wiki/Корреляция)

вычисляем ковариацию между MSFT и AAPL

In [None]:
omh.MSFT.cov(omh.AAPL)

1.9261240259740264

вычисляем корреляцию между MSFT и AAPL

In [None]:
omh.MSFT.corr(omh.AAPL)

0.8641560684381171

либо можем получать матрицу ковариаций

In [None]:
omh.corr()

Unnamed: 0,MSFT,AAPL
MSFT,1.0,0.864156
AAPL,0.864156,1.0


### Преобразование данных 

#### дискретизация и квантилизация

генерируем 10000 случайных чисел из стандартного нормального распределения

In [None]:
np.random.seed(123456)
dist = np.random.normal(size = 10000)
dist

array([ 0.4691123 , -0.28286334, -1.5090585 , ...,  0.26296448,
       -0.83377412, -0.10418135])

выводим среднее и стандартное отклонение

In [None]:
(dist.mean(), dist.std())

(-0.002863324040906651, 1.008716203199891)

qcut пытается разделить базовые данные на интервалы равного размера. Функция определяет интервалы с использованием процентилей на основе распределения данных, а не фактических числовых границ интервалов.

In [None]:
pd.Series(dist).describe()

count    10000.000000
mean        -0.002863
std          1.008767
min         -3.520876
25%         -0.685616
50%         -0.003632
75%          0.691439
max          3.697783
dtype: float64

In [None]:
qbin = pd.qcut(dist, 4)

найдём статистику по полученным группам

In [None]:
qbin.describe()

Unnamed: 0_level_0,counts,freqs
categories,Unnamed: 1_level_1,Unnamed: 2_level_1
"(-3.522, -0.686]",2500,0.25
"(-0.686, -0.00363]",2500,0.25
"(-0.00363, 0.691]",2500,0.25
"(0.691, 3.698]",2500,0.25


In [None]:
qbin.value_counts()

(-3.522, -0.686]      2500
(-0.686, -0.00363]    2500
(-0.00363, 0.691]     2500
(0.691, 3.698]        2500
dtype: int64

Основное различие заключается в том, что qcut будет вычислять размер каждого интервала, чтобы гарантировать, что распределение данных в интервалах одинаково. Другими словами, все интервалы будут иметь (примерно) одинаковое количество наблюдений, но диапазон интервалов будет изменяться.

С другой стороны, cut используется для определения границ интервалов. Нет никаких гарантий относительно распределения элементов в каждом интервале. Фактически, вы можете определить интервалы таким образом, чтобы в них не включались никакие элементы или почти все элементы находились в одном интервале.

In [None]:
pd.Series(dist).describe()

count    10000.000000
mean        -0.002863
std          1.008767
min         -3.520876
25%         -0.685616
50%         -0.003632
75%          0.691439
max          3.697783
dtype: float64

In [None]:
bins = pd.cut(dist, 4)
bins.categories

IntervalIndex([(-3.528, -1.716], (-1.716, 0.0885], (0.0885, 1.893], (1.893, 3.698]],
              closed='right',
              dtype='interval[float64]')

найдём длины соответствующих интервалов

In [None]:
[q.right - q.left for q in bins.categories]

[1.812, 1.8045, 1.8045, 1.805]

генерируем 50 значений возраста в диапазоне от 6 до 70

#### кумулятивные суммы

вычисляем кумулятивную сумму

In [None]:
d = pd.Series([1, 2, 3, 4])
d.cumsum()
d

0    1
1    2
2    3
3    4
dtype: int64

In [None]:
pd.Series([1, 2, 3, 4]).cumsum()

0     1
1     3
2     6
3    10
dtype: int64

вычисляем кумулятивное произведение

In [None]:
pd.Series([1, 2, 3, 4]).cumprod()

0     1
1     2
2     6
3    24
dtype: int64

#### ранжирование

для примера:

In [None]:
s = pd.Series([160, 165, 165, 165, 170, 175], index=list('abcded'))
s

a    160
b    165
c    165
d    165
e    170
d    175
dtype: int64

ранжируем значения

In [None]:
s.rank()

a    1.0
b    3.0
c    3.0
d    3.0
e    5.0
d    6.0
dtype: float64

#### относительное изменение

In [None]:
omh[['MSFT']].head()

Unnamed: 0_level_0,MSFT
Date,Unnamed: 1_level_1
2014-12-01,48.62
2014-12-02,48.46
2014-12-03,48.08
2014-12-04,48.84
2014-12-05,48.42


вычисляем относительнон изменение для MSFT (текущее значение с предыдущим)

In [None]:
omh[['MSFT']].pct_change().head()

Unnamed: 0_level_0,MSFT
Date,Unnamed: 1_level_1
2014-12-01,
2014-12-02,-0.003291
2014-12-03,-0.007842
2014-12-04,0.015807
2014-12-05,-0.0086


### Оконные функции

Объект Rolling:

In [None]:
omh.MSFT

Date
2014-12-01    48.62
2014-12-02    48.46
2014-12-03    48.08
2014-12-04    48.84
2014-12-05    48.42
2014-12-08    47.70
2014-12-09    47.59
2014-12-10    46.90
2014-12-11    47.17
2014-12-12    46.95
2014-12-15    46.67
2014-12-16    45.16
2014-12-17    45.74
2014-12-18    47.52
2014-12-19    47.66
2014-12-22    47.98
2014-12-23    48.45
2014-12-24    48.14
2014-12-26    47.88
2014-12-29    47.45
2014-12-30    47.02
2014-12-31    46.45
Name: MSFT, dtype: float64

In [None]:
r = omh.MSFT.rolling(3)

скользящее среднее:

In [None]:
r.mean()

Date
2014-12-01          NaN
2014-12-02          NaN
2014-12-03    48.386667
2014-12-04    48.460000
2014-12-05    48.446667
2014-12-08    48.320000
2014-12-09    47.903333
2014-12-10    47.396667
2014-12-11    47.220000
2014-12-12    47.006667
2014-12-15    46.930000
2014-12-16    46.260000
2014-12-17    45.856667
2014-12-18    46.140000
2014-12-19    46.973333
2014-12-22    47.720000
2014-12-23    48.030000
2014-12-24    48.190000
2014-12-26    48.156667
2014-12-29    47.823333
2014-12-30    47.450000
2014-12-31    46.973333
Name: MSFT, dtype: float64

первое значение:

In [None]:
omh.MSFT.loc['2014-12-01':'2014-12-03'].mean()

48.38666666666666

второе:

In [None]:
omh.MSFT.loc['2014-12-02':'2014-12-04'].mean()

48.46

In [None]:
df.head()

Unnamed: 0,A,B,C,D
0,-1.085631,0.997345,0.282978,-1.506295
1,-0.5786,1.651437,-2.426679,-0.428913
2,1.265936,-0.86674,-0.678886,-0.094709
3,1.49139,-0.638902,-0.443982,-0.434351
4,2.20593,2.186786,1.004054,0.386186


In [None]:
pd.options.display.max_rows = 1

In [None]:
df.head()

Unnamed: 0,A,B,C,D
0,-1.085631,0.997345,0.282978,-1.506295


In [None]:
pd.options.display.max_rows = 5

In [None]:
df.head()

Unnamed: 0,A,B,C,D
0,-1.085631,0.997345,0.282978,-1.506295
1,-0.5786,1.651437,-2.426679,-0.428913
2,1.265936,-0.86674,-0.678886,-0.094709
3,1.49139,-0.638902,-0.443982,-0.434351
4,2.20593,2.186786,1.004054,0.386186


## Подведем итог того, что мы узнали

1. **Узнали:** Как пользоваться основными операциями в библиотеке Pandas.  
    **Как будем использовать:** Большая часть исследоавния и экспериментов будет проходить в pandas:)
2. **Узнали:** Как обрабатывать "мусор" в данных.  
    **Как будем использовать:** Предобработка данных -- это обязательный этап работы с данными. 
3. **Узнали:** Что такое оконные функции в pandas и как ими пользоваться.  
    **Как будем использовать:** Многие данные удобно обрабатывать при помощи быстрых оконных функций. 