### Библиотеки / данные

импортируем библиотеки numpy и pandas

In [8]:
import numpy as np
import pandas as pd

импортируем библиотеку datetime для работы с датами

In [9]:
from datetime import datetime

Задаем некоторые опции библиотеки pandas, которые настраивают вывод

In [10]:
pd.options.display.max_rows = 10

- считываем данные
- используем столбец Symbol в качестве индекса 
- считываем только столбцы ['Symbol', 'Sector', 'Price', 'Book Value']

| Column Name        | Description
| ------------- |:-------------:|
|Symbol|Сокращенное название организации|
|Name|Полное название организации|
|Sector|Сектор экономики|
|Price|Стоимость акции|
|Dividend Yield|Дивидендная доходность|
|Price/Earnings|Цена / прибыль|
|Earnings/Share|Прибыль на акцию|
|Book Value|Балансовая стоимость компании|
|52 week low|52-недельный минимум|
|52 week high|52-недельный максимум|
|Market Cap|Рыночная капитализация|
|EBITDA|**E**arnings **b**efore **i**nterest, **t**axes, **d**epreciation and **a**mortization|
|Price/Sales|Цена / объём продаж|
|Price/Book|Цена / балансовая стоимость|
|SEC Filings|Ссылка *sec.gov*|

In [11]:
sp500 = pd.read_csv("../data/sp500.csv",
                    index_col='Symbol',
                    usecols=['Symbol', 'Sector', 'Price', 'Book Value'])

создаем датафрейм с 5 строками и 3 столбцами

In [12]:
df = pd.DataFrame(np.arange(0, 15).reshape(5, 3), 
                  index=['a', 'b', 'c', 'd', 'e'], 
                  columns=['c1', 'c2', 'c3'])
df

Unnamed: 0,c1,c2,c3
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14


- добавляем несколько столбцов и строк в датафрейм столбец c4 со значениями NaN
- строка 'f' со значениями от 15 до 18 
- строка 'g', состоящая из значений NaN
- столбец 'c5', состоящий из значений NaN
- меняем значение в столбце 'c4' строки 'a'

In [13]:
df['c4'] = np.nan
df.loc['f'] = np.arange(15, 19) 
df.loc['g'] = np.nan
df['c5'] = np.nan
df['c4']['a'] = 20
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


### Пропущенные значения

#### поиск

какие элементы являются значениями NaN?

In [14]:
df.isnull()

Unnamed: 0,c1,c2,c3,c4,c5
a,False,False,False,False,True
b,False,False,False,True,True
c,False,False,False,True,True
d,False,False,False,True,True
e,False,False,False,True,True
f,False,False,False,False,True
g,True,True,True,True,True


какие элементы являются непропущенными значениями? (можем использовать ~df.isnull() )

In [8]:
df.notnull()

Unnamed: 0,c1,c2,c3,c4,c5
a,True,True,True,True,False
b,True,True,True,False,False
c,True,True,True,False,False
d,True,True,True,False,False
e,True,True,True,False,False
f,True,True,True,True,False
g,False,False,False,False,False


подсчитываем количество значений NaN в каждом столбце

In [9]:
df.isnull().sum(axis=0)

c1    1
c2    1
c3    1
c4    5
c5    7
dtype: int64

In [11]:
df.isnull().sum(axis=1)

a    1
b    2
c    2
d    2
e    2
f    1
g    5
dtype: int64

вычисляем количество значений, отличных от NaN, по каждому столбцу (можем использовать len(df) - df.isnull().sum())


In [10]:
df.count(axis=0)

c1    6
c2    6
c3    6
c4    2
c5    0
dtype: int64

#### удаление

In [12]:
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


отбираем непропущенные значения в столбце c4

In [13]:
df.c4[df.c4.notnull()]

a    20.0
f    18.0
Name: c4, dtype: float64

этот программный код извлекает в столбце c4 все значения, кроме значений NaN

In [14]:
df.c4.dropna()

a    20.0
f    18.0
Name: c4, dtype: float64

.dropna() возвращает копию с удаленными значениями исходный датафрейм/столбец не изменился

In [15]:
df.c4

a    20.0
b     NaN
c     NaN
d     NaN
e     NaN
f    18.0
g     NaN
Name: c4, dtype: float64

метод .dropna() при применении к датафрейму удаляет целиком строки, в которых есть по крайней мере одно значение NaN в данном случае будут удалены все строки

In [15]:
df.dropna()

Unnamed: 0,c1,c2,c3,c4,c5


используя параметр how='all', удаляем лишь те строки, в которых все значения являются значениями NaN

In [16]:
df.dropna(how = 'all')

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,


In [17]:
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


меняем ось, чтобы удалить столбцы со значениями NaN вместо строк

In [18]:
df.dropna(how='all', axis=0) # удаляем c5

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,


- создаем копию датафрейма df
- заменяем две ячейки с пропусками значениями 0

In [20]:
df2 = df.copy()
df2.loc['g'].c1 = 0
df2.loc['g'].c3 = 0
df2

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,0.0,,0.0,,


а сейчас удаляем столбцы, в которых есть хотя бы одно значение NaN

In [22]:
df2.dropna(how='any', axis=0) 

Unnamed: 0,c1,c2,c3,c4,c5


удаляем лишь те столбцы, в которых по меньшей мере 3 значений не NaN

In [22]:
df2

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,0.0,,0.0,,


In [24]:
df2.dropna(thresh=3, axis=1)

Unnamed: 0,c1,c2,c3
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,6.0,7.0,8.0
d,9.0,10.0,11.0
e,12.0,13.0,14.0
f,15.0,16.0,17.0
g,0.0,,0.0


#### заполнение

##### константой

In [25]:
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


возвращаем новый датафрейм, в котором значения NaN заполнены константой - нулями

In [26]:
filled = df.fillna(0)
filled

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,0.0
b,3.0,4.0,5.0,0.0,0.0
c,6.0,7.0,8.0,0.0,0.0
d,9.0,10.0,11.0,0.0,0.0
e,12.0,13.0,14.0,0.0,0.0
f,15.0,16.0,17.0,18.0,0.0
g,0.0,0.0,0.0,0.0,0.0


значения NaN не учитываются при вычислении средних значений

In [27]:
df.mean()

c1     7.5
c2     8.5
c3     9.5
c4    19.0
c5     NaN
dtype: float64

после замены значений NaN на 0 получаем другие средние значения

In [28]:
filled.mean()

c1    6.428571
c2    7.285714
c3    8.142857
c4    5.428571
c5    0.000000
dtype: float64

##### прямое и обратное

заполнение в прямом порядке

In [29]:
df.c4

a    20.0
b     NaN
c     NaN
d     NaN
e     NaN
f    18.0
g     NaN
Name: c4, dtype: float64

In [30]:
df.c4.fillna(method="ffill")

a    20.0
b    20.0
c    20.0
d    20.0
e    20.0
f    18.0
g    18.0
Name: c4, dtype: float64

либо выполняем обратное заполнение

In [31]:
df.c4.fillna(method="bfill")

a    20.0
b    18.0
c    18.0
d    18.0
e    18.0
f    18.0
g     NaN
Name: c4, dtype: float64

##### с помощью индексов

новая серия для примеров:

In [32]:
fill_values = pd.Series([100, 101, 102], index=['a', 'e', 'g'])
fill_values

a    100
e    101
g    102
dtype: int64

пример заполнения:

In [33]:
df.c4

a    20.0
b     NaN
c     NaN
d     NaN
e     NaN
f    18.0
g     NaN
Name: c4, dtype: float64

In [34]:
df.c4.fillna(fill_values)

a     20.0
b      NaN
c      NaN
d      NaN
e    101.0
f     18.0
g    102.0
Name: c4, dtype: float64

заполняем значения NaN в каждом столбце средним значением этого столбца

In [35]:
df.mean()

c1     7.5
c2     8.5
c3     9.5
c4    19.0
c5     NaN
dtype: float64

In [36]:
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


In [37]:
df.fillna(df.mean())

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,19.0,
c,6.0,7.0,8.0,19.0,
d,9.0,10.0,11.0,19.0,
e,12.0,13.0,14.0,19.0,
f,15.0,16.0,17.0,18.0,
g,7.5,8.5,9.5,19.0,


#### интерполяция пропущенных значений

выполняем линейную интерполяцию ( method = 'linear' по умолчанию) значений NaN с 1 по 2

In [38]:
s = pd.Series([1, np.nan, np.nan, np.nan, 2])
s

0    1.0
1    NaN
2    NaN
3    NaN
4    2.0
dtype: float64

In [39]:
s.interpolate()

0    1.00
1    1.25
2    1.50
3    1.75
4    2.00
dtype: float64

создаем временной ряд, но при этом значение по одной дате будет пропущено

In [40]:
ts = pd.Series([1, np.nan, 2], 
            index=[datetime(2014, 1, 1), 
                   datetime(2014, 2, 1),                   
                   datetime(2014, 4, 1)])
ts

2014-01-01    1.0
2014-02-01    NaN
2014-04-01    2.0
dtype: float64

выполняем линейную интерполяцию на основе количества элементов в данной серии

In [41]:
ts.interpolate()

2014-01-01    1.0
2014-02-01    1.5
2014-04-01    2.0
dtype: float64

этот программный код учитывает тот факт, что у нас отсутствует запись для 2014-03-01

In [42]:
ts.interpolate(method="time")

2014-01-01    1.000000
2014-02-01    1.344444
2014-04-01    2.000000
dtype: float64

создаем объект Series, чтобы продемонстрировать интерполяцию, основанную на индексных метках

In [43]:
s = pd.Series([0, np.nan, 100], index=[0, 2, 10])
s

0       0.0
2       NaN
10    100.0
dtype: float64

выполняем линейную интерполяцию

In [44]:
s.interpolate()

0       0.0
2      50.0
10    100.0
dtype: float64

выполняем интерполяцию на основе значений индекса

In [45]:
s.interpolate(method="index")

0       0.0
2      20.0
10    100.0
dtype: float64

### Повторяющиеся значения 

создаем датафрейм с дублирующимися строками

In [46]:
data = pd.DataFrame({'a': ['x'] * 3 + ['y'] * 4, 
                     'b': [1, 1, 2, 3, 3, 4, 4]})
data

Unnamed: 0,a,b
0,x,1
1,x,1
2,x,2
3,y,3
4,y,3
5,y,4
6,y,4


определяем, какие строки являются дублирующимися, то есть какие строки уже ранее встречались в датафрейме

In [47]:
data.duplicated()

0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool

удаляем дублирующиеся строки, каждый раз оставляя первое из дублирующихся наблюдений

In [48]:
data.drop_duplicates()

Unnamed: 0,a,b
0,x,1
2,x,2
3,y,3
5,y,4


удаляем дублирующиеся строки, каждый раз оставляя последнее из дублирующихся наблюдений

In [49]:
data.drop_duplicates(keep='last')

Unnamed: 0,a,b
1,x,1
2,x,2
4,y,3
6,y,4


добавляем столбец:

In [50]:
data

Unnamed: 0,a,b
0,x,1
1,x,1
2,x,2
3,y,3
4,y,3
5,y,4
6,y,4


In [51]:
data['c'] = range(7)
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6    False
dtype: bool

In [52]:
data

Unnamed: 0,a,b,c
0,x,1,0
1,x,1,1
2,x,2,2
3,y,3,3
4,y,3,4
5,y,4,5
6,y,4,6


но если мы укажем, что нужно удалить дублирующиеся строки с учетом значений в столбцах a и b, результаты будут выглядеть так

In [53]:
data.drop_duplicates(['a', 'b'])

Unnamed: 0,a,b,c
0,x,1,0
2,x,2,2
3,y,3,3
5,y,4,5


### Замена значений

#### метод .map() 

создаем два объекта Series для иллюстрации процесса сопоставления значений

In [54]:
x = pd.Series({"one": 1, "two": 2, "three": 3})
y = pd.Series({1: "a", 2: "b", 3: "c"})
x

one      1
two      2
three    3
dtype: int64

In [55]:
y

1    a
2    b
3    c
dtype: object

сопоставляем значения серии x значениям серии y 

In [56]:
x.map(y)

one      a
two      b
three    c
dtype: object

если между значением серии y и индексной меткой серии x не будет найдено соответствие, будет выдано значение NaN

In [57]:
x = pd.Series({"one": 1, "two": 2, "three": 3})
y = pd.Series({1: "a", 2: "b"})

In [58]:
x

one      1
two      2
three    3
dtype: int64

In [59]:
y

1    a
2    b
dtype: object

In [60]:
x.map(y)

one        a
two        b
three    NaN
dtype: object

#### метод .replace()

для примера

In [61]:
s = pd.Series([0., 1., 2., 3., 2., 4.])
s

0    0.0
1    1.0
2    2.0
3    3.0
4    2.0
5    4.0
dtype: float64

замена 2 на 5

In [62]:
s.replace(2, 5)

0    0.0
1    1.0
2    5.0
3    3.0
4    5.0
5    4.0
dtype: float64

заменяем все элементы новыми значениями

In [63]:
s.replace([0, 1, 2, 3, 4], [4, 3, 2, 1, 0])

0    4.0
1    3.0
2    2.0
3    1.0
4    2.0
5    0.0
dtype: float64

In [64]:
s

0    0.0
1    1.0
2    2.0
3    3.0
4    2.0
5    4.0
dtype: float64

заменяем элементы, используя в качестве аргумента словарь

In [65]:
s.replace({0: 10, 2: 100})

0     10.0
1      1.0
2    100.0
3      3.0
4    100.0
5      4.0
dtype: float64

создаем датафрейм с двумя столбцами

In [66]:
df = pd.DataFrame({'a': [0, 1, 2, 3, 4], 'b': [5, 6, 7, 8, 9]})
df

Unnamed: 0,a,b
0,0,5
1,1,6
2,2,7
3,3,8
4,4,9


задаем разные заменяемые значения для каждого столбца

In [67]:
df.replace({'a': 1, 'b': 8}, {'a': 777, 'b': 888})

Unnamed: 0,a,b
0,0,5
1,777,6
2,2,7
3,3,888
4,4,9


### Применение функций

#### к стокам / столбцам

иллюстрируем применение функции к каждому элементу объекта Series

In [68]:
s = pd.Series(np.arange(0, 5))
s

0    0
1    1
2    2
3    3
4    4
dtype: int32

In [69]:
s.apply(lambda v: v * 3)

0     0
1     3
2     6
3     9
4    12
dtype: int64

создаем датафрейм, чтобы проиллюстрировать применение операции суммирования к каждому столбцу

In [70]:
df = pd.DataFrame(np.arange(12).reshape(4, 3), 
                  columns=['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


вычисляем сумму элементов в каждом столбце

In [71]:
df.apply(lambda col: col.sum())

a    18
b    22
c    26
dtype: int64

вычисляем сумму элементов в каждой строке

In [72]:
df.apply(lambda row: row.sum(), axis=1)

0     3
1    12
2    21
3    30
dtype: int64

создаем столбец 'interim' путем умножения столбцов a и b

In [73]:
df

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [74]:
df['interim'] = df.apply(lambda r: r.a * r.b, axis=1)
df

Unnamed: 0,a,b,c,interim
0,0,1,2,0
1,3,4,5,12
2,6,7,8,42
3,9,10,11,90


а теперь получаем столбец 'result' путем сложения столбцов 'interim' и 'c'

In [75]:
df['result'] = df.apply(lambda r: r.interim + r.c, axis=1)
df

Unnamed: 0,a,b,c,interim,result
0,0,1,2,0,2
1,3,4,5,12,17
2,6,7,8,42,50
3,9,10,11,90,101


#### к значениям

используем метод .applymap() для всех значений датафрейма, чтобы изменить формат всех элементов объекта DataFrame

In [76]:
df

Unnamed: 0,a,b,c,interim,result
0,0,1,2,0,2
1,3,4,5,12,17
2,6,7,8,42,50
3,9,10,11,90,101


In [77]:
df.applymap(lambda x: np.exp(x)/10)

Unnamed: 0,a,b,c,interim,result
0,0.1,0.271828,0.738906,0.1,0.7389056
1,2.008554,5.459815,14.841316,16275.48,2415495.0
2,40.342879,109.663316,298.095799,1.739275e+17,5.184706e+20
3,810.308393,2202.646579,5987.414172,1.220403e+38,7.307060000000001e+42
