In [1]:
# Pandas предназначен для работы с табличными или неоднородными данными, а NumPy с однородными данными в виде массивов

In [46]:
import pandas as pd
import numpy as np

In [3]:
# Возможно мы захотим сразу импортировать в локальное пространство имен часто используемые классы Series \ DataFrame

In [4]:
from pandas import Series, DataFrame

In [5]:

# В пандас имеется две основные структуры данных - Series и DataFrame

# Series

In [7]:
# Series - одномерный, похожий на массив объект, содержащий последовательность данных и ассоциируемый  ним массив меток
# который называется индексом.

In [8]:
ibj = Series([5, -1, 2, 'r4'])

In [9]:
ibj

0     5
1    -1
2     2
3    r4
dtype: object

In [10]:
ibj = Series([5, -1, 2, 6])

In [11]:
ibj

0    5
1   -1
2    2
3    6
dtype: int64

In [12]:
ibj.values # атрибут, показывающий значения

array([ 5, -1,  2,  6])

In [14]:
ibj.index # атрибут, показывающий набор индексов

RangeIndex(start=0, stop=4, step=1)

In [15]:
# Сейчас поменяем значения и индексы

In [18]:
a = Series([1, 2, 3, 0], index=['a', 'b', 'c', 'd'])

In [19]:
a

a    1
b    2
c    3
d    0
dtype: int64

In [20]:
a.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [21]:
a.values

array([1, 2, 3, 0])

In [22]:
a['a']

1

In [23]:
a['c']

3

In [24]:
a['c'] = -1

In [25]:
a

a    1
b    2
c   -1
d    0
dtype: int64

In [27]:
a[['a', 'd']] = 100

In [28]:
a

a    100
b      2
c     -1
d    100
dtype: int64

In [29]:
a[1]

2

In [30]:
a[0]

100

In [31]:
a['a']

100

In [32]:
# То есть все равно можно обращаться по индексированию по умолчанию, даже, если мы изменили

In [40]:
b = Series([100, 200, 300, 400, 500])

In [41]:
b

0    100
1    200
2    300
3    400
4    500
dtype: int64

In [42]:
b[b>100] # Прям как в NumPy)))))

1    200
2    300
3    400
4    500
dtype: int64

In [45]:
b * 2

0     200
1     400
2     600
3     800
4    1000
dtype: int64

In [50]:
b**2

0     10000
1     40000
2     90000
3    160000
4    250000
dtype: int64

In [51]:
np.mean(b)

300.0

In [52]:
# Series можно представить как упорядоченный словарь фиксированной длины, т.к. он отображает индекс на данные
# Его поэтому можно передавать функциям, ожидающих на вход словарь!


In [55]:
0 in b

True

In [56]:
1 in b

True

In [57]:
'c' in a

True

In [58]:
1 in a

False

In [59]:
# Из словаря питона легко создать объект Series

In [60]:
slovar = {'a':100, (1,2,3):200, 5:'hello'}

In [61]:
new_obj_series = pd.Series(slovar)

In [62]:
new_obj_series

a              100
(1, 2, 3)      200
5            hello
dtype: object

In [67]:
new_obj_series['a']

100

In [69]:
new_obj_series[(1,2,3)]

200

In [71]:
# Если в pd.Series передать только словарь, то ключи станут индексамиу  нашего объекта

In [80]:
new_obj_series_2 = pd.Series(slovar, index=['a', 'b', 4, 5, 6, 7, 8])

In [81]:
new_obj_series_2

a      100
b      NaN
4      NaN
5    hello
6      NaN
7      NaN
8      NaN
dtype: object

In [82]:
# Вот мы видим, что появились NA, это неопределенные значения. Чтобы их выявить - удонбно пользоваться
# функциями isnull() и notnull()

In [83]:
pd.isnull(new_obj_series_2)

a    False
b     True
4     True
5    False
6     True
7     True
8     True
dtype: bool

In [84]:
pd.notnull(new_obj_series_2)

a     True
b    False
4    False
5     True
6    False
7    False
8    False
dtype: bool

In [86]:
# У объекта Series есть также методы экземпляра, то есть я могу записывать не так как выше
# pd.notnull(new_obj_series_2)
# а просто
new_obj_series_2.notnull()

a     True
b    False
4    False
5     True
6    False
7    False
8    False
dtype: bool

In [87]:
slovar = {'Ryza': 100, 'Moscow': 200, 'Istra': 500}

In [88]:
a = pd.Series(slovar)

In [89]:
a

Ryza      100
Moscow    200
Istra     500
dtype: int64

In [95]:
b = pd.Series(slovar, index=['Dmitrov', 'Istra', 'Chebur', 'Moscow'])

In [96]:
b

Dmitrov      NaN
Istra      500.0
Chebur       NaN
Moscow     200.0
dtype: float64

In [98]:
a + b # аналог операции соединения таблиц

Chebur        NaN
Dmitrov       NaN
Istra      1000.0
Moscow      400.0
Ryza          NaN
dtype: float64

In [99]:
# У самого объекта Series и его index есть атрибут name. Он дает имя!!!!!)

In [100]:
a

Ryza      100
Moscow    200
Istra     500
dtype: int64

In [103]:
a.name = 'Зарплата в тысячах'

In [104]:
a

Ryza      100
Moscow    200
Istra     500
Name: Зарплата в тысячах, dtype: int64

In [105]:
a.index.name = 'Города'

In [106]:
a

Города
Ryza      100
Moscow    200
Istra     500
Name: Зарплата в тысячах, dtype: int64

In [107]:
# Индексы можем поменять прямо на месте с помощью присваивания

In [108]:
b

Dmitrov      NaN
Istra      500.0
Chebur       NaN
Moscow     200.0
dtype: float64

In [110]:
b.index = [0, 1, 2, 3]

In [111]:
b # опа, индексы поменяли

0      NaN
1    500.0
2      NaN
3    200.0
dtype: float64

In [117]:
import numpy as np

In [124]:
np.random.randint(-10, 10, 10)

array([ -6, -10,   0,   0,  -7,   9,   9,   9,   8,  -9])

In [125]:
import pandas as pd

In [128]:
a = pd.Series(np.random.randint(-10, 10), index=[chr(i) for i in range(97, 107)])

In [129]:
a

a   -10
b   -10
c   -10
d   -10
e   -10
f   -10
g   -10
h   -10
i   -10
j   -10
dtype: int64

In [130]:
a = pd.Series(np.random.randint(-10, 10), index=[i for i in 'abcdabcfww'])

In [131]:
a

a   -10
b   -10
c   -10
d   -10
a   -10
b   -10
c   -10
f   -10
w   -10
w   -10
dtype: int64

In [132]:
a['a'] = 100

In [133]:
a

a    100
b    -10
c    -10
d    -10
a    100
b    -10
c    -10
f    -10
w    -10
w    -10
dtype: int64

In [134]:
list('sdsdg')

['s', 'd', 's', 'd', 'g']

In [135]:
b = pd.Series([1, 2, 3, 4, 5, 6, 7, 8], index=list('abcdefgh'))

In [136]:
b

a    1
b    2
c    3
d    4
e    5
f    6
g    7
h    8
dtype: int64

In [137]:
['a']*5 + ['b']*10

['a', 'a', 'a', 'a', 'a', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b']

In [138]:
'a'*5 + 'b'*5

'aaaaabbbbb'

In [144]:
# Сейчас создадим из словаря объект Series


3

In [147]:
data = {i : np.random.randint(-10, 10, (5, 2)) for i in 'abcde'}

In [148]:
data

{'a': array([[-10,   9],
        [ -8,   7],
        [  5,   4],
        [-10,  -1],
        [ -3, -10]]),
 'b': array([[-9, -4],
        [ 4,  1],
        [-4,  3],
        [-6, -9],
        [-1,  2]]),
 'c': array([[ 4, -2],
        [-7, -5],
        [-9,  0],
        [-2,  9],
        [ 0,  4]]),
 'd': array([[-8, -1],
        [-8, -6],
        [ 0,  3],
        [-1, -9],
        [ 3,  7]]),
 'e': array([[-8, -3],
        [-1,  0],
        [ 2,  5],
        [ 6,  4],
        [ 5,  2]])}

In [149]:
c = pd.Series(data)

In [150]:
c

a    [[-10, 9], [-8, 7], [5, 4], [-10, -1], [-3, -10]]
b       [[-9, -4], [4, 1], [-4, 3], [-6, -9], [-1, 2]]
c        [[4, -2], [-7, -5], [-9, 0], [-2, 9], [0, 4]]
d       [[-8, -1], [-8, -6], [0, 3], [-1, -9], [3, 7]]
e          [[-8, -3], [-1, 0], [2, 5], [6, 4], [5, 2]]
dtype: object

In [151]:
a

a    100
b    -10
c    -10
d    -10
a    100
b    -10
c    -10
f    -10
w    -10
w    -10
dtype: int64

In [152]:
b

a    1
b    2
c    3
d    4
e    5
f    6
g    7
h    8
dtype: int64

In [162]:
d = pd.Series(a, index=list('ablkfdrgaa')) # какая-то херня, из-за того, что ключи у нас совпдают

ValueError: cannot reindex from a duplicate axis

In [164]:
b

a    1
b    2
c    3
d    4
e    5
f    6
g    7
h    8
dtype: int64

In [167]:
k = pd.Series(b, index=list('abcdefghksrthyt'))
# записывает только те элементы, которые были в изначальном объекте, остальные ключи это неопределнность

In [168]:
k

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
f    6.0
g    7.0
h    8.0
k    NaN
s    NaN
r    NaN
t    NaN
h    8.0
y    NaN
t    NaN
dtype: float64

In [169]:
# В качестве data может выступать скалярное значение, глянь))


In [172]:
v = pd.Series(888, index=list('erwgfvegwewerg'))

In [173]:
v

e    888
r    888
w    888
g    888
f    888
v    888
e    888
g    888
w    888
e    888
w    888
e    888
r    888
g    888
dtype: int64

In [174]:
# Series является массиво-подобными объектами, поэтому они могут быть 
# переданы в качестве аргументов, в любую функцию NumPy, 
# то есть ведут себя почти также как объекты np.ndarray

In [176]:
n = pd.Series(np.random.randint(-10, 10, 5), index=list('12345'))

In [177]:
n

1    -3
2   -10
3     7
4    -6
5    -7
dtype: int64

In [178]:
n.mean()

-3.8

In [179]:
n.sum()

-19

In [180]:
n.max()

7

In [181]:
n.min()

-10

In [183]:
np.sqrt(n)

  result = getattr(ufunc, method)(*inputs, **kwargs)


1         NaN
2         NaN
3    2.645751
4         NaN
5         NaN
dtype: float64

In [184]:
n[1]

-10

In [187]:
n[::2] # теже срезы как и в NumPy

1   -3
3    7
5   -7
dtype: int64

In [190]:
n[n<n.mean()] # Результаты булевой индексации

2   -10
4    -6
5    -7
dtype: int64

In [191]:
n[n>0]

3    7
dtype: int64

In [195]:
n[[0, 1, -1]]

1    -3
2   -10
5    -7
dtype: int64

In [200]:
n

1    -3
2   -10
3     7
4    -6
5    -7
dtype: int64

In [202]:
np.diff(n) # функция промежуточных значений разности

array([ -7,  17, -13,  -1])

In [203]:
np.diff(n)**2 # функция промежуточных значений разности

array([ 49, 289, 169,   1])

In [211]:
'd' in n

False

In [212]:
'1' in n # ключи представляются в виде строк????????

True

In [217]:
n.keys() # прям как в обычных словарях

Index(['1', '2', '3', '4', '5'], dtype='object')

In [219]:
n.index # аналогично выше. только мы уже к атрибуту обращаемся

Index(['1', '2', '3', '4', '5'], dtype='object')

In [215]:
n.values

array([ -3, -10,   7,  -6,  -7])

In [223]:
# Как и в NumPy все операции над сериями векторизованы, но все они выполняются
# с выравниваем индекса

In [225]:
s1 = pd.Series(np.arange(5), index=list('abcde'))

In [226]:
s2 = pd.Series(np.arange(5, 10), index=list('acexy'))

In [227]:
s1

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [228]:
s2

a    5
c    6
e    7
x    8
y    9
dtype: int64

In [229]:
s1, s2

(a    0
 b    1
 c    2
 d    3
 e    4
 dtype: int64,
 a    5
 c    6
 e    7
 x    8
 y    9
 dtype: int64)

In [231]:
s1 + s2

a     5.0
b     NaN
c     8.0
d     NaN
e    11.0
x     NaN
y     NaN
dtype: float64

In [232]:
s1 * s2

a     0.0
b     NaN
c    12.0
d     NaN
e    28.0
x     NaN
y     NaN
dtype: float64

In [233]:
# Возникает вопрос - че за подлянка????

In [234]:
# Как я писал выше - происходит выравнивание по индексам, это означает, что
# операции выполняются только с одинаковыми индексами, остальные индексы попадаю в значение NAN
# в первом у нас есть 'a' и во втором есть 'a' , значит их сумма 5
# далее, например, в первом есть 'b', а во втором его нет, значит будет результатом NAN

In [235]:
s1.rename('3r')

a    0
b    1
c    2
d    3
e    4
Name: 3r, dtype: int64

In [236]:
s1.name = 'count' # даем переименование

In [237]:
s1

a    0
b    1
c    2
d    3
e    4
Name: count, dtype: int64

In [238]:
s1.index.name = 'bukv'

In [239]:
s1

bukv
a    0
b    1
c    2
d    3
e    4
Name: count, dtype: int64

# DataFrame

In [240]:
# DataFrame представляет собой тмбличную структуру данных, состоящую из упорядоченной коллекции столбцов, причем
# типы значений в разных столбцах могут отличаться. В объекте DataFrame хранятся 2 индекса: по строкам и столбцам
# Можно считать, что это словарь объектов Series, имеющих общий индекс
#
#

In [252]:
# Самый простой способ получить объект DataFrame - сформировать его на основве словаря списков ОДИНАКОВОЙ длины и массивов NumPy

In [248]:
data = {'state' : ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year' : [2000, 2001, 2002, 2001, 2002, 2003],
        'pop' : [1.5, 1,7, 3, 6, 2.9]
       
       
       
       }

In [249]:
data

{'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
 'year': [2000, 2001, 2002, 2001, 2002, 2003],
 'pop': [1.5, 1, 7, 3, 6, 2.9]}

In [250]:
frame = pd.DataFrame(data)

In [251]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.0
2,Ohio,2002,7.0
3,Nevada,2001,3.0
4,Nevada,2002,6.0
5,Nevada,2003,2.9


In [258]:
frame.head() # head() отбирает только первые 5 строк

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.0
2,Ohio,2002,7.0
3,Nevada,2001,3.0
4,Nevada,2002,6.0


In [259]:
# Нравится как расположены столбцы? Мне - нет, давай их поменяем местами!

In [262]:
pd.DataFrame(frame, columns=['pop', 'state', 'year']) # вот и поменяли)))))

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.0,Ohio,2001
2,7.0,Ohio,2002
3,3.0,Nevada,2001
4,6.0,Nevada,2002
5,2.9,Nevada,2003


In [263]:
# Если запросить столбец, которого нет, то он будет заполнен NAN

In [266]:
frame2 = pd.DataFrame(data, columns=['pop', 'state', 'goals', 'year'], index=list('123456'))

In [267]:
# Смотрим внимательно, я изменил индксацию и добавил новый столбец, которого не было ранее

In [268]:
frame2


Unnamed: 0,pop,state,goals,year
1,1.5,Ohio,,2000
2,1.0,Ohio,,2001
3,7.0,Ohio,,2002
4,3.0,Nevada,,2001
5,6.0,Nevada,,2002
6,2.9,Nevada,,2003


In [270]:
frame2.tail() # показывает последние 5 строк))

Unnamed: 0,pop,state,goals,year
2,1.0,Ohio,,2001
3,7.0,Ohio,,2002
4,3.0,Nevada,,2001
5,6.0,Nevada,,2002
6,2.9,Nevada,,2003


In [271]:
# Как и в Series есть атрибуты у объекта DataFrame

In [272]:
frame2.index

Index(['1', '2', '3', '4', '5', '6'], dtype='object')

In [273]:
frame2.columns

Index(['pop', 'state', 'goals', 'year'], dtype='object')

In [274]:
frame2.values

array([[1.5, 'Ohio', nan, 2000],
       [1.0, 'Ohio', nan, 2001],
       [7.0, 'Ohio', nan, 2002],
       [3.0, 'Nevada', nan, 2001],
       [6.0, 'Nevada', nan, 2002],
       [2.9, 'Nevada', nan, 2003]], dtype=object)

In [278]:
frame2

Unnamed: 0,pop,state,goals,year
1,1.5,Ohio,,2000
2,1.0,Ohio,,2001
3,7.0,Ohio,,2002
4,3.0,Nevada,,2001
5,6.0,Nevada,,2002
6,2.9,Nevada,,2003


In [281]:
# Столбец DataFrame можно извлекать как объект Series, воспользовавшись нотацией словаря или через атрибут, смотри 

In [282]:
frame2['pop']

1    1.5
2    1.0
3    7.0
4    3.0
5    6.0
6    2.9
Name: pop, dtype: float64

In [285]:
frame2.year

1    2000
2    2001
3    2002
4    2001
5    2002
6    2003
Name: year, dtype: int64

In [292]:
frame2['1'] # Какого хрена не извлекается по индексу?????? Смотри ниже

KeyError: '1'

In [293]:
# Объект Series имеет тот же индекс, что и соответстующая строка в DataFrame

In [294]:
# И отвечая на вопрос выше, строки можно извлечь по позиции или имени атрибута через специальный атрибут loc!!!!!!

In [298]:
frame2.loc['1']

pop       1.5
state    Ohio
goals     NaN
year     2000
Name: 1, dtype: object

In [301]:
# Столбцы можно модифицировать путем присваивания

In [302]:
frame2['goals']

1    NaN
2    NaN
3    NaN
4    NaN
5    NaN
6    NaN
Name: goals, dtype: object

In [305]:
frame2['goals'] = 100 # Избавились от Nan

In [306]:
frame2

Unnamed: 0,pop,state,goals,year
1,1.5,Ohio,100,2000
2,1.0,Ohio,100,2001
3,7.0,Ohio,100,2002
4,3.0,Nevada,100,2001
5,6.0,Nevada,100,2002
6,2.9,Nevada,100,2003


In [309]:
frame2['goals'] = np.random.randint(1, 10, 6) # Или так заполнить

In [310]:
frame2

Unnamed: 0,pop,state,goals,year
1,1.5,Ohio,6,2000
2,1.0,Ohio,4,2001
3,7.0,Ohio,9,2002
4,3.0,Nevada,4,2001
5,6.0,Nevada,3,2002
6,2.9,Nevada,6,2003


In [311]:
# Создадим объект Series

In [312]:
val = pd.Series([1, 100, 500], index=list('123'))

In [313]:
val

1      1
2    100
3    500
dtype: int64

In [314]:
frame2['goals'] = val

In [315]:
frame2

Unnamed: 0,pop,state,goals,year
1,1.5,Ohio,1.0,2000
2,1.0,Ohio,100.0,2001
3,7.0,Ohio,500.0,2002
4,3.0,Nevada,,2001
5,6.0,Nevada,,2002
6,2.9,Nevada,,2003


In [316]:
# Что мы увидели выше? Я создал объект Series и присвоил его столбцу goals, заметьте, что
# series объект мой был с такими же индексами, как у датафраме, поэтому все нормально добавится
# но так, как мы прошли не все значения, то осавшиеся будут заполнены NAN

In [317]:
val2 = pd.Series([1, 100, 500], index=list('123')) 

In [None]:
# Присваивание несущетсвуещему стобцу создает новый столбец!!!!!

In [318]:
frame2['new'] = val2


In [319]:
frame2

Unnamed: 0,pop,state,goals,year,new
1,1.5,Ohio,1.0,2000,1.0
2,1.0,Ohio,100.0,2001,100.0
3,7.0,Ohio,500.0,2002,500.0
4,3.0,Nevada,,2001,
5,6.0,Nevada,,2002,
6,2.9,Nevada,,2003,


In [320]:
# С помощью  del можно удалять столбцы

In [322]:
frame2.state == 'Ohio' 

1     True
2     True
3     True
4    False
5    False
6    False
Name: state, dtype: bool

In [323]:
frame2

Unnamed: 0,pop,state,goals,year,new
1,1.5,Ohio,1.0,2000,1.0
2,1.0,Ohio,100.0,2001,100.0
3,7.0,Ohio,500.0,2002,500.0
4,3.0,Nevada,,2001,
5,6.0,Nevada,,2002,
6,2.9,Nevada,,2003,


In [324]:
# Вот вверху я проверял на совпадение, а давай-ка я добавлю этот столбец в мой объект

In [325]:
frame2['juk'] = frame2.state == 'Ohio'

In [326]:
frame2

Unnamed: 0,pop,state,goals,year,new,juk
1,1.5,Ohio,1.0,2000,1.0,True
2,1.0,Ohio,100.0,2001,100.0,True
3,7.0,Ohio,500.0,2002,500.0,True
4,3.0,Nevada,,2001,,False
5,6.0,Nevada,,2002,,False
6,2.9,Nevada,,2003,,False


In [328]:
# Ай, ладно, я передумал давй удалим этот столбец c помощью оператора del

In [330]:
del frame2['juk']

In [331]:
frame2

Unnamed: 0,pop,state,goals,year,new
1,1.5,Ohio,1.0,2000,1.0
2,1.0,Ohio,100.0,2001,100.0
3,7.0,Ohio,500.0,2002,500.0
4,3.0,Nevada,,2001,
5,6.0,Nevada,,2002,
6,2.9,Nevada,,2003,


In [340]:
frame2.columns # через атрибут получают какие есть столбцы, это представление, а не копия данных!!!!!!

Index(['pop', 'goals', 'year', 'new', 'state'], dtype='object')

In [341]:
frame2.columns = ['pop', 'goals', 'year', 'new', 'state'] # меняю порядок столбцов

In [342]:
frame2

Unnamed: 0,pop,goals,year,new,state
1,1.5,Ohio,1.0,2000,1.0
2,1.0,Ohio,100.0,2001,100.0
3,7.0,Ohio,500.0,2002,500.0
4,3.0,Nevada,,2001,
5,6.0,Nevada,,2002,
6,2.9,Nevada,,2003,


In [343]:
# Еще одна распространенная форма данных - словарь словарей

In [344]:
pop = {'Nevada' : {2001 : 2.4, 2002 : 2.9}, 'Ohio' : {2000 : 1.5, 2001 : 1.7, 2002 : 3.6}}

In [345]:
frame3 = pd.DataFrame(pop)

In [347]:
# Если мы имеем дело с словарем словарей, то ключи внешнего словаря - стоблцы, а ключи внутрненнего - индексы!

In [348]:
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [349]:
# Объект DataFrame можно трнаспонировать, то есть менять местами строки и столбцы

In [350]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [352]:
frame4 = pd.DataFrame(frame3, index=[2001, 2002, 2003])

In [353]:
frame4

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [357]:
frame3['Ohio'][:-1] # это объект Series!!!!!

2001    1.7
2002    3.6
Name: Ohio, dtype: float64

In [358]:
# Словари объектов Series интерпретируются очень похоже на словарь словарей

In [359]:
pdata = {'Ohio' : frame3['Ohio'][:-1], 'Nevada' : frame3['Nevada'][:2]}

In [360]:
pdata

{'Ohio': 2001    1.7
 2002    3.6
 Name: Ohio, dtype: float64,
 'Nevada': 2001    2.4
 2002    2.9
 Name: Nevada, dtype: float64}

In [361]:
DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


In [365]:
# Установим имена для строк и столбцов

In [366]:
frame3.index.name = 'Года'

In [373]:
frame.columns.name = 'Sta'

In [374]:
frame3

Unnamed: 0_level_0,Nevada,Ohio
Года,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [375]:
# Как и в случае с Series, атрибут values возвращает данные из нашего фрейма в виде дмумерного массива ndarray

In [376]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [378]:
# Если у столбцов разный тип данных, то dtype приведет к наиболее общему типу, чтобы обхватить все столбцы

In [1]:
# Индексные объекты 

In [2]:
import pandas as pd

In [6]:
data = {'Ruza' : {2001 : 1.7, 2002 : 2.}, 'Moscow' : {2004 : 1.5, 2006 : 2.5, 2009 : 1.1}}

In [7]:
frame = pd.DataFrame(data)

In [8]:
frame

Unnamed: 0,Ruza,Moscow
2001,1.7,
2002,2.0,
2004,,1.5
2006,,2.5
2009,,1.1


In [9]:
new = {'Moscow' : [2001, 2002, 2003], 'Ruza' : [10, 20, 30]}

In [10]:
frame2 = pd.DataFrame(new)

In [11]:
frame2

Unnamed: 0,Moscow,Ruza
0,2001,10
1,2002,20
2,2003,30


In [12]:
obj = pd.Series(range(3), index=list('abc'))

In [13]:
obj

a    0
b    1
c    2
dtype: int64

In [15]:
test = obj.index

In [16]:
test

Index(['a', 'b', 'c'], dtype='object')

In [17]:
test[1]

'b'

In [18]:
test[:]

Index(['a', 'b', 'c'], dtype='object')

In [19]:
# Индексные объекты неизменяемы, то есть пользователь не может их модифицировать. Будет ошибка!!!!!!

In [20]:
test[1] = 'r'

TypeError: Index does not support mutable operations

In [21]:
# Неизменяемость важна, для того чтобы несколько структур данных могли совместно использовать один и тот же индексный объект
# НЕ ОПАСАЯСЬ ЕГО ПОВРЕДИТЬ

In [27]:
import numpy as np
labels = pd.Index(np.arange(5)) # создаем объект класса Index

In [28]:
labels

Int64Index([0, 1, 2, 3, 4], dtype='int64')

In [31]:
obj = pd.Series([0, 1, 2, 3, 4], index=labels)

In [32]:
obj

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [33]:
obj.index

Int64Index([0, 1, 2, 3, 4], dtype='int64')

In [34]:
obj.index is labels

True

In [35]:
# Объект Index не только похож на массив, но и ведет себя как множество фиксироавнного размера

In [36]:
frame

Unnamed: 0,Ruza,Moscow
2001,1.7,
2002,2.0,
2004,,1.5
2006,,2.5
2009,,1.1


In [41]:
frame.columns = ['Moscow', 'Ruza']

In [42]:
frame

Unnamed: 0,Moscow,Ruza
2001,1.7,
2002,2.0,
2004,,1.5
2006,,2.5
2009,,1.1


In [44]:
frame.columns.name = 'Города'

In [47]:
frame.index.name = 'ГОда'

In [50]:
frame

Города,Moscow,Ruza
ГОда,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,1.7,
2002,2.0,
2004,,1.5
2006,,2.5
2009,,1.1


In [53]:
'Moscow' in frame.columns

True

In [54]:
2009 in frame.index

True

In [55]:
# В отличие от множеств Python, объект Index в Pandas может содержать повторяющиеся метки!


In [56]:
duplicate = pd.Index(list('aaaabcdffgddffaa'))

In [58]:
duplicate

Index(['a', 'a', 'a', 'a', 'b', 'c', 'd', 'f', 'f', 'g', 'd', 'd', 'f', 'f',
       'a', 'a'],
      dtype='object')

In [59]:
frame3 = pd.DataFrame(data, index=duplicate)

In [60]:
frame3

Unnamed: 0,Ruza,Moscow
a,,
a,,
a,,
a,,
b,,
c,,
d,,
f,,
f,,
g,,


In [61]:
# Если при выборе указана повторяющаяся метка, то будут выбраны все элементы с такой меткой

In [63]:
frame3.loc['a']

Unnamed: 0,Ruza,Moscow
a,,
a,,
a,,
a,,
a,,
a,,


In [73]:
pd.unique(frame3.index)

array(['a', 'b', 'c', 'd', 'f', 'g'], dtype=object)

# Базовая функциональность

In [74]:
# Переиндексация

In [76]:
# Для объектов Pandas важен метод reindex, то есть СОЗДАНИЕ нового объекта, данные
# в котором согласуются с новым индексом. Рассмотрим пример:

In [78]:
obj = pd.Series([4.5, 1.2, 3.4], index=list('dba'))

In [79]:
obj

d    4.5
b    1.2
a    3.4
dtype: float64

In [80]:
# Если вызвать метод reindex для этого объекта и указать ему новые индексы, то данные будут реорганизованы 
# в соответсвии с новым индексом, а если в новом передаваемом индексе значений не было, то будет NAN

In [81]:
obj2 = obj.reindex(list('avcb'))

In [82]:
obj2

a    3.4
v    NaN
c    NaN
b    1.2
dtype: float64

In [84]:
# Для упорядочивания данных, например, временных рядов, иногда желательно произвести интерполяцию,
# или восполнение отствующих значений в процессе переиндексации.
# Это позволяет сделать параметр method 
# так, если задать ему значение параметра 'ffill', то будет произведено прямое восполненеи значений

In [85]:
obj = pd.Series(['Blue', 'Purple', 'Yellow'], index=[0, 2, 5])

In [86]:
obj

0      Blue
2    Purple
5    Yellow
dtype: object

In [88]:
obj.reindex(range(6), method='ffill')

0      Blue
1      Blue
2    Purple
3    Purple
4    Purple
5    Yellow
dtype: object

In [89]:
# В случае объекта DataFrame функция reindex() строки, столбцы или и то и другое. 
# Если ей передать просто после-ть, то в результате переиндексируются ТОЛЬКО СТРОКИ

In [95]:
np.random.randint(4, 9, 5)

array([4, 8, 8, 6, 7])

In [96]:
frame = pd.DataFrame(np.random.randint(0, 10, (3, 3)), index=list('acd'))

In [97]:
frame

Unnamed: 0,0,1,2
a,0,5,2
c,2,8,3
d,0,5,4


In [98]:
frame = pd.DataFrame(np.random.randint(0, 10, (3, 3)), index=list('acd'), columns=['Ohio', 'Texas', 'California'])

In [99]:
frame

Unnamed: 0,Ohio,Texas,California
a,8,4,2
c,0,3,1
d,9,3,9


In [100]:
# Если ей передать просто после-ть, то в результате переиндексируются ТОЛЬКО СТРОКИ!!!!!

In [101]:
frame.reindex(list('abcd'))

Unnamed: 0,Ohio,Texas,California
a,8.0,4.0,2.0
b,,,
c,0.0,3.0,1.0
d,9.0,3.0,9.0


In [102]:
# А как же тогда столбцы то поменять??? А вот с помощью параметра columns это ключевое слово

In [103]:
frame.reindex(columns=['Texas', 'California', 'Ruza'])

Unnamed: 0,Texas,California,Ruza
a,4,2,
c,3,1,
d,3,9,


In [104]:
# Приведу еще один способ переиндексации, которым большинство и пользуются

In [105]:
# Это способ посредсвом loc

In [106]:
frame

Unnamed: 0,Ohio,Texas,California
a,8,4,2
c,0,3,1
d,9,3,9


In [109]:
frame.loc[['a', 'd', 'c']] # таким способ мы просто переставили строки

Unnamed: 0,Ohio,Texas,California
a,8,4,2
d,9,3,9
c,0,3,1


In [113]:
frame.loc[['a', 'd', 'c', 'r']] # только новую строку добавить так не получится

KeyError: "['r'] not in index"

In [114]:
frame.loc['r'] = 100 # вот так добавили новую строку, чисто через скаляр

In [115]:
frame

Unnamed: 0,Ohio,Texas,California
a,8,4,2
c,0,3,1
d,9,3,9
r,100,100,100


In [119]:
frame.loc[['r', 'a'], ['Texas', 'California']] # вот так тоже через loc поменяли нашу таблицу

Unnamed: 0,Texas,California
r,100,100
a,4,2


In [120]:
frame

Unnamed: 0,Ohio,Texas,California
a,8,4,2
c,0,3,1
d,9,3,9
r,100,100,100


In [121]:
# Удаление элементов из оси

In [122]:
# C помощью метода drop() можно удалять указанные значения, он возвращает новый объект с удаленными значениями

In [123]:
obj = pd.Series(np.arange(5), index=list('abcde'))

In [124]:
obj

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [127]:
obj2 = obj.drop('c')

In [128]:
obj2

a    0
b    1
d    3
e    4
dtype: int64

In [130]:
obj2.drop(['a', 'e'])

b    1
d    3
dtype: int64

In [131]:
# В случае с DataFrame указанные в индексе значения можно удалить из любой оси

In [133]:
data = pd.DataFrame(np.arange(16).reshape(4, 4), index=['Ruza', 'Tula', 'Orel', 'Samara'], columns=['one', 'two', 'three', 'four'])

In [134]:
data

Unnamed: 0,one,two,three,four
Ruza,0,1,2,3
Tula,4,5,6,7
Orel,8,9,10,11
Samara,12,13,14,15


In [135]:
# Если вызвать drop и указать посл-ть меток, то будут они удалены (ось 0)

In [137]:
data.drop(['Orel', 'Samara'], axis=0)

Unnamed: 0,one,two,three,four
Ruza,0,1,2,3
Tula,4,5,6,7


In [139]:
# Чтобы удалить столбцы, следует указать axis=1, или axis='columns'

In [140]:
data.drop('one', axis=1)

Unnamed: 0,two,three,four
Ruza,1,2,3
Tula,5,6,7
Orel,9,10,11
Samara,13,14,15


In [146]:
data.loc['Ruza']['one'] = 100

In [147]:
data

Unnamed: 0,one,two,three,four
Ruza,100,1,2,3
Tula,4,5,6,7
Orel,8,9,10,11
Samara,12,13,14,15


In [148]:
# Многие функции, подобные drop(), могут модифицировать размер или форму Series или DataFrame, могут ИЗМЕНЯТЬ ОБЪЕКТ
# НА МЕСТЕ, не создавая новый объект. Например, в drop активировать режим inplace

In [149]:
data

Unnamed: 0,one,two,three,four
Ruza,100,1,2,3
Tula,4,5,6,7
Orel,8,9,10,11
Samara,12,13,14,15


In [151]:
data.drop('one', axis=1) # удалил, но не изменил начальный объект

Unnamed: 0,two,three,four
Ruza,1,2,3
Tula,5,6,7
Orel,9,10,11
Samara,13,14,15


In [152]:
data

Unnamed: 0,one,two,three,four
Ruza,100,1,2,3
Tula,4,5,6,7
Orel,8,9,10,11
Samara,12,13,14,15


In [158]:
data.drop('two', axis=1, inplace=True) # а вот тут сразу изменил начальный объект!!!!!!!!!!))))

In [159]:
data

Unnamed: 0,three,four
Ruza,2,3
Tula,6,7
Orel,10,11
Samara,14,15


In [160]:
# Но нужно быть острожным, поскольку с режимом inplace удаленные данные уничтожаются!!!!

In [161]:
obj

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [162]:
obj['b']

1

In [167]:
obj['a']

0

In [168]:
obj[0]

0

In [169]:
obj[[1, 3, 0]]

b    1
d    3
a    0
dtype: int64

In [170]:
# Вырезания с помощью меток отличается от обычного вырезания тем, что КОНЕЦ ВКЛЮЧАЕТСЯ!!!

In [172]:
obj['a':'d'] # обе границы включаются

a    0
b    1
c    2
d    3
dtype: int64

In [173]:
# также через срезы можем установить значение

In [174]:
obj['a':'d'] = 200

In [175]:
obj

a    200
b    200
c    200
d    200
e      4
dtype: int64

In [176]:
# Обращение по индексу к DataFrame по индексу преж=дназначено для получения одного или нескольких столбцов
# путем задания одного значения или последовательности

In [177]:
data = pd.DataFrame(np.arange(16).reshape(4, 4), index=['Ruza', 'Tula', 'Orel', 'Samara'], columns=['one', 'two', 'three', 'four'])

In [178]:
data

Unnamed: 0,one,two,three,four
Ruza,0,1,2,3
Tula,4,5,6,7
Orel,8,9,10,11
Samara,12,13,14,15


In [180]:
data['Ruza'] # так, по строке не получается обратиться, попробую аналогично, но по столбцу

KeyError: 'Ruza'

In [181]:
data['one'] # надо же, все получилось!!!!!!!

Ruza       0
Tula       4
Orel       8
Samara    12
Name: one, dtype: int64

In [182]:
data[['one', 'two']] = 100

In [183]:
data

Unnamed: 0,one,two,three,four
Ruza,100,100,2,3
Tula,100,100,6,7
Orel,100,100,10,11
Samara,100,100,14,15


In [186]:
data[['one', 'two']] # обращаюсь сразу к нескольким столбцам

Unnamed: 0,one,two
Ruza,100,100
Tula,100,100
Orel,100,100
Samara,100,100


In [187]:
# У доступа по индексу есть несколько частных случаев:


In [188]:
# Во-первых, это выборка или вырезание с помощью, булевого массива

In [189]:
data

Unnamed: 0,one,two,three,four
Ruza,100,100,2,3
Tula,100,100,6,7
Orel,100,100,10,11
Samara,100,100,14,15


In [194]:
data[:3]

Unnamed: 0,one,two,three,four
Ruza,100,100,2,3
Tula,100,100,6,7
Orel,100,100,10,11


In [197]:
data[data['three'] > 2] # взяли так, чтобы было больше

Unnamed: 0,one,two,three,four
Tula,100,100,6,7
Orel,100,100,10,11
Samara,100,100,14,15


In [200]:
data[1:] # так все нормально, а вот если попробуем просто data[1] будем плохо

Unnamed: 0,one,two,three,four
Tula,100,100,6,7
Orel,100,100,10,11
Samara,100,100,14,15


In [201]:
# Для удобства выбираются столбцы через нашу индексацию!

In [204]:
data['one']['Ruza'] # опааааа, вот что значит, надо через столбец обращаться, ОЧЕНЬ ВАЖНО!!!

100

In [205]:
data < 5 # так получаем булев массив

Unnamed: 0,one,two,three,four
Ruza,False,False,True,True
Tula,False,False,False,False
Orel,False,False,False,False
Samara,False,False,False,False


In [206]:
# соответственно через булев массив мы можем обратиться и поменять значения

In [207]:
data[data<5] = 'Круть'

In [208]:
data

Unnamed: 0,one,two,three,four
Ruza,100,100,Круть,Круть
Tula,100,100,6,7
Orel,100,100,10,11
Samara,100,100,14,15


In [209]:
# Очень похоже на обращение к массивам как ndarray

In [210]:
# Выборка с помощью loc и iloc

In [212]:
# То есть напрямую к строке не не можем общаться, только к солбцу, но есть выход - loc и iloc!!!!
# loc - метки строк (loc - положение)
# iloc - целые числа (integer положение)

In [213]:
# В качестве примера выберем одну строку и несклько столбцов по меткам

In [214]:
data

Unnamed: 0,one,two,three,four
Ruza,100,100,Круть,Круть
Tula,100,100,6,7
Orel,100,100,10,11
Samara,100,100,14,15


In [216]:
data.loc['Ruza'] # взяли всю первую строку

one        100
two        100
three    Круть
four     Круть
Name: Ruza, dtype: object

In [218]:
data.loc['Ruza', ['one', 'four']] # Взяли элементы из первой строки и 1 и 4 столбца

one       100
four    Круть
Name: Ruza, dtype: object

In [221]:
# а теперь попробуем аналогично првоести выборку, но через iloc

data.iloc[0] # аналогично тому, как я обращщался через loc['Ruza']

one        100
two        100
three    Круть
four     Круть
Name: Ruza, dtype: object

In [223]:
data.iloc[0, [0, 3]]

one       100
four    Круть
Name: Ruza, dtype: object

In [225]:
data.iloc[[0, 1], [0, 3]]

Unnamed: 0,one,four
Ruza,100,Круть
Tula,100,7


In [226]:
# Обе функции loc и iloc работают также и со срезами

In [227]:
data.loc['Ruza':]

Unnamed: 0,one,two,three,four
Ruza,100,100,Круть,Круть
Tula,100,100,6,7
Orel,100,100,10,11
Samara,100,100,14,15


In [229]:
data.loc['Orel':'Samara'] # опять-таки, напомню, что в пандас граница включается в срезе

Unnamed: 0,one,two,three,four
Orel,100,100,10,11
Samara,100,100,14,15


In [237]:
data['Orel':]

Unnamed: 0,one,two,three,four
Orel,100,100,10,11
Samara,100,100,14,15


In [241]:
data.loc['Orel':, 'one':'three']

Unnamed: 0,one,two,three
Orel,100,100,10
Samara,100,100,14


In [242]:
data

Unnamed: 0,one,two,three,four
Ruza,100,100,Круть,Круть
Tula,100,100,6,7
Orel,100,100,10,11
Samara,100,100,14,15


In [256]:
f = pd.DataFrame(new)

In [257]:
f

Unnamed: 0,Moscow,Ruza
0,2001,10
1,2002,20
2,2003,30


In [261]:
f.iloc[1:, :][f.Ruza > 10]

  f.iloc[1:, :][f.Ruza > 10]


Unnamed: 0,Moscow,Ruza
1,2002,20
2,2003,30


In [262]:
f

Unnamed: 0,Moscow,Ruza
0,2001,10
1,2002,20
2,2003,30


In [266]:
f.at[0, 'Ruza'] # выбор скалярного значения одиночного

10

In [267]:
# Поработаем с целочисленными индексами

In [270]:
ser = pd.Series(np.arange(3.))

In [271]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [272]:
ser[-1]

KeyError: -1

In [273]:
# Да, получили ошибку... это связано с тем, что у  просто питона и пандаса разные взгляды на индексирование

In [274]:
# Короче. лучше пользовать loc и iloc))))))

In [276]:
# Арифметические операции и выравнивание данных  в Pandas
# Одна из важных черт в Pandas - поведение арифметических операций дляобъектов с разными индексами.
# Если при сложении двух объектов обнаруживаются различные пары индексов, то результатирующий индекс будет объединением индексов.



In [277]:
# Рассмотрим простой пример на объектах Series

In [279]:
s1 = pd.Series([1, 2, 3, 4, 5], index=list('abcde'))
s2 = pd.Series([-2, 1.5, 0, 10, -3, 8], index=list('acefgh'))

In [280]:
s1

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [281]:
s2

a    -2.0
c     1.5
e     0.0
f    10.0
g    -3.0
h     8.0
dtype: float64

In [282]:
# Проведем сложение объектов, как думаешь, что получится??

In [284]:
s1 + s2 # Да, то есть нде не было индексов хоть в одном, то в итоге NAN будет

a   -1.0
b    NaN
c    4.5
d    NaN
e    5.0
f    NaN
g    NaN
h    NaN
dtype: float64

In [285]:
# А как дела обстоят с DataFrame?????

In [296]:
# В этом случае выравнивае проводится как для строк, так и для столбцов

In [297]:
d1 = pd.DataFrame(np.arange(9.).reshape(3, 3), index=['Ohio', 'Texas', 'Colorado'], columns=list('bcd'))

In [298]:
d2 = pd.DataFrame(np.arange(16.).reshape(4, 4), index=['Ohio', 'Ruza', 'Colorado', 'Moscow'], columns=list('abde'))

In [299]:
d1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [300]:
d2

Unnamed: 0,a,b,d,e
Ohio,0.0,1.0,2.0,3.0
Ruza,4.0,5.0,6.0,7.0
Colorado,8.0,9.0,10.0,11.0
Moscow,12.0,13.0,14.0,15.0


In [302]:
d1 + d2 # о как!) ожидал?)

Unnamed: 0,a,b,c,d,e
Colorado,,15.0,,18.0,
Moscow,,,,,
Ohio,,1.0,,4.0,
Ruza,,,,,
Texas,,,,,


In [303]:
# То есть, при сложении двух объектов DataFrame мы получаем тоже датафрейм,
# и индекс и столбцы которого являются объединениями индексов и столбцов соответственно

In [304]:
# Если объединить два объекта датафрейм, без общих строк и столбцов, то везде будет NAN

#  Восполнение значений в арифметических методах

In [1]:
# Ну вот есть у нас NAN, а как туда, например закинуть 0? Давайте разбираться

In [7]:
import pandas as pd

In [8]:
import numpy as np

In [14]:
df1 = pd.DataFrame(np.arange(12).reshape(3, 4), columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20).reshape(4, 5), columns=list('abcde'))

In [15]:
df1

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [16]:
df2

Unnamed: 0,a,b,c,d,e
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [24]:
df1['a'][0]

0

In [27]:
df2.loc[1, 'b'] = np.nan

In [28]:
df1

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [29]:
df2

Unnamed: 0,a,b,c,d,e
0,0,1.0,2,3,4
1,5,,7,8,9
2,10,11.0,12,13,14
3,15,16.0,17,18,19


In [30]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [31]:
# Да, вот незадача, опять эти долбанные NAN, а что если  объединить не через +, а через add c параматером fill_value

In [37]:
df1.add(df2, fill_value=0) # помог нормально объединить и убрать NAN

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [38]:
# вот значит add это аналог простого +

In [39]:
a = pd.DataFrame(np.arange(0, 9).reshape(3, 3))

In [41]:
b = pd.DataFrame(np.arange(9, 18).reshape(3, 3))

In [42]:
a

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8


In [43]:
b

Unnamed: 0,0,1,2
0,9,10,11
1,12,13,14
2,15,16,17


In [44]:
a + b

Unnamed: 0,0,1,2
0,9,11,13
1,15,17,19
2,21,23,25


In [45]:
a - b

Unnamed: 0,0,1,2
0,-9,-9,-9
1,-9,-9,-9
2,-9,-9,-9


In [46]:
a

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8


In [47]:
b

Unnamed: 0,0,1,2
0,9,10,11
1,12,13,14
2,15,16,17


In [48]:
a.sub(b)

Unnamed: 0,0,1,2
0,-9,-9,-9
1,-9,-9,-9
2,-9,-9,-9


In [49]:
a.rsub(b)

Unnamed: 0,0,1,2
0,9,9,9
1,9,9,9
2,9,9,9


In [50]:
# Смотри пример выше, есть пример выше, как через гибкие методы проводить операции
# add, radd  +
# sub, rsub  -
# div, rdiv  \
# floordiv, rfloordiv \\
# mul, rmul  *
# pow, rpow  **
# отличие с приставкой r, в том , что выполняется справа налево, а не слева напрво как обычно


In [51]:
# Выше мы узнали о существоанни прекрасного заполнителя fill_value=x, так применить его можно и к reindex!!!
# можно применять всегда, когда будут возникать неопределенности

In [52]:
df1

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [53]:
df1.reindex(columns=df2.columns)

Unnamed: 0,a,b,c,d,e
0,0,1,2,3,
1,4,5,6,7,
2,8,9,10,11,


In [56]:
df1.reindex(columns=df2.columns, fill_value=0) # заполнили пропуски!

Unnamed: 0,a,b,c,d,e
0,0,1,2,3,0
1,4,5,6,7,0
2,8,9,10,11,0


#  Операции между DataFrame и Series

In [57]:
# Как и в случае с NumPy, арифметические операции между DataFrame и Seris корректно определены!

In [58]:
arr = np.arange(12.).reshape(3, 4)

In [59]:
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [60]:
arr[0]

array([0., 1., 2., 3.])

In [62]:
arr[0] - arr

array([[ 0.,  0.,  0.,  0.],
       [-4., -4., -4., -4.],
       [-8., -8., -8., -8.]])

In [63]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [64]:
# Когда мы вычитаем arr[0] из arr, операция производится один раз для каждой строки. Это называется УКЛАДЫВАНИЕМ

In [65]:
# Поскольку наши объекты ведут себя аналогично NumPy, то можем утверждать, что
# DataFrame и Series ведут себя аналогично

In [66]:
frame = pd.DataFrame(np.arange(12.).reshape(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [67]:
series = pd.Series(frame.iloc[0])

In [68]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [69]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [70]:
# По умолчанию при выполнении арифметической операции между DataFrame и Series, индекс Series сопоставлется со
# столбцами DataFrame, а укладываются строки

In [71]:
# логично, ведь в сериес строки это есть столбцы в дата фрейм)))))

In [72]:
series - frame

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,-3.0,-3.0,-3.0
Texas,-6.0,-6.0,-6.0
Oregon,-9.0,-9.0,-9.0


In [73]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [74]:
# Если какой-либо индекс не найдет в толбцах DataFrame или индексах Series, то объекты переиндексируются 
# для образования объединения

In [76]:
series2 = pd.Series(range(4), index=list('decf'))

In [77]:
series2

d    0
e    1
c    2
f    3
dtype: int64

In [78]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [79]:
frame - series2

Unnamed: 0,b,c,d,e,f
Utah,,,1.0,1.0,
Ohio,,,4.0,4.0,
Texas,,,7.0,7.0,
Oregon,,,10.0,10.0,


In [80]:
frame + series2

Unnamed: 0,b,c,d,e,f
Utah,,,1.0,3.0,
Ohio,,,4.0,6.0,
Texas,,,7.0,9.0,
Oregon,,,10.0,12.0,


In [89]:
# еще раз напоминаю, что по умолчанию укладываются строки, а споставляются столбцы из датафрейм индексам сериес

In [90]:
# если же вместо этого мы хотим сопоставлять строки, а укладывать столбцы, то должны использовать арифметический метод

In [93]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [96]:
frame['d']

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [97]:
series3 = frame['d']

In [98]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [99]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [105]:
frame.sub(series3, axis=0)

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


In [106]:
frame.sub(series3, axis=0)

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


In [108]:
# передаваемый номер оси - это ось, вдоль которой происходит сопоставление.
# axis 0 - по строкам, по индексам
# axis 1 - по столбцам, меткам

In [109]:
# давай попробуем сами поэксперементировать

In [110]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [111]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [113]:
frame.loc['Utah']

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [114]:
frame.loc['Oregon']

b     9.0
d    10.0
e    11.0
Name: Oregon, dtype: float64

In [117]:
frame['b']

Utah      0.0
Ohio      3.0
Texas     6.0
Oregon    9.0
Name: b, dtype: float64

In [118]:
frame['d']

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [119]:
series1 = frame['d']
series2 = frame.loc['Utah']

In [120]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [121]:
series1

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [123]:
frame.add(series1) # здесь мы сопоставляем строки из сериес столбцам из датафрейм, их там нет, поэтому добавляем

Unnamed: 0,Ohio,Oregon,Texas,Utah,b,d,e
Utah,,,,,,,
Ohio,,,,,,,
Texas,,,,,,,
Oregon,,,,,,,


In [124]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [125]:
series2

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [129]:
frame.add(series2, axis=1)

Unnamed: 0,b,d,e
Utah,0.0,2.0,4.0
Ohio,3.0,5.0,7.0
Texas,6.0,8.0,10.0
Oregon,9.0,11.0,13.0


In [134]:
frame.add(series1, axis=0) # сопоставил по строкам

Unnamed: 0,b,d,e
Utah,1.0,2.0,3.0
Ohio,7.0,8.0,9.0
Texas,13.0,14.0,15.0
Oregon,19.0,20.0,21.0


In [135]:
series1

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [136]:
series2

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [137]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [141]:
frame.add(series2, axis=0) # сопоставил по строкам

Unnamed: 0,b,d,e
Ohio,,,
Oregon,,,
Texas,,,
Utah,,,
b,,,
d,,,
e,,,


In [142]:
series2

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [143]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [146]:
frame.add(series2, axis=0) # соаоставили по строкам, тк axis=0, некоторых не было, добавили

Unnamed: 0,b,d,e
Ohio,,,
Oregon,,,
Texas,,,
Utah,,,
b,,,
d,,,
e,,,


In [147]:
frame.add(series2, axis=1) # сопоставили по умолчанию по меткам, все нормально

Unnamed: 0,b,d,e
Utah,0.0,2.0,4.0
Ohio,3.0,5.0,7.0
Texas,6.0,8.0,10.0
Oregon,9.0,11.0,13.0


# Применение функций и отображений

In [148]:
# Универсальные функции NumPy (поэлементные методы массивов) отлично работают и с элементами Pandas

In [151]:
np.random.randn(5, 3)

array([[ 0.82545109, -1.19458589, -0.73417518],
       [ 0.92729082,  0.99414882, -0.67913349],
       [-2.11144592, -1.33005579,  0.3794947 ],
       [-0.23896952, -0.3993425 , -1.15385018],
       [ 0.32933051, -0.03578359, -0.99787604]])

In [154]:
frame = pd.DataFrame(np.random.randn(4, 4), index=['Utah', 'Ohio', 'Texas', 'Oregon'], columns=list('abcd'))

In [155]:
frame

Unnamed: 0,a,b,c,d
Utah,0.77245,-0.241313,0.422267,-0.566285
Ohio,0.109025,-1.157269,0.419405,-0.506205
Texas,0.2111,0.834975,-0.025624,0.78356
Oregon,-0.539535,-1.743521,-0.170061,-0.909113


In [156]:
# Ну что, давай посмотрим правда ли это все так и работает

In [157]:
np.abs(frame)

Unnamed: 0,a,b,c,d
Utah,0.77245,0.241313,0.422267,0.566285
Ohio,0.109025,1.157269,0.419405,0.506205
Texas,0.2111,0.834975,0.025624,0.78356
Oregon,0.539535,1.743521,0.170061,0.909113


In [160]:
series = pd.Series(np.random.randn(5))

In [161]:
series

0    0.291243
1    2.752154
2    0.507624
3   -0.238368
4    1.944305
dtype: float64

In [162]:
np.abs(series)

0    0.291243
1    2.752154
2    0.507624
3    0.238368
4    1.944305
dtype: float64

In [163]:
# Пока все работает!)

In [169]:
np.max(frame)

a    0.772450
b    0.834975
c    0.422267
d    0.783560
dtype: float64

In [172]:
# Еще одна часто употребляемая операция - применение функции, определенной для ОДНОМЕРНОГО массива,
# к каждому столбцу или строке. Именно это и делает метод apply объекта DataFrame

In [173]:
f = lambda x: x.max() - x.min()

In [178]:
frame.apply(f) # применяем лямбда функцию к каждому СТОЛБЦУ, получаем объект Series, 
# для которого индексами являются столбцы frame

a    1.311984
b    2.578497
c    0.592329
d    1.692673
dtype: float64

In [179]:
# Круто, я понял как для столбца посчитать, но... как для строки это сделать???

In [180]:
frame.apply(f, axis=0) # подсчет для столбца, индексами станут имена столбцов!!!!!!!!!!!!!!!!!

a    1.311984
b    2.578497
c    0.592329
d    1.692673
dtype: float64

In [182]:
frame.apply(f, axis=1) # подсчет для строк, индексами станут имена строк!!!!!!!!!!!!!!!

Utah      1.338735
Ohio      1.576674
Texas     0.860599
Oregon    1.573460
dtype: float64

In [189]:
frame.apply(np.mean)

a    0.138260
b   -0.576782
c    0.161497
d   -0.299511
dtype: float64

In [190]:
frame.apply(np.sum)

a    0.553040
b   -2.307128
c    0.645988
d   -1.198045
dtype: float64

In [191]:
# Функция, передаваемая методу apply, не обязана возвращать скалярное значение, она может вернуть и 
# объект Series, содержащий несколько значений

In [192]:
# Не понял, как это????

In [199]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

In [200]:
frame.apply(f, axis=1)

Unnamed: 0,min,max
Utah,-0.566285,0.77245
Ohio,-1.157269,0.419405
Texas,-0.025624,0.834975
Oregon,-1.743521,-0.170061


In [201]:
frame.apply(f, axis=0)

Unnamed: 0,a,b,c,d
min,-0.539535,-1.743521,-0.170061,-0.909113
max,0.77245,0.834975,0.422267,0.78356


In [202]:
# Также можно использовать ПОЭЛЕМЕНТНЫЕ функции Python. Ну, например, вычислить форматированную строку
# для каждого элемента frame с плавающей точкой.
# Это позволяет сделать элемент applymap()

In [203]:
# Задача, поставленная выше, в реальности очень важна, иногда нужно отбросить знаки после запятой

In [204]:
format = lambda x: '%.2f' % x

In [205]:
frame.applymap(format)

Unnamed: 0,a,b,c,d
Utah,0.77,-0.24,0.42,-0.57
Ohio,0.11,-1.16,0.42,-0.51
Texas,0.21,0.83,-0.03,0.78
Oregon,-0.54,-1.74,-0.17,-0.91


In [210]:
a = frame.applymap(format) # только теперь это все строки.....

In [212]:
a

Unnamed: 0,a,b,c,d
Utah,0.77,-0.24,0.42,-0.57
Ohio,0.11,-1.16,0.42,-0.51
Texas,0.21,0.83,-0.03,0.78
Oregon,-0.54,-1.74,-0.17,-0.91


In [225]:
format_int = lambda x: float(x)

In [226]:
a

Unnamed: 0,a,b,c,d
Utah,0.77,-0.24,0.42,-0.57
Ohio,0.11,-1.16,0.42,-0.51
Texas,0.21,0.83,-0.03,0.78
Oregon,-0.54,-1.74,-0.17,-0.91


In [227]:
format_int('4.3')

4.3

In [229]:
a.applymap(format_int)

Unnamed: 0,a,b,c,d
Utah,0.77,-0.24,0.42,-0.57
Ohio,0.11,-1.16,0.42,-0.51
Texas,0.21,0.83,-0.03,0.78
Oregon,-0.54,-1.74,-0.17,-0.91


In [231]:
type(a['a']['Utah'])

str

In [246]:
b = a.applymap(format_int)

In [234]:
type(b['a']['Utah']) # Отлично. получилось преобразовать

numpy.float64

In [235]:
# Так, погоди, вот мы получили там все строки, а  как работать это будет при сложении???

In [237]:
a # состоит из строк

Unnamed: 0,a,b,c,d
Utah,0.77,-0.24,0.42,-0.57
Ohio,0.11,-1.16,0.42,-0.51
Texas,0.21,0.83,-0.03,0.78
Oregon,-0.54,-1.74,-0.17,-0.91


In [239]:
frame # состоит из чисел

Unnamed: 0,a,b,c,d
Utah,0.77245,-0.241313,0.422267,-0.566285
Ohio,0.109025,-1.157269,0.419405,-0.506205
Texas,0.2111,0.834975,-0.025624,0.78356
Oregon,-0.539535,-1.743521,-0.170061,-0.909113


In [240]:
# с размерностями все ок, давай попробуем сложить

In [242]:
a + a

Unnamed: 0,a,b,c,d
Utah,0.770.77,-0.24-0.24,0.420.42,-0.57-0.57
Ohio,0.110.11,-1.16-1.16,0.420.42,-0.51-0.51
Texas,0.210.21,0.830.83,-0.03-0.03,0.780.78
Oregon,-0.54-0.54,-1.74-1.74,-0.17-0.17,-0.91-0.91


In [243]:
a + frame

TypeError: can only concatenate str (not "float") to str

In [244]:
# Вывод??? А такой, что все логично, складывая стркоу и число ничего хорошего не будет.

In [248]:
# В примерах выше я использовал applymap для format, потому что в классе Series
# уже есть метод map для применении функции к каждому элементу

In [249]:
frame

Unnamed: 0,a,b,c,d
Utah,0.77245,-0.241313,0.422267,-0.566285
Ohio,0.109025,-1.157269,0.419405,-0.506205
Texas,0.2111,0.834975,-0.025624,0.78356
Oregon,-0.539535,-1.743521,-0.170061,-0.909113


In [250]:
frame['b'].map(format_int)

Utah     -0.241313
Ohio     -1.157269
Texas     0.834975
Oregon   -1.743521
Name: b, dtype: float64

In [252]:
# Еще раз !!!
# applymap и apply применяются к DataFrame
# map применяется к Series


In [253]:
# apply переносит весь столбец в качестве параметра, а затем присваивает результат этому столбцу

# applymap берет отдельное значение ячейки в качестве параметра и возвращает результат этой ячейке.

# Сортировка и ранжирование

In [254]:
# Для лексикографической сортировки по индексу служит метод sort_index, который ВОЗВРАЩАЕТ новый отсортированный объект

In [255]:
obj = pd.Series(range(4), index=list('dabc'))

In [256]:
obj

d    0
a    1
b    2
c    3
dtype: int64

In [260]:
obj.sort_index() # отсортировал по индексу, но не имезнил изначальное значение

a    1
b    2
c    3
d    0
dtype: int64

In [261]:
obj

d    0
a    1
b    2
c    3
dtype: int64

In [262]:
# В случае с DataFrame можно сортировать по индексу, ассоцированному с любой осью

In [267]:
df = pd.DataFrame(np.arange(12).reshape(3, 4), index=['two', 'one', 'three'], columns=list('acdb'))

In [268]:
df

Unnamed: 0,a,c,d,b
two,0,1,2,3
one,4,5,6,7
three,8,9,10,11


In [269]:
df.sort_index(axis=0) # сортирует в лексикографическом порядке строки (axis=0)

Unnamed: 0,a,c,d,b
one,4,5,6,7
three,8,9,10,11
two,0,1,2,3


In [271]:
df.sort_index(axis=1) # сортирует в лексикографическом порядке столбцы(axis=1)

Unnamed: 0,a,b,c,d
two,0,3,1,2
one,4,7,5,6
three,8,11,9,10


In [274]:
# По умолчанию данные сортируются В ПОРЯДКЕ ВОЗРАСТАНИЯ, но можно отсортировать их в порядке убывания
# с помощью параметра asceding=False
# asceding переводится как ВОСХОДЯЩИЙ, тогда все логично))

In [276]:
df.sort_index(axis=1, ascending=False) # отсортировали по убыванию

Unnamed: 0,d,c,b,a
two,2,1,3,0
one,6,5,7,4
three,10,9,11,8


In [277]:
# Это мы сортировали DataFrame, а к Series это применимо?

In [280]:
np.random.randn(5)

array([ 0.4541075 ,  0.21003749,  0.7334768 , -0.35622353,  0.0804324 ])

In [281]:
series = pd.Series(np.random.randn(8), index=list('acdfgelk'))

In [283]:
series

a    0.884255
c    1.033838
d    0.508176
f   -0.639246
g   -0.351960
e    0.463683
l   -1.049618
k   -0.259261
dtype: float64

In [284]:
series.sort_index() # так, индексы получается отсортировать, а  значения как?????

a    0.884255
c    1.033838
d    0.508176
e    0.463683
f   -0.639246
g   -0.351960
k   -0.259261
l   -1.049618
dtype: float64

In [285]:
# для сортировки значений в Series используется метод sort_values()

In [286]:
series

a    0.884255
c    1.033838
d    0.508176
f   -0.639246
g   -0.351960
e    0.463683
l   -1.049618
k   -0.259261
dtype: float64

In [287]:
series.sort_values()

l   -1.049618
f   -0.639246
g   -0.351960
k   -0.259261
e    0.463683
d    0.508176
a    0.884255
c    1.033838
dtype: float64

In [288]:
# Если при сортировке есть отсутствующие значения, то по молчанию они указываются в конце Series:

In [289]:
obj = pd.Series([4, np.nan, 7, np.nan, 9])

In [290]:
obj

0    4.0
1    NaN
2    7.0
3    NaN
4    9.0
dtype: float64

In [291]:
obj.sort_values() # по значениям неопределенности ушли вниз

0    4.0
2    7.0
4    9.0
1    NaN
3    NaN
dtype: float64

In [293]:
obj.sort_index()

0    4.0
1    NaN
2    7.0
3    NaN
4    9.0
dtype: float64

In [294]:
# Объект DataFrame можно сортировать по значениям в одном или нескольких столбцах
# для этого имена столбцов следует передать в качестве значения параметра by метода sort_values()


In [298]:
frame = pd.DataFrame({'b' : [4, 7, 6, -2], 'a' : [1, 5, 2, 3], 'c' : [-1, -2, 4, 9]})

In [299]:
frame

Unnamed: 0,b,a,c
0,4,1,-1
1,7,5,-2
2,6,2,4
3,-2,3,9


In [300]:
# Попробуем отсортировать значения с помощью параметра by, передавая ему сортируемый столец

In [302]:
frame.sort_values(by='b') # сортировка столбца b по возрастанию

Unnamed: 0,b,a,c
3,-2,3,9
0,4,1,-1
2,6,2,4
1,7,5,-2


In [308]:
frame

Unnamed: 0,b,a,c
0,4,1,-1
1,7,5,-2
2,6,2,4
3,-2,3,9


In [309]:
# для сортировки по нескольким столбцам следует передать список имен

In [311]:
frame.sort_values(by=['a', 'b']) # сортировка по второму столбцу "включается", если есть совпадение
# здесь  этого не произошло, приведем другой пример

Unnamed: 0,b,a,c
0,4,1,-1
2,6,2,4
3,-2,3,9
1,7,5,-2


In [312]:
frame = pd.DataFrame({'b' : [4, 7, 6, -2], 'a' : [1, 7, 2, 3], 'c' : [-1, -2, 4, 9]})

In [313]:
frame

Unnamed: 0,b,a,c
0,4,1,-1
1,7,7,-2
2,6,2,4
3,-2,3,9


In [314]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,b,a,c
0,4,1,-1
2,6,2,4
3,-2,3,9
1,7,7,-2


In [315]:
# А работает ли подобная сортировка по индексам??

In [316]:
frame

Unnamed: 0,b,a,c
0,4,1,-1
1,7,7,-2
2,6,2,4
3,-2,3,9


In [331]:
frame.sort_values(by='b')

Unnamed: 0,b,a,c
3,-2,3,9
0,4,1,-1
2,6,2,4
1,7,7,-2


In [332]:
frame

Unnamed: 0,b,a,c
0,4,1,-1
1,7,7,-2
2,6,2,4
3,-2,3,9


In [336]:
# не работает, но как вараинт можно транспонировать, сортировать, и опять транспонировать....

In [337]:
# Едем дальше, поговорим о ранжировании. Ранжирование заключается в присваивании рангов от единицы до числа
# присутствующих элементов в массиве. Для ранжирования применяется метод rank() объектов Series \ DataFrame
# по умолчанию rank() обрабатывает связанные ранги, присваивая каждой группе средний ранг
#

In [338]:
import pandas as pd

df = pd.DataFrame({
    'col1': [8, 6, 2, 4, 3, 1],
    'col2': [2, 1, 9, 8, 7, 4],
    'col3': [0, 1, 9, 4, 2, 3],
    'col4': [2, 3, 1, 6, 5, 10]
})

In [339]:
df

Unnamed: 0,col1,col2,col3,col4
0,8,2,0,2
1,6,1,1,3
2,2,9,9,1
3,4,8,4,6
4,3,7,2,5
5,1,4,3,10


In [346]:
df1 = df.sort_values(by=0, axis=1) #ВОООО, ВОТ ТАК ПО СТРОКЕ СОРТИРОВКА ИДЕТ,  УРА
df1

Unnamed: 0,col3,col2,col4,col1
0,0,2,2,8
1,1,1,3,6
2,9,9,1,2
3,4,8,6,4
4,2,7,5,3
5,3,4,10,1


In [4]:
# Вернемся к рангу
import pandas as pd
import numpy as np

In [5]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])

In [6]:
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [8]:
obj.rank() # изначальную расстановку по возрастанию просто раставили, здесь средний ранг

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [9]:
# Ранги также можно присваивать в соответсвии с порядком появления в данных:

In [10]:
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [11]:
# Примеру выше элемнтам 0 и 2 присвоен не средний ранг 6.5 , а ранг 6 и 7
# потому что в данных метка 0 пресшествует метке 2

In [12]:
# можно ранжировать и в порядке убывания


In [13]:
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [15]:
obj.rank(ascending=False) # ранжирование по убыванию

0    1.5
1    7.0
2    1.5
3    3.5
4    5.0
5    6.0
6    3.5
dtype: float64

In [18]:
obj.rank(method='max', ascending=False) # в случае связанных рангов выбрать максимальный ранг в группе

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [19]:
# Способы обработки связанных рангов
# 'average' - по умолчанию. Одинаковым значениям присвоить средний ранг
# 'min'     - всем элементам группы присвоить минимальный ранг
# 'max'     - всем элементам группы присвоить максимальный ранг
# 'first'   - присваивать ранги в порядке появления значений в наборе данных
# 'dense'   - как method='min', но при переходе к следующей группе элементов с одинаковым рангом ранг всегда
# увеличивается на 1, а не на количество элементов в группе
#

In [20]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4, 4])

In [21]:
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
7    4
dtype: int64

In [22]:
obj.rank(method='average')

0    7.5
1    1.0
2    7.5
3    5.0
4    3.0
5    2.0
6    5.0
7    5.0
dtype: float64

In [23]:
# DataFrame умеет вычислять rank как по строкам, так и по столбцам:

In [25]:
frame = pd.DataFrame({'b' : [4.3, 7, -3, 2], 'a' : [0, 1, 0, 1], 'c' : [-2, 5, 8, -2.5]})

In [26]:
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [30]:
frame.rank(axis=1) # ранжирование по строке!!!!!!!

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


In [31]:
frame.rank(axis='index') # ранжирование в столбце

Unnamed: 0,b,a,c
0,3.0,1.5,2.0
1,4.0,3.5,3.0
2,1.0,1.5,4.0
3,2.0,3.5,1.0


# Индексы по осям с повторяющимися значениями

In [33]:
# До этого во свех примерах метки на осях (значение индекса) были уникальны. Для reindex уникальность обзательна.
# А в общем случае уникальность не обязательна! 

In [34]:
# Рассмотрим объект Series с повторяющимися значениями в индексе


In [37]:
obj = pd.Series(range(5), index=list('aabbc'))

In [38]:
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [39]:
# А как узнать являются ли значения уникальными????????????????????

In [40]:
# говорят, есть такое СВОЙСТВО is_unique, которое позволяет проверить уникальность

In [41]:
obj.index

Index(['a', 'a', 'b', 'b', 'c'], dtype='object')

In [43]:
obj.index.is_unique # проверяем уникален ли набор индексов

False

In [44]:
# Выборка данных - одна из основных операций, поведение которых меняется в зависимости наличия 
# или отсутствия дубликатов. При доступе по индексу, встречающемуся несколько раз
# будет возвращено объект Series, если же индекс одиночный, то скаляр

In [46]:
obj['a'] # у нас несколько одинаковых индексов, вернул объект Series

a    0
a    1
dtype: int64

In [48]:
obj['c'] # уникален, вернул словарь

4

In [50]:
# Такое же правило действует и для доступа к строкам в DataFrame

In [51]:
df = pd.DataFrame(np.random.randn(4, 3), index=list('aabb'))

In [52]:
df

Unnamed: 0,0,1,2
a,-0.320358,0.766718,-0.853991
a,-0.201328,-0.122621,-0.048374
b,-0.185819,0.938367,0.111599
b,1.957083,0.161871,0.690294


In [53]:
df[0]

a   -0.320358
a   -0.201328
b   -0.185819
b    1.957083
Name: 0, dtype: float64

In [54]:
df.loc['a']

Unnamed: 0,0,1,2
a,-0.320358,0.766718,-0.853991
a,-0.201328,-0.122621,-0.048374


# Редукция и вычисление описательных статистик

In [1]:
# Объекты Pandas оснащены набором стандартных математических и статистических методов.
# Большая часть из них попадает в категорию РЕДУКЦИЯ(сводная статистика) - методов
# который вычисляют единственное значение (например, сумму или среднее). Для строк, столбцов.
# По сравнению с эквивалентными методами массивов NumPy все они ИГНОРИРУРУЮТ отстутствующие значения!!!


In [2]:
import pandas as pd
import numpy as np


In [3]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], index=list('abcd'), columns=['one', 'two'])

In [4]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [5]:
# Метод sum объекта DataFrame возвращает Series, содержащий суммы ПО СТОЛБЦАМ 

In [6]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [7]:
# Если передать параметр axis=1, то суммирование будет проходить по строкам

In [8]:
df.sum(axis=1) # nan игнорируются

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [9]:
# отсутствующие значения исключаются, если только не отстствует весь срез (вся строка или весь столбцец)\
# это можно подавить задав параметр skipna=False


In [14]:
df.mean(axis=0, skipna=False) # этот параметр не дает игнорировать nan!!!!

one   NaN
two   NaN
dtype: float64

In [11]:
df.mean()

one    3.083333
two   -2.900000
dtype: float64

In [12]:
df.mean(axis=1)

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

In [13]:
df.mean(axis=1, skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [15]:
# Параметры методов редукции - 
# axis - ось, по которой производится редуцирование, 0 - строки, 1 - столбцы
# skipna - исключает отсутствующие значения (NAN), по умолчанию True
# level - редуцировать с группировкой по уровням


In [16]:
# Некоторые методы, например, idxmin \ idxmax, возвращают косвенные статистики, в данном случак ИНДЕКС,
# по которому достигается минимум и максимум

In [17]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [19]:
df.idxmax(axis=0)

one    b
two    d
dtype: object

In [20]:
df.idxmax(axis=1)

a    one
b    one
c    NaN
d    one
dtype: object

In [21]:
# Есть также аккумулирующие методы (накапливающие)

In [22]:
df.cumsum(axis=0)

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [23]:
df.cumsum(axis=1)

Unnamed: 0,one,two
a,1.4,
b,7.1,2.6
c,,
d,0.75,-0.55


In [24]:
# также существуют методы, не относящиеся ни к редуцирующим, ни к аккумулирующим. Например, метод describe()
# который возвращает несколько сводных статистик за одно обращение!

In [26]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [29]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [30]:
# В случае нечисловых данных, данный метод вычисляет другие сводные статистики

In [31]:
obj = pd.Series(list('aabc')*4)

In [32]:
obj

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [33]:
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

In [35]:
# Вот полный список сводных статистик и методов:
# count == количество значений, исключая NAN
# describe == вычисляет для Series свод статистик, и для кадого столбца DataFrame
# min, max == вычисляет минимальное и максимальное значение
# argmin, argmax == вычисляет позицию в индексе (целые числа), при которых достигаются мин и макс значения
# idxmin, idxmax == вычисляет значение индекса, при ктором достигается мин макс
# quantile == вычисляет выборочный квантиль в диапазоне от 0 до 1
# sum == сумма значений
# mean == выборочное среднее
# median == медиана (50% квантиль)
# mad == среднее абсолютное отклонение от среднего
# var == выборочная дисперсия
# std == выборочное стандартное отклонение
# skew == ассиметрия (3 момент)
# kurt == куртозис (4 момент)
# cumsum == нарастающая сумма
# cummin, cummax == нарастающий минимум и максимум
# cumprod == нарастающее произведение
# diff == первая арифметическая разность (полезно для временных рядов)
# pct_change == вычисляет процентное изменение


In [36]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [37]:
df.mean()

one    3.083333
two   -2.900000
dtype: float64

In [38]:
df.mean(axis=1)

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

In [39]:
df.mad()

one    2.677778
two    1.600000
dtype: float64

In [40]:
df.median()

one    1.4
two   -2.9
dtype: float64

In [41]:
a = np.arange(1, 5)

In [42]:
a

array([1, 2, 3, 4])

In [43]:
a = pd.Series(a)

In [44]:
a

0    1
1    2
2    3
3    4
dtype: int64

In [46]:
a.cumprod() # накопленное произведение

0     1
1     2
2     6
3    24
dtype: int64

#  Корреляция и ковариация

In [1]:
# Некоторые сводные статистики, например корреляция и ковариация, вычисляются по парам аргументов. Рассмотрим
# пример, содержащий стоимость ценный бумаг, используем дополнительно пакет pandas-datareader

In [2]:
import pandas_datareader.data as web

In [3]:
all_data = {ticker : web.get_data_yahoo(ticker) for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

In [4]:
all_data

{'AAPL':                   High         Low        Open       Close       Volume  \
 Date                                                                      
 2017-03-13   34.857498   34.705002   34.712502   34.799999   69686800.0   
 2017-03-14   34.912498   34.709999   34.825001   34.747501   61236400.0   
 2017-03-15   35.187500   34.757500   34.852501   35.115002  102767200.0   
 2017-03-16   35.255001   35.064999   35.180000   35.172501   76928000.0   
 2017-03-17   35.250000   34.972500   35.250000   34.997501  175540000.0   
 ...                ...         ...         ...         ...          ...   
 2022-03-08  162.880005  155.800003  158.820007  157.440002  131148300.0   
 2022-03-09  163.410004  159.410004  161.479996  162.949997   91454900.0   
 2022-03-10  160.389999  155.979996  160.199997  158.520004  105342000.0   
 2022-03-11  159.279999  154.500000  158.929993  154.729996   96836300.0   
 2022-03-11  159.279907  154.500000  158.929993  154.729996   96970102.0   
 
  

In [6]:
import pandas as pd
import numpy as np

In [8]:
price = pd.DataFrame({ticker : data['Adj Close'] for ticker, data in all_data.items()})

In [9]:
volume = pd.DataFrame({ticker : data['Volume'] for ticker, data in all_data.items()})

In [10]:
price # цены

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2017-03-13,32.856754,133.577194,60.405807,845.539978
2017-03-14,32.807194,133.016998,60.125755,845.619995
2017-03-15,33.154171,133.085129,60.443130,847.200012
2017-03-16,33.208466,134.167633,60.340454,848.780029
2017-03-17,33.043232,132.964050,60.555161,852.119995
...,...,...,...,...
2022-03-08,157.440002,125.680000,275.850006,2545.570068
2022-03-09,162.949997,126.220001,288.500000,2677.320068
2022-03-10,158.520004,124.349998,285.589996,2653.639893
2022-03-11,154.729996,123.959999,280.070007,2609.510010


In [11]:
volume # объем торгов

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2017-03-13,69686800.0,3642381.0,20100000.0,1223600
2017-03-14,61236400.0,3292285.0,14280200.0,779900
2017-03-15,102767200.0,3991013.0,24833800.0,1381500
2017-03-16,76928000.0,4510143.0,20674300.0,977600
2017-03-17,175540000.0,6193366.0,49219700.0,1712300
...,...,...,...,...
2022-03-08,131148300.0,4887600.0,48159500.0,1762500
2022-03-09,91454900.0,4403500.0,35204500.0,1612900
2022-03-10,105342000.0,5326800.0,30628000.0,1213300
2022-03-11,96836300.0,4117600.0,27192600.0,1328500


In [13]:
# Теперь вычислим процентные изменение цен:

In [14]:
returns = price.pct_change()

In [15]:
returns.tail()

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2022-03-08,-0.011676,-0.003094,-0.010971,0.006437
2022-03-09,0.034997,0.004297,0.045858,0.051757
2022-03-10,-0.027186,-0.014815,-0.010087,-0.008845
2022-03-11,-0.023909,-0.003136,-0.019328,-0.01663
2022-03-11,0.0,0.0,0.0,0.0


In [17]:
# сейчас здесь должны быть примеры про корреляцию и ковариацию, а в чем вообще их разница и что это такое???
# Корреляция и ковариация это два термина, которые в точности протиположны друг другу.
#
# КОВАРИАЦИЯ показывает нам как две переменные отличаются друг от друга. Ковариация является расширением
# концепции дисперсии. Изменяется от -inf до +inf. ЧЕМ ВЫШЕ эти значения, тем более зависимы отношения.
# Положительное число указывает на прямую связь, то есть означает, что увеличение однйо переменной приведет к увеличению другой
# Отрицательное число означает на обратную связь. Ковариация отлично подходит для определения типа отношения, 
# однако она плохо подходит для интерпретации ее величины.
#
#
# КОРРЕЛЯЦИЯ показывает нам взаимосвязь между двумя переменными и как они связаны. Корреляция количественно определяет
# взаимосвязь между двумя случайными величинами. Проще говоря, это единичная мера того, как эти переменные
# изменяются относительно друг друга (нормализованное значение ковариации). Ее предел от -1 до 1.
# Корреляция +1 показывает, что случаные величины имеют прямую и сильную связь.
# Корреляция -1 показывает, что есть сильная обратная зависмость, и увеличение одной величины, приведет к равному уменьшению другой величины.
# Корреляция 0 показывает, что два этих числа независимы.
#

In [18]:
# Едем дальше

In [19]:
# Метод corr объекта Series вычисляет корреляцию перекрывающихся, отличных от NA, выровнянных по индексу значений
# в двух объектах Series. Соответсвенно, метод cov вычисляет ковариацию.

In [27]:
a = pd.Series([-1, 2, 3, 4, -100])
b = pd.Series([1, 2, 3, 4, 5])

In [28]:
a

0     -1
1      2
2      3
3      4
4   -100
dtype: int64

In [29]:
b

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [30]:
a.corr(b)

-0.6788064517339999

In [31]:
returns.tail()

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2022-03-08,-0.011676,-0.003094,-0.010971,0.006437
2022-03-09,0.034997,0.004297,0.045858,0.051757
2022-03-10,-0.027186,-0.014815,-0.010087,-0.008845
2022-03-11,-0.023909,-0.003136,-0.019328,-0.01663
2022-03-11,0.0,0.0,0.0,0.0


In [32]:
# Вычислим корреляцию и ковариацию

In [33]:
frame = returns

In [34]:
frame.tail()

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2022-03-08,-0.011676,-0.003094,-0.010971,0.006437
2022-03-09,0.034997,0.004297,0.045858,0.051757
2022-03-10,-0.027186,-0.014815,-0.010087,-0.008845
2022-03-11,-0.023909,-0.003136,-0.019328,-0.01663
2022-03-11,0.0,0.0,0.0,0.0


In [36]:
frame['MSFT'].corr(frame['IBM'])

0.48088595000380446

In [37]:
frame['MSFT'].cov(frame['IBM'])

0.00014284481545001775

In [38]:
# Если просто применить к нашему DataFrame corr и cov, то получим корреляционную и ковариационную матрицу
# также в виде DataFrame

In [39]:
frame.corr()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,1.0,0.428982,0.744945,0.663878
IBM,0.428982,1.0,0.480886,0.45459
MSFT,0.744945,0.480886,1.0,0.784524
GOOG,0.663878,0.45459,0.784524,1.0


In [40]:
frame.cov()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,0.000378,0.000139,0.000257,0.000226
IBM,0.000139,0.00028,0.000143,0.000133
MSFT,0.000257,0.000143,0.000315,0.000244
GOOG,0.000226,0.000133,0.000244,0.000307


In [41]:
# С помощью метода corrwith() объекта DataFrame можно вычислить попарные корреляции между строками или столбцами
# и другим объектом Series или DataFrame . Если передать ему объект Series, то будет возвращен объект Series
# содержащий значения корреляции, вычисленный для каждого столбца.

In [42]:
frame.corrwith(frame['IBM'])

AAPL    0.428982
IBM     1.000000
MSFT    0.480886
GOOG    0.454590
dtype: float64

In [43]:
frame.corrwith(frame['IBM'], axis=1)

Date
2017-03-13   NaN
2017-03-14   NaN
2017-03-15   NaN
2017-03-16   NaN
2017-03-17   NaN
              ..
2022-03-08   NaN
2022-03-09   NaN
2022-03-10   NaN
2022-03-11   NaN
2022-03-11   NaN
Length: 1261, dtype: float64

In [44]:
frame.corrwith(frame['IBM'], axis=0)

AAPL    0.428982
IBM     1.000000
MSFT    0.480886
GOOG    0.454590
dtype: float64

#  Уникальные значения, счетчики значений и членство

In [45]:
# Еще один класс методов служит для извлечения информации о значениях, хранящемся в одномерном объекте Series.

In [47]:
obj = pd.Series(list('cadaabbcc'))

In [48]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [49]:
# Метод unique возвращает  массив уникальных значений в Series

In [53]:
np.unique(obj.values)

array(['a', 'b', 'c', 'd'], dtype=object)

In [55]:
obj.unique()

array(['c', 'a', 'd', 'b'], dtype=object)

In [56]:
# метод value_counts() возвращает частоты встречаемости значений

In [57]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [59]:
obj.value_counts() # для удобства отсортировано в порядке убывания

c    3
a    3
b    2
d    1
dtype: int64

In [60]:
# value.counts() может быть вызвана как метод Pandas верхнего уровня. В таком случае она будет применима
# к любому массиву или последовательности:

In [61]:
pd.value_counts(obj.values)

c    3
a    3
b    2
d    1
dtype: int64

In [63]:
pd.value_counts(obj.values, sort=False) # не сортировали

c    3
a    3
d    1
b    2
dtype: int64

In [64]:
# Метод isin() вычисляет булев ВЕКТОР членства в множестве и может быть полезен для фильтрации набора данных
# относительно подмножества значений в объекте Series или столбце DataFrame

In [65]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [67]:
obj.isin(['b']) # булев вектор, где встречается 'b'

0    False
1    False
2    False
3    False
4    False
5     True
6     True
7    False
8    False
dtype: bool

In [69]:
obj.isin(['c', 'b']) # булев вектор, где встречается 'b' и 'c'

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [70]:
mask = obj.isin(['c', 'b']) # булев вектор, где встречается 'b' и 'c'

In [71]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

In [72]:
# C isin() тесно связан метод Index.get_indexer, который возвращает массив индексов, описывающий
# сопоставление между массивом потенциально повторяющихся значений и массивов, содержащих только различные значения


In [73]:
to_match = pd.Series(list('cabbca'))

In [74]:
unique_vals = pd.Series(list('cba'))

In [75]:
to_match

0    c
1    a
2    b
3    b
4    c
5    a
dtype: object

In [76]:
unique_vals

0    c
1    b
2    a
dtype: object

In [77]:
pd.Index(to_match)

Index(['c', 'a', 'b', 'b', 'c', 'a'], dtype='object')

In [79]:
pd.Index(unique_vals)

Index(['c', 'b', 'a'], dtype='object')

In [78]:
pd.Index(unique_vals).get_indexer(to_match)

array([0, 2, 1, 1, 0, 2])

In [82]:
# Уникальные значения, счетчки и методы "раскладывания"
# isin() - вычисляет булев массив, показывающий, содержится ли каждое принадлежащее Series в после-ти передаваемой
# get_indexer() - вычисляет для каждого значения массива целочисленный индекс в другом массиве неповторяющихся значений
# данный метод полезен, когда нужно выполнить выранивание данных и операции подобные соединению
# unique() - вычисляет массив уникальных значений и выдает в порядке появления
# value_counts() - возвращает объект Series, который в качестве индекса содержит уникальные значения, а в
# качестве его значения его частоту. Результат выдается в порядке убывания

In [83]:
# Иногда требуется вычислить гистограмму нескольких взаимосвязанных столбцов в DataFrame

In [84]:
# Гистограмма - способ предствления табличных данных  в графическом виде.

In [85]:
data = pd.DataFrame({'Qu1' : [1, 3, 4, 3, 4],
                     'Qu2' : [2, 3, 1, 2, 3],
                     'Qu3' : [1, 5, 2, 4, 4]})

In [86]:
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [87]:
# Передача value_counts методу apply этого объекта даст DataFrame

In [88]:
result = data.apply(pd.value_counts)

In [89]:
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [92]:
result = data.apply(pd.value_counts).fillna(0) # игнорируем NAN

In [91]:
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [93]:
# Как получился результат выше? Здесь метками строк результатирующего объекта являются неповторяющиеся значения
# встречающиеся в столбцах. Значениями же являются счетчиками значений в столбцах

# Чтение и запись данных, форматы файлов


In [1]:
# Чаще всего будем иметь дело с read_csv() и read_table(). Их необязательные параметры можно отнести к нескольким категориям

In [3]:
# ИНДЕКСИРОВАНИЕ - какие столбцы рассматривать как индекс возвращаемого объекта DataFrame и откуда брать
# имена столбцов = из файла, от пользователя или вообще ниоткуда.
#
# ВВЕДЕНИЕ ТИПА И ПРЕОБРАЗОВАНИЯ ДАННЫХ - включает опеределенные пользователем преобразования значений и список
# маркеров отсутствующих данных.
#
#
# РАЗБОР ДАТЫ И ВРЕМЕНИ - включает средства комбинирования, в том числе сбор данных о дате и времени из нескольких
# исходных столбцов в один результатирующий.
#
#
# ИТЕРИРОВАНИЕ - поддержка обхода очень больших файлов
#
# ПРОБЛЕМА ГРЯЗНЫХ ДАННЫХ - пропуск заголовка и концевика,комментариев и другого мусора, разделение запятыми чисел
#

In [6]:
# Функции чтения в Pandas

# read_csv - загружает данные с разделителем из файла, URL-адреса или похоже на файл объекта. По умолчанию
# разделителем является запятая.
#
# read_table - загружает данные с разделителем из файла, URL-адреса или похоже на файл объекта. По умолчанию
# разделителем является символ табуляции ('\t')
#
# read_excel - читает табличные данные из файлов Excel в формате xls, xlsx
#
# read_html - читает все таблицы, обнаруженные в HTML-документе
#
# read_json - читает данные из строки в формате JSON(JavaScript Object Notation)
#
# read_sql - читает резульат SQL-запроса в объекте Pandas DataFrame
#

In [9]:
!cat ex1.csv

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [10]:
import pandas as pd

In [11]:
df = pd.read_csv('ex1.csv')

In [12]:
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [13]:
# или же воспользоваться read_table, но указать разделитель

In [15]:
pd.read_table('ex1.csv', sep=',') # результат аналогичен

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [16]:
# Но это нам выше повезло, там была строка-заголовок, но весь ее может и не быть, например, есть файл

In [17]:
!cat ex2.csv

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [18]:
# И как нам его прочитать, а есть 2 способа. Можно поручить Pandas выбирать имена столбцов по умолчанию, 
# а можно задать их самостоятельно


In [20]:
pd.read_csv('ex2.csv') # так читает по умолчанию

Unnamed: 0,1,2,3,4,hello
0,5,6,7,8,world
1,9,10,11,12,foo


In [22]:
pd.read_csv('ex2.csv', header=None) # header - это заголовок и мы указали, что его нет

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [27]:
pd.read_csv('ex2.csv', names=list('abcde')) # names указывает имена столбцов

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [28]:
# Ну вот я хочу какой-то столбец сделать индексом нашей таблицы, и как это сделать?????? 

In [29]:
# Этого можно добиться, задав аргумент index_col, в котором указать, что индесным столбцом будет 
# столбец с номером x или с определенным именем. Вот, смотри

In [30]:
names_col = ['a', 'b', 'c', 'd', 'message']

In [33]:
pd.read_csv('ex2.csv', names = names_col, index_col=4) # или мог указать  index_col='message'

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [1]:
import pandas as pd
import numpy as np

In [2]:
# Если мы хотим сформировать иерархический индекс из нескольких столбцов, то просто передаем
# список их имен или номеров

In [3]:
!cat csv_mindex.csv

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [5]:
parsed = pd.read_csv('csv_mindex.csv', index_col=3)

In [7]:
parsed # это я указал, что столбец под номером 3 будет индексным, а тперь попробую сделать как сказал выше

Unnamed: 0_level_0,key1,key2,value1
value2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2,one,a,1
4,one,b,3
6,one,c,5
8,one,d,7
10,two,a,9
12,two,b,11
14,two,c,13
16,two,d,15


In [8]:
parsed = pd.read_csv('csv_mindex.csv', index_col=['key1', 'key2'])

In [9]:
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [13]:
parsed['value1']['one']['a'] # и просто по иерархии вытащил нужный мне элемент

1

In [15]:
# Иногда в таблице нет фиксированного разделителя, а для разделения полей используются пробелы или
# еще какой-то символ. В таком случае, можно передать функции read_table РЕГУЛЯРНОЕ ВЫРАЖЕНИЕ вместо разделителя

In [17]:
list(open('ex3.txt'))

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

In [53]:
result = pd.read_table('ex3.txt', delimiter='\s+') # разделитель можно обозначать как sep или delimiter

In [19]:
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [20]:
# На самом деле, трюк выше гениален, РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ МОГУТ ОЧЕНЬ ПОМОЧЬ

In [21]:
# И вот, представь себе, что есть какой-то козел, который в csv файл добавил свои комментарии

In [22]:
!cat ex4.csv

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [23]:
# И что будет, если попробовать его прочитать?

In [24]:
test = pd.read_csv('ex4.csv')

In [25]:
test

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,# hey!
a,b,c,d,message
# just wanted to make things more difficult for you,,,,
# who reads CSV files with computers,anyway?,,,
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [26]:
# Херня какая-то будет_))))

In [27]:
# Но у read_csv есть много параметров, которые могут помочь, давай решим проблему выше

In [29]:
pd.read_csv('ex4.csv', skiprows=[0, 2, 3]) # skiprows игнорит указанные строки

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [30]:
# Обработка отсутствующих значений - очень важная часть, сопровождаемая тонкими нюансами. Отстутствующие
# значения обычно либо вообще опущены, либо представлены специальными маркерами. Например,
# NA, -1.#IND, NULL

In [31]:
!cat ex5.csv

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo

In [32]:
result = pd.read_csv('ex5.csv')

In [33]:
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [34]:
# Так, здесь я вижу маркер  NAN

In [36]:
pd.isnull(result) # метод проверки на NA

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [37]:
# параметр na_values может принимать список или множество строк, рассматриваемые как маркеры отсутствующих значений

In [39]:
result = pd.read_csv('ex5.csv', na_values=['NULL'])
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [40]:
result = pd.read_csv('ex5.csv', na_values=['NaN'])
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [41]:
# na_values для установки пользовательских пропущенных значений. Этот аргумент представляет собой словарь, 
# где ключи представляют имя столбца,
# а значение представляет значения данных, которые должны рассматриваться как отсутствующие

In [42]:
# Если в разных столбцах применяются разные маркеры, то их можно задать с помощью словаря

In [48]:
sentinels = {'message' : ['foo', 'NA'], 'something' : ['two']}
pd.read_csv('ex5.csv', na_values=sentinels) # через присваоенный словарь указали, что считать отстутствующим


Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


In [46]:
# Таблица аргуемнты функций read_csv и read_table

In [74]:
# path - строка, обозначающая пусть к файловой системе, URL-адрес или похожий на файл объект
#
# sep\delimiter - после-ть символов или RE, служащее для разделения полей в строке
#
# header - номер строки, содержащей имена столбцов. По умолчанию равен 0(первая строка), если строки-заголовка
# нет, то должен быть равен None
#
# index_col - номера или имена столбцов, трактуемых как индекс строк в результатирующем объекте. Моежт быть задан
# один номер(имя) или список номеров(имен) для иерархического индекса
#
# names - список имен столбцов результатирующего объекта; задается, если header=None
#
# skiprows - количество игнорируемых начальных строк или список номеров, игнорируемых строк (отсчет с 0) 
#
# na_values - после-ть значений, интерпретируемые как маркеры отстутствующих значений
#
# comment - один или несколько символов, начинающий комментарий, который продолжается до конца строки
#
# parse_dates - пытется разобрать данные как дату и время, по усмолчанию False. Если равен True, то производится попытка
# разобрать все столбцы, можно также задать список столбцов, которые следует объединить перед разбором
# если, например, время и дата в разных столбцах
#
# keep_date_col (keep переводится как держать, хранить) - в случае, когда для разбора данных столбцы объединяются
# следует ли отбрасывать объединенные столбцы. По умолчанию True
#
# converters - словарь, соедержащий отображение номеров или имен столбцов на функции. Например,
# converters={'foo' : f} означает, что нужно применить функцию f ко всем значениям в столбце 'foo'
#
# dayfirst - при разборе потенциально неоднозначных дат предполагать международный формат
# те есть (7/6/2012 означает 7 июня 2012 года). По умолчанию False
#
# date_parser - функция, применяемая для разбора дат
#
# nrows - количество читаемых строк от начала файла
#
# iterator - возвращает объект TextParser для чтения файла порциями
#
# chunksize - размер порции при итерировании
#
# skipfooter - сколько строк в конце файла игнорировать
#
# verbose - печатать разного рода информацию о ходе работы, например количество отсутствующих значений
#
# encoding - кодировка текста в случае Unicode. Например, 'utf-8', означает, что текст предсталвен в кодировке UTF-8
#
# squeeze - если в результате разбора данных оказалось, что есть только один столбец, то вернуть объект Series
#
# thousands - разделитель тысяч, например '.' или ','


In [56]:
pd.read_csv('ex4.csv', comment='#') # блин, прикольно от комментариев избавился)))

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [59]:
pd.read_csv('t.csv', parse_dates=True)

Unnamed: 0,data time
0,12:02:2001 12:05
1,13:03:2023 13:06
2,15:04:2023 14:07
3,16:05:2011 15:08
4,20:06:2009 16:09


In [61]:
result = pd.read_csv('ex5.csv')
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [66]:
def f(x):
    x = int(x)
    return x**2

In [68]:
result = pd.read_csv('ex5.csv', converters={'b' : f}) # ого, реально работает!!!!
result 

Unnamed: 0,something,a,b,c,d,message
0,one,1,4,3.0,4,
1,two,5,36,,8,world
2,three,9,100,11.0,12,foo


In [70]:
pd.read_csv('t.csv', parse_dates=True, nrows=3) # nrows отлично отработал

Unnamed: 0,data time
0,12:02:2001 12:05
1,13:03:2023 13:06
2,15:04:2023 14:07


In [71]:
pd.read_csv('t.csv', parse_dates=True) 

Unnamed: 0,data time
0,12:02:2001 12:05
1,13:03:2023 13:06
2,15:04:2023 14:07
3,16:05:2011 15:08
4,20:06:2009 16:09


In [72]:
pd.read_csv('t.csv', parse_dates=True, skipfooter=2) 

  return func(*args, **kwargs)


Unnamed: 0,data time
0,12:02:2001 12:05
1,13:03:2023 13:06
2,15:04:2023 14:07


In [73]:
pd.read_csv('t.csv', parse_dates=True, verbose=True)  # доп информация

Tokenization took: 0.05 ms
Type conversion took: 0.33 ms
Parser memory cleanup took: 0.01 ms


Unnamed: 0,data time
0,12:02:2001 12:05
1,13:03:2023 13:06
2,15:04:2023 14:07
3,16:05:2011 15:08
4,20:06:2009 16:09


# Чтение текстовых файлов порциями

In [75]:
# Могут быть оочень больше файлы, и чтение их разом просто зависнет ноутбук. Или нам нужен только небольшой 
# фрагмент этого файла, для этого и нужно читать его по частям. Давай разберемся как это сделать

In [87]:
# Прежде чем приступать к обработке больших данных давай попросим Pandas отображать меньше данных
pd.options.display.max_rows = 10

In [85]:
result = pd.read_csv('ex6.csv')

In [86]:
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


In [79]:
# Да, тут 10000 строк, а что что, если я хочу прочитать меньшее их количество? Воспользуемся параметром nrows

In [81]:
pd.read_csv('ex6.csv', nrows=10) # отличный параметр

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
5,1.81748,0.742273,0.419395,-2.251035,Q
6,-0.776764,0.935518,-0.332872,-1.875641,U
7,-0.913135,1.530624,-0.572657,0.477252,K
8,0.35848,-0.497572,-0.367016,0.507702,S
9,-1.740877,-1.160417,-1.63783,2.172201,G


In [82]:
# Ок, но как наш файл порциями то прочитать? Я не понял, давай разбираться!

In [83]:
# Зададим с помощью параметра chunksize размер порции в строках для чтения

In [88]:
chunk = pd.read_csv('ex6.csv', chunksize=1000)

In [90]:
chunk # это итерируемый объект

<pandas.io.parsers.readers.TextFileReader at 0x7fde3cf2e340>

In [91]:
# Объект TextParser, возвращаемый функцией read_csv, позволяет читать файл порциями размера chunksize.
# Например, можно таким образом итеративно читать файл ex6.csv (там 10к строк), агрегируя счетчики значений в
# в столбце 'key':

In [94]:
chunk = pd.read_csv('ex6.csv', chunksize=1000)
tot = pd.Series([])
for x in chunk:
    tot = tot.add(x['key'].value_counts(), fill_value=0)
tot = tot.order(ascending=False)

NameError: name 'Series' is not defined

In [93]:
#  Херота какая-то

# Вывод данных в текстовом формате

In [95]:
# Данные можно экспортировать в формате с разделителеми. Рассмотрим операцию чтения csv файла
data = pd.read_csv('ex5.csv')
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [96]:
# C помощью метода to_csv объекта DataFrame мы можем вывести данные в файл через запятую
data.to_csv('out.csv')

In [98]:
!cat out.csv 

,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [99]:
# Видим, что все разделилилось через запятую

In [None]:
# sys. stdout - используется для вывода оператором print() и выражений, которые возвращают значение

In [101]:
# Конечно, допустимыми являются и другие разделители
# при выводе в sys.stdout результат отправляется на страндратный вывод (через экран)
#
import sys

data.to_csv(sys.stdout, sep='|')

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [102]:
# Отсутствующие значения представлены пустыми строками, но можно указать и маркер для этого:
data.to_csv(sys.stdout, na_rep='NULL') # ПОЯВИЛИСЬ ПРОПУЩЕННЫЕ ЗНАЧЕНИЯ

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


In [103]:
# Если не указано обратное, то выводятся метки строк и столбцов, но это можно подавить
data.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [107]:
# Можно также вывести подмножество столбцов, задав их порядок:

data.to_csv(sys.stdout, index=False, columns=list('acb'))

a,c,b
1,3.0,2
5,,6
9,11.0,10


In [108]:
# У объекта Series тоже есть метод to_csv!

In [111]:
dates = pd.date_range('1/1/2000', periods=10)
dates

DatetimeIndex(['2000-01-01', '2000-01-02', '2000-01-03', '2000-01-04',
               '2000-01-05', '2000-01-06', '2000-01-07', '2000-01-08',
               '2000-01-09', '2000-01-10'],
              dtype='datetime64[ns]', freq='D')

In [112]:
# Эта функция в основном используется для генерации временного индекса с фиксированной частотой.
# При вызове метода построения необходимо 
# указать два значения параметра: начало, конец и периоды, в противном случае будет сообщено об ошибке.

In [113]:
ts = pd.Series(np.arange(10), index=dates)

In [114]:
ts

2000-01-01    0
2000-01-02    1
2000-01-03    2
2000-01-04    3
2000-01-05    4
2000-01-06    5
2000-01-07    6
2000-01-08    7
2000-01-09    8
2000-01-10    9
Freq: D, dtype: int64

In [115]:
# Полезно, теперь могу генерировать время, хехехех!

# Обработка данных в формате с разделителем

In [4]:
import pandas as pd
import numpy as np

In [5]:
# Как правило, табличные данные можно загрузить с диска с помощью pd.read_table() и подобного.
# Но иногда требуется ручная обработка. Часть бывает, что в файле неверное оперделены строки и это сбивает 
# read_table(). Рассмотрим пример

In [6]:
!cat ex7.csv

a,b,c,
1,2,3,
1,2,3,4


In [7]:
# Для любого файла с односимвольным разделителем можно воспользоваться стандартным модулем Python
# csv. Для этого нужно передать открытый файл или объект, похожий на файл, методу csv.reader()

In [8]:
import csv
f = open('ex7.csv')

In [9]:
reader = csv.reader(f)

In [10]:
# Итерирование файла с помощью объекта reader дает кортежи значений в каждой строчке после удаления кавычек

In [11]:
for line in reader:
    print(line)

['a', 'b', 'c', '']
['1', '2', '3', '']
['1', '2', '3', '4']


In [12]:
# Теперь можем провести любые манипуляции для приведения данных к нужному виду. Пойдем по шагам
# сначала прочитаем файл в список строк

In [13]:
with open('ex7.csv', 'r+') as f:
    lines = list(csv.reader(f))

In [14]:
lines

[['a', 'b', 'c', ''], ['1', '2', '3', ''], ['1', '2', '3', '4']]

In [15]:
# Затем отделим строку-заголовок от остальных

In [16]:
header, values = lines[0], lines[1:]

In [17]:
# Далее мы можем создать словарь столбцов, используя словарное включение и выражение zip(*values), 
# которое танспонирует строки и столбцы

In [18]:
header

['a', 'b', 'c', '']

In [19]:
values

[['1', '2', '3', ''], ['1', '2', '3', '4']]

In [23]:
print(*values) # распаковка от вложенного

['1', '2', '3', ''] ['1', '2', '3', '4']


In [25]:
data_dict = {h : v for h,v in zip(header, zip(values))}

In [26]:
data_dict

{'a': (['1', '2', '3', ''],), 'b': (['1', '2', '3', '4'],)}

In [27]:
data_dict = {h : v for h,v in zip(header, zip(*values))}
data_dict

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3'), '': ('', '4')}

In [36]:
pd.DataFrame(data_dict, columns=list('abcd'))

Unnamed: 0,a,b,c,d
0,1,2,3,
1,1,2,3,


In [28]:
# Встречаются различные вариации  csv-файлов. Для установления нового формата со своим разделителем,
# соглашением об употреблении кавычек и способе звершения строк необходимо определить простой
# подкласс класса csv.Dialect:

In [59]:
class my_dialect(csv.Dialect):
    lineterminator = '\n'
    delimiter = ';'
    quotechar = '"'
    quoting = csv.QUOTE_MINIMAL

In [47]:
# Вот таким образом определяется новый формат чтения
reader = csv.reader(f, dialect=my_dialect)

ValueError: I/O operation on closed file.

In [41]:
# Параметры диалекта CSV можно также задать в виде именованных параметров csv.reader, не определяя подкласса
reader = csv.reader(f, delimiter='|')

ValueError: I/O operation on closed file.

In [43]:
# Рассмотрим атрибуты csv.Dialect
# delimiter - односимвольная строка, опредлеющая разделитель полей. По умолчанию ','
#
# lineterminator - завершитель строк при выводе, по умолчанию '\r\n'. Объект reader игнорирует этот параметр
# используя вместо него платформенное соглашение о концах строк.
#
# quoetchar - символ заканчивания для полей, содержащих специальные символы (например, разделитель), 
# по умолчанию '"'
#
# quoting - соглашение об употреблении кавычек. Имеет такие значения: csv.QUOTE_ALL - заключать в кавычки все поля,
# csv.QUOTE_MINIMAL - только поля, содержащие специальные символы, например разделитель, csv.QUOTE_NONNUMERIC и 
# csv.QUOTE_NON - не заключать в кавычки.  По умолчанию csv.QUOTE_MINIMAL
# 
# skipinitialspace - игнорировать пробелы после каждого разделителя. По умолчанию False
#
# doublequote - как обрабатывать символ кавычки внутри поля. Если True - добавляется второй символ кавычки
#
# escapechar - строка для экранирования разделителя в случаях, когда quoting равно csv.QUOTE_NON


In [44]:
# Если в файле используются более сложные или фиксированные многосимвольные разделители, то применить
# модуль csv не удастся. В таких случаях придется разбивать строку на части и производить другие действия по
# очистке данных, применяя метод строки split или re.split

In [54]:
# Для записи файлов с разделителем вручную можно использовать метод csv.writer. 
# Он принимает объект, которые представляет открытый, допускающий запись файл и те же параметры
# диалекта и форматирования, что csv.reader().  
# csvwriter.writerow(row) — записывает данные, представляющие одну строку CSV в файл


with open('mu.csv', 'w') as f:
    writer = csv.writer(f) # здесь решили по умолчанию
    writer.writerow(('one', 'two', 'three'))
    writer.writerow(('1', '2', '3'))
    writer.writerow(['4', '5', '6'])

In [55]:
pd.read_csv('mu.csv')

Unnamed: 0,one,two,three
0,1,2,3
1,4,5,6


In [56]:
# А давай укажем свой диалект 
with open('mu.csv', 'w') as f:
    writer = csv.writer(f, dialect=my_dialect) # здесь решили по умолчанию
    writer.writerow(('one', 'two', 'three'))
    writer.writerow(('1', '2', '3'))
    writer.writerow(['4', '5', '6'])

In [63]:
pd.read_csv('mu.csv') # да, данные не очень вышли красивые

Unnamed: 0,one;two;three
0,1;2;3
1,4;5;6


In [65]:
# А что если при чтении указать свой диалект, может нормально распознает?
pd.read_csv('mu.csv', dialect=my_dialect) # о, действительно, указал и все исправилось, похоже он по умолчанию свой диалект использует

Unnamed: 0,one,two,three
0,1,2,3
1,4,5,6


# Данные в формате JSON

In [74]:
# Формат JSON (JavaScript Object Notation) стал очень популярен для обмена данными по протоколу HTTP
# между веб-сервером и браузером или другим клиентским приложением. Этот формат обладает куда большей гибкостью,
# чем табличный текстовый формат CSV. Например

obj = """ 
{"name" : "wes", "places_lived" : ["USA", "Spain"],
"pet" : null,
"siblings"  : [{"name" : "Skott", "age" : 30, "pets" : "Psina"}, 
{"name" : "Jana", "age" : 19, "pets" : ["Psina", "Koshak"]}]}
"""

In [67]:
obj

' \n{\'name\' : \'wes\', \'places_lived\' : ["USA", \'Spain\'],\n\'pet\' : null,\n\'siblings\'  : [{\'name\' : \'Skott\', \'age\' : 30, \'pets\' : \'Psina\'}, \n{\'name\' : \'Jana\', \'age\' : 19, \'pets\' : [\'Psina\', \'Koshak\']}]}\n\n'

In [70]:
# Данные в формате JSON очень напоминают код на Python с тем отличием, что отсутствующие значения
# обозначаются null. Еще есть некоторые нюансы : запрещено ставить запятую после последнего элемента массива,
# ключ любого объекта должен быть строкой. У Python существует несколько библиотек для четния и записи
# JSON данных. Для преобразования JSON-строки в объект Python служит метод json.loads()

In [75]:
import json # в json надо использовать двойные кавычки!!!!!!!!!!!!!!!!!!!!!!
 
result = json.loads(obj)

In [76]:
result

{'name': 'wes',
 'places_lived': ['USA', 'Spain'],
 'pet': None,
 'siblings': [{'name': 'Skott', 'age': 30, 'pets': 'Psina'},
  {'name': 'Jana', 'age': 19, 'pets': ['Psina', 'Koshak']}]}

In [77]:
# В обратную сторону, метод json.dumps преобразует объект Python в формат JSONЖ

asjson = json.dumps(result)

In [79]:
asjson # это уже JSON данные

'{"name": "wes", "places_lived": ["USA", "Spain"], "pet": null, "siblings": [{"name": "Skott", "age": 30, "pets": "Psina"}, {"name": "Jana", "age": 19, "pets": ["Psina", "Koshak"]}]}'

In [80]:
# Как именно преобразовать объект JSON или список таких объектов в DataFrame или другую структуру - решать мне.
# Для удобства предлагается передать список словарей (которые раньше были объектами JSON) 
# конструктуру DataFrame и выбрать подможество полей данных

In [81]:
siblings = pd.DataFrame(result['siblings'], columns=['name', 'age'])

In [82]:
siblings

Unnamed: 0,name,age
0,Skott,30
1,Jana,19


In [83]:
# А что, если сразу передать весь объект?
t =  pd.DataFrame(result)

In [84]:
t

Unnamed: 0,name,places_lived,pet,siblings
0,wes,USA,,"{'name': 'Skott', 'age': 30, 'pets': 'Psina'}"
1,wes,Spain,,"{'name': 'Jana', 'age': 19, 'pets': ['Psina', ..."


In [85]:
# Функция Pandas pd.read_json умеет автоматичсеки преобразовыввать наборы данных опредленного вида в формате
# JSON в объекты Series или DataFrame

In [86]:
!cat example.json

[{"a": 1, "b": 2, "c": 3},
 {"a": 4, "b": 5, "c": 6},
 {"a": 7, "b": 8, "c": 9}]


In [87]:
# По умолчанию параметры pandas.read_json подразумевают, что каждый объект в JSON-массиве - это строка таблицы:

In [88]:
pd.read_json('example.json')

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [89]:
# К JSON мы еще вернемся чуть позже

#  XML и HTML: разбор веб-страниц

In [91]:
# В питоне много библиотек для этого: lxml, Beautiful Soup, html5lib. 
# Хотя lxml работает гораздо быстрее остальных, другие бибилиотеки выше лучше сравляются с неверно 
# сформированными HTML и XML-файлами.
#
# В Pandas имеется функция read_html, которая использует внешние бибилиотеки выше для автоматического выделения
# таблиц из html файлов и представляя их в виде объектов DataFrame.

In [92]:
# У функции pandas.read_html имеется много параметров, но по умолчанию она ищет и пытается разобрать 
# все табличные данные внутри тегов <table>. Результатом является список объектов DataFrame

In [93]:
tables = pd.read_html('fdic_failed_bank_list.html')

In [94]:
len(tables)

1

In [101]:
type(tables)

list

In [98]:
tables[0]

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Allied Bank,Mulberry,AR,91,Today's Bank,"September 23, 2016","November 17, 2016"
1,The Woodbury Banking Company,Woodbury,GA,11297,United Bank,"August 19, 2016","November 17, 2016"
2,First CornerStone Bank,King of Prussia,PA,35312,First-Citizens Bank & Trust Company,"May 6, 2016","September 6, 2016"
3,Trust Company Bank,Memphis,TN,9956,The Bank of Fayette County,"April 29, 2016","September 6, 2016"
4,North Milwaukee State Bank,Milwaukee,WI,20364,First-Citizens Bank & Trust Company,"March 11, 2016","June 16, 2016"
...,...,...,...,...,...,...,...
542,"Superior Bank, FSB",Hinsdale,IL,32646,"Superior Federal, FSB","July 27, 2001","August 19, 2014"
543,Malta National Bank,Malta,OH,6629,North Valley Bank,"May 3, 2001","November 18, 2002"
544,First Alliance Bank & Trust Co.,Manchester,NH,34264,Southern New Hampshire Bank & Trust,"February 2, 2001","February 18, 2003"
545,National State Bank of Metropolis,Metropolis,IL,3815,Banterra Bank of Marion,"December 14, 2000","March 17, 2005"


In [106]:
failures = tables[0] # что за фокус, я так и не понял
type(failures)

pandas.core.frame.DataFrame

In [107]:
failures


Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Allied Bank,Mulberry,AR,91,Today's Bank,"September 23, 2016","November 17, 2016"
1,The Woodbury Banking Company,Woodbury,GA,11297,United Bank,"August 19, 2016","November 17, 2016"
2,First CornerStone Bank,King of Prussia,PA,35312,First-Citizens Bank & Trust Company,"May 6, 2016","September 6, 2016"
3,Trust Company Bank,Memphis,TN,9956,The Bank of Fayette County,"April 29, 2016","September 6, 2016"
4,North Milwaukee State Bank,Milwaukee,WI,20364,First-Citizens Bank & Trust Company,"March 11, 2016","June 16, 2016"
...,...,...,...,...,...,...,...
542,"Superior Bank, FSB",Hinsdale,IL,32646,"Superior Federal, FSB","July 27, 2001","August 19, 2014"
543,Malta National Bank,Malta,OH,6629,North Valley Bank,"May 3, 2001","November 18, 2002"
544,First Alliance Bank & Trust Co.,Manchester,NH,34264,Southern New Hampshire Bank & Trust,"February 2, 2001","February 18, 2003"
545,National State Bank of Metropolis,Metropolis,IL,3815,Banterra Bank of Marion,"December 14, 2000","March 17, 2005"


In [108]:
failures.head()


Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Allied Bank,Mulberry,AR,91,Today's Bank,"September 23, 2016","November 17, 2016"
1,The Woodbury Banking Company,Woodbury,GA,11297,United Bank,"August 19, 2016","November 17, 2016"
2,First CornerStone Bank,King of Prussia,PA,35312,First-Citizens Bank & Trust Company,"May 6, 2016","September 6, 2016"
3,Trust Company Bank,Memphis,TN,9956,The Bank of Fayette County,"April 29, 2016","September 6, 2016"
4,North Milwaukee State Bank,Milwaukee,WI,20364,First-Citizens Bank & Trust Company,"March 11, 2016","June 16, 2016"


In [109]:
# Поскольку в объекте failures много столбцов, пандас вставляет знак разрыва строки \

In [110]:
# Как будет показано в следующих главах, дальше мы можем произвести очистку и анализ данных,
# например посчитать количество банкротств по годам

In [111]:
close_time = pd.to_datetime(failures['Closing Date'])

In [112]:
close_time.dt.year.value_counts()

2010    157
2009    140
2011     92
2012     51
2008     25
2013     24
2014     18
2002     11
2015      8
2016      5
2004      4
2001      4
2007      3
2003      3
2000      2
Name: Closing Date, dtype: int64

# Разбор XML с помощью lxml.objectify 

In [1]:
# XML - расширяемый язык разметки - еще один поппулярный формат представления структурированных данных,
# поддерживающий иерархические вложенные данные, снабженные метаданными.
#
# Используя lxml.objectify, мы разбираем файл и получаем ссылку на корневой узел XML-документа
# от метода getroot

In [5]:
from lxml import objectify

In [6]:
path = '/home/alex/Документы/pydata-book-2nd-edition/datasets/mta_perf/Performance_MNR.xml'
parsed = objectify.parse(open(path))
root = parsed.getroot()

In [7]:
path

'/home/alex/Документы/pydata-book-2nd-edition/datasets/mta_perf/Performance_MNR.xml'

In [8]:
parsed

<lxml.etree._ElementTree at 0x7fb07aeb3940>

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Свойство root.INDICATOR возвращает генератор, последовательно отдающий все элементы <INDICATOR>. Для каждой 
# записи мы заполняем словарь имен тегов (например YTD_ACTUAL) значениями данных(некоторые теги пропускаются):

In [3]:
data = []

In [11]:
skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ', 'DESIRED_CHANGE', 'DECIMAL_PLACES']

for element in root.INDICATOR:
    el_data = {}
    for child in element.getchildren():
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data)

In [12]:
data

[{'AGENCY_NAME': 'Metro-North Railroad',
  'INDICATOR_NAME': 'On-Time Performance (West of Hudson)',
  'DESCRIPTION': 'Percent of commuter trains that arrive at their destinations within 5 minutes and 59 seconds of the scheduled time. West of Hudson services include the Pascack Valley and Port Jervis lines. Metro-North Railroad contracts with New Jersey Transit to operate service on these lines.\n',
  'PERIOD_YEAR': 2008,
  'PERIOD_MONTH': 1,
  'CATEGORY': 'Service Indicators',
  'FREQUENCY': 'M',
  'INDICATOR_UNIT': '%',
  'YTD_TARGET': 95.0,
  'YTD_ACTUAL': 96.9,
  'MONTHLY_TARGET': 95.0,
  'MONTHLY_ACTUAL': 96.9},
 {'AGENCY_NAME': 'Metro-North Railroad',
  'INDICATOR_NAME': 'On-Time Performance (West of Hudson)',
  'DESCRIPTION': 'Percent of commuter trains that arrive at their destinations within 5 minutes and 59 seconds of the scheduled time. West of Hudson services include the Pascack Valley and Port Jervis lines. Metro-North Railroad contracts with New Jersey Transit to operate 

In [13]:
# Наконец, преобразуем список этих словарей в объект DataFrame

In [14]:
perf = pd.DataFrame(data)

In [15]:
perf.head()

Unnamed: 0,AGENCY_NAME,INDICATOR_NAME,DESCRIPTION,PERIOD_YEAR,PERIOD_MONTH,CATEGORY,FREQUENCY,INDICATOR_UNIT,YTD_TARGET,YTD_ACTUAL,MONTHLY_TARGET,MONTHLY_ACTUAL
0,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,1,Service Indicators,M,%,95.0,96.9,95.0,96.9
1,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,2,Service Indicators,M,%,95.0,96.0,95.0,95.0
2,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,3,Service Indicators,M,%,95.0,96.3,95.0,96.9
3,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,4,Service Indicators,M,%,95.0,96.8,95.0,98.3
4,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,5,Service Indicators,M,%,95.0,96.6,95.0,95.8


In [16]:
# XML документы могут быть гораздо сложнее, в частности в каждом элементе могут быть метаданные.
# Рассмотрим тег гиперссылки в формате HTML, который является частным случаем формата XML:

In [17]:
from io import StringIO

tag = '<a href="http://www.google.com">Google</a>'

In [18]:
root = objectify.parse(StringIO(tag)).getroot()

In [19]:
root

<Element a at 0x7fb07adf5480>

In [20]:
# Теперь мы можем обратиться к любому элементу тега или тексту ссылки

In [21]:
root.get('href')

'http://www.google.com'

In [22]:
root.text

'Google'

# Двоичные форматы данных

In [23]:
# Один из самых простых способов эффективно хранить данные в двоичном формате - воспользоваться встроенным
# в Python методом сериализации pickle. Сериализация — процесс перевода структуры данных в последовательность байтов. 
# Поэтому у всех объектов Pandas есть метод to_pickle, который сохраняет файл на диск в виде pickle-файла

In [24]:
frame = pd.read_csv('ex1.csv')

In [25]:
frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [27]:
frame.to_pickle('pick')

In [28]:
# Для чтения данных из pickle файла используется метод read_pickle()

In [29]:
pd.read_pickle('pick')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [30]:
# Pickle рекомендуется использовать только для короткосрочного хранения. Проблема в том, что
# невозможно гарантировать неизменность формата: сегодня я сериализовал объект в pickle, а следующая версия
# библиотеки не сможет его десериализовать.

#  Формат HDF5

In [31]:
# Формат HDF5 хорошо зарекомендовал себя для хранения больших объемов научных данных в виде массивов. 
# HFD означает иерархический формат данных. Каждый такой файл содержит в себе стректуру узлов, напоминающую
# файловую систему, которая позволяет хранить несколько наборов данных вместе с относящимся к ним метаданными.
# Также этот формат поддерживает сжатие разлиными алгоритмами. Для очень больших наборов данных, которые не помещаются 
# в память, HDF5 это отличный формат. К библиотеке HDF5 существует несколько интерфейсов в питоне, это
# PyTables и h5py.
# Но Pandas предоставляет высокоуровневый интерфейс, который упрощает хранение объектов Series и DataFrame. 
# Класс HDFStore  работает как словарь и отвечает за низкоуровневые детали.


In [2]:
frame = pd.DataFrame({'a' : np.random.randn(100)})

In [3]:
frame

Unnamed: 0,a
0,-0.863130
1,-1.288777
2,-1.454487
3,-0.315420
4,1.072257
...,...
95,0.305343
96,1.053110
97,0.880160
98,0.226675


In [4]:
store = pd.HDFStore('mydata.h5')

ImportError: Missing optional dependency 'tables'.  Use pip or conda to install tables.

# Чтение файлов Microsoft Excel

In [3]:
# В Pandas имеется поддержка чтения файлов Excel с помощью класса ExcelFile. На внутреннем уровне ExcelFile 
# пользуется пакетами xlrd и openpyxl для чтения в формате XLS и XLSX соответственно.

import pandas as pd
import numpy as np

In [4]:
# Для работы с классом ExcelFile создайте его экземпляр, передав конструктору пусть к файлу xls или xlsx:

xlsx = pd.ExcelFile('ex1.xlsx')

In [5]:
xlsx

<pandas.io.excel._base.ExcelFile at 0x7f88c1801190>

In [8]:
# Прочитать данные из рабочего листа (Sheet) позволяет метод parse

pd.read_excel(xlsx, 'Sheet1')

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [11]:
# Если мы собираемся читать несколько рабочих листов из файла, то быстрее создать объект ExcelFile
# но можно просто передать имя файла функции pandas.read_excel()

pd.read_excel('ex1.xlsx', 'Sheet1')

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [15]:
frame = pd.read_excel('ex1.xlsx') # у нас один лист, поэтому прочитал так

In [16]:
# Для записи данных pandas в файл формата Excel следует сначала создать объект ExcelWriter, а затем
# записать в него данные, пользуясь методом to_excel объектов pandas:

writer = pd.ExcelWriter('ex2.xlsx')
frame.to_excel(writer, 'Sheet1')
writer.save()

In [17]:
# Но это реально долго!!! Проще передать путь к файлу методу to_excel, избежав тем самым создания ExcelWriter

frame.to_excel('ex2.xlsx')

# Очистка и подготовка данных

#  Обработка отсутствующих данных

In [18]:
# При вычисление описательных статистик отсутствующие данные не учитываются. В Pandas для представления
# отсутствующих данных с плавающей  точкой используется значение NaN (не число). Это просто признак
# который легко распознать:

string_data = pd.Series(['aardvak', np.nan, 'avocado', 'arti'])

In [19]:
string_data


0    aardvak
1        NaN
2    avocado
3       arti
dtype: object

In [20]:
# Вспоминаем метод isnull(), которое проверят является ли выражение NaN, если да, то возвращает True

string_data.isnull()

0    False
1     True
2    False
3    False
dtype: bool

In [21]:
# NA - not available (не доступны)

In [22]:
# Встроенное в Python None тоже рассматривается как отсутствующее в массиве объектов:

string_data[0] = None

In [23]:
string_data.isnull()

0     True
1     True
2    False
3    False
dtype: bool

In [25]:
# Методы обработки отсутствующих данных
#
# dropna - фильтрует метки оси в зависимости от того, существует ли для метки отсутствующие данные, причем
# есть возможность указать различные пороги, определяющие, какое количество отсутствующих данных считать допустимым.
#
# fillna - восполняет отсутствующие данные указанным значением или использует какой-нибудь метод интерполяции
# 'ffill' или 'bfill'
#
# isnull - возвращает объект, содержащий булевы значения, которые показывают, какие значения отсутствуют
#
# notnull - логическое отрицание isnull

In [26]:
df = pd.DataFrame({"name": ['Alfred', 'Batman', 'Catwoman'],

                   "toy": [np.nan, 'Batmobile', 'Bullwhip'],

                   "born": [pd.NaT, pd.Timestamp("1940-04-25"),

                            pd.NaT]})

In [27]:
df

Unnamed: 0,name,toy,born
0,Alfred,,NaT
1,Batman,Batmobile,1940-04-25
2,Catwoman,Bullwhip,NaT


In [32]:
df.dropna(axis=1, how='any')

Unnamed: 0,name
0,Alfred
1,Batman
2,Catwoman


In [33]:
df

Unnamed: 0,name,toy,born
0,Alfred,,NaT
1,Batman,Batmobile,1940-04-25
2,Catwoman,Bullwhip,NaT


In [40]:
df.fillna(value = 10, axis=1)

Unnamed: 0,name,toy,born
0,Alfred,10,10
1,Batman,Batmobile,1940-04-25 00:00:00
2,Catwoman,Bullwhip,10


In [44]:
df

Unnamed: 0,name,toy,born
0,Alfred,,NaT
1,Batman,Batmobile,1940-04-25
2,Catwoman,Bullwhip,NaT


# Фильрация отсутствующих данных

In [45]:
# Существует несколько способов фильтрации отсутствующих данных. Конечно, можно сделать это и вручную с помощью
# функции isnull() и булева индексирования, но часто бывает полезен метод dropna. Для Series он возвращает 
# другой объект Series, содержащий только данные и значения индекса, отличные от NA

data = pd.Series([1, np.nan, 3, 4, np.nan, 6])

In [46]:
data

0    1.0
1    NaN
2    3.0
3    4.0
4    NaN
5    6.0
dtype: float64

In [48]:
data.dropna() # индексы изменились

0    1.0
2    3.0
3    4.0
5    6.0
dtype: float64

In [49]:
# Принципе, то что я записал выше эквивалентно такому коду:

In [51]:
data[data.isnull()] # isnull() использовал и вернул только те, где есть NaN

1   NaN
4   NaN
dtype: float64

In [52]:
data[data.notnull()] # notnull() использовал и вернул уже БЕЗ NAN

0    1.0
2    3.0
3    4.0
5    6.0
dtype: float64

In [53]:
# В случае объектов DataFrame все немного сложнее. Можно отбрасывать строки или столбцы, если они содержат только NA 
# значения или хотя бы одно NA-значение. По умолчанию метод dropna отбрасывает все строки, содержащие
# хотя бы одно отсутствующее значение.

In [54]:
data = pd.DataFrame([[1, 6.5, 4], [1, np.nan, np.nan], [np.nan, np.nan, np.nan], [np.nan, 6.5, 3] ])

In [55]:
data

Unnamed: 0,0,1,2
0,1.0,6.5,4.0
1,1.0,,
2,,,
3,,6.5,3.0


In [57]:
data.dropna() # по умолчанию отброчил строки с NAN, где хотя б раз они встречаются

Unnamed: 0,0,1,2
0,1.0,6.5,4.0


In [58]:
# Если в dropna() передать параметр  how='all', то будут отброшены строки, целиком состоящие из NAN

data

Unnamed: 0,0,1,2
0,1.0,6.5,4.0
1,1.0,,
2,,,
3,,6.5,3.0


In [59]:
data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,4.0
1,1.0,,
3,,6.5,3.0


In [60]:
data.dropna(how='any') # то есть, по умолчанию такой именно параметр any

Unnamed: 0,0,1,2
0,1.0,6.5,4.0


In [61]:
# А как столбцы обрасывать? Да просто указывать параметр axis

data

Unnamed: 0,0,1,2
0,1.0,6.5,4.0
1,1.0,,
2,,,
3,,6.5,3.0


In [62]:
data.dropna(axis=1)

0
1
2
3


In [64]:
data[0][0]

1.0

In [65]:
data

Unnamed: 0,0,1,2
0,1.0,6.5,4.0
1,1.0,,
2,,,
3,,6.5,3.0


In [67]:
data[2] = np.nan

In [68]:
data

Unnamed: 0,0,1,2
0,1.0,6.5,
1,1.0,,
2,,,
3,,6.5,


In [69]:
data.dropna(how='all', axis=1)

Unnamed: 0,0,1
0,1.0,6.5
1,1.0,
2,,
3,,6.5


In [70]:
# Родственный способ фильтрации строк DataFrame в основном применяется к временным рядам. Допустим,
# требуется оставить только строки, содержащие определенное количество наблюдений. Этот порог 
# можно задать с помощью параметра thresh:

In [71]:
df = pd.DataFrame(np.random.randn(7, 3))

In [72]:
df

Unnamed: 0,0,1,2
0,1.534405,2.360566,0.428635
1,0.381915,-0.198688,-0.722307
2,-0.366172,-0.654903,-1.329475
3,-0.634893,0.375889,-1.458866
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886


In [73]:
df.iloc[:4, 1] = np.nan

In [74]:
df

Unnamed: 0,0,1,2
0,1.534405,,0.428635
1,0.381915,,-0.722307
2,-0.366172,,-1.329475
3,-0.634893,,-1.458866
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886


In [75]:
df.iloc[:2, 2] = np.nan

In [76]:
df

Unnamed: 0,0,1,2
0,1.534405,,
1,0.381915,,
2,-0.366172,,-1.329475
3,-0.634893,,-1.458866
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886


In [77]:
df.dropna() # просто по умолчанию

Unnamed: 0,0,1,2
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886


In [79]:
df.dropna(thresh=2) # то есть этот параметр выделяет сколько наблюдений отсутствующих допускается, чтобы строка попала

Unnamed: 0,0,1,2
2,-0.366172,,-1.329475
3,-0.634893,,-1.458866
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886


In [81]:
df.dropna(thresh=2, axis=0)

Unnamed: 0,0,1,2
2,-0.366172,,-1.329475
3,-0.634893,,-1.458866
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886


In [83]:
df.dropna(thresh=2, axis=1) # также и осталось, так как в строке всего по 2 и это допускается

Unnamed: 0,0,1,2
0,1.534405,,
1,0.381915,,
2,-0.366172,,-1.329475
3,-0.634893,,-1.458866
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886


# Восполнение отсутствующих данных

In [84]:
# Иногда отсутствующие данные желательно не отфильтровывать (и потенциально вместе с ними отбрасывать полезные данные)
# а каким-то способом заткнуть дыры. В большинстве случаев для этой цели можно использовать метод fillna().
# Ему передается константа, представляемая вместо отсутствующих значений:

In [85]:
df

Unnamed: 0,0,1,2
0,1.534405,,
1,0.381915,,
2,-0.366172,,-1.329475
3,-0.634893,,-1.458866
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886


In [87]:
df.fillna(value=0) # заполнил нулями

Unnamed: 0,0,1,2
0,1.534405,0.0,0.0
1,0.381915,0.0,0.0
2,-0.366172,0.0,-1.329475
3,-0.634893,0.0,-1.458866
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886


In [89]:
# Если передать методу fillna словарь, то можно будет подставлять вместо отсутствующих данных значение,
# зависящее от столбца:

df.fillna(value={1:100, 2:200}) # где ключ - это номер столбца

Unnamed: 0,0,1,2
0,1.534405,100.0,200.0
1,0.381915,100.0,200.0
2,-0.366172,100.0,-1.329475
3,-0.634893,100.0,-1.458866
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886


In [90]:
# Метод fillna возвращает новый объект, но можно также подифицировать существующий объект на месте:

df.fillna(0, inplace=True)

In [91]:
df

Unnamed: 0,0,1,2
0,1.534405,0.0,0.0
1,0.381915,0.0,0.0
2,-0.366172,0.0,-1.329475
3,-0.634893,0.0,-1.458866
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886


In [93]:
# Те же методы интерполяции, что применяются для переиндексации, годятся и для fillna:

pd.DataFrame(np.random.randn(7, 3))

Unnamed: 0,0,1,2
0,-0.465901,0.006406,1.495281
1,-0.822238,-0.444964,1.557397
2,-0.758729,-0.280987,-1.009848
3,1.45303,1.81899,-1.01302
4,-0.760296,-2.209397,-0.362421
5,-0.406369,-0.410629,-0.684402
6,0.145005,-2.235664,1.128868


In [94]:
df.iloc[:4, 2] = np.nan

In [95]:
df

Unnamed: 0,0,1,2
0,1.534405,0.0,
1,0.381915,0.0,
2,-0.366172,0.0,
3,-0.634893,0.0,
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886


In [96]:
df.iloc[:2, 0] = np.nan

In [97]:
df

Unnamed: 0,0,1,2
0,,0.0,
1,,0.0,
2,-0.366172,0.0,
3,-0.634893,0.0,
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886


In [101]:
# Применим методы интерполяции:

df.fillna(method='ffill') # как видим, этот метод не может значения новые расчитать, попробует тогда другой

Unnamed: 0,0,1,2
0,,0.0,
1,,0.0,
2,-0.366172,0.0,
3,-0.634893,0.0,
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886


In [103]:
df.fillna(method='bfill') # этот уже расчитал

Unnamed: 0,0,1,2
0,-0.366172,0.0,-0.341973
1,-0.366172,0.0,-0.341973
2,-0.366172,0.0,-0.341973
3,-0.634893,0.0,-0.341973
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886


In [105]:
df.fillna(method='bfill', limit=3) # limit указывает количество заполняемых промежутков

Unnamed: 0,0,1,2
0,-0.366172,0.0,
1,-0.366172,0.0,-0.341973
2,-0.366172,0.0,-0.341973
3,-0.634893,0.0,-0.341973
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886


In [106]:
# При некоторой изобретательности можно использовать fillna и другими способами, например, передать среднее
# или медиану объекта Series.

data = pd.Series([1, np.nan, 4, 7])

In [107]:
data

0    1.0
1    NaN
2    4.0
3    7.0
dtype: float64

In [108]:
data.fillna(data.mean())

0    1.0
1    4.0
2    4.0
3    7.0
dtype: float64

In [109]:
# Справочная информация о методе fillna:
#
# value - скалярное значение или похожий на словарь объект для восполнения отсутвующих значений
#
# method - метод интерполяции, по умолчанию это метод интерполяции 'ffill'
#
# axis - ось, по которой производится посполнение
#
# inplace - модифицировать исходный объект, не создавая копию
#
# limit - для прямого и обратного восполнения максимальное количество непрерывных заполняемых промежутков

In [110]:
df

Unnamed: 0,0,1,2
0,,0.0,
1,,0.0,
2,-0.366172,0.0,
3,-0.634893,0.0,
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886


In [113]:
df.mean(axis=0)

0   -0.686908
1    0.037038
2   -0.505521
dtype: float64

In [114]:
df.fillna(value={0: (df.mean(axis=0)[0])})

Unnamed: 0,0,1,2
0,-0.686908,0.0,
1,-0.686908,0.0,
2,-0.366172,0.0,
3,-0.634893,0.0,
4,0.484273,0.134271,-0.341973
5,-1.09517,0.516752,-1.342476
6,-1.822577,-0.391757,0.167886
