# Pandas

общепринятые импорты

In [1]:
import numpy as np
from pandas import Series, DataFrame
import pandas as pd

#### 2 основных структуры данных:
- Series - одномерный объект состоящий из массива данных и ассоциированного с ним массива меток - индексов
- DataFrame - табличная структуру данных, состоящая из упорядоченной коллекции столбцов, причем типы значений(числовой, строковый, булев и т. д.) в разных столбцах могут различаться. В объекте DataFrame хранятся два индекса: по строкам и по столбцам.

### SERIES
одномерный объект состоящий из массива данных и ассоциированного с ним массива меток - индексов

In [2]:
obj = Series([5, -3, 2, 1, 1], index=['a', 'b', 'c', 'd', 'e'], name = 'aaa')
obj

a    5
b   -3
c    2
d    1
e    1
Name: aaa, dtype: int64

Создание обьекта Series. по умолчанию индексы - числа от 0 до N-1, где N - длина массива данных. по умолчанию имени объекта нет.

In [3]:
obj.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [4]:
obj.values

array([ 5, -3,  2,  1,  1], dtype=int64)

In [5]:
obj.name

'aaa'

In [6]:
obj[2]

2

извлекать значения можно как по индексу, так и по порядковому номеру

In [7]:
obj['c']  == obj[2]

True

In [8]:
obj[['c', 'a', 'd']]

c    2
a    5
d    1
Name: aaa, dtype: int64

In [9]:
obj[obj > 0]

a    5
c    2
d    1
e    1
Name: aaa, dtype: int64

In [10]:
obj

a    5
b   -3
c    2
d    1
e    1
Name: aaa, dtype: int64

In [11]:
obj[obj.index > 'b']

c    2
d    1
e    1
Name: aaa, dtype: int64

In [12]:
obj * 2

a    10
b    -6
c     4
d     2
e     2
Name: aaa, dtype: int64

все математические функции np работают и на объекты python

In [13]:
np.exp(obj)

a    148.413159
b      0.049787
c      7.389056
d      2.718282
e      2.718282
Name: aaa, dtype: float64

In [14]:
obj.apply(np.exp)

a    148.413159
b      0.049787
c      7.389056
d      2.718282
e      2.718282
Name: aaa, dtype: float64

apply применяет любую функцию к объекту Series построчно

In [15]:
sdata = {'Ohio': 3500, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj2 = Series(sdata)
obj2

Ohio       3500
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [16]:
states = ['California', 'Oregon', 'Ohio', 'Texas', 'Utah']
obj3 = Series(sdata, index=states)
obj3

California        NaN
Oregon        16000.0
Ohio           3500.0
Texas         71000.0
Utah           5000.0
dtype: float64

In [17]:
pd.isnull(obj3)

California     True
Oregon        False
Ohio          False
Texas         False
Utah          False
dtype: bool

можно использовать как функцию так и метод объекта Series

In [18]:
obj3.isnull()

California     True
Oregon        False
Ohio          False
Texas         False
Utah          False
dtype: bool

In [19]:
obj3.notnull()

California    False
Oregon         True
Ohio           True
Texas          True
Utah           True
dtype: bool

In [20]:
obj2 + obj3

California         NaN
Ohio            7000.0
Oregon         32000.0
Texas         142000.0
Utah           10000.0
dtype: float64

при арифметических операциях происходит выравнивание по индексу. Можно использовать методы

In [21]:
arifm = DataFrame({'операция': ['+', '-', '*', '/']
                   , 'действие': ['сложение', 'вычитание', 'умножение', 'деление']
                   , 'метод': ['add', 'sub', 'mul', 'div']}, index=[1,2,3,4])
    
arifm.index.name = 'No'
arifm

Unnamed: 0_level_0,операция,действие,метод
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,+,сложение,add
2,-,вычитание,sub
3,*,умножение,mul
4,/,деление,div


In [22]:
obj4 = obj2.add(obj3)
obj4.index = ['Cal', 'Oh', 'Or', 'Tex', 'Ut']
new_ind = list(obj4.index)
new_ind[0] = 'call'

obj4.index = new_ind
obj4

call         NaN
Oh        7000.0
Or       32000.0
Tex     142000.0
Ut       10000.0
dtype: float64

!!!сразу все индексы можно изменить на месте присваиванием другого списка. однако сам объект Index неизменяем

доступ по индексу, выборка

In [23]:
obj = Series([1, 3, 5, 7], index=['a', 'b', 'c', 'd'])
obj

a    1
b    3
c    5
d    7
dtype: int64

In [24]:
obj[['a', 'd']]

a    1
d    7
dtype: int64

при вырезании конец интервала включается (при использовании среза по позиции - нет)

In [25]:
obj['a':'c']

a    1
b    3
c    5
dtype: int64

In [26]:
obj[0:2]

a    1
b    3
dtype: int64

In [27]:
obj[[1, 3]]

b    3
d    7
dtype: int64

установка

In [28]:
obj[1:3] = 5
obj

a    1
b    5
c    5
d    7
dtype: int64

удаление

In [29]:
obj.drop(['b', 'd'])

a    1
c    5
dtype: int64

### DataFrame
табличная структуру данных, состоящая из упорядоченной коллекции столбцов, причем типы значений(числовой, строковый, булев и т. д.) в разных столбцах могут различаться. В объекте DataFrame хранятся два индекса: по строкам и по столбцам

##### В качестве аргументов при создании DataFrame могут быть: 
- двумерный ndarray массив
- словарь массивов,списков или кортежей
- структурный массив NumPy
- словарь объектов Series
- словарь словарей
- список словарей или объектов Series 
- список списков или кортежей 
- другой объект DataFrame; объект NumPy MaskedArray

### Индексные объекты 
Не изменяемы.

Методы: 
- .append() 
- .diff()
- .intersection()
- .union()
- .isin()
- .delete()
- .drop()
- .insert()
- .is_monotonic()
- .is_unique()
- .unique()

ПЕРЕИНДЕКСАЦИЯ - создание нового объекта, данные в котором СОГЛАСУЮТСЯ с новым индексом

In [30]:
obj = Series([4.1, 7.3, -5.0, 3.7], index = ['d', 'b', 'a', 'c'])
obj

d    4.1
b    7.3
a   -5.0
c    3.7
dtype: float64

In [31]:
obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0)

a   -5.0
b    7.3
c    3.7
d    4.1
e    0.0
dtype: float64

добавление праметра method при переиндексации позволяет выполнить ИНТЕРПОЛЯЦИЮ - восполнение отсутствующих значений. значения параметра: 'ffill'/'pad', 'bfill'/'backfill'

In [32]:
obj3 = Series(['blue', 'purple', 'yellow'], 
              index=[0, 2, 4])
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [33]:
frame = DataFrame(np.arange(9).reshape((3, 3)), 
                  index=['a', 'c', 'd'], 
                  columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [34]:
new_index = ['a', 'b', 'c', 'd']
frame.reindex(index=new_index)

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [35]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [36]:
frame1 = frame.reindex(index=['a', 'b', 'c', 'd', 'e'], 
                       method='ffill')
frame1.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
b,1,,2
c,4,,5
d,7,,8
e,7,,8


!!!не получилось переиндексировать обе оси и провести интерполяцию в одной операции!!!

удаление элементов
метод .drop()
применимо и к Series

In [37]:
frame1.drop(['b', 'd'])

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
e,6,7,8


In [38]:
frame1.drop('Texas', axis=1)

Unnamed: 0,Ohio,California
a,0,2
b,0,2
c,3,5
d,6,8
e,6,8


доступ по индексу извлекает несколько столбцов

In [39]:
data = DataFrame(np.arange(16).reshape((4, 4)), 
                 index=['Ohio', 'Colorado', 'Utah', 'New York'], 
                 columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [40]:
data[['one', 'three']]

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [41]:
data[1:3]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11


In [42]:
data['Ohio':'Utah']

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11


In [43]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [44]:
data[data > 5]

Unnamed: 0,one,two,three,four
Ohio,,,,
Colorado,,,6.0,7.0
Utah,8.0,9.0,10.0,11.0
New York,12.0,13.0,14.0,15.0


In [45]:
# data[data < 5] = 0
# data

In [46]:
data[data[1:2] > 5]

Unnamed: 0,one,two,three,four
Ohio,,,,
Colorado,,,6.0,7.0
Utah,,,,
New York,,,,


### Арифметические операции и выравнивание данный
общее для Series и DataFrame

In [47]:
s1 = Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])
s1, s2

(a    7.3
 c   -2.5
 d    3.4
 e    1.5
 dtype: float64,
 a   -2.1
 c    3.6
 e   -1.5
 f    4.0
 g    3.1
 dtype: float64)

In [48]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

!!!NaN - не 0. NaN + что угодно = NaN

для DataFrame выравнивание производится как по строкам так и по столбцам

In [49]:
df1 = DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'), index=['Ohio', 'Texas', 'Colorado'])
df2 = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df1, df2

(            b    c    d
 Ohio      0.0  1.0  2.0
 Texas     3.0  4.0  5.0
 Colorado  6.0  7.0  8.0,
           b     d     e
 Utah    0.0   1.0   2.0
 Ohio    3.0   4.0   5.0
 Texas   6.0   7.0   8.0
 Oregon  9.0  10.0  11.0)

In [50]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [140]:
df1.add(df2, fill_value=0)

Unnamed: 0,b,c,d,e
Colorado,6.0,7.0,8.0,
Ohio,3.0,1.0,6.0,5.0
Oregon,9.0,,10.0,11.0
Texas,9.0,4.0,12.0,8.0
Utah,0.0,,1.0,2.0


In [52]:
arifm = DataFrame({'операция': ['+', '-', '*', '/']
                   , 'метод': ['add', 'sub', 'mul', 'div']}
                  , index=['сложение', 'вычитание', 'умножение', 'деление'])
arifm

Unnamed: 0,операция,метод
сложение,+,add
вычитание,-,sub
умножение,*,mul
деление,/,div


укладывание

In [53]:
arr = np.arange(12.).reshape((3,4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [54]:
arr[0]

array([0., 1., 2., 3.])

In [55]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [56]:
frame = DataFrame(np.arange(12.).reshape((4, 3)), 
    columns=list('bde'), index=['Utah', 'Oho', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Oho,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [57]:
series = frame.loc['Utah']
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [58]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Oho,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [59]:
series2 = Series(range(3), index=['b', 'e', 'f'])

In [60]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Oho,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [61]:
series3 = frame['d']
series3

Utah       1.0
Oho        4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [62]:
frame.sub(series3, axis=0)

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Oho,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


### Применение функций и отображение
универсальные функции NUMPY(поэлементные методы массивов) работают и с объектами Pandas 

In [63]:
frame = DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Oho', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,1.064245,-1.780057,0.015645
Oho,0.595671,-0.440822,-0.311456
Texas,1.421712,-0.06901,-0.041196
Oregon,0.515169,-0.366897,0.310319


In [64]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,1.064245,1.780057,0.015645
Oho,0.595671,0.440822,0.311456
Texas,1.421712,0.06901,0.041196
Oregon,0.515169,0.366897,0.310319


In [65]:
frame.abs()

Unnamed: 0,b,d,e
Utah,1.064245,1.780057,0.015645
Oho,0.595671,0.440822,0.311456
Texas,1.421712,0.06901,0.041196
Oregon,0.515169,0.366897,0.310319


In [66]:
f = lambda x: x.max() - x.min()
frame.apply(f)

b    0.906543
d    1.711047
e    0.621776
dtype: float64

In [67]:
frame.apply(f, axis=1)

Utah      2.844302
Oho       1.036493
Texas     1.490722
Oregon    0.882065
dtype: float64

In [68]:
def f(x):
    return Series([x.min(), x.max()], index=['min', 'max'])
format = lambda x: '%.2f' % x
frame.apply(f).applymap(format)

Unnamed: 0,b,d,e
min,0.52,-1.78,-0.31
max,1.42,-0.07,0.31


map - применение поэлеменнтно

### Сортировка и ранжирование
по индексу

In [69]:
obj = Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [70]:
frame = DataFrame(np.arange(12).reshape(3,4), index=['3', '1', '4'], columns=list('dacb'))
frame

Unnamed: 0,d,a,c,b
3,0,1,2,3
1,4,5,6,7
4,8,9,10,11


In [71]:
frame.sort_index()

Unnamed: 0,d,a,c,b
1,4,5,6,7
3,0,1,2,3
4,8,9,10,11


In [72]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
3,0,2,3,1
1,4,6,7,5
4,8,10,11,9


по значениям

In [73]:
obj = Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [74]:
frame = DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
print(frame)
frame.sort_index(axis=1).sort_values(by=['a', 'b'])

   b  a
0  4  0
1  7  1
2 -3  0
3  2  1


Unnamed: 0,a,b
2,0,-3
0,0,4
3,1,2
1,1,7


In [75]:
DataFrame({'способ обработки': ['averange', 'min', 'max', 'first'],
          'описание': ['средний ранг для одинаковых значений. по умолчанию', 'минимальный ранг для всех одинаковых значений', 'максимальный', 'в порядке появления в данных']})

Unnamed: 0,способ обработки,описание
0,averange,средний ранг для одинаковых значений. по умолч...
1,min,минимальный ранг для всех одинаковых значений
2,max,максимальный
3,first,в порядке появления в данных


In [76]:
frame = DataFrame({'b': [4.3, 7, -3, 2],
                   'a': [0, 1, 0, 1],
                   'c': [-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [77]:
frame.rank(method='max')

Unnamed: 0,b,a,c
0,3.0,2.0,2.0
1,4.0,4.0,3.0
2,1.0,2.0,4.0
3,2.0,4.0,1.0


In [78]:
frame.rank(axis=1, ascending=False)

Unnamed: 0,b,a,c
0,1.0,2.0,3.0
1,1.0,3.0,2.0
2,3.0,2.0,1.0
3,1.0,2.0,3.0


повторяющиеся индексы

In [79]:
obj = Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [80]:
obj.index.is_unique

False

In [81]:
obj['a']

a    0
a    1
dtype: int64

редукция и вычислительные статистики - методы которые вычисляют одно единственное значение. все они игнорируют отсутствующие значения


In [82]:
df = DataFrame([[1.4, np.nan], [7.1, -4.5], 
              [np.nan, np.nan], [0.75, -1.3]],
              index=['a', 'b', 'c', 'd'],
              columns = ['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [83]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [84]:
df.mean(axis=1, skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [85]:
df.idxmin()

one    d
two    b
dtype: object

In [86]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [87]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [88]:
obj = Series(['a', 'a', 'b', 'c'] * 4)
obj

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [89]:
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

In [90]:
df = DataFrame({'описание': ['Количество значений, исключая отсутствующие', 
        'Вычисляет набор сводных статистик для Series или для каждого столбца DataFrame',  
        'Вычисляет минимальное или максимальное значение',
        'Вычисляет позицию в индексе (целые числа), при котором достигается минимальное или максимальное значение соответственно',
        'Вычисляет значение индекса, при котором достигается минимальное или максимальное значение соответственно',
        'Вычисляет выборочный квантиль в диапазоне от 0 до 1',
        'Сумма значений',
        'Среднее значение',
        'Медиана (50%-ый квантиль)',
        'Среднее абсолютное отклонение от среднего',
        ' Выборочная дисперсия',
        'Выборочное стандартное отклонение',
        'Асимметрия (третий момент)',
        'Куртозис (четвертый момент)',
        'Нарастающая сумма',
        'Нарастающий минимум или максимум соответственно',
        'Нарастающее произведение',
        'Первая арифметическая разность (полезно для временных рядов)',
        'Вычисляет процентное изменение']}, 
         index=['count', 'describe', 'min, max',
        'argmin, argmax', 'idxmin, idxmax', 
        'quantile', 'sum', 'mean', 'median', 'mad',
        'var', 'std', 'skew', 'kurt', 'cumsum', 
        'cummin, cummax', 'cumprod', 'diff', 'pct_change'])
df.index.name='метод'
df

Unnamed: 0_level_0,описание
метод,Unnamed: 1_level_1
count,"Количество значений, исключая отсутствующие"
describe,Вычисляет набор сводных статистик для Series и...
"min, max",Вычисляет минимальное или максимальное значение
"argmin, argmax","Вычисляет позицию в индексе (целые числа), при..."
"idxmin, idxmax","Вычисляет значение индекса, при котором достиг..."
quantile,Вычисляет выборочный квантиль в диапазоне от 0...
sum,Сумма значений
mean,Среднее значение
median,Медиана (50%-ый квантиль)
mad,Среднее абсолютное отклонение от среднего


corr(), cov() возвращают полную корреляционную или ковыряционную матрицу. corrwith() - попарная корреляция между столбцами или строками(axis=1)

счетчик значений и членство

In [91]:
obj = Series(list('cadaabbcc'))
uniques = obj.unique()
uniques.sort()
uniques

array(['a', 'b', 'c', 'd'], dtype=object)

In [92]:
obj.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

In [93]:
pd.value_counts(obj.values, sort=False)

b    2
c    3
d    1
a    3
dtype: int64

In [94]:
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [95]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

In [96]:
data = DataFrame({'qu1': [1, 3, 4, 3, 4],
                 'qu2': [2, 3, 1, 2, 3],
                 'qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,qu1,qu2,qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [97]:
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,qu1,qu2,qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


обработка отсутствующих данных

In [98]:
string_data = Series(['asdasd', 'asdasda', np.nan, 'cxvcv'])

In [99]:
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [100]:
string_data[0] = None
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

фильтрация

In [101]:
data = Series([1, np.nan, 3.5, np.nan, 7])

In [102]:
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [103]:
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

In [104]:
data = DataFrame([[1, 6.5, 3], [1, None, None],
                 [None, None, None], [None, 6.5, 3]])
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [105]:
data.dropna()

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [106]:
data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [107]:
data[4] = None
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [108]:
data.dropna(how='all', axis=1)

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [109]:
df = DataFrame(np.random.randn(7, 3))
df.loc[:4, 1] = None
df.loc[:2, 2] = None
df

Unnamed: 0,0,1,2
0,-0.363765,,
1,-0.949942,,
2,0.650647,,
3,1.628152,,1.067136
4,0.914737,,-1.183894
5,-1.420515,0.863419,-0.305311
6,-0.559224,-0.554421,2.08716


In [110]:
df.dropna(thresh = 2)

Unnamed: 0,0,1,2
3,1.628152,,1.067136
4,0.914737,,-1.183894
5,-1.420515,0.863419,-0.305311
6,-0.559224,-0.554421,2.08716


In [111]:
df.fillna(0)

Unnamed: 0,0,1,2
0,-0.363765,0.0,0.0
1,-0.949942,0.0,0.0
2,0.650647,0.0,0.0
3,1.628152,0.0,1.067136
4,0.914737,0.0,-1.183894
5,-1.420515,0.863419,-0.305311
6,-0.559224,-0.554421,2.08716


In [112]:
df.fillna({1: 'x', 2: 'y'})

Unnamed: 0,0,1,2
0,-0.363765,x,y
1,-0.949942,x,y
2,0.650647,x,y
3,1.628152,x,1.06714
4,0.914737,x,-1.18389
5,-1.420515,0.863419,-0.305311
6,-0.559224,-0.554421,2.08716


In [113]:
df.fillna(0, inplace=True)
df

Unnamed: 0,0,1,2
0,-0.363765,0.0,0.0
1,-0.949942,0.0,0.0
2,0.650647,0.0,0.0
3,1.628152,0.0,1.067136
4,0.914737,0.0,-1.183894
5,-1.420515,0.863419,-0.305311
6,-0.559224,-0.554421,2.08716


In [114]:
df = DataFrame(np.random.randn(6,3))
df.loc[2:, 1] = None
df.loc[4:, 2] = None
df

Unnamed: 0,0,1,2
0,-0.928531,1.335638,-0.958896
1,-2.67835,-1.714106,0.401272
2,0.043734,,-1.376771
3,-0.651127,,-1.218119
4,0.511858,,
5,-0.063557,,


In [115]:
df.fillna(method='ffill')

Unnamed: 0,0,1,2
0,-0.928531,1.335638,-0.958896
1,-2.67835,-1.714106,0.401272
2,0.043734,-1.714106,-1.376771
3,-0.651127,-1.714106,-1.218119
4,0.511858,-1.714106,-1.218119
5,-0.063557,-1.714106,-1.218119


In [116]:
df.fillna(method='ffill', limit=2)

Unnamed: 0,0,1,2
0,-0.928531,1.335638,-0.958896
1,-2.67835,-1.714106,0.401272
2,0.043734,-1.714106,-1.376771
3,-0.651127,-1.714106,-1.218119
4,0.511858,,-1.218119
5,-0.063557,,-1.218119


### Иерархическое индексирование

In [117]:
data = Series(np.random.randn(10),
             index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'],
                   [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])
data

a  1    1.373370
   2   -0.235871
   3   -1.246720
b  1    0.205947
   2    0.454512
   3    1.305654
c  1   -0.046335
   2   -0.931670
d  2    1.636433
   3   -0.128697
dtype: float64

In [118]:
data.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 2),
            ('b', 3),
            ('c', 1),
            ('c', 2),
            ('d', 2),
            ('d', 3)],
           )

In [119]:
data['b']

1    0.205947
2    0.454512
3    1.305654
dtype: float64

In [120]:
data[['b', 'c']]

b  1    0.205947
   2    0.454512
   3    1.305654
c  1   -0.046335
   2   -0.931670
dtype: float64

In [121]:
data[:, 2]

a   -0.235871
b    0.454512
c   -0.931670
d    1.636433
dtype: float64

In [122]:
data2 = data.unstack()
data2

Unnamed: 0,1,2,3
a,1.37337,-0.235871,-1.24672
b,0.205947,0.454512,1.305654
c,-0.046335,-0.93167,
d,,1.636433,-0.128697


In [123]:
data2.stack()

a  1    1.373370
   2   -0.235871
   3   -1.246720
b  1    0.205947
   2    0.454512
   3    1.305654
c  1   -0.046335
   2   -0.931670
d  2    1.636433
   3   -0.128697
dtype: float64

In [154]:
frame = DataFrame(np.arange(12).reshape(4,3),
                 index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                 columns=[['Ohio', 'Ohio', 'Colorado'], 
                          ['green', 'red', 'green']])
display(frame)

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,green,red,green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [147]:
frame.index.names=['key1', 'key2']
frame.columns.names=['state', 'color']
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,green,red,green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [148]:
frame['Ohio']

Unnamed: 0_level_0,color,green,red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


In [149]:
frame.swaplevel('key1', 'key2')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,green,red,green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


In [128]:
frame.swaplevel().sort_index()

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,green,red,green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
1,b,6,7,8
2,a,3,4,5
2,b,9,10,11


In [129]:
frame.sum(level='key2')

state,Ohio,Ohio,Colorado
color,green,red,green
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,6,8,10
2,12,14,16


In [130]:
frame.sum(level='color', axis=1)

Unnamed: 0_level_0,color,green,red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,2,1
a,2,8,4
b,1,14,7
b,2,20,10


### Работа со столбцами

In [131]:
frame = DataFrame({'a': range(7), 'b': range(7, 0, -1),
                  'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                  'd': [0, 1, 2, 0, 1, 2, 3]})
frame

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


In [132]:
frame2 = frame.set_index(['c', 'd'])
frame2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


In [133]:
frame.set_index(['c', 'd'], drop=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


In [134]:
frame2.reset_index()

Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1
