# Манипуляции над данными с помощью пакета Pandas

##### DataFrame - класс объектов Pandas, представляет собой многомерные массивы с метками для строк и столбцов, а также зачастую с неоднородным типом данных и/или пропущенными данными.

In [1]:
import pandas as pd
pd.__version__

'1.3.4'

In [2]:
import numpy as np

## Объекты Series библиотеки Pandas

##### Series - одномерный массив индексированных данных

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])

In [4]:
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [5]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [6]:
data.index

RangeIndex(start=0, stop=4, step=1)

##### index - массивоподобный объект типа pd.Index, который описывается явно, и может состоять из значений любого типа

In [7]:
data[1]

0.5

In [8]:
data[0:2]

0    0.25
1    0.50
dtype: float64

In [9]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                index=['a', 'b', 'c', 'd'])

In [10]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [11]:
data['b']

0.5

In [18]:
# можно применять индексы состоящие из несмежных или непоследовательных значений:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                index=[2, 5, 9, 7])

In [19]:
data

2    0.25
5    0.50
9    0.75
7    1.00
dtype: float64

In [20]:
data[5]

0.5

In [22]:
data[0:3]  # срезы работают по позиции

2    0.25
5    0.50
9    0.75
dtype: float64

##### Series - структуру можно рассматривать как словарь, задающий соответствие типизированных ключей набору типизированных значений

Объект Series может быть сконструирован непосредственно из словаря:

In [26]:
p_dict ={
    'e': 122,
    'f': 313,
    'c': 932,
    'd': 843,
    'a': 847,
    'b': 764
}

In [27]:
p_series = pd.Series(p_dict)

In [28]:
p_series

e    122
f    313
c    932
d    843
a    847
b    764
dtype: int64

In [29]:
p_series['e':'a'] # срез отрабатывает по позиции

e    122
f    313
c    932
d    843
a    847
dtype: int64

### Создание объектов Series

In [None]:
# pd.Serise(data, index=index), нде  index - необязательный аргумент

In [None]:
# аргумент data может быть скалярным значением, которое будет транслировано на index

In [30]:
pd.Series(7, index=[1,2,3,4,5])

1    7
2    7
3    7
4    7
5    7
dtype: int64

In [None]:
# ключи index могут быть либо автоинкрементными либо явным образом заданными

## Объекты DataFrame библиотеки Pandas

##### DataFrame - аналог двумерного массива с гибкими индексами строк и гибкими именами столбцов

In [31]:
p_series

e    122
f    313
c    932
d    843
a    847
b    764
dtype: int64

In [32]:
area_dict = {
    'e': 12200,
    'f': 31300,
    'c': 93200,
    'd': 84300,
    'a': 84700,
    'b': 76400
}

In [33]:
area = pd.Series(area_dict)

In [34]:
area

e    12200
f    31300
c    93200
d    84300
a    84700
b    76400
dtype: int64

In [35]:
states = pd.DataFrame({
    'p_series': p_series,
    'area': area
})
# объект DataFrame может быть сконструирован путем выравнивания (по индексу) двух (N) объектов Series

In [36]:
states

Unnamed: 0,p_series,area
e,122,12200
f,313,31300
c,932,93200
d,843,84300
a,847,84700
b,764,76400


In [37]:
states.index

Index(['e', 'f', 'c', 'd', 'a', 'b'], dtype='object')

In [38]:
states.columns

Index(['p_series', 'area'], dtype='object')

In [39]:
states.area # доступ по атрибуту

e    12200
f    31300
c    93200
d    84300
a    84700
b    76400
Name: area, dtype: int64

In [41]:
states['area'] # доступ по имени столбца

e    12200
f    31300
c    93200
d    84300
a    84700
b    76400
Name: area, dtype: int64

In [44]:
states['f']  # при этом это не совсем словарь (он как бы перевернут на бок, доступ осущ. к столбцам, а затем к ключам)

KeyError: 'f'

In [46]:
states['area'][0:3]

e    12200
f    31300
c    93200
Name: area, dtype: int64

In [47]:
states[:][0:3]

Unnamed: 0,p_series,area
e,122,12200
f,313,31300
c,932,93200


### Создание объектов DataFrame

In [48]:
pd.DataFrame(p_series, columns=['p_series'])

Unnamed: 0,p_series
e,122
f,313
c,932
d,843
a,847
b,764


In [49]:
data = [{'a': i, 'b': i*2} for i in range(10)]

In [50]:
data

[{'a': 0, 'b': 0},
 {'a': 1, 'b': 2},
 {'a': 2, 'b': 4},
 {'a': 3, 'b': 6},
 {'a': 4, 'b': 8},
 {'a': 5, 'b': 10},
 {'a': 6, 'b': 12},
 {'a': 7, 'b': 14},
 {'a': 8, 'b': 16},
 {'a': 9, 'b': 18}]

In [51]:
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4
3,3,6
4,4,8
5,5,10
6,6,12
7,7,14
8,8,16
9,9,18


In [52]:
pd.DataFrame([
    {'a': 1, 'b': 2},
    {'b': 3, 'c': 4}
])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [53]:
# из двумерного массива NumPy
pd.DataFrame(np.random.rand(3, 2),
            columns=['foo', 'bar'],
            index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.015965,0.616248
b,0.014779,0.161095
c,0.551278,0.585827


In [54]:
# из структурированных массивов NumPy
A = np.zeros(5, dtype=[('A', 'i8'), ('B', 'f8')])

In [55]:
A

array([(0, 0.), (0, 0.), (0, 0.), (0, 0.), (0, 0.)],
      dtype=[('A', '<i8'), ('B', '<f8')])

In [56]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0
3,0,0.0
4,0,0.0


### Объекты Index библиотеки Pandas

In [57]:
ind = pd.Index([2,3,5,7,11])

In [58]:
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [59]:
ind[1]

3

In [60]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [61]:
print(
    ind.size,
    ind.shape,
    ind.ndim,
    ind.dtype
)

5 (5,) 1 int64


In [62]:
# основное отличие pd.индексов от массивов NumPy - НЕИЗМЕНЯЕМОСТЬ:
ind[1]=0

TypeError: Index does not support mutable operations

In [None]:
# поменять индексы можно только целиком все

#### Index как упорядоченное множество
Объекты Index следуют большенству соглашений используемых множествами set() языка Python
Над ними можно выполнять операции объединения, пересечения, разности и др.

In [63]:
indA = pd.Index([1,3,5,7,9])
indB = pd.Index([2,3,5,7,11])

In [65]:
indA & indB # операция устарела

  indA & indB


Int64Index([3, 5, 7], dtype='int64')

In [66]:
indA.intersection(indB) # теперь так выглядит операция пересечения

Int64Index([3, 5, 7], dtype='int64')

In [67]:
indA | indB # операция устарела

  indA | indB # операция устарела


Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [68]:
indA.union(indB) # объединение

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [69]:
indA ^ indB # операция устарела

  indA ^ indB # операция устарела


Int64Index([1, 2, 9, 11], dtype='int64')

In [70]:
indA.symmetric_difference(indB) # симметричная разность

Int64Index([1, 2, 9, 11], dtype='int64')