In [1]:
import pandas as pd
import numpy as np

# Знакомство с объектами библиотеки Pandas

На самом примитивном уровне объекты библиотеки Pandas можно считать расширенной версией структурированных массивов NumPy, в которых строки и столбцы идентифицируются метками, а не простыми числовыми индексами.

######  В Pandas есть три фундаментальные структуры данных: классы Series, DataFrame и Index

## Объект Series библиотеки Pandas 

Объект Series - одномерный массив индексированных данных.

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [3]:
print(data.index) # массивоподобный объект типа pd.Index
print(data.values) # массив значений объекта Series

RangeIndex(start=0, stop=4, step=1)
[0.25 0.5  0.75 1.  ]


In [4]:
data[1:3]

1    0.50
2    0.75
dtype: float64

### Объект Series как обобщенный массив NumPy

Основное отличие от массива NumPy, что индекс объекта Series библиотеки Pandas описывается явно и связывается со значением.

In [5]:
# при желании можно использовать в качестве индекса строковые значения:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [6]:
# доступ к элементам работает обычным образом
data['b']

0.5

Можно применять даже индексы, состоящие из несмежных или непоследовательных значений:

In [7]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

### Объект Series как специализированный словарь

Объект Series - структура, задающая соответствие типизированных ключей набору типизированных данных. Типизация делает код Pandas более эффективным.

In [8]:
# сконструируем объект Series из словаря Python
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [9]:
# для полученного объекта возможен обычный доступ к элементам
population['California']

38332521

In [10]:
# однако, в отличие от словаря, объект Series поддерживает характерные для массивов операции, такие как срезы:
population['California': 'Florida']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

### Создание объектов Series

Все способы создания объектов Series представляют собой различные варианты следующего синтаксиса: 
pd.Series(data, index=index)
где индекс - необязательный аргумент, а data может быть одной из множества сущностей

In [11]:
# аргумент data может быть массивом или списком NumPy, в этом случае index по умолчанию будет целочисленной последовательностью
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

In [12]:
# аргумент data может быть скалярным значением, которое будет повторено нужное количество раз для заполнения заданного индекса:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

In [13]:
# аргумент data может быть словарем, в котором index по умолчанию является отсортированными ключами этого словаря
# (не сортирует ключи!!!!)
pd.Series({2:'a', 1:'c', 3:'b'})

2    a
1    c
3    b
dtype: object

In [14]:
# отсортируем вручную (sort_index, sort_values)
data = pd.Series({2:'a', 1:'b', 3:'c'})
data.sort_index()

1    b
2    a
3    c
dtype: object

In [15]:
# можно задать ключи явным образом для заполнения Series только заданными явным образом ключами
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 1])

3    c
1    b
dtype: object

## Объект DataFrame библиотеки Pandas

### DataFrame как обобщенный массив

Если объект Series - аналог одномерного массива с гибкими индексами, объект DataFrame - аналог двумерного массива с гибкими индексами строк и гибкими именами столбцов.

In [16]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

Воспользовавшись объектом population (определен выше для разных штатов) класса Serios, сконструируем на основе словаря единый двумерный объект, содержащий всю эту информацию: 

In [17]:
states = pd.DataFrame({'population': population, 'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [18]:
# аналогично Series объект DataFrame имеет атрибут index, обеспечивающий доступ к меткам индекса
states.index 

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [19]:
# помимо этого у объекта DataFrame есть атрибут columns, представляющий собой содержащий метки столбцов объект Index:
states.columns

Index(['population', 'area'], dtype='object')

Таким образом объект DataFrame можно рассматривать как обобщение двумерного массива NumPy, где как у строк, так и у столбцов есть обобщенные индексы для доступа к данным.

### Объект DataFrame как специализированный словарь

DataFrame можно рассматривать как специализированный словарь. Если словарь задает соответствие ключей значениям, то DataFrame задает соответствие имени столбца объекту Series с данными этого столбца. Например, запрос данных по атрибуту 'area' приведет к тому, что будет возвращен объект Series, содержащий площади штатов: 

In [20]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

### Создание объектов DataFrame

#### Из одного объекта Series

Объект DataFrame - набор объектов Series.DataFrame, состоящий из одного столбца, можно создать на основе одного объекта Series:

In [21]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### Из списка словарей

In [26]:
data = [{'a': i, 'b': i * 2} for i in range(5)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4
3,3,6
4,4,8


Даже если некоторые ключи в словаре отсутствуют, библиотека Pandas просто заполнит из занчениями NaN (то есть Not a number - "не является числом")

In [28]:
pd.DataFrame([{'a':1, 'b': 2}, {'b':3, 'c':4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### Из словаря объектов Series

In [29]:
pd.DataFrame({'population': population, 'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


#### Из двумерного массива NumPy

In [30]:
pd.DataFrame(np.random.rand(3, 2), columns=['foo', 'bar'], index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.370335,0.125891
b,0.51561,0.828626
c,0.224115,0.410827


#### Из структурированного массива NumPy 

In [33]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [34]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## Объект Index библиотеки Pandas

Объект Index можно рассматривать или как неизменяемый массив (immutable array), или как упорядоченное множество (ordered set) (формально мультимножество, так как объекты Index могут содержать повторяющиеся значения)

In [35]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

#### Объект индекс как неизменяемый массив

Объект индекс ведет себя анлогично массиву NumPy

In [36]:
ind[1]

3

In [37]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [38]:
# у объекта индекс есть много атрибутов
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Одно из различий между объектами Index и массивами NumPy - неизменяемость индексов, то есть их нельзя модифицировать стандартными средствами

In [39]:
ind[0] = 0

TypeError: Index does not support mutable operations

#### Индекс как упорядоченное множество 

In [40]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [41]:
indA & indB

Int64Index([3, 5, 7], dtype='int64')

In [42]:
indA | indB

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [43]:
indA ^ indB

Int64Index([1, 2, 9, 11], dtype='int64')