# Знакомство с объектами библиотеки Pandas

Библиотека Pandas состоит из 3-х фундаментальных структур
- Series
- DataFrame
- Index

In [1]:
import numpy as np
import pandas as pd
pd.__version__

'0.25.1'

## Объект Series библиотеки Pandas

Объект Series библиотеки Pandas - одномерный массив индексированных данных. Его можно создать из списка или массива следующим образом:

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Как мы видели из предыдущего результата, объект Series служит адаптером как для последовательности значений, так и последовательности индексов, к которым можно получить доступ посредством атрибутов **values** и **index**. Атрибут values представляет представляет собой уже знакомый нам массив NumPy:

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

**index** - массивоподобный объект типа pd.Index, который мы рассмотрим подробнее далее:

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

### Объект Series как обобщенный массив NumPy
Может показаться, что объект Series и одномерный массив библиотеки NumPy взаимозаменяемы. Основное различие между ними - индекс. В то время как индекс массива NumPy, целочисленный и описывается неявно, индекс объекта Series библиотеки Pandas описывается явно и связывается со значениями.

Явное описание индекса расширяет возможности объекта Series. Такой индекс не должен быть целым числом, а может состоять из значений любого нужного типа. Например при желании мы можем использовать в качестве индекса строковые значения: 

In [5]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 ['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [6]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

При этом доступ к элементам работает обычным образом:

In [7]:
data['b']

0.5

### Объект Series как специализированный словарь

Объект Series библиотеки Pandas можно рассматривать как специализированную разновидность словаря языка Python. Словарь - структура, задающая соответствие произвольных ключей набору произвольных значений, а объект Series - структура, задающая соответствие типизированных ключей набору типизированных значений. Типизация важна: точно так же, как соответствующий типу специализированный код для массива библиотеки NumPy при выполнении определенных операций делает его эффективнее, чем стандартный список Python, информация о типе в объекте Series библиотеки Pandas делает его намного более эффективным для определенных операций, чем словари Python.

Можно сделать аналогию "объект Series - словарь" еще более наглядной, сконструировав объект Series непосредственно из словаря Python:

In [8]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

По умолчанию при этом будет создан объект Series с полученным из отсортированных ключей, индексом. Следовательно для него возможен обычный доступ к элементам, такой же, как для словаря: 

In [9]:
population['California']

38332521

Однако в отличии от словаря, объект Series поддерживает характерные для массивов операции, такие как срезы:

In [10]:
population['California': 'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

### Создание объектов Series

Мы уже изучили несколько способов создания объектов Series библиотеки Pandas с нуля. Все они представляют собой различные варианты следующего синтаксиса:

```Python
pd.Series(data, index=index)
```

где **index** - необязательный аргумент, а **data** может быть одной из множества сущностей (например списком, или массивом NumPy). В этом случае index по умолчанию будет целочисленной последовательностью:  

In [11]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

Аргумент **data** может быть скалярным значением, которое будет повторено нужное количество раз для заполнения заданного индекса:

In [12]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

Аргумент **data** может быть словарем, в котором **index** по умолчанию является отсортированными ключами этого словаря: 

In [13]:
pd.Series({2: 'a', 1: 'b', 3: 'c'})

2    a
1    b
3    c
dtype: object

Однако пример показывает что ключи неотсортированы. Впрочем похуй.

В каждом случае индекс можно указать вручную, если необходимо получить другой результат:

In [14]:
pd.Series({2: 'b', 1: 'a', 3: 'c'}, index=[2, 3])

2    b
3    c
dtype: object

Обратим внимание, что объект Series заполняется только заданными явным образом ключами.

## Объект DataFrame библиотеки Pandas

Следующая базовая структура библиотеки Pandas - объект DataFrame. Как и объект Series, объект DataFrame можно рассматривать или как специализированную версию словаря Python. Рассмотрим оба варианта.

### DataFrame как обобщенный массив NumPy

Если объект Series - аналог одномерного массива с гибкими индексами, объект DataFrame - аналог двумерного массива с гибкими индексами строк и гибкими именами столбцов. Аналогично тому, что двумерный массив можно рассматривать как упорядоченную последовательность выровненных столбцов, объект DataFrame можно рассматривать как упорядоченную последовательность объектов Series. Под "выравненными" имеется в виду то, что они используют один и тот же индекс.

Чтобы продемонстрировать это, сначала создадим новый объект Series, содержащий площадь каждого из пяти упомянутых ранее штатов:

In [15]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)

area_dict = {'California': 423967,
             'Texas': 695662,
             'New York': 141297,
             'Florida': 170312,
             'Illinois': 149995}

area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

Воспользовавшись объектом *population* класса Series, сконструируем на основе словаря единый двумерный объект, содержащий всю эту информацию:

In [16]:
states = pd.DataFrame({'population': population,
                       'area': area})

states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


Аналогично объекту Series у объекта DataFrame есть атрибут **index**, обеспечивающий доступ к меткам индекса:

In [17]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

Помимо этого, у объекта DataFrame есть атрибут **columns**, представляющий собой содержащий метки столбцов объект **Index**:

In [18]:
states.columns

Index(['population', 'area'], dtype='object')

Таким образом, объект DataFrame можно рассматривать как обобщение двумерного массива NumPy, где как у строк, так и у столбцов есть обобщенные индексы для доступа к данным.

### Объект DataFrame как специализированный словарь

DataFrame можно рассматривать как специализированный словарь. Если словарь задает соответствие ключей значениям, то DataFrame задает соответствие имени столбца объекту Series с данными этого столбца. Например, запрос данных по атрибуту 'area' приведет к тому, что будет возвращен объект Series, содержащий уже виденные нами ранее площади штатов:

In [19]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Обратим внимание на возможный источник путаницы: в двумерном массиве NumPy строка:
```Python
data[0]
```
возвращает первую строку. По этой причине объекты DataFrame лучше рассматривать как обобщенные словари, а не обобщенные массивы, хотя обе точки зрения имеют право на жизнь.

### Создание объектов DataFrame

Существует множество способов создания объектов DataFrame. Вот несколько примеров:

**Из одного объекта Series**. Объект DataFrame - набор объектов Series. DataFrame, состоящий из одного столбца, можно создать на основе одного объекта Series:

In [20]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


**Из списка словарей**. Любой список словарей можно преобразовать в объект DataFrame. Мы воспользуемся простым списковым включением для создания данных:

In [21]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]

pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Даже если некоторые ключи в словаре отсутствуют, библиотека Pandas просто заполнит их значениями **NaN** (т.е. Not a number - "не является числом"):

In [22]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


**Из словаря объектов Series**. Объект DataFrame так же можно создать на основе словаря объектов Series:

In [23]:
pd.DataFrame({'population': population, 'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


**Из двумерного массива NumPy**. Если у нас есть двумерный массив данных, мы можем создать объект DataFrame c любыми заданными именами столбцов и индексов. Для каждого из пропущенных значений будет использоваться целочисленный индекс:

In [24]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.549746,0.80538
b,0.431389,0.682813
c,0.130212,0.542676


**Из структурированного массива NumPy**. Объект DataFrame библиотеки Pandas ведет себя во многом аналогично структурированному массиву и может быть создан непосредственно из него:

In [28]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [29]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0
