In [2]:
import numpy as np
import pandas as pd
pd.__version__

'1.0.5'

## Объект series

Это одномерный массив индексированных данных

In [3]:
some_data = [1, 2, 3, 4, 5]
data = pd.Series(some_data)
data

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [4]:
# значения из массива Series
data.values

array([1, 2, 3, 4, 5])

In [5]:
# индекс из массива Series
data.index

RangeIndex(start=0, stop=5, step=1)

In [6]:
# Обращение по индексу доступно
data[1:3]

1    2
2    3
dtype: int64

Фактически серия в pandas инициализирует одномерный массив pandas с той лишь разницей, что к ниму добавляется явно описанный объект index, связанные со значениями массива. Это позволяет, в отличии от numpy использовать не только целые числа в качестве индекса, но и любые объекты, которыми нам удобно индексировать.

In [7]:
data = pd.Series(some_data, index=['a', 'b', 'c', 'd', 'e'])
data

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [8]:
data['a']

1

Объект Series - "специализированный словарь", структура, задающая соответствие типизированных ключей набору типизированных значений. В отличае от словаря, серия поддерживает типичные для среза операции, например срезы.

In [9]:
some_data = {
    'a': 1111,
    'b': 2222,
    'c': 3333,
    'd': 4444,
    'e': 5555
}
data = pd.Series(some_data)
data

a    1111
b    2222
c    3333
d    4444
e    5555
dtype: int64

In [10]:
data['a':'c']

a    1111
b    2222
c    3333
dtype: int64

#### Создание серий

ожидаемый синтаксис 

```python
pd.Series(data, index=index)
```

index не обязателен

data может быть словарем, тогда ключи становятся индексом

data может быть списком или массивом numpy, тогда index не обязателен 

data может быть скаляром, который будет скопирован по индексу

В любом случае индекс можно указать вручную.

In [11]:
pd.Series(5, index=[1, 2, 3, 4, 5])

1    5
2    5
3    5
4    5
5    5
dtype: int64

In [12]:
pd.Series({1: 'a', 2: 'b', 3: 'c'}, index=[1, 2])

1    a
2    b
dtype: object

## Объект DataFrame

Аналог двумерного массива numpy, где у строк и столбцов есть явные обобщенные индексы для доступа к данным. Его можно рассматривать как упорядоченную последовательность выровненных (использующих один и тот же индекс) серий.

In [17]:
some_data = {
    'a': 1111,
    'b': 2222,
    'c': 3333,
    'd': 4444,
    'e': 5555
}
data = pd.Series(some_data)
data

a    1111
b    2222
c    3333
d    4444
e    5555
dtype: int64

In [19]:
some_data_1 = {
    'a': 1000,
    'b': 2000,
    'c': 3000,
    'd': 4000,
    'e': 5000
}
data_1 = pd.Series(some_data_1)
data_1

a    1000
b    2000
c    3000
d    4000
e    5000
dtype: int64

In [21]:
# сконструируем из этого фрейм
frame = pd.DataFrame({'some_data': some_data, 'some_data_1': some_data_1})
frame

Unnamed: 0,some_data,some_data_1
a,1111,1000
b,2222,2000
c,3333,3000
d,4444,4000
e,5555,5000


In [22]:
# объект индекса строк
frame.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [23]:
# объект индекса стролбцов
frame.columns

Index(['some_data', 'some_data_1'], dtype='object')

DataFrame - специализированный словарь, где задано соответствие имени столбца объекту ыерии с данными этого столбца.

In [24]:
# доступ к сериям
frame.some_data

a    1111
b    2222
c    3333
d    4444
e    5555
Name: some_data, dtype: int64

In [25]:
frame['some_data']

a    1111
b    2222
c    3333
d    4444
e    5555
Name: some_data, dtype: int64