# Pandas

`Pandas` построен на поверх `NumPy` и предлагает эффективную реализациию `DataFrame`. `DataFrame`ы, в основе своей, яляются многомерными массивами с именами, привязанными к рядам и колонкам, и, часто, с гетерогенными типами данных или с отсутствующими данными. Вместе с предоставлением удобного хранилища и интерфейса доступа к именованным данными, `Pandas` реализовывает набор мощных операций с данными знакомым пользователям баз данных и электронных таблиц.

In [22]:
# Обычно Pandas импортируется как pd
import pandas as pd
import numpy as np

print("Pandas", pd.__version__)
print("NumPy", np.__version__)

Pandas 2.1.3
NumPy 1.26.2


На самом базовом уровне, объекты `Pandas` могут быть представлены как улучшенные версии структурированных массивов [NumPy](http://localhost:8888/doc/tree/NumPy.ipynb#%D0%A1%D1%82%D1%80%D1%83%D0%BA%D1%82%D1%83%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5:-%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%82%D1%83%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5-%D0%BC%D0%B0%D1%81%D1%81%D0%B8%D0%B2%D1%8B-NumPy) в которых ряды и колонки идентифицируются по именам, а не по индексам.
Три фундаментальные структуры данных `Pandas`: `Series`, `DataFrame` и `Index`.

## Объекты типа `Series`

Объекты типа `Series` являются **одномерными** массивами с индексированными данными. Такие объекты могут быть созданы из списка:

In [23]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Как видно выше, **данные представлены как индексами, так и значениями**.

In [24]:
# значения
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [25]:
# индексы
data.index

RangeIndex(start=0, stop=4, step=1)

Как и в NumPy, доступ к данным может быть получен по индексам в традиционном для Python стиле:

In [26]:
data[1]

0.5

In [27]:
data[2:]

2    0.75
3    1.00
dtype: float64

Дальше мы увидим, что данные типа `Series` являются более обобщенными и гибкими чем одномерные массивы в `NumPy`.

### Объекты `Series` в качестве обобщенных массивов `NumPy`

Объекты `Series` в целом похожи на массивы `NumPy`, однако имеют одно существенное отличие, а именно: `NumPy` имеет _неявно определённый целочисленный индекс_ для доступа к элементам массива, объекты `Series` имеют _явно определенный индекс_, связанный со значениями. В качестве индекса для `Series` можно использовать любой доступный тип.

In [30]:
# для доступа к элементам используется индекс типа `str`
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [31]:
# доступ к элементу по индексу
data['a']

0.25

Мы можем даже использовать непоследовательные индексы:

In [33]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [34]:
data[5]

0.5

### `Series` в качестве специализированного словаря

`Series` - это структура, которая связывает _типизированные ключи_ с набором _типизированных значений_. Типизация очень важна здесь: для определенных операций, информация о типах делает `Series` намного более эффективной структурой, чем стандартные словари Python.

In [36]:
# создание Series напрямую из словаря
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [37]:
population['California']

38332521

В отличие от словарей, `Series` поддерживает операции в стиле массивов, например срезы:

In [42]:
population['California':'Florida']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

### Создание объектов типа `Series`

В общем, все объекты `Series` создаются таким образом:

```
>>> pd.Series(data, index=index)
```

Где `index` не является обязательным аргументом.

In [49]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [51]:
# data может быть скалярной величиной
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

In [48]:
pd.Series(range(10), range(0, 1000, 100))

0      0
100    1
200    2
300    3
400    4
500    5
600    6
700    7
800    8
900    9
dtype: int64

In [52]:
# создание на основе словаря
pd.Series({1: 'a', 3: 'c', 2: 'b'})

1    a
3    c
2    b
dtype: object

In [54]:
# Для словаря, с использованием аргумента `index` можно выбрать только те значения, которые требуются в данный момент
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

## Объект `DataFrame`

Так же как и объект `Series`, объект `DataFrame` можно рассматривать либо как обобщение массива `NumPy` либо как специализированную версию словаря Python.

### `DataFrame` как обобщение массива `NumPy`

Если `Series` является аналогом одномерного массива с гибкими индексами, то `DataFrame` - аналог двумерного массива с как гибкими индексами рядов, так и гибкими именами колонок. Можно представить `DataFrame` как последовательность выровненных по индексу объектов `Series`. "Выровненность" тут означает, что у них одинаковый индекс. Давайте это проиллюстрируем:

In [58]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

В объекте типа `DataFrame`, создаваемом ниже, оба объекта `Series` имеют одинаковые индексы (имена штатов), т.е. они выровнены по индексу. Сам объект `DataFrame` имеет индексы `population` и `area`.

In [60]:
# объект `population` был создан ранее
states = pd.DataFrame({'population': population, 'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


Выше мы создали объект `DataFrame` с колонками `population` и `area`. Каждая из этих колонок является объектом типа `Series`:

In [76]:
print("Тип колонки `population`", type(states['population']))

Тип колонки `population` <class 'pandas.core.series.Series'>


In [77]:
# Доступ к колонке
states['population']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: population, dtype: int64

In [73]:
# все индексы НИЗЛЕЖАЩИХ объектов Series
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [68]:
# все колонки
states.columns

Index(['population', 'area'], dtype='object')

In [81]:
# все индексы объекта `Series`
states['area'].index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [82]:
states['area']['California']

423967

### `DataFrame` как специализированный словарь

Мы также можем рассматривать `DataFrame` как специализированный словарь, в котором словарь "отражает" ключ на значение, `DataFrame` "отражает" имя колонки на данные колонки, т.е. объект типа `Series`. Например, атрибут `area` возвращает объект `Series` содержащий площади:

In [84]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Отметим, что в `NumPy` выражение `data[0]` возвращает первый **ряд**, Для `DataFrame` выражение `data['col0']` возвращает первую **колонку**. Поэтому, может быть удобнее представлять `DataFrame` как специализированный словарь.

### Создание объектов `DataFrame`

Далее рассмотрим различные способы создания объекта `DataFrame`.

#### Из единичного объекта `Series`

In [90]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### Из списка словарей

In [100]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]
# pd.DataFrame(data, index=range(100, 400, 100))
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Если какие-либо значения отсутствуют, то `pandas` заполнит их значениями `NaN`:

In [101]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### Из словаря с объектами `Series`

https://jakevdp.github.io/PythonDataScienceHandbook/03.01-introducing-pandas-objects.html#From-a-dictionary-of-Series-objects