In [22]:
import numpy as np
import pandas as pd

print("numpy  version: ", np.__version__)
print("pandas version: ", pd.__version__)

numpy  version:  1.23.5
pandas version:  2.1.4


# Часть 1. Базовые объекты

При знакомстве с NumPy мы поработали с двумя основными сущностями:
- однородными массивами
- массивами структурированных объектов

Для каждого из них у Pandas есть свои аналоги, которые расширяют функционал и область их применения

## Pandas Series

В качестве аналога обобщённых массивов NumPy можно рассматривать Pandas Series, с функционалом которого мы сейчас познакомимся поближе.

In [23]:
# создание объекта
s = pd.Series([0.1, 0.3, 0.5, 1.0])
s

0    0.1
1    0.3
2    0.5
3    1.0
dtype: float64

Тут мы видим привычное нам представление в виде массива и заданный (выведенный) для всех элементов dtype. Что ещё есть из атрибутов?

In [24]:
# можно провести конвертацию в np.ndarray
s.values, type(s.values)

(array([0.1, 0.3, 0.5, 1. ]), numpy.ndarray)

In [25]:
# по аналогии с массивами к Series применяются правила индексирования и slicing'а
s[1]

0.3

In [26]:
s[1:3]

1    0.3
2    0.5
dtype: float64

Что же отличает Series от массивов NumPy? У них есть новый для нас атрибут - индекс (index), к которому можно обратиться с помощью одноимённого вызова.

In [27]:
s.index

RangeIndex(start=0, stop=4, step=1)

Обособленной возможность обращаться к индексу наводит на мысль, что его функционал несколько шире, чем просто давать доступ к объектам по целому числу. Это действительно так, рассмотрим следующий код

In [28]:
s = pd.Series(
    [0.1, 0.3, 0.5, 1.0], 
    index=["a", "b", "c", "d"]
)

s

a    0.1
b    0.3
c    0.5
d    1.0
dtype: float64

Обратите внимание, что в первом столбце больше нет привычных нам `0, 1, 2, 3`. Теперь вместо них явно заданный индекс `a, b, c, d`, что даёт нам возможность обращаться к элементам Series следующим образом:

In [29]:
s["c"]

0.5

На этом возможности использования индекса не заканчиваются. Давайте попробуем поэкспериментировать и выполнить следующий код (который, надеюсь, вы никогда не увидите в реальном проекте):

In [30]:
s = pd.Series(
    [0.1, 0.3, 0.5, 1.0], 
    index=[3, -1, 5, -7]
)

s

 3    0.1
-1    0.3
 5    0.5
-7    1.0
dtype: float64

In [31]:
s[-7]

1.0

In [32]:
s.index

Index([3, -1, 5, -7], dtype='int64')

Как видите, индекс может быть абсолютно произвольным, чем мы будем впоследствии пользоваться при работе с табличными данными. Фактически произвольная форма индеса даёт возможность рассматриваеть Series как своеобразного рода словарь:

In [33]:
d = {
    "website": 14, 
    "ios": 4, 
    "android": 8, 
    "windows phone": 1
}

s = pd.Series(d)

s

website          14
ios               4
android           8
windows phone     1
dtype: int64

Как видите, словарь можно даже подавать для инициализации объекта типа Series, ключи которого становятся индексом.

In [34]:
s["website"], s["android"]

(14, 8)

Однако есть небольшое "но", которое с одной стороны расширяет функционал, а с другой даёт возможности, пользоваться которыми надо с осторожностью. Вы помните slicing применительно к массивам NumPy? Давайте опробуем такой код:

In [35]:
s["website":"android"]

website    14
ios         4
android     8
dtype: int64

Как видите, теперь slicing можно применять и к Series с поправкой, что у него есть нюансы работы, о которых мы поговорим чуть позже.

## Pandas DataFrame

Мы упоминали, что структурированные массивы можно рассматривать в качестве преамбулы к датафреймам Pandas'а. Пришло время вернуться и разобраться в этом тезисе. Для этого создадим пару объектов Series:

In [36]:
num_active_versions = pd.Series(
        {
        "website": 14, 
        "ios": 4, 
        "android": 8, 
        "windows phone": 1
    }
)

complexity = pd.Series(
    {
        "windows phone": 2.1,
        "ios": 1.4, 
        "website": 1.0, 
        "android": 0.9
    }
)

У нас есть два объекта типа Series (с одинаковыми ключами), которые теперь можно превратить в таблицу.

In [37]:
df = pd.DataFrame(
    {
        "num_active_versions": num_active_versions,
        "complexity": complexity
    }
)

df

Unnamed: 0,num_active_versions,complexity
android,8,0.9
ios,4,1.4
website,14,1.0
windows phone,1,2.1


Теперь у нас есть аккуратная табличка, которую Pandas сделал нам из поданных ему на вход Series. Обратите внимание, что даже несмотря на разный порядок ключей он аккуратно свёл их воедино. Посмотрим, как выглядит индекс:

In [38]:
df.index

Index(['android', 'ios', 'website', 'windows phone'], dtype='object')

В дополнение у нас теперь есть возможность ещё и работать с названиями столбцов, которые, обратите внимание, тоже индекс. Именно поэтому датафреймы достаточно легко интерпретировать как таблицы

In [39]:
df.columns

Index(['num_active_versions', 'complexity'], dtype='object')

В заключение этой части давайте рассмотрим, какие есть возможности по созданию датафреймов в дополнение к ранее опробованным:

In [40]:
# из списка словарей
data = [
    {"a": 1, "b": 2},
    {"a": 11, "b": 22},
    {"a": 111, "b": 222}
]

pd.DataFrame(data)

Unnamed: 0,a,b
0,1,2
1,11,22
2,111,222


In [42]:
# из двумерного массива
pd.DataFrame(
    np.random.randint(1, 11, (3, 2)),
    columns=["a", "b"],
    index=["row_1", "row_2", "row_3"]
)

Unnamed: 0,a,b
row_1,3,4
row_2,5,4
row_3,8,1
