Знакомство с pandas мы начнём со структуры данных, которая называется Series.

Series можно рассматривать как одну колонку таблицы, это одномерный массив. 

В списке мы могли обращаться к элементу по его индексу, который всегда был порядковым номером элемента. В отличие от списка, в Series индексами могут быть не только порядковые номера, но что угодно другое, например даты, названия компаний, идентификаторы участников опроса и т.д.

Series больше похоже на словарь.

Создать Series можно с помощью команды pd.Series() (или pandas.Series()), если библиотека pandas была импортирована без использования псевдонима.

Попробуем создать Series, содержащий названия первых четырёх месяцев года, передав их в виде списка.

In [3]:
import pandas as pd

data = pd.Series(["Январь", "Февраль", "Март", "Апрель"],
                 index = ['Первый', "Второй", "Третий", "Четвёртый"])
data

Первый        Январь
Второй       Февраль
Третий          Март
Четвёртый     Апрель
dtype: object

Если не указывать индекс, то он будет создан автоматически и в нём будут порядковые номера элементов, начиная с нуля.


Доступ к элементам Series осуществляется с использованием .loc или .iloc.

.loc принимает определённые метки из индекса. В него можно передать как один указатель, так и массив. Например, если нужно получить элемент с индексом "Первый", нужно написать:

In [4]:
data.loc["Первый"]

'Январь'

In [7]:
data["Первый"]

'Январь'

Если нужно получить элементы с индексами "Первый" и "Третий", то нужно передать в .loc список с этими индексами:

In [5]:
data.loc[["Первый", "Третий"]]

Первый    Январь
Третий      Март
dtype: object

In [8]:
data[["Первый", "Третий"]]

Первый    Январь
Третий      Март
dtype: object

.iloc принимает на вход порядковые номера элементов Series. В него также можно передавать как одно число, так и массив чисел. Например, если нужно из Series data, полученного в предыдущем блоке кода, получить элемент с индексом "Первый", нужно написать:

In [9]:
data.iloc[0]

'Январь'

А если нужно получить, например, элементы с индексами "Первый" и "Третий", то нужно передать в метод .iloc() список с номерами этих элементов:

In [10]:
data.iloc[[0, 2]]

Первый    Январь
Третий      Март
dtype: object

Если в .loc передать название индекса, а в .iloc номер индекса, которого нет в данных, то будет вызвана ошибка.

Объект DataFrame лучше всего представлять себе в виде обычной таблицы. В таблице присутствуют строки и столбцы. Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их непосредственными элементами.

Создать DataFrame проще всего из словаря:

In [11]:
df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
display(df)

Unnamed: 0,col1,col2
0,1,3
1,2,4


Здесь мы создали DataFrame с колонками 'col1' и 'col2' и индексом [0, 1], который был сгенерирован автоматически.

Кроме того, DataFrame можно создать из списка списков. Также можно указать названия колонок (columns) и индекс (index).

In [12]:
df = pd.DataFrame([ [1,2,3], [2,3,4] ],
                  columns = ['foo', 'bar', 'baz'], 
                  index = ['foobar', 'foobaz'])
display(df)

Unnamed: 0,foo,bar,baz
foobar,1,2,3
foobaz,2,3,4


Здесь мы вручную указали названия колонок (foo, bar и baz) и индекс (foobar, foobaz), чтобы задать нужный нам формат таблицы.

