https://pyprog.pro/

# Индексация строк датафреймов


In [None]:
import numpy as np
import pandas as pd


Допустим у нас есть следующий датафрейм:



In [None]:
df = pd.DataFrame(np.random.randint(0, 10, (5, 3)),
                  index=list('abcde'),
                  columns=list('XYZ'))
df

Что бы обратиться к его строкам по их индексу (меткам) в index перед оператором [] нужно указать индексатор loc:

In [None]:
df.loc['c']


А что бы обратиться к той же строке, но по целочисленному индексу, нужен индексатор iloc:

In [None]:
df.iloc[2]


Возвращаемые индексаторами, объекты являются сериями:



In [None]:
type(df.iloc[2])


Причем индексы этих серий, совпадают с названиями столбцов датафрейма, что в общем-то более чем логично:



In [None]:
df.iloc[2].index


Что бы получить доступ к элементу извлеченной строки, нужно принять во внимание, что этот элемент находится на пересечении строки и столбца, поскольку строка уже извлечена, то остается указать просто название нужного столбца в качестве индекса во втором операторе []:

In [None]:
df.iloc[2]['Y']


Индексаторами loc и iloc можно воспользоваться для выделения срезов (фрагментов таблиц):

In [None]:
df.loc['b':'d']


In [None]:
df.iloc[1:4]


Так же как и в NumPy получить датафрейм из нужных строк можно с помощью логических массивов:

In [None]:
# строки, сумма элементов которых больше 14:
df[df.sum(axis=1) > 14]


# Выравнивание данных


При выполнении арифметических операций с участием датафреймов происходит выравнивание данных, как по строкам, так и по столбцам, а результатом операции будет датафрейм с объединением меток строк и столбцов.

In [None]:
df_1 = pd.DataFrame(np.arange(4*7).reshape(7, 4),
                    index=['row_'+str(i) for i in range(7)],
                    columns=['col_'+str(i) for i in range(4)])
df_1

In [None]:
df_2 = pd.DataFrame(np.arange(4*7). reshape(4, 7),
                    index=['row_'+str(i) for i in range(4)],
                    columns=['col_'+str(i) for i in range(7)])
df_2

In [None]:
df_1 * df_2


Если выполняется операция между датафреймом и серией, то индексы серии выравниваются по столбцам датафрейма, а затем происходит транслирование серии по всему датафрейму, например



In [None]:
s = df_2.iloc[0]
s



In [None]:
df_2 * s


In [None]:
s = df_2.iloc[0][::2]
s


In [None]:
df_2 + s


Иногда бывает нужно чтобы транслирование выполнялось не по столбцам а построчно, например, из значений элементов каждого столбца вычесть соответствующие значения серии:

In [None]:
s = df_2['col_4']
s


Но если попытаться выполнить это, то мы получим далеко не то что нужно:



In [None]:
df_2 - s


Что бы выполнить подобную операцию нужно воспользоваться методом sub():



In [None]:
df_2.sub(s, axis=0)



Использование обычных чисел (скаляров) в выражениях, так же выполняется с выполнением трансляции по всему датафрейму:



In [None]:
2**df_2


In [None]:
2*df_2 + 1


Логические операции, так же выполняются с выполнением транслирования:



In [None]:
df_1 = pd.DataFrame(np.random.randint(0, 3, (7, 4)),
                    index=['row_'+str(i) for i in range(7)],
                    columns=['col_'+str(i) for i in range(4)])
df_1


In [None]:
df_1 == df_1.loc['row_2']


In [None]:
df_2 = pd.DataFrame(np.random.randint(0, 3, (7, 4)),
                    index=['row_'+str(i) for i in range(7)],
                    columns=['col_'+str(i) for i in range(4)])
df_2


In [None]:
df_1 == df_2


Тоже самое касается и побитовых логических операций:



In [None]:
df_1 = pd.DataFrame(np.random.randint(0, 2, (7, 4)),
                    index=['row_'+str(i) for i in range(7)],
                    columns=['col_'+str(i) for i in range(4)],
                    # задаем логический тип данных:
                    dtype=bool)

df_2 = pd.DataFrame(np.random.randint(0, 2, (7, 4)),
                    index=['row_'+str(i) for i in range(7)],
                    columns=['col_'+str(i) for i in range(4)],
                    dtype=bool)


In [None]:
df_1 & df_2


Что бы выполнить транспонирование датафрейма, т.е. сделать так что бы строки стали столбцами, а столбцы строками, достаточно воспользоваться атрибутом .T:



In [None]:
df_1 = pd.DataFrame(np.arange(4*7).reshape(7, 4),
                    index=['row_'+str(i) for i in range(7)],
                    columns=['col_'+str(i) for i in range(4)])
df_1


In [None]:
df_1.T


Все поэлементные функции NumPy могут выполняться над сериями и датафреймами, при условии, что они состоят из числовых значений:



In [None]:
np.exp2(df_1)


Но это не значит, что датафреймы могут заменить собой массивы NumPy, так как они отличаются внутренней структурой и принципом индексации, например, сравните результат вычисления среднего значения для датафрейма с результатом вычислений для массива NumPy с теми же самыми элементами:



In [None]:
np.mean(df_1)


In [None]:
np.mean(np.arange(4*7).reshape(7, 4))


Тем не менее, серии полностью поддерживают универсальные функции NumPy, причем выравнивание индексов происходит перед применением данных функций:



In [None]:
s1 = df_1['col_0'][3:]
s1


In [None]:
np.sqrt(s1)


In [None]:
s2 = df_1['col_2'][:-2]
s2


In [None]:
# индексы выравниваются:
np.mod(s2, s1)


# Вывод на экран


In [None]:
data = pd.read_csv('../input/seaborn-tips-dataset/tips.csv')


In [None]:
data

Это данные о чаевых в ресторане, которые состоят из семи столбцов и 244-х строк, понятно, что выводить все эти строки на экран не имеет смысла, т.к. получится очень длинная таблица. Что бы получить какое-то представление о таблице можно воспользоваться методом info():

In [None]:
data.info()


Да, чаще всего серии и датафреймы являются очень большими и их вывод просто не помещается на экран, поэтому, они выводятся в "урезанной" форме:



In [None]:
s = pd.Series(np.random.rand(3000))
s


Что бы просмотреть их небольшой фрагмент, можно воспользоваться методами head() или tail():



In [None]:
s.head()



In [None]:
s.tail()


По умолчанию выводится всего 5 строк, но мы можем указать столько строк сколько нам нужно:



In [None]:
s.head(11)


# Атрибуты объектов Pandas


Допустим у нас есть следующий датафрейм:



In [None]:
df = pd.DataFrame(np.random.rand(5, 4),
                  index=pd.date_range('1/1/2020', periods=5),
                  columns=list('ABCD'))
df


Что бы получить доступ к его метаданным, таким как форма, названия столбцов и индексам строк, можно воспользоваться его атрибутами:



In [None]:
# форма датафрейма:
df.shape



In [None]:
# имена столбцов:
df.columns


In [None]:
# индексы строк:
df.index


Объекты с именами столбцов и индексами строк являются неизменяемыми (немутирующими), так что если попробовать переименовать имя одного столбца или изменить индекс одной из строк, то мы увидим ошибку

In [None]:
# эта команда вызовет ошибку:
df.columns[0] = 'col_1'

# df.index[0] = 1     # и эта тоже


Но ничто нам не запрещает спокойно назначать датафреймам новые объекты columns и index:



In [None]:
# Назначаем датафрейму список с новыми
# названиями столбцов:
df.columns = ['col_' + str(i) for i in range(len(df.columns))]

df


In [None]:
# Назначаем датафрейму список с новыми 
# индексами строк:
df.index = ['id_' + str(i) for i in range(len(df.index))]
df


Что бы преобразовать серии и их индексы в массивы NumPy можно воспользоваться их атрибутом array:



In [None]:
s.array


In [None]:
s.index.array


Вы можете заметить, что возвращаемые объекты не очень-то и похожи на массивы NumPy, так и есть - это одномерные объекты, базового класса ExtensionArray, которые очень похожи на обычные массивы NumPy, но для Pandas они позволяют добиться большей функциональности за счет расширения типов. Эта информация, конечно вряд ли является очень полезной, но она дает хорошее представление о том, что серии и датафреймы Pandas это не просто смесь свойств словарей и массивов в буквальном смысле этого слова, а нечто более сложное.

Если нам нужен именно массив NumPy то можно воспользоваться методом Pandas to_numpy() или методом NumPy asarray():



In [None]:
s.to_numpy()


In [None]:
np.asarray(s)
