DATAFRAME КАК СТРУКТУРА ДАННЫХ

DataFrame является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в DataFrame выступают объекты Series, а строки формируются из их элементов. Также в DataFrame есть метки (индексы), которые соответствуют каждой строке таблицы.

СОЗДАНИЕ DATAFRAME

In [2]:
# DataFrame создаётся с помощью функции pd.DataFrame(). Так же, как и для Series, для создания объектов DataFrame есть несколько способов:

import pandas as pd

pd.DataFrame()

In [5]:
# Способ 1 - создание дата фрейма из словоря, ключами которого являються имена столбцов, а значениями списки, в которых хранится содежимое этих столбцов.

countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
display(countries_df)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


In [6]:
# Обратите внимание, что, так как мы не задали метки (индексы) DataFrame, они были сгенерированы автоматически. Исправим это, задав индексы вручную:

countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


In [9]:
# Способ 2 - создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

# В данном варианте создания DataFrame мы задаём имена столбцов в списке с помощью параметра columns, а также инициализируем параметр index для задания меток стран.

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


AXIS В DATAFRAME

axis = ось, координата. 
Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.
Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, то есть они выполняют операции со строками, если не задавать axis вручную

In [10]:
# Считаем среднее по строкам (axis = 0) в каждом столбце:

countries_df.mean(axis=0)

population    9.070000e+01
square        5.800860e+06
dtype: float64

In [11]:
# Считаем среднее по столбцам (axis = 1) в каждой строке:

countries_df.mean(axis=1)

UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

ДОСТУП К ДАННЫМ В DATAFRAME

In [12]:
# Можно обратиться к DataFrame по имени столбца через точку:

countries_df.population

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

In [14]:
# Другой вариант — обратиться к DataFrame по индексу и указать имя столбца:

countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

In [16]:
# Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам loc и iloc.
# При этом, в соответствии с механизмом работы axis, при обращении к DataFrame по индексам.
# C помощью loc (iloc) первым индексом указывается индекс (порядковый номер), соответствующий строкам, а вторым — имя (порядковый номер) столбца.

In [18]:
# Получим площадь Великобритании:

countries_df.loc['UK', 'square']

133396

In [19]:
# Получим население и площадь, соответствующие России:

countries_df.loc['RU', ['population', 'square']]

population      146.24
square        17125191
Name: RU, dtype: object

In [20]:
# Сделаем вырезку из таблицы и получим информацию о населении и площади, соответствующую Украине, Беларуси и Казахстану:

countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


In [21]:
# Или так

countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


In [22]:
pd.DataFrame([[0,1], [1, 0]], columns=['А', 'B'])

Unnamed: 0,А,B
0,0,1
1,1,0


In [23]:
pd.DataFrame([[1, 0], [0, 1]], columns=['А', 'B'])

Unnamed: 0,А,B
0,1,0
1,0,1


In [24]:
pd.DataFrame({'А': [0, 1], 'B': [1, 0]})

Unnamed: 0,А,B
0,0,1
1,1,0


In [25]:
pd.DataFrame({'А': [1, 0], 'B': [0, 1]})

Unnamed: 0,А,B
0,1,0
1,0,1


In [31]:
df = pd.DataFrame({
        'income': [478, 512, 196],
        'expenses': [156, 130, 270]
})
df.index = ['2018', '2019', '2020']
display(df)

Unnamed: 0,income,expenses
2018,478,156
2019,512,130
2020,196,270
