In [30]:
import pandas as pd

# DATAFRAME КАК СТРУКТУРА ДАННЫХ


Наиболее популярным и понятным является табличное представление данных. Для работы с такими данными в Pandas существует объект DataFrame


## СОЗДАНИЕ DATAFRAME


DataFrame создаётся с помощью функции pd.DataFrame(). Так же, как и для Series, для создания объектов DataFrame есть несколько способов


#### <b>СПОСОБ 1</b>

Самый простой способ создания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов:


In [31]:
countries_df = pd.DataFrame(
    {
        "country": [
            "Англия",
            "Канада",
            "США",
            "Россия",
            "Украина",
            "Беларусь",
            "Казахстан",
        ],
        "population": [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
        "area": [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902],
    }
)
countries_df

Unnamed: 0,country,population,area
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


In [32]:
countries_df.index = ["UK", "CA", "US", "RU", "UA", "BY", "KZ"]
display(countries_df)

Unnamed: 0,country,population,area
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


#### <b>СПОСОБ 2</b>

Также DataFrame можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:


In [33]:
countries_df = pd.DataFrame(
    data=[
        ["Англия", 56.29, 133396],
        ["Канада", 38.05, 9984670],
        ["США", 322.28, 9826630],
        ["Россия", 146.24, 17125191],
        ["Украина", 45.5, 603628],
        ["Беларусь", 9.5, 207600],
        ["Казахстан", 17.04, 2724902],
    ],
    columns=["country", "population", "area"],
    index=["UK", "CA", "US", "RU", "UA", "BY", "KZ"],
)
display(countries_df)

Unnamed: 0,country,population,area
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


## AXIS В DATAFRAME


Как уже было сказано, DataFrame является двумерной структурой данных, что означает наличие двух возможных направлений движения в ней: вдоль строк и вдоль столбцов


При работе с Pandas важно уметь указывать направление работы метода, который используется. Для этого вводится понятие axis (ось, координата). Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.

Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, то есть они выполняют операции со строками, если не задавать axis вручную.

![dataframe-axis.png](dataframe-axis.png)


Считаем среднее по строкам (axis = 0) в каждом столбце:


In [34]:
countries_df.mean(axis=0, numeric_only=True)

population    9.070000e+01
area          5.800860e+06
dtype: float64

Считаем среднее по столбцам (axis = 1) в каждой строке:


In [35]:
countries_df.mean(axis=1, numeric_only=True)

UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

## ДОСТУП К ДАННЫМ В DATAFRAME


Доступ к столбцу можно получить разными способами:


Можно обратиться к DataFrame по имени столбца через точку:


In [36]:
countries_df.population

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Другой вариант — обратиться к DataFrame по индексу и указать имя столбца:


In [37]:
countries_df["population"]

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Примечание. Обратите внимание, что, как и ожидалось, при обращении к столбцу DataFrame мы получаем объект Series с именем, соответствующим имени столбца. Удостовериться в этом можно с помощью функции type():


In [38]:
type(countries_df.population)

pandas.core.series.Series

Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам loc и iloc.


При этом, в соответствии с механизмом работы axis, при обращении к DataFrame по индексам с помощью loc (iloc) первым индексом указывается индекс (порядковый номер), соответствующий строкам, а вторым — имя (порядковый номер) столбца.


### Рассмотрим на примерах:


#### 1. Получим площадь Великобритании:


In [39]:
countries_df.loc["UK", "area"]

133396

#### 2. Получим население и площадь, соответствующие России:


In [40]:
countries_df.loc["RU", ["population", "area"]]

population      146.24
area          17125191
Name: RU, dtype: object

#### 3. Сделаем вырезку из таблицы и получим информацию о населении и площади, соответствующую Украине, Беларуси и Казахстану:


In [41]:
countries_df.loc[["UA", "BY", "KZ"], ["population", "area"]]

Unnamed: 0,population,area
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


ИЛИ


In [42]:
countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,area
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


In [46]:
def create_companyDF(income, expenses, years):
    return pd.DataFrame(
        data=[[inc, exp] for inc, exp in zip(income, expenses)],
        columns=["Income", "Expenses"],
        index=years,
    )


create_companyDF(
    income=[612, 516, 329, 158],
    expenses=[136, 163, 250, 361],
    years=[2017, 2018, 2019, 2020],
)

def get_profit(df, year):
    if year not in df.index:
        return None
    return df.loc[year, "Income"] - df.loc[year, "Expenses"]

year = 2013
df = create_companyDF([612, 516, 329, 158], [136,163,250,361], [2017,2018,2019,2020])
get_profit(df, year)