# 3. Pandas.DataFrame

## DATAFRAME КАК СТРУКТУРА ДАННЫХ



Наиболее популярным и понятным является табличное представление данных. Для работы с такими данными в Pandas существует объект DataFrame.

DataFrame является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в DataFrame выступают объекты Series, а строки формируются из их элементов. Также в DataFrame есть метки (индексы), которые соответствуют каждой строке таблицы.

Приведём пример такой структуры:
```python
	ФИО	        ВОЗРАСТ	ДОХОД	РАЗМЕР КРЕДИТА
0	Иванов И. И.	32	120	        250
1	Авербух А. В.	28	44	        320
2	Вестяк А. В.	86	250	        500
```

## СОЗДАНИЕ DATAFRAME

DataFrame создаётся с помощью функции pd.DataFrame(). Так же, как и для Series, для создания объектов DataFrame есть несколько способов:



In [2]:
import pandas as pd

СПОСОБ 1

Самый простой способ создания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов:

In [3]:
countries_df = pd.DataFrame(
    {
        "country": [
            "Англия",
            "Канада",
            "США",
            "Россия",
            "Украина",
            "Беларусь",
            "Казахстан",
        ],
        "population": [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
        "square": [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902],
    }
)

display(countries_df)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


Примечание. В данном коде мы создаём таблицу, столбцы которой соответствуют названиям стран, их населению в миллионах человек и площади в квадратных километрах.

Обратите внимание, что, так как мы не задали метки (индексы) DataFrame, они были сгенерированы автоматически. Исправим это, задав индексы вручную:


In [4]:
countries_df.index = ["UK", "CA", "US", "RU", "UA", "BY", "KZ"]
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


СПОСОБ 2

Также DataFrame можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

In [5]:
countries_df = pd.DataFrame(
    data=[
        ["Англия", 56.29, 133396],
        ["Канада", 38.05, 9984670],
        ["США", 322.28, 9826630],
        ["Россия", 146.24, 17125191],
        ["Украина", 45.5, 603628],
        ["Беларусь", 9.5, 207600],
        ["Казахстан", 17.04, 2724902],
    ],
    columns=["country", "population", "square"],
    index=["UK", "CA", "US", "RU", "UA", "BY", "KZ"],
)
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


В данном варианте создания DataFrame мы задаём имена столбцов в списке с помощью параметра columns, а также инициализируем параметр index для задания меток стран.

# AXIS В DATAFRAME

Как уже было сказано, DataFrame является двумерной структурой данных, что означает наличие двух возможных направлений движения в ней: вдоль строк и вдоль столбцов.

Например, мы можем удалять как строки, так и столбцы таблицы, вычислять среднее значение как по столбцам, так и по строкам таблицы.

При работе с Pandas важно уметь указывать направление работы метода, который используется. Для этого вводится понятие axis (ось, координата). Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.

Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, то есть они выполняют операции со строками, если не задавать axis вручную.

Рассмотрим разницу в результатах работы методов в зависимости от параметра axis на примере использования метода DataFrame mean() — вычисление среднего по таблице.

Считаем среднее по строкам (axis = 0) в каждом столбце:

In [6]:
countries_df.mean(axis=0)

  countries_df.mean(axis=0)


population    9.070000e+01
square        5.800860e+06
dtype: float64

Считаем среднее по столбцам (axis = 1) в каждой строке:

In [7]:
countries_df.mean(axis=1)

  countries_df.mean(axis=1)


UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

Здесь среднее было рассчитано по числовым столбцам для каждой строки в таблице.

## ДОСТУП К ДАННЫМ В DATAFRAME

Доступ к столбцу можно получить разными способами:

Можно обратиться к DataFrame по имени столбца через точку:

In [8]:
countries_df.population

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Однако использование такого способа возможно только тогда, когда имя столбца указано так, что оно соответствует правилам именования переменных в Python.

Другой вариант — обратиться к DataFrame по индексу и указать имя столбца:

In [9]:
countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Примечание. Обратите внимание, что, как и ожидалось, при обращении к столбцу DataFrame мы получаем объект Series с именем, соответствующим имени столбца. Удостовериться в этом можно с помощью функции type():

In [10]:
type(countries_df.population)
# pandas.core.series.Series

pandas.core.series.Series

Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам loc и iloc.

При этом, в соответствии с механизмом работы axis, при обращении к DataFrame по индексам с помощью loc (iloc) первым индексом указывается индекс (порядковый номер), соответствующий строкам, а вторым — имя (порядковый номер) столбца.

Рассмотрим на примерах:

### Пример 1.
Получим площадь Великобритании:

In [11]:
countries_df.loc['UK', 'square']

133396

### Пример 2.

Получим население и площадь, соответствующие России:

In [14]:
countries_df.loc['RU', ['population', 'square']]

population      146.24
square        17125191
Name: RU, dtype: object

### Пример 3.

Сделаем вырезку из таблицы и получим информацию о населении и площади, соответствующую Украине, Беларуси и Казахстану:

In [17]:
countries_df.loc[['UA', 'BY', 'KZ'], ['population', 'square']]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


Или через iloc:

In [28]:
countries_df.iloc[4:, 1:]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


Для нас DataFrame является главной структурой данных в Pandas, с которой мы будем работать на протяжении всех модулей, посвящённых этой библиотеке.

Далее мы рассмотрим ещё несколько способов создания этой структуры из различных источников, а пока предлагаем вам закрепить знания, выполнив несколько заданий

### Задание 3.1

Что собой представляет структура данных DataFrame?

Варианты:
- Ассоциативный ряд
- Таблицу со столбцами и строками
- Древовидную структуру, данные в которых хранятся в узлах
- Граф с узлами и ребрами

Ответ: Таблицу со столбцами и строками

### Задание 3.2

Какой параметр pd.DataFrame() позволяет назначать имена столбцам?

Варианты:
- columns
- names
- index
- dtype

Ответ: columns

### Задание 3.3

Какой параметр pd.DataFrame() позволяет назначать ассоциативные метки (строкам)?

Варианты:
- columns
- placemarks
- index
- names
Ответ: index

### Задание 3.4

Какие из нижеприведённых вариантов кода позволят создать следующую таблицу?

```python

    A   B
0   0   1
1   1   0
```

Варианты:
- A  
```python
pd.DataFrame([[0,1], [1, 0]], columns=['А', 'B'])
```
- B  
```python
pd.DataFrame([[1, 0], [0, 1]], columns=['А', 'B'])
```
- C  
```python
pd.DataFrame({'А': [0, 1], 'B': [1, 0]})
```
- D  
```python
pd.DataFrame({'А': [1, 0], 'B': [0, 1]})
```

Ответ: A и C

### ЗАДАНИЕ 3.5 (ВЫПОЛНЯЕТСЯ В CODEBOARD НИЖЕ)

Вы работаете аналитиком в компании ScienceYou. Ваша задача — проанализировать чистую прибыль.
Доходы (income), расходы (expenses) и годы (years), соответствующие им, предоставлены вам в виде списков. 

Например:
```python
income = [478, 512, 196]
expenses = [156, 130, 270]
years = [2018, 2019, 2020]
```

Создайте функцию create_companyDF(income, expenses, years), которая  возвращает DataFrame, составленный из входных данных со столбцами Income и Expenses и индексами, соответствующими годам рассматриваемого периода. Пример такого DataFrame представлен ниже.
```python
        Income	Expenses
2018    478     156
2019    512     130
2020    196     270
```

Также напишите функцию get_profit(df, year), которая возвращает разницу между доходом и расходом, записанными в таблице df, за год year. Учтите, что если информация за запрашиваемый год не указана в вашей таблице, вам необходимо вернуть None.

Подсказка
Для проверки вхождения запрашиваемого года в перечень индексов таблицы вам поможет атрибут df.index, который возвращает список индексов таблицы.

In [30]:
import pandas as pd

In [39]:
income = [478, 512, 196]
expenses = [156, 130, 270]
years = [2018, 2019, 2020]

In [46]:
def create_companyDF(income, expenses, years):
    # sourcery skip: inline-immediately-returned-variable
    df = pd.DataFrame(data={"Income": income, "Expenses": expenses}, index=years)
    return df


company_df = create_companyDF(income, expenses, years)

display(company_df)

Unnamed: 0,Income,Expenses
2018,478,156
2019,512,130
2020,196,270


In [54]:
def get_profit(df, year):  # sourcery skip: inline-immediately-returned-variable
    if year not in df.index:
        return None

    profit = df.loc[year, "Income"] - df.loc[year, "Expenses"]

    return profit

In [55]:
get_profit(company_df, 2018)

322