# DataFrame как структура данных

<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;"> ✍ Наиболее популярным и понятным является табличное представление данных. Для работы с такими данными в Pandas существует объект <b>DataFrame.

DataFrame является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в DataFrame выступают объекты Series, а строки формируются из их элементов. Также в DataFrame есть метки (индексы), которые соответствуют каждой строке таблицы.

Приведём пример такой структуры:

|   | ФИО           | Возраст | Доход | Размер кредита |
|---|---------------|---------|-------|----------------|
| 0 | Иванов И. И.  | 32      | 120   | 250            |
| 1 | Авербух А. В. | 28      | 44    | 320            |
| 2 | Вестяк А. В.  | 86      | 250   | 500            |

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;"><b>Примечание</b>. В дальнейшем слова DataFrame и таблица будут употребляться как синонимы. Также синонимами в Data Science являются слова столбец таблицы и признак.

# Создание DataFrame

DataFrame создаётся с помощью функции <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html">pd.DataFrame()</a>. Так же, как и для Series, для создания объектов DataFrame есть несколько способов:

## Способ 1

Самый простой способ создания <i>DataFrame</i> — из словаря, <b>ключами</b> которого являются <b>имена столбцов</b> будущей таблицы, а <b>значениями — списки, в которых хранится <b>содержимое этих столбцов:

In [2]:
import pandas as pd

In [5]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;"><b>Примечание</b>. В данном коде мы создаём таблицу, столбцы которой соответствуют названиям стран, их населению в миллионах человек и площади в квадратных километрах.

Обратите внимание, что, так как мы не задали метки (индексы) DataFrame, они были сгенерированы автоматически. Исправим это, задав индексы вручную:

In [6]:
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


## Способ 2

Также DataFrame можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

In [7]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


В данном варианте создания DataFrame мы задаём имена столбцов в списке с помощью параметра columns, а также инициализируем параметр index для задания меток стран.

# Axis в DataFrame

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">→ Как уже было сказано, DataFrame является двумерной структурой данных, что означает наличие двух возможных направлений движения в ней: вдоль строк и вдоль столбцов. 

Например, мы можем удалять как строки, так и столбцы таблицы, вычислять среднее значение как по столбцам, так и по строкам таблицы.


<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">При работе с Pandas важно уметь указывать направление работы метода, который используется. Для этого вводится понятие axis (ось, координата). Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.

Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, то есть они выполняют операции со строками, если не задавать axis вручную.


Схема ниже демонстрирует направления axis в DataFrame:

<img src="../static/img/dataframe.png">



Рассмотрим разницу в результатах работы методов в зависимости от параметра axis на примере использования метода DataFrame mean() — вычисление среднего по таблице.

Считаем <b>среднее по строкам</b> (axis = 0) в каждом столбце:

In [8]:
countries_df.mean(axis=0, numeric_only=True)

population    9.070000e+01
square        5.800860e+06
dtype: float64

В данном случае среднее было рассчитано по строкам для столбцов population и square.

Обратите внимание на то, что так как не все столбцы в нашей таблице являются числовыми, то нам необходимо установить параметр numeric_only в значение True (вести расчёт только по числовым столбцам). Это делается для того, чтобы не получать предупреждений (warnings).

Считаем <b>среднее по столбцам</b> (axis = 1) в каждой строке:

In [9]:
countries_df.mean(axis=1, numeric_only=True)

UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

Здесь среднее было рассчитано по числовым столбцам для каждой строки в таблице.

# Доступ к данным в DataFrame

Доступ к столбцу можно получить разными способами:

Можно обратиться к DataFrame по имени столбца через точку:

In [10]:
countries_df.population

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Однако использование такого способа возможно только тогда, когда имя столбца указано без пробелов.

Другой вариант — обратиться к DataFrame по индексу и указать имя столбца:

In [11]:
countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;"><b>Примечание.</b> Обратите внимание, что, как и ожидалось, при обращении к столбцу DataFrame мы получаем объект Series с именем, соответствующим имени столбца. Удостовериться в этом можно с помощью функции type():
<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">type(countries_df.population) <br>
# pandas.core.series.Series
</div></div>

---
Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам loc и iloc.

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">При этом, в соответствии с механизмом работы axis, при обращении к DataFrame по индексам с помощью loc (iloc) первым индексом указывается индекс (порядковый номер), соответствующий строкам, а вторым — имя (порядковый номер) столбца.

Рассмотрим на примерах:

1. Получим площадь Великобритании:

In [12]:
countries_df.loc['UK', 'square']

133396

2. Получим население и площадь, соответствующие России:

In [13]:
countries_df.loc['RU', ['population', 'square']]

population      146.24
square        17125191
Name: RU, dtype: object

3. Сделаем вырезку из таблицы и получим информацию о населении и площади, соответствующую Украине, Беларуси и Казахстану:

In [14]:
countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


или

In [15]:
countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


###  Задание 3.1

Что собой представляет структура данных DataFrame?
- Ассоциативный ряд
- Таблицу со столбцами и строками
- Древовидную структуру, данные в которой хранятся в узлах
- Граф с узлами и рёбрами 

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
 - Таблицу со столбцами и строками
</code>
</details>

###   Задание 3.2

Какой параметр pd.DataFrame() позволяет назначать имена столбцам?
- columns
- names
- index
- dtype 

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
 - columns
</code>
</details>

###   Задание 3.3

Какой параметр pd.DataFrame() позволяет назначать ассоциативные метки?
- columns
- placemarks
- index
- names 

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
 - index
</code>
</details>

###   Задание 3.3
Какие из нижеприведённых вариантов кода позволят создать следующую таблицу?

|   | A | B |
|---|---|---|
| 0 | 0 | 1 |
| 1 | 1 | 0 |

 A

pd.DataFrame([[0,1], [1, 0]], columns=['А', 'B'])

B

pd.DataFrame([[1, 0], [0, 1]], columns=['А', 'B'])

C

pd.DataFrame({'А': [0, 1], 'B': [1, 0]})

D

pd.DataFrame({'А': [1, 0], 'B': [0, 1]})



<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
 -A, C
</code>
</details>

###   Задание 3.5

Вы работаете аналитиком в компании ScienceYou. Ваша задача — проанализировать чистую прибыль.

Доходы (income), расходы (expenses) и годы (years), соответствующие им, предоставлены вам в виде списков.

Например:
<pre>
<code>
income = [478, 512, 196]
expenses = [156, 130, 270]
years = [2018, 2019, 2020]
</pre>
</code>
Создайте функцию create_companyDF(income, expenses, years), которая возвращает DataFrame, составленный из входных данных со столбцами Income и Expenses и индексами, соответствующими годам рассматриваемого периода.

Пример такого DataFrame представлен ниже.
<pre>
<code>
    Income  Expenses
2018    478     156
2019    512     130
2020    196     270

</pre>
</code>
Также напишите функцию get_profit(df, year), которая возвращает разницу между доходом и расходом, записанными в таблице df, за год year.

Примечание. Если информация за запрашиваемый год не указана в вашей таблице, вам необходимо вернуть None.

Примечание. Не забудьте ипортировать библиотеки.
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
 -A, C
</code>
</details>

In [28]:
import pandas as pd


income = [478, 512, 196]
expenses = [156, 130, 270]
years = [2018, 2019, 2020]

def create_companyDF(income, expenses, years):
    companyDF = pd.DataFrame(
        {
            'Income': income,
            'Expenses': expenses,
            
        }
        ,
        index = years
    )
    return companyDF

def get_profit(df, year):
    if year not in list(df.index.values):
        return None
    return df.loc[year, 'Income'] - df.loc[year, 'Expenses']

df = create_companyDF(income, expenses, years)
get_profit(df, 20223)


    