##DATAFRAME КАК СТРУКТУРА ДАННЫХ

✍ Наиболее популярным и понятным является табличное представление данных. Для работы с такими данными в Pandas 
существует объект DataFrame.

DataFrame является двумерной структурой и представляется в виде таблицы, в которой есть строки 
и столбцы: столбцами в DataFrame выступают объекты Series, а строки формируются из их элементов. 
Также в DataFrame есть метки (индексы), которые соответствуют каждой строке таблицы.

*Примечание. В дальнейшем слова DataFrame и таблица будут употребляться как синонимы. Также синонимами в Data Science являются слова столбец таблицы и признак.*

СОЗДАНИЕ DATAFRAME

DataFrame создаётся с помощью функции **pd.DataFrame()**. Так же, как и для Series, 
для создания объектов DataFrame есть несколько способов:

СПОСОБ 1

*Самый простой способ создания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов:*

In [17]:
import pandas as pd

In [31]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]

})
display(countries_df)
countries_df.to_csv('data/countries.csv', index=False, sep=';')

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


*Примечание. В данном коде мы создаём таблицу, столбцы которой соответствуют названиям стран, их населению в миллионах человек и площади в квадратных километрах*.

In [19]:
#bОбратите внимание, что, так как мы не задали метки (индексы) DataFrame, они были сгенерированы автоматически. 
# Исправим это, задав индексы вручную:
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


СПОСОБ 2

Также DataFrame можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

In [20]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


В данном варианте создания DataFrame мы задаём имена столбцов в списке с помощью параметра columns, а также инициализируем параметр index для задания меток стран.

*DataFrame является двумерной структурой данных, что означает наличие двух возможных направлений движения в ней: вдоль строк и вдоль столбцов. 
Например, мы можем удалять как строки, так и столбцы таблицы, вычислять среднее значение как по столбцам, так и по строкам таблицы.*

При работе с Pandas важно уметь указывать направление работы метода, который используется. Для этого вводится понятие **axis (ось, координата)**. 
Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.

Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, 
то есть они выполняют операции со строками, если не задавать axis вручную.

*Рассмотрим разницу в результатах работы методов в зависимости от параметра axis на примере использования метода DataFrame mean() — вычисление среднего по таблице.*

In [21]:
# Считаем среднее по строкам (axis = 0) в каждом столбце:
countries_df.mean(axis=0)
# В данном случае среднее было рассчитано по строкам для столбцов population и square.

  countries_df.mean(axis=0)


population    9.070000e+01
square        5.800860e+06
dtype: float64

In [22]:
# Считаем среднее по столбцам (axis = 1) в каждой строке:
countries_df.mean(axis=1)
# Здесь среднее было рассчитано по числовым столбцам для каждой строки в таблице.

  countries_df.mean(axis=1)


UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

ДОСТУП К ДАННЫМ В DATAFRAME

Доступ к столбцу можно получить разными способами:

In [23]:
# Можно обратиться к DataFrame по имени столбца через точку:
countries_df.population
# Однако использование такого способа возможно только тогда, когда имя столбца указано без пробелов.

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

In [24]:
# Другой вариант — обратиться к DataFrame по индексу и указать имя столбца:
countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

In [25]:
# Примечание. Обратите внимание, что, как и ожидалось, при обращении к столбцу 
# DataFrame мы получаем объект Series с именем, соответствующим имени столбца. 
# Удостовериться в этом можно с помощью функции type():
type(countries_df.population)
# pandas.core.series.Series

pandas.core.series.Series

Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам loc и iloc.

При этом, в соответствии с механизмом работы axis, при обращении к DataFrame по индексам с помощью loc (iloc) первым индексом указывается индекс (порядковый номер), соответствующий строкам, а вторым — имя (порядковый номер) столбца.

In [26]:
# 1. Получим площадь Великобритании:
countries_df.loc['UK', 'square']

133396

In [27]:
# 2 Получим население и площадь, соответствующие России:
countries_df.loc['RU', ['population', 'square']]

population      146.24
square        17125191
Name: RU, dtype: object

In [28]:
# 3 Сделаем вырезку из таблицы и получим информацию о населении и площади, соответствующую Украине, Беларуси и Казахстану:
countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']]
# или
countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


Вы работаете аналитиком в компании ScienceYou. Ваша задача — проанализировать чистую прибыль.

Доходы (incomes), расходы (expenses) и годы (years), соответствующие им, предоставлены вам в виде списков. 

Например:

incomes = [478, 512, 196]
expenses = [156, 130, 270]
years = [2018, 2019, 2020]
Создайте функцию create_companyDF(incomes, expenses, years), которая  возвращает DataFrame, составленный из входных данных со столбцами Incomes и Expenses и индексами, соответствующими годам рассматриваемого периода. Пример такого DataFrame представлен ниже.

    Incomes	Expenses
2018	478	156
2019	512	130
2020	196	270
Также напишите функцию get_profit(df, year), которая возвращает разницу между доходом и расходом, записанными в таблице df, за год year. Учтите, что если информация за запрашиваемый год не указана в вашей таблице, вам необходимо вернуть None.

Подсказка
Для проверки вхождения запрашиваемого года в перечень индексов таблицы вам поможет атрибут df.index, который возвращает список индексов таблицы.

In [29]:
income = [478, 512, 196]
expenses = [156, 130, 270]
years = [2018, 2019, 2020]
# функция  create_companyDF(incomes, expenses, years), которая  возвращает DataFrame, составленный из входных данных 
# со столбцами Incomes и Expenses и индексами, соответствующими годам рассматриваемого периода
def create_companyDF(income, expenses, years):
    companyDF=pd.DataFrame({'Income':income, 'Expenses':expenses}, index = years)
    return companyDF
# функция get_profit(df, year), которая возвращает разницу между доходом и расходом, записанными в таблицеd companyDF, за год year
def get_profit(df, year):
    if year in df.index:
        profit= companyDF.loc[years, 'Income'] - companyDF.loc[years, 'Expenses']
    else:
        profit=None # если информация за запрашиваемый год не указана в таблице, необходимо вернуть None
    return profit
display(companyDF)
display(profit)

NameError: name 'companyDF' is not defined