### Pandas.DataFrame

#### DATAFRAME КАК СТРУКТУРА ДАННЫХ

> DataFrame является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в DataFrame выступают объекты Series, а строки формируются из их элементов. Также в DataFrame есть метки (индексы), которые соответствуют каждой строке таблицы.

#### СОЗДАНИЕ DATAFRAME

СПОСОБ 1

Самый простой способ создания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов

In [1]:
import pandas as pd

countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


> Обратите внимание, что, так как мы не задали метки (индексы) DataFrame, они были сгенерированы автоматически. Исправим это, задав индексы вручную

In [2]:
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']

In [3]:
countries_df

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


СПОСОБ 2

Также DataFrame можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

In [4]:
countries_df = pd.DataFrame(
    data= [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index= ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)

display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


#### AXIS В DATAFRAME

In [5]:
countries_df.mean(axis=0)

  countries_df.mean(axis=0)


population    9.070000e+01
square        5.800860e+06
dtype: float64

In [6]:
countries_df.mean(axis=1)

  countries_df.mean(axis=1)


UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

#### ДОСТУП К ДАННЫМ В DATAFRAME

Можно обратиться к DataFrame по имени столбца через точку:

In [7]:
countries_df.population

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Обратиться к DataFrame по индексу и указать имя столбца:

In [8]:
countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

> Обратите внимание, что, как и ожидалось, при обращении к столбцу DataFrame мы получаем объект Series с именем, соответствующим имени столбца. Удостовериться в этом можно с помощью функции type():

In [9]:
type(countries_df.population)

pandas.core.series.Series

Получим площадь Великобритании и т.д:

In [10]:
countries_df.loc['UK', 'square']

133396

In [11]:
countries_df.loc['RU', ['population', 'square']]

population      146.24
square        17125191
Name: RU, dtype: object

In [12]:
countries_df.loc[['UA', 'BY', 'KZ'], ['population', 'square']]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


In [13]:
countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


#### ЗАДАНИЕ 3.5

In [14]:
income = [478, 512, 196]
expenses = [156, 130, 270]
years = [2018, 2019, 2020]

import pandas as pd

def create_companyDF(income, expenses, years):
    """
    Создайте функцию create_companyDF(income, expenses, years), 
    которая  возвращает DataFrame, 
    составленный из входных данных со столбцами “Income” 
    и “Expenses” и индексами, соответствующим годам рассматриваемого 
    периода.
    """
    df =pd.DataFrame({
        'income' : income,
        'expenses':expenses
    })
    df.index = years
    return df

df = create_companyDF(income, expenses, years)

In [15]:
def get_profit(df, year):
    
    """
    А также напишите функцию get_profit(df, year), 
    которая возвращает разницу между доходом и расходом, 
    записанных в таблице df, за год year.
    Учтите, что если информация за запрашиваемый год не 
    указана в вашей таблице вам необходимо вернуть None. 
    """
    if year not in df.index:
        return None
    else:
        return df.loc[year, 'income'] - df.loc[year, 'expenses']

get_profit(df, 2020)

-74

#### Practice

In [21]:
df = pd.DataFrame({
    'floors':[22, 34, 23],
    'enters':[2, 4, 3]
})
df.index = ['house1', 'house2', 'house3']
df.iloc[0]

floors    22
enters     2
Name: house1, dtype: int64

In [30]:
df = pd.DataFrame(
    data = [
        ['house1', 22, 2], 
        ['house2', 23, 4]
    ],
    columns= ['house', 'floors', 'enters'],
    index= [1, 2]
)
df.floors.mean()

22.5