In [3]:
import pandas as pd

DataFrame создаётся с помощью функции pd.DataFrame(). Так же, как и для Series, для создания объектов DataFrame есть несколько способов:

Способ 1

Самый простой способ создания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов:

In [6]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'area': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
display(countries_df)

#Обратите внимание, что, так как мы не задали метки (индексы) DataFrame, 
#они были сгенерированы автоматически. Исправим это, задав индексы вручную:

countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)


Unnamed: 0,country,population,area
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


Unnamed: 0,country,population,area
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902



Способ 2

Также DataFrame можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

В данном варианте создания DataFrame мы задаём имена столбцов в списке с помощью параметра columns, а также инициализируем параметр index для задания меток стран.

In [5]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'area'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,country,population,area
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


Рассмотрим разницу в результатах работы методов в зависимости от параметра axis на примере использования метода DataFrame mean() — вычисление среднего по таблице.

In [14]:
#Считаем среднее по строкам (axis = 0) в каждом столбце:
#В данном случае среднее было рассчитано по строкам для столбцов population и area.

display(countries_df.mean(axis=0, numeric_only=True))

#Считаем среднее по столбцам (axis = 1) в каждой строке:

display(countries_df.mean(axis=1, numeric_only=True))

population    9.070000e+01
area          5.800860e+06
dtype: float64

UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

Доступ к столбцу можно получить разными способами:

In [17]:
#Можно обратиться к DataFrame по имени столбца через точку:
print(countries_df.population)

#Другой вариант — обратиться к DataFrame по индексу и указать имя столбца:
print(countries_df['population'])

type(countries_df.population)

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64
UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64


pandas.core.series.Series

Рассмотрим на примерах:

In [18]:
#Получим площадь Великобритании:
print(countries_df.loc['UK', 'area'])

#Получим население и площадь, соответствующие России:
print(countries_df.loc['RU', ['population', 'area']])

#Сделаем вырезку из таблицы и получим информацию о населении и площади, соответствующую Украине, Беларуси и Казахстану:
print(countries_df.loc[['UA', 'BY', 'KZ'],['population', 'area']])
#или
print(countries_df.iloc[4:8, 1:3])

133396
population      146.24
area          17125191
Name: RU, dtype: object
    population     area
UA       45.50   603628
BY        9.50   207600
KZ       17.04  2724902
    population     area
UA       45.50   603628
BY        9.50   207600
KZ       17.04  2724902


In [57]:
#Задача 3.5 - мое решение
def create_companyDF(income, expenses, years):
    ScienceYou = pd.DataFrame({
    'Income': income,
    'Expenses': expenses,
})

    ScienceYou.index = years
    return ScienceYou

def get_profit(df, year):
    try:
        a = df.loc[year]['Income']
        b = df.loc[year]['Expenses']
        return a-b
    except KeyError:
        return None
    

print(create_companyDF(income = [612, 516, 329, 158], expenses = [136, 163, 250, 361], years = [2017, 2018, 2019, 2020]))

print(get_profit(year = 2018, df = create_companyDF([612, 516, 329, 158], [136,163,250,361], [2017,2018,2019,2020])))

      Income  Expenses
2017     612       136
2018     516       163
2019     329       250
2020     158       361
353


In [None]:
import pandas as pd
#Задача 3.5 - решеине ментора

def create_companyDF(income, expenses, years):
    df = pd.DataFrame({
        'Income': income,
        'Expenses': expenses
        },
        index = years
    )
    return df

def get_profit(df, year):
    if year in df.index:
        profit = df.loc[year, 'Income'] - df.loc[year, 'Expenses']
    else:
        profit=None
    return profit