DataFrame = таблица (двумерная структура); столбец таблицы = признак 

Существует 2 способа создания pd.DataFrame()

In [2]:
import pandas as pd 
# Способ 1
countries_df = pd.DataFrame({
    # ключи - имена столбцов, значения - списки - содержимое этих столбцов
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
# если не задаем индекс вручную, он будет по умолчанию от нуля
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


In [3]:
# Способ 2
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
# задаём имена столбцов в списке с помощью параметра columns, а также инициализируем параметр index для задания меток стран.
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.

Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, то есть они выполняют операции со строками, если не задавать axis вручную.

In [4]:
countries_df.mean(axis=0, numeric_only=True)
# В данном случае среднее было рассчитано по строкам для столбцов population и square
# Так как не все столбцы в таблице являются числовыми, то нам необходимо установить параметр numeric_only в значение True

population    9.070000e+01
square        5.800860e+06
dtype: float64

In [5]:
countries_df.mean(axis=1, numeric_only=True)
# Здесь среднее было рассчитано по числовым столбцам для каждой строки в таблице

UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

Доступ к столбцу:

In [6]:
countries_df.population
# использование такого способа возможно только тогда, когда имя столбца указано без пробелов

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

In [7]:
countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Доступ к ячейкам:

In [9]:
# сперва указывается индекс, соответствующий строке, далее имя столбца (-ов)
countries_df.loc['UK', 'square']

np.int64(133396)

In [10]:
countries_df.loc['RU', ['population', 'square']]

population      146.24
square        17125191
Name: RU, dtype: object

In [11]:
countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


In [12]:
# или сделать срез сначала по индексам, потом по именам столбцов
countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


In [None]:
# чтобы выбирать строки не подряд, а какие-то конкретные, используем двойные квадратные скобки
df.iloc[[0, 2, 3]]

In [31]:
new = countries_df[countries_df['population'] >= 10]
new

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
KZ,Казахстан,17.04,2724902


In [5]:
# добавляем новый столбец
countries_df['Passed'] = countries_df['population'] > 50
countries_df

Unnamed: 0,country,population,square,Passed
UK,Англия,56.29,133396,True
CA,Канада,38.05,9984670,False
US,США,322.28,9826630,True
RU,Россия,146.24,17125191,True
UA,Украина,45.5,603628,False
BY,Беларусь,9.5,207600,False
KZ,Казахстан,17.04,2724902,False


In [8]:
# еще столбец можно добавить таким образом
weather = [u'+15', u'+12',u'+18',u'+16',u'+17',u'+17',u'+13']
countries_df.insert(4, 'weather', weather)
countries_df

Unnamed: 0,country,population,square,Passed,weather
UK,Англия,56.29,133396,True,15
CA,Канада,38.05,9984670,False,12
US,США,322.28,9826630,True,18
RU,Россия,146.24,17125191,True,16
UA,Украина,45.5,603628,False,17
BY,Беларусь,9.5,207600,False,17
KZ,Казахстан,17.04,2724902,False,13


In [34]:
#countries_df.iloc[7] = []
# заменили Канаду на Узбекистан (сперва указали индекс строки, затем имя столбца)
countries_df.at['CA', 'country'] = 'Узбекистан'
countries_df

Unnamed: 0,country,population,square,Passed
UK,Англия,56.29,133396.0,True
CA,Узбекистан,38.05,9984670.0,False
US,США,322.28,9826630.0,True
RU,Россия,146.24,17125191.0,True
UA,Украина,45.5,603628.0,False
BY,Беларусь,9.5,207600.0,False
KZ,Казахстан,17.04,2724902.0,False
2,Узбекистан,,,


In [44]:
new_row = pd.DataFrame([{'country':'Франция', 'population':'45.89', 'square': '345234.7', 'Passed': 'True'}])
countries_df = pd.concat([countries_df, new_row], ignore_index=True)
countries_df

Unnamed: 0,country,population,square,county,Passed
0,Англия,56.29,133396.0,,
1,Узбекистан,38.05,9984670.0,,
2,США,322.28,9826630.0,,
3,Россия,146.24,17125191.0,,
4,Украина,45.5,603628.0,,
5,Беларусь,9.5,207600.0,,
6,Казахстан,17.04,2724902.0,,
7,Узбекистан,,,,
8,,45.89,345234.7,Франция,True
9,Франция,45.89,345234.7,,True


In [37]:
# inplace = True означает "изменить на месте", удаляет исходный датафрейм
countries_df.drop(columns = 'Passed', inplace = True)
countries_df

Unnamed: 0,country,population,square
UK,Англия,56.29,133396.0
CA,Узбекистан,38.05,9984670.0
US,США,322.28,9826630.0
RU,Россия,146.24,17125191.0
UA,Украина,45.5,603628.0
BY,Беларусь,9.5,207600.0
KZ,Казахстан,17.04,2724902.0
2,Узбекистан,,


In [38]:
countries_df['population'].mean()

np.float64(90.7)

In [39]:
sorted_cont = countries_df.sort_values(by='population')
sorted_cont

Unnamed: 0,country,population,square
BY,Беларусь,9.5,207600.0
KZ,Казахстан,17.04,2724902.0
CA,Узбекистан,38.05,9984670.0
UA,Украина,45.5,603628.0
UK,Англия,56.29,133396.0
RU,Россия,146.24,17125191.0
US,США,322.28,9826630.0
2,Узбекистан,,


In [28]:
# напишем функцию, которая возвращает DataFrame, 
# составленный из входных данных со столбцами Income и Expenses и индексами, соответствующими годам
def create_companyDF(income, expenses, years):
    df = pd.DataFrame({
        'Income': income,
        'Expenses': expenses
        },
        index = years
    )
    return df

# напишем функцию, которая возвращает разницу между доходом и расходом, записанными в таблице df, за год year
def get_profit(df, year):
    # для проверки вхождения запрашиваемого года в перечень индексов таблицы используем df.index, который возвращает список индексов таблицы.
    if year in df.index:
        profit = df.loc[year, 'Income'] - df.loc[year, 'Expenses']
    else:
        profit = None
    return profit

# у меня не работает этот код 

income = [478, 512, 196]
expenses = [156, 130, 270]
years = [2018, 2019, 2020]
#print(get_profit(create_companyDF, years))