In [1]:
import pandas as pd
import numpy as np

In [2]:
# создадим несколько списков и массивов Numpy с информацией о семи странах мира
country = np.array(['China', 'Vietnam', 'United Kingdom', 'Russia', 'Argentina', 'Bolivia', 'South Africa'])
capital = ['Beijing', 'Hanoi', 'London', 'Moscow', 'Buenos Aires', 'Sucre', 'Pretoria']
population = [1400, 97, 67, 144, 45, 12, 59] # млн. человек
area = [9.6, 0.3, 0.2, 17.1, 2.8, 1.1, 1.2] # млн. кв. км.
sea = [1] * 5 + [0, 1] # выход к морю (в этом списке его нет только у Боливии)
 
# кроме того создадим список кодов стран, которые станут индексом датафрейма
custom_index = ['CN', 'VN', 'GB', 'RU', 'AR', 'BO', 'ZA']
 
# создадим пустой словарь
countries_dict = {}
 
# превратим эти списки в значения словаря,
# одновременно снабдив необходимыми ключами
countries_dict['country'] = country
countries_dict['capital'] = capital
countries_dict['population'] = population
countries_dict['area'] = area
countries_dict['sea'] = sea
 
# создадим датафрейм
countries = pd.DataFrame(countries_dict, index = custom_index)
countries

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


### __Копирование DataFrame__

__Метод .copy()__

In [3]:
# Вначале создадим копию датафрейма с помощью простого присвоения этого объекта новой переменной.
countries_new = countries

In [4]:
# удалим строку с данными про Аргентину и выведем исходный DataFrame
countries_new.drop(labels = 'AR', axis = 0, inplace = True)
countries

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


__inplace__

In [5]:
df = pd.DataFrame([[1, 1, 1],
                   [2, 2, 2],
                   [3, 3, 3]],
                  columns = ['A', 'B', 'C'])

df

Unnamed: 0,A,B,C
0,1,1,1
1,2,2,2
2,3,3,3


In [6]:
# попробуем удалить столбец A
df.drop(labels = ['A'], axis = 1, inplace = False)

Unnamed: 0,B,C
0,1,1
1,2,2
2,3,3


In [7]:
# проверим сохранилось ли изменение 
df

Unnamed: 0,A,B,C
0,1,1,1
1,2,2,2
2,3,3,3


In [8]:
# если метод выдает None, изменение постоянно
# изменим параметр inplace на True 
df.drop(labels = ['A'], axis = 1, inplace = True)

In [9]:
df

Unnamed: 0,B,C
0,1,1
1,2,2
2,3,3


In [10]:
# нельзя использовать inplace = True, и записывать результат в переменную одновременно
df = df.drop(labels = ['B'], axis = 1, inplace = True)
print(df)

None


### __Столбцы DataFrame__

__Именнование столбцов при создании DataFrame__

In [11]:
# создадим список с названиями столбцов на кириллице
custom_columns = ['страна', 'столица', 'население', 'площадь', 'море']

arr = np.array([country, capital, population, area, sea]).T
arr

array([['China', 'Beijing', '1400', '9.6', '1'],
       ['Vietnam', 'Hanoi', '97', '0.3', '1'],
       ['United Kingdom', 'London', '67', '0.2', '1'],
       ['Russia', 'Moscow', '144', '17.1', '1'],
       ['Argentina', 'Buenos Aires', '45', '2.8', '1'],
       ['Bolivia', 'Sucre', '12', '1.1', '0'],
       ['South Africa', 'Pretoria', '59', '1.2', '1']], dtype='<U32')

In [12]:
# создадим датафрейм 
countries = pd.DataFrame(data = arr,
                         index = custom_index,
                         columns = custom_columns)

countries

Unnamed: 0,страна,столица,население,площадь,море
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


In [13]:
# вернем прежние названия столбцов
countries.columns = ['country', 'capital', 'population', 'area', 'sea']

In [14]:
countries

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


__Переименование столбцов__

In [15]:
# переименуем столбец capital на city 
countries.rename(columns = {'capital' : 'city'}, inplace = True)
countries

Unnamed: 0,country,city,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


__Тип данных в столбце__

In [16]:
countries.dtypes

country       object
city          object
population    object
area          object
sea           object
dtype: object

__Изменение типа данных__

In [17]:
countries = countries.astype({'area' : 'float', 'sea' : 'category', 'population' : 'int64'})

In [18]:
countries.dtypes

country         object
city            object
population       int64
area           float64
sea           category
dtype: object

__Тип данных category__ 

In [19]:
countries.sea

CN    1
VN    1
GB    1
RU    1
AR    1
BO    0
ZA    1
Name: sea, dtype: category
Categories (2, object): ['0', '1']

__Фильтр столбцов по типу данных__

In [20]:
# выберем только типы данных int и float 
countries.select_dtypes(include = ['int64', 'float64'])

Unnamed: 0,population,area
CN,1400,9.6
VN,97,0.3
GB,67,0.2
RU,144,17.1
AR,45,2.8
BO,12,1.1
ZA,59,1.2


In [21]:
# выберем все типы кроме object и category 
countries.select_dtypes(exclude = ['object', 'category'])

Unnamed: 0,population,area
CN,1400,9.6
VN,97,0.3
GB,67,0.2
RU,144,17.1
AR,45,2.8
BO,12,1.1
ZA,59,1.2


### __Добавление строк и столбцов__

__Добавление строк__

__Метод .append() + словарь__

In [22]:
# создадим словарь с данными Канады и добавим его в DataFrame
dict_ = {'country': 'Canada', 'city': 'Ottawa', 'population': 38, 'area': 10, 'sea': '1'}

# словарь можно добавлять только если ignore_index = True
countries = countries._append(dict_, ignore_index = True)
countries

Unnamed: 0,country,city,population,area,sea
0,China,Beijing,1400,9.6,1
1,Vietnam,Hanoi,97,0.3,1
2,United Kingdom,London,67,0.2,1
3,Russia,Moscow,144,17.1,1
4,Argentina,Buenos Aires,45,2.8,1
5,Bolivia,Sucre,12,1.1,0
6,South Africa,Pretoria,59,1.2,1
7,Canada,Ottawa,38,10.0,1


__Метод .append() + Series__

In [23]:
# причем, если передать список из Series, можно добавить сразу несколько строк
list_of_series = [pd.Series(['Spain', 'Madrid', 47, 0.5, 1], index = countries.columns),
                  pd.Series(['Netherlands', 'Amsterdam', 17, 0.04, 1], index = countries.columns)]
 
# нам по-прежнему необходим параметр ignore_index = True
# countries._append(list_of_series, ignore_index = True)
countries = pd.concat([countries, pd.DataFrame(list_of_series)], ignore_index=True)

countries

Unnamed: 0,country,city,population,area,sea
0,China,Beijing,1400,9.6,1
1,Vietnam,Hanoi,97,0.3,1
2,United Kingdom,London,67,0.2,1
3,Russia,Moscow,144,17.1,1
4,Argentina,Buenos Aires,45,2.8,1
5,Bolivia,Sucre,12,1.1,0
6,South Africa,Pretoria,59,1.2,1
7,Canada,Ottawa,38,10.0,1
8,Spain,Madrid,47,0.5,1
9,Netherlands,Amsterdam,17,0.04,1


__Метод .append() + другой DataFrame__

In [24]:
peru = pd.DataFrame({'country': 'Peru',
                     'city': 'Lima',
                     'population': [33],
                     'area': [1.3],
                     'sea': [1]})

peru

Unnamed: 0,country,city,population,area,sea
0,Peru,Lima,33,1.3,1


In [25]:
# перед добавлением выберем первую строку с помощью метода .iloc[]
countries._append(peru.iloc[0], ignore_index = True)

Unnamed: 0,country,city,population,area,sea
0,China,Beijing,1400,9.6,1
1,Vietnam,Hanoi,97,0.3,1
2,United Kingdom,London,67,0.2,1
3,Russia,Moscow,144,17.1,1
4,Argentina,Buenos Aires,45,2.8,1
5,Bolivia,Sucre,12,1.1,0
6,South Africa,Pretoria,59,1.2,1
7,Canada,Ottawa,38,10.0,1
8,Spain,Madrid,47,0.5,1
9,Netherlands,Amsterdam,17,0.04,1


__Использование .iloc[]__

Если вновь вывести то увидим что данные о перу не сохранились

In [26]:
countries

Unnamed: 0,country,city,population,area,sea
0,China,Beijing,1400,9.6,1
1,Vietnam,Hanoi,97,0.3,1
2,United Kingdom,London,67,0.2,1
3,Russia,Moscow,144,17.1,1
4,Argentina,Buenos Aires,45,2.8,1
5,Bolivia,Sucre,12,1.1,0
6,South Africa,Pretoria,59,1.2,1
7,Canada,Ottawa,38,10.0,1
8,Spain,Madrid,47,0.5,1
9,Netherlands,Amsterdam,17,0.04,1


In [27]:
# добавим данные об этих странах на постоянной основе с помощью метода 
# .iloc[] и посмотрим на результат
countries.iloc[9] = ['Peru', 'Lima', 33, 1.3, 1]

countries

Unnamed: 0,country,city,population,area,sea
0,China,Beijing,1400,9.6,1
1,Vietnam,Hanoi,97,0.3,1
2,United Kingdom,London,67,0.2,1
3,Russia,Moscow,144,17.1,1
4,Argentina,Buenos Aires,45,2.8,1
5,Bolivia,Sucre,12,1.1,0
6,South Africa,Pretoria,59,1.2,1
7,Canada,Ottawa,38,10.0,1
8,Spain,Madrid,47,0.5,1
9,Peru,Lima,33,1.3,1


В версии Pandas 2.0.0, которая была опубликована 3 апреля 2023 года, метод .append() был удален, и применение нижнего подчеркивания, хотя и позволяет выполнить присоединение строк, не является удачным решением.

### __Добавление столбцов__

__Объявление нового столбца__

In [28]:
# добавим столбец с данными о плотности населения
countries['pop_density'] = [153, 49, 281, 9, 17, 94, 508, 26, 32, 43]
countries

Unnamed: 0,country,city,population,area,sea,pop_density
0,China,Beijing,1400,9.6,1,153
1,Vietnam,Hanoi,97,0.3,1,49
2,United Kingdom,London,67,0.2,1,281
3,Russia,Moscow,144,17.1,1,9
4,Argentina,Buenos Aires,45,2.8,1,17
5,Bolivia,Sucre,12,1.1,0,94
6,South Africa,Pretoria,59,1.2,1,508
7,Canada,Ottawa,38,10.0,1,26
8,Spain,Madrid,47,0.5,1,32
9,Peru,Lima,33,1.3,1,43


__Метод .insert()__


In [29]:
# добавим еще один столбец
countries.insert(loc = 1, # это будет второй по счету столбец
                 column = 'code',
                 value = ['CN', 'VN', 'GB', 'RU', 'AR', 'BL', 'SA', 'CA', 'ES', 'PE'])

In [30]:
countries

Unnamed: 0,country,code,city,population,area,sea,pop_density
0,China,CN,Beijing,1400,9.6,1,153
1,Vietnam,VN,Hanoi,97,0.3,1,49
2,United Kingdom,GB,London,67,0.2,1,281
3,Russia,RU,Moscow,144,17.1,1,9
4,Argentina,AR,Buenos Aires,45,2.8,1,17
5,Bolivia,BL,Sucre,12,1.1,0,94
6,South Africa,SA,Pretoria,59,1.2,1,508
7,Canada,CA,Ottawa,38,10.0,1,26
8,Spain,ES,Madrid,47,0.5,1,32
9,Peru,PE,Lima,33,1.3,1,43


__Метод .assign()__

In [31]:
countries = countries.assign(area_miles = countries.area / 2.59).round(2)
countries

Unnamed: 0,country,code,city,population,area,sea,pop_density,area_miles
0,China,CN,Beijing,1400,9.6,1,153,3.71
1,Vietnam,VN,Hanoi,97,0.3,1,49,0.12
2,United Kingdom,GB,London,67,0.2,1,281,0.08
3,Russia,RU,Moscow,144,17.1,1,9,6.6
4,Argentina,AR,Buenos Aires,45,2.8,1,17,1.08
5,Bolivia,BL,Sucre,12,1.1,0,94,0.42
6,South Africa,SA,Pretoria,59,1.2,1,508,0.46
7,Canada,CA,Ottawa,38,10.0,1,26,3.86
8,Spain,ES,Madrid,47,0.5,1,32,0.19
9,Peru,PE,Lima,33,1.3,1,43,0.5


In [32]:
# удалим этот столбец, что бы рассмотреть другие методы
countries.drop(labels = 'area_miles', axis = 1, inplace = True)

Можно усложнить код и добиться такого же результата, применив методы .iterrows() и .iloc[].

In [33]:
# выведем индекс и содержание строк
for index, row in countries.iterrows():
    # запишем для каждой строки (штвуч) в новый столбец округленное значение в милях
    countries.loc[index, 'area_miles'] = np.round(row.area / 2.59, 2)

countries

Unnamed: 0,country,code,city,population,area,sea,pop_density,area_miles
0,China,CN,Beijing,1400,9.6,1,153,3.71
1,Vietnam,VN,Hanoi,97,0.3,1,49,0.12
2,United Kingdom,GB,London,67,0.2,1,281,0.08
3,Russia,RU,Moscow,144,17.1,1,9,6.6
4,Argentina,AR,Buenos Aires,45,2.8,1,17,1.08
5,Bolivia,BL,Sucre,12,1.1,0,94,0.42
6,South Africa,SA,Pretoria,59,1.2,1,508,0.46
7,Canada,CA,Ottawa,38,10.0,1,26,3.86
8,Spain,ES,Madrid,47,0.5,1,32,0.19
9,Peru,PE,Lima,33,1.3,1,43,0.5


In [34]:
# снова удалим этот столбец
countries.drop(labels = 'area_miles', axis = 1, inplace = True)

In [35]:
countries.head(3)

Unnamed: 0,country,code,city,population,area,sea,pop_density
0,China,CN,Beijing,1400,9.6,1,153
1,Vietnam,VN,Hanoi,97,0.3,1,49
2,United Kingdom,GB,London,67,0.2,1,281


In [36]:
# есть более просто способ добавления нового столбца
countries['area_miles'] = (countries.area /2.59).round(2)
countries

Unnamed: 0,country,code,city,population,area,sea,pop_density,area_miles
0,China,CN,Beijing,1400,9.6,1,153,3.71
1,Vietnam,VN,Hanoi,97,0.3,1,49,0.12
2,United Kingdom,GB,London,67,0.2,1,281,0.08
3,Russia,RU,Moscow,144,17.1,1,9,6.6
4,Argentina,AR,Buenos Aires,45,2.8,1,17,1.08
5,Bolivia,BL,Sucre,12,1.1,0,94,0.42
6,South Africa,SA,Pretoria,59,1.2,1,508,0.46
7,Canada,CA,Ottawa,38,10.0,1,26,3.86
8,Spain,ES,Madrid,47,0.5,1,32,0.19
9,Peru,PE,Lima,33,1.3,1,43,0.5


### __Удаление строк и столбцов__

__Удаление строк__

In [37]:
# удалим строки по индексу с помощью метода .drop()
countries.drop(labels = [0, 1], axis = 0)

Unnamed: 0,country,code,city,population,area,sea,pop_density,area_miles
2,United Kingdom,GB,London,67,0.2,1,281,0.08
3,Russia,RU,Moscow,144,17.1,1,9,6.6
4,Argentina,AR,Buenos Aires,45,2.8,1,17,1.08
5,Bolivia,BL,Sucre,12,1.1,0,94,0.42
6,South Africa,SA,Pretoria,59,1.2,1,508,0.46
7,Canada,CA,Ottawa,38,10.0,1,26,3.86
8,Spain,ES,Madrid,47,0.5,1,32,0.19
9,Peru,PE,Lima,33,1.3,1,43,0.5


In [38]:
# удалим строки с индексом 5 и 7
countries.drop(index = [5, 7])

Unnamed: 0,country,code,city,population,area,sea,pop_density,area_miles
0,China,CN,Beijing,1400,9.6,1,153,3.71
1,Vietnam,VN,Hanoi,97,0.3,1,49,0.12
2,United Kingdom,GB,London,67,0.2,1,281,0.08
3,Russia,RU,Moscow,144,17.1,1,9,6.6
4,Argentina,AR,Buenos Aires,45,2.8,1,17,1.08
6,South Africa,SA,Pretoria,59,1.2,1,508,0.46
8,Spain,ES,Madrid,47,0.5,1,32,0.19
9,Peru,PE,Lima,33,1.3,1,43,0.5


In [39]:
# мы так же можем в параметр index передать индекс датафрейма через атрибут index
countries.drop(index = countries.index[4])

Unnamed: 0,country,code,city,population,area,sea,pop_density,area_miles
0,China,CN,Beijing,1400,9.6,1,153,3.71
1,Vietnam,VN,Hanoi,97,0.3,1,49,0.12
2,United Kingdom,GB,London,67,0.2,1,281,0.08
3,Russia,RU,Moscow,144,17.1,1,9,6.6
5,Bolivia,BL,Sucre,12,1.1,0,94,0.42
6,South Africa,SA,Pretoria,59,1.2,1,508,0.46
7,Canada,CA,Ottawa,38,10.0,1,26,3.86
8,Spain,ES,Madrid,47,0.5,1,32,0.19
9,Peru,PE,Lima,33,1.3,1,43,0.5


In [40]:
# с атрибутом датафрейма index мы можем делать срезы
# удалим каждую вторую строку, начиная с четвертой с конца
countries.drop(index = countries.index[-4::2])

Unnamed: 0,country,code,city,population,area,sea,pop_density,area_miles
0,China,CN,Beijing,1400,9.6,1,153,3.71
1,Vietnam,VN,Hanoi,97,0.3,1,49,0.12
2,United Kingdom,GB,London,67,0.2,1,281,0.08
3,Russia,RU,Moscow,144,17.1,1,9,6.6
4,Argentina,AR,Buenos Aires,45,2.8,1,17,1.08
5,Bolivia,BL,Sucre,12,1.1,0,94,0.42
7,Canada,CA,Ottawa,38,10.0,1,26,3.86
9,Peru,PE,Lima,33,1.3,1,43,0.5


__Удаление столбцов__

In [41]:
countries.drop(labels = ['area_miles', 'code'], axis = 1)

Unnamed: 0,country,city,population,area,sea,pop_density
0,China,Beijing,1400,9.6,1,153
1,Vietnam,Hanoi,97,0.3,1,49
2,United Kingdom,London,67,0.2,1,281
3,Russia,Moscow,144,17.1,1,9
4,Argentina,Buenos Aires,45,2.8,1,17
5,Bolivia,Sucre,12,1.1,0,94
6,South Africa,Pretoria,59,1.2,1,508
7,Canada,Ottawa,38,10.0,1,26
8,Spain,Madrid,47,0.5,1,32
9,Peru,Lima,33,1.3,1,43


In [42]:
# аналогичный результат можно получить передав список удаляемых столбцов в параметр columns
countries.drop(columns = ['area_miles', 'code'])

Unnamed: 0,country,city,population,area,sea,pop_density
0,China,Beijing,1400,9.6,1,153
1,Vietnam,Hanoi,97,0.3,1,49
2,United Kingdom,London,67,0.2,1,281
3,Russia,Moscow,144,17.1,1,9
4,Argentina,Buenos Aires,45,2.8,1,17
5,Bolivia,Sucre,12,1.1,0,94
6,South Africa,Pretoria,59,1.2,1,508
7,Canada,Ottawa,38,10.0,1,26
8,Spain,Madrid,47,0.5,1,32
9,Peru,Lima,33,1.3,1,43


In [43]:
countries

Unnamed: 0,country,code,city,population,area,sea,pop_density,area_miles
0,China,CN,Beijing,1400,9.6,1,153,3.71
1,Vietnam,VN,Hanoi,97,0.3,1,49,0.12
2,United Kingdom,GB,London,67,0.2,1,281,0.08
3,Russia,RU,Moscow,144,17.1,1,9,6.6
4,Argentina,AR,Buenos Aires,45,2.8,1,17,1.08
5,Bolivia,BL,Sucre,12,1.1,0,94,0.42
6,South Africa,SA,Pretoria,59,1.2,1,508,0.46
7,Canada,CA,Ottawa,38,10.0,1,26,3.86
8,Spain,ES,Madrid,47,0.5,1,32,0.19
9,Peru,PE,Lima,33,1.3,1,43,0.5


In [44]:
# удалим последний столбец
countries.drop(columns = countries.columns[-1])

Unnamed: 0,country,code,city,population,area,sea,pop_density
0,China,CN,Beijing,1400,9.6,1,153
1,Vietnam,VN,Hanoi,97,0.3,1,49
2,United Kingdom,GB,London,67,0.2,1,281
3,Russia,RU,Moscow,144,17.1,1,9
4,Argentina,AR,Buenos Aires,45,2.8,1,17
5,Bolivia,BL,Sucre,12,1.1,0,94
6,South Africa,SA,Pretoria,59,1.2,1,508
7,Canada,CA,Ottawa,38,10.0,1,26
8,Spain,ES,Madrid,47,0.5,1,32
9,Peru,PE,Lima,33,1.3,1,43


In [45]:
# удалим пятую строку и несколько столбцов и сохраним изменения
countries.drop(index = 4, inplace = True)
countries.drop(columns = ['code', 'pop_density', 'area_miles'], inplace = True)
countries

Unnamed: 0,country,city,population,area,sea
0,China,Beijing,1400,9.6,1
1,Vietnam,Hanoi,97,0.3,1
2,United Kingdom,London,67,0.2,1
3,Russia,Moscow,144,17.1,1
5,Bolivia,Sucre,12,1.1,0
6,South Africa,Pretoria,59,1.2,1
7,Canada,Ottawa,38,10.0,1
8,Spain,Madrid,47,0.5,1
9,Peru,Lima,33,1.3,1


__Удаление по многоуровневому индексу__


In [46]:
# создадим несколько списков и массивов Numpy с информацией о семи странах мира
country = np.array(['China', 'Vietnam', 'United Kingdom', 'Russia', 'Argentina', 'Bolivia', 'South Africa'])
capital = ['Beijing', 'Hanoi', 'London', 'Moscow', 'Buenos Aires', 'Sucre', 'Pretoria']
population = [1400, 97, 67, 144, 45, 12, 59] # млн. человек
area = [9.6, 0.3, 0.2, 17.1, 2.8, 1.1, 1.2] # млн. кв. км.
sea = [1] * 5 + [0, 1] # выход к морю (в этом списке его нет только у Боливии)
 
# кроме того создадим список кодов стран, которые станут индексом датафрейма
custom_index = ['CN', 'VN', 'GB', 'RU', 'AR', 'BO', 'ZA']
 
# создадим пустой словарь
countries_dict = {}
 
# превратим эти списки в значения словаря,
# одновременно снабдив необходимыми ключами
countries_dict['country'] = country
countries_dict['capital'] = capital
countries_dict['population'] = population
countries_dict['area'] = area
countries_dict['sea'] = sea
 
# создадим датафрейм
countries = pd.DataFrame(countries_dict, index = custom_index)

# подготовим данные для многоуровневого индекса строк
rows = [('Asia', 'CN'),
        ('Asia', 'VN'),
        ('Europe', 'GB'),
        ('Europe', 'RU'),
        ('Europe', 'ES'),
        ('Europe', 'NL'),
        ('S. America', 'PE')]
 
# и столбцов
cols = [('names', 'country'),
        ('names', 'city'),
        ('data', 'population'),
        ('data', 'area'),
        ('data', 'sea')]

# создадим многоуровневый (иерархический) индекс
# для индекса строк добавим названия столбцов индекса через параметр names
custom_multindex = pd.MultiIndex.from_tuples(rows, names = ['region', 'code'])
custom_multicols = pd.MultiIndex.from_tuples(cols)
 
# поместим индексы в атрибуты index и columns датафрейма
countries.index = custom_multindex
countries.columns = custom_multicols
 
# посмотрим на результат
countries

Unnamed: 0_level_0,Unnamed: 1_level_0,names,names,data,data,data
Unnamed: 0_level_1,Unnamed: 1_level_1,country,city,population,area,sea
region,code,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Asia,CN,China,Beijing,1400,9.6,1
Asia,VN,Vietnam,Hanoi,97,0.3,1
Europe,GB,United Kingdom,London,67,0.2,1
Europe,RU,Russia,Moscow,144,17.1,1
Europe,ES,Argentina,Buenos Aires,45,2.8,1
Europe,NL,Bolivia,Sucre,12,1.1,0
S. America,PE,South Africa,Pretoria,59,1.2,1


__Удаление строк__

In [47]:
# удалим азиатский регион
# Воспользуемся методом .drop(), которому передадим параметр labels = 'Asia', укажем удаляем строки axis = 0,
# а так же укажем что Азия находится в индексе по названием region (level = 0)
countries.drop(labels = 'Asia', axis = 0, level = 0)

Unnamed: 0_level_0,Unnamed: 1_level_0,names,names,data,data,data
Unnamed: 0_level_1,Unnamed: 1_level_1,country,city,population,area,sea
region,code,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Europe,GB,United Kingdom,London,67,0.2,1
Europe,RU,Russia,Moscow,144,17.1,1
Europe,ES,Argentina,Buenos Aires,45,2.8,1
Europe,NL,Bolivia,Sucre,12,1.1,0
S. America,PE,South Africa,Pretoria,59,1.2,1


In [48]:
# удалим запись о России по ее индексу в столбце code (т.е. level = 1)
countries.drop(index = 'RU', level = 1)

Unnamed: 0_level_0,Unnamed: 1_level_0,names,names,data,data,data
Unnamed: 0_level_1,Unnamed: 1_level_1,country,city,population,area,sea
region,code,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Asia,CN,China,Beijing,1400,9.6,1
Asia,VN,Vietnam,Hanoi,97,0.3,1
Europe,GB,United Kingdom,London,67,0.2,1
Europe,ES,Argentina,Buenos Aires,45,2.8,1
Europe,NL,Bolivia,Sucre,12,1.1,0
S. America,PE,South Africa,Pretoria,59,1.2,1


__Удаление столбцов__ 

In [49]:
 # Передадим методу .drop() параметры labels, level и axis = 1 для удаления столбца по его наименованию (labels) на нужном нам уровне (level) индекса.


In [50]:
# удалим все столбцы в разделе names на нулевом уровне индекса столбцов
countries.drop(labels = 'names', level = 0, axis = 1)

Unnamed: 0_level_0,Unnamed: 1_level_0,data,data,data
Unnamed: 0_level_1,Unnamed: 1_level_1,population,area,sea
region,code,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Asia,CN,1400,9.6,1
Asia,VN,97,0.3,1
Europe,GB,67,0.2,1
Europe,RU,144,17.1,1
Europe,ES,45,2.8,1
Europe,NL,12,1.1,0
S. America,PE,59,1.2,1


In [51]:
# удалим столбцы city и area на втором уровне индекса (level - 1)
countries.drop(columns = ['city', 'area'], level = 1)

Unnamed: 0_level_0,Unnamed: 1_level_0,names,data,data
Unnamed: 0_level_1,Unnamed: 1_level_1,country,population,sea
region,code,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Asia,CN,China,1400,1
Asia,VN,Vietnam,97,1
Europe,GB,United Kingdom,67,1
Europe,RU,Russia,144,1
Europe,ES,Argentina,45,1
Europe,NL,Bolivia,12,0
S. America,PE,South Africa,59,1


### __Применение функций__

In [52]:
people = pd.DataFrame({'name': ['Алексей', 'Иван', 'Анна', 'Ольга', 'Николай'],
                       'gender': [1, 1, 0, 2, 1],
                       'age': [35, 20, 13, 28, 16],
                       'height': [180.46, 182.26, 165.12, 168.04, 178.68],
                       'weight': [73.61, 75.34, 50.22, 52.14, 69.72],
                      })

people

Unnamed: 0,name,gender,age,height,weight
0,Алексей,1,35,180.46,73.61
1,Иван,1,20,182.26,75.34
2,Анна,0,13,165.12,50.22
3,Ольга,2,28,168.04,52.14
4,Николай,1,16,178.68,69.72


__Метод .map()__

In [53]:
# map это карта представляющая собой питоновский словарь, где ключи старые данные, а значения - новые
gender_map = {0: 'female', 1: 'male'}
people['gender'] = people['gender'].map(gender_map)

people

Unnamed: 0,name,gender,age,height,weight
0,Алексей,male,35,180.46,73.61
1,Иван,male,20,182.26,75.34
2,Анна,female,13,165.12,50.22
3,Ольга,,28,168.04,52.14
4,Николай,male,16,178.68,69.72


В метод .map() мы можем передать и lambda-функцию.


In [54]:
# например, для того, чтобы выявить совершеннолетних и несовершеннолетних людей
people['age_group'] = people['age'].map(lambda x: 'adult' if x >= 18 else 'minor')
people

Unnamed: 0,name,gender,age,height,weight,age_group
0,Алексей,male,35,180.46,73.61,adult
1,Иван,male,20,182.26,75.34,adult
2,Анна,female,13,165.12,50.22,minor
3,Ольга,,28,168.04,52.14,adult
4,Николай,male,16,178.68,69.72,minor


In [55]:
# удалим только что созданный столбец age_group
people.drop(labels = 'age_group', axis = 1, inplace = True)
people

Unnamed: 0,name,gender,age,height,weight
0,Алексей,male,35,180.46,73.61
1,Иван,male,20,182.26,75.34
2,Анна,female,13,165.12,50.22
3,Ольга,,28,168.04,52.14
4,Николай,male,16,178.68,69.72


In [56]:
# для более сложных преобразований можно использовать обычную функцию
def get_age_group(age):
    threshold = 18
    if age >= threshold:
        age_group = 'adult'
    else:
        age_group = 'minor'
    
    return age_group

In [57]:
people['age_group'] = people['age'].map(get_age_group)
people

Unnamed: 0,name,gender,age,height,weight,age_group
0,Алексей,male,35,180.46,73.61,adult
1,Иван,male,20,182.26,75.34,adult
2,Анна,female,13,165.12,50.22,minor
3,Ольга,,28,168.04,52.14,adult
4,Николай,male,16,178.68,69.72,minor


In [58]:
# удалим созданный столбец
people.drop(labels = 'age_group', axis = 1, inplace = True)
people

Unnamed: 0,name,gender,age,height,weight
0,Алексей,male,35,180.46,73.61
1,Иван,male,20,182.26,75.34
2,Анна,female,13,165.12,50.22
3,Ольга,,28,168.04,52.14
4,Николай,male,16,178.68,69.72
