In [173]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

In [174]:
# создадим несколько списков и массивов Numpy с информацией о семи странах мира
country = np.array(['China', 'Vietnam', 'United Kingdom', 'Russia', 'Argentina', 'Bolivia', 'South Africa'])
capital = ['Beijing', 'Hanoi', 'London', 'Moscow', 'Buenos Aires', 'Sucre', 'Pretoria']
population = [1400, 97, 67, 144, 45, 12, 59] # млн. человек
area = [9.6, 0.3, 0.2, 17.1, 2.8, 1.1, 1.2] # млн. кв. км.
sea = [1] * 5 + [0, 1] # выход к морю (в этом списке его нет только у Боливии)
 
# кроме того создадим список кодов стран, которые станут индексом датафрейма
custom_index = ['CN', 'VN', 'GB', 'RU', 'AR', 'BO', 'ZA']
 
# создадим пустой словарь
countries_dict = {}
 
# превратим эти списки в значения словаря,
# одновременно снабдив необходимыми ключами
countries_dict['country'] = country
countries_dict['capital'] = capital
countries_dict['population'] = population
countries_dict['area'] = area
countries_dict['sea'] = sea
 
# создадим датафрейм
countries = pd.DataFrame(countries_dict, index = custom_index)
countries

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


In [175]:
# Копирование датафрейма

In [176]:
# создадим копию, на этот раз с помощью метода .copy()
countries_new = countries.copy()
 
# вновь удалим запись про Аргентину
countries_new.drop(labels = 'AR', axis = 0, inplace = True)
 
# выведем исходный датафрейм
countries

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


In [177]:
countries_new

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


In [178]:
# параметр inplace

In [179]:
df = pd.DataFrame([[1, 1, 1],
                   [2, 2, 2],
                   [3, 3, 3]],
                   columns = ['A', 'B', 'C'])
 
df

Unnamed: 0,A,B,C
0,1,1,1
1,2,2,2
2,3,3,3


In [180]:
# попробуем удалить столбец A
df.drop(labels = ['A'], axis = 1)

Unnamed: 0,B,C
0,1,1
1,2,2
2,3,3


In [181]:
df

Unnamed: 0,A,B,C
0,1,1,1
1,2,2,2
2,3,3,3


In [182]:
# изменим параметр inplace на True
print(df.drop(labels = ['A'], axis = 1, inplace = True))

None


In [183]:
df

Unnamed: 0,B,C
0,1,1
1,2,2
2,3,3


In [184]:
# Столбцы датафрейма

In [185]:
# Именование столбцов при создании датафрейма

In [186]:
custom_columns = ['страна', 'столица', 'население', 'площадь', 'море']
arr = np.array([country, capital, population, area, sea]).T
arr

array([['China', 'Beijing', '1400', '9.6', '1'],
       ['Vietnam', 'Hanoi', '97', '0.3', '1'],
       ['United Kingdom', 'London', '67', '0.2', '1'],
       ['Russia', 'Moscow', '144', '17.1', '1'],
       ['Argentina', 'Buenos Aires', '45', '2.8', '1'],
       ['Bolivia', 'Sucre', '12', '1.1', '0'],
       ['South Africa', 'Pretoria', '59', '1.2', '1']], dtype='<U32')

In [187]:
countries = pd.DataFrame(data = arr,
                         index = custom_index,
                         columns = custom_columns)
 
countries

Unnamed: 0,страна,столица,население,площадь,море
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


In [188]:
countries.columns = ['country', 'capital', 'population', 'area', 'sea']

In [189]:
countries

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


In [190]:
# Переименование столбцов

In [191]:
# переименуем столбец capital на city
countries.rename(columns = {'capital': 'city'}, inplace = True)
countries

Unnamed: 0,country,city,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


In [192]:
# Тип данных в столбце

In [193]:
countries.dtypes

country       object
city          object
population    object
area          object
sea           object
dtype: object

In [194]:
# Изменение типа данных

In [195]:
# преобразуем тип данных столбца population в int
countries.population = countries.population.astype('int')

In [196]:
countries.dtypes

country       object
city          object
population     int32
area          object
sea           object
dtype: object

In [197]:
# изменим тип данных в столбцах area и sea
countries = countries.astype({'area': 'float', 'sea' : 'category'})

In [198]:
countries.dtypes

country         object
city            object
population       int32
area           float64
sea           category
dtype: object

In [199]:
# Тип данных category

In [200]:
# в category содержится информация об имеющихся в столбце категориях
countries.sea

CN    1
VN    1
GB    1
RU    1
AR    1
BO    0
ZA    1
Name: sea, dtype: category
Categories (2, object): ['0', '1']

In [201]:
# Фильтр столбцов по типу данных

In [202]:
# выберем только типы данных int и float
countries.select_dtypes(include = ['int32', 'float64'])

Unnamed: 0,population,area
CN,1400,9.6
VN,97,0.3
GB,67,0.2
RU,144,17.1
AR,45,2.8
BO,12,1.1
ZA,59,1.2


In [203]:
# выберем все типы данных, кроме object и category
countries.select_dtypes(exclude = ['object', 'category'])

Unnamed: 0,population,area
CN,1400,9.6
VN,97,0.3
GB,67,0.2
RU,144,17.1
AR,45,2.8
BO,12,1.1
ZA,59,1.2


In [204]:
# Добавление строк и столбцов

In [205]:
# Добавление строк

In [206]:
# Метод .append() + словарь

In [207]:
countries

Unnamed: 0,country,city,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


In [208]:
# создадим словарь с данными Канады и добавим его в датафрейм
dict = [{'country': 'Canada', 'city': 'Ottawa', 'population': 38, 'area': 10, 'sea' : '1'}]
can_df = pd.DataFrame.from_dict(dict)
countries = pd.concat([countries,can_df])
countries.reset_index(drop=True)
# словарь можно добавлять только если ignore_index = True
# countries = countries.append(dict, ignore_index = True)
# countries

Unnamed: 0,country,city,population,area,sea
0,China,Beijing,1400,9.6,1
1,Vietnam,Hanoi,97,0.3,1
2,United Kingdom,London,67,0.2,1
3,Russia,Moscow,144,17.1,1
4,Argentina,Buenos Aires,45,2.8,1
5,Bolivia,Sucre,12,1.1,0
6,South Africa,Pretoria,59,1.2,1
7,Canada,Ottawa,38,10.0,1


In [209]:
# причем, если передать список из Series, можно добавить сразу несколько строк
# list_of_series = [pd.Series(['Spain', 'Madrid', 47, 0.5, 1], index = countries.columns),
#                   pd.Series(['Netherlands', 'Amsterdam', 17, 0.04, 1], index = countries.columns)]

# нам по-прежнему необходим параметр ignore_index = True
# countries.append(list_of_series, ignore_index = True)
# countries

In [210]:
# Метод .append() + другой датафрейм

In [211]:
# новая строка может также содержаться в другом датафрейме
# обратите внимание, что числовые значения мы помещаем в списки
peru = pd.DataFrame({'country' : 'Peru',
                     'city' : 'Lima',
                     'population': [33],
                     'area' : [1.3],
                     'sea' : [1]})
peru

Unnamed: 0,country,city,population,area,sea
0,Peru,Lima,33,1.3,1


In [212]:
# перед добавлением выберем первую строку с помощью метода .iloc[]
countries = pd.concat([countries,peru], ignore_index = True)
countries

Unnamed: 0,country,city,population,area,sea
0,China,Beijing,1400,9.6,1
1,Vietnam,Hanoi,97,0.3,1
2,United Kingdom,London,67,0.2,1
3,Russia,Moscow,144,17.1,1
4,Argentina,Buenos Aires,45,2.8,1
5,Bolivia,Sucre,12,1.1,0
6,South Africa,Pretoria,59,1.2,1
7,Canada,Ottawa,38,10.0,1
8,Peru,Lima,33,1.3,1


In [213]:
# Использование .iloc[]

In [214]:
# для этого нам надо было либо перезаписать результат метода .append() в переменную countries,
# либо использовать параметр inplace = True.
countries.reset_index(drop=True, inplace=True)
countries['sea'] = countries['sea'].astype('object')
countries

Unnamed: 0,country,city,population,area,sea
0,China,Beijing,1400,9.6,1
1,Vietnam,Hanoi,97,0.3,1
2,United Kingdom,London,67,0.2,1
3,Russia,Moscow,144,17.1,1
4,Argentina,Buenos Aires,45,2.8,1
5,Bolivia,Sucre,12,1.1,0
6,South Africa,Pretoria,59,1.2,1
7,Canada,Ottawa,38,10.0,1
8,Peru,Lima,33,1.3,1


In [215]:
countries.iloc[[4, 5, 6]] = [['Spain', 'Madrid', 47, 0.5, 1],
                             ['Netherlands', 'Amsterdam', 17, 0.04, 1],
                             ['Peru', 'Lima', 33, 1.3, 1]]
 
countries

Unnamed: 0,country,city,population,area,sea
0,China,Beijing,1400,9.6,1
1,Vietnam,Hanoi,97,0.3,1
2,United Kingdom,London,67,0.2,1
3,Russia,Moscow,144,17.1,1
4,Spain,Madrid,47,0.5,1
5,Netherlands,Amsterdam,17,0.04,1
6,Peru,Lima,33,1.3,1
7,Canada,Ottawa,38,10.0,1
8,Peru,Lima,33,1.3,1


In [216]:
#Добавление столбцов

In [217]:
# Объявление нового столбца

In [220]:
# например, добавим данные о плотности населения
countries['pop_density'] = [153, 49, 281, 9, 17, 94, 508,205,301]
countries

Unnamed: 0,country,city,population,area,sea,pop_density
0,China,Beijing,1400,9.6,1,153
1,Vietnam,Hanoi,97,0.3,1,49
2,United Kingdom,London,67,0.2,1,281
3,Russia,Moscow,144,17.1,1,9
4,Spain,Madrid,47,0.5,1,17
5,Netherlands,Amsterdam,17,0.04,1,94
6,Peru,Lima,33,1.3,1,508
7,Canada,Ottawa,38,10.0,1,205
8,Peru,Lima,33,1.3,1,301


In [None]:
# Метод .insert()
# Добавим столбец с кодами стран с помощью метода .insert().

In [None]:
countries.insert(loc = 1, # это будет второй по счету столбец
                 column = 'code', # название столбца
                 value = ['CN', 'VN', 'GB', 'RU', 'ES', 'NL', 'PE']) # значения столбца


In [None]:
countries

Unnamed: 0,country,code,city,population,area,sea,pop_density
0,China,CN,Beijing,1400,9.6,1,153
1,Vietnam,VN,Hanoi,97,0.3,1,49
2,United Kingdom,GB,London,67,0.2,1,281
3,Russia,RU,Moscow,144,17.1,1,9
4,Spain,ES,Madrid,47,0.5,1,17
5,Netherlands,NL,Amsterdam,17,0.04,1,94
6,Peru,PE,Lima,33,1.3,1,508


In [None]:
# Метод .assign()

In [None]:
countries = countries.assign(area_miles = countries.area / 2.59).round(2)
countries

Unnamed: 0,country,code,city,population,area,sea,pop_density,area_miles
0,China,CN,Beijing,1400,9.6,1,153,3.71
1,Vietnam,VN,Hanoi,97,0.3,1,49,0.12
2,United Kingdom,GB,London,67,0.2,1,281,0.08
3,Russia,RU,Moscow,144,17.1,1,9,6.6
4,Spain,ES,Madrid,47,0.5,1,17,0.19
5,Netherlands,NL,Amsterdam,17,0.04,1,94,0.02
6,Peru,PE,Lima,33,1.3,1,508,0.5


In [None]:
countries.drop(labels = 'area_miles', axis = 1, inplace = True)

In [None]:
# выведем индекс и содержание строк
for index, row in countries.iterrows():
  # запишем для каждой строки (index) в новый столбец area_miles
  # округленное значение площади row.area в милях
  countries.loc[index, 'area_miles'] = np.round(row.area / 2.59, 2)
 
# посмотрим на результат
countries

Unnamed: 0,country,code,city,population,area,sea,pop_density,area_miles
0,China,CN,Beijing,1400,9.6,1,153,3.71
1,Vietnam,VN,Hanoi,97,0.3,1,49,0.12
2,United Kingdom,GB,London,67,0.2,1,281,0.08
3,Russia,RU,Moscow,144,17.1,1,9,6.6
4,Spain,ES,Madrid,47,0.5,1,17,0.19
5,Netherlands,NL,Amsterdam,17,0.04,1,94,0.02
6,Peru,PE,Lima,33,1.3,1,508,0.5


In [None]:
# снова удалим этот столбец
countries.drop(labels = 'area_miles', axis = 1, inplace = True)

In [None]:
# мы можем объявить столбец и присвоить ему нужно нам значение
countries['area_miles'] = (countries.area / 2.59).round(2)
countries

Unnamed: 0,country,code,city,population,area,sea,pop_density,area_miles
0,China,CN,Beijing,1400,9.6,1,153,3.71
1,Vietnam,VN,Hanoi,97,0.3,1,49,0.12
2,United Kingdom,GB,London,67,0.2,1,281,0.08
3,Russia,RU,Moscow,144,17.1,1,9,6.6
4,Spain,ES,Madrid,47,0.5,1,17,0.19
5,Netherlands,NL,Amsterdam,17,0.04,1,94,0.02
6,Peru,PE,Lima,33,1.3,1,508,0.5


In [None]:
# Удаление строк и столбцов

In [None]:
# удалим строки с индексом 0 и 1
countries.drop(labels = [0, 1], axis = 0)

Unnamed: 0,country,code,city,population,area,sea,pop_density,area_miles
2,United Kingdom,GB,London,67,0.2,1,281,0.08
3,Russia,RU,Moscow,144,17.1,1,9,6.6
4,Spain,ES,Madrid,47,0.5,1,17,0.19
5,Netherlands,NL,Amsterdam,17,0.04,1,94,0.02
6,Peru,PE,Lima,33,1.3,1,508,0.5


In [None]:
# удалим строки с индексом 5 и 7
countries.drop(index = [5, 6])

Unnamed: 0,country,code,city,population,area,sea,pop_density,area_miles
0,China,CN,Beijing,1400,9.6,1,153,3.71
1,Vietnam,VN,Hanoi,97,0.3,1,49,0.12
2,United Kingdom,GB,London,67,0.2,1,281,0.08
3,Russia,RU,Moscow,144,17.1,1,9,6.6
4,Spain,ES,Madrid,47,0.5,1,17,0.19


In [None]:
# удалим четвертую строку
countries.drop(index = countries.index[4])

Unnamed: 0,country,code,city,population,area,sea,pop_density,area_miles
0,China,CN,Beijing,1400,9.6,1,153,3.71
1,Vietnam,VN,Hanoi,97,0.3,1,49,0.12
2,United Kingdom,GB,London,67,0.2,1,281,0.08
3,Russia,RU,Moscow,144,17.1,1,9,6.6
5,Netherlands,NL,Amsterdam,17,0.04,1,94,0.02
6,Peru,PE,Lima,33,1.3,1,508,0.5


In [None]:
# удалим каждую вторую строку, начиная с четвертой с конца
countries.drop(index = countries.index[-4::2])

Unnamed: 0,country,code,city,population,area,sea,pop_density,area_miles
0,China,CN,Beijing,1400,9.6,1,153,3.71
1,Vietnam,VN,Hanoi,97,0.3,1,49,0.12
2,United Kingdom,GB,London,67,0.2,1,281,0.08
4,Spain,ES,Madrid,47,0.5,1,17,0.19
6,Peru,PE,Lima,33,1.3,1,508,0.5


In [None]:
# Удаление столбцов

In [None]:
# удалим столбцы area_miles и code
countries.drop(labels = ['area_miles', 'code'], axis = 1)

Unnamed: 0,country,city,population,area,sea,pop_density
0,China,Beijing,1400,9.6,1,153
1,Vietnam,Hanoi,97,0.3,1,49
2,United Kingdom,London,67,0.2,1,281
3,Russia,Moscow,144,17.1,1,9
4,Spain,Madrid,47,0.5,1,17
5,Netherlands,Amsterdam,17,0.04,1,94
6,Peru,Lima,33,1.3,1,508


In [None]:
# снова удалим столбцы area_miles и code
countries.drop(columns = ['area_miles', 'code'])

Unnamed: 0,country,city,population,area,sea,pop_density
0,China,Beijing,1400,9.6,1,153
1,Vietnam,Hanoi,97,0.3,1,49
2,United Kingdom,London,67,0.2,1,281
3,Russia,Moscow,144,17.1,1,9
4,Spain,Madrid,47,0.5,1,17
5,Netherlands,Amsterdam,17,0.04,1,94
6,Peru,Lima,33,1.3,1,508


In [None]:
# удалим последний столбец (area_miles)
countries.drop(columns = countries.columns[-1])

Unnamed: 0,country,code,city,population,area,sea,pop_density
0,China,CN,Beijing,1400,9.6,1,153
1,Vietnam,VN,Hanoi,97,0.3,1,49
2,United Kingdom,GB,London,67,0.2,1,281
3,Russia,RU,Moscow,144,17.1,1,9
4,Spain,ES,Madrid,47,0.5,1,17
5,Netherlands,NL,Amsterdam,17,0.04,1,94
6,Peru,PE,Lima,33,1.3,1,508


In [None]:
countries.drop(index = 4, inplace = True)
countries.drop(columns = ['code', 'pop_density', 'area_miles'], inplace = True)
countries

Unnamed: 0,country,city,population,area,sea
0,China,Beijing,1400,9.6,1
1,Vietnam,Hanoi,97,0.3,1
2,United Kingdom,London,67,0.2,1
3,Russia,Moscow,144,17.1,1
5,Netherlands,Amsterdam,17,0.04,1
6,Peru,Lima,33,1.3,1


In [None]:
# Удаление по многоуровнему индексу

In [221]:
# подготовим данные для многоуровневого индекса строк
rows = [('Asia', 'CN'),
        ('Asia', 'VN'),
        ('Europe', 'GB'),
        ('Europe', 'RU'),
        ('Europe', 'ES'),
        ('Europe', 'NL'),
        ('S. America', 'PE')]
 
# и столбцов
cols = [('names', 'country'),
        ('names', 'city'),
        ('data', 'population'),
        ('data', 'area'),
        ('data', 'sea')]
 
# создадим многоуровневый (иерархический) индекс
# для индекса строк добавим названия столбцов индекса через параметр names
custom_multindex = pd.MultiIndex.from_tuples(rows, names = ['region', 'code'])
custom_multicols = pd.MultiIndex.from_tuples(cols)
 
# поместим индексы в атрибуты index и columns датафрейма
countries.index = custom_multindex
countries.columns = custom_multicols
 
# посмотрим на результат
countries

ValueError: Length mismatch: Expected axis has 9 elements, new values have 7 elements