# Общая численность населения

In [1]:
import pandas as pd

from warnings import simplefilter
simplefilter('ignore')

Эти данные можно найти на сайте "Группы Всемирного банка" по ссылке

https://data.worldbank.org/indicator/SP.POP.TOTL?end=2020&most_recent_year_desc=true&start=2000

In [2]:
# Загрузим таблицу
data = pd.read_csv('../data/worldbank_population.csv')

data.head(2)

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1960,1961,1962,1963,1964,1965,...,2015,2016,2017,2018,2019,2020,2021,2022,2023,Unnamed: 68
0,Aruba,ABW,"Population, total",SP.POP.TOTL,54922.0,55578.0,56320.0,57002.0,57619.0,58190.0,...,107906.0,108727.0,108735.0,108908.0,109203.0,108587.0,107700.0,107310.0,107359.0,
1,Africa Eastern and Southern,AFE,"Population, total",SP.POP.TOTL,130072080.0,133534923.0,137171659.0,140945536.0,144904094.0,149033472.0,...,607123269.0,623369401.0,640058741.0,657801085.0,675950189.0,694446100.0,713090928.0,731821393.0,750503764.0,


In [3]:
# Выведем список столбцов
data.columns

Index(['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code',
       '1960', '1961', '1962', '1963', '1964', '1965', '1966', '1967', '1968',
       '1969', '1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977',
       '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986',
       '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995',
       '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004',
       '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013',
       '2014', '2015', '2016', '2017', '2018', '2019', '2020', '2021', '2022',
       '2023', 'Unnamed: 68'],
      dtype='object')

Нам нужны данные только за 2000 - 2020 гг.\
Удалим лишние столбцы.

In [4]:
data.drop(
    columns=[
        'Country Name', 'Indicator Name', 'Indicator Code',
        '1960', '1961', '1962', '1963', '1964', '1965', '1966', '1967', '1968',
        '1969', '1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977',
        '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986',
        '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995',
        '1996', '1997', '1998', '1999', '2021', '2022', '2023', 'Unnamed: 68',
    ],
    inplace=True,
)

data.head()

Unnamed: 0,Country Code,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
0,ABW,90588.0,91439.0,92074.0,93128.0,95138.0,97635.0,99405.0,100150.0,100917.0,...,102591.0,104110.0,105675.0,106807.0,107906.0,108727.0,108735.0,108908.0,109203.0,108587.0
1,AFE,406156661.0,416807868.0,427820358.0,439173286.0,450928044.0,463076637.0,475606210.0,488580707.0,502070763.0,...,544737983.0,559609961.0,575202699.0,590968990.0,607123269.0,623369401.0,640058741.0,657801085.0,675950189.0,694446100.0
2,AFG,20130327.0,20284307.0,21378117.0,22733049.0,23560654.0,24404567.0,25424094.0,25909852.0,26482622.0,...,29347708.0,30560034.0,31622704.0,32792523.0,33831764.0,34700612.0,35688935.0,36743039.0,37856121.0,39068979.0
3,AFW,274968446.0,282780717.0,290841795.0,299142845.0,307725100.0,316588476.0,325663158.0,334984176.0,344586109.0,...,374790143.0,385360349.0,396030207.0,406992047.0,418127845.0,429454743.0,440882906.0,452195915.0,463365429.0,474569351.0
4,AGO,16194869.0,16747208.0,17327699.0,17943712.0,18600423.0,19291161.0,20015279.0,20778561.0,21578655.0,...,24218352.0,25177394.0,26165620.0,27160769.0,28157798.0,29183070.0,30234839.0,31297155.0,32375632.0,33451132.0


Здесь в столбцах:

- `Country Code` - код страны
- `2000 - 2020` - общая численность населения за соответствующие годы

Оставим здесь только те страны, которые используем в основной таблице.

In [5]:
# Загрузим данные о странах и регионах
regions_and_locations_data = pd.read_csv(
    '../data/regions_and_locations.csv'
)

# Составим список из кодов стран
location_codes = list(regions_and_locations_data['SpatialDimValueCode'].unique())

# Маска принадлежности стран к заданному списку
mask = data['Country Code'].isin(location_codes)

# Удалим строки, не соответствующие маске
data.drop(data[~mask].index, inplace=True)

Переведем данные за различные годы из столбцов в строки.

In [6]:
data = data.melt(
    id_vars=['Country Code'],
    var_name='Year',
)
data.head()

Unnamed: 0,Country Code,Year,value
0,AFG,2000,20130327.0
1,AGO,2000,16194869.0
2,ALB,2000,3089027.0
3,ARE,2000,3493575.0
4,ARG,2000,37213984.0


Переименуем столбцы, чтобы их названия совпадали с основной таблицей.

In [7]:
data.rename(
    columns={
        'Country Code': 'SpatialDimValueCode',
        'Year': 'Period',
        'value': 'Population',
    },
    inplace=True,
)

# Переведем столбец 'Period' в числовой, т.к. в основной таблице он имеет тип int
data['Period'] = data['Period'].astype(int)

data.head()

Unnamed: 0,SpatialDimValueCode,Period,Population
0,AFG,2000,20130327.0
1,AGO,2000,16194869.0
2,ALB,2000,3089027.0
3,ARE,2000,3493575.0
4,ARG,2000,37213984.0


In [8]:
# Убедимся в том, что нет пропусков
data.isna().sum().sum()

0

In [9]:
# Сохраним полученную таблицу для дальнейшего использования
data.to_csv('../data/worldbank_population_prepared.csv', index=False)