# ВВП на душу населения (в долл. США)

In [16]:
import pandas as pd

from helpers import get_omissions

from warnings import simplefilter
simplefilter('ignore')

Эти данные можно найти на сайте "Группы Всемирного банка" по ссылке

https://data.worldbank.org/indicator/NY.GDP.PCAP.CD?end=2020&most_recent_year_desc=true&start=2000

In [17]:
# Загрузим таблицу
data = pd.read_csv('../data/worldbank_gdp_per_capita.csv')

data.head(2)

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1960,1961,1962,1963,1964,1965,...,2015,2016,2017,2018,2019,2020,2021,2022,2023,Unnamed: 68
0,Aruba,ABW,GDP per capita (current US$),NY.GDP.PCAP.CD,,,,,,,...,27458.225331,27441.529662,28440.051964,30082.127645,31096.205074,22855.93232,27200.061079,30559.533535,33984.79062,
1,Africa Eastern and Southern,AFE,GDP per capita (current US$),NY.GDP.PCAP.CD,186.132432,186.947182,197.408105,225.447007,209.005786,226.883067,...,1479.564123,1329.777824,1520.171298,1538.924188,1493.780445,1344.080962,1522.590088,1628.024526,1659.51529,


In [18]:
# Выведем список столбцов

data.columns

Index(['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code',
       '1960', '1961', '1962', '1963', '1964', '1965', '1966', '1967', '1968',
       '1969', '1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977',
       '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986',
       '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995',
       '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004',
       '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013',
       '2014', '2015', '2016', '2017', '2018', '2019', '2020', '2021', '2022',
       '2023', 'Unnamed: 68'],
      dtype='object')

Нам нужны данные только за 2000 - 2020 гг.\
Удалим лишние столбцы.

In [19]:
data.drop(
    columns=[
        'Country Name', 'Indicator Name', 'Indicator Code',
       '1960', '1961', '1962', '1963', '1964', '1965', '1966', '1967', '1968',
       '1969', '1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977',
       '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986',
       '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995',
       '1996', '1997', '1998', '1999', '2021', '2022', '2023', 'Unnamed: 68',
    ],
    inplace=True,
)

data.head()

Unnamed: 0,Country Code,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
0,ABW,20681.023027,20740.132583,21307.248251,21949.485996,23700.63199,24171.837133,24845.658484,26736.308944,28171.909401,...,25712.384302,25119.665545,25813.576727,26129.839062,27458.225331,27441.529662,28440.051964,30082.127645,31096.205074,22855.93232
1,AFE,707.120376,626.169148,625.998815,809.968139,981.744631,1115.713956,1220.002468,1362.310651,1421.118612,...,1735.58514,1702.969258,1673.140476,1656.107642,1479.564123,1329.777824,1520.171298,1538.924188,1493.780445,1344.080962
2,AFG,174.930991,138.706822,178.954088,198.871116,221.763654,254.184249,274.218554,376.223152,381.733238,...,606.694676,651.417134,637.087099,625.054942,565.56973,522.082216,525.469771,491.337221,496.602504,510.787063
3,AFW,516.932316,530.653167,616.796033,694.500939,834.861291,989.699739,1222.550498,1393.748487,1652.18985,...,1824.722827,1920.119912,2113.316986,2204.9957,1845.767804,1616.843198,1560.162999,1703.896392,1783.654365,1664.249176
4,AGO,563.733796,533.586202,882.147847,992.698979,1266.210864,1916.468422,2617.05196,3141.04598,4103.0669,...,4615.910598,5086.027401,5057.747878,5005.999741,3213.902611,1807.952941,2437.259712,2538.591391,2189.855714,1449.922867


Здесь в столбцах:

- `Country Code` - код страны
- `2000 - 2020` - данные ВВП на душу населения в долларах США за соответствующие года

Переведем данные ВВП за различные года из столбцов в строки.

In [20]:
data = data.melt(
    id_vars=['Country Code'],
    var_name='Year',
)
data.head()

Unnamed: 0,Country Code,Year,value
0,ABW,2000,20681.023027
1,AFE,2000,707.120376
2,AFG,2000,174.930991
3,AFW,2000,516.932316
4,AGO,2000,563.733796


Переименуем столбцы, чтобы их названия совпадали с основной таблицей.

In [21]:
data.rename(
    columns={
        'Country Code': 'SpatialDimValueCode',
        'Year': 'Period',
        'value': 'GdpPerCapita',
    },
    inplace=True,
)

# Переведем столбец 'Period' в числовой, т.к. в основной таблице он имеет тип int
data['Period'] = data['Period'].astype(int)

data.head()

Unnamed: 0,SpatialDimValueCode,Period,GdpPerCapita
0,ABW,2000,20681.023027
1,AFE,2000,707.120376
2,AFG,2000,174.930991
3,AFW,2000,516.932316
4,AGO,2000,563.733796


Посмотрим на пропуски.

In [22]:
data.isna().sum()

SpatialDimValueCode      0
Period                   0
GdpPerCapita           163
dtype: int64

Есть пропуски за определенные года.

In [23]:
# Загрузим таблицу с данными регионов и стран
regions_and_locations_data = pd.read_csv(
    '../data/regions_and_locations.csv'
)
regions_and_locations_data.head()

Unnamed: 0,ParentLocationCode,ParentLocation,SpatialDimValueCode,Location
0,AFR,Africa,AGO,Angola
1,AFR,Africa,BDI,Burundi
2,AFR,Africa,BEN,Benin
3,AFR,Africa,BFA,Burkina Faso
4,AFR,Africa,BWA,Botswana


Оставим только те страны, которые есть в таблице `regions_and_locations.csv`.

In [24]:
# Коды стран
location_codes = list(regions_and_locations_data['SpatialDimValueCode'].unique())

# Маска для кодов стран, которые используем
mask = data['SpatialDimValueCode'].isin(location_codes)

# Удаляем строки, которые не соответствуют маске
data.drop(data[~mask].index, inplace=True)

# Снова посмотрим на пропуски
data.isna().sum()

SpatialDimValueCode     0
Period                  0
GdpPerCapita           15
dtype: int64

Посмотрим подробнее, что за пропуски у нас остались.

In [25]:
omissions_data = get_omissions(data)

omissions_data.sort_values(by=['SpatialDimValueCode', 'Period'])

Unnamed: 0,SpatialDimValueCode,Period,GdpPerCapita
3261,ERI,2012,
3527,ERI,2013,
3793,ERI,2014,
4059,ERI,2015,
4325,ERI,2016,
4591,ERI,2017,
4857,ERI,2018,
5123,ERI,2019,
5389,ERI,2020,
4244,VEN,2015,


In [26]:
# Посмотрим, что это за страны
mask = regions_and_locations_data['SpatialDimValueCode'].isin(['ERI', 'VEN'])
regions_and_locations_data[mask]

Unnamed: 0,ParentLocationCode,ParentLocation,SpatialDimValueCode,Location
13,AFR,Africa,ERI,Eritrea
78,AMR,Americas,VEN,Venezuela (Bolivarian Republic of)


Это Эритрея и Венесуэла (Боливарианская Республика).\
Добавим данные с кодами регионов в таблицу `data` и заполним пропуски средним по региону.

In [27]:
# Создадим таблицу для объединения с data 
# и оставим в ней только коды региона и страны
regions_codes_data = regions_and_locations_data[[
    'ParentLocationCode', 'SpatialDimValueCode',
]]

# Добавим в data столбец с кодом региона
data = data.merge(
    regions_codes_data,
    on=['SpatialDimValueCode'],
    how='left',
)

data.head()

Unnamed: 0,SpatialDimValueCode,Period,GdpPerCapita,ParentLocationCode
0,AFG,2000,174.930991,EMR
1,AGO,2000,563.733796,AFR
2,ALB,2000,1126.68334,EUR
3,ARE,2000,29865.502347,EMR
4,ARG,2000,7637.014892,AMR


In [28]:
# Заполним пропуски средним по региону
data['GdpPerCapita'] = \
    data.groupby(['ParentLocationCode', 'Period'])['GdpPerCapita'] \
    .transform(lambda x: x.fillna(x.mean()));

# Убедимся, что пропусков нет
data.isna().sum().sum()

0

In [29]:
# Удалим столбцы, которые больше не нужны
data.drop(columns=['ParentLocationCode'], inplace=True)

In [30]:
# Сохраним полученную таблицу для дальнейшего использования
data.to_csv('../data/worldbank_gdp_per_capita_prepared.csv', index=False)