In [1]:
# импортируем библиотеки numpy и pandas
import pandas as pd
import numpy as np

# импортируем библиотеку datetime для работы с датами
from datetime import datetime, date

# Задаем некоторые опции библиотеки pandas, которые настраивают вывод
pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 10) 
pd.set_option('display.max_rows', 15)
pd.set_option('display.width', 90)

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt
%matplotlib inline

#### Исследование CSV-файла

In [2]:
# с помощью модуля csv взглянем на первые 5 строк CSV-файла
import csv
 
with open('Notebooks/Data/msft.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for i, row in enumerate(reader): 
        print(row)
        if(i >= 5):
            break

['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']
['7/17/2014', '84.35', '84.63', '83.33', '83.63', '1974000']
['7/16/2014', '83.77', '84.91', '83.66', '84.91', '1755600']
['7/15/2014', '84.3', '84.38', '83.2', '83.58', '1874700']


In [3]:
# считываеми msft.csv в датафрейм
msft = pd.read_csv('Notebooks/Data/msft.csv')
msft[:5]

        Date   Open   High    Low  Close   Volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800
2  7/17/2014  84.35  84.63  83.33  83.63  1974000
3  7/16/2014  83.77  84.91  83.66  84.91  1755600
4  7/15/2014  84.30  84.38  83.20  83.58  1874700

In [4]:
# зададим индекс для наших данных. В нашем случае выберем 0 столбец (столбец с датой).
msft = pd.read_csv('Notebooks/Data/msft.csv', index_col=0)
msft[:5]

            Open   High    Low  Close   Volume
Date                                          
7/21/2014  83.46  83.53  81.81  81.93  2359300
7/18/2014  83.30  83.40  82.52  83.35  4020800
7/17/2014  84.35  84.63  83.33  83.63  1974000
7/16/2014  83.77  84.91  83.66  84.91  1755600
7/15/2014  84.30  84.38  83.20  83.58  1874700

In [5]:
# вывод и спецификаация типа данных (.dtypes)
msft.dtypes

Open      float64
High      float64
Low       float64
Close     float64
Volume      int64
dtype: object

Чтобы принудительно задать тип столбца, воспользуйтесь параметром **dtype**
функции pd.read_csv(). Следующий программный код преобразует столбец Volume
в тип float64:

In [6]:
# указываем, что столбец Volume должен иметь тип float64
msft = pd.read_csv('Notebooks/Data/msft.csv', dtype = {'Volume': np.float64})
msft.dtypes

Date       object
Open      float64
High      float64
Low       float64
Close     float64
Volume    float64
dtype: object

#### Указание имен столбцов

In [7]:
# задаем новый набор имен для столбцов
# все имеют нижний регистр, header=0 задает строку заголовков
df = pd.read_csv("Notebooks/Data/msft.csv",
                header=0,
                names=['date', 'open', 'high', 'low', 'close', 'volume'])
df[:5]

        date   open   high    low  close   volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800
2  7/17/2014  84.35  84.63  83.33  83.63  1974000
3  7/16/2014  83.77  84.91  83.66  84.91  1755600
4  7/15/2014  84.30  84.38  83.20  83.58  1874700

#### Указание конкретных столбцов для загрузки (usecols)

In [8]:
df2 = pd.read_csv("Notebooks/Data/msft.csv",
                 usecols=['Date', 'Close'],
                index_col=['Date'])
df2[:5]

           Close
Date            
7/21/2014  81.93
7/18/2014  83.35
7/17/2014  83.63
7/16/2014  84.91
7/15/2014  83.58

#### Сохранение датафрейма в CSV-файл
С помощью метода <mark>.to_csv()</mark> объект DataFrame можно сохранить в CSV-файл.

С помощью параметра **index_label='date'** необходимо указать, что именем индекса будет имя столбца date. В противном случае индекс не получит имени, добавляемого в первую строку файла, и это затруднит правильное чтение данных. 
**на данный момнет, кажется, нет необходимости задавать поле index_label т.к pandas и так оставляет индкесный столбец вместе с его меткой**

In [9]:
# сохраняем датафрейм df2 в новый csv-файл
# задаем имя индекса как date
df2.to_csv('./msft_mofified.csv', index_label='date')

In [10]:
# с помощью модуля csv взглянем на первые 5 строк CSV-файла
with open('./msft_mofified.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for i,row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

['date', 'Close']
['7/21/2014', '81.93']
['7/18/2014', '83.35']
['7/17/2014', '83.63']
['7/16/2014', '84.91']
['7/15/2014', '83.58']


#### Работа с данными, в которых используются разделители полей
Библиотека pandas предлагает функцию <mark>pd.read_table()</mark> для упрощения чтения
данных с разделителями полей. В следующем примере эта функция используется
для чтения файла данных msft, задав запятую в качестве значения параметра sep

In [11]:
# используем функцию read_table с параметром sep=',', чтобы прочитать CSV-файл
df = pd.read_table("Notebooks/Data/msft.csv", sep=',')

df.to_csv('./msft_piped.txt', sep='|')
# смотрим, как сработал метод
with open('./msft_piped.txt') as f:
    reader = csv.reader(f, delimiter=',')
    for i, row in enumerate(reader):
        print(row)
        if (i >= 5):
            break


['|Date|Open|High|Low|Close|Volume']
['0|7/21/2014|83.46|83.53|81.81|81.93|2359300']
['1|7/18/2014|83.3|83.4|82.52|83.35|4020800']
['2|7/17/2014|84.35|84.63|83.33|83.63|1974000']
['3|7/16/2014|83.77|84.91|83.66|84.91|1755600']
['4|7/15/2014|84.3|84.38|83.2|83.58|1874700']


#### Обработка загрязненных данных
Данные с разделителями полей могут содержать посторонние строки в начале или
в конце файла. В качестве примеров можно привести служебную информацию,
размещаемую вверху, например номер счета, адреса, сводные данные, размещаемые внизу. Кроме того, бывают случаи, когда данные хранятся в нескольких строках. Эти ситуации могут вызвать ошибки при загрузке данных. Чтобы разрешить
такие ситуации, методы <mark>pd.read_csv и pd.read_table()</mark> предлагают некоторые полезные параметры, которые выручат нас.

Опции <mark>skiprows и skipfooter</mark> 

In [12]:
# смотрим первые 6 строк в файле msft2.csv
with open('Notebooks/Data/msft2.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for i, row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

['This is fun because the data does not start on the first line', '', '', '', '', '']
['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['', '', '', '', '', '']
['And there is space between the header row and data', '', '', '', '', '']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']


In [13]:
# Считываем только нужные строки (убираем строки 0, 2, 3)
df = pd.read_csv('Notebooks/Data/msft2.csv', skiprows=[0,2,3])

# Для игнорирования последних строк файла есть опция skipfooter
df2 = pd.read_csv('Notebooks/Data/msft_with_footer.csv', skipfooter=2, engine='python')
df[:5], df2

(        Date   Open   High    Low  Close   Volume
 0  7/21/2014  83.46  83.53  81.81  81.93  2359300
 1  7/18/2014  83.30  83.40  82.52  83.35  4020800
 2  7/17/2014  84.35  84.63  83.33  83.63  1974000
 3  7/16/2014  83.77  84.91  83.66  84.91  1755600
 4  7/15/2014  84.30  84.38  83.20  83.58  1874700,
         Date   Open   High    Low  Close   Volume
 0  7/21/2014  83.46  83.53  81.81  81.93  2359300
 1  7/18/2014  83.30  83.40  82.52  83.35  4020800)

In [14]:
# Если файл очень большой, а нам нужно прочитать только первые несколько строк,
# то для этого есть опция nrows
pd.read_csv('Notebooks/Data/msft.csv', nrows=3)

        Date   Open   High    Low  Close   Volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800
2  7/17/2014  84.35  84.63  83.33  83.63  1974000

In [15]:
# пропускаем 100 строк, а затем считываем следующие 5 строк.
# Т.к мы пропускаем строку с заголовком столбцщв, то необходимо сообщить pandas, чтобы она
# не искала заголовки и использовала указанные имена.
pd.read_csv("Notebooks/Data/msft.csv", 
            skiprows=100, 
            nrows=5,
            header=0, # обязаны это задать т.к передаем опцию names
            names=['date', 'open', 'high', 'low', 'close', 'vol'])

        date   open   high    low  close      vol
0   3/3/2014  80.35  81.31  79.91  79.97  5004100
1  2/28/2014  82.40  83.42  82.17  83.42  2853200
2  2/27/2014  84.06  84.63  81.63  82.00  3676800
3  2/26/2014  82.92  84.03  82.43  83.81  2623600
4  2/25/2014  83.80  83.80  81.72  83.08  3579100

#### Чтение и запись данных в формате excex

Библиотека pandas поддерживает чтение данных в формате Excel 2003 и более
поздних форматах с помощью функции pd.read_excel() или класса ExcelFile. **Оба
способа используют либо пакет XLRD, либо пакет OpenPyXL, поэтому вам необходимо
убедиться в том, что один из них установлен в вашей среде Python**.

In [16]:
# считываем файл excel
# считываем только данные первого рабочего листа
# (msft в данном случае)
df = pd.read_excel('Notebooks/Data/stocks.xlsx')
df[:5]

        Date   Open   High    Low  Close   Volume
0 2014-07-21  83.46  83.53  81.81  81.93  2359300
1 2014-07-18  83.30  83.40  82.52  83.35  4020800
2 2014-07-17  84.35  84.63  83.33  83.63  1974000
3 2014-07-16  83.77  84.91  83.66  84.91  1755600
4 2014-07-15  84.30  84.38  83.20  83.58  1874700

In [17]:
# Считываем данные рабочего листа aapl
aapl = pd.read_excel('Notebooks/Data/stocks.xlsx', sheet_name='aapl')
aapl[:5]

        Date   Open   High    Low  Close    Volume
0 2014-07-21  94.99  95.00  93.72  93.94  38887700
1 2014-07-18  93.62  94.74  93.02  94.43  49898600
2 2014-07-17  95.03  95.28  92.57  93.09  57152000
3 2014-07-16  96.97  97.10  94.74  94.78  53396300
4 2014-07-15  96.80  96.85  95.03  95.32  45477900

In [18]:
# Сохраним xls-файл в рабочем листе 'MSFT'
# т.к для чтения xls файлов мы испльзуем пакет openpyxl, то мы должны его указать в опции engine/
df.to_excel('stocks2.xls', engine='openpyxl', sheet_name='MSFT')

Чтобы **записать несколько датафреймов в один и тот же файл Excel**, по одному
объекту DataFrame на каждый рабочий лист, воспользуйтесь объектом **ExcelWriter**
и ключевым словом with. ExcelWriter является частью библиотеки pandas, однако
вам нужно убедиться в том, что он импортирован, поскольку данный объект от-
сутствует в пространстве имен верхнего уровня библиотеки pandas.

In [19]:
# Записываем несколько рабочих листов
# требуется класс ExcelWriter
# необходимо указать engine, иначе не будет работать.
with pd.ExcelWriter('all_stocks.xls', engine='openpyxl') as writer:
    aapl.to_excel(writer, engine='openpyxl', sheet_name='AAPL')
    df.to_excel(writer, engine='openpyxl', sheet_name='MSFT')
    

#### Чтение и запись JSON-файлов

Библиотека pandas может читать и записывать данные, хранящиеся в формате JavaScript Object Notation (JSON).

In [20]:
# записываем данные Excel в JSON-файл
df[:5].to_json('stocks.json')

# теперь посмотим на json файл
import json

# модуль для красивого вывода структурированных данных.
from pprint import pprint

with open('stocks.json') as data_file:
    data = json.load(data_file)

pprint(data)

{'Close': {'0': 81.93, '1': 83.35, '2': 83.63, '3': 84.91, '4': 83.58},
 'Date': {'0': 1405900800000,
          '1': 1405641600000,
          '2': 1405555200000,
          '3': 1405468800000,
          '4': 1405382400000},
 'High': {'0': 83.53, '1': 83.4, '2': 84.63, '3': 84.91, '4': 84.38},
 'Low': {'0': 81.81, '1': 82.52, '2': 83.33, '3': 83.66, '4': 83.2},
 'Open': {'0': 83.46, '1': 83.3, '2': 84.35, '3': 83.77, '4': 84.3},
 'Volume': {'0': 2359300,
            '1': 4020800,
            '2': 1974000,
            '3': 1755600,
            '4': 1874700}}


Данные в формате JSON можно прочитать с помощью функции pd.read_json()

In [21]:
# Считываем данные в формате JSON
df_from_json = pd.read_json('stocks.json')
df_from_json[:5]

        Date   Open   High    Low  Close   Volume
0 2014-07-21  83.46  83.53  81.81  81.93  2359300
1 2014-07-18  83.30  83.40  82.52  83.35  4020800
2 2014-07-17  84.35  84.63  83.33  83.63  1974000
3 2014-07-16  83.77  84.91  83.66  84.91  1755600
4 2014-07-15  84.30  84.38  83.20  83.58  1874700

#### Чтение HTML-файлов из интернета
Библиотека pandas поддерживает чтение HTML-файлов (или HTML-файлов с URL-адресов). Внутри библиотека pandas использует пакеты LXML, Html5Lib и BeautifulSoup4. Эти пакеты предлагают впечатляющие возможности для чтения и записи HTML-таблиц.

Стандартный дистрибутив Anaconda может не включать эти пакеты. Если вы
получаете ошибку, то, исходя из ее содержания, установите соответствующую
библиотеку при помощи Anaconda Navigator. 

Кроме того, вы можете использовать pip.

In [22]:
# Для иллюстрации мы считаем данные, представляющие собой список банков-
# банкротов, опубликованный на сайте Федеральной корпорации по страхованию
# вкладов по адресу https://www.fdic.gov/bank/individual/failed/banklist.html. 
# Просмотрев страницу, можно увидеть, что список обанкротившихся банков довольно внушителен.

# import requests

# задаем URL-адрес HTML-файла
url = "https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/"

# Можем воспользоваться пакетом resquests
# response = requests.get(url)

# читаем его
banks = pd.read_html(url)
# banks_2 = pd.read_html(response.content)

# проверяем как было прочитана часть первой таблицы
print(banks[0][0:5].iloc[:,0:2], end='\n')

                               Bank Name          City
0                   Pulaski Savings Bank       Chicago
1     The First National Bank of Lindsay       Lindsay
2  Republic First Bank dba Republic Bank  Philadelphia
3                          Citizens Bank      Sac City
4               Heartland Tri-State Bank       Elkhart


С помощью метода **.to_html()** объект DataFrame можно записать в HTML-файл.
Этот метод создает файл, содержащий тег **\<table\>** для данных (а не весь HTML-
документ). Следующий программный код записывает ранее прочитанные нами
данные о котировках акций в HTML-файл и выводит полученный результат
в браузере.

In [23]:
# считываем данные о котировках акций
df = pd.read_excel('Notebooks/Data/stocks.xlsx')

# Записываем первые 2 строки в HTML
df.head(2).to_html('stocks.html')

# Смотрим результат в браузере
import webbrowser
# webbrowser.open('./stocks.html')


#### Чтение и запись HDF5-файлов

HDF5 – это модель данных, библиотека и файловый формат для хранения
и управления данными. Он широко используется в научных вычислительных
средах. HDF5 поддерживает неограниченное количество типов данных и предназначен для гибкого и эффективного ввода-вывода, а также для больших
и сложных данных... **(стр. 180)**

In [24]:
# задаем стартовое значение генератора случайных чисел
# для получения воспроизводимых результатов
np.random.seed(123456)
        
# создаем датафрейм, состоящий из дат и случайных чисел, записанных в трех столбцах
df = pd.DataFrame(np.random.randn(8, 3),
                index=pd.date_range('1/1/2000', periods=8),
                columns=['A', 'B', 'C'])

# создаем хранилище HDF5
store = pd.HDFStore('Notebooks/Data/store.h5')

# Создаем файлы только один раз (поэтому код и закомментирован т.к файлы уже есть)
# with pd.HDFStore('my_first_hdf5.h5', 'w', driver="H5FD_CORE") as f:
#     f['test'] = pd.DataFrame(np.random.rand(3, 5))

# with pd.HDFStore('second_hdf5.h5', 'w', driver="H5FD_CORE") as f:
#     f['test'] = pd.DataFrame(np.random.rand(4, 4))

store['df'] = df # сохранение произошло здесь
store

<class 'pandas.io.pytables.HDFStore'>
File path: Notebooks/Data/store.h5

In [25]:
# Считываем данные хранилища HDF5
store = pd.HDFStore('Notebooks/Data/store.h5')


store_read = pd.HDFStore('my_first_hdf5.h5')
store_second = pd.HDFStore('second_hdf5.h5')

df = store['df']
df[:5], store_read['test'], store_second['test']

(                   A         B         C
 2000-01-01  0.469112 -0.282863 -1.509059
 2000-01-02 -1.135632  1.212112 -0.173215
 2000-01-03  0.119209 -1.044236 -0.861849
 2000-01-04 -2.104569 -0.494929  1.071804
 2000-01-05  0.721555 -0.706771 -1.039575,
           0         1         2         3         4
 0  0.340445  0.984729  0.919540  0.037772  0.861549
 1  0.753569  0.405179  0.343526  0.170917  0.394659
 2  0.641666  0.274592  0.462354  0.871372  0.401131,
           0         1         2         3
 0  0.610588  0.117967  0.702184  0.414034
 1  0.342345  0.595925  0.199864  0.099737
 2  0.734596  0.016545  0.481385  0.095939
 3  0.497306  0.838796  0.897333  0.732592)

#### Загрузка CSV-файлов из интернета

Очень часто нужно прочитать данные из интернета. Библиотека pandas упрощает
чтение данных из интернета. Все функции pandas, которые мы рассмотрели, позволяют задать URL-адрес, FTP-адрес или S3-адрес вместо локального пути к файлу, и все они работают так же, как работают с локальным файлом.

In [26]:
# считываем csv непосредственно по URL-адресу
countries = pd.read_csv('https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv')
countries[:5]

    Country  Region
0   Algeria  AFRICA
1    Angola  AFRICA
2     Benin  AFRICA
3  Botswana  AFRICA
4   Burkina  AFRICA

#### Чтение из базы данных SQL и запись в базу данных SQL
Библиотека pandas может считать данные из любой базы данных SQL, которая
поддерживает адаптеры данных Python в рамках интерфейса Python DB-API. Чтение выполняется с помощью функции <mark>pandas.io.sql.read_sql()</mark>, а запись в базу дан-
ных SQL – с помощью метода <mark>.to_sql()</mark> объекта DataFrame.

Для иллюстрации следующий программный код считывает данные о котировках акций из файлов msft.csv и aapl.csv. Затем он подключается к файлу базы данных SQLite3. **Если файл не существует, он создается «на лету»**. Затем программный код записывает данные MSFT в таблицу под названием STOCK_DATA. **Если таблица не существует, она также будет создана**. Если она уже существует, все данные заменяются данными MSFT. Наконец, программный код добавляет в эту таблицу данные
о котировках AAPL:

In [27]:
# импортируем библиотеку SQLite
import sqlite3

# считываем данные о котировках акций из CSV-файла
msft = pd.read_csv('Notebooks/Data/msft.csv')
msft['Symbol'] = 'MSFT'
aapl = pd.read_csv('Notebooks/Data/aapl.csv')
aapl['Symbol'] = 'AAPL'

# создаем подключение
connection = sqlite3.connect('Notebooks/Data/stocks.sqlite')
# .to_sql() создаст базу SQL для храниения датафрейма в указанной таблице. if_exists задает
# действие, которое нужно выполнить в том случае, если таблица уже существует.
msft.to_sql('STOCK_DATA', connection, if_exists='replace')
aapl.to_sql('STOCK_DATA', connection, if_exists='append')

# подтверждаем отправку данных в базу и закрываем подключение
connection.commit()
connection.close()

In [28]:
# подключаемся к файлу базы данных
connection = sqlite3.connect('Notebooks/Data/stocks.sqlite')

# запрос всех записей в STOCK_DATA возвращает датафрейм
# index_col задает столбец, который нужно сделать индексом датафрейма
stocks = pd.io.sql.read_sql('SELECT * FROM STOCK_DATA;', connection, index_col='index')

# закрываем подключение
connection.close()

# выводим первые 5 наблюдений в извлеченных данных
stocks[:5]

            Date   Open   High    Low  Close   Volume Symbol
index                                                       
0      7/21/2014  83.46  83.53  81.81  81.93  2359300   MSFT
1      7/18/2014  83.30  83.40  82.52  83.35  4020800   MSFT
2      7/17/2014  84.35  84.63  83.33  83.63  1974000   MSFT
3      7/16/2014  83.77  84.91  83.66  84.91  1755600   MSFT
4      7/15/2014  84.30  84.38  83.20  83.58  1874700   MSFT

#### Загрузка данных с удаленных сервисов

In [29]:
# импортируем пакет pandas_datareader
pd.core.common.is_list_like = pd.api.types.is_list_like
import pandas_datareader as pdr

Данные FRED можно получить с помощью класса FredReader, передав определенную
метку временного ряда в качестве параметра name. 

In [30]:
# считываем данные по GDP (это ВВП) из FRED
gdp = pdr.data.FredReader('GDP', date(2012, 1, 1), date(2014, 1, 27))
gdp.read()[:5]

                  GDP
DATE                 
2012-01-01  16068.805
2012-04-01  16207.115
2012-07-01  16319.541
2012-10-01  16420.419
2013-01-01  16648.189

In [31]:
# получаем данные по показателю Compensation of employees: Wages and salaries
pdr.data.FredReader("A576RC1A027NBEA", date(1929, 1, 1), date(2013, 1, 1)).read()[:5]

            A576RC1A027NBEA
DATE                       
1929-01-01             50.5
1930-01-01             46.2
1931-01-01             39.2
1932-01-01             30.5
1933-01-01             29.0

#### Загрузка данных Всемирного банка

Тысячи источников информации доступны в рамках базы данных Всемирного
банка, и их можно непосредственно прочитать в объект DataFrame библиотеки pandas. C каталогом данных Всемирного банка можно ознакомиться по адресу http://www.worldbank.org/.

Наборы данных Всемирного банка идентифицируются с помощью индикато-
ров, текстового кода, представляющего каждый набор данных. Полный список
индикаторов можно получить с помощью функции <mark>pandas.io.wb.get_indicators()</mark>.

In [32]:
from pandas_datareader import wb
all_indicators = pdr.wb.get_indicators()

# # выводим первые 5 индикаторов (ограничимся выводом только 2 столбцами)
all_indicators.iloc[:5, :2] 

                     id                                     name
0    1.0.HCount.1.90usd          Poverty Headcount ($1.90 a day)
1     1.0.HCount.2.5usd          Poverty Headcount ($2.50 a day)
2  1.0.HCount.Mid10to50    Middle Class ($10-50 a day) Headcount
3       1.0.HCount.Ofcl  Official Moderate Poverty Rate-National
4   1.0.HCount.Poor4uds             Poverty Headcount ($4 a day)

Эти индикаторы можно посмотреть на веб-сайте Всемирного банка, но 
**если вы знаете, какой индикатор вам нужен, можно просто выполнить поиск**. В качестве
примера следующий программный код использует функцию <mark>wb.search()</mark>

In [33]:
# поиск индикаторов, связанных с продолжительностью жизни
le_indicators = pdr.wb.search('life expectancy')
# выводим первые три строки и первые два столбца
le_indicators.iloc[:3, :2]

                   id                                               name
16001     SE.SCH.LIFE  School life expectancy, primary to tertiary, b...
16002  SE.SCH.LIFE.FE  School life expectancy, primary to tertiary, f...
16003  SE.SCH.LIFE.MA  School life expectancy, primary to tertiary, m...

Каждый индикатор разбит по странам. Полный список по странам можно получить с помощью функции <mark>wb.get_countries()</mark>

In [34]:
# получаем список стран, показываем код и название
countries = pdr.wb.get_countries()

# получаем список стран, показываем код и название
countries.loc[0:5, ['name', 'capitalCity', 'iso2c']]

                          name capitalCity iso2c
0                        Aruba  Oranjestad    AW
1  Africa Eastern and Southern                ZH
2                  Afghanistan       Kabul    AF
3                       Africa                A9
4   Africa Western and Central                ZI
5                       Angola      Luanda    AO

Данные по каждому индикатору можно загрузить с помощью функции
<mark>wb.download()</mark>, указав с помощью параметра indicator набор данных. 

In [35]:
# отключаем предупреждения
import warnings
warnings.simplefilter('ignore')

# получаем данные о продолжительности жизни для всех стран с 1980 по 2014 год
le_data_all = wb.download(indicator='SP.DYN.LE00.IN', start=1980, end=2014, errors='raise')

# по умолчанию будут возвращены данные для сша, канады, мексики (это можно увидеть, посмотрев индекс)
le_data_all, le_data_all.index.levels[0]

(                    SP.DYN.LE00.IN
 country       year                
 Canada        2014       81.784390
               2013       81.744878
               2012       81.663659
               2011       81.482683
               2010       81.322195
 ...                            ...
 United States 1984       74.563415
               1983       74.463415
               1982       74.360976
               1981       74.009756
               1980       73.609756
 
 [105 rows x 1 columns],
 Index(['Canada', 'Mexico', 'United States'], dtype='object', name='country'))

Чтобы получить данные для большего количества стран, укажите их явно, воспользовавшись параметром **country**.

In [39]:
# получаем данные о продолжительности жизни для всех стран с 1980 по 2024 год
le_data_all = wb.download(indicator="SP.DYN.LE00.IN",
                            country = countries['iso2c'],
                            start='1980',
                            end='2024')
# получаем название России в номенклатуре iso2c
country_idx = le_data_all.index.levels[0]
iso_rus_name = country_idx[country_idx.str.contains('ussian')][0]

# получаем 2 способами значения для России
le_data_all.loc[iso_rus_name], # le_data_all.xs(iso_rus_name, )

# le_data_all.loc[iso_rus_name, ][::-1].plot()

(      SP.DYN.LE00.IN
 year                
 2023             NaN
 2022       72.545610
 2021       69.900244
 2020       71.338780
 2019       73.083902
 ...              ...
 1984       67.202683
 1983       67.652683
 1982       67.806098
 1981       67.263902
 1980       67.033902
 
 [44 rows x 1 columns],)

Мы можем выполнить разные интересные манипуляции с этими данными.
В примере, рассмотренном ниже, мы для каждого года определяем страну с самой низкой продолжительностью жизни. Чтобы выполнить эту операцию, сначала нужно перевернуть (транспонировать) эти данные, чтобы индексом стало название страны, а годом стал столбец.

Более подробно транспонирование данных мы рассмотрим в последующих главах, а пока вам важно просто знать, что следующий программный код преобразует страны в индекс, а годы – в столбцы.

In [74]:
le_data = le_data_all.reset_index().pivot(index='country', columns='year')

le_data.iloc[:5, -5:]

                            SP.DYN.LE00.IN                                      
year                                  2019       2020       2021       2022 2023
country                                                                         
Afghanistan                      63.565000  62.575000  61.982000  62.879000  NaN
Africa Eastern and Southern      63.754752  63.309794  62.449093  62.888463  NaN
Africa Western and Central       57.500295  57.180671  56.946475  57.589106  NaN
Albania                          79.282000  76.989000  76.463000  76.833000  NaN
Algeria                          76.474000  74.453000  76.377000  77.129000  NaN

Получив данные в таком формате, мы можем для каждого года определить
страну с наименьшей продолжительностью жизни, воспользовавшись параметром <mark>.idxmin(axis=0)</mark>

In [75]:
# определяем для каждого года страну с наименьшей продолжительностью жизни
# возращает по каждой колонке (в нашем слуыае это годы) значение индекса (в нашем случыае это
# название страны) строки с минимальным значением в данной колонке.
country_with_least_expectance = le_data.idxmin(axis=0)
country_with_least_expectance[:5], country_with_least_expectance.index.levels[1]

(                year
 SP.DYN.LE00.IN  1980    Timor-Leste
                 1981    Timor-Leste
                 1982    Timor-Leste
                 1983    Timor-Leste
                 1984    South Sudan
 dtype: object,
 Index(['1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987', '1988', '1989',
        '1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997', '1998', '1999',
        '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009',
        '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018', '2019',
        '2020', '2021', '2022', '2023'],
       dtype='object', name='year'))

Минимальное значение продолжительности жизни для каждого года можно
получить с помощью <mark>.min(axis=0)</mark>

In [77]:
# определяем для каждого года минимальное значение продолжительности жизни
expectancy_for_least_country = le_data.min(axis=0)
expectancy_for_least_country[:5], expectancy_for_least_country.index.levels[1]

(                year
 SP.DYN.LE00.IN  1980    28.446
                 1981    29.567
                 1982    30.824
                 1983    31.635
                 1984    32.673
 dtype: float64,
 Index(['1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987', '1988', '1989',
        '1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997', '1998', '1999',
        '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009',
        '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018', '2019',
        '2020', '2021', '2022', '2023'],
       dtype='object', name='year'))

Затем эти два результата можно объединить в новый датафрейм, в котором по
каждому году будет приведена информация о стране с наименьшей продолжительностью жизни и минимальном значении продолжительности жизни

In [43]:
# этот программный код объединяет два датафрейма вместе, и мы получаем
# по каждому году страну с наименьшей продолжительностью жизни
# и наименьшее значение продолжительности жизни
least = pd.DataFrame(
    data = {'Country': country_with_least_expectance.values,
          'Expectancy': expectancy_for_least_country.values},
    index = country_with_least_expectance.index.levels[1]
)
least

          Country  Expectancy
year                         
1980  Timor-Leste      28.446
1981  Timor-Leste      29.567
1982  Timor-Leste      30.824
1983  Timor-Leste      31.635
1984  South Sudan      32.673
...           ...         ...
2019      Nigeria      52.910
2020         Chad      52.777
2021         Chad      52.525
2022         Chad      52.997
2023          NaN         NaN

[44 rows x 2 columns]