# Настройка pandas

In [1]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datetime для работы с датами
import datetime
from datetime import datetime, date

# задаем некоторые опции библиотеки pandas, которые
# настраивают вывод
pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 8)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 90)

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
# с помощью модуля csv взглянем
# на первые 5 строк CSV-файла
import csv 
with open('Data/msft.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for i,row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']
['7/17/2014', '84.35', '84.63', '83.33', '83.63', '1974000']
['7/16/2014', '83.77', '84.91', '83.66', '84.91', '1755600']
['7/15/2014', '84.3', '84.38', '83.2', '83.58', '1874700']


# Считывание CSV-файла в датафрейм

In [3]:
# считываем msft.csv в датафрейм
msft = pd.read_csv("Data/msft.csv")
msft[:5]

        Date   Open   High    Low  Close   Volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800
2  7/17/2014  84.35  84.63  83.33  83.63  1974000
3  7/16/2014  83.77  84.91  83.66  84.91  1755600
4  7/15/2014  84.30  84.38  83.20  83.58  1874700

# Указание индекса столбца при считывании CSV-файла 

In [4]:
# используем столбец 0 в качестве индекса
msft = pd.read_csv("Data/msft.csv", index_col=0)
msft[:5]

            Open   High    Low  Close   Volume
Date                                          
7/21/2014  83.46  83.53  81.81  81.93  2359300
7/18/2014  83.30  83.40  82.52  83.35  4020800
7/17/2014  84.35  84.63  83.33  83.63  1974000
7/16/2014  83.77  84.91  83.66  84.91  1755600
7/15/2014  84.30  84.38  83.20  83.58  1874700

# Вывод и спецификация типа данных

In [5]:
# исследуем типы столбцов в этом датафрейме
msft.dtypes

Open      float64
High      float64
Low       float64
Close     float64
Volume      int64
dtype: object

In [6]:
# указываем, что столбец Volume должен иметь тип float64
msft = pd.read_csv("Data/msft.csv", 
                   dtype = { 'Volume' : np.float64})
msft.dtypes

Date       object
Open      float64
High      float64
Low       float64
Close     float64
Volume    float64
dtype: object

# Указание имен столбцов

In [7]:
# задаем новый набор имен для столбцов
# все имеют нижний регистр, 
# header=0 задает строку заголовков
df = pd.read_csv("Data/msft.csv", 
                 header=0,
                 names=['date', 'open', 'high', 'low', 
                        'close', 'volume'])
df[:5]

        date   open   high    low  close   volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800
2  7/17/2014  84.35  84.63  83.33  83.63  1974000
3  7/16/2014  83.77  84.91  83.66  84.91  1755600
4  7/15/2014  84.30  84.38  83.20  83.58  1874700

# Указание конкретных столбцов для загрузки

In [8]:
# считываем в данных только столбцы Date и Close
# и индексируем по столбцу Date
df2 = pd.read_csv("Data/msft.csv", 
                  usecols=['Date', 'Close'], 
                  index_col=['Date'])
df2[:5]

           Close
Date            
7/21/2014  81.93
7/18/2014  83.35
7/17/2014  83.63
7/16/2014  84.91
7/15/2014  83.58

# Сохранение датафрейма в CSV-файл

In [9]:
# сохраняем датафрейм df2 в новый csv-файл
# задаем имя индекса как date
df2.to_csv("Data/msft_modified.csv", index_label='date')

In [10]:
# с помощью модуля csv взглянем
# на первые 5 строк CSV-файла
with open("Data/msft_modified.csv") as file:
    reader = csv.reader(file, delimiter=',')
    for i,row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

['date', 'Close']
['7/21/2014', '81.93']
['7/18/2014', '83.35']
['7/17/2014', '83.63']
['7/16/2014', '84.91']
['7/15/2014', '83.58']


# Работа с данными, в которых используются разделители полей

In [11]:
# используем функцию read_table с параметром sep=',' 
# чтобы прочитать CSV-файл
df = pd.read_table("Data/msft.csv", sep=',')
df[:5]

        Date   Open   High    Low  Close   Volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800
2  7/17/2014  84.35  84.63  83.33  83.63  1974000
3  7/16/2014  83.77  84.91  83.66  84.91  1755600
4  7/15/2014  84.30  84.38  83.20  83.58  1874700

In [12]:
# сохраняем как данные, в которых разделителем
# является вертикальная черта
df.to_csv("Data/msft_piped.txt", sep='|')
# смотрим, как сработал программный код
with open("Data/msft_piped.txt") as file:
    reader = csv.reader(file, delimiter=',')
    for i,row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

['|Date|Open|High|Low|Close|Volume']
['0|7/21/2014|83.46|83.53|81.81|81.93|2359300']
['1|7/18/2014|83.3|83.4|82.52|83.35|4020800']
['2|7/17/2014|84.35|84.63|83.33|83.63|1974000']
['3|7/16/2014|83.77|84.91|83.66|84.91|1755600']
['4|7/15/2014|84.3|84.38|83.2|83.58|1874700']


# Обработка загрязненных данных, в которых используются разделители полей

In [13]:
# смотрим первые 6 наблюдений файла msft2.csv
with open("Data/msft2.csv") as file:
    reader = csv.reader(file, delimiter=',')
    for i,row in enumerate(reader):
        print(row)
        if(i >= 6):
            break

['This is fun because the data does not start on the first line', '', '', '', '', '']
['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['', '', '', '', '', '']
['And there is space between the header row and data', '', '', '', '', '']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']
['7/17/2014', '84.35', '84.63', '83.33', '83.63', '1974000']


In [14]:
# считываем данные, пропустив строки 0, 2 и 3
df = pd.read_csv("Data/msft2.csv", skiprows=[0, 2, 3])
df[:5]

        Date   Open   High    Low  Close   Volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800
2  7/17/2014  84.35  84.63  83.33  83.63  1974000
3  7/16/2014  83.77  84.91  83.66  84.91  1755600
4  7/15/2014  84.30  84.38  83.20  83.58  1874700

In [15]:
# смотрим файл msft_with_footer.csv
with open("Data/msft_with_footer.csv") as file:
    reader = csv.reader(file, delimiter=',')
    for row in reader:
        print(row)

['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']
[]
['Uh oh', ' there is stuff at the end.']


In [16]:
# считываем, пропустив две строки в конце файла
df = pd.read_csv("Data/msft_with_footer.csv", 
                 skipfooter=2,
                 engine = 'python')
df

        Date   Open   High    Low  Close   Volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800

In [17]:
# считаем только первые три строки
pd.read_csv("Data/msft.csv", nrows=3)

        Date   Open   High    Low  Close   Volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800
2  7/17/2014  84.35  84.63  83.33  83.63  1974000

In [18]:
# пропускаем 100 строк, а затем считываем следующие 5 строк
pd.read_csv("Data/msft.csv", skiprows=100, nrows=5, 
            header=0,
            names=['date', 'open', 'high', 'low', 
                   'close', 'vol']) 

        date   open   high    low  close      vol
0   3/3/2014  80.35  81.31  79.91  79.97  5004100
1  2/28/2014  82.40  83.42  82.17  83.42  2853200
2  2/27/2014  84.06  84.63  81.63  82.00  3676800
3  2/26/2014  82.92  84.03  82.43  83.81  2623600
4  2/25/2014  83.80  83.80  81.72  83.08  3579100

# Чтение и запись данных в формате Excel

In [19]:
# считываем файл Excel
# считываем только данные первого рабочего листа
# (msft в данном случае)
df = pd.read_excel("Data/stocks.xlsx")
df[:5]

        Date   Open   High    Low  Close   Volume
0 2014-07-21  83.46  83.53  81.81  81.93  2359300
1 2014-07-18  83.30  83.40  82.52  83.35  4020800
2 2014-07-17  84.35  84.63  83.33  83.63  1974000
3 2014-07-16  83.77  84.91  83.66  84.91  1755600
4 2014-07-15  84.30  84.38  83.20  83.58  1874700

In [20]:
# считываем данные рабочего листа aapl
aapl = pd.read_excel("Data/stocks.xlsx", sheet_name='aapl')
aapl[:5]

        Date   Open   High    Low  Close    Volume
0 2014-07-21  94.99  95.00  93.72  93.94  38887700
1 2014-07-18  93.62  94.74  93.02  94.43  49898600
2 2014-07-17  95.03  95.28  92.57  93.09  57152000
3 2014-07-16  96.97  97.10  94.74  94.78  53396300
4 2014-07-15  96.80  96.85  95.03  95.32  45477900

In [21]:
# сохраняем XLS-файл в рабочем листе 'Sheet1'
df.to_excel("Data/stocks2.xls")

In [22]:
# записываем, задав имя рабочего листа MSFT
df.to_excel("Data/stocks_msft.xls", sheet_name='MSFT')

In [23]:
# записываем несколько рабочих листов
# требуется класс ExcelWriter
from pandas import ExcelWriter
with ExcelWriter("Data/all_stocks.xls") as writer:
    aapl.to_excel(writer, sheet_name='AAPL')
    df.to_excel(writer, sheet_name='MSFT')

In [24]:
# записываем в xlsx
df.to_excel("Data/msft2.xlsx")

# Чтение и запись JSON-файлов

In [25]:
# записываем данные Excel в JSON-файл
df[:5].to_json("Data/stocks.json")
# теперь взглянем на JSON-файл
import json
from pprint import pprint

with open("Data/stocks.json") as data_file:    
    data = json.load(data_file)

pprint(data)

{'Close': {'0': 81.93, '1': 83.35, '2': 83.63, '3': 84.91, '4': 83.58},
 'Date': {'0': 1405900800000,
          '1': 1405641600000,
          '2': 1405555200000,
          '3': 1405468800000,
          '4': 1405382400000},
 'High': {'0': 83.53, '1': 83.4, '2': 84.63, '3': 84.91, '4': 84.38},
 'Low': {'0': 81.81, '1': 82.52, '2': 83.33, '3': 83.66, '4': 83.2},
 'Open': {'0': 83.46, '1': 83.3, '2': 84.35, '3': 83.77, '4': 84.3},
 'Volume': {'0': 2359300,
            '1': 4020800,
            '2': 1974000,
            '3': 1755600,
            '4': 1874700}}


In [26]:
# считываем данные в формате JSON
df_from_json = pd.read_json("Data/stocks.json")
df_from_json[:5]

        Date   Open   High    Low  Close   Volume
0 2014-07-21  83.46  83.53  81.81  81.93  2359300
1 2014-07-18  83.30  83.40  82.52  83.35  4020800
2 2014-07-17  84.35  84.63  83.33  83.63  1974000
3 2014-07-16  83.77  84.91  83.66  84.91  1755600
4 2014-07-15  84.30  84.38  83.20  83.58  1874700

# Чтение HTML-файлов из Интернета

In [27]:
# задаем URL-адрес HTML-файла
url = "http://www.fdic.gov/bank/individual/failed/banklist.html"
# читаем его
banks = pd.read_html(url)

In [28]:
# проверяем, как была прочитана
# часть первой таблицы
banks[0][0:5].iloc[:,0:2]

                                           Bank Name         City
0                Washington Federal Bank for Savings      Chicago
1    The Farmers and Merchants State Bank of Argonia      Argonia
2                                Fayette County Bank   Saint Elmo
3  Guaranty Bank, (d/b/a BestBank in Georgia & Mi...    Milwaukee
4                                     First NBC Bank  New Orleans

In [29]:
# считываем данные о котировках акций
df = pd.read_excel("Data/stocks.xlsx")
# записываем первые две строки в HTML
df.head(2).to_html("Data/stocks.html")
# смотрим HTML-файл в браузере
import webbrowser
webbrowser.open("Data/stocks.html")

True

# Чтение и запись HDF5-файлов

In [30]:
# задаем стартовое значение генератора случайных чисел
# для получения воспроизводимых результатов
np.random.seed(123456)
# создаем датафрейм, состоящий из дат и случайных чисел,
# записанных в трех столбцах 
df = pd.DataFrame(np.random.randn(8, 3), 
                  index=pd.date_range('1/1/2000', periods=8),
                  columns=['A', 'B', 'C'])

# создаем хранилище HDF5
store = pd.HDFStore("Data/store.h5")
store['df'] = df # сохранение произошло здесь
store

<class 'pandas.io.pytables.HDFStore'>
File path: Data/store.h5

In [31]:
# считываем данные хранилища HDF5 
store = pd.HDFStore("Data/store.h5")
df = store['df']
df[:5]

                   A         B         C
2000-01-01  0.469112 -0.282863 -1.509059
2000-01-02 -1.135632  1.212112 -0.173215
2000-01-03  0.119209 -1.044236 -0.861849
2000-01-04 -2.104569 -0.494929  1.071804
2000-01-05  0.721555 -0.706771 -1.039575

In [32]:
# этот программный код меняет датафрейм, но изменения не сохраняются
df.iloc[0].A = 1 
# чтобы сохранить изменения, присваиваем объект DataFrame 
# объекту-хранилищу HDF5
store['df'] = df
# теперь изменения сохранены
# следующий программный код загружает хранилище и 
# выводит первые две строки, демонстрируя,
# что сохранение выполнено
pd.HDFStore("Data/store.h5")['df'][:5] # сейчас датафрейм в хранилище

                   A         B         C
2000-01-01  1.000000 -0.282863 -1.509059
2000-01-02 -1.135632  1.212112 -0.173215
2000-01-03  0.119209 -1.044236 -0.861849
2000-01-04 -2.104569 -0.494929  1.071804
2000-01-05  0.721555 -0.706771 -1.039575

# Загрузка данных из Интернета и облака

In [33]:
# считываем csv непосредственно по URL-адресу
countries = pd.read_csv(
    "https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv")
countries[:5]

    Country  Region
0   Algeria  AFRICA
1    Angola  AFRICA
2     Benin  AFRICA
3  Botswana  AFRICA
4   Burkina  AFRICA

# Чтение из базы данных SQL и запись в базу данных SQL

In [34]:
# импортируем библиотеку SQLite
import sqlite3

# считываем данные о котировках акций из CSV-файла
msft = pd.read_csv("Data/msft.csv")
msft["Symbol"]="MSFT"
aapl = pd.read_csv("Data/aapl.csv")
aapl["Symbol"]="AAPL"

# создаем подключение
connection = sqlite3.connect("Data/stocks.sqlite")
# .to_sql() создаст базу SQL для хранения датафрейма
# в указанной таблице.  if_exists задает
# действие, которое нужно выполнить в том случае,
# если таблица уже существует
msft.to_sql("STOCK_DATA", connection, if_exists="replace")
aapl.to_sql("STOCK_DATA", connection, if_exists="append")

# подтверждаем отправку данных в базу и закрываем подключение
connection.commit()
connection.close()

In [35]:
# подключаемся к файлу базы данных
connection = sqlite3.connect("Data/stocks.sqlite")

# запрос всех записей в STOCK_DATA
# возвращает датафрейм
# index_col задает столбец, который нужно сделать
# индексом датафрейма
stocks = pd.io.sql.read_sql("SELECT * FROM STOCK_DATA;", 
                             connection, index_col='index')

# закрываем подключение
connection.close()

# выводим первые 5 наблюдений в извлеченных данных
stocks[:5]

            Date   Open   High    Low  Close   Volume Symbol
index                                                       
0      7/21/2014  83.46  83.53  81.81  81.93  2359300   MSFT
1      7/18/2014  83.30  83.40  82.52  83.35  4020800   MSFT
2      7/17/2014  84.35  84.63  83.33  83.63  1974000   MSFT
3      7/16/2014  83.77  84.91  83.66  84.91  1755600   MSFT
4      7/15/2014  84.30  84.38  83.20  83.58  1874700   MSFT

In [36]:
# открываем подключение
connection = sqlite3.connect("Data/stocks.sqlite")
# создаем строку-запрос
query = "SELECT * FROM STOCK_DATA WHERE " + \
        "Volume>29200100 AND Symbol='MSFT';"
# выполняем и закрываем подключение
items = pd.io.sql.read_sql(query, connection, index_col='index')
connection.close()
# выводим результат запроса
items

            Date   Open   High    Low  Close    Volume Symbol
index                                                        
1081   5/21/2010  42.22  42.35  40.99  42.00  33610800   MSFT
1097   4/29/2010  46.80  46.95  44.65  45.92  47076200   MSFT
1826   6/15/2007  89.80  92.10  89.55  92.04  30656400   MSFT
3455   3/16/2001  47.00  47.80  46.10  45.33  40806400   MSFT
3712   3/17/2000  49.50  50.00  48.29  50.00  50860500   MSFT

# Получение Базы данных по экономической статистике Федерального резервного банка Сент-Луиса

In [37]:
# импортируем пакет pandas_datareader
pd.core.common.is_list_like = pd.api.types.is_list_like
import pandas_datareader as pdr

In [38]:
# считываем данные по GDP из FRED
gdp = pdr.data.FredReader("GDP",
                     date(2012, 1, 1), 
                     date(2014, 1, 27))
gdp.read()[:5]

                  GDP
DATE                 
2012-01-01  16019.758
2012-04-01  16152.257
2012-07-01  16257.151
2012-10-01  16358.863
2013-01-01  16569.591

In [39]:
# получаем данные по показателю Compensation of employees: Wages and salaries
pdr.data.FredReader("A576RC1A027NBEA",
                date(1929, 1, 1),
                date(2013, 1, 1)).read()[:5]

            A576RC1A027NBEA
DATE                       
1929-01-01             50.5
1930-01-01             46.2
1931-01-01             39.2
1932-01-01             30.5
1933-01-01             29.0

# Получение данных Кеннета Френча

In [40]:
# считываем набор данных Global Factors из библиотеки Кеннета Френча
factors = pdr.data.FamaFrenchReader("Global_Factors").read()
factors[0][:5]

         Mkt-RF   SMB   HML   WML    RF
Date                                   
2010-01   -3.70  2.70 -0.29 -2.23  0.00
2010-02    1.24  0.14  0.10  1.59  0.00
2010-03    6.30 -0.26  3.18  4.26  0.01
2010-04    0.44  3.78  0.77  1.60  0.01
2010-05   -9.52  0.17 -2.54 -0.56  0.01

# Получение данных Всемирного банка 

In [41]:
from pandas_datareader import wb
# извлекаем все индикаторы
all_indicators = pdr.wb.get_indicators()
# выводим первые 5 индикаторов
all_indicators.iloc[:5,:2]

                     id                                     name
0    1.0.HCount.1.90usd          Poverty Headcount ($1.90 a day)
1     1.0.HCount.2.5usd          Poverty Headcount ($2.50 a day)
2  1.0.HCount.Mid10to50    Middle Class ($10-50 a day) Headcount
3       1.0.HCount.Ofcl  Official Moderate Poverty Rate-National
4   1.0.HCount.Poor4uds             Poverty Headcount ($4 a day)

In [42]:
# поиск индикаторов, связанных с продолжительностью жизни
le_indicators = pdr.wb.search("life expectancy")
# выводим первые три строки и первые два столбца
le_indicators.iloc[:5,:2]

                      id                                               name
8773         SE.SCH.LIFE  School life expectancy, primary to tertiary, b...
10170  SP.DYN.LE00.FE.IN           Life expectancy at birth, female (years)
10171     SP.DYN.LE00.IN            Life expectancy at birth, total (years)
10172  SP.DYN.LE00.MA.IN             Life expectancy at birth, male (years)
10173  SP.DYN.LE60.FE.IN                  Life expectancy at age 60, female

In [43]:
# получаем список стран, показываем код и название
countries = pdr.wb.get_countries()
# выводим фрагмент списка стран
countries.loc[0:5,['name', 'capitalCity', 'iso2c']]

          name       capitalCity iso2c
0        Aruba        Oranjestad    AW
1  Afghanistan             Kabul    AF
2       Africa                      A9
3       Angola            Luanda    AO
4      Albania            Tirane    AL
5      Andorra  Andorra la Vella    AD

In [44]:
# получаем данные о продолжительности жизни 
# для всех стран с 1980 по 2014 годы
le_data_all = pdr.wb.download(indicator="SP.DYN.LE00.IN", 
                          start='1980', 
                          end='2014')
le_data_all

                    SP.DYN.LE00.IN
country       year                
Canada        2014       81.953049
              2013       81.772049
              2012       81.583512
              2011       81.448780
              2010       81.197561
...                            ...
United States 1984       74.563415
              1983       74.463415
              1982       74.360976
              1981       74.009756
              1980       73.609756

[105 rows x 1 columns]

In [45]:
# по умолчанию будут возвращены данные только для США, Канады и Мексики
le_data_all.index.levels[0]

Index(['Canada', 'Mexico', 'United States'], dtype='object', name='country')

In [46]:
# отключаем предупреждения Anaconda
import warnings
warnings.simplefilter('ignore')
# получаем данные о продолжительности жизни 
# для всех стран с 1980 по 2014 годы
le_data_all = wb.download(indicator="SP.DYN.LE00.IN", 
                          country = countries['iso2c'],
                          start='1980', 
                          end='2012')
le_data_all

               SP.DYN.LE00.IN
country  year                
Aruba    2012          75.299
         2011          75.158
         2010          75.016
         2009          74.872
         2008          74.725
...                       ...
Zimbabwe 1984          60.965
         1983          60.746
         1982          60.386
         1981          59.921
         1980          59.390

[8712 rows x 1 columns]

In [47]:
#le_data_all.pivot(index='country', columns='year')
le_data = le_data_all.reset_index().pivot(index='country', 
                                          columns='year')
# смотрим транспонированные данные
le_data.iloc[:5,0:3]

               SP.DYN.LE00.IN                
year                     1980    1981    1982
country                                      
Afghanistan            41.853  42.513  43.217
Albania                70.207  70.416  70.635
Algeria                58.196  59.521  60.823
American Samoa            NaN     NaN     NaN
Andorra                   NaN     NaN     NaN

In [48]:
# определяем для каждого года страну с
# наименьшей продолжительностью жизни
country_with_least_expectancy = le_data.idxmin(axis=0)
country_with_least_expectancy[:5]

                year
SP.DYN.LE00.IN  1980       Cambodia
                1981       Cambodia
                1982    Timor-Leste
                1983    South Sudan
                1984    South Sudan
dtype: object

In [49]:
# определяем для каждого года минимальное значение
# продолжительности жизни
expectancy_for_least_country = le_data.min(axis=0)
expectancy_for_least_country[:5]

                year
SP.DYN.LE00.IN  1980    27.536
                1981    33.342
                1982    38.174
                1983    39.671
                1984    40.005
dtype: float64

In [50]:
# этот программный код объединяет два датафрейма вместе и мы получаем
# по каждому году страну с наименьшей продолжительностью жизни и
# наименьшее значение продолжительности жизни
least = pd.DataFrame(
    data = {'Country': country_with_least_expectancy.values,
            'Expectancy': expectancy_for_least_country.values},
    index = country_with_least_expectancy.index.levels[1])
least[:5]

          Country  Expectancy
year                         
1980     Cambodia      27.536
1981     Cambodia      33.342
1982  Timor-Leste      38.174
1983  South Sudan      39.671
1984  South Sudan      40.005