# Pandas Introduction

In this lesson we will cover some basic features of [Pandas](http://pandas.pydata.org).

Pandas là là thư viện mã nguồn mở với hiệu năng cao cho phân tích dữ liệu trong Python được phát triển bởi Wes McKinney  trong năm 2008. Chỉ với hơn 1 năm phát triển nó đã trở thành một thư viện chuẩn cho việc phân tích dữ liệu khi dùng Python. Pandas được xây dựng dựa trên các thuộc tính của NumPy và cung cấp các tính năng mà trên NumPy không có, và tất nhiên là pandas cũng cấp cấu trúc dữ liệu với ưu điểm nhanh và dễ sử dụng hơn, lấp đầy khoảng cách giữa hai ngôn ngữ thống kê là Python đối với R. 


Một số tính năng nổi bật của pandas:

* DataFrame đem lại sự linh hoạt và hiệu quả trong thao tác dữ liệu và lập chỉ mục;
* Là một công cụ cho phép đọc/ ghi dữ liệu giữa bộ nhớ và nhiều định dạng file: csv, text, excel, sql database, hdf5;
* Liên kết dữ liệu thông minh, xử lý được trường hợp dữ liệu bị thiếu. Tự động đưa dữ liệu lộn xộn về dạng có cấu trúc;
* Dễ dàng thay đổi bố cục của dữ liệu;
* Tích hợp cơ chế trượt, lập chỉ mục, lấy ra tập con từ tập dữ liệu lớn.
* Có thể thêm, xóa các cột dữ liệu;
* Tập hợp hoặc thay đổi dữ liệu với group by cho phép bạn thực hiện các toán tử trên tập dữ liệu;
* Hiệu quả cao trong trộn và kết hợp các tập dữ liệu;
* Lập chỉ mục theo các chiều của dữ liệu giúp thao tác giữa dữ liệu cao chiều và dữ liệu thấp chiều;
* Cung cấp hiệu suất tốt và có thể tăng tốc thậm chí hơn cả sử dụng Cython ( extension C cho python)
* Pandas được sử dụng rộng rãi trong cả học thuật và thương mại. Bao gồm thống kê, thương mại, phân tích, quảng cáo,…

In [1]:
import pandas as pd

## Series


Series là mảng một chiều giống như mảng Numpy, nhưng nó bao gồm thêm một bảng đánh label. 

Series có thể được khởi tạo thông qua NumPy, kiểu Dict hoặc các dữ liệu vô hướng bình thường

In [2]:
# From Numpy
import numpy as np
import calendar as cal

monthName = [cal.month_name[i] for i in np.arange(1,13)]
months = pd.Series(np.arange(1,13), index = monthName)
months

January       1
February      2
March         3
April         4
May           5
June          6
July          7
August        8
September     9
October      10
November     11
December     12
dtype: int32

In [3]:
months.index

Index(['January', 'February', 'March', 'April', 'May', 'June', 'July',
       'August', 'September', 'October', 'November', 'December'],
      dtype='object')

In [4]:
#From Dictionary

currencyDict = {"Vietnam": 'VND',
            'US': 'Dollars', 
            'Japan': 'Yen',
           'Thailand': 'Bath'}

currSeries = pd.Series(currencyDict)
currSeries

Vietnam         VND
US          Dollars
Japan           Yen
Thailand       Bath
dtype: object

In [5]:
# From scalar value

beerSeries = pd.Series('beer', index=['Tigers','Heniken','SaiGon'])
beerSeries

Tigers     beer
Heniken    beer
SaiGon     beer
dtype: object

Series có các thao tác gán, logic, tính toán với các biểu thức toán học hay thống kê bình thường như đã thao tác với NumPy.

In [6]:
months + 2, months ** 2

(January       3
 February      4
 March         5
 April         6
 May           7
 June          8
 July          9
 August       10
 September    11
 October      12
 November     13
 December     14
 dtype: int32, January        1
 February       4
 March          9
 April         16
 May           25
 June          36
 July          49
 August        64
 September     81
 October      100
 November     121
 December     144
 dtype: int32)

#### Querying a Series

Pandas has three indexing methods:

* `[ ]` work on labels of columns
* `.loc` works on labels of indexes and columns
* `.iloc` works on the positions of indexes and columns (so it only takes integers)

In [7]:
months.loc['June']

6

In [8]:
months.iloc[5]

6

In [9]:
# indexing a Series is similar to lists and arrays
currSeries['Vietnam']

'VND'

In [10]:
currSeries[['Vietnam','US']]

Vietnam        VND
US         Dollars
dtype: object

In [11]:
currSeries.iloc[[0,1]] # indexing supports lists

Vietnam        VND
US         Dollars
dtype: object

In [12]:
currSeries.iloc[1:] # indexing supports slices

US          Dollars
Japan           Yen
Thailand       Bath
dtype: object

In [13]:
beerSeries.loc['Lowen'] = 'beer' #add columns
beerSeries

Tigers     beer
Heniken    beer
SaiGon     beer
Lowen      beer
dtype: object

In [14]:
# append Series
appendSeries = currSeries.append(beerSeries)
appendSeries

Vietnam         VND
US          Dollars
Japan           Yen
Thailand       Bath
Tigers         beer
Heniken        beer
SaiGon         beer
Lowen          beer
dtype: object

### The DataFrame Data Structure

Two-dimensional size-mutable, potentially heterogeneous tabular data structure with labeled axes (rows and columns). 
Arithmetic operations align on both row and column labels. Can be thought of as a dict-like container for Series objects. 
The primary pandas data structure.

![image.png](attachment:image.png)

DataFrame là mảng hai chiều được gán nhãn, nhưng không giống như NumPy, kiểu dữ liệu các cột là không đồng nhất, cấu trúc dữ liệu thì giống với NumPy nhưng có khả năng thay đổi. DataFrame gồm các thuộc tính như sau:
* Có khái niệm như một Table hoặc  SpreadSheet dữ liệu
* Tương tự với mảng NumPy nhưng không phải là subclass của np.ndarray
* Các cột dữ liệu là các kiểu không đồng nhất: float64, int, bool, …
* Các cột của DataFrame là cấu trúc của Series
* Nó có thể xem như một kiểu dữ liệu Dict của một cấu trúc Series nhưng cả hai cột và hàng đều được đánh chỉ mục (index)
* Kích thước table có thể thay đổi: các cột có thể thêm hoặc xoá đi

In [15]:
import pandas as pd
purchase_1 = pd.Series({'Name': 'Chris',
                        'Item Purchased': 'Dog Food',
                        'Cost': 22.50})
purchase_2 = pd.Series({'Name': 'Kevyn',
                        'Item Purchased': 'Kitty Litter',
                        'Cost': 2.50})
purchase_3 = pd.Series({'Name': 'Vinod',
                        'Item Purchased': 'Bird Seed',
                        'Cost': 5.00})
df = pd.DataFrame([purchase_1, purchase_2, purchase_3], index=['Store 1', 'Store 1', 'Store 2'])

In [16]:
df

Unnamed: 0,Name,Item Purchased,Cost
Store 1,Chris,Dog Food,22.5
Store 1,Kevyn,Kitty Litter,2.5
Store 2,Vinod,Bird Seed,5.0


In [17]:
df.loc['Store 2']

Name                  Vinod
Item Purchased    Bird Seed
Cost                      5
Name: Store 2, dtype: object

In [18]:
type(df.loc['Store 2'])

pandas.core.series.Series

In [19]:
df.loc['Store 1']

Unnamed: 0,Name,Item Purchased,Cost
Store 1,Chris,Dog Food,22.5
Store 1,Kevyn,Kitty Litter,2.5


In [20]:
df.loc['Store 1','Cost']

Store 1    22.5
Store 1     2.5
Name: Cost, dtype: float64

In [21]:
df.loc['Store 1']['Cost']

Store 1    22.5
Store 1     2.5
Name: Cost, dtype: float64

In [22]:
df.loc[:,['Name', 'Cost']]

Unnamed: 0,Name,Cost
Store 1,Chris,22.5
Store 1,Kevyn,2.5
Store 2,Vinod,5.0


In [23]:
df.T

Unnamed: 0,Store 1,Store 1.1,Store 2
Name,Chris,Kevyn,Vinod
Item Purchased,Dog Food,Kitty Litter,Bird Seed
Cost,22.5,2.5,5


In [24]:
df.drop('Store 1')

Unnamed: 0,Name,Item Purchased,Cost
Store 2,Vinod,Bird Seed,5.0


In [25]:
df

Unnamed: 0,Name,Item Purchased,Cost
Store 1,Chris,Dog Food,22.5
Store 1,Kevyn,Kitty Litter,2.5
Store 2,Vinod,Bird Seed,5.0


In [26]:
? df.drop #Drop specified labels from rows or columns.

Object ` df.drop #Drop specified labels from rows or columns.` not found.


In [27]:
df['Location'] = None
df

Unnamed: 0,Name,Item Purchased,Cost,Location
Store 1,Chris,Dog Food,22.5,
Store 1,Kevyn,Kitty Litter,2.5,
Store 2,Vinod,Bird Seed,5.0,


In [28]:
# add a new column at a specific position
df.insert(0, 'ID', [1, 2, 3])

In [29]:
df

Unnamed: 0,ID,Name,Item Purchased,Cost,Location
Store 1,1,Chris,Dog Food,22.5,
Store 1,2,Kevyn,Kitty Litter,2.5,
Store 2,3,Vinod,Bird Seed,5.0,


In [30]:
path = 'C:/Users/Asus/Documents/GitHub/DA-in-Python/data/'

df = pd.read_csv(path + 'olympics.csv')
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,,№ Summer,01 !,02 !,03 !,Total,№ Winter,01 !,02 !,03 !,Total,№ Games,01 !,02 !,03 !,Combined total
1,Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
2,Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
3,Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
4,Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12


In [31]:
df = pd.read_csv(path + 'olympics.csv', index_col=0, skiprows=1)
df.head()

Unnamed: 0,№ Summer,01 !,02 !,03 !,Total,№ Winter,01 !.1,02 !.1,03 !.1,Total.1,№ Games,01 !.2,02 !.2,03 !.2,Combined total
Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


In [32]:
df.columns

Index(['№ Summer', '01 !', '02 !', '03 !', 'Total', '№ Winter', '01 !.1',
       '02 !.1', '03 !.1', 'Total.1', '№ Games', '01 !.2', '02 !.2', '03 !.2',
       'Combined total'],
      dtype='object')

In [33]:
df.index

Index(['Afghanistan (AFG)', 'Algeria (ALG)', 'Argentina (ARG)',
       'Armenia (ARM)', 'Australasia (ANZ) [ANZ]', 'Australia (AUS) [AUS] [Z]',
       'Austria (AUT)', 'Azerbaijan (AZE)', 'Bahamas (BAH)', 'Bahrain (BRN)',
       ...
       'Uzbekistan (UZB)', 'Venezuela (VEN)', 'Vietnam (VIE)',
       'Virgin Islands (ISV)', 'Yugoslavia (YUG) [YUG]',
       'Independent Olympic Participants (IOP) [IOP]', 'Zambia (ZAM) [ZAM]',
       'Zimbabwe (ZIM) [ZIM]', 'Mixed team (ZZX) [ZZX]', 'Totals'],
      dtype='object', length=147)

In [34]:
df.dtypes

№ Summer          int64
01 !              int64
02 !              int64
03 !              int64
Total             int64
№ Winter          int64
01 !.1            int64
02 !.1            int64
03 !.1            int64
Total.1           int64
№ Games           int64
01 !.2            int64
02 !.2            int64
03 !.2            int64
Combined total    int64
dtype: object

In [35]:
for col in df.columns:
    if col[:2]=='01':
        df.rename(columns={col:'Gold' + col[4:]}, inplace=True)
    if col[:2]=='02':
        df.rename(columns={col:'Silver' + col[4:]}, inplace=True)
    if col[:2]=='03':
        df.rename(columns={col:'Bronze' + col[4:]}, inplace=True)
    if col[:1]=='№':
        df.rename(columns={col:'#' + col[1:]}, inplace=True) 

df.head()

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


In [36]:
names_ids = df.index.str.split('\s\(') # split the index by '('
names_ids

Index([                           ['Afghanistan', 'AFG)'],
                                      ['Algeria', 'ALG)'],
                                    ['Argentina', 'ARG)'],
                                      ['Armenia', 'ARM)'],
                            ['Australasia', 'ANZ) [ANZ]'],
                          ['Australia', 'AUS) [AUS] [Z]'],
                                      ['Austria', 'AUT)'],
                                   ['Azerbaijan', 'AZE)'],
                                      ['Bahamas', 'BAH)'],
                                      ['Bahrain', 'BRN)'],
       ...
                                   ['Uzbekistan', 'UZB)'],
                                    ['Venezuela', 'VEN)'],
                                      ['Vietnam', 'VIE)'],
                               ['Virgin Islands', 'ISV)'],
                             ['Yugoslavia', 'YUG) [YUG]'],
       ['Independent Olympic Participants', 'IOP) [IOP]'],
                                 ['Zambia', '

In [37]:
df.index = names_ids.str[0]
df.index

Index(['Afghanistan', 'Algeria', 'Argentina', 'Armenia', 'Australasia',
       'Australia', 'Austria', 'Azerbaijan', 'Bahamas', 'Bahrain',
       ...
       'Uzbekistan', 'Venezuela', 'Vietnam', 'Virgin Islands', 'Yugoslavia',
       'Independent Olympic Participants', 'Zambia', 'Zimbabwe', 'Mixed team',
       'Totals'],
      dtype='object', length=147)

In [38]:
df['ID'] = names_ids.str[1].str[:3] 
df = df.drop('Totals')
df.tail()

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total,ID
Yugoslavia,16,26,29,28,83,14,0,3,1,4,30,26,32,29,87,YUG
Independent Olympic Participants,1,0,1,2,3,0,0,0,0,0,1,0,1,2,3,IOP
Zambia,12,0,1,1,2,0,0,0,0,0,12,0,1,1,2,ZAM
Zimbabwe,12,3,4,1,8,1,0,0,0,0,13,3,4,1,8,ZIM
Mixed team,3,8,5,4,17,0,0,0,0,0,3,8,5,4,17,ZZX


### Querying a DataFrame

In [39]:
df['Gold'] > 0

Afghanistan                         False
Algeria                              True
Argentina                            True
Armenia                              True
Australasia                          True
Australia                            True
Austria                              True
Azerbaijan                           True
Bahamas                              True
Bahrain                             False
Barbados                            False
Belarus                              True
Belgium                              True
Bermuda                             False
Bohemia                             False
Botswana                            False
Brazil                               True
British West Indies                 False
Bulgaria                             True
Burundi                              True
Cameroon                             True
Canada                               True
Chile                                True
China                             

In [40]:
only_gold = df.where(df['Gold'] > 0)
only_gold

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total,ID
Afghanistan,,,,,,,,,,,,,,,,
Algeria,12.0,5.0,2.0,8.0,15.0,3.0,0.0,0.0,0.0,0.0,15.0,5.0,2.0,8.0,15.0,ALG
Argentina,23.0,18.0,24.0,28.0,70.0,18.0,0.0,0.0,0.0,0.0,41.0,18.0,24.0,28.0,70.0,ARG
Armenia,5.0,1.0,2.0,9.0,12.0,6.0,0.0,0.0,0.0,0.0,11.0,1.0,2.0,9.0,12.0,ARM
Australasia,2.0,3.0,4.0,5.0,12.0,0.0,0.0,0.0,0.0,0.0,2.0,3.0,4.0,5.0,12.0,ANZ
Australia,25.0,139.0,152.0,177.0,468.0,18.0,5.0,3.0,4.0,12.0,43.0,144.0,155.0,181.0,480.0,AUS
Austria,26.0,18.0,33.0,35.0,86.0,22.0,59.0,78.0,81.0,218.0,48.0,77.0,111.0,116.0,304.0,AUT
Azerbaijan,5.0,6.0,5.0,15.0,26.0,5.0,0.0,0.0,0.0,0.0,10.0,6.0,5.0,15.0,26.0,AZE
Bahamas,15.0,5.0,2.0,5.0,12.0,0.0,0.0,0.0,0.0,0.0,15.0,5.0,2.0,5.0,12.0,BAH
Bahrain,,,,,,,,,,,,,,,,


In [41]:
only_gold['Gold'].count()

99

In [42]:
df['Gold'].count()

146

In [43]:
len(df[(df['Gold'] > 0) | (df['Gold.1'] > 0)])

100

In [44]:
df[(df['Gold.1'] > 0) & (df['Gold'] == 0)]

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total,ID
Liechtenstein,16,0,0,0,0,18,2,2,5,9,34,2,2,5,9,LIE


#### Indexing Dataframes

DataFrame phải hiển thị mọi mục trong dữ liệu của nó. Vì vậy, nếu chỉ mục có một cấp, cấp đó sẽ được mở rộng hoàn toàn. Nếu nó có hai cấp độ, cấp đầu tiên sẽ được nhóm lại và cấp thứ hai sẽ được mở rộng hoàn toàn, nếu nó có cấp độ cây, đầu tiên hai nhóm sẽ được nhóm lại và thứ hai sẽ được mở rộng, v.v.

In [45]:
df = pd.read_csv(path + 'census.csv')
df.head()

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,COUNTY,STNAME,CTYNAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,...,RDOMESTICMIG2011,RDOMESTICMIG2012,RDOMESTICMIG2013,RDOMESTICMIG2014,RDOMESTICMIG2015,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015
0,40,3,6,1,0,Alabama,Alabama,4779736,4780127,4785161,...,0.002295,-0.193196,0.381066,0.582002,-0.467369,1.030015,0.826644,1.383282,1.724718,0.712594
1,50,3,6,1,1,Alabama,Autauga County,54571,54571,54660,...,7.242091,-2.915927,-3.012349,2.265971,-2.530799,7.606016,-2.626146,-2.722002,2.59227,-2.187333
2,50,3,6,1,3,Alabama,Baldwin County,182265,182265,183193,...,14.83296,17.647293,21.845705,19.243287,17.197872,15.844176,18.559627,22.727626,20.317142,18.293499
3,50,3,6,1,5,Alabama,Barbour County,27457,27457,27341,...,-4.728132,-2.50069,-7.056824,-3.904217,-10.543299,-4.874741,-2.758113,-7.167664,-3.978583,-10.543299
4,50,3,6,1,7,Alabama,Bibb County,22915,22919,22861,...,-5.527043,-5.068871,-6.201001,-0.177537,0.177258,-5.088389,-4.363636,-5.403729,0.754533,1.107861


In [46]:
df.columns

Index(['SUMLEV', 'REGION', 'DIVISION', 'STATE', 'COUNTY', 'STNAME', 'CTYNAME',
       'CENSUS2010POP', 'ESTIMATESBASE2010', 'POPESTIMATE2010',
       'POPESTIMATE2011', 'POPESTIMATE2012', 'POPESTIMATE2013',
       'POPESTIMATE2014', 'POPESTIMATE2015', 'NPOPCHG_2010', 'NPOPCHG_2011',
       'NPOPCHG_2012', 'NPOPCHG_2013', 'NPOPCHG_2014', 'NPOPCHG_2015',
       'BIRTHS2010', 'BIRTHS2011', 'BIRTHS2012', 'BIRTHS2013', 'BIRTHS2014',
       'BIRTHS2015', 'DEATHS2010', 'DEATHS2011', 'DEATHS2012', 'DEATHS2013',
       'DEATHS2014', 'DEATHS2015', 'NATURALINC2010', 'NATURALINC2011',
       'NATURALINC2012', 'NATURALINC2013', 'NATURALINC2014', 'NATURALINC2015',
       'INTERNATIONALMIG2010', 'INTERNATIONALMIG2011', 'INTERNATIONALMIG2012',
       'INTERNATIONALMIG2013', 'INTERNATIONALMIG2014', 'INTERNATIONALMIG2015',
       'DOMESTICMIG2010', 'DOMESTICMIG2011', 'DOMESTICMIG2012',
       'DOMESTICMIG2013', 'DOMESTICMIG2014', 'DOMESTICMIG2015', 'NETMIG2010',
       'NETMIG2011', 'NETMIG2012', 'NETMI

In [47]:
df['SUMLEV'].unique()

array([40, 50], dtype=int64)

In [48]:
df=df[df['SUMLEV'] == 50]
df.head()

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,COUNTY,STNAME,CTYNAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,...,RDOMESTICMIG2011,RDOMESTICMIG2012,RDOMESTICMIG2013,RDOMESTICMIG2014,RDOMESTICMIG2015,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015
1,50,3,6,1,1,Alabama,Autauga County,54571,54571,54660,...,7.242091,-2.915927,-3.012349,2.265971,-2.530799,7.606016,-2.626146,-2.722002,2.59227,-2.187333
2,50,3,6,1,3,Alabama,Baldwin County,182265,182265,183193,...,14.83296,17.647293,21.845705,19.243287,17.197872,15.844176,18.559627,22.727626,20.317142,18.293499
3,50,3,6,1,5,Alabama,Barbour County,27457,27457,27341,...,-4.728132,-2.50069,-7.056824,-3.904217,-10.543299,-4.874741,-2.758113,-7.167664,-3.978583,-10.543299
4,50,3,6,1,7,Alabama,Bibb County,22915,22919,22861,...,-5.527043,-5.068871,-6.201001,-0.177537,0.177258,-5.088389,-4.363636,-5.403729,0.754533,1.107861
5,50,3,6,1,9,Alabama,Blount County,57322,57322,57373,...,1.807375,-1.177622,-1.748766,-2.062535,-1.36997,1.859511,-0.84858,-1.402476,-1.577232,-0.884411


In [49]:
columns_to_keep = ['STNAME',
                   'CTYNAME',
                   'BIRTHS2010',
                   'BIRTHS2011',
                   'BIRTHS2012',
                   'BIRTHS2013',
                   'BIRTHS2014',
                   'BIRTHS2015',
                   'POPESTIMATE2010',
                   'POPESTIMATE2011',
                   'POPESTIMATE2012',
                   'POPESTIMATE2013',
                   'POPESTIMATE2014',
                   'POPESTIMATE2015']
df = df[columns_to_keep]
df.head()

Unnamed: 0,STNAME,CTYNAME,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015
1,Alabama,Autauga County,151,636,615,574,623,600,54660,55253,55175,55038,55290,55347
2,Alabama,Baldwin County,517,2187,2092,2160,2186,2240,183193,186659,190396,195126,199713,203709
3,Alabama,Barbour County,70,335,300,283,260,269,27341,27226,27159,26973,26815,26489
4,Alabama,Bibb County,44,266,245,259,247,253,22861,22733,22642,22512,22549,22583
5,Alabama,Blount County,183,744,710,646,618,603,57373,57711,57776,57734,57658,57673


In [50]:
df = df.set_index(['STNAME', 'CTYNAME'])


In [51]:
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015
STNAME,CTYNAME,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Alabama,Autauga County,151,636,615,574,623,600,54660,55253,55175,55038,55290,55347
Alabama,Baldwin County,517,2187,2092,2160,2186,2240,183193,186659,190396,195126,199713,203709
Alabama,Barbour County,70,335,300,283,260,269,27341,27226,27159,26973,26815,26489
Alabama,Bibb County,44,266,245,259,247,253,22861,22733,22642,22512,22549,22583
Alabama,Blount County,183,744,710,646,618,603,57373,57711,57776,57734,57658,57673


In [52]:
df.loc['Michigan', 'Washtenaw County']

BIRTHS2010            977
BIRTHS2011           3826
BIRTHS2012           3780
BIRTHS2013           3662
BIRTHS2014           3683
BIRTHS2015           3709
POPESTIMATE2010    345563
POPESTIMATE2011    349048
POPESTIMATE2012    351213
POPESTIMATE2013    354289
POPESTIMATE2014    357029
POPESTIMATE2015    358880
Name: (Michigan, Washtenaw County), dtype: int64

In [53]:
df.loc[ [('Michigan', 'Washtenaw County'),
         ('Michigan', 'Wayne County')] ]

Unnamed: 0_level_0,Unnamed: 1_level_0,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015
STNAME,CTYNAME,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Michigan,Washtenaw County,977,3826,3780,3662,3683,3709,345563,349048,351213,354289,357029,358880
Michigan,Wayne County,5918,23819,23270,23377,23607,23586,1815199,1801273,1792514,1775713,1766008,1759335


### Missing values

In [54]:
df = pd.read_csv(path + 'log.csv')
df

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,
9,1469974694,cheryl,intro.html,14,,


In [55]:
df.fillna?

In [56]:
df = df.set_index('time')
df = df.sort_index()
df

Unnamed: 0_level_0,user,video,playback position,paused,volume
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1469974424,cheryl,intro.html,5,False,10.0
1469974424,sue,advanced.html,23,False,10.0
1469974454,cheryl,intro.html,6,,
1469974454,sue,advanced.html,24,,
1469974484,cheryl,intro.html,7,,
1469974514,cheryl,intro.html,8,,
1469974524,sue,advanced.html,25,,
1469974544,cheryl,intro.html,9,,
1469974554,sue,advanced.html,26,,
1469974574,cheryl,intro.html,10,,


In [57]:
df = df.sort_index()

In [58]:
df = df.reset_index()
df = df.set_index(['time', 'user'])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,video,playback position,paused,volume
time,user,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1469974424,cheryl,intro.html,5,False,10.0
1469974424,sue,advanced.html,23,False,10.0
1469974454,cheryl,intro.html,6,,
1469974454,sue,advanced.html,24,,
1469974484,cheryl,intro.html,7,,
1469974514,cheryl,intro.html,8,,
1469974524,sue,advanced.html,25,,
1469974544,cheryl,intro.html,9,,
1469974554,sue,advanced.html,26,,
1469974574,cheryl,intro.html,10,,


In [64]:
df = df.fillna(method = 'ffill')
df

Unnamed: 0_level_0,Unnamed: 1_level_0,video,playback position,paused,volume
time,user,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1469974424,cheryl,intro.html,5,False,10.0
1469974424,sue,advanced.html,23,False,10.0
1469974454,cheryl,intro.html,6,False,10.0
1469974454,sue,advanced.html,24,False,10.0
1469974484,cheryl,intro.html,7,False,10.0
1469974514,cheryl,intro.html,8,False,10.0
1469974524,sue,advanced.html,25,False,10.0
1469974544,cheryl,intro.html,9,False,10.0
1469974554,sue,advanced.html,26,False,10.0
1469974574,cheryl,intro.html,10,False,10.0
