In [10]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from pprint import pprint
%matplotlib inline

In [11]:
df = pd.read_csv('clients.csv')

In [12]:
df.columns

Index(['date', 'node', 'country', 'transport', 'version', 'lower', 'upper',
       'clients', 'frac'],
      dtype='object')

In [13]:
# Convert date strings to datetime objects
df['date'] = pd.to_datetime(df['date'])

In [14]:
# Group data by country

# Obtains a mapping of country to row indicies within df
cntry_dfs = df.groupby('country').groups 
# For each country, create a dataframe using the locations specified by the corresponding
# country Index object within df
cntry_dfs = {country: df.loc[ctry_idxs]
             for country, ctry_idxs in cntry_dfs.items()}
cntry_dfs

{'??':              date    node country transport version  lower  upper  clients  \
 211    2011-03-06   relay      ??       NaN     NaN    NaN    NaN     8886   
 426    2011-09-01   relay      ??       NaN     NaN    NaN    NaN    21932   
 643    2011-09-02   relay      ??       NaN     NaN    NaN    NaN    21417   
 861    2011-09-04   relay      ??       NaN     NaN    NaN    NaN    21889   
 1077   2011-09-05   relay      ??       NaN     NaN    NaN    NaN    22367   
 1294   2011-09-06   relay      ??       NaN     NaN    NaN    NaN    20826   
 1513   2011-09-07   relay      ??       NaN     NaN    NaN    NaN    19898   
 1732   2011-09-08   relay      ??       NaN     NaN    NaN    NaN    19480   
 1951   2011-09-09   relay      ??       NaN     NaN    NaN    NaN    16659   
 2169   2011-09-10   relay      ??       NaN     NaN    NaN    NaN    15342   
 2387   2011-09-11   relay      ??       NaN     NaN    NaN    NaN    15096   
 2605   2011-09-12   relay      ??       NaN  

In [15]:
cntry_dfs['iq'].head()

Unnamed: 0,date,node,country,transport,version,lower,upper,clients,frac
92,2011-03-06,relay,iq,,,,,374,11
307,2011-09-01,relay,iq,,,,,490,10
523,2011-09-02,relay,iq,,,,,384,10
738,2011-09-04,relay,iq,,,,,443,12
955,2011-09-05,relay,iq,,,,,448,12


In [16]:
# Group data by year

# Maps years to end index starting from the first element in the dataframe
yrs = df.groupby(pd.Grouper(key='date', freq='Y')).groups

cur_idx = 0
yrs_dfs = {}
for stamp, end_idx in yrs.items():
    yrs_dfs[stamp.year] = df[cur_idx:end_idx]
    cur_idx = end_idx
yrs_dfs

{2011:             date    node country transport version  lower  upper  clients  \
 0     2011-03-06   relay      a1       NaN     NaN    NaN    NaN     1443   
 1     2011-03-06   relay      a2       NaN     NaN    NaN    NaN      424   
 2     2011-03-06   relay      ad       NaN     NaN    NaN    NaN       70   
 3     2011-03-06   relay      ae       NaN     NaN    NaN    NaN     8395   
 4     2011-03-06   relay      af       NaN     NaN    NaN    NaN      170   
 5     2011-03-06   relay      ag       NaN     NaN    NaN    NaN       57   
 6     2011-03-06   relay      ai       NaN     NaN    NaN    NaN        5   
 7     2011-03-06   relay      al       NaN     NaN    NaN    NaN      256   
 8     2011-03-06   relay      am       NaN     NaN    NaN    NaN      107   
 9     2011-03-06   relay      an       NaN     NaN    NaN    NaN       87   
 10    2011-03-06   relay      ao       NaN     NaN    NaN    NaN       88   
 11    2011-03-06   relay      ap       NaN     NaN    NaN

In [17]:
# Groups countries further by year

for cntry, cntry_df in cntry_dfs.items():
    yrs = cntry_df.groupby(pd.Grouper(key='date', freq='Y')).groups
    
    cur_idx = 0
    yrs_dfs = {}
    for stamp, end_idx in yrs.items():
        yrs_dfs[stamp.year] = cntry_df[cur_idx:end_idx]
        cur_idx = end_idx

    # Replace the countries data with a year to data mapping
    cntry_dfs[cntry] = yrs_dfs

In [18]:
cntry_dfs['us']

{2011:             date    node country transport version     lower     upper  \
 196   2011-03-06   relay      us       NaN     NaN       NaN       NaN   
 413   2011-09-01   relay      us       NaN     NaN       NaN       NaN   
 630   2011-09-02   relay      us       NaN     NaN       NaN       NaN   
 845   2011-09-04   relay      us       NaN     NaN       NaN       NaN   
 1063  2011-09-05   relay      us       NaN     NaN       NaN       NaN   
 1279  2011-09-06   relay      us       NaN     NaN       NaN       NaN   
 1498  2011-09-07   relay      us       NaN     NaN       NaN       NaN   
 1717  2011-09-08   relay      us       NaN     NaN   89095.0  225036.0   
 1936  2011-09-09   relay      us       NaN     NaN   87704.0  230492.0   
 2154  2011-09-10   relay      us       NaN     NaN       NaN       NaN   
 2371  2011-09-11   relay      us       NaN     NaN  107606.0  205129.0   
 2589  2011-09-12   relay      us       NaN     NaN  100276.0  193553.0   
 2805  2011-09-13  