# Web scrapping standings data
This notebook is for the testing of code for web scrapping the standings data by date from [Basketball Reference](https://basketball-reference.com)

In [3]:
#Setup some basic parameters
base_url = 'https://www.basketball-reference.com'
season_end_year = 2013
conference = 'eastern'

url = f'{base_url}/leagues/NBA_{season_end_year}_standings_by_date_{conference}_conference.html'

print(url)

https://www.basketball-reference.com/leagues/NBA_2013_standings_by_date_eastern_conference.html


## Pandas library
The pandas package includes a `read_html` function that can take in the url of the standings by date and covert it to a `DataFrame` and could forego the complications of writing my own webscrapping function.

In [4]:
import pandas as pd

In [5]:
dfs = pd.read_html(url, index_col=0, header=None, parse_dates=True)
dfs

[October            October                                            \
                        1st           2nd           3rd           4th   
 Oct 30, 2012  CLE (1-0) T1  MIA (1-0) T1  BOS (0-1) T3  WAS (0-1) T3   
 Oct 31, 2012  CHI (1-0) T1  CLE (1-0) T1  IND (1-0) T1  MIA (1-0) T1   
 November          November      November      November      November   
 NaN                    1st           2nd           3rd           4th   
 Nov 1, 2012   CHI (1-0) T1  CLE (1-0) T1  IND (1-0) T1  MIA (1-0) T1   
 ...                    ...           ...           ...           ...   
 Apr 13, 2013   MIA (63-16)   NYK (52-27)   IND (49-30)   BRK (47-32)   
 Apr 14, 2013   MIA (64-16)   NYK (53-27)   IND (49-31)   BRK (47-33)   
 Apr 15, 2013   MIA (65-16)   NYK (53-28)   IND (49-31)   BRK (48-33)   
 Apr 16, 2013   MIA (65-16)   NYK (53-28)   IND (49-31)   BRK (48-33)   
 Apr 17, 2013   MIA (66-16)   NYK (54-28)   IND (49-32)   BRK (49-33)   
 
 October                                         

In [6]:
type(dfs)

list

In [7]:
len(dfs)

1

In [8]:
dfs[0]

October,October,October,October,October,October,October,October,October,October,October,October,October,October,October,October
Unnamed: 0_level_1,1st,2nd,3rd,4th,5th,6th,7th,8th,9th,10th,11th,12th,13th,14th,15th
"Oct 30, 2012",CLE (1-0) T1,MIA (1-0) T1,BOS (0-1) T3,WAS (0-1) T3,,,,,,,,,,,
"Oct 31, 2012",CHI (1-0) T1,CLE (1-0) T1,IND (1-0) T1,MIA (1-0) T1,PHI (1-0) T1,BOS (0-1) T6,DET (0-1) T6,TOR (0-1) T6,WAS (0-1) T6,,,,,,
November,November,November,November,November,November,November,November,November,November,November,November,November,November,November,November
,1st,2nd,3rd,4th,5th,6th,7th,8th,9th,10th,11th,12th,13th,14th,15th
"Nov 1, 2012",CHI (1-0) T1,CLE (1-0) T1,IND (1-0) T1,MIA (1-0) T1,PHI (1-0) T1,BOS (0-1) T6,DET (0-1) T6,TOR (0-1) T6,WAS (0-1) T6,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
"Apr 13, 2013",MIA (63-16),NYK (52-27),IND (49-30),BRK (47-32),ATL (44-36),CHI (43-36),BOS (41-39),MIL (37-43),PHI (32-47),TOR (31-48),WAS (29-51),DET (28-52),CLE (24-55),ORL (20-60),CHA (19-61)
"Apr 14, 2013",MIA (64-16),NYK (53-27),IND (49-31),BRK (47-33),ATL (44-36),CHI (43-37),BOS (41-39),MIL (37-43),PHI (33-47),TOR (32-48),WAS (29-51),DET (28-52),CLE (24-56),ORL (20-60),CHA (19-61)
"Apr 15, 2013",MIA (65-16),NYK (53-28),IND (49-31),BRK (48-33),ATL (44-36),CHI (44-37),BOS (41-39),MIL (37-44),PHI (33-48),TOR (32-48),DET (29-52) T11,WAS (29-52) T11,CLE (24-57),CHA (20-61) T14,ORL (20-61) T14
"Apr 16, 2013",MIA (65-16),NYK (53-28),IND (49-31),BRK (48-33),ATL (44-37) T5,CHI (44-37) T5,BOS (41-39),MIL (37-44),PHI (33-48) T9,TOR (33-48) T9,DET (29-52) T11,WAS (29-52) T11,CLE (24-57),CHA (20-61) T14,ORL (20-61) T14


In [9]:
dfs[0].index

Index(['Oct 30, 2012', 'Oct 31, 2012',     'November',            nan,
        'Nov 1, 2012',  'Nov 2, 2012',  'Nov 3, 2012',  'Nov 4, 2012',
        'Nov 5, 2012',  'Nov 6, 2012',
       ...
        'Apr 8, 2013',  'Apr 9, 2013', 'Apr 10, 2013', 'Apr 11, 2013',
       'Apr 12, 2013', 'Apr 13, 2013', 'Apr 14, 2013', 'Apr 15, 2013',
       'Apr 16, 2013', 'Apr 17, 2013'],
      dtype='object', length=182)

In [10]:
dfs[0].columns

MultiIndex([('October',  '1st'),
            ('October',  '2nd'),
            ('October',  '3rd'),
            ('October',  '4th'),
            ('October',  '5th'),
            ('October',  '6th'),
            ('October',  '7th'),
            ('October',  '8th'),
            ('October',  '9th'),
            ('October', '10th'),
            ('October', '11th'),
            ('October', '12th'),
            ('October', '13th'),
            ('October', '14th'),
            ('October', '15th')],
           names=['October', None])

In [11]:
dfs[0].columns = dfs[0].columns.droplevel(0)

In [12]:
dfs[0]

Unnamed: 0,1st,2nd,3rd,4th,5th,6th,7th,8th,9th,10th,11th,12th,13th,14th,15th
"Oct 30, 2012",CLE (1-0) T1,MIA (1-0) T1,BOS (0-1) T3,WAS (0-1) T3,,,,,,,,,,,
"Oct 31, 2012",CHI (1-0) T1,CLE (1-0) T1,IND (1-0) T1,MIA (1-0) T1,PHI (1-0) T1,BOS (0-1) T6,DET (0-1) T6,TOR (0-1) T6,WAS (0-1) T6,,,,,,
November,November,November,November,November,November,November,November,November,November,November,November,November,November,November,November
,1st,2nd,3rd,4th,5th,6th,7th,8th,9th,10th,11th,12th,13th,14th,15th
"Nov 1, 2012",CHI (1-0) T1,CLE (1-0) T1,IND (1-0) T1,MIA (1-0) T1,PHI (1-0) T1,BOS (0-1) T6,DET (0-1) T6,TOR (0-1) T6,WAS (0-1) T6,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
"Apr 13, 2013",MIA (63-16),NYK (52-27),IND (49-30),BRK (47-32),ATL (44-36),CHI (43-36),BOS (41-39),MIL (37-43),PHI (32-47),TOR (31-48),WAS (29-51),DET (28-52),CLE (24-55),ORL (20-60),CHA (19-61)
"Apr 14, 2013",MIA (64-16),NYK (53-27),IND (49-31),BRK (47-33),ATL (44-36),CHI (43-37),BOS (41-39),MIL (37-43),PHI (33-47),TOR (32-48),WAS (29-51),DET (28-52),CLE (24-56),ORL (20-60),CHA (19-61)
"Apr 15, 2013",MIA (65-16),NYK (53-28),IND (49-31),BRK (48-33),ATL (44-36),CHI (44-37),BOS (41-39),MIL (37-44),PHI (33-48),TOR (32-48),DET (29-52) T11,WAS (29-52) T11,CLE (24-57),CHA (20-61) T14,ORL (20-61) T14
"Apr 16, 2013",MIA (65-16),NYK (53-28),IND (49-31),BRK (48-33),ATL (44-37) T5,CHI (44-37) T5,BOS (41-39),MIL (37-44),PHI (33-48) T9,TOR (33-48) T9,DET (29-52) T11,WAS (29-52) T11,CLE (24-57),CHA (20-61) T14,ORL (20-61) T14


In [13]:
dfs[0].iloc[3,:]

1st      1st
2nd      2nd
3rd      3rd
4th      4th
5th      5th
6th      6th
7th      7th
8th      8th
9th      9th
10th    10th
11th    11th
12th    12th
13th    13th
14th    14th
15th    15th
Name: nan, dtype: object

In [14]:
dfs[0].index

Index(['Oct 30, 2012', 'Oct 31, 2012',     'November',            nan,
        'Nov 1, 2012',  'Nov 2, 2012',  'Nov 3, 2012',  'Nov 4, 2012',
        'Nov 5, 2012',  'Nov 6, 2012',
       ...
        'Apr 8, 2013',  'Apr 9, 2013', 'Apr 10, 2013', 'Apr 11, 2013',
       'Apr 12, 2013', 'Apr 13, 2013', 'Apr 14, 2013', 'Apr 15, 2013',
       'Apr 16, 2013', 'Apr 17, 2013'],
      dtype='object', length=182)

In [15]:
foo = dfs[0][dfs[0].index.notna()]
foo

Unnamed: 0,1st,2nd,3rd,4th,5th,6th,7th,8th,9th,10th,11th,12th,13th,14th,15th
"Oct 30, 2012",CLE (1-0) T1,MIA (1-0) T1,BOS (0-1) T3,WAS (0-1) T3,,,,,,,,,,,
"Oct 31, 2012",CHI (1-0) T1,CLE (1-0) T1,IND (1-0) T1,MIA (1-0) T1,PHI (1-0) T1,BOS (0-1) T6,DET (0-1) T6,TOR (0-1) T6,WAS (0-1) T6,,,,,,
November,November,November,November,November,November,November,November,November,November,November,November,November,November,November,November
"Nov 1, 2012",CHI (1-0) T1,CLE (1-0) T1,IND (1-0) T1,MIA (1-0) T1,PHI (1-0) T1,BOS (0-1) T6,DET (0-1) T6,TOR (0-1) T6,WAS (0-1) T6,,,,,,
"Nov 2, 2012",CHI (2-0) T1,CHA (1-0) T1,MIL (1-0) T1,NYK (1-0) T1,ORL (1-0) T1,PHI (1-0) T1,CLE (1-1) T7,IND (1-1) T7,MIA (1-1) T7,ATL (0-1) T10,BOS (0-2) T10,DET (0-2) T10,TOR (0-1) T10,WAS (0-1) T10,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
"Apr 13, 2013",MIA (63-16),NYK (52-27),IND (49-30),BRK (47-32),ATL (44-36),CHI (43-36),BOS (41-39),MIL (37-43),PHI (32-47),TOR (31-48),WAS (29-51),DET (28-52),CLE (24-55),ORL (20-60),CHA (19-61)
"Apr 14, 2013",MIA (64-16),NYK (53-27),IND (49-31),BRK (47-33),ATL (44-36),CHI (43-37),BOS (41-39),MIL (37-43),PHI (33-47),TOR (32-48),WAS (29-51),DET (28-52),CLE (24-56),ORL (20-60),CHA (19-61)
"Apr 15, 2013",MIA (65-16),NYK (53-28),IND (49-31),BRK (48-33),ATL (44-36),CHI (44-37),BOS (41-39),MIL (37-44),PHI (33-48),TOR (32-48),DET (29-52) T11,WAS (29-52) T11,CLE (24-57),CHA (20-61) T14,ORL (20-61) T14
"Apr 16, 2013",MIA (65-16),NYK (53-28),IND (49-31),BRK (48-33),ATL (44-37) T5,CHI (44-37) T5,BOS (41-39),MIL (37-44),PHI (33-48) T9,TOR (33-48) T9,DET (29-52) T11,WAS (29-52) T11,CLE (24-57),CHA (20-61) T14,ORL (20-61) T14


In [16]:
from datetime import datetime


In [17]:
foo.index.tolist()

['Oct 30, 2012',
 'Oct 31, 2012',
 'November',
 'Nov 1, 2012',
 'Nov 2, 2012',
 'Nov 3, 2012',
 'Nov 4, 2012',
 'Nov 5, 2012',
 'Nov 6, 2012',
 'Nov 7, 2012',
 'Nov 8, 2012',
 'Nov 9, 2012',
 'Nov 10, 2012',
 'Nov 11, 2012',
 'Nov 12, 2012',
 'Nov 13, 2012',
 'Nov 14, 2012',
 'Nov 15, 2012',
 'Nov 16, 2012',
 'Nov 17, 2012',
 'Nov 18, 2012',
 'Nov 19, 2012',
 'Nov 20, 2012',
 'Nov 21, 2012',
 'Nov 22, 2012',
 'Nov 23, 2012',
 'Nov 24, 2012',
 'Nov 25, 2012',
 'Nov 26, 2012',
 'Nov 27, 2012',
 'Nov 28, 2012',
 'Nov 29, 2012',
 'Nov 30, 2012',
 'December',
 'Dec 1, 2012',
 'Dec 2, 2012',
 'Dec 3, 2012',
 'Dec 4, 2012',
 'Dec 5, 2012',
 'Dec 6, 2012',
 'Dec 7, 2012',
 'Dec 8, 2012',
 'Dec 9, 2012',
 'Dec 10, 2012',
 'Dec 11, 2012',
 'Dec 12, 2012',
 'Dec 13, 2012',
 'Dec 14, 2012',
 'Dec 15, 2012',
 'Dec 16, 2012',
 'Dec 17, 2012',
 'Dec 18, 2012',
 'Dec 19, 2012',
 'Dec 20, 2012',
 'Dec 21, 2012',
 'Dec 22, 2012',
 'Dec 23, 2012',
 'Dec 24, 2012',
 'Dec 25, 2012',
 'Dec 26, 2012',
 'Dec 

In [18]:
start_date = foo.index[0]
end_date = foo.index[-1]
print(start_date)
print(end_date)

Oct 30, 2012
Apr 17, 2013


In [19]:
bar = pd.date_range(start_date, end_date, freq='MS')
bar

DatetimeIndex(['2012-11-01', '2012-12-01', '2013-01-01', '2013-02-01',
               '2013-03-01', '2013-04-01'],
              dtype='datetime64[ns]', freq='MS')

In [20]:
baz = bar.strftime('%B')
baz

Index(['November', 'December', 'January', 'February', 'March', 'April'], dtype='object')

In [21]:
zoo = foo.index.isin(baz)
zoo

array([False, False,  True, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False,  True, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False,  True, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False,  True, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
        True, False,

In [22]:
import numpy as np
np.logical_not(zoo)

array([ True,  True, False,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True, False,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True, False,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True, False,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
       False,  True,

In [24]:
foo = foo[np.logical_not(zoo)]
foo

Unnamed: 0,1st,2nd,3rd,4th,5th,6th,7th,8th,9th,10th,11th,12th,13th,14th,15th
"Oct 30, 2012",CLE (1-0) T1,MIA (1-0) T1,BOS (0-1) T3,WAS (0-1) T3,,,,,,,,,,,
"Oct 31, 2012",CHI (1-0) T1,CLE (1-0) T1,IND (1-0) T1,MIA (1-0) T1,PHI (1-0) T1,BOS (0-1) T6,DET (0-1) T6,TOR (0-1) T6,WAS (0-1) T6,,,,,,
"Nov 1, 2012",CHI (1-0) T1,CLE (1-0) T1,IND (1-0) T1,MIA (1-0) T1,PHI (1-0) T1,BOS (0-1) T6,DET (0-1) T6,TOR (0-1) T6,WAS (0-1) T6,,,,,,
"Nov 2, 2012",CHI (2-0) T1,CHA (1-0) T1,MIL (1-0) T1,NYK (1-0) T1,ORL (1-0) T1,PHI (1-0) T1,CLE (1-1) T7,IND (1-1) T7,MIA (1-1) T7,ATL (0-1) T10,BOS (0-2) T10,DET (0-2) T10,TOR (0-1) T10,WAS (0-1) T10,
"Nov 3, 2012",MIL (2-0) T1,BRK (1-0) T1,NYK (1-0) T1,ORL (1-0) T1,PHI (1-0) T1,CHI (2-1) T6,IND (2-1) T6,MIA (2-1) T6,CHA (1-1),BOS (1-2) T10,CLE (1-2) T10,ATL (0-1) T12,DET (0-2) T12,TOR (0-2) T12,WAS (0-2) T12
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
"Apr 13, 2013",MIA (63-16),NYK (52-27),IND (49-30),BRK (47-32),ATL (44-36),CHI (43-36),BOS (41-39),MIL (37-43),PHI (32-47),TOR (31-48),WAS (29-51),DET (28-52),CLE (24-55),ORL (20-60),CHA (19-61)
"Apr 14, 2013",MIA (64-16),NYK (53-27),IND (49-31),BRK (47-33),ATL (44-36),CHI (43-37),BOS (41-39),MIL (37-43),PHI (33-47),TOR (32-48),WAS (29-51),DET (28-52),CLE (24-56),ORL (20-60),CHA (19-61)
"Apr 15, 2013",MIA (65-16),NYK (53-28),IND (49-31),BRK (48-33),ATL (44-36),CHI (44-37),BOS (41-39),MIL (37-44),PHI (33-48),TOR (32-48),DET (29-52) T11,WAS (29-52) T11,CLE (24-57),CHA (20-61) T14,ORL (20-61) T14
"Apr 16, 2013",MIA (65-16),NYK (53-28),IND (49-31),BRK (48-33),ATL (44-37) T5,CHI (44-37) T5,BOS (41-39),MIL (37-44),PHI (33-48) T9,TOR (33-48) T9,DET (29-52) T11,WAS (29-52) T11,CLE (24-57),CHA (20-61) T14,ORL (20-61) T14


In [32]:
foo.columns = range(1, foo.shape[1] + 1)
foo


Unnamed: 0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
"Oct 30, 2012",CLE (1-0) T1,MIA (1-0) T1,BOS (0-1) T3,WAS (0-1) T3,,,,,,,,,,,
"Oct 31, 2012",CHI (1-0) T1,CLE (1-0) T1,IND (1-0) T1,MIA (1-0) T1,PHI (1-0) T1,BOS (0-1) T6,DET (0-1) T6,TOR (0-1) T6,WAS (0-1) T6,,,,,,
"Nov 1, 2012",CHI (1-0) T1,CLE (1-0) T1,IND (1-0) T1,MIA (1-0) T1,PHI (1-0) T1,BOS (0-1) T6,DET (0-1) T6,TOR (0-1) T6,WAS (0-1) T6,,,,,,
"Nov 2, 2012",CHI (2-0) T1,CHA (1-0) T1,MIL (1-0) T1,NYK (1-0) T1,ORL (1-0) T1,PHI (1-0) T1,CLE (1-1) T7,IND (1-1) T7,MIA (1-1) T7,ATL (0-1) T10,BOS (0-2) T10,DET (0-2) T10,TOR (0-1) T10,WAS (0-1) T10,
"Nov 3, 2012",MIL (2-0) T1,BRK (1-0) T1,NYK (1-0) T1,ORL (1-0) T1,PHI (1-0) T1,CHI (2-1) T6,IND (2-1) T6,MIA (2-1) T6,CHA (1-1),BOS (1-2) T10,CLE (1-2) T10,ATL (0-1) T12,DET (0-2) T12,TOR (0-2) T12,WAS (0-2) T12
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
"Apr 13, 2013",MIA (63-16),NYK (52-27),IND (49-30),BRK (47-32),ATL (44-36),CHI (43-36),BOS (41-39),MIL (37-43),PHI (32-47),TOR (31-48),WAS (29-51),DET (28-52),CLE (24-55),ORL (20-60),CHA (19-61)
"Apr 14, 2013",MIA (64-16),NYK (53-27),IND (49-31),BRK (47-33),ATL (44-36),CHI (43-37),BOS (41-39),MIL (37-43),PHI (33-47),TOR (32-48),WAS (29-51),DET (28-52),CLE (24-56),ORL (20-60),CHA (19-61)
"Apr 15, 2013",MIA (65-16),NYK (53-28),IND (49-31),BRK (48-33),ATL (44-36),CHI (44-37),BOS (41-39),MIL (37-44),PHI (33-48),TOR (32-48),DET (29-52) T11,WAS (29-52) T11,CLE (24-57),CHA (20-61) T14,ORL (20-61) T14
"Apr 16, 2013",MIA (65-16),NYK (53-28),IND (49-31),BRK (48-33),ATL (44-37) T5,CHI (44-37) T5,BOS (41-39),MIL (37-44),PHI (33-48) T9,TOR (33-48) T9,DET (29-52) T11,WAS (29-52) T11,CLE (24-57),CHA (20-61) T14,ORL (20-61) T14
