In [13]:
import pandas as pd
from matplotlib import pyplot as plot
bac = pd.read_csv('bac.csv')

In [6]:
# Check for missing values
bac.isna().sum()

Date               0
Adj Close Price    0
dtype: int64

In [7]:
bac.columns

Index(['Date', 'Adj Close Price'], dtype='object')

In [8]:
# Convert to datetime
from datetime import datetime
bac['Date'] = pd.to_datetime(bac['Date'])

In [9]:
# Set index, use inplace=True
bac.set_index('Date', inplace=True)

In [10]:
bac.head()

Unnamed: 0_level_0,Adj Close Price
Date,Unnamed: 1_level_1
1990-01-02,1.711862
1990-01-03,1.725632
1990-01-04,1.688917
1990-01-05,1.6522
1990-01-08,1.661379


In [11]:
# Provide the descriptive (summary) statistics

bac.describe()

Unnamed: 0,Adj Close Price
count,7507.0
mean,16.31361
std,10.910945
min,0.699197
25%,7.526543
50%,14.31816
75%,23.844322
max,43.195049


In [17]:
#actual main imp section 4 Ml for time series 
bac = pd.read_csv("df_bankofamerica.csv", index_col=0, parse_dates=True)
# Convert the daily data to monthly data
bac= bac.resample(rule='M').last() # Don't use how='last', deprecated
# rule is monthly
# last means last day of the month

In [20]:
bac.describe()

Unnamed: 0,Adj Close Price
count,358.0
mean,16.381505
std,10.949006
min,0.70948
25%,7.886336
50%,14.250627
75%,23.9929
max,42.624523


In [23]:
from pandas import DataFrame
# reframe as supervised learning
# lag observation (t-1) is the input variable and t is the output variable.
df3 = DataFrame()

In [24]:
# Create 12 months of lag values to predict current observation
# Shift of 12 months
for i in range(12,0,-1):
    df3[['t-'+str(i)]] = bac.shift(i)
print(df3)

                 t-12       t-11       t-10        t-9        t-8        t-7  \
Date                                                                           
1990-01-31        NaN        NaN        NaN        NaN        NaN        NaN   
1990-02-28        NaN        NaN        NaN        NaN        NaN        NaN   
1990-03-31        NaN        NaN        NaN        NaN        NaN        NaN   
1990-04-30        NaN        NaN        NaN        NaN        NaN        NaN   
1990-05-31        NaN        NaN        NaN        NaN        NaN        NaN   
1990-06-30        NaN        NaN        NaN        NaN        NaN        NaN   
1990-07-31        NaN        NaN        NaN        NaN        NaN        NaN   
1990-08-31        NaN        NaN        NaN        NaN        NaN   1.542054   
1990-09-30        NaN        NaN        NaN        NaN   1.542054   1.687537   
1990-10-31        NaN        NaN        NaN   1.542054   1.687537   1.469485   
1990-11-30        NaN        NaN   1.542

In [25]:
# Create column t
df3['t'] = bac.values
print(df3.head(13))

                t-12      t-11      t-10       t-9       t-8       t-7  \
Date                                                                     
1990-01-31       NaN       NaN       NaN       NaN       NaN       NaN   
1990-02-28       NaN       NaN       NaN       NaN       NaN       NaN   
1990-03-31       NaN       NaN       NaN       NaN       NaN       NaN   
1990-04-30       NaN       NaN       NaN       NaN       NaN       NaN   
1990-05-31       NaN       NaN       NaN       NaN       NaN       NaN   
1990-06-30       NaN       NaN       NaN       NaN       NaN       NaN   
1990-07-31       NaN       NaN       NaN       NaN       NaN       NaN   
1990-08-31       NaN       NaN       NaN       NaN       NaN  1.542054   
1990-09-30       NaN       NaN       NaN       NaN  1.542054  1.687537   
1990-10-31       NaN       NaN       NaN  1.542054  1.687537  1.469485   
1990-11-30       NaN       NaN  1.542054  1.687537  1.469485  1.441042   
1990-12-31       NaN  1.542054  1.6875

In [26]:
# Create a new subsetted dataframe, removing Nans from first 12 rows
df3_bac = df3[13:]
print(df3_bac)

                 t-12       t-11       t-10        t-9        t-8        t-7  \
Date                                                                           
1991-02-28   1.687537   1.469485   1.441042   1.525887   1.476664   1.412676   
1991-03-31   1.469485   1.441042   1.525887   1.476664   1.412676   1.341841   
1991-04-30   1.441042   1.525887   1.476664   1.412676   1.341841   0.879137   
1991-05-31   1.525887   1.476664   1.412676   1.341841   0.879137   0.709480   
1991-06-30   1.476664   1.412676   1.341841   0.879137   0.709480   0.987102   
1991-07-31   1.412676   1.341841   0.879137   0.709480   0.987102   1.002662   
1991-08-31   1.341841   0.879137   0.709480   0.987102   1.002662   1.232781   
1991-09-30   0.879137   0.709480   0.987102   1.002662   1.232781   1.282093   
1991-10-31   0.709480   0.987102   1.002662   1.232781   1.282093   1.595426   
1991-11-30   0.987102   1.002662   1.232781   1.282093   1.595426   1.699101   
1991-12-31   1.002662   1.232781   1.282

In [27]:
# save to new file
df3_bac.to_csv('mybac_lags_12months_features.csv')