In [1]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import statsmodels.api as sm
from statsmodels.formula.api import ols
import seaborn as sns
import matplotlib.pyplot as plt
from imblearn.over_sampling import SMOTE
import warnings
warnings.filterwarnings("ignore")

covid_df = pd.read_csv('multivariate_eng_df.csv')
covid_df.columns.values

array(['Date', 'STATE', 'PROVINCE_STATE_NAME', 'Completeness_pct',
       'Administered_Dose1_Recip', 'Administered_Dose1_Recip_5Plus',
       'Administered_Dose1_Recip_12Plus',
       'Administered_Dose1_Recip_18Plus',
       'Administered_Dose1_Recip_65Plus', 'Series_Complete_Yes',
       'Series_Complete_5Plus', 'Series_Complete_5to17',
       'Series_Complete_12Plus', 'Series_Complete_18Plus',
       'Series_Complete_65Plus', 'Booster_Doses', 'Booster_Doses_5Plus',
       'Booster_Doses_12Plus', 'Booster_Doses_18Plus',
       'Booster_Doses_50Plus', 'Booster_Doses_65Plus',
       'Second_Booster_50Plus', 'Second_Booster_65Plus',
       'Bivalent_Booster_5Plus', 'Bivalent_Booster_12Plus',
       'Bivalent_Booster_18Plus', 'Bivalent_Booster_65Plus',
       'PEOPLE_DEATH_NEW_COUNT', 'PEOPLE_POSITIVE_NEW_CASES_COUNT',
       'TOT_POP', 'WA_MALE', 'WA_FEMALE', 'BA_MALE', 'BA_FEMALE',
       'IA_MALE', 'IA_FEMALE', 'AA_MALE', 'AA_FEMALE', 'NA_MALE',
       'NA_FEMALE', 'TOM_MALE', 'TOM_F

In [2]:
covid_df = covid_df.drop(columns=['new_cases_1 lag', 'new_cases_2_lag',
       'new_cases_3_lag', 'new_cases_4_lag', 'new_cases_7_lag',
       'new_cases_30_lag', 'new_cases_50_lag', 'new_cases_150_lag',
       'new_cases_350_lag', 'new_deaths_1_lag', 'new_deaths_2_lag',
       'new_deaths_3_lag', 'new_deaths_4_lag', 'new_deaths_7_lag',
       'new_deaths_30_lag', 'new_deaths_50_lag'])

# You can still see the lag working properly here

In [3]:
threshold_date = '2020-03-01'

# Convert the 'Date' column to datetime if it's not already
covid_df['Date'] = pd.to_datetime(covid_df['Date'])

# Filter the DataFrame to remove observations prior to the threshold date
covid_df = covid_df[covid_df['Date'] >= threshold_date]

columns_to_drop_1 = ['STATE']
covid_df = covid_df.drop(columns=columns_to_drop_1)

In [4]:
covid_df_top_10 = covid_df.loc[covid_df['PROVINCE_STATE_NAME'].isin(['California', 'Texas', 'Florida', 'New York', 'Pennsylvania', 'Illinois', 'Ohio', 'Georgia', 'North Carolina', 'Michigan'])]

# You can still see the lag working properly here

In [5]:

cali_multi_df = covid_df_top_10.loc[covid_df['PROVINCE_STATE_NAME'].isin(['California'])]
cali_multi_df['new_cases_1 lag'] = cali_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(1)
cali_multi_df['new_cases_2_lag'] = cali_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(2)
cali_multi_df['new_cases_3_lag'] = cali_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(3)
cali_multi_df['new_cases_4_lag'] = cali_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(4)
cali_multi_df['new_cases_7_lag'] = cali_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(7)
cali_multi_df['new_cases_30_lag'] = cali_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(30)
cali_multi_df['new_cases_50_lag'] = cali_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(50)
cali_multi_df['new_cases_150_lag'] = cali_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(150)
cali_multi_df['new_cases_350_lag'] = cali_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(350)
cali_multi_df['new_deaths_1_lag'] = cali_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(1)
cali_multi_df['new_deaths_2_lag'] = cali_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(2)
cali_multi_df['new_deaths_3_lag'] = cali_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(3)
cali_multi_df['new_deaths_4_lag'] = cali_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(4)
cali_multi_df['new_deaths_7_lag'] = cali_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(7)
cali_multi_df['new_deaths_30_lag'] = cali_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(30)
cali_multi_df['new_deaths_50_lag'] = cali_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(50)


texas_multi_df = covid_df_top_10.loc[covid_df['PROVINCE_STATE_NAME'].isin(['Texas'])]
texas_multi_df['new_cases_1 lag'] = texas_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(1)
texas_multi_df['new_cases_2_lag'] = texas_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(2)
texas_multi_df['new_cases_3_lag'] = texas_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(3)
texas_multi_df['new_cases_4_lag'] = texas_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(4)
texas_multi_df['new_cases_7_lag'] = texas_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(7)
texas_multi_df['new_cases_30_lag'] = texas_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(30)
texas_multi_df['new_cases_50_lag'] = texas_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(50)
texas_multi_df['new_cases_150_lag'] = texas_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(150)
texas_multi_df['new_cases_350_lag'] = texas_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(350)
texas_multi_df['new_deaths_1_lag'] = texas_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(1)
texas_multi_df['new_deaths_2_lag'] = texas_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(2)
texas_multi_df['new_deaths_3_lag'] = texas_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(3)
texas_multi_df['new_deaths_4_lag'] = texas_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(4)
texas_multi_df['new_deaths_7_lag'] = texas_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(7)
texas_multi_df['new_deaths_30_lag'] = texas_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(30)
texas_multi_df['new_deaths_50_lag'] = texas_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(50)


florida_multi_df = covid_df_top_10.loc[covid_df['PROVINCE_STATE_NAME'].isin(['Florida'])]
florida_multi_df['new_cases_1 lag'] = florida_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(1)
florida_multi_df['new_cases_2_lag'] = florida_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(2)
florida_multi_df['new_cases_3_lag'] = florida_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(3)
florida_multi_df['new_cases_4_lag'] = florida_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(4)
florida_multi_df['new_cases_7_lag'] = florida_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(7)
florida_multi_df['new_cases_30_lag'] = florida_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(30)
florida_multi_df['new_cases_50_lag'] = florida_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(50)
florida_multi_df['new_cases_150_lag'] = florida_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(150)
florida_multi_df['new_cases_350_lag'] = florida_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(350)
florida_multi_df['new_deaths_1_lag'] = florida_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(1)
florida_multi_df['new_deaths_2_lag'] = florida_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(2)
florida_multi_df['new_deaths_3_lag'] = florida_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(3)
florida_multi_df['new_deaths_4_lag'] = florida_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(4)
florida_multi_df['new_deaths_7_lag'] = florida_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(7)
florida_multi_df['new_deaths_30_lag'] = florida_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(30)
florida_multi_df['new_deaths_50_lag'] = florida_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(50)



ny_multi_df = covid_df_top_10.loc[covid_df['PROVINCE_STATE_NAME'].isin(['New York'])]
ny_multi_df['new_cases_1 lag'] = ny_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(1)
ny_multi_df['new_cases_2_lag'] = ny_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(2)
ny_multi_df['new_cases_3_lag'] = ny_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(3)
ny_multi_df['new_cases_4_lag'] = ny_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(4)
ny_multi_df['new_cases_7_lag'] = ny_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(7)
ny_multi_df['new_cases_30_lag'] = ny_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(30)
ny_multi_df['new_cases_50_lag'] = ny_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(50)
ny_multi_df['new_cases_150_lag'] = ny_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(150)
ny_multi_df['new_cases_350_lag'] = ny_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(350)
ny_multi_df['new_deaths_1_lag'] = ny_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(1)
ny_multi_df['new_deaths_2_lag'] = ny_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(2)
ny_multi_df['new_deaths_3_lag'] = ny_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(3)
ny_multi_df['new_deaths_4_lag'] = ny_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(4)
ny_multi_df['new_deaths_7_lag'] = ny_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(7)
ny_multi_df['new_deaths_30_lag'] = ny_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(30)
ny_multi_df['new_deaths_50_lag'] = ny_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(50)



penn_multi_df = covid_df_top_10.loc[covid_df['PROVINCE_STATE_NAME'].isin(['Pennsylvania'])]
penn_multi_df['new_cases_1 lag'] = penn_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(1)
penn_multi_df['new_cases_2_lag'] = penn_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(2)
penn_multi_df['new_cases_3_lag'] = penn_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(3)
penn_multi_df['new_cases_4_lag'] = penn_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(4)
penn_multi_df['new_cases_7_lag'] = penn_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(7)
penn_multi_df['new_cases_30_lag'] = penn_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(30)
penn_multi_df['new_cases_50_lag'] = penn_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(50)
penn_multi_df['new_cases_150_lag'] = penn_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(150)
penn_multi_df['new_cases_350_lag'] = penn_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(350)
penn_multi_df['new_deaths_1_lag'] = penn_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(1)
penn_multi_df['new_deaths_2_lag'] = penn_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(2)
penn_multi_df['new_deaths_3_lag'] = penn_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(3)
penn_multi_df['new_deaths_4_lag'] = penn_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(4)
penn_multi_df['new_deaths_7_lag'] = penn_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(7)
penn_multi_df['new_deaths_30_lag'] = penn_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(30)
penn_multi_df['new_deaths_50_lag'] = penn_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(50)



illinois_multi_df = covid_df_top_10.loc[covid_df['PROVINCE_STATE_NAME'].isin(['Illinois'])]
illinois_multi_df['new_cases_1 lag'] = illinois_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(1)
illinois_multi_df['new_cases_2_lag'] = illinois_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(2)
illinois_multi_df['new_cases_3_lag'] = illinois_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(3)
illinois_multi_df['new_cases_4_lag'] = illinois_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(4)
illinois_multi_df['new_cases_7_lag'] = illinois_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(7)
illinois_multi_df['new_cases_30_lag'] = illinois_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(30)
illinois_multi_df['new_cases_50_lag'] = illinois_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(50)
illinois_multi_df['new_cases_150_lag'] = illinois_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(150)
illinois_multi_df['new_cases_350_lag'] = illinois_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(350)
illinois_multi_df['new_deaths_1_lag'] = illinois_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(1)
illinois_multi_df['new_deaths_2_lag'] = illinois_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(2)
illinois_multi_df['new_deaths_3_lag'] = illinois_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(3)
illinois_multi_df['new_deaths_4_lag'] = illinois_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(4)
illinois_multi_df['new_deaths_7_lag'] = illinois_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(7)
illinois_multi_df['new_deaths_30_lag'] = illinois_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(30)
illinois_multi_df['new_deaths_50_lag'] = illinois_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(50)



ohio_multi_df = covid_df_top_10.loc[covid_df['PROVINCE_STATE_NAME'].isin(['Ohio'])]
ohio_multi_df['new_cases_1 lag'] = ohio_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(1)
ohio_multi_df['new_cases_2_lag'] = ohio_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(2)
ohio_multi_df['new_cases_3_lag'] = ohio_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(3)
ohio_multi_df['new_cases_4_lag'] = ohio_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(4)
ohio_multi_df['new_cases_7_lag'] = ohio_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(7)
ohio_multi_df['new_cases_30_lag'] = ohio_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(30)
ohio_multi_df['new_cases_50_lag'] = ohio_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(50)
ohio_multi_df['new_cases_150_lag'] = ohio_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(150)
ohio_multi_df['new_cases_350_lag'] = ohio_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(350)
ohio_multi_df['new_deaths_1_lag'] = ohio_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(1)
ohio_multi_df['new_deaths_2_lag'] = ohio_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(2)
ohio_multi_df['new_deaths_3_lag'] = ohio_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(3)
ohio_multi_df['new_deaths_4_lag'] = ohio_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(4)
ohio_multi_df['new_deaths_7_lag'] = ohio_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(7)
ohio_multi_df['new_deaths_30_lag'] = ohio_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(30)
ohio_multi_df['new_deaths_50_lag'] = ohio_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(50)



georgia_multi_df = covid_df_top_10.loc[covid_df['PROVINCE_STATE_NAME'].isin(['Georgia'])]
georgia_multi_df['new_cases_1 lag'] = georgia_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(1)
georgia_multi_df['new_cases_2_lag'] = georgia_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(2)
georgia_multi_df['new_cases_3_lag'] = georgia_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(3)
georgia_multi_df['new_cases_4_lag'] = georgia_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(4)
georgia_multi_df['new_cases_7_lag'] = georgia_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(7)
georgia_multi_df['new_cases_30_lag'] = georgia_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(30)
georgia_multi_df['new_cases_50_lag'] = georgia_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(50)
georgia_multi_df['new_cases_150_lag'] = georgia_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(150)
georgia_multi_df['new_cases_350_lag'] = georgia_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(350)
georgia_multi_df['new_deaths_1_lag'] = georgia_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(1)
georgia_multi_df['new_deaths_2_lag'] = georgia_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(2)
georgia_multi_df['new_deaths_3_lag'] = georgia_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(3)
georgia_multi_df['new_deaths_4_lag'] = georgia_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(4)
georgia_multi_df['new_deaths_7_lag'] = georgia_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(7)
georgia_multi_df['new_deaths_30_lag'] = georgia_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(30)
georgia_multi_df['new_deaths_50_lag'] = georgia_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(50)



nc_multi_df = covid_df_top_10.loc[covid_df['PROVINCE_STATE_NAME'].isin(['North Carolina'])]
nc_multi_df['new_cases_1 lag'] = nc_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(1)
nc_multi_df['new_cases_2_lag'] = nc_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(2)
nc_multi_df['new_cases_3_lag'] = nc_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(3)
nc_multi_df['new_cases_4_lag'] = nc_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(4)
nc_multi_df['new_cases_7_lag'] = nc_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(7)
nc_multi_df['new_cases_30_lag'] = nc_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(30)
nc_multi_df['new_cases_50_lag'] = nc_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(50)
nc_multi_df['new_cases_150_lag'] = nc_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(150)
nc_multi_df['new_cases_350_lag'] = nc_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(350)
nc_multi_df['new_deaths_1_lag'] = nc_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(1)
nc_multi_df['new_deaths_2_lag'] = nc_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(2)
nc_multi_df['new_deaths_3_lag'] = nc_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(3)
nc_multi_df['new_deaths_4_lag'] = nc_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(4)
nc_multi_df['new_deaths_7_lag'] = nc_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(7)
nc_multi_df['new_deaths_30_lag'] = nc_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(30)
nc_multi_df['new_deaths_50_lag'] = nc_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(50)



mich_multi_df = covid_df_top_10.loc[covid_df['PROVINCE_STATE_NAME'].isin(['Michigan'])]
mich_multi_df['new_cases_1 lag'] = mich_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(1)
mich_multi_df['new_cases_2_lag'] = mich_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(2)
mich_multi_df['new_cases_3_lag'] = mich_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(3)
mich_multi_df['new_cases_4_lag'] = mich_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(4)
mich_multi_df['new_cases_7_lag'] = mich_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(7)
mich_multi_df['new_cases_30_lag'] = mich_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(30)
mich_multi_df['new_cases_50_lag'] = mich_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(50)
mich_multi_df['new_cases_150_lag'] = mich_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(150)
mich_multi_df['new_cases_350_lag'] = mich_multi_df['PEOPLE_POSITIVE_NEW_CASES_COUNT'].shift(350)
mich_multi_df['new_deaths_1_lag'] = mich_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(1)
mich_multi_df['new_deaths_2_lag'] = mich_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(2)
mich_multi_df['new_deaths_3_lag'] = mich_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(3)
mich_multi_df['new_deaths_4_lag'] = mich_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(4)
mich_multi_df['new_deaths_7_lag'] = mich_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(7)
mich_multi_df['new_deaths_30_lag'] = mich_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(30)
mich_multi_df['new_deaths_50_lag'] = mich_multi_df['PEOPLE_DEATH_NEW_COUNT'].shift(50)



In [6]:

#covid_df.to_csv('multivariate_eng_df.csv', index=False)

cali_multi_df.to_csv('cali_multi_df.csv', index=False)
texas_multi_df.to_csv('texas_multi_df.csv', index=False)
florida_multi_df.to_csv('florida_multi_df.csv', index=False)
ny_multi_df.to_csv('ny_multi_df.csv', index=False)
penn_multi_df.to_csv('penn_multi_df.csv', index=False)
illinois_multi_df.to_csv('illinois_multi_df.csv', index=False)
ohio_multi_df.to_csv('ohio_multi_df.csv', index=False)
georgia_multi_df.to_csv('georgia_multi_df.csv', index=False)
nc_multi_df.to_csv('nc_multi_df.csv', index=False)
mich_multi_df.to_csv('mich_multi_df.csv', index=False)

In [7]:
univariate_df = covid_df_top_10.loc[:, ['Date', 'PROVINCE_STATE_NAME', 'PEOPLE_POSITIVE_NEW_CASES_COUNT']]

In [8]:

cali_uni_df = univariate_df.loc[covid_df['PROVINCE_STATE_NAME'].isin(['California'])]


texas_uni_df = univariate_df.loc[covid_df['PROVINCE_STATE_NAME'].isin(['Texas'])]

florida_uni_df = univariate_df.loc[covid_df['PROVINCE_STATE_NAME'].isin(['Florida'])]


ny_uni_df = univariate_df.loc[covid_df['PROVINCE_STATE_NAME'].isin(['New York'])]

penn_uni_df = univariate_df.loc[covid_df['PROVINCE_STATE_NAME'].isin(['Pennsylvania'])]


illinois_uni_df = univariate_df.loc[covid_df['PROVINCE_STATE_NAME'].isin(['Illinois'])]
ohio_uni_df = univariate_df.loc[covid_df['PROVINCE_STATE_NAME'].isin(['Ohio'])]


georgia_uni_df = univariate_df.loc[covid_df['PROVINCE_STATE_NAME'].isin(['Georgia'])]

nc_uni_df = univariate_df.loc[covid_df['PROVINCE_STATE_NAME'].isin(['North Carolina'])]

mich_uni_df = univariate_df.loc[covid_df['PROVINCE_STATE_NAME'].isin(['Michigan'])]

In [9]:

cali_uni_df.to_csv('california_uni.csv', index=False)
texas_uni_df.to_csv('texas_uni.csv', index=False)
florida_uni_df.to_csv('florida_uni.csv', index=False)
ny_uni_df.to_csv('newyork_uni.csv', index=False)
penn_uni_df.to_csv('penn_uni.csv', index=False)
illinois_uni_df.to_csv('illinois_uni.csv', index=False)
ohio_uni_df.to_csv('ohio_uni.csv', index=False)
georgia_uni_df.to_csv('georgia_uni.csv', index=False)
nc_uni_df.to_csv('northcarolina_uni.csv', index=False)
mich_uni_df.to_csv('michigan_uni.csv', index=False)

In [10]:
ny_multi_df[['Date', 'new_cases_3_lag']]

Unnamed: 0,Date,new_cases_3_lag
3950,2020-03-01,
3951,2020-03-02,
3952,2020-03-03,
3953,2020-03-04,0.0
3954,2020-03-05,0.0
...,...,...
4735,2022-04-25,5245.0
4736,2022-04-26,4086.0
4737,2022-04-27,4205.0
4738,2022-04-28,3239.0
