%md
# Prediction de cas de Covid 19 en Canada

- Felipe Gonzalez

Le but de cette projet est de predire le numero de cas des personnes contagiées par jour dans le provinces de Canada.

Le projet a 3 notebooks:

1. Collecte et integration de données
2. Traitement
3. Developpement du modele

## 3. Developpement du modèle

la variable cible est "numtoday" qui est le nombre de cas covid par jour

#### Chargement du donees

In [0]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data_df = spark.read.csv("/FileStore/tables/Covid_DB_08Mar/ForAnalysis/CovidAnalyzed", header = True, inferSchema = True)
data_df_forPrediction = spark.read.csv("/FileStore/tables/Covid_DB_08Mar/ForAnalysis/CovidForPrediction", header = True, inferSchema = True)

In [0]:
data_df_forPrediction.select("pruid","date","date_num","numtoday").show()


### Traitement

Les valeurs nulles des colonnes météo sont mises à zéro (la plupart d'entre elles sont, par exemple, pluie mm ou neige mm)

In [0]:
df = data_df.fillna(0.0)
df_predict_tmp = data_df_forPrediction.fillna(0.0)

### Procesus d'apprendisage

#### - Selection des predicteurs

la fonction suivante crée la matrice de corrélation

In [0]:
import matplotlib.pyplot as plt
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.stat import Correlation
from pyspark.sql.functions import round

def collerationmatrix(df, columns):
  vector_col = "corr_features"
  assembler = VectorAssembler(inputCols=columns, 
                              outputCol=vector_col)
  myGraph_vector = assembler.transform(df).select(vector_col)
  matrix = Correlation.corr(myGraph_vector, vector_col).collect()[0][0]
  corrmatrix = matrix.toArray().tolist()
  df_tmp = spark.createDataFrame(corrmatrix,columns)
  for col in columns:
    df_tmp = df_tmp.withColumn(col, round(df_tmp[col], 2)) 
  df_tmp.show()

##### Correlation attributs liées au covid et numtoday (Variable cible)

- *Correlation faible avec numtoday (<0.25)*: 'numprob', 'percentrecover', 'percentoday', 'percentdeath', 'percentactive'  

- *Correlation trop fort avec numtoday (<0.25)*: 'avgtotal_last7', 'numtotal_last7', 'numtotal_last14'

- *Correlation trop fort entre eux (>0.95)*:  
  -'ratetotal_last7', 'ratetotal_last14', 'avgincidence_last7'  
  -'avgdeaths_last7', 'avgratedeaths_last7', 'numdeaths_last7', 'numdeaths_last14', 'ratedeaths_last7', 'ratedeaths_last14'  

- Les attributs totales ne sont pas prises en compte (elles peuvent également être des variables cibles):  
  - 'numtotal', 'numdeaths', 'numtested', 'numrecover'
  
- Les attributs par jour ne sont pas prises en compte (elles peuvent également être des variables cibles):  
  - 'numdeathstoday'

In [0]:
features_covidDB =  ['ratetested', 'ratetotal', 'ratedeaths', 'avgtotal_last7', 'ratetotal_last14', 'ratedeaths_last14', 'ratetotal_last7', 'ratedeaths_last7', 'rateactive', 'numtoday'] #
#[ 'avgincidence_last7', 'avgdeaths_last7', 'avgratedeaths_last7', 'percentactive', 'percentdeath', 'numtoday']

df_tmp_covidDB = df.select(features_covidDB)   
df_tmp = collerationmatrix(df_tmp_covidDB, features_covidDB)

In [0]:
features_covidDB = ['pruid', 'numrecover', 'numactive', 'rateactive', 'numtestedtoday', 'numrecoveredtoday',                      
                     'numtotal_last7',  'numdeaths_last7', 'avgtotal_last7', 'avgdeaths_last7', 'numtoday']
df_tmp_covidDB = df.select(features_covidDB)   
df_tmp = collerationmatrix(df_tmp_covidDB, features_covidDB)

attributs à prendre en compte: 
- 'ratetested', 'ratetotal', 'ratedeaths', 'avgtotal_last7', 'ratetotal_last7'
-  'numrecover', 'numactive', 'rateactive', 'numtestedtoday', 'numrecoveredtoday',  'avgdeaths_last7'

##### Correlation attributs liées au METEO et numtoday (Variable cible)

In [0]:
features_weather = ['pruid', "date_num", 'MaxTemp', 'MinTemp', 'MeanTemp', 'HeatDegDays', 'CoolDegDays', 'TotalRain', 'TotalPrecip', 'SnowOnGrnd', 'DirOfMaxGust', 'SpdOfMaxGust', 'numtoday']
                
df_tmp_weather = df.select(features_weather)   
df_tmp = collerationmatrix(df_tmp_weather, features_weather)

Il n'y a pas une bonne corrélation entre les variables météo et numtoday car il existe plusieurs valeurs nulles pour certaines provinces. On peut considérer MeanTemp dont la corrélation avec numtoday est de -0,55

##### Correlation pupulation and numtoday

In [0]:
features_pop = ['pruid', 'TousAges', 'ans80_84', 'ans85_89', 'ans90_94', 'ans95_99', 'ans100etplus', 'AgeMedian', 'numtoday']
                #'TousAges',  'ans5_9', 'ans10_14', 'ans15_19', 'ans20_24', 'ans25_29', 'ans30_34', 'ans35_39', 'ans40_44', 'ans45_49', 'ans50_54',  'ans55_59', 'ans60_64', 'ans65_69', 'ans70_74', 'ans75_79',  ]
df_tmp_population = df.select(features_pop)   
df_tmp = collerationmatrix(df_tmp_population, features_pop)

Les corrélations entre les variables de population et numtoday (variable cible) sont très similaires puis qu'elles ont les mêmes valeurs pour chaque ligne d'une province.

#### - Les predicteurs:

Selecting predictors

In [0]:
#variables = [ 'pruid', 'date_num', 'numrecover','ratetested', 'ratetotal', 'ratedeaths', 
#       'numrecoveredtoday', 'numactive', 'rateactive', 'ratetotal_last7',            
#       'avgtotal_last7', 'avgdeaths_last7', 'MaxTemp',  'numtoday']


variables = [ 'pruid', 'date_num', 'numrecover','ratetotal', 
       'numrecoveredtoday', 'numactive', 'rateactive', 'ratetotal_last7',            
       'avgtotal_last7', 'avgdeaths_last7', 'MaxTemp',  'numtoday']



df_tmp = df.select(variables)
predicteurs = variables[:-1]
df_TMP = collerationmatrix(df_tmp, variables)

In [0]:
from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols=predicteurs, outputCol="predicteurs")
df_covid = assembler.transform(df_tmp)

#### - Split Data

In [0]:
# random
train, test = df_covid.randomSplit([0.8, 0.2], 345)
# in order
#train = df_covid.filter(df_covid.date_num < (ndays*0.8))
#test = df_covid.filter(df_covid.date_num >= (ndays*0.8))

#### - Entraînement du modèle (linear)

In [0]:
from pyspark.ml.regression import LinearRegression
lr_model = LinearRegression(featuresCol="predicteurs",labelCol="numtoday")
model = lr_model.fit(train)

## 4. Evaluation du model / Test

In [0]:
evaluation_summary = model.evaluate(test)
print("MAE:{}".format(evaluation_summary.meanAbsoluteError))
print("RMSE:{}".format(evaluation_summary.rootMeanSquaredError))
print("R-squared:{}".format(evaluation_summary.r2))

In [0]:
n = len(predicteurs)

predictions = model.transform(test)
predictions.select(predictions.columns[n::2]).show(50)


## 5. Prediction

#### Prediction nombre de cas le 8 mars 2021.

In [0]:
date_min_value = df.agg({"date_num": "min"}).collect()[0][0]
date_max_value = df.agg({"date_num": "max"}).collect()[0][0]
ndays = int(date_max_value) 
print("n days: ", ndays) # 11 fevrier dans la base de données

In [0]:
df_forPrediction = df_predict_tmp.select(predicteurs)
day_to_predict = ndays+1

from pyspark.sql.functions import lit

df_forPrediction = df_forPrediction.withColumn("date_num", lit(day_to_predict)) # Modify by today's correspondant number

#### *Au Quebec*

In [0]:
quebec_predict = df_forPrediction.filter(df_forPrediction.pruid == 2)
assembler_predict = VectorAssembler(inputCols=predicteurs, outputCol="predicteurs")
df_predict = assembler_predict.transform(quebec_predict)
predictions_t = model.transform(df_predict)
predictions_t.select(predictions_t.columns[n::1]).show()

La valeur réelle au Québec est de 579 . Erreur: 8.3%

#### *En Ontario*

In [0]:
ontario_predict = df_forPrediction.filter(df_forPrediction.pruid == 1)
assembler_predict = VectorAssembler(inputCols=predicteurs, outputCol="predicteurs")
df_predict = assembler_predict.transform(ontario_predict)
predictions_t = model.transform(df_predict)
predictions_t.select(predictions_t.columns[n::1]).show()

La valeur réelle en Ontario est de 1552. Erreur: 31.5%

#### *En Alberta*

In [0]:
alberta_predict = df_forPrediction.filter(df_forPrediction.pruid == 4)
assembler_predict = VectorAssembler(inputCols=predicteurs, outputCol="predicteurs")
df_predict = assembler_predict.transform(alberta_predict)
predictions_t = model.transform(df_predict)
predictions_t.select(predictions_t.columns[n::1]).show()

La valeur réelle en Alberta est de 282. Erreur: 3.5%