# Excès de décès en France : cas de la canicule 2003 et de la Covid19 2020

In [None]:
import pandas as pd
import requests
import datetime
from bs4 import BeautifulSoup
import json
import math

Le fichier est fourni au format txt

Nom et Prénom - Longueur : 80 - Position : 1-80 - Type : Alphanumérique
La forme générale est NOM*PRENOMS

Sexe - Longueur : 1 - Position : 81 - Type : Numérique
1 = Masculin; 2 = féminin

Date de naissance - Longueur : 8 - Position : 82-89 - Type : Numérique
Forme : AAAAMMJJ - AAAA=0000 si année inconnue; MM=00 si mois inconnu; JJ=00 si jour inconnu

Code du lieu de naissance - Longueur : 5 - Position : 90-94 - Type : Alphanumérique
Code Officiel Géographique en vigueur au moment de la prise en compte du décès

Commune de naissance en clair - Longueur : 30 - Position : 95-124 - Type : Alphanumérique

DOM/TOM/COM/Pays de naissance en clair - Longueur : 30 - Position : 125-154 - Type : Alphanumérique

Date de décès - Longueur : 8 - Position : 155-162 - Type : Numérique
Forme : AAAAMMJJ - AAAA=0000 si année inconnue; MM=00 si mois inconnu; JJ=00 si jour inconnu

Code du lieu de décès - Longueur : 5 - Position : 163-167 - Type : Alphanumérique
Code Officiel Géographique en vigueur au moment de la prise en compte du décès

Numéro d'acte de décès - Longueur : 9 - Position : 168-176 - Type : Alphanumérique

In [None]:
url = "https://www.data.gouv.fr/fr/datasets/fichier-des-personnes-decedees/"
soup = BeautifulSoup(requests.get(url).content)
ld_json=soup.find('script', {'type':'application/ld+json'}).contents
data=json.loads(ld_json[0])
deces_url={}
for d in data['distribution']:
    deces_url.update({d['name']:d['url']})
deces_url

In [None]:
#d=requests.get('https://www.data.gouv.fr/fr/datasets/r/f3fc66ec-bd2c-42e9-af3f-73fc045571e6')
d={}
for i in ['2000','2001','2002','2003','2004','2005','2020-t1','2020-t2','2019','2018']:
    d.update({i:requests.get(deces_url['deces-'+i+'.txt'])})

In [None]:
list(d.keys())

In [None]:
pdict={}

def string_to_date(s):
    y=int(s[0:4])
    m=int(s[4:6])
    d=int(s[6:8])
    if m==0:
        m=1
    if d==0:
        d=1
    if y==0:
        raise ValueError
    try:
        date=datetime.date(y,m,d)
    except:
        if m==2 and d==29:
            d=28
            date=datetime.date(y,m,d)
            raise ValueError
    return date

for i in list(d.keys()):
    data=[]

    for l in d[i].text.splitlines():
        [last_name,first_name]=(l[0:80].split("/")[0]).split("*")
        sex=int(l[80])
        birthlocationcode=l[89:94]
        birthlocationname=l[94:124].rstrip()
        try:
            birthdate=string_to_date(l[81:89])
            deathdate=string_to_date(l[154:].strip()[0:8]) # sometimes, heading space
            lbis=list(l[154:].strip()[0:8])
            lbis[0:4]=list('2003')
            lbis=''.join(lbis)
            deathdatebis=string_to_date(lbis)
        except ValueError:
            if lbis!='20030229':
                print(l,lbis)
        deathlocationcode=l[162:167]
        deathid=l[167:176]
        data.append([first_name,last_name,sex,birthdate,birthlocationcode,birthlocationname,deathdate,deathlocationcode,deathid,deathdatebis,1])
    p=pd.DataFrame(data)
    p.columns=['first_name','last_name','sex','birth_date','birth_location_code','birth_location_name','death_date','death_location_code','death_id','death_date_bis','i']
    p["age"]=[k.days/365 for k in p["death_date"]-p["birth_date"]]
    p["age_class"]=[math.floor(k/20) for k in p["age"]]
    pdict.update({i:p})

In [None]:
pdict["2020-t1"]["age"].hist(bins=100)

In [None]:
import pandas_bokeh
pandas_bokeh.output_notebook()

# Canicule 2003

In [None]:
a={}
b={}
for y in [2003,2000,2001,2002,2004,2005]:
    print(y)
    s2=pdict[str(y)][(pdict[str(y)]["death_date"]>=datetime.date(y,1,1)) & (pdict[str(y)]["age_class"]>2)].groupby(['death_date_bis']).age_class.value_counts()
    if y==2003:
        ax=s2.unstack().plot(figsize=(20,15),color='blue',label=str(y))
    else:
        s2.unstack().plot(ax=ax,color='red')
    a[y]=pdict[str(y)][(pdict[str(y)]["death_date_bis"]>=datetime.date(2003,8,1)) & \
                       (pdict[str(y)]["death_date_bis"]<datetime.date(2003,8,19)) & \
                       (pdict[str(y)]["age_class"]>2)].groupby(['death_date_bis']).age_class.value_counts().sum()
    b[y]=pdict[str(y)][(pdict[str(y)]["death_date_bis"]>=datetime.date(2003,9,1)) & \
                       (pdict[str(y)]["death_date_bis"]<datetime.date(2003,12,1)) & \
                       (pdict[str(y)]["age_class"]>2)].groupby(['death_date_bis']).age_class.value_counts().sum()

In [None]:
print(a,b)

In [None]:
import numpy as np
ete2003=a[2003]
ete=np.array([a[y] for y in [2000,2001,2002,2004,2005]])
aut2003=b[2003]
aut=np.array([b[y] for y in [2000,2001,2002,2004,2005]])

In [None]:
(ete2003-ete.mean())/ete.std()

In [None]:
(aut2003-aut.mean())/aut.std()

In [None]:
(aut2003-aut.mean())

In [None]:
math.sqrt(ete.mean())

In [None]:
import matplotlib.pyplot as plt
plt.plot([2000,2001,2002,2004,2005],aut,'*r',2003,aut2003,'*b')

# Covid19 - S1 de 2020

In [None]:
import sys
sys.path.insert(1, '..')
from importlib import reload
import cocoa.covid19 as cc
reload(cc)
from cocoa.cocoa import * 

In [None]:
listwhich()

In [None]:
help(get)

In [None]:
pc=get(where='France',what='Diff',which='deaths',output='pandas')
pc.head()

In [None]:
p2020=pdict["2020-t2"].append(pdict["2020-t1"])
p2019=pdict["2019"]
p2018=pdict["2018"]

p2019["death_date_bis"]=[datetime.date(2020,y.month,y.day) for y in p2019["death_date"]]
p2018["death_date_bis"]=[datetime.date(2020,y.month,y.day) for y in p2018["death_date"]]
p2020["death_date_bis"]=p2020["death_date"]

p2018.head()

In [None]:
s2018=p2018[["death_date_bis","i"]][(p2018["death_date_bis"]>=datetime.date(2020,1,1))&\
                        (p2018["death_date_bis"]<datetime.date(2020,7,1))].groupby('death_date_bis').sum()
ax=s2018.plot()
s2018_bis=s2018.copy()
print(s2018_bis)
s2018.rolling(7,center=True).mean().plot(ax=ax)

In [None]:
pc2=pc.set_index('date')[["deaths"]].rolling(7,center=True).mean().reset_index()

Ajout d'un 29 février virtuel pour 2018 et 2019

In [None]:
dataplot2018=p2018[["death_date_bis","i"]][(p2018["death_date_bis"]>=datetime.date(2020,1,1))&\
                        (p2018["death_date_bis"]<datetime.date(2020,7,1))].groupby('death_date_bis').sum()#.rolling(7,center=True).mean()
dataplot2018[dataplot2018.index==datetime.date(2020,2,29)]=dataplot2018[(dataplot2018.index>=datetime.date(2020,2,28)) & (dataplot2018.index<=datetime.date(2020,3,1))].i.sum()/2
dataplot2018[(dataplot2018.index>=datetime.date(2020,2,28)) & (dataplot2018.index<=datetime.date(2020,3,1))]
dataplot2018=dataplot2018.rolling(7,center=True).mean()

dataplot2019=p2019[["death_date_bis","i"]][(p2019["death_date_bis"]>=datetime.date(2020,1,1))&\
                        (p2019["death_date_bis"]<datetime.date(2020,7,1))].groupby('death_date_bis').sum()#.rolling(7,center=True).mean()
dataplot2019[dataplot2019.index==datetime.date(2020,2,29)]=dataplot2019[(dataplot2019.index>=datetime.date(2020,2,28)) & (dataplot2019.index<=datetime.date(2020,3,1))].i.sum()/2
dataplot2019[(dataplot2019.index>=datetime.date(2020,2,28)) & (dataplot2019.index<=datetime.date(2020,3,1))]
dataplot2019=dataplot2019.rolling(7,center=True).mean()

In [None]:
ax=dataplot2018.plot(figsize=(20,12),style=['--'])
plt.legend(['décès 2018'])

dataplot2019.plot(ax=ax,style=['--'])
plt.legend(['décès 2019'])

s2020=p2020[["death_date_bis","i"]][(p2020["death_date_bis"]>=datetime.date(2020,1,1))&\
                        (p2020["death_date_bis"]<datetime.date(2020,7,1))].groupby('death_date_bis').sum().rolling(7,center=True).mean()
v=[]
for k in s2020.reset_index()["death_date_bis"]:
    if k in pc2["date"].to_list():
        v.append(pc2[pc2["date"]==k.isoformat()]["deaths"].to_list()[0])
    else:
        v.append(0)
s2020["covid19"]=v
s2020["insee - covid19"]=s2020["i"]-s2020["covid19"]
s2020.plot(ax=ax)
plt.legend(['décès insee 2018','décès insee 2019','décès insee 2020','covid19','insee2020-covid19'])
plt.grid()
plt.title('Avec fenêtre glissante de 7 jours centrée ')

Création de données covid19 décalées dans le temps

In [None]:
s2020_shift=[]
max_shift_days=15
for i in range(max_shift_days):
    s2020_shift.append(s2020[["covid19","i"]].copy())
    s2020_shift[i].index=s2020_shift[i].index-datetime.timedelta(days=i)

In [None]:
ax=dataplot2018.plot(figsize=(20,12),style=['--'])
plt.legend(['décès 2018'])

dataplot2019.plot(ax=ax,style=['--'])
plt.legend(['décès 2019'])

legend=['décès insee 2018','décès insee 2019','décès insee 2020']

for i in range(max_shift_days):
    s2020_shift[i]["insee - covid19"]=s2020["i"]-s2020_shift[i]["covid19"]
    if i == 0 :
        s2020_shift[i][["covid19","insee - covid19"]].plot(ax=ax)
        legend.append('covid19')
        legend.append('insee2020-covid19')
    elif i in [2,3,4,5,6,7,8]:
        s2020_shift[i][["insee - covid19"]].plot(ax=ax,style=['-.'])
        legend.append("insee - covid19 (shift "+str(i)+" days)")
    
plt.legend(legend)
plt.grid()
plt.title('Avec fenêtre glissante de 7 jours centrée ')