In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import plotly_express as px

# Laboration 1 - uppgift 3

## Summering av innehåll:
- Introduktion
- Förarbete
- Valda KPI:er:
    - KPI 1: Andel vaccinerade 3 doser
    - KPI 2: Andel avlidna
    - KPI 3: Andel fall
    - KPI 4: Andel 70 +
- Framtagande av KPI:er
- Plottande av KPI:er
- Slutsatser och analys

#### Introduktion
I förarbetet kunde jag se att andel människor som var över 70 år som avlidit, var mycket högre än lägre åldrar. 
Utifrån detta och hypotes om att antal människor som var 70 +, andel vaccinerade och fall i ett län kunde påverka andel avlidna, så var det just detta som utgjorde grunden för min analys

#### Förarbete - Vaccinationsstatus och andel vaccinerade per åldersgrupp

In [2]:
# Analys av andel vaccinerade per åldersgrupp

vaccinerade_1_till_3_doser = pd.read_excel("data\\vaccin.xlsx", sheet_name="Dos 1 till 3 per åldersgrupp")  
vaccinerade_1_till_3_doser

Unnamed: 0,Region,Åldersgrupp,Antal vaccinerade,Andel vaccinerade,Vaccinationsstatus
0,| Sverige |,12-15,22864,0.045380,1 dos
1,| Sverige |,12-15,255541,0.507196,2 doser
2,| Sverige |,16-17,11597,0.048013,1 dos
3,| Sverige |,16-17,175480,0.726508,2 doser
4,| Sverige |,18-29,56672,0.038397,1 dos
...,...,...,...,...,...
677,Norrbotten,90 eller äldre,58,0.019398,2 doser
678,Norrbotten,90 eller äldre,2828,0.945819,Minst 3 doser
679,Norrbotten,Totalt 18+,2083,0.010188,1 dos
680,Norrbotten,Totalt 18+,36793,0.179950,2 doser


In [3]:
# Groupby for plotting

vaccinerade_1_till_3_doser_grouped = vaccinerade_1_till_3_doser.groupby(["Åldersgrupp", "Vaccinationsstatus"])["Andel vaccinerade"].mean().reset_index()


In [4]:
px.bar(vaccinerade_1_till_3_doser_grouped, x = "Åldersgrupp", y = "Andel vaccinerade", color = "Vaccinationsstatus")

##### Förarbete - Beräkna andel avlidna och intensivvårdade per fall och åldersgrupp

In [5]:
# Läser in ny data på antal avlidna och intensivvårdade per åldersgrupp
avlidna_per_aldersgrupp = pd.read_excel("data\\covid-19.xlsx", sheet_name="Totalt antal per åldersgrupp")  

avlidna_per_aldersgrupp.head()

Unnamed: 0,Åldersgrupp,Totalt_antal_fall,Totalt_antal_intensivvårdade,Totalt_antal_avlidna
0,Ålder_0_9,138071,109,17
1,Ålder_10_19,355823,101,9
2,Ålder_20_29,418506,285,41
3,Ålder_30_39,493443,492,71
4,Ålder_40_49,474702,997,172


In [6]:
# Beräknar andel avlidna och intensivvårdade per fall - Skapar nya kolumner för detta samtidigt
avlidna_per_aldersgrupp["Andel avlidna/fall"] = avlidna_per_aldersgrupp["Totalt_antal_avlidna"]/avlidna_per_aldersgrupp["Totalt_antal_fall"]
avlidna_per_aldersgrupp["Andel intensivvårdade/fall"] = avlidna_per_aldersgrupp["Totalt_antal_intensivvårdade"]/avlidna_per_aldersgrupp["Totalt_antal_fall"]


In [7]:
plot_avlidna_per_aldersgrupp = px.bar(avlidna_per_aldersgrupp, x = "Åldersgrupp", y = ["Andel avlidna/fall", "Andel intensivvårdade/fall"], barmode = "group")

# Set y-axis interval from 0 - 1 in the px plot
plot_avlidna_per_aldersgrupp.update_yaxes(range=[0, 1])

# Update layout
plot_avlidna_per_aldersgrupp.update_layout(xaxis_tickangle=-90, yaxis_title="Andel", xaxis_title="Åldersgrupp", height=700, width=900)


#### Kommentar:
- Hög andel av 70+ fick minst 3 doser vaccin för äldre
- Andel 70+ som avlidit totalt och per covid fall sticker ut
- Vidare analys kommer att se över samband mellan andel avlidna och övriga utvalda KPI:er

#### Valda KPI:er
- KPI 1: Andel vaccinerade 3 doser
- KPI 2: Andel avlidna
- KPI 3: Andel fall
- KPI 4: Andel 70 +

#### Strategin är att läsa in data från flera blad, och kombinera dataset från dessa för att få en slutgiltig dataframe med utvalda KPI:s

In [34]:
# Read vaccindata for region/län and age

vaccinated_region_age = pd.read_excel("data\\vaccin.xlsx", sheet_name="Vaccinerade kommun och ålder")
vaccinated_region_age.head()

Unnamed: 0,Län,Län_namn,Kommun,Kommun_namn,Ålder,Befolkning,Antal minst 1 dos,Antal minst 2 doser,Antal 3 doser,Antal 4 doser,Andel minst 1 dos,Andel minst 2 doser,Andel 3 doser,Andel 4 doser
0,1,Stockholms län,114,Upplands Väsby,12-15,2422,1206,1046,,,0.497936,0.431874,,
1,1,Stockholms län,114,Upplands Väsby,16-17,1203,839,755,,,0.697423,0.627598,,
2,1,Stockholms län,114,Upplands Väsby,18-29,6692,4887,4469,1959.0,,0.730275,0.667812,0.292738,
3,1,Stockholms län,114,Upplands Väsby,30-39,7332,5542,5240,2878.0,,0.755865,0.714675,0.392526,
4,1,Stockholms län,114,Upplands Väsby,40-49,6946,5592,5429,3719.0,,0.805068,0.781601,0.535416,


#### Skapande av dataframe för samtliga KPI:s, kallad final_df

In [35]:
# Groupby to get sum of population and mean of andel 3 doser per region
# This is the base dataframe to add all KPI:s and is called final_df

final_df = vaccinated_region_age.groupby("Län_namn", as_index = False).agg(
    sum_befolkning = pd.NamedAgg(column = "Befolkning", aggfunc = "sum"),      
    andel_vaccinerade_3_doser = pd.NamedAgg(column = "Andel 3 doser", aggfunc = "mean"))


In [36]:
final_df.head()

Unnamed: 0,Län_namn,sum_befolkning,andel_vaccinerade_3_doser
0,Blekinge län,139327,0.744903
1,Dalarnas län,252075,0.74344
2,Gotlands län,53924,0.778085
3,Gävleborgs län,252216,0.724473
4,Hallands län,295663,0.749188


In [37]:
# Read data for avlidna and totalt_antal_fall per region/län to add to final_df after preparation
# To calculate andel avlidna per region

avlidna_per_region = pd.read_excel("data\\covid-19.xlsx", sheet_name="Totalt antal per region")  

avlidna_per_region.head()


Unnamed: 0,Region,Totalt_antal_fall,Fall_per_100000_inv,Totalt_antal_intensivvårdade,Totalt_antal_avlidna
0,Blekinge,30829,19371.449951,85,184
1,Dalarna,75091,26098.780273,260,544
2,Gotland,11874,19776.671875,46,82
3,Gävleborg,74803,26020.503418,332,754
4,Halland,108822,32349.047119,229,518


In [13]:
# Adding new columns "Andel avlidna" and "Andel fall" to final_df.
# Regions/län are in same order so I add it directly

final_df["Andel avlidna"] = avlidna_per_region["Totalt_antal_avlidna"]/final_df["sum_befolkning"] 
final_df["Andel fall"] = avlidna_per_region["Totalt_antal_fall"]/final_df["sum_befolkning"]

In [14]:
final_df.head()

Unnamed: 0,Län_namn,sum_befolkning,andel_vaccinerade_3_doser,Andel avlidna,Andel fall
0,Blekinge län,139327,0.744903,0.001321,0.221271
1,Dalarnas län,252075,0.74344,0.002158,0.297892
2,Gotlands län,53924,0.778085,0.001521,0.220199
3,Gävleborgs län,252216,0.724473,0.00299,0.296583
4,Hallands län,295663,0.749188,0.001752,0.368061


In [15]:
# Creating columns for only 70+ individuals in final_df

age_above_70 = vaccinated_region_age[vaccinated_region_age["Ålder"].isin(["70-79", "80-89", "90 eller äldre"])]

In [16]:
# Renaming all rows over 70 to "70+" in the column "Ålder" by iloc
age_above_70.iloc[:, 4] = "70+"

In [17]:
age_above_70.head(2)

Unnamed: 0,Län,Län_namn,Kommun,Kommun_namn,Ålder,Befolkning,Antal minst 1 dos,Antal minst 2 doser,Antal 3 doser,Antal 4 doser,Andel minst 1 dos,Andel minst 2 doser,Andel 3 doser,Andel 4 doser
7,1,Stockholms län,114,Upplands Väsby,70+,3987,3786,3758,3584.0,3051.0,0.949586,0.942563,0.898921,0.765237
8,1,Stockholms län,114,Upplands Väsby,70+,1934,1859,1856,1802.0,1617.0,0.96122,0.959669,0.931748,0.836091


In [18]:
# Grouping by region and summing population over 70 to get total population over 70 in each region
group_age_above_70 = age_above_70.groupby("Län_namn", as_index = False).agg(   
sum_befolkning_above_70 = pd.NamedAgg(column = "Befolkning", aggfunc = "sum"))  


In [19]:
group_age_above_70.head()

Unnamed: 0,Län_namn,sum_befolkning_above_70
0,Blekinge län,30400
1,Dalarnas län,56631
2,Gotlands län,12484
3,Gävleborgs län,54842
4,Hallands län,59228


In [20]:
# Adding andel 70+ to final_df 

final_df["Andel 70+"] = group_age_above_70["sum_befolkning_above_70"]/final_df["sum_befolkning"]


#### Now final_df with all KPI:s is ready

In [21]:
# Looking at final table before plotting
final_df.head()

Unnamed: 0,Län_namn,sum_befolkning,andel_vaccinerade_3_doser,Andel avlidna,Andel fall,Andel 70+
0,Blekinge län,139327,0.744903,0.001321,0.221271,0.218192
1,Dalarnas län,252075,0.74344,0.002158,0.297892,0.224659
2,Gotlands län,53924,0.778085,0.001521,0.220199,0.231511
3,Gävleborgs län,252216,0.724473,0.00299,0.296583,0.217441
4,Hallands län,295663,0.749188,0.001752,0.368061,0.200323


#### Plotting of KPI:s

In [22]:
# Preparation for plotting my final KPI:s with mapbox
# Reading in data set with coordinates for each region

region_coordinates = pd.read_csv("data\\region_coordinates.csv")

# Preparing dataset
region_coordinates.drop("Unnamed: 0", axis = 1, inplace = True)

In [23]:
region_coordinates.head()

Unnamed: 0,region,lat,long
0,Blekinge,56.1431,15.3667
1,Dalarna,61.0917,14.6664
2,Gotland,57.4684,18.4867
3,Gävleborg,60.6747,17.1444
4,Halland,56.6743,12.8577


In [24]:
#  # Merging final_df with region_coordinates part 1: Setting same spelling for regions
final_df.head()

Unnamed: 0,Län_namn,sum_befolkning,andel_vaccinerade_3_doser,Andel avlidna,Andel fall,Andel 70+
0,Blekinge län,139327,0.744903,0.001321,0.221271,0.218192
1,Dalarnas län,252075,0.74344,0.002158,0.297892,0.224659
2,Gotlands län,53924,0.778085,0.001521,0.220199,0.231511
3,Gävleborgs län,252216,0.724473,0.00299,0.296583,0.217441
4,Hallands län,295663,0.749188,0.001752,0.368061,0.200323


In [25]:
# Adding columns region_coordinates["lat"] and ["long"] to final_df
final_df["lat"] = region_coordinates["lat"]
final_df["long"] = region_coordinates["long"]


In [26]:
final_df.head()

Unnamed: 0,Län_namn,sum_befolkning,andel_vaccinerade_3_doser,Andel avlidna,Andel fall,Andel 70+,lat,long
0,Blekinge län,139327,0.744903,0.001321,0.221271,0.218192,56.1431,15.3667
1,Dalarnas län,252075,0.74344,0.002158,0.297892,0.224659,61.0917,14.6664
2,Gotlands län,53924,0.778085,0.001521,0.220199,0.231511,57.4684,18.4867
3,Gävleborgs län,252216,0.724473,0.00299,0.296583,0.217441,60.6747,17.1444
4,Hallands län,295663,0.749188,0.001752,0.368061,0.200323,56.6743,12.8577


In [27]:
# Plotting with mapbox, size of circle size andel_vaccinerade_3_doser, color is andel avlidna
fig = px.scatter_mapbox(final_df, lat="lat", lon="long", size="Andel avlidna", color="andel_vaccinerade_3_doser", height = 800, width= 900 ,hover_name = final_df.index, hover_data = ["Andel fall", "Andel 70+"])
fig.update_layout(mapbox_style="open-street-map", title= "Size according to andel avlidna")
                  

In [28]:
# Plotting with mapbox, size of circle size andel 70 +, color is andel avlidna
fig = px.scatter_mapbox(final_df, lat="lat", lon="long", size="Andel avlidna", color="Andel 70+", height = 800, width= 900 ,hover_name = final_df.index, hover_data = ["andel_vaccinerade_3_doser", "Andel fall"])
fig.update_layout(mapbox_style="open-street-map", title= "Size according to Andel avlidna")

In [29]:
# Plotting with mapbox, size of circle size andel 70 +, color is andel avlidna
fig = px.scatter_mapbox(final_df, lat="lat", lon="long", size="Andel avlidna", color="Andel fall", height = 800, width= 900 ,hover_name = final_df.index, hover_data = ["andel_vaccinerade_3_doser", "Andel fall"])
fig.update_layout(mapbox_style="open-street-map", title= "Size according to Andel avlidna")

#### Slutsatser och analys del 1
- Konsekventa slutsatser för hela landet är svåra att fastställa generellt.
    - Det kan bero på att KPI:erna skiljer sig åt
    - Faktum att alla fall inte är rapporterade
    - M.m.
- Analyser kan göras per län, Gotland hade t.ex. bland de lägsta andelen avlidna: samtidigt som de hade relativt låga antal på andel 70+, hög andel vaccinationer och längre andel fall av corona.
- Jag gör korrelationsanalys för att vidare se om mina observationer stämmer på datasetet generellt


In [30]:
# Copying original final_df
final_df_copy = final_df.copy()

In [31]:
# Setting Län_namn as index for correlation analysis
final_df_copy.set_index("Län_namn", inplace = True)

In [32]:
# Performing the analysis
final_df_correlation_analysis=final_df_copy.corr()

final_df_correlation_analysis

Unnamed: 0,sum_befolkning,andel_vaccinerade_3_doser,Andel avlidna,Andel fall,Andel 70+,lat,long
sum_befolkning,1.0,-0.462442,0.289367,0.110286,-0.761319,-0.197413,-0.122473
andel_vaccinerade_3_doser,-0.462442,1.0,-0.400979,-0.337774,0.321597,0.236622,0.256212
Andel avlidna,0.289367,-0.400979,1.0,0.11238,-0.2424,0.161159,0.278987
Andel fall,0.110286,-0.337774,0.11238,1.0,-0.200217,-0.204432,-0.497309
Andel 70+,-0.761319,0.321597,-0.2424,-0.200217,1.0,0.154612,0.108676
lat,-0.197413,0.236622,0.161159,-0.204432,0.154612,1.0,0.466736
long,-0.122473,0.256212,0.278987,-0.497309,0.108676,0.466736,1.0


In [33]:
# Setting threshold
threshold = 0.85

# Marking values above threshold
final_df_correlation_analysis.style.map(lambda x: "font-weight: bold" if x > threshold else "")

Unnamed: 0,sum_befolkning,andel_vaccinerade_3_doser,Andel avlidna,Andel fall,Andel 70+,lat,long
sum_befolkning,1.0,-0.462442,0.289367,0.110286,-0.761319,-0.197413,-0.122473
andel_vaccinerade_3_doser,-0.462442,1.0,-0.400979,-0.337774,0.321597,0.236622,0.256212
Andel avlidna,0.289367,-0.400979,1.0,0.11238,-0.2424,0.161159,0.278987
Andel fall,0.110286,-0.337774,0.11238,1.0,-0.200217,-0.204432,-0.497309
Andel 70+,-0.761319,0.321597,-0.2424,-0.200217,1.0,0.154612,0.108676
lat,-0.197413,0.236622,0.161159,-0.204432,0.154612,1.0,0.466736
long,-0.122473,0.256212,0.278987,-0.497309,0.108676,0.466736,1.0


#### Slutsatser och analys del 2
Kommentarer kring korrelationsanalys
- Ett högre samband mellan antal över 70 och storlek på befolkningen, samt totalt antal avlidna vilket är rimligt
- Inga självklara samband mellan övriga KPI:er
    - Stärker min slutsats, kan bero på relativt homogen data 