#                          <font color="#5B00FF"> **EDA (Exploratory Data Analysis) Covid-data** </font>

<br>

##### **Deze casus (Covid-data) heeft 2 datasets: patienten data (*covid_patienten_export.tsv*) en meetgegevens (*covid_meetgegevens_export.tsv*). De dataset bestaat uit (zoals de naam al zegt) gegevens van patienten met het Covid virus.** <br><br>

_________________________________________________________________________________________________________________________________________________
## <font color="803AFF"> **De datasets** </font>

In [395]:
# Import libraries
import pandas as pd
import numpy as np


# Path data
covid_patient_data = 'covid_patienten_export.tsv'
covid_measurement_data = 'covid_meetgegevens_export.tsv'

patient = pd.read_csv(covid_patient_data, sep='\t')
measurement = pd.read_csv(covid_measurement_data, sep='\t')


# Printing data
print(f'covid_patienten_export.tsv: {patient.head(1)}')
print(f'covid_meetgegevens_export.tsv: {measurement.head(1)}')

covid_patienten_export.tsv:    PATIENT_ID BRUIKBAAR  LIGTIJD  LEEFTIJD GESLACHT  LENGTE  GEWICHT  \
0         101        ja     21.0      74.0        m   175.0     87.0   

   APACHE_IV_SCORE IN_LEVEN_3_MAANDEN IN_LEVEN_6_MAANDEN  
0               69                nee                nee  
covid_meetgegevens_export.tsv:    PATIENT_ID  MEETDATUM  VCO2_MLMIN  EE_BEADEMINGSMACH  VOEDING_ML24H  \
0       160.0  30-NOV-20         257            2104.83         1752.0   

   MAAGRETENTIE_ML24H  PROPOFOL_ML24H BUIKLIGGING  ID  
0                 0.0           160.0         rug   1  


In [396]:
# Kolomnamen van bestanden printen
print("Kolomnamen in covid_patienten_export.tsv:")
for x in patient:
    print(x)

print("Kolomnamen in covid_meetgegevens_export.tsv:")
for x in measurement:
    print(x)

Kolomnamen in covid_patienten_export.tsv:
PATIENT_ID
BRUIKBAAR
LIGTIJD
LEEFTIJD
GESLACHT
LENGTE
GEWICHT
APACHE_IV_SCORE
IN_LEVEN_3_MAANDEN
IN_LEVEN_6_MAANDEN
Kolomnamen in covid_meetgegevens_export.tsv:
PATIENT_ID
MEETDATUM
VCO2_MLMIN
EE_BEADEMINGSMACH
VOEDING_ML24H
MAAGRETENTIE_ML24H
PROPOFOL_ML24H
BUIKLIGGING
ID


### <font color="803AFF"> **Algemene gegevens datasets** </font>

De dataset *covid_patienten_export.tsv* bevat de volgende gegevens:<br>
- **"PATIENT_ID"**: ID van patienten om hun resultaten te identificeren, bestaat uit cijfers
- **"BRUIKBAAR"**: bruikbaarheid van de gegevens van de patienten
- **"LIGTIJD"**: de ligtijd van de patienten in het ziekenhuis in dagen
- **"LEEFTIJD"**: leeftijd van de patienten
- **"GESLACHT"**: geslacht van de patienten
- **"LENGTE"**: de lengte van de patienten in meters (m)
- **"GEWICHT"**: het gewicht van de patienten in kilogram (KG)
- **"APACHE_IV_SCORE"**: waarde tussen 0 tot en met 100 die aangeeft hoe erg de patient er aan toe is
- **"IN_LEVEN_X_MAANDEN"**: periode dat een patient in leven is/was, als de 1<sup>ste</sup> waarde "ja" en de 2<sup>de</sup> waarde leeg ("") is, betekent dat de patient
is komen te overlijden. Als de 2<sup>de</sup> waarde leeg is, wordt er vanuit gegaan dat de patient dezelfde status heeft als de 1<sup>ste</sup> waarde.   
<br>

De dataset *covid_meetgegevens_export.tsv* bevat de volgende gegevens:<br>
- **"PATIENT_ID"**: ID van patienten om hun resultaten te identificeren, bestaat uit cijfers
- **"MEETDATUM"**: datum waarop de meeting plaatsvond
- **"VCO2_MLMIN"**: hoeveelheid koolstofdioxide (CO<sub>2</sub>) die door de patiënt wordt uitgeademd per minuut, gemeten in milliliters
- **"EE_BEADEMINGSMACH"**: Energy Expenditure (vanuit de beademingsmachine berekend) verwijst naar het dagelijkse calorieverbruik van een beademde patiënt, gemeten in kilocalorieën per dag
- **"VOEDING_ML24H"**: de voeding van de patient in milliliters per dag (ml)
- **"MAAGRETENTIE_ML24H"**: geeft aan hoe snel het voedsel de maag weer verlaat, dit is buiten het onderzoek gehouden (er staan geen warden bij) dus dit is niet meegenomen in de data dashboard
- **"PROPOFOL_ML24H"**: hoeveelheid propofol per 24 uur (1 dag)
- **"BUIKLIGGING"**: ligging van de patienten, deze waarde kan "buik" of "rug" zijn
- **"ID"**: ID van de meeting zelf
<br>
<br>

##### Het aantal patienten waarvan de gegevens staan in de bestanden:

In [397]:
# Covid_patienten_export.tsv

# Aantal patienten tellen (aantal ID's)
aantal_ID = patient['PATIENT_ID'].nunique()

# Printen
print(f'Aantal patienten (unieke ID): {aantal_ID}')

Aantal patienten (unieke ID): 158


In [398]:
# Covid_meetgegevens_export.tsv 

# Aantal patienten tellen waarvan de meetgegevens in het bestand staan (aantal ID's)
aantal_ID_meetgegevens = measurement['PATIENT_ID'].nunique()

# Printen
print(f'Aantal patienten waarvan de meetgegevens in het bestand staan: {aantal_ID_meetgegevens}')

Aantal patienten waarvan de meetgegevens in het bestand staan: 157


### <font color="803AFF"> **Opvallende waarnemingen:**</font>

##### Uit de tellingen van het aantal patienten (unieke ID's) van beide bestanden, blijken er meetgegevens van 1 patient te missen:<br>
##### Covid_patienten_export.tsv: **158** patienten
##### Covid_meetgegevens_export.tsv: **157** patienten
<br>

##### Om te kijken waar het mis ging, moeten de patienten ID's van beide bestanden vergeleken worden met elkaar.

In [399]:
# Patienten ID's van beide .tsv bestanden vergelijken

# Weergeven van patienten ID's van bestand Covid_patienten_export.tsv en sorteren op numerieke volgorde
aantal_ID_tonen = patient['PATIENT_ID'].unique()

print(f'Patienten ID van bestand Covid_patienten_export.tsv: {aantal_ID_tonen}')


# Weergeven van patienten ID's van bestand Covid_meetgegevens_export.tsv
aantal_ID_meetgegevens_tonen = measurement['PATIENT_ID'].unique()

print(f'Patienten ID van bestand Covid_meetgegevens_export.tsv: {aantal_ID_meetgegevens_tonen}')


# Typecasten naar set()
set_aantal_ID = set(aantal_ID_tonen)
set_aantal_ID_meetgegevens = set(aantal_ID_meetgegevens_tonen)

verschil = set_aantal_ID.difference(set_aantal_ID_meetgegevens)
#verschil = set_aantal_ID_meetgegevens.difference(set_aantal_ID)

print(f'Missende ID in meetgegevens dataset: {verschil}')

Patienten ID van bestand Covid_patienten_export.tsv: [ 101  103  105  106  108  111  115  116  118  121  123  124  127  129
  138  139  141  143  145  146  148  150  151  153  156  157  158  162
  165  166  167  169  173  174  175  182  183  184  186  187  190  193
  194  195  198  199  201  202  206  207  209  210  212  213  215  216
  218  220  221  222  223  225  227  229  232  233  235  237  238  239
  241  242  243  244  246  250  252  259  260  263  109  112  140  142
  144  147  149  163  164  168  171  172  179  180  181  185  188  189
  192  203  204  211  214  217  219  230  234  240  245  254  257  262
  102  104  107  110  113  114  117  119  120 1201  122  125  126  128
  130  131  132  133  134  135  136  137  152  154  155  159  160  161
  170  176  177  178  191  196  197  200  205  208  224  228  231  247
  249  253  261  265]
Patienten ID van bestand Covid_meetgegevens_export.tsv: [ 160.  161.  163.  164.  165.  167.  168.  169.  171.  172.  174.  176.
  177.  178.  1

##### Van patient met **ID nummer 196** missen de meetgegevens in de dataset: *Covid_meetgegevens_export.tsv*
<br>

### <font color="803AFF"> **Covid_patienten_export.tsv** </font>

#### **Bruikbaarheid**
##### In het bestand *Covid_patienten_export.tsv* staan de bruikbaarheid van de patientengegevens per patienten ID. De waarde die gegeven is voor de bruikbaarheid van de patientengegevens per patienten ID geldt ook voor de meetgegevens van dezelfde patienten (patienten met dezelfde ID in patientengegevens en meetgegevens).


In [400]:
# aantal waarden in "BRUIKBAAR" tellen en tonen
aantal_unieke_waarden_bruikbaar = patient["BRUIKBAAR"].nunique()
unieke_waarden_bruikbaar = patient["BRUIKBAAR"].unique()
# printen
print(f'Aantal unieke waarden in "BRUIKBAAR": {aantal_unieke_waarden_bruikbaar}')
print(f'Unieke waarden in "BRUIKBAAR": {unieke_waarden_bruikbaar}')

# Alle data van bruikbaarheid van patienten gegevens
data_bruikbaarheid = patient["BRUIKBAAR"]

# Er zijn 8 verschillende waarden in "BRUIKBAAR" opgegeven. Deze waarden moeten onder de categorieen "Ja", "Misschien" en
# "Nee" verdeeld worden
Aantal_bruikbaar = []
Aantal_niet_bruikbaar = []
Aantal_misschien_bruikbaar = []

# Waarden in lege lijsten zetten
for i in range(len(data_bruikbaarheid)):
    if data_bruikbaarheid[i] == "ja":
        Aantal_bruikbaar.append("ja")
    elif data_bruikbaarheid[i] == "misschien":
        Aantal_misschien_bruikbaar.append("misschien")
    else:
        Aantal_niet_bruikbaar.append(data_bruikbaarheid[i])

# Aantallen van inhoud lijsten krijgen
Totaal_bruikbaar = len(Aantal_bruikbaar)
Totaal_misschien = len(Aantal_misschien_bruikbaar)
Totaal_niet = len(Aantal_niet_bruikbaar)

# Percentage berekenen
percentage_bruikbaar = round(Totaal_bruikbaar / (Totaal_bruikbaar + Totaal_misschien + Totaal_niet)* 100, 2)

# Printen bruikbaarheid gegevens
print(f'Aantal bruikbare gegevens: {Totaal_bruikbaar}')
print(f'Aantal misschien bruikbare gegevens: {Totaal_misschien}')
print(f'Aantal niet bruikbare gegevens: {Totaal_niet}')
print(f'{Totaal_bruikbaar} gegevens van patienten kunnen gebruikt worden en {Totaal_niet + Totaal_misschien} niet')
print(f'Dat is {percentage_bruikbaar}% van de totale patienten gegevens')

Aantal unieke waarden in "BRUIKBAAR": 8
Unieke waarden in "BRUIKBAAR": ['ja' 'nee, ontbrekende gegevens' 'nee, ontbrekende metingen'
 'nee, onbrekende metingen' '?' 'nee' 'nee, ontbrekende waarden'
 'misschien' nan]
Aantal bruikbare gegevens: 111
Aantal misschien bruikbare gegevens: 1
Aantal niet bruikbare gegevens: 46
111 gegevens van patienten kunnen gebruikt worden en 47 niet
Dat is 70.25% van de totale patienten gegevens


##### In het bestand zijn er 8 verschillende waarden voor de bruikbaarheid van de patienten gegevens ingevuld. Het aantal bruikbare patienten gegevens zijn 111, van 1 patient zijn de gegevens 'misschien' te gebruiken en van 47 patienten kunnen de gegevens niet gebruikt worden. 

##### De patient waarvan de gegevens in het *Covid_meetgegevens_export.tsv* bestand misten (ID: 196) blijken geen bruikbare gegevens te zijn. 

In [401]:
# Bruikbaarheid patient ID 196 checken
id_196 = patient.loc[patient['PATIENT_ID'] == 196]
print(id_196)

     PATIENT_ID BRUIKBAAR  LIGTIJD  LEEFTIJD GESLACHT  LENGTE  GEWICHT  \
145         196       nee      0.0      70.0        m   178.0     82.0   

     APACHE_IV_SCORE IN_LEVEN_3_MAANDEN IN_LEVEN_6_MAANDEN  
145               56                 ja                NaN  


#### **Bruikbare data**

##### Voor deze dashboard worden alleen gegevens van patienten gebruikt die bruikbaar zijn. Data dat misschien bruikbaar is, wordt niet gebruikt om het zekere voor het onzekere te nemen. 

In [402]:
# Bruikbare data in een variabale (Data_patienten) zetten, om toegang makkelijker te maken
Data_patienten = patient.loc[patient['BRUIKBAAR'] == 'ja']
print(Data_patienten)

     PATIENT_ID BRUIKBAAR  LIGTIJD  LEEFTIJD GESLACHT  LENGTE  GEWICHT  \
0           101        ja     21.0      74.0        m   175.0     87.0   
2           105        ja      8.0      77.0        m   173.0     74.0   
3           106        ja      5.0      47.0        m   185.0     64.0   
4           108        ja      4.0      66.0        m   188.0     88.0   
5           111        ja      7.0      67.0        m   195.0    119.0   
..          ...       ...      ...       ...      ...     ...      ...   
107         240        ja      6.0      33.0        v   173.0     95.0   
108         245        ja      7.0      72.0        v   163.0    106.0   
109         254        ja     25.0      61.0        v   156.0    100.0   
110         257        ja      3.0      61.0        v   170.0    114.0   
111         262        ja      5.0      52.0        v   159.0     58.0   

     APACHE_IV_SCORE IN_LEVEN_3_MAANDEN IN_LEVEN_6_MAANDEN  
0                 69                nee           

#### **Ligtijd**

##### De ligtijd van de patienten is in dagen.

In [403]:
# Aantal unieke waarden bij "LIGTIJD" tellen en tonen
ligtijd_uniek_tellen = Data_patienten["LIGTIJD"].nunique()
ligtijd_uniek = Data_patienten["LIGTIJD"].unique()

print(f'Er zijn {ligtijd_uniek_tellen} verschillende waarnemingen gevonden bij de ligtijd van de patienten')
print(f'De verschillende ligtijden die zijn waargenomen zijn: {ligtijd_uniek}')

Er zijn 30 verschillende waarnemingen gevonden bij de ligtijd van de patienten
De verschillende ligtijden die zijn waargenomen zijn: [21.  8.  5.  4.  7. 13. 10.  9. 12.  6.  1.  2. 34.  0. 19. 24. 14. 15.
 39. 33. 11. 17. 32.  3. 27. 53. 20. 16. 48. 25.]


In [404]:
# Statistieke waarden zoals het gemiddelde, modus, spreidingsbreedte en standaardafwijking berekenen
ligtijd = Data_patienten["LIGTIJD"]

# Gemiddelde
gemiddelde_ligtijd = numpy.round(ligtijd.mean())
print(f'Ligtijd | Gemiddeld: {gemiddelde_ligtijd} dagen')

# Modus
x = ligtijd.mode()
modus_ligtijd = x[0]
print(f'Ligtijd | Modus: {modus_ligtijd} dagen')

# Spreidingsbreedte
spreidingsbreedte_ligtijd = ligtijd.max() - ligtijd.min()
print(f'Ligtijd | Spreidingsbreedte: {spreidingsbreedte_ligtijd} dagen')

# Standaardafwijking
ligtijd.std()
standaardafwijking_ligtijd = ligtijd.std()
print(f'Ligtijd | Standaardafwijking {round(standaardafwijking_ligtijd,0)} dagen')

Ligtijd | Gemiddeld: 10.0 dagen
Ligtijd | Modus: 5.0 dagen
Ligtijd | Spreidingsbreedte: 53.0 dagen
Ligtijd | Standaardafwijking 10.0 dagen


#### **Leeftijd**

In [405]:
# Aantal unieke waarden bij "LEEFTIJD" tellen en tonen
leeftijd_uniek_tellen = Data_patienten["LEEFTIJD"].nunique()
leeftijd_uniek = Data_patienten["LEEFTIJD"].unique()

print(f'Er zijn {leeftijd_uniek_tellen} verschillende waarnemingen gevonden bij de leeftijd van de patienten')
print(f'De verschillende leeftijden die zijn waargenomen zijn: {leeftijd_uniek}')

Er zijn 37 verschillende waarnemingen gevonden bij de leeftijd van de patienten
De verschillende leeftijden die zijn waargenomen zijn: [74. 77. 47. 66. 67. 63. 54. 76. 53. 69. 72. 52. 80. 58. 68. 75. 49. 56.
 71. 50. 62. 60. 64. 57. 48. 46. 73. 70. 38. 55. 39. 65. 82. 51. 61. 37.
 33.]


In [406]:
# Statistieke waarden zoals het gemiddelde, modus, spreidingsbreedte en standaardafwijking berekenen
leeftijd = Data_patienten["LEEFTIJD"]

# Gemiddelde
gemiddelde_leeftijd = numpy.round(leeftijd.mean())
print(f'Leeftijd | Gemiddeld: {gemiddelde_leeftijd} jaar')

# Modus
x = leeftijd.mode()
modus_leeftijd = x[0]
print(f'Leeftijd | Modus: {modus_leeftijd} jaar')

# Spreidingsbreedte
spreidingsbreedte_leeftijd = leeftijd.max() - leeftijd.min()
print(f'Leeftijd | Spreidingsbreedte: {spreidingsbreedte_leeftijd} jaar')

# Standaardafwijking
leeftijd.std()
standaardafwijking_leeftijd = leeftijd.std()
print(f'Leeftijd | Standaardafwijking {round(standaardafwijking_leeftijd,0)} jaar')

Leeftijd | Gemiddeld: 63.0 jaar
Leeftijd | Modus: 74.0 jaar
Leeftijd | Spreidingsbreedte: 49.0 jaar
Leeftijd | Standaardafwijking 11.0 jaar


#### **Geslacht**

In [407]:
# Geslacht van bruikbare data
geslacht = Data_patienten["GESLACHT"]

# Mannen en vrouwen 
geslacht_man = Data_patienten.loc[Data_patienten['GESLACHT'] == 'm']
geslacht_vrouw = Data_patienten.loc[Data_patienten['GESLACHT'] == 'v']

# Aantal mannen en vrouwen
aantal_mannen = len(geslacht_man.index)
aantal_vrouwen = len(geslacht_vrouw.index)

# Printen 
print(f'Aantal mannen: {aantal_mannen}')
print(f'Aantal vrouwen: {aantal_vrouwen}')

Aantal mannen: 79
Aantal vrouwen: 32


#### **Lengte**

##### Lengte in centimeter (cm)

In [408]:
# Aantal unieke waarden bij "LENGTE" tellen en tonen
lengte_uniek_tellen = Data_patienten["LENGTE"].nunique()
lengte_uniek = Data_patienten["LENGTE"].unique()

print(f'Er zijn {lengte_uniek_tellen} verschillende waarnemingen gevonden bij de lengte van de patienten')
print(f'De verschillende lengtes die zijn waargenomen zijn: {lengte_uniek}')

Er zijn 39 verschillende waarnemingen gevonden bij de lengte van de patienten
De verschillende lengtes die zijn waargenomen zijn: [175.  173.  185.  188.  195.  181.  160.  182.  180.  174.    nan 170.
 185.5 186.  167.  165.  158.  164.  190.  183.  176.  207.  166.  180.5
 168.  193.  169.  178.  187.  189.  172.  171.  163.  196.  179.  177.
 155.  159.  150.  156. ]


In [409]:
# Statistieke waarden zoals het gemiddelde, modus, spreidingsbreedte en standaardafwijking berekenen
lengte = Data_patienten["LENGTE"]

# Gemiddelde
gemiddelde_lengte = numpy.round(lengte.mean())
print(f'Lengte | Gemiddeld: {gemiddelde_lengte} cm')

# Modus
x = lengte.mode()
modus_lengte = x[0]
print(f'Lengte | Modus: {modus_lengte} cm')

# Spreidingsbreedte
spreidingsbreedte_lengte = lengte.max() - lengte.min()
print(f'Lengte | Spreidingsbreedte: {spreidingsbreedte_lengte} cm')

# Standaardafwijking
lengte.std()
standaardafwijking_lengte = lengte.std()
print(f'Lengte | Standaardafwijking {round(standaardafwijking_lengte,0)} cm')

Lengte | Gemiddeld: 175.0 cm
Lengte | Modus: 170.0 cm
Lengte | Spreidingsbreedte: 57.0 cm
Lengte | Standaardafwijking 10.0 cm


#### **Gewicht**

##### Het gewicht van de patieten in kilogram (kg)

In [410]:
# Aantal unieke waarden bij "GEWICHT" tellen en tonen
gewicht_uniek_tellen = Data_patienten["GEWICHT"].nunique()
gewicht_uniek = Data_patienten["GEWICHT"].unique()

print(f'Er zijn {gewicht_uniek_tellen} verschillende waarnemingen gevonden bij het gewicht van de patienten')
print(f'De verschillende gewichten die zijn waargenomen zijn: {gewicht_uniek}')

Er zijn 59 verschillende waarnemingen gevonden bij het gewicht van de patienten
De verschillende gewichten die zijn waargenomen zijn: [ 87.  74.  64.  88. 119.  99.  77. 130.  67.  76. 105. 102.  80.  84.
  78.  91. 108.  81.  68.  93. 100.  95.  90. 110.  85. 107. 125. 145.
 112. 120. 115. 101. 114.  73. 117.  98.  70.  82.  86. 118. 122.  nan
 124. 159. 135. 123.  75.  96.  97. 113.  54. 103.  72.  79.  83.  51.
  59. 137. 106.  58.]


In [411]:
# Statistieke waarden zoals het gemiddelde, modus, spreidingsbreedte en standaardafwijking berekenen
gewicht = Data_patienten["GEWICHT"]

# Gemiddelde
gemiddelde_gewicht = numpy.round(gewicht.mean())
print(f'Gewicht | Gemiddeld: {gemiddelde_gewicht} kg')

# Modus
x = gewicht.mode()
modus_gewicht = x[0]
print(f'Gewicht | Modus: {modus_gewicht} kg')

# Spreidingsbreedte
spreidingsbreedte_gewicht = gewicht.max() - gewicht.min()
print(f'Gewicht | Spreidingsbreedte: {spreidingsbreedte_gewicht} kg')

# Standaardafwijking
gewicht.std()
standaardafwijking_gewicht = gewicht.std()
print(f'Gewicht | Standaardafwijking {round(standaardafwijking_gewicht,0)} kg')

Gewicht | Gemiddeld: 94.0 kg
Gewicht | Modus: 108.0 kg
Gewicht | Spreidingsbreedte: 108.0 kg
Gewicht | Standaardafwijking 20.0 kg


#### **Apache IV score**

##### De score van een patient op de IC?

In [412]:
# Aantal unieke waarden bij "APACHE_IV_SCORE" tellen en tonen
apache_uniek_tellen = Data_patienten["APACHE_IV_SCORE"].nunique()
apache_uniek = Data_patienten["APACHE_IV_SCORE"].unique()

print(f'Er zijn {apache_uniek_tellen} verschillende waarnemingen gevonden bij de apache IV scores van de patienten')
print(f'De verschillende apache IV scores die zijn waargenomen zijn: {apache_uniek}')

Er zijn 49 verschillende waarnemingen gevonden bij de apache IV scores van de patienten
De verschillende apache IV scores die zijn waargenomen zijn: [69 93 72 41 56 38 35 80 46 68 58 65 63 51 28 77 47 53 67 83 76 82 79 64
 49 75 42 45 59 62 50 57 43  0 95 81 89 73 36 52 74 84 61 66 39 60 78 86
 33]


In [413]:
# Statistieke waarden zoals het gemiddelde, modus, spreidingsbreedte en standaardafwijking berekenen
apache_IV_score = Data_patienten["APACHE_IV_SCORE"]

# Gemiddelde
gemiddelde_apache = numpy.round(apache_IV_score.mean())
print(f'Apache IV score | Gemiddeld: {gemiddelde_apache}')

# Modus
x = apache_IV_score.mode()
modus_apache = x[0]
print(f'Apache IV score | Modus: {modus_apache}')

# Spreidingsbreedte
spreidingsbreedte_apache = apache_IV_score.max() - apache_IV_score.min()
print(f'Apache IV score | Spreidingsbreedte: {spreidingsbreedte_apache}')

# Standaardafwijking
apache_IV_score.std()
standaardafwijking_apache = apache_IV_score.std()
print(f'Apache IV score | Standaardafwijking {round(standaardafwijking_apache,0)}')

Apache IV score | Gemiddeld: 58.0
Apache IV score | Modus: 51
Apache IV score | Spreidingsbreedte: 95
Apache IV score | Standaardafwijking 18.0


#### **In_leven_x_maanden**

##### Het aantal patienten dat X maanden in leven is. Dit is in verdeeld in een periode van 3 maanden en 6 maanden.

In [414]:
# Aantal patienten in leven voor 3 maanden berekenen

wel_in_leven_3_maanden = Data_patienten.loc[Data_patienten['IN_LEVEN_3_MAANDEN'] == 'ja']
#print(wel_in_leven_3_maanden)

aantal_patienten_in_leven_3_maanden = len(wel_in_leven_3_maanden)
print(f'Aantal patienten die 3 maanden in leven zijn {aantal_patienten_in_leven_3_maanden}')

# aantal mannelijke patienten 3 maanden in leven
m_patienten_in_leven_3 = wel_in_leven_3_maanden.loc[wel_in_leven_3_maanden['GESLACHT'] == 'm']
aantal_m_patienten_in_leven_3 = len(m_patienten_in_leven_3)
print(f'Aantal mannelijke patienten die 3 maanden in leven zijn {aantal_m_patienten_in_leven_3}')

# aantal vrouwelijke patienten 3 maanden in leven
v_patienten_in_leven_3 = wel_in_leven_3_maanden.loc[wel_in_leven_3_maanden['GESLACHT'] == 'v']
aantal_v_patienten_in_leven_3 = len(v_patienten_in_leven_3)
print(f'Aantal vrouwelijke patienten die 3 maanden in leven zijn {aantal_v_patienten_in_leven_3}')

# patienten niet in leven 3 maanden
niet_in_leven_3_maanden = Data_patienten.loc[Data_patienten['IN_LEVEN_3_MAANDEN'] == 'nee']
aantal_patienten_niet_in_leven_3_maanden = len(niet_in_leven_3_maanden)
print(f'Aantal patienten die in de eerste 3 maanden niet in leven zijn {aantal_patienten_niet_in_leven_3_maanden}')

# mannelijke patienten
m_patienten_niet_in_leven_3 = niet_in_leven_3_maanden.loc[niet_in_leven_3_maanden['GESLACHT'] == 'm']
aantal_m_patienten_niet_in_leven_3 = len(m_patienten_niet_in_leven_3)
print(f'Aantal mannelijke patienten die de eerste 3 maanden niet in leven zijn {aantal_m_patienten_niet_in_leven_3}')

# vrouwelijke patienten
v_patienten_niet_in_leven_3 = niet_in_leven_3_maanden.loc[niet_in_leven_3_maanden['GESLACHT'] == 'v']
aantal_v_patienten_niet_in_leven_3 = len(v_patienten_niet_in_leven_3)
print(f'Aantal vrouwelijke patienten die de eerste 3 maanden niet in leven zijn {aantal_v_patienten_niet_in_leven_3}')

'''periode dat een patient in leven is/was, als de 1e 
waarde "ja" en de 2e waarde leeg ("") is, betekent dat de patient
is komen te overlijden. Als de 2e waarde leeg is, wordt er vanuit
gegaan dat de patient dezelfde status heeft als de 1e waarde
'''

Aantal patienten die 3 maanden in leven zijn 68
Aantal mannelijke patienten die 3 maanden in leven zijn 50
Aantal vrouwelijke patienten die 3 maanden in leven zijn 18
Aantal patienten die in de eerste 3 maanden niet in leven zijn 39
Aantal mannelijke patienten die de eerste 3 maanden niet in leven zijn 27
Aantal vrouwelijke patienten die de eerste 3 maanden niet in leven zijn 12


'periode dat een patient in leven is/was, als de 1e \nwaarde "ja" en de 2e waarde leeg ("") is, betekent dat de patient\nis komen te overlijden. Als de 2e waarde leeg is, wordt er vanuit\ngegaan dat de patient dezelfde status heeft als de 1e waarde\n'

In [415]:
# Aantal patienten in leven voor 6 maanden berekenen

wel_in_leven_6_maanden = Data_patienten.loc[Data_patienten['IN_LEVEN_6_MAANDEN'] == 'ja']
#print(wel_in_leven_6_maanden)

aantal_patienten_in_leven_6_maanden = len(wel_in_leven_6_maanden)
print(f'Aantal patienten die 6 maanden in leven zijn {aantal_patienten_in_leven_6_maanden}')

niet_in_leven_6_maanden = Data_patienten.loc[Data_patienten['IN_LEVEN_6_MAANDEN'] == 'nee']
#print(niet_in_leven_6_maanden)

aantal_patienten_niet_in_leven_6_maanden = len(niet_in_leven_6_maanden)
print(f'Aantal patienten die in de eerste 6 maanden niet in leven zijn {aantal_patienten_niet_in_leven_6_maanden}')

# mannelijke patienten
m_patienten_niet_in_leven_6 = niet_in_leven_6_maanden.loc[niet_in_leven_6_maanden['GESLACHT'] == 'm']
aantal_m_patienten_niet_in_leven_6 = len(m_patienten_niet_in_leven_6)
print(f'Aantal mannelijke patienten die in de eerste 6 maanden niet in leven zijn {aantal_m_patienten_niet_in_leven_6}')

# mannelijke patienten
v_patienten_niet_in_leven_6 = niet_in_leven_6_maanden.loc[niet_in_leven_6_maanden['GESLACHT'] == 'v']
aantal_v_patienten_niet_in_leven_6 = len(v_patienten_niet_in_leven_6)
print(f'Aantal vrouwelijke patienten die in de eerste 6 maanden niet in leven zijn {aantal_v_patienten_niet_in_leven_6}')


Aantal patienten die 6 maanden in leven zijn 0
Aantal patienten die in de eerste 6 maanden niet in leven zijn 33
Aantal mannelijke patienten die in de eerste 6 maanden niet in leven zijn 22
Aantal vrouwelijke patienten die in de eerste 6 maanden niet in leven zijn 11


### <font color="803AFF"> **Covid_meetgegevens_export.tsv** </font>

##### Alleen de meetgegevens van patienten waarvan de alle gegevens bruikbaar zijn, worden verwerkt. Daarom moet er alleen in het bestand *Covid_meetgegevens_export.tsv* gezocht worden naar de desbetreffende patienten ID's. 

In [416]:
# patienten ID's die als bruikbaar waargenomen waren in Covid_patienten_export.tsv
Data_patienten = patient.loc[patient['BRUIKBAAR'] == 'ja']

# kolom selecteren met alleen 'PATIENT_ID'
kolom = Data_patienten['PATIENT_ID']

# kolom naar list converteren
id_bruikbaar_gegevens = kolom.tolist()
print(id_bruikbaar_gegevens)

# toon id van alle meetgegevens
unique_id_measurement = measurement['PATIENT_ID'].unique()

# vergelijken alle id en bruikbare id
set_welke_id = set(id_bruikbaar_gegevens)
set_welke_id_2 = set(unique_id_measurement)
verschil_measurement_id = set_welke_id_2.difference(set_welke_id)
niet_gebruiken_id = verschil_measurement_id
print(niet_gebruiken_id)

gewenste_meetgegevens = measurement[~measurement['PATIENT_ID'].isin(niet_gebruiken_id)]
print(gewenste_meetgegevens)




[101, 105, 106, 108, 111, 115, 116, 118, 121, 123, 124, 127, 129, 138, 139, 141, 143, 145, 146, 148, 150, 151, 153, 156, 157, 158, 162, 165, 166, 167, 169, 173, 174, 175, 182, 183, 184, 186, 187, 190, 193, 194, 195, 198, 199, 201, 202, 206, 207, 209, 210, 212, 213, 215, 216, 218, 220, 221, 222, 223, 225, 227, 229, 232, 233, 235, 237, 238, 239, 241, 242, 243, 244, 246, 250, 252, 259, 260, 263, 109, 112, 140, 142, 144, 147, 149, 163, 164, 168, 171, 172, 179, 180, 181, 185, 188, 189, 192, 203, 204, 211, 214, 217, 219, 230, 234, 240, 245, 254, 257, 262]
{128.0, 130.0, 131.0, 132.0, 133.0, 134.0, 135.0, 136.0, 137.0, 261.0, 265.0, 152.0, 154.0, 155.0, 159.0, 160.0, 161.0, 170.0, 176.0, 177.0, 178.0, 1201.0, 191.0, nan, 197.0, 200.0, 205.0, 208.0, 247.0, 253.0, 224.0, 228.0, 102.0, 103.0, 104.0, 231.0, 107.0, 110.0, 113.0, 114.0, 117.0, 119.0, 120.0, 249.0, 122.0, 125.0, 126.0}
      PATIENT_ID  MEETDATUM  VCO2_MLMIN  EE_BEADEMINGSMACH  VOEDING_ML24H  \
6          163.0  09-DEC-20         28

#### **Meetdatum**

##### Meetdatum van de waarnemingen

In [417]:
# meetdatum
meetdatum = gewenste_meetgegevens['MEETDATUM']
print(meetdatum)



6       09-DEC-20
7       12-DEC-20
8       13-DEC-20
9       06-DEC-20
10      09-DEC-20
          ...    
1611    15-OCT-20
1612    18-OCT-20
1613    19-OCT-20
1615    30-DEC-20
1616    03-MAR-21
Name: MEETDATUM, Length: 1132, dtype: object


#### **VCO2_MLMIN**

Hoeveelheid co2 die door patient wordt uitgeademd per minuut in ml

In [418]:
# Statistieke waarden zoals het gemiddelde, modus, spreidingsbreedte en standaardafwijking berekenen
vco2 = gewenste_meetgegevens['VCO2_MLMIN']
print(vco2)

# Gemiddelde
gemiddelde_vco2 = numpy.round(vco2.mean())
print(f'VCO2 | Gemiddeld: {gemiddelde_vco2}')

# Modus
x = vco2.mode()
modus_vco2 = x[0]
print(f'VCO2 | Modus: {modus_vco2}')

# Spreidingsbreedte
spreidingsbreedte_vco2 = vco2.max() - vco2.min()
print(f'VCO2 | Spreidingsbreedte: {spreidingsbreedte_vco2}')

# Standaardafwijking
vco2.std()
standaardafwijking_vco2 = vco2.std()
print(f'VCO2 | Standaardafwijking {round(standaardafwijking_vco2,0)}')

6       283
7       352
8       347
9       206
10      285
       ... 
1611    258
1612    245
1613    214
1615    262
1616    238
Name: VCO2_MLMIN, Length: 1132, dtype: int64
VCO2 | Gemiddeld: 260.0
VCO2 | Modus: 242
VCO2 | Spreidingsbreedte: 354
VCO2 | Standaardafwijking 57.0


#### **EE_beademingsmach**

Energy Expenditure (vanuit de beademingsmachine berekend) verwijst naar het dagelijkse calorieverbruik van een beademde patiënt, gemeten in kilocalorieën per dag

In [419]:
# Statistieke waarden zoals het gemiddelde, modus, spreidingsbreedte en standaardafwijking berekenen
ee_beademing = gewenste_meetgegevens['EE_BEADEMINGSMACH']
print(ee_beademing)

# Gemiddelde
gemiddelde_ee_beademing = numpy.round(ee_beademing.mean())
print(f'EE_BEADEMINGSMACH | Gemiddeld: {gemiddelde_ee_beademing}')

# Modus
x = ee_beademing.mode()
modus_ee_beademing = x[0]
print(f'EE_BEADEMINGSMACH | Modus: {modus_ee_beademing}')

# Spreidingsbreedte
spreidingsbreedte_ee_beademing = ee_beademing.max() - ee_beademing.min()
print(f'EE_BEADEMINGSMACH | Spreidingsbreedte: {spreidingsbreedte_ee_beademing}')

# Standaardafwijking
ee_beademing.std()
standaardafwijking_ee_beademing = ee_beademing.std()
print(f'EE_BEADEMINGSMACH | Standaardafwijking {round(standaardafwijking_ee_beademing,0)}')

6       2317.77
7       2882.88
8       2841.93
9       1687.14
10      2334.15
         ...   
1611    2113.02
1612    2006.55
1613    1752.66
1615    2145.78
1616    1949.22
Name: EE_BEADEMINGSMACH, Length: 1132, dtype: float64
EE_BEADEMINGSMACH | Gemiddeld: 2129.0
EE_BEADEMINGSMACH | Modus: 1981.98
EE_BEADEMINGSMACH | Spreidingsbreedte: 2899.26
EE_BEADEMINGSMACH | Standaardafwijking 466.0


#### **VOEDING_ML24H**

In [420]:
# Statistieke waarden zoals het gemiddelde, modus, spreidingsbreedte en standaardafwijking berekenen
voeding = gewenste_meetgegevens['VOEDING_ML24H']
print(voeding)

# Gemiddelde
gemiddelde_voeding = numpy.round(voeding.mean())
print(f'VOEDING_ML24H | Gemiddeld: {gemiddelde_voeding}')

# Modus
x = voeding.mode()
modus_voeding = x[0]
print(f'VOEDING_ML24H | Modus: {modus_voeding}')

# Spreidingsbreedte
spreidingsbreedte_voeding = voeding.max() - voeding.min()
print(f'VOEDING_ML24H | Spreidingsbreedte: {spreidingsbreedte_voeding}')

# Standaardafwijking
voeding.std()
standaardafwijking_voeding = voeding.std()
print(f'VOEDING_ML24H | Standaardafwijking {round(standaardafwijking_voeding,0)}')

6       1768.04
7       1416.00
8       1416.00
9        722.75
10       904.40
         ...   
1611    1512.00
1612    1520.40
1613    1092.00
1615    1008.00
1616    1732.50
Name: VOEDING_ML24H, Length: 1132, dtype: float64
VOEDING_ML24H | Gemiddeld: 1266.0
VOEDING_ML24H | Modus: 1512.0
VOEDING_ML24H | Spreidingsbreedte: 2583.8999999999996
VOEDING_ML24H | Standaardafwijking 448.0


Voeding van de patient in milliliters per dag (ml)

#### **PROPOFOL_ML24H**

Hoeveelheid propofol per 24 uur (1 dag)

In [421]:
# Statistieke waarden zoals het gemiddelde, modus, spreidingsbreedte en standaardafwijking berekenen
propofol = gewenste_meetgegevens['PROPOFOL_ML24H']
print(propofol)

# Gemiddelde
gemiddelde_propofol = numpy.round(propofol.mean())
print(f'PROPOFOL_ML24H | Gemiddeld: {gemiddelde_propofol}')

# Modus
x = propofol.mode()
modus_propofol = x[0]
print(f'PROPOFOL_ML24H | Modus: {modus_propofol}')

# Spreidingsbreedte
spreidingsbreedte_propofol = propofol.max() - propofol.min()
print(f'PROPOFOL_ML24H | Spreidingsbreedte: {spreidingsbreedte_propofol}')

# Standaardafwijking
propofol.std()
standaardafwijking_propofol = propofol.std()
print(f'PROPOFOL_ML24H | Standaardafwijking {round(standaardafwijking_propofol,0)}')

6       335.0
7       336.0
8       337.0
9       161.0
10      152.0
        ...  
1611      0.0
1612      0.0
1613      0.0
1615      0.0
1616      0.0
Name: PROPOFOL_ML24H, Length: 1132, dtype: float64
PROPOFOL_ML24H | Gemiddeld: 161.0
PROPOFOL_ML24H | Modus: 0.0
PROPOFOL_ML24H | Spreidingsbreedte: 556.0
PROPOFOL_ML24H | Standaardafwijking 141.0


#### **Buikligging**

Ligging van de patienten, deze waarde kan "buik" of "rug" zijn

In [422]:
# buikligging mlmin
buikligging = gewenste_meetgegevens['BUIKLIGGING']
print(buikligging)

# aantal buik
buik = gewenste_meetgegevens.loc[gewenste_meetgegevens['BUIKLIGGING'] == 'buik']
aantal_buik = (len(buik))
print(aantal_buik)

# aantal rug
rug = gewenste_meetgegevens.loc[gewenste_meetgegevens['BUIKLIGGING'] == 'rug']
aantal_rug = (len(rug))
print(aantal_rug)

6        rug
7        rug
8        rug
9        rug
10       rug
        ... 
1611    buik
1612    buik
1613    buik
1615    buik
1616    buik
Name: BUIKLIGGING, Length: 1132, dtype: object
202
919


#### **ID**

ID van meeting zelf

In [423]:
# ID mlmin
ID_meeting = gewenste_meetgegevens['ID']
print(ID_meeting)

6          7
7          8
8          9
9         10
10        11
        ... 
1611    1612
1612    1613
1613    1614
1615    1616
1616    1617
Name: ID, Length: 1132, dtype: int64


#### **Data voor op dashboard**

In [427]:
# data op dashboard
# Mannen en vrouwen 
geslacht_man = Data_patienten.loc[Data_patienten['GESLACHT'] == 'm']
geslacht_vrouw = Data_patienten.loc[Data_patienten['GESLACHT'] == 'v']

# Aantal mannen en vrouwen
aantal_mannen = len(geslacht_man.index)
aantal_vrouwen = len(geslacht_vrouw.index)
totaal_patienten = aantal_vrouwen + aantal_mannen

# percentage mannen en vrouwen
percentage_mannen = aantal_mannen / totaal_patienten * 100
percentage_vrouwen = aantal_vrouwen / totaal_patienten * 100
afgerond_percentage_mannen = round(percentage_mannen, 2)
afgerond_percentage_vrouwen = round(percentage_vrouwen, 2)


# gem leeftijd patienten 
leeftijd_patienten = Data_patienten['LEEFTIJD']
gemiddelde_leeftijd_patienten = np.round(leeftijd_patienten.mean())

# gemiddelde leeftijd mannen
leeftijd_mannelijke_patienten = Data_patienten.loc[Data_patienten['GESLACHT'] == 'm', 'LEEFTIJD']
gemiddelde_leeftijd_mannelijke_patienten = np.round(leeftijd_mannelijke_patienten.mean(), 2)

# gemiddelde leeftijd vrouwen
leeftijd_vrouwelijke_patienten = Data_patienten.loc[Data_patienten['GESLACHT'] == 'v', 'LEEFTIJD']
gemiddelde_leeftijd_vrouwelijke_patienten = np.round(leeftijd_vrouwelijke_patienten.mean(), 2)


# gewicht patienten
gewicht = Data_patienten['GEWICHT']
gemiddelde_gewicht = np.round(gewicht.mean())

# gemiddeld gewicht mannen
gewicht_mannen = Data_patienten.loc[Data_patienten['GESLACHT'] == 'm', 'GEWICHT']
gemiddeld_gewicht_mannen = np.round(gewicht_mannen.mean(), 2)

# gemiddeld gewicht vrouwen
gewicht_vrouwen = Data_patienten.loc[Data_patienten['GESLACHT'] == 'v', 'GEWICHT']
gemiddeld_gewicht_vrouwen = np.round(gewicht_vrouwen.mean(), 2)


# gemiddelde lengte patienten
lengte = Data_patienten['LENGTE']
gemiddelde_lengte = np.round(lengte.mean())

# gemiddelde lengte mannen
lengte_mannen = Data_patienten.loc[Data_patienten['GESLACHT'] == 'm', 'LENGTE']
gemiddelde_lengte_mannen = np.round(lengte_mannen.mean(), 2)

# gemiddelde lengte vrouwen
lengte_vrouwen = Data_patienten.loc[Data_patienten['GESLACHT'] == 'v', 'LENGTE']
gemiddelde_lengte_vrouwen = np.round(lengte_vrouwen.mean(), 2)


# gemiddelde apache IV score patienten
apache = Data_patienten['APACHE_IV_SCORE']
gemiddelde_apache = np.round(apache.mean())

# gemiddelde apache IV score mannen
apache_mannen = Data_patienten.loc[Data_patienten['GESLACHT'] == 'm', 'APACHE_IV_SCORE']
gemiddelde_apache_mannen = np.round(apache_mannen.mean(), 2)

# gemiddelde apache IV score vrouwen
apache_vrouwen = Data_patienten.loc[Data_patienten['GESLACHT'] == 'v', 'APACHE_IV_SCORE']
gemiddelde_apache_vrouwen = np.round(apache_vrouwen.mean(), 2)


# BMI patienten
gewicht_pat = Data_patienten['GEWICHT']
lengte_pat = Data_patienten['LENGTE']

# BMI 
bmi_patienten = gewicht / ((lengte / 100) ** 2)
bmi_mannen = gewicht_mannen / ((lengte_mannen / 100) ** 2)
bmi_vrouwen = gewicht_vrouwen / ((lengte_vrouwen / 100) ** 2)

# Gemiddelde BMI 
gemiddelde_bmi_patienten = np.round(bmi_patienten.mean(), 2)
gemiddelde_bmi_mannen = np.round(bmi_mannen.mean(), 2)
gemiddelde_bmi_vrouwen = np.round(bmi_vrouwen.mean(), 2)


# BMI en apache dataframe maken
bmi_apache_data = pd.DataFrame()
bmi_apache_data['PATIENT_ID'] = Data_patienten['PATIENT_ID']
bmi_apache_data['GESLACHT'] = Data_patienten['GESLACHT']
bmi_apache_data['GEWICHT'] = Data_patienten['GEWICHT']
bmi_apache_data['LENGTE'] = Data_patienten['LENGTE']
bmi_apache_data['APACHE_IV_SCORE'] = Data_patienten['APACHE_IV_SCORE']
# BMI berekenen
bmi_apache_data['BMI'] = bmi_apache_data['GEWICHT'] / ((bmi_apache_data['LENGTE'] / 100) ** 2)

################################################ meetgegevens ##############################################################
# patienten ID's die als bruikbaar waargenomen waren in Covid_patienten_export.tsv
Data_patienten = patient.loc[patient['BRUIKBAAR'] == 'ja']

# kolom selecteren met alleen 'PATIENT_ID'
kolom = Data_patienten['PATIENT_ID']

# kolom naar list converteren
id_bruikbaar_gegevens = kolom.tolist()

# toon id van alle meetgegevens
unique_id_measurement = measurement['PATIENT_ID'].unique()

# vergelijken alle id en bruikbare id
set_welke_id = set(id_bruikbaar_gegevens)
set_welke_id_2 = set(unique_id_measurement)
verschil_measurement_id = set_welke_id_2.difference(set_welke_id)
niet_gebruiken_id = verschil_measurement_id
gewenste_meetgegevens = measurement[~measurement['PATIENT_ID'].isin(niet_gebruiken_id)]


6       283
7       352
8       347
9       206
10      285
       ... 
1611    258
1612    245
1613    214
1615    262
1616    238
Name: VCO2_MLMIN, Length: 1132, dtype: int64
