# Module 4: Data analyse

## *Inleverdatum: woensdag 11 december 2024 om 17.00*

## Student gegevens

#### *Naam:*

#### *Studentnummer:*

## Algemene instructies

### *Inzicht:*
- Lees eerst de officiële documentatie van een bepaalde functionaliteit en parameters als je deze nog niet goed begrijpt. Gebruik daarna een zoekmachine om eventueel nog extra informatie en voorbeelden te vinden.
- Stel vragen aan de docenten en student assistenten! Wij zijn er om jullie te helpen 😊.
- Je kunt ook vragen stellen via het Brightspace Forum.
- Discussies met medestudenten worden aangemoedigd, maar het kopiëren van elkaars code valt onder plagiaat en kan tot uitsluiting van het vak zorgen.

### *Code:*
- Zorg dat resultaten (bijv. specifieke waarden die moeten worden uitgerekend) altijd geprint worden met uitleg er bij. Gebruik daarbij f-strings met een schappelijk aantal decimalen.
- Het gebruik van gevectoriseerde notatie is (indien mogelijk) altijd beter dan het gebruik van een expliciete for loop.
- Voorkom het dupliceren van code door functies te definiëren zodat code makkelijk kan worden hergebruikt.

### *Stijl:*
- Zorg dat code duidelijk te lezen en te begrijpen is door een ander. Vraag zo nu en dan een medestudent om te controleren of dat het geval is.
- Voeg compact maar inzichtelijk commentaar toe aan de code. Commentaar is bedoeld om extra uitleg te geven over waar een stuk code voor dient, hoe het werkt, en eventuele input en output.

### *Plotten:*
- Maak duidelijk en makkelijk te begrijpen plots. De standaardinstellingen van Matplotlib zijn vaak niet de beste instellingen.
- Voeg altijd labels aan de assen toe met de grootheden en eventuele eenheden die worden weergegeven.
- Voeg ook een legenda toe die de verschillende data beschrijft en eventueel een titel.
- Kies duidelijk zichtbare en te onderscheiden symbolen, lijnstijlen, kleuren, etc.
Pas eventueel de grootte en lengte-breedte verhouding van het figuur aan als dat de plot duidelijker maakt.

### *Inleveren:*
- Een antwoord in het notebook moet worden gegeven in één of meerdere cellen onder de vraag.
- De opdrachten moeten worden ingeleverd op Brightspace als een enkel Jupyter notebook bestand. Zorg dat je de notebook inlevert bij de juiste module.
- Zorg dat je voor het inleveren alle cellen in het notebook van begin tot einde nog een keer uitvoert. Cellen die een foutmelding geven, zullen niet worden nagekeken. Verwijder dus dergelijke cellen of maak er commentaar van.
- Vergeet ook niet je naam en studentnummer aan het begin van de notebook in te vullen.

### *Beoordeling:*
- Er zijn in totaal 110 punten te behalen.
- Bij te laat inleveren zal er 1,0 punt van het cijfer worden afgetrokken per dag te laat inleveren.
- De beoordeling van de opgaven gaat niet alleen over het juiste resultaat, maar ook over de leesbaarheid en structuur van de code.
- Zorg er voor dat de antwoorden in de notebook eenvoudig te begrijpen zijn en maak gebruik van commentaar om toe te lichten hoe een stuk code werkt en wat het uitvoert.

## Onderwerpen van deze notebook

- Object georiënteerd programmeren
- Klasse, constructor, methoden, data attributen, overerving
- Uitzonderingsafhandeling, foutmelding creëren
- Data inlezen uit CSV bestand met `np.loadtxt()` en `np.genfromtxt()`
- Basis statistiek: `np.amin()`, `np.amax()`, `np.mean()`, `np.std()`
- Data selectie, verwerken, plotten
- Inzichten verkrijgen uit een dataset
- Data interpoleren met `scipy.interpolate.interp1d()`
- Data fitten met een model met `scipy.optimize.curve_fit()`
- Model en meting met elkaar vergelijken

## Opgaven en puntenverdeling

- [Opdracht 1: Object georiënteerd programmeren](#oop) (20 punten)
- [Opdracht 2: GPS data van een vliegtuig analyseren](#gps_data) (45 punten)
  - Resultaat: 35 punten
  - Stijl en structuur van code: 4 punten
  - Commentaar en toelichtingen: 6 punten
- [Opdracht 3: Ster spectrum fitten met de wet van Planck](#ster_spectrum) (45 punten)
  - Resultaat: 35 punten
  - Stijl en structuur van code: 4 punten
  - Commentaar en toelichtingen: 6 punten

## Importeren van Python modules

We beginnen met het importeren van de [pyplot](https://matplotlib.org/stable/tutorials/introductory/pyplot.html) interface van [Matplotlib](https://matplotlib.org) en de [NumPy](https://numpy.org) bibliotheek.

In [5]:
import matplotlib.pyplot as plt
import numpy as np

## Opdracht 1: Object georiënteerd programmeren *(20 punten)* <a class='anchor' id='oop'></a>

[Object georiënteerd programmeren](https://nl.wikipedia.org/wiki/Objectgeori%C3%ABnteerd) is en belangrijk concept binnen de Python programmeertaal. Hier hebben jullie al kennis mee gemaakt bij de derde module van Programmeermethode NA, maar bijvoorbeeld ook bij het uitvoeren van een methode op een `Axes` object van Matplotlib. Deze notebook begint met zeven opdrachten over het werken met klassen, methoden, data attributen, en overerving. Ben je nog niet vertrouwd met deze concepten? Lees dan eerst deze [achtergrond informatie](https://realpython.com/python3-object-oriented-programming/) aandachtig door.

**[a]** Maak een [klasse](https://docs.python.org/3/tutorial/classes.html#a-first-look-at-classes) die `Dier` heet en voeg er een *constructor* aan toe die als parameters `naam`, `kleur`, en `leeftijd` heeft. Zorg dat binnen de constructor de argumenten van `naam`, `kleur`, en `leeftijd` naar gelijknamige [data attributen](https://docs.python.org/3/tutorial/classes.html#instance-objects) worden geschreven. *(1 punt)*

*Tip: vergeet niet `self` als eerste parameter mee te geven (zie bijvoorbeeld [deze uitleg](https://www.geeksforgeeks.org/self-in-python-class/)). De `self` parameter representeert de instantie en geeft toegang tot de methoden en data attributen van de klasse.*

In [6]:
class Dier:
    def __init__(self, naam, kleur,leeftijd):
        self.naam = naam
        self.kleur = kleur
        self.leeftijd = leeftijd

**[b]** Kopieer de `Dier` klasse uit de vorige vraag en voeg er een [methode](https://docs.python.org/3/tutorial/classes.html#method-objects) aan toe die `maak_geluid` heet. *(1 punt)*

- De methode moet een `if` conditie bevatten die de waarde van het `naam` attribuut controleert
- Als `naam` de waarde van `'kat'` heeft dan moet de methode *miauw* printen
- Als de waarde `'hond'` is dan moet de methode *woef* printen
- Als er een andere waarde voor `naam` is opgegeven dan moet er worden geprint dat er geen geluid voor dat dier bekend is

In [7]:
class Dier:
    def __init__(self, naam, kleur,leeftijd):
        self.naam = naam
        self.kleur = kleur
        self.leeftijd = leeftijd

    def maak_geluid(self):
        if(self.naam == "kat"):
            print("miauw")
        elif(self.naam == "hond"):
            print("woef")
        else:
            print(f"what does the {self.naam} say? miimimimimii")

**[c]** Kopieer de `Dier` klasse uit vorige vraag en voeg er een methode aan toe die `verander_leeftijd` heet. *(1 punt)*

- Aan deze methode moet de parameter `aantal_jaar` worden meegegeven
- Het argument daarvan moet worden opgeteld bij de waarde van het `leeftijd` attribuut
- Vervolgens moet de methode de nieuwe leeftijd teruggeven door gebruik te maken van `return`

In [8]:
class Dier:
    def __init__(self, naam: str, kleur: str, leeftijd: float) -> None:
        """
        Initializes a new instance of the class.

        Args:
            naam (str): The name of the object.
            kleur (str): The color of the object.
            leeftijd (int): The age of the object in years.
        """
        self.naam = naam
        self.kleur = kleur
        self.leeftijd = leeftijd

    def maak_geluid(self):
        if(self.naam == "kat"):
            print("miauw")
        elif(self.naam == "hond"):
            print("woef")
        else:
            print(f"what does the {self.naam} say? miimimimimii")
    
    def verander_leeftijd(self, aantal_jaar:float):
        self.leeftijd += aantal_jaar
        return self.leeftijd

**[d]** De `Dier` klasse is nu klaar! Maak nu een [object](https://docs.python.org/3/tutorial/classes.html#instance-objects) van de klasse voor een zwarte kat die 5 jaar is. *(1 punt)*

- Schrijf het object naar een variabele genaamd `zwarte_kat`
- Voer vervolgens de `maak_geluid` methode uit op gecreëerde object

*Tip: Aangezien de klasse in de vorige cel al is gedefinieerd hoeft deze niet gekopieerd te worden naar een nieuwe cel want dat zou voor onnodig lange code zorgen.*

In [9]:
zwarte_kat = Dier("kat", "zwart", 5)
zwarte_kat.maak_geluid()

miauw


**[e]** Maak opnieuw een object van de `Dier` klasse, maar nu voor een bruine hond van 8 jaar oud. *(1 punt)*

- Schrijf het object naar een variabele genaamd `bruine_hond`
- Voer vervolgens de `verander_leeftijd` methode uit door de leeftijd van de hond met 1,5 jaar te verhogen
- Schrijf de nieuwe leeftijd naar een variabele genaamd `leeftijd_hond`
- Print uiteraard het resultaat in een duidelijk formaat (zie *Algemene instructies*)

In [10]:
bruine_hond = Dier("hond", "bruin", 8)
bruine_hond.verander_leeftijd(1.5)
print(f"De leeftijd van de bruine hond is {bruine_hond.leeftijd:.1f}")

De leeftijd van de bruine hond is 9.5


**[f]** Maak nu een geheel nieuwe klasse die de eigenschappen van een product bevat. (*5 punten*)

- Noem de klasse `Product` en geef de `product` en `prijs` parameters mee met de initialisatie.
- Voeg de `__repr__` methode toe (zie [uitleg](https://www.geeksforgeeks.org/python-__repr__-magic-method/)) en zorg dat `product` en `prijs` in een zin geprint worden met behulp van [f-strings](https://realpython.com/python-f-strings/).
- Voeg de `verander_prijs()` methode toe met als parameter `nieuwe_prijs`. Deze methode moet de prijs van het product aanpassen.
- Test de klasse door een [object](https://docs.python.org/3/tutorial/classes.html#instance-objects) te maken voor een tafel met als prijs 89 euro. Schijf het object naar een variabele genaamd `tafel`.
- Verander de prijs naar 79 euro met de `verander_prijs()` methode en laat zien dat het `prijs` attribuut inderdaad is veranderd door het object te printen, dus `print(tafel)`.

In [11]:
class Product:
    def __init__(self, product: str, prijs: float) -> None:
        self.product = product
        self.prijs = prijs

    def __repr__(self) -> str:
        return f"Het product is een {self.product} en het kost {self.prijs:.2f} euro."
    
    def verander_prijs(self,nieuwe_prijs:float):
        self.prijs = nieuwe_prijs

tafel = Product("tafel", 89)
print(repr(tafel))
tafel.verander_prijs(79)
print("") # empty line omdat ik een \n in de strings lelijk vind maar wel ruimte dr tussen wil 
print(repr(tafel))



Het product is een tafel en het kost 89.00 euro.

Het product is een tafel en het kost 79.00 euro.


**[g]** Maak nu een nieuwe klasse genaamde `Computer` die als subklasse zal dienen van de `Product` klasse. De `Product` klasse dient dus als *parent* klasse van `Computer`. Via [overerving](https://nl.wikipedia.org/wiki/Overerving_(informatica)) (=*inheritance*) kan de `Computer` klasse van de eigenschappen en methoden van de `Product` klasse gebruikmaken. Bekijk eerst [deze video](https://realpython.com/videos/inheritance-in-python/) en lees voor meer informatie [deze pagina](https://realpython.com/inheritance-composition-python/). (*10 punten*)

- Maak de `Computer` klasse en zorg dat deze van `Product` zal overerven.
- Geef de `prijs` en `**computer_kwargs` parameters mee met de initialisatie. Met de `**computer_kwargs` moeten de `cpu`, `opslag`, en `geheugen` attributen van de `Computer` worden ingesteld (lees eventueel de uitleg over [**kwargs](https://www.geeksforgeeks.org/args-kwargs-python/)). Voeg [uitzonderingen](https://realpython.com/python-exceptions/) toe die een `ValueError` geven als een parameter ontbreekt in `**computer_kwargs`.
- Gebruik de ingebouwde `super()` functie (zie [uitleg](https://www.geeksforgeeks.org/python-super/)) om het argument van `product` in de `Product` klasse op *'computer'* te zetten en de prijs mee te geven aan het `Product`.
- Voeg de `inclusief_monitor` en `monitor_resolutie` attributen toe aan de initialisatie en zet deze op `False` en `None`, respectievelijk.
- Voeg nu de `monitor_toevoegen()` en `monitor_verwijderen()` methoden toe. Deze moeten de `inclusief_monitor` en `monitor_resolutie` attributen aanpassen. Laat beide methoden een `print()` maken met informatie voor de gebruiker.
- Voeg de `korting_toepassen()` methode toe en geef de `percentage` parameter mee. Deze zal een korting uitvoeren op de `prijs` van het `Product`. Maak daarbij opnieuw gebruik van `super()` zodat `verander_prijs()` van het `Product` wordt uitgevoegd.
- Test de klasse door een [object](https://docs.python.org/3/tutorial/classes.html#instance-objects) te maken voor een computer van 1200 euro, met 8 cpu, 2TB opslag, en 16 GB geheugen. Dit doe je door de `cpu`, `opslag`, en `geheugen` parameters mee te geven aan `Computer`. Schrijf het object naar een variabele genaamd `computer`.
- Voeg vervolgens een 4K monitor toe te voegen, verwijderen de monitor, en pas een korting van 30% toe.
- Print uiteindelijk het object zodat het product type en prijs wordt geprint, dus `print(computer)`

In [12]:
class Computer(Product):
    def __init__(self, prijs: float, **computer_kwarg) -> None:
        super().__init__("computer",prijs)
        self.inclusief_monitor = False
        monitor_resolutie = None 

        try: 
            self.cpu = computer_kwarg.get("cpu")
        except:
            throw: ValueError("Geen CPU gevonden")

        try:
            self.opslag = computer_kwarg.get("opslag")
        except:
            throw: ValueError("Geen opslag gevonden")
        
        try: 
            self.geheugen = computer_kwarg.get("geheugen")
        except:
            throw: ValueError("Geen geheugen gevonden")

    def korting_toepassen(self, percentage):
        nieuwe_prijs = self.prijs * (1 - percentage / 100)
        super().verander_prijs(nieuwe_prijs)

computer = Computer(1200, cpu="8", opslag="2TB", geheugen="16GB")
computer.inclusief_monitor = True
computer.monitor_resolutie = "4K"
computer.inclusief_monitor = False
computer.monitor_resolutie = None
computer.korting_toepassen(30)
print(repr(computer))


Het product is een computer en het kost 840.00 euro.


## Opdracht 2: GPS data van een vliegtuig analyseren *(45 punten)* <a class='anchor' id='gps_data'></a>

**Belangrijk:** *Bij deze opdracht kun je 4 punten verdienen voor de structuur en stijl van je code. Ook kun je 6 punten verdienen voor het toevoegen van duidelijk commentaar bij de code en eventuele tekst cellen met een toelichting. Het gebruik van een iteratie (bijv. met `for` of `while`) is **niet** toegestaan in opdracht 2, tenzij het expliciet vermeld staat. In andere gevallen zal het dus voor vermindering van punten zorgen.*

In deze opdracht ga je de [GPS](https://nl.wikipedia.org/wiki/Global_positioning_system) data van een vliegtuig analyseren. De data is opgeslagen in een bestand met het CSV formaat, oftewel als [comma-separated values](https://nl.wikipedia.org/wiki/Kommagescheiden_bestand). Open het *flight_data.csv* bestand in een simpele tekst bewerker (bijv. *Windows Notepad*) om het formaat van de data te begrijpen.

De `genfromtxt()` functie van NumPy is handig om data uit een [tekstbestand](https://nl.wikipedia.org/wiki/Platte_tekst) in te lezen. In het databestand heb je kunnen zien dat niet elke kolom een getal bevat, oftewel het `float` datatype. De eerste kolom bevat namelijk een datum en tijd. Gelukkig kan de `genfromtxt()` functie verschillende datatypes inlezen. Lees de [documentatie](https://numpy.org/doc/stable/reference/generated/numpy.genfromtxt.html) door en bekijk goed de uitleg bij de verschillende parameters. Ook kun je in het bestand zien dat sommige waardes ontbreken, bijvoorbeeld door een probleem met de meetapparatuur.

**[a]** Lees nu de tijd, breedtegraad, lengtegraad, hoogte, en snelheid uit het *flight_data.csv* bestand in. De hoogte is gegeven in *feet* en de snelheid in *knots* *(3 punten)*

- Zet het argument van `unpack` op `True`
- Stel ook andere relevante parameters van `genfromtxt()` in
- Zorg dat de output van `genfromtxt()` naar aparte variabelen
- Controleer na het inlezen dat een [NaN](https://nl.wikipedia.org/wiki/NaN) is toegekend aan de ontbrekende waardes. Het aantal NaNs in een array kun je printen door gebruik te maken van `np.sum()` en `np.isnan()`.

*Tip: Voor de datum/tijd data kun je bijvoorbeeld het `datetime64` datatype van NumPy gebruiken, maar je mag uiteraard ook een andere manier bedenken om die kolom met data om te zetten naar een handig datatype.*

In [30]:
utc,latitude,longitude,altitude,speed = np.genfromtxt('flight_data.csv', dtype=(str,float,float,float,float),delimiter=',', skip_header=1, usecols=(1,3,4,5,6), unpack=True)
print(utc[0:20])
time = np.datetime64(utc)
print(time)

['' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '']


ValueError: Could not convert object to NumPy datetime

Het bestand bevat het tijdstip (datum en tijd), de breedtegraad (in graden), de lengtegraad (in graden), en de hoogte (in meter). Voor de analyse is de [cumulatieve](https://www.encyclo.nl/begrip/cumulatief) tijd, de [cumulatieve](https://www.encyclo.nl/begrip/cumulatief) afstand, en de snelheid nodig. Deze kun je berekenen door met een iteratie alle regels in de ingelezen data te doorlopen.

Bekijk eerst hoe de [geografische coordinaten](https://nl.wikipedia.org/wiki/Geografische_co%C3%B6rdinaten) gedefinieerd zijn. Bedenk daarbij dat een hoekverschil kan worden omgerekend naar een afstand door gebruik te maken van de straal van de Aarde. De volledige omtrek is immers $2\pi\,R_\oplus$, waarbij $R_\oplus$ de straal van de Aarde is. Een verschil in de breedtegraad, $\Delta\theta$, in radialen komt daarom overeen met een afstand:

$$\Delta x_\theta = \Delta\theta\,R_\oplus$$

Vergelijkbaar kunnen we een hoekverschil van de lengtegraad omrekenen naar een afstand. Bedenk daarbij dat de afstand tussen twee lengtegraden groter is rond de evenaar dan richting de polen. Mocht dat niet gelijk duidelijk zijn, bekijk dan nog eens [deze afbeelding](https://nl.wikipedia.org/wiki/Geografische_co%C3%B6rdinaten#/media/Bestand:Latitude_and_Longitude_of_the_Earth_nl.svg). Er is daarom een extra factor $\cos{\theta}$ nodig om een verschil in lengtegraad, $\Delta\phi$, om te rekenen naar een de afstand:

$$\Delta x_\phi = \Delta\phi\,R_\oplus\,\cos{\theta}$$

Hoewel de [aarde een beetje afgeplat is](https://nl.wikipedia.org/wiki/Afplatting_van_de_Aarde), mag je ook aannemen dat de straal van de Aarde constant is bij het omrekenen van een hoekverschil naar een afstand, en dus niet van de breedtegraad afhangt. Ook mag je de vereenvoudiging maken dat lokaal de aarde vlak is bij het berekenen van de totale afstand per tijdsstap.

**[b]** We gaan nu eerst de ontbrekende waardes in de dataset corrigeren met een [interpolatie](https://nl.wikipedia.org/wiki/Interpolatie). (*5 punten*)

- Gebruik de `interp1d()` functie (zie [documentatie](https://docs.scipy.org/doc/scipy/reference/generated/scipy.interpolate.interp1d.html)) uit de `interpolate` subpackage van `scipy` en corrigeer,  met een lineaire interpolatie,  de elementen in de breedtegraad data die een NaN bevatten. *Tip: verander de array met de tijd naar een `float` datatype en interpoleer de breedtegraad als functie van de tijd.*
- Vervolgens corrigeer je ook de lengtegraad data met een aparte interpolatie.
- Controleer of de data inderdaad geen NaN waardes meer bevat door opnieuw gebruik te maken van `np.sum()` en `np.isnan()`.

In [10]:
# ...

**[c]** Maak drie nieuwe arrays en gebruik deze om de cumulatieve tijd en de cumulatieve afstand. *(9 punten)*

- Zorg dat de cumulatieve tijd en afstand bij nul beginnen
- Je mag gebruik maken van een `for` loop (zie [uitleg](https://realpython.com/python-for-loop/)) in combinatie met `range()` of `enumerate()` (zie [uitleg](https://realpython.com/python-enumerate/))
- Gebruik de `constants` module van Astropy voor de straal van de Aarde (zie [documentatie](https://docs.astropy.org/en/stable/constants/index.html))
- Hoogteverschillen mogen verwaarloosd worden voor de cumulatieve afstand

*Tip: Bedenk goed of je in graden of radialen moet werken. De input voor een functie zoals `np.cos()` (zie [documentatie](https://numpy.org/doc/stable/reference/generated/numpy.cos.html)) moet bijvoorbeeld in radialen worden gegeven . De `np.radians()` (zie [documentatie](https://numpy.org/doc/stable/reference/generated/numpy.radians.html)) en `np.degrees()` (zie [documentatie](https://numpy.org/doc/stable/reference/generated/numpy.degrees.html)) functies van NumPy zijn handig om te converteren tussen graden en radialen.*

In [11]:
# ...

**[d]** Gebruik de arrays uit de vorige vraag om de volgende eigenschappen van de dataset te printen: *(2 punten)*

- De totale tijdsduur van de vlucht in (uur, min, sec)
- De totale afstand in km
- De gemiddelde snelheid in km/uur

In [12]:
# ...

Een visualisatie, oftewel een plot, zorgt voor meer inzicht in een dataset. Om de route te visualiseren, kunnen we een lijn plotten door gebruik te maken van de lengtegraad en breedtegraad data. Daarbij is het logisch om een oriëntatie te kiezen waarbij de bovenkant van de figuur het noorden is en de rechterkant het oosten.

*Tip: Lees eerst nog een keer de algemene instructies aan het begin van deze notebook over de vereisten bij het maken van een plot.*

**[e]** Maak een plot van de vlucht door de breedtegraad en lengtegraad data te gebruiken. Voeg verder ook de volgende elementen toe: *(6 punten)*

- Rode stippen bij het start- en eindpunt van de vlucht
- Een groene ster op de plek met de maximum snelheid
- De maximum snelheid als tekst naast de groene ster
- Gebruik de `geopandas` en `geodatasets` bibliotheken om de contouren van een kaart op de achtergrond te plotten (zie [voorbeeld](https://geopandas.org/en/stable/gallery/create_geopandas_from_pandas.html)).
- Stel de limieten van de x-as en y-as in zodat de vlucht goed te zien is. Het is dus niet de bedoeling om de contouren van de hele wereld te laten zien.

In [13]:
# ...

Nu dat de route is gevisualiseerd, ga je de eigenschappen van de vlucht plotten als functie van het tijdstip.

**[f]** Maak een enkele plot met op de linker $y$-as de cumulatieve afstand in km en de rechter $y$-as de snelheid in km/uur (zie `twinx()` [voorbeelden](https://www.geeksforgeeks.org/matplotlib-axes-axes-twinx-in-python/)). De $x$-as moet de cumulatieve tijd in minuten weergeven. Zorg dat het duidelijk is welke lijn bij welke as hoort, bijvoorbeeld met verschillende kleuren en/of een legenda. (*4 punten*)

In [14]:
# ...

**[g]** Bereken gedurende hoeveel minuten er sneller dan 800 km/uur werd gevlogen. *(3 punten)*

In [15]:
# ...

**[h]** Bepaal het tijdstip (in uur, min, sec) waarop het hoogste punt van de vlucht werd bereikt. Bepaal ook hoe ver (in procenten) de vlucht op dat moment gevorderd was. *(3 punten)*

In [16]:
# ...

## Opdracht 3: Ster spectrum fitten met de wet van Planck *(45 punten)* <a class='anchor' id='ster_spectrum'></a>

**Belangrijk:** *Bij deze opdracht kun je 4 punten verdienen voor de structuur en stijl van je code. Ook kun je 6 punten verdienen voor het toevoegen van duidelijk commentaar bij de code en eventuele tekst cellen met een toelichting. Het gebruik van een iteratie is bij **geen** van de subvragen van opdracht 3 toegestaan. Maximale punten worden daarom alleen toegekend zonder gebruik te maken van `for`/`while`.*

De [stralingswet van Planck](https://nl.wikipedia.org/wiki/Wet_van_Planck) geeft de intensiteitsverdeling van het licht dat wordt uitgestraald door een ideale stralingsbron met temperatuur $T$, ook wel [zwarte straler](https://nl.wikipedia.org/wiki/Zwarte_straler) genoemd. De spectrale intensiteitsverdeling van een zwarte straler kan worden gebruikt als benadering voor het [spectrum](https://nl.wikipedia.org/wiki/Spectrum) van een ster.

Zoals we bij de tweede module al hadden gezien, maar nu als functie van golflengte, de formule voor de wet van Planck is:

$$B_\lambda(\lambda, T) = \pi\,\frac{2hc^2}{\lambda^5}\frac{1}{e^\frac{hc}{\lambda kT}-1}$$

Hierbij is $T$ de temperatuur van de zwarte straler en $\lambda$ golflengte van het licht. Ter herinnering, deze formule geeft de energie die wordt uitgestraald per eenheid van tijd, oppervlakte, en golflengte. De [SI eenheid](https://nl.wikipedia.org/wiki/SI-stelsel) van $B_\lambda(\lambda, T)$ is W m$^{-2}$ m$^{-1}$ . De formule bevat ook de [lichtsnelheid](https://nl.wikipedia.org/wiki/Lichtsnelheid), $c$, de [constante van Planck](https://nl.wikipedia.org/wiki/Constante_van_Planck), $h$, en de [Boltzmannconstante](https://nl.wikipedia.org/wiki/Boltzmannconstante), $k$.

De [classificatie van sterren](https://nl.wikipedia.org/wiki/Spectrale_classificatie_van_sterren) is gebaseerd op de kenmerken in de [spectra](https://nl.wikipedia.org/wiki/Spectrum). Het meten van een ster spectrum wordt gedaan met een [telescoop](https://nl.wikipedia.org/wiki/Telescoop_(optica)) en daaraan een [spectrograaf](https://nl.wikipedia.org/wiki/Spectrograaf) gekoppeld. De [spectraalklasse](https://nl.wikipedia.org/wiki/Spectraalklasse) van een ster is gerelateerd aan de temperatuur van de ster. In deze opgave ga je het spectrum van een zogeheten [hoofdreeksster](https://nl.wikipedia.org/wiki/Hoofdreeks) van [type M](https://nl.wikipedia.org/wiki/Rode_dwerg) analyseren.

Het ster spectrum is opgeslagen in het *M2V_HD95735.dat* bestand. Open eerst het bestand in a tekstbewerker (bijv. *Windows Notepad*) om de inhoud van het bestand te bekijken. Let bijvoorbeeld op de structuur van de data en de datatypes die het bevat.

De `loadtxt()` functie van NumPy (zie [documentatie](https://numpy.org/doc/stable/reference/generated/numpy.loadtxt.html)) is een eenvoudigere functie dan `genfromtxt()` om data uit een tekstbestand in te lezen. Deze functie is sneller maar heeft minder mogelijkheden als er bijvoorbeeld data mist in het bestand.

**[a]** Gebruik `loadtxt()` om de data uit het bestand *M2V_HD95735.dat* in te lezen. *(2 punten)*

In [17]:
# ...

Zoals je in het bestand misschien gezien hebt, heeft de flux bij sommige golflengtes een waarde van -999. Dit is gedaan om aan te geven dat er bij die golflengtes een probleem was met de meting. Met het analyseren is het handiger om die waardes op [NaN](https://nl.wikipedia.org/wiki/NaN) te zetten (zie [documentatie](https://numpy.org/doc/stable/reference/constants.html)). Op die manier zullen die waardes niet worden gebruikt bij het maken van een plot, terwijl dat met -999 wel het geval zou zijn.

**[b]** Identificeer de elementen in de array waarbij de flux een waarde heeft van -999. Gebruik de indices om zowel de flux als de onzekerheid de waarde NaN te geven. *(3 punten)*

In [18]:
# ...

**[c]** Bepaal het aantal elementen waarbij de flux een waarde van NaN heeft. *(2 punten)*

In [19]:
# ...

**[d]** Bepaal nu onderstaande eigenschappen van het spectrum: *(3 punten)*

- Het golflengte bereik in $\mu$m
- Het gemiddelde en de standaard deviatie van de flux in W m$^{-2}$ $\mu$m$^{-1}$
- De minimale en maximale waarde van de [signaal-ruisverhouding](https://nl.wikipedia.org/wiki/Signaal-ruisverhouding)

In [20]:
# ...

**[e]** Maak een plot van het spectrum, dus de flux als functie van golflengte. *(5 punten)*

- Zorg dat het figuur twee keer zo breed is dan hoog
- Gebruik de rechter $y$-as om de signaal-ruisverhouding (S/N) te plotten (zie [documentatie](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.twinx.html))
- Stel de linker $y$-as in op een logaritmische schaal
- Zorg dat het duidelijk is welke lijn het spectrum is en welke de signaal-ruisverhouding

In [21]:
# ...

We gaan nu het spectrum fitten met een model van een zwartlichaamstraler, gegeven door de [wet van Planck](https://nl.wikipedia.org/wiki/Wet_van_Planck). Om de data te fitten met het model kunnen we de [kleinste-kwadratenmethode](https://nl.wikipedia.org/wiki/Kleinste-kwadratenmethode) gebruiken, oftewel [least-squares](https://en.wikipedia.org/wiki/Least_squares). Met die methode wordt voor bepaalde waardes van de modelparameters het verschil tussen de meting en het model uitgerekend. Die verschillen worden gekwadrateerd, zodat alle verschillen een positieve waarde hebben. Vervolgens geeft de som van al die verschillen een indicatie over hoe goed het model de metingen fit. De parameters van het model moeten vervolgens worden aangepast om de fit te verbeteren en het verschil tussen model en metingen dus te minimaliseren.

Het minimaliseren van het verschil tussen model en meting is een [optimaliseringsprobleem](https://nl.wikipedia.org/wiki/Optimaliseringsprobleem). Gelukkig zijn daar algoritmes voor die kunnen helpen met het vinden van de beste parameter waardes, zodat we dat niet handmatig hoeven te doen. De `optimize` subpackage van SciPy bevat functionaliteiten om dergelijke problemen numeriek op te lossen (zie [documentatie](https://docs.scipy.org/doc/scipy/reference/optimize.html)).

**[f]** Definieer een functie voor de [wet van Planck](https://nl.wikipedia.org/wiki/Wet_van_Planck) en voeg ook een parameter als [schaalfactor](https://nl.wikipedia.org/wiki/Schaalfactor) toe. Deze parameter moet er voor zorgen dat het model spectrum naar het ster spectrum kan worden geschaald. Dit is noodzakelijk omdat de gemeten flux afhangt van de afstand naar de ster en de grootte van de ster. Gebruik de `curve_fit()` functie (zie [documentatie](https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.curve_fit.html)) om de beste waardes voor de temperatuur en schaalfactor te bepalen, en print die waardes. *(10 punten)*

- De fit met de `curve_fit()` moet op weg worden geholpen door een grove schatting van de parameters mee te geven
- Zorg dat de golflengtes waarbij de flux op NaN was gezet niet worden meegenomen in de fit
- Geef de onzekerheden van het spectrum mee met de `sigma` parameter. Op die manier zullen golflengtes waarbij de signaal-ruisverhouding lager is ook minder zwaar meewegen in de fit
- Geef als argument van `full_output` de waarde `True` en lees nog eens extra de documentatie om te begrijpen wat de `return` is van `curve_fit`

In [22]:
# ...

**[g]** Hoeveel iteraties heeft het algoritme nodig gehad om de beste fit te vinden tussen de metingen en het model? *(1 punt)*

In [23]:
# ...

De `curve_fit()` functie geeft onder andere de [covariantie](https://nl.wikipedia.org/wiki/Covariantie) terug. Dat is een 2D array met in dit geval 2 rijen en 2 kolommen, omdat het model 2 parameters bevat. Wat voor nu belangrijk is om te weten is dat de [hoofddiagonaal](https://nl.wikipedia.org/wiki/Hoofddiagonaal) de [variantie](https://nl.wikipedia.org/wiki/Variantie) bevat, oftewel het kwadraat van de [standaarddeviatie](https://nl.wikipedia.org/wiki/Standaardafwijking). Je kunt daarom eerst de `np.diag()` functie (zie [documentatie](https://numpy.org/doc/stable/reference/generated/numpy.diag.html)) en daarna de `np.sqrt()` functie van NumPy (zie [documentatie](https://numpy.org/doc/stable/reference/generated/numpy.sqrt.html)) gebruiken om de onzekerheid op de model parameters, de temperatuur en schaalfactor, te bepalen.

**[h]** Wat is de onzekerheid / standdaarddeviatie op de gefitte waardes van de temperatuur en de schaalfactor? *(3 punten)*

In [24]:
# ...

De parameters die gefit zijn kunnen we nu gebruiken om de meting met het model te vergelijken. Het is inzichtelijk om de meting samen met het model te plotten in één figuur.

**[i]** Plot het ster spectrum samen met het model spectrum van de zwarte straler. *(6 punten)*

- Maak gebruik van de gedefinieerde functie voor de wet van Planck functie om het beste model spectrum te plotten
- Voeg een legenda toe en zorg dat de temperatuur van het model in de legenda benoemd staat

In [25]:
# ...