-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
bereik afgeleide curves #53
Comments
Ik bedenk nu dat het toch nuttig is om ook in die richting schattingen van hoogte te hebben,. |
Bekijk het emailverkeer hierover eens (12-13 jan, voorafgaand aan toevoegen van dit issue), hierin geef je terecht aan dat de huidige benadering van die ondergrens niet correct is: we nemen de metingen < 0.5 m niet in beschouwing en hebben daardoor geen metingen < 1 m, maar we geven wel een curve voor een interval van 0.5 tot 1 m terwijl we geen metingen gebruikt hebben om het model hier te fitten. Het kan mss wel nuttig zijn om 'schattingen' te hebben, maar in hoeverre is het wenselijk om 'schattingen' te geven die niet gebaseerd zijn op meetresultaten en waarvan je dus geen enkel idee hebt of ze wel betrouwbaar zijn? Dus ik zou consequent zijn met de rest van het package en enkel schattingen geven waar metingen gebeurd zijn. Als iemand in dit geval schattingen wil hebben voor het interval tussen 0.5 en 1 m, volstaan enkele extra metingen van bomen met omtrek 0.55 m... Wat we evt. wel eens zouden kunnen bekijken, is in hoeverre het een optie is om voor de afgeleide modellen de metingen < 0.5 m mee te nemen voor het fitten en het eindresultaat. Nadeel is dat het basismodel opgesteld wordt om een goede benadering te geven boven 0.5 m, dus vraag is in hoeverre we die curvevorm onder 0.5 m nog betrouwbaar genoeg is om te gebruiken om het afgeleide model te fitten. Om eens verder te bekijken. Hoe we het precies oplossen, is nog te bekijken, maar ik zou in elk geval dit issue open laten tot er een oplossing is voor het feit dat er resultaten gegeven worden voor een interval zonder metingen aan het begin van een curve. |
OK. En dan denk ik dat - zeker bij gebruik van een afgeleide functie waar de vorm toch al vastligt - extrapolatie naar lagere omtrekklasses in bepaalde gevallen ook mogelijk moet zijn (weliswaar statistisch niet correct, dat weet ik ook wel, maar soms moeten we ook pragmatisch kunnen/durven zijn). Ik dacht daar sowieso nog eens een overleg voor in te plannen, ev. samen met Thierry. |
Probleem hierbij lijkt me vooral: wat als de vorm van de curve van het basismodel totaal niet overeenkomt met de spreiding van de metingen in het afgeleide model, en dan denk ik vooral aan een verschil van de helling van de curve. Als je aan beide uiteinden van je interval een aantal metingen hebben, gaan die er wel voor zorgen dat je curve mooi in het midden ligt (en de geschatte waarde dus nergens extreem afwijkt). Maar als je aan een van de uiteinden totaal geen metingen hebt en aan het andere uiteinde heel veel metingen, is er een grote kans dat de schatting bij het uiteinde zonder metingen toch wel aanzienlijk afwijkt als die curve een heel andere hellingsgraad heeft dan de werkelijkheid van dat specifieke domein (wat we dus niet kennen door een gebrek aan metingen). De metingen van lage omtrekklassen (als aanwezig) mee gebruiken voor het model, zou wel kunnen helpen om dit recht te trekken, maar anderzijds is er dan weer een minder goede fit op het deel boven 0.5 m (vandaar dat we destijds gekozen hebben om die gegevens niet mee te gebruiken voor de fit). Zonder deze metingen heb je zelfs geen idee dat dit probleem zich voordoet en dat de schatting toch wel vrij sterk afwijkt van de de werkelijkheid.
Komt dit doordat die omtrekklassen niet verkocht worden, of worden ze niet opgemeten omdat ze dit niet de moeite vinden om de kostprijs exact in te schatten, of is er nog een andere reden? Het lijkt me wel belangrijk om hier eerst een zicht op te hebben. Als het om een of andere reden niet belangrijk is om bepaalde maten van bomen op te meten, dan is het mss omdat het niet nodig is om hier een inschatting van te hebben? Mss zijn er in de domeinen in kwestie niet eens bomen van die maat, of is dit een maat die omwille van een bosbeheer-gerelateerde reden niet in de verkoop terechtkomt (bv. dunning gebeurt pas bij bomen van een bepaalde dikte)? Of mss zijn er toevallig de voorbije 8 jaar geen bomen van die maat verkocht, en moeten we wat meer geduld hebben voor de dataset volledig is? (Ik kan me voorstellen dat het zeker bij kleinere domeinen en minder voorkomende boomsoorten toch wel een tijdje kan duren vooraleer alle maten eens verkocht zijn.) Ik weet niet of je zicht hebt op die redenen, of dat je dit kan nagaan door de juiste personen aan te spreken (of evt. gericht navragen bij enkele personen die zelf die metingen en houtverkopen coördineren voor domeinen waar het probleem zich stelt)? Het lijkt me wel relevant om eerst een zicht te hebben op de praktijk, en de noden die er hier zijn, vooraleer we gaan samenzitten om een oplossing voor dit probleem te zoeken. |
De houtverkopen staan los van de hoogtemetingen: de hoogtes waarmee we de DH-curves opstellen komen uit de beheerplanning (aangevuld met VBI) of zijn speciaal voor dit project opgemeten. Dus: ze worden wél verkocht, maar vallen buiten het bereik van de DH-curves. En dat gaat toch over ca 1/3de van de omtrekklasses die ooit verkocht werden (uitgedrukt in aantal klasses, zonder te kijken hoeveel er verkocht werd) of als je naar verkocht volume kijkt van die omtrekklasses die nu uit de boot vallen (van de afgelopen 8 jaar) gaat het over 10% (wat niet zoveel is, maar toch ...).
|
Hmm, da's wel lastig, dat die houtverkoop niet gekoppeld is aan het opmeten van bomen, of omgekeerd. Want als ik me niet vergis, was het achterliggend idee destijds dat de bomen bij een verkoop toch opgemeten werden, en de dataset (en afgeleide curves) zo langzaamaan zou uitbreiden i.f.v. de noden (dus opmeten als er nog geen schatting beschikbaar is). De omtrekklassen die buiten het bereik van de DH-curves vallen, ik veronderstel dat je daarmee enkel omtrekklassen bedoelt die boven 0.5 m valt? (Vermits we origineel de keuze gemaakt hebben om deze buiten beschouwing te laten wegens niet relevant.) Puur praktisch: zou het een piste zijn om na te gaan welke klasses vaak verkocht worden en nog niet afgedekt worden, en deze prioritair op te meten binnen het project? (En zo stap voor stap de curves completer maken.) Nu we het bestand toch niet betrekken bij de opmaak van de curves: in hoeverre is het een optie om deze metingen van de houtverkoop toch te betrekken waar nodig? Als ze rare patronen vertonen of heel fel afwijken van de andere metingen, gaat dit wel snel opvallen in de plot, lijkt mij, en dan gebruik je ze uiteraard beter niet. Eerder gaf je aan dat een juiste schatting bij de lage omtrekklassen toch iets minder belangrijk is, dus mss is het dan niet zo erg dat de metingen minder nauwkeurig zijn? Ze leveren in elk geval het voordeel op dat je enig idee hebt van de boomhoogte daar waar je nu helemaal niks weet. En daarna evt. eens samenzitten om dit verder te bekijken? |
Ja, dat was een piste, maar we wisten toen wel al dat de voorbije metingen niet konden gebruikt worden. En ondertussen zijn de boswachters bedolven onder 't werk, en is het geen optie meer om hen extra metingen te laten doen :-(
Toch ook deze die onder de 0.5m vallen. Deze moeten minder nauwkeurig zijn, maar is toch ook belangrijk om een schatting mee te kunnen geven.
Dat is ne moeilijke: ik merk dat ze vaak een dominante hoogte ingeven voor een bepaald bestand en die hoogte toekennen aan alle omtrekklasses. Ik weet ook dat ze soms uit tijdsgebrek hoogtes van de jaren daarvoor altijd weer overnemen, of van (volgens hun inschatting) gelijkaardige bestanden. Of soms lijkt het alsof ze enkel hoogte takvrije stam ingeven. Ik zal er nog eens over nadenken. |
Liedekerke en Tudor: geen beuk gekapt voorgaande jaren blijkbaar ... Maar ik ga er wel eens naar kijken hoe ik eventueel toch een deel van de hoogtes uit IVANHO zou kunnen meenemen. |
Ik zou zeggen: verken deze piste zeker eens eens met een aantal willekeurige voorbeelden. Mss kunnen we uiteindelijk het package dhcurve wel inschakelen? Want vooraf al gegevens weggooien op basis van een omtrek/hoogteverhouding die niet klopt, lijkt me wat tricky als je net dit wil gaan modelleren. (Hoe maak je het verschil tussen een outlier en een slechte meting?) In dat geval gaan we beter achteraf nakijken uit welke dataset de outliers komen, lijkt mij. Of zoiets, want alle outliers uit eenzelfde dataset moet geen probleem zijn (dit wijst op minder nauwkeurige metingen, maar als dit is omwille van minder nauwkeurige apparatuur is en het gemiddelde hetzelfde blijft, is dit perfect ok). De outliers boven de curve afkomstig van de nauwkeurige dataset, en die onder de curve afkomstig van IVANHO, zou bv. wel kunnen betekenen dat de hoogte van de takvrije stam ingegeven is, dus in dit geval wil je de gegevens van IVANHO niet gebruiken. De dominante hoogte die toegekend is aan alle omtrekklassen, is bv. iets wat je wel gemakkelijk vooraf (codematig) in de dataset van IVANHO kan testen, lijkt mij. En een verkenning van de gegevens, evt. grafisch, gaat mogelijk nog wel wat andere problemen naar boven brengen. (En mss wil je hiervoor ook wel enkele domeinen testen waar je wel al voldoende gegevens van hebt? Dan zie je de evt. afwijkingen beter.) Enfin, ik hoor wel als ik ergens mee kan helpen. ;-) |
Bedankt! Wat betreft minder nauwkeurige apparatuur: dat is niet het geval, gaat gewoon over nonchalance en te weinig tijd en dan maar alles 't zelfde of ... dus je kan er echt niet van uitgaan dat gemiddelde OK is. |
Nu je het zegt, voor de afgeleide curves is het eigenlijk helemaal niet nodig om randpunten te gaan verwijderen, hier fitten we geen curvevorm (zie hier voor de uitleg waarom we die methode gebruiken). Dus mss kunnen we ingeval van de afgeleide curves alle punten > 0.5 m meenemen? (Met aantallen werken zou ik niet doen, daar zie ik geen voordeel van, enkel het nadeel dat we er een concrete waarde op moeten gaan plakken...) Voor het basismodel en het lokaal model gaan we dus wel de methode met de kwantielen moeten blijven gebruiken om te vermijden dat de randpunten je curve in een verkeerde richting gaan trekken. Bij deze methode vallen trouwens bij een gelijkmatige dataset in principe helemaal geen punten weg, het enige wat gebeurt, is dat er omtrekklassen wegvallen als er meerdere opeenvolgende omtrekklassen zeer weinig metingen hebben, maar dit is dus om te vermijden dat dit zou leiden tot een onbetrouwbare curvevorm.
Ik gaf maar een voorbeeld. Alles hetzelfde is gemakkelijk op te sporen, en in mijn ogen heb je hier sowieso een goed argument om de dataset niet te gebruiken. Voor de rest kan ik enkel maar aanraden om eens wat metingen te plotten, evt. samen met de andere metingen van het domein, en eens te zien of je hier verdachte patronen in ziet. Hierdoor ga je mss nog uitkomen bij zaken waar je niet spontaan aan dacht? Ik zou wel per domein of per meetploeg 'alles of niets' nemen, enkel aanvullen in bepaalde omtrekklassen of outliers uit de dataset plukken, zou ik vermijden (vooral omdat het moeilijk is om hier niet subjectief te zijn, dan kan je al bijna even goed zelf metingen gaan verzinnen :-/ ). |
@leymanan Ik neem aan dat dit intussen in orde is? |
inderdaad, bedankt! |
Bereik van de afgeleide curves aanpassen aan de metingen die bij de aanmaak van de curve betrokken zijn.
Dat zijn enkel de metingen > 0.5 m.
Op dit moment start het bereik bij 0.55 m als er ook metingen < 0.5 m gemeten zijn, terwijl deze niet gebruikt worden bij aanmaak curve.
Soms starten de daaropvolgende metingen pas vanaf bv. omtrek 1m.
The text was updated successfully, but these errors were encountered: