# Explore coordinate reference systems (CRS)
- A CRS defines a location on Earth. It tells the computer how to map coordinates or geometric shapes to places on the Earth.  
- A commonly used *geographic coordinate system* is the WGS84, and it models the earth as a three-dimensional sphere and uses angles to specify locations. It uses the latitude-longitude projection. It's the default system for GPS. 
- A *projected coordinate system* models the Earth as a two-dimensional plane with locations specified by x and y coordinates.
- There are different approaches to both systems, which can make it complicated to map different systems to the same map. 


### Re-projecting
How well does the [GeoPandas](https://geopandas.org/en/stable/docs/user_guide/projections.html) command `GeoDataFrame.to_crs()` do on harmonizing the projections? 


### Dataverse Geospatial search 
- see [here](https://guides.dataverse.org/en/latest/user/find-use-data.html#geospatial-search): requires the geographic bounding boxes (Geospatial Metadata block) to be filled in. 

### What are the current CRS? 

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('../data/archaeology_metadata.csv')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 158254 entries, 0 to 158253
Data columns (total 13 columns):
 #   Column                                                Non-Null Count   Dtype  
---  ------                                                --------------   -----  
 0   dsPersistentId                                        158254 non-null  object 
 1   publicationStatus                                     158254 non-null  object 
 2   title                                                 158254 non-null  object 
 3   dsDescriptionValue                                    158254 non-null  object 
 4   dansSpatialPointX                                     56479 non-null   object 
 5   dansSpatialPointY                                     56479 non-null   object 
 6   dansSpatialPointScheme                                56304 non-null   object 
 7   dansSpatialBoxNorth                                   4432 non-null    object 
 8   dansSpatialBoxEast                          

In [6]:
# Inspect spatial points 
df.dansSpatialPointX.describe()

count      56479
unique     45942
top       193000
freq          13
Name: dansSpatialPointX, dtype: object

In [7]:
df.dansSpatialPointY.describe()

count        56479
unique       45838
top       52.29687
freq            12
Name: dansSpatialPointY, dtype: object

In [24]:
# TO DO: combine geoinfo into one variable 
df['coordinates'] = df.apply(lambda row: f"{row['dansSpatialPointX']},{row['dansSpatialPointY']},{row['dansSpatialPointScheme']}", axis=1)

In [23]:
df

Unnamed: 0,dsPersistentId,publicationStatus,title,dsDescriptionValue,dansSpatialPointX,dansSpatialPointY,dansSpatialPointScheme,dansSpatialBoxNorth,dansSpatialBoxEast,dansSpatialBoxSouth,dansSpatialBoxWest,dansSpatialBoxScheme,dansSpatialCoverageControlleddansSpatialCoverageText,coordinates
0,doi:10.17026/dans-zrj-unr7,Published,Gouda Kattensingel Booronderzoek,ADC ArcheoProjecten heeft in januari 2017 een ...,108240,447370,RD (in m.),,,,,,,"108240,447370,RD (in m.)"
1,doi:10.17026/dans-299-9dpm,Published,Zandwingebied Q10R,In opdracht van- en in samenwerking met Rijksw...,77230,490214,RD (in m.),,,,,,,"77230,490214,RD (in m.)"
2,doi:10.17026/dans-zqy-ymw8,Published,Kerkrade Landgraaf buffer Kraanweg Booronderzoek,ADC ArcheoProjecten heeft in december 2016 een...,203505,324100,RD (in m.),,,,,,,"203505,324100,RD (in m.)"
3,doi:10.17026/dans-z8d-9c6h,Published,Archeologisch Bureauonderzoek en Inventarisere...,In het kader van de vergunningverlening ten be...,95873,421799,RD (in m.),,,,,,,"95873,421799,RD (in m.)"
4,doi:10.17026/dans-x9v-j3qu,Published,Archeologisch Bureauonderzoek Reconstructie Si...,In het kader van de vergunningverlening ten be...,197332197337197185,356659356100355712,"RD (in m.),RD (in m.),RD (in m.)",,,,,,,"197332,197337,197185,356659,356100,355712,RD (..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
158249,doi:10.17026/AR/H4IDSE,Published,"IVO-karterende fase zonnepark Groot Roodehaan,...",Laagland Archeologie heeft in april 2021 een k...,238853238979239404239437239175,579376579083579242579530579532,"RD (in m.),RD (in m.),RD (in m.),RD (in m.)",,,,,,,"238853,238979,239404,239437,239175,579376,5790..."
158250,doi:10.17026/AR/19BCUB,Published,Gemeente Moerdijk plangebied de Kogelvangers t...,Op basis van het bureauonderzoek geldt er voor...,,,,411813,90282,411486,89850,RD (in m.),,"nan,nan,nan"
158251,doi:10.17026/AR/QXOI5Q,Published,Archeologisch bureauonderzoek perceel tussen K...,In november 2021 is een archeologisch bureauon...,101.391,497.243,RD (in m.),,,,,,,"101.391,497.243,RD (in m.)"
158252,doi:10.17026/AR/QHHAGE,Published,Archeologisch bureauonderzoek Den Ilp 53a te D...,In november 2021 is in opdracht van een partic...,122.592,495.815,,,,,,,,"122.592,495.815,nan"


In [22]:
status = df.coordinates.value_counts()
print(status)

coordinates
nan,nan,nan                                      101769
5.16721,52.29687,longitude/latitude (degrees)        12
5.45851,51.99553,longitude/latitude (degrees)        10
189397,415792,RD (in m.)                              8
96280,423770,RD (in m.)                               8
                                                  ...  
105789,432056,RD (in m.)                              1
185595,432967,RD (in m.)                              1
143935,423750,RD (in m.)                              1
180466,474621,RD (in m.)                              1
203505,324100,RD (in m.)                              1
Name: count, Length: 53279, dtype: int64


In [21]:
# Get the length of the first entry in the 'coordinates' column
first_entry_length = len(df['coordinates'].iloc[0])

# Select rows where the length of the 'coordinates' value is longer than the first entry
selected_rows = df[df['coordinates'].apply(len) > first_entry_length*1.8]

# Display the selected rows
selected_rows.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5071 entries, 4 to 158249
Data columns (total 14 columns):
 #   Column                                                Non-Null Count  Dtype  
---  ------                                                --------------  -----  
 0   dsPersistentId                                        5071 non-null   object 
 1   publicationStatus                                     5071 non-null   object 
 2   title                                                 5071 non-null   object 
 3   dsDescriptionValue                                    5071 non-null   object 
 4   dansSpatialPointX                                     5070 non-null   object 
 5   dansSpatialPointY                                     5070 non-null   object 
 6   dansSpatialPointScheme                                5071 non-null   object 
 7   dansSpatialBoxNorth                                   47 non-null     object 
 8   dansSpatialBoxEast                                    47 non-

In [16]:
df.dsDescriptionValue[9]

'In opdracht van Geofox-Lexmond bv heeft ArGeoBoor een archeologisch bureauonderzoek uitgevoerd voor een locatie aan de Wollenfoppeweg 109 te Zevenhuizen (Gemeente Zuidplas). Het voornemen is om een bestaande woning te verbouwen. Hierbij wordt aan de zuidzijde van de woning een souterrain (60 m2) met terras gerealiseerd met een totale oppervlakte van 112 m2 met een diepte van circa 80 cm-mv. Hierbij worden de vrijstellingsgrenzen\\, zoals geformuleerd in het archeologisch beleid van de gemeente Zuidplas net overschreden. Het plangebied is gelegen op een oeverwal waarvan de top waarschijnlijk ondieper dan 120 cm – mv ligt. Er worden resten verwacht uit met name het mesolithicum\\, en in mindere mate het neolithicum. Daarnaast kunnen waarden uit de vroege nieuwe tijd worden verwacht. Resten uit andere perioden worden niet verwacht. In de loop van het neolithicum werd het plangebied waarschijnlijk te nat voor bewoning. Er ontstond veen dat het gebied tot aan de ontginning van het gebied v

In [13]:
coordinates = df['coordinates'].tolist()

for idx, point in enumerate(coordinates[:1000]):
    print(f"{idx}: {point}")
    print()

0: 108240,447370,RD (in m.)

1: 77230,490214,RD (in m.)

2: 203505,324100,RD (in m.)

3: 95873,421799,RD (in m.)

4: 197332,197337,197185,356659,356100,355712,RD (in m.),RD (in m.),RD (in m.)

5: 252880,246560,469005,466480,RD (in m.),RD (in m.)

6: 147525,405110,RD (in m.)

7: 180466,474621,RD (in m.)

8: 104419,104755,387291,385751,RD (in m.),RD (in m.)

9: 97200,442880,RD (in m.)

10: 46155,383439,RD (in m.)

11: nan,nan,nan

12: nan,nan,nan

13: nan,nan,nan

14: 166158,380715,RD (in m.)

15: 235216,559339,RD (in m.)

16: 82814,82813,378297,378297,RD (in m.),RD (in m.)

17: nan,nan,nan

18: 60645,385538,RD (in m.)

19: 148583,434102,RD (in m.)

20: 77961,450423,RD (in m.)

21: 165425,151900,509415,490500,RD (in m.),RD (in m.)

22: 239090,555588,RD (in m.)

23: 193305,579699,RD (in m.)

24: 63710,381960,RD (in m.)

25: 180500,366393,RD (in m.)

26: 197650,355880,RD (in m.)

27: 184810,567618,RD (in m.)

28: 253932,561052,RD (in m.)

29: 234560,581512,RD (in m.)

30: 105741,507353,RD 