In [13]:
# First attempt to get the data
# https://suche.transparenz.hamburg.de/dataset/verkehrsdaten-rad-infrarotdetektoren-hamburg15

import requests
import pandas as pd
from time import sleep
from random import randint

# Initial API call
base_url = 'https://iot.hamburg.de/v1.0/Things?$filter=Datastreams/properties/serviceName%20eq%20%27HH_STA_HamburgerRadzaehlnetz%27%20and%20Datastreams/properties/layerName%20eq%20%27Anzahl_Fahrraeder_Zaehlstelle_1-Stunde%27&$count=true&$expand=Datastreams($filter=properties/layerName%20eq%20%27Anzahl_Fahrraeder_Zaehlstelle_1-Stunde%27;$expand=Observations($orderby=phenomenonTime%20desc))'

def fetch_data(url):
    response = requests.get(url)
    if response.status_code != 200:
        raise Exception(f"Request failed with status code: {response.status_code}")
    return response.json()

def extract_data(json_data):
    rows = []
    things = json_data.get('value', [])
    
    for thing in things:
        thing_id = thing['@iot.id']
        thing_name = thing['name']
        thing_description = thing['description']
        
        for datastream in thing['Datastreams']:
            datastream_id = datastream['@iot.id']
            datastream_name = datastream['name']
            datastream_description = datastream['description']
            
            for observation in datastream['Observations']:
                row = {
                    'ThingID': thing_id,
                    'ThingName': thing_name,
                    'ThingDescription': thing_description,
                    'DatastreamID': datastream_id,
                    'DatastreamName': datastream_name,
                    'DatastreamDescription': datastream_description,
                    'ObservationID': observation['@iot.id'],
                    'PhenomenonTime': observation['phenomenonTime'],
                    'ResultTime': observation['resultTime'],
                    'Result': observation['result']
                }
                rows.append(row)
    return rows

# Fetch initial data
json_data = fetch_data(base_url)
all_data = extract_data(json_data)

# Handle pagination
while '@iot.nextLink' in json_data:
    next_url = json_data['@iot.nextLink']
    sleep(randint(1,3000)/1000)  # Add a 1-second delay between requests
    json_data = fetch_data(next_url)
    all_data.extend(extract_data(json_data))

# Create DataFrame
data = pd.DataFrame(all_data)
print(data.head())

   ThingID                   ThingName  \
0     5564  Verkehrszählstelle 0295970   
1     5564  Verkehrszählstelle 0295970   
2     5564  Verkehrszählstelle 0295970   
3     5564  Verkehrszählstelle 0295970   
4     5564  Verkehrszählstelle 0295970   

                                    ThingDescription  DatastreamID  \
0  Verkehrszählstelle zur Zählung der vom Infraro...         11797   
1  Verkehrszählstelle zur Zählung der vom Infraro...         11797   
2  Verkehrszählstelle zur Zählung der vom Infraro...         11797   
3  Verkehrszählstelle zur Zählung der vom Infraro...         11797   
4  Verkehrszählstelle zur Zählung der vom Infraro...         11797   

                                      DatastreamName  \
0  Fahrradaufkommen an Verkehrszählstelle 0295970...   
1  Fahrradaufkommen an Verkehrszählstelle 0295970...   
2  Fahrradaufkommen an Verkehrszählstelle 0295970...   
3  Fahrradaufkommen an Verkehrszählstelle 0295970...   
4  Fahrradaufkommen an Verkehrszählstelle 0295

In [14]:
data

Unnamed: 0,ThingID,ThingName,ThingDescription,DatastreamID,DatastreamName,DatastreamDescription,ObservationID,PhenomenonTime,ResultTime,Result
0,5564,Verkehrszählstelle 0295970,Verkehrszählstelle zur Zählung der vom Infraro...,11797,Fahrradaufkommen an Verkehrszählstelle 0295970...,Die Anzahl der vom Infrarotdetektor erfassten ...,841085365,2024-05-18T21:00:00Z/2024-05-18T21:59:59Z,2024-05-19T00:54:50.326Z,52
1,5564,Verkehrszählstelle 0295970,Verkehrszählstelle zur Zählung der vom Infraro...,11797,Fahrradaufkommen an Verkehrszählstelle 0295970...,Die Anzahl der vom Infrarotdetektor erfassten ...,841085364,2024-05-18T20:00:00Z/2024-05-18T20:59:59Z,2024-05-19T00:54:50.317Z,69
2,5564,Verkehrszählstelle 0295970,Verkehrszählstelle zur Zählung der vom Infraro...,11797,Fahrradaufkommen an Verkehrszählstelle 0295970...,Die Anzahl der vom Infrarotdetektor erfassten ...,841085363,2024-05-18T19:00:00Z/2024-05-18T19:59:59Z,2024-05-19T00:54:50.31Z,112
3,5564,Verkehrszählstelle 0295970,Verkehrszählstelle zur Zählung der vom Infraro...,11797,Fahrradaufkommen an Verkehrszählstelle 0295970...,Die Anzahl der vom Infrarotdetektor erfassten ...,841085362,2024-05-18T18:00:00Z/2024-05-18T18:59:59Z,2024-05-19T00:54:50.3Z,97
4,5564,Verkehrszählstelle 0295970,Verkehrszählstelle zur Zählung der vom Infraro...,11797,Fahrradaufkommen an Verkehrszählstelle 0295970...,Die Anzahl der vom Infrarotdetektor erfassten ...,841085361,2024-05-18T17:00:00Z/2024-05-18T17:59:59Z,2024-05-19T00:54:50.258Z,115
...,...,...,...,...,...,...,...,...,...,...
15995,8426,Verkehrszählstelle 0109932,Verkehrszählstelle zur Zählung der von der Inf...,18403,Fahrradaufkommen an Verkehrszählstelle 0109932...,Die Anzahl der von der Infrarotkamera erfasste...,840421986,2024-05-14T22:00:00Z/2024-05-14T22:59:59Z,2024-05-16T00:54:22.738Z,6
15996,8426,Verkehrszählstelle 0109932,Verkehrszählstelle zur Zählung der von der Inf...,18403,Fahrradaufkommen an Verkehrszählstelle 0109932...,Die Anzahl der von der Infrarotkamera erfasste...,840163403,2024-05-14T21:00:00Z/2024-05-14T21:59:59Z,2024-05-15T00:54:21.109Z,21
15997,8426,Verkehrszählstelle 0109932,Verkehrszählstelle zur Zählung der von der Inf...,18403,Fahrradaufkommen an Verkehrszählstelle 0109932...,Die Anzahl der von der Infrarotkamera erfasste...,840163402,2024-05-14T20:00:00Z/2024-05-14T20:59:59Z,2024-05-15T00:54:21.101Z,30
15998,8426,Verkehrszählstelle 0109932,Verkehrszählstelle zur Zählung der von der Inf...,18403,Fahrradaufkommen an Verkehrszählstelle 0109932...,Die Anzahl der von der Infrarotkamera erfasste...,840163401,2024-05-14T19:00:00Z/2024-05-14T19:59:59Z,2024-05-15T00:54:21.092Z,59


## Final code

In [23]:
import requests
import pandas as pd
from time import sleep
import datetime
from random import randint

# Funktion zum Abrufen der Zählstellen
def fetch_things(url):
    response = requests.get(url)
    response.raise_for_status()  # Raise an exception for HTTP errors
    return response.json()

# Basis-URL zum Abrufen der Zählstellen mit dem spezifischen Datastream für tägliche Werte
base_url = (
    "https://iot.hamburg.de/v1.0/Things?"
    "$filter=Datastreams/properties/serviceName eq 'HH_STA_HamburgerRadzaehlnetz' "
    "and Datastreams/properties/layerName eq 'Anzahl_Fahrraeder_Zaehlstelle_1-Tag'&"
    "$expand=Datastreams($filter=properties/layerName eq 'Anzahl_Fahrraeder_Zaehlstelle_1-Tag')"
)

# Zählstellen abrufen
things_data = fetch_things(base_url)
things = things_data['value']

# Weitere Seiten abrufen, falls vorhanden
while '@iot.nextLink' in things_data:
    next_url = things_data['@iot.nextLink']
    sleep(randint(1,3000)/1000)  # Respektvolle Pause zwischen den Anfragen
    things_data = fetch_things(next_url)
    things.extend(things_data['value'])

# Alle Datastreams extrahieren
datastreams = []
for thing in things:
    for datastream in thing['Datastreams']:
        datastreams.append(datastream)

print(f"Anzahl der Zählstellen: {len(things)}")
print(f"Anzahl der Datastreams: {len(datastreams)}")


Anzahl der Zählstellen: 160
Anzahl der Datastreams: 160


In [24]:
def fetch_observations(url):
    response = requests.get(url)
    response.raise_for_status()
    return response.json()

# Aktuelles Datum und Datum vor einem Jahr
end_date = datetime.datetime.utcnow()
start_date = end_date - datetime.timedelta(days=365)

# Daten für alle Datastreams abrufen
all_data = []

for datastream in datastreams:
    datastream_id = datastream['@iot.id']
    observations_url = (
        f"https://iot.hamburg.de/v1.0/Datastreams({datastream_id})/Observations?"
        f"$filter=phenomenonTime ge {start_date.isoformat()}Z and phenomenonTime le {end_date.isoformat()}Z&"
        "$orderby=phenomenonTime desc"
    )
    
    observations_data = fetch_observations(observations_url)
    observations = observations_data['value']
    
    while '@iot.nextLink' in observations_data:
        next_url = observations_data['@iot.nextLink']
        sleep(randint(1,3000)/1000)  # Respektvolle Pause zwischen den Anfragen
        observations_data = fetch_observations(next_url)
        observations.extend(observations_data['value'])
    
    # Extrahieren und speichern der relevanten Daten
    for observation in observations:
        row = {
            'DatastreamID': datastream_id,
            'PhenomenonTime': observation['phenomenonTime'],
            'ResultTime': observation['resultTime'],
            'Result': observation['result']
        }
        all_data.append(row)

# In ein DataFrame konvertieren
data = pd.DataFrame(all_data)
print(data.head())




   DatastreamID                             PhenomenonTime  \
0         11798  2024-05-17T22:00:00Z/2024-05-18T21:59:59Z   
1         11798  2024-05-16T22:00:00Z/2024-05-17T21:59:59Z   
2         11798  2024-05-15T22:00:00Z/2024-05-16T21:59:59Z   
3         11798  2024-05-14T22:00:00Z/2024-05-15T21:59:59Z   
4         11798  2024-05-13T22:00:00Z/2024-05-14T21:59:59Z   

                 ResultTime  Result  
0  2024-05-19T00:54:35.293Z    2266  
1  2024-05-18T00:54:24.357Z    2901  
2  2024-05-17T00:54:17.704Z    3659  
3  2024-05-16T00:54:19.532Z    3941  
4  2024-05-15T00:54:17.583Z    3652  


In [25]:
data

Unnamed: 0,DatastreamID,PhenomenonTime,ResultTime,Result
0,11798,2024-05-17T22:00:00Z/2024-05-18T21:59:59Z,2024-05-19T00:54:35.293Z,2266
1,11798,2024-05-16T22:00:00Z/2024-05-17T21:59:59Z,2024-05-18T00:54:24.357Z,2901
2,11798,2024-05-15T22:00:00Z/2024-05-16T21:59:59Z,2024-05-17T00:54:17.704Z,3659
3,11798,2024-05-14T22:00:00Z/2024-05-15T21:59:59Z,2024-05-16T00:54:19.532Z,3941
4,11798,2024-05-13T22:00:00Z/2024-05-14T21:59:59Z,2024-05-15T00:54:17.583Z,3652
...,...,...,...,...
58112,18404,2023-05-24T22:00:00Z/2023-05-25T21:59:59Z,2024-03-13T23:18:19.614Z,1853
58113,18404,2023-05-23T22:00:00Z/2023-05-24T21:59:59Z,2024-03-13T23:15:15.578Z,1555
58114,18404,2023-05-22T22:00:00Z/2023-05-23T21:59:59Z,2024-03-13T23:11:43.869Z,1365
58115,18404,2023-05-21T22:00:00Z/2023-05-22T21:59:59Z,2024-03-13T23:08:23.618Z,1484


In [28]:
data.to_csv('yearly_bike_data_daily.csv', index=False)