In [209]:
import pandas as pd
import requests
import time
import re
import unicodedata
import json

In [26]:
df_cities = pd.DataFrame(columns=['city'])

In [27]:
openaq_api_url = 'https://api.openaq.org/v2/'

In [28]:
endpoint = f"{openaq_api_url}/cities"
params = {
    "country": "PL",
    "limit": 10000,
}

response = requests.get(endpoint, params=params)

if response.status_code == 200:
    data = response.json()
    for result in data['results']:
        df_cities.loc[len(df_cities)] = [result['city']]
else:
    print(f"Failed to retrieve data: {response.status_code}")


In [29]:
df_cities.info()

<class 'pandas.core.frame.DataFrame'>
Index: 197 entries, 0 to 196
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   city    197 non-null    object
dtypes: object(1)
memory usage: 3.1+ KB


In [30]:
def clean_city_name(city):
    return re.sub(r'^[^a-zA-ZąćęłńóśźżĄĆĘŁŃÓŚŹŻ]+', '', city).strip()

df_cities['city'] = df_cities['city'].apply(clean_city_name)

In [31]:
df_cities.head()

Unnamed: 0,city
0,Jelenia Góra
1,Augustów
2,Belsk Duży
3,Biała
4,Biała Podlaska


In [62]:
waqi_api_url = 'https://api.waqi.info'

In [63]:
waqi_api_token = '18d606fd3bbac19ab388244d380f3fe491ca2731'

In [195]:
def normalize_text(str_txt):
    return ''.join(c for c in unicodedata.normalize('NFKD', str_txt) if not unicodedata.combining(c))

def check_city_name(city, station):
    station_normalized = normalize_text(station)
    city_normalized = normalize_text(city)
    if '-' in city_normalized:
        station_normalized = station_normalized.replace('-', '')
        pattern = r'\b{}\b'.format(re.escape(city_normalized.replace('-','')))
        if re.search(pattern, station_normalized, re.IGNORECASE):
            return True
        else:
            return False
    elif ' ' in city_normalized:
        pattern = r'\b{}\b'.format(re.escape(city_normalized.replace(' ','')))
        if re.search(pattern, station_normalized.replace(' ',''), re.IGNORECASE):
            return True
        else:
            return False
    else:
        pattern = r'(?<!-)'+ re.escape(city_normalized) + r'(?=\s|-|$|,)'
        if re.search(pattern, station_normalized):
            return True
        else:
            return False

In [196]:
def search_stations(df, idx, city_name):
    print(f'Szukanie stacji dla miasta: {city_name}')
    url = waqi_api_url + f'/search/?token={waqi_api_token}&keyword={city_name}'
    response = requests.get(url)
    if response.status_code == 200:
        data = response.json()
        data = data['data']
        if(len(data) > 0):
            for elem in data:
                station_info = elem['station']
                if 'country' in station_info:
                    if station_info['country'] == 'PL':
                        station_name = station_info['name']
                        if station_name:
                            print(f'\tZnaleziono stację: {station_name}')
                            if check_city_name(city_name, station_name):
                                print(f'\tDodawanie stacji: {idx+1}')
                                uid = elem['uid']
                                lat = station_info['geo'][0]
                                lon = station_info['geo'][1]
                                station_url = station_info['url']
                                df.loc[idx] = [city_name, station_name, uid, lat, lon, station_url]
                                idx = idx+1
    return idx

In [197]:
stations_df = pd.DataFrame(columns=['city', 'station_name', 'station_id', 'station_lat', 'station_lon', 'station_url'])
stations_df_idx = 0

In [198]:
count = 0

In [199]:
for index, row in df_cities.iterrows():
        stations_df_idx = search_stations(stations_df, stations_df_idx, row['city'])
        count = count+1
        if (count) % 100 == 0:
            time.sleep(5)

Szukanie stacji dla miasta: Jelenia Góra
	Znaleziono stację: Jelenia Góra - Ogińskiego, Poland
	Dodawanie stacji: 1
Szukanie stacji dla miasta: Augustów
Szukanie stacji dla miasta: Belsk Duży
Szukanie stacji dla miasta: Biała
	Znaleziono stację: Bielsko-Biała, ul. Partyzantów, Poland
	Znaleziono stację: Bielsko-Biała, ul. Kossak-Szczuckiej 19, Poland
Szukanie stacji dla miasta: Biała Podlaska
	Znaleziono stację: Biała Podlaska, Poland
	Dodawanie stacji: 2
Szukanie stacji dla miasta: Białystok
	Znaleziono stację: Białystok-Miejska, Poland
	Dodawanie stacji: 3
Szukanie stacji dla miasta: Bielsko-Biała
	Znaleziono stację: Bielsko-Biała, ul. Partyzantów, Poland
	Dodawanie stacji: 4
	Znaleziono stację: Bielsko-Biała, ul. Kossak-Szczuckiej 19, Poland
	Dodawanie stacji: 5
Szukanie stacji dla miasta: Boguchwała
Szukanie stacji dla miasta: Borówiec
Szukanie stacji dla miasta: Borsukowizna
Szukanie stacji dla miasta: Brzeg
Szukanie stacji dla miasta: Bydgoszcz
	Znaleziono stację: Bydgoszcz-Warsz

Szukanie stacji dla miasta: Łuków
Szukanie stacji dla miasta: Lwówek Śląski
Szukanie stacji dla miasta: Malbork
	Znaleziono stację: Malbork, Poland
	Dodawanie stacji: 56
Szukanie stacji dla miasta: Małogoszcz
Szukanie stacji dla miasta: Międzyrzecz
Szukanie stacji dla miasta: Mielec
	Znaleziono stację: Mielec-Biernackiego-WIOS, Poland
	Dodawanie stacji: 57
	Znaleziono stację: Mielec-MOSIR-WIOS, Poland
	Dodawanie stacji: 58
Szukanie stacji dla miasta: Mosina
Szukanie stacji dla miasta: Muszyna
Szukanie stacji dla miasta: Myślenice
Szukanie stacji dla miasta: Nakło nad Notecią
Szukanie stacji dla miasta: Niepołomice
Szukanie stacji dla miasta: Nisko
	Znaleziono stację: Nisko ul. Szklarniowa, Poland
	Dodawanie stacji: 59
Szukanie stacji dla miasta: Nowa Ruda
	Znaleziono stację: Nowa Ruda - Jeziorna, Poland
	Dodawanie stacji: 60
	Znaleziono stację: Nowa Ruda - Srebrna, Poland
	Dodawanie stacji: 61
Szukanie stacji dla miasta: Nowa Sól
Szukanie stacji dla miasta: Nowiny
Szukanie stacji dla m

Szukanie stacji dla miasta: Zabierzów
Szukanie stacji dla miasta: Zabrze
	Znaleziono stację: Zabrze, ul. Skłodowskiej-Curie 34, Poland
	Dodawanie stacji: 114
Szukanie stacji dla miasta: Żagań
Szukanie stacji dla miasta: Zakopane
	Znaleziono stację: Zakopane, Małopolska, Poland
	Dodawanie stacji: 115
Szukanie stacji dla miasta: Zamość
	Znaleziono stację: Zamość, Poland
	Dodawanie stacji: 116
Szukanie stacji dla miasta: Żary
	Znaleziono stację: Żary, Poland
	Dodawanie stacji: 117
Szukanie stacji dla miasta: Zawiercie
	Znaleziono stację: Zawiercie, ul. Gałczyńskiego, Poland
	Dodawanie stacji: 118
Szukanie stacji dla miasta: Zdzieszowice
Szukanie stacji dla miasta: Zgierz
	Znaleziono stację: Zgierz, ul. Mielczarskiego 1, Poland
	Dodawanie stacji: 119
	Znaleziono stację: Łódź-Gdańska 16, Poland
	Znaleziono stację: Łódź, ul. Zachodnia 40, Poland
Szukanie stacji dla miasta: Zgorzelec
Szukanie stacji dla miasta: Zielona Góra
	Znaleziono stację: Zielona Góra, Poland
	Dodawanie stacji: 120
Szuka

In [200]:
stations_df.head()

Unnamed: 0,city,station_name,station_id,station_lat,station_lon,station_url
0,Jelenia Góra,"Jelenia Góra - Ogińskiego, Poland",8135,50.91347,15.765659,poland/dolnoslaskie/jelenia-gora-oginskiego
1,Biała Podlaska,"Biała Podlaska, Poland",6479,52.038713,23.144503,poland/lublin/biala-podlaska
2,Białystok,"Białystok-Miejska, Poland",6520,53.126815,23.15637,poland/bialystok/bialystok-miejska
3,Bielsko-Biała,"Bielsko-Biała, ul. Partyzantów, Poland",10544,49.802089,19.048629,poland/slaski/bielsko-biala--ul.-partyzantow
4,Bielsko-Biała,"Bielsko-Biała, ul. Kossak-Szczuckiej 19, Poland",6535,49.813464,19.027318,poland/slaski/bielsko-biala--ul.-kossak-szczuc...


In [201]:
stations_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 123 entries, 0 to 122
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   city          123 non-null    object 
 1   station_name  123 non-null    object 
 2   station_id    123 non-null    int64  
 3   station_lat   123 non-null    float64
 4   station_lon   123 non-null    float64
 5   station_url   123 non-null    object 
dtypes: float64(2), int64(1), object(3)
memory usage: 6.7+ KB


In [216]:
unique_cities = pd.DataFrame({'city': stations_df['city'].unique()})

In [218]:
unique_cities.to_csv('collected_data/cities_list.csv', index=False)

In [203]:
csv_file_path = 'stations_info.csv'
stations_df.to_csv(f'collected_data/{csv_file_path}', index=False)