In [None]:
from os import listdir
import numpy as np
from astral import LocationInfo
from astral.sun import sun
import datetime
import pandas as pd
import geopandas as gpd
import zipfile, tarfile, os
import urllib.request
import matplotlib.pyplot as plt

In [None]:
# zwraca pogrupowane stacje po id w kolumnie kodSH w dataframie 'data'
def groupbyKodSH(station, data):
    try:
        res = data.groupby(data.KodSH).get_group(station)
        return res
    except KeyError:
        print('stacja ' + str(station) + ' nie posiada takich danych')
        pass

# importuje pliki z url, tworzy nowy folder 'data' lub czysci istniejacy i rozpakowuje archiwum
def importData(url):
    path = "D:\\STUDIA_5_SEM\\pag_2\\cw2\\csv"
    filename = url.split('/')[-1]

    if filename[-3:] == "zip":
        isZip = True
    elif filename[-3:] == "tar":
        isZip = False
    else:
        print("Błąd, niewłaściwy format pliku")
        return

    if not os.path.isdir(path):
        os.mkdir(path)
    elif len(os.listdir(path)) != 0:
        dictContent = os.listdir(path)
        for x in dictContent:
            file = os.path.join(path, x)
            os.unlink(file)

    urllib.request.urlretrieve(url, os.path.join(path, filename))

    if isZip:
        zipData = zipfile.ZipFile(os.path.join(path, filename))
        zipData.extractall(path)
        zipData.close()
    else:
        tarData = tarfile.TarFile(os.path.join(path, filename))
        tarData.extractall(path)
        tarData.close()
        
    os.remove(os.path.join(path, filename))

# wczytuje wszystkie pliki csv w folderze, zwraca liste dataframe'ow(csv) i stacji
def readCsv(path, layer):
    csvList = listdir(path)
    dfList = []
    stations_list = []
    for x in csvList:
        if x == layer:
            csvData = pd.read_csv(path + '\\' + x, delimiter=';', header=None, low_memory=False, decimal=',')
            df = pd.DataFrame(csvData)
            df.pop(4)
            columns = ["KodSH", "ParametrSH", "Data", "Wartosc"]
            df.columns = columns
            dfList.append(df)
            stations = df["KodSH"].drop_duplicates().to_list()
            stations_list.append(stations)
    return dfList[0], stations_list

def getTimeOfSunriseAndSunset(db, long, lat, random_date):
    try:
        station = LocationInfo(lat, long)
        res = pd.DataFrame()

        for i in range (0, db.loc[db['Data'] < str(random_date.strftime('%Y-%m-%d %H:%M')), 'Wartosc'].count()):

            curr_data = DF_date_to_datetime(db.iloc[i, 2])
            val = db.iloc[i, 3]
            s = sun(station.observer, date = curr_data)

            if curr_data < s['sunrise'].replace(tzinfo = None):
                new_dt = curr_data + datetime.timedelta(days = -1)
                res = pd.concat([res, pd.DataFrame({'Data' : [new_dt.strftime('%Y-%m-%d')], 'time' : ['noc'], 'srednia' : [val]})], ignore_index = True)

            elif curr_data >= s['sunrise'].replace(tzinfo = None) and curr_data < s['sunset'].replace(tzinfo = None):
                res = pd.concat([res, pd.DataFrame({'Data' : [curr_data.strftime('%Y-%m-%d')], 'time' : ['dzien'], 'srednia' : [val]})], ignore_index = True)

            elif curr_data >= s['sunset'].replace(tzinfo = None):
                res = pd.concat([res, pd.DataFrame({'Data' : [curr_data.strftime('%Y-%m-%d')], 'time' : ['noc'], 'srednia' : [val]})], ignore_index = True)

        mediana = res.groupby([res.Data, res.time]).median().srednia.tolist()
        final = res.groupby([res.Data, res.time]).mean()
        final['mediana'] = mediana

        return final
        
    except AttributeError:
        print('brak stacji')
        pass

### rozkładanie daty z DF na czynniki pierwsze
def DF_date_to_datetime(date): # date -> pełna data z DF danej stacji pomiarowej np. date = csv_1_stacja_1.iloc[0,2]
    dash_ind = [x for x in range(len(date)) if date.find('-', x) == x]
    space_ind = date.find(" ")
    min_ind = date.find(":")
    Y = int(date.strip()[0 : dash_ind[0]])
    M = int(date.strip()[dash_ind[0]+1 : dash_ind[1]])
    D = int(date.strip()[dash_ind[1]+1 : space_ind])
    H = int(date.strip()[space_ind+1 : min_ind])
    Min = int(date.strip()[min_ind+1 : len(date)])
    return(datetime.datetime(Y, M, D, H, Min))

In [None]:
# zwraca dataframe stacji wczytanych z geojsona
def get_station_loc(pathnameToGeoJson):
    effacility = gpd.read_file(pathnameToGeoJson)
    station_loc = gpd.GeoDataFrame(effacility.pop('ifcid'))
    loc = effacility.pop('geometry')
    station_loc['geometry'] = loc
    return station_loc

# plik .shp jednostki administracyjnej, wyodrębnienie nazwy i geometrii, zwraca dataframe z danymi jednostek adm.
def get_adm_geom(pathnameToShp):
    adm = gpd.read_file(pathnameToShp)
    adm_data = gpd.GeoDataFrame(adm.pop('name'))
    geom = adm.pop('geometry')
    adm_data['geometry'] = geom
    return adm_data

# dopasowanie do stacji z pliku .geojson województwa(i powiaty jesli chcemy) w którym się znajdują
def match_station_adm(station_loc, woj_data, pow_data=None):
    in_woj = []
    in_pow = []
    ind = 1
    only_woj = True
    if pow_data is not None:
        only_woj = False

    for el in station_loc.index:
        w = str(woj_data.name.loc[woj_data.geometry.contains(station_loc.geometry[el])])
        w1 = w.lstrip('0123456789')
        w2 = w1.rstrip('\nName: name,dtype: object')
        ### taki .rstrip() ucina 'e' z nazwy każdego województwa, więc trzeba je spowrotem dodać
        in_woj.append(w2 + 'e')

        if not only_woj:
            p = str(pow_data.name.loc[pow_data.geometry.contains(station_loc.geometry[el])])
            p1 = p.lstrip('0123456789')
            p2 = p1.rstrip('\nName: name,dtype: object')
            in_pow.append(p2)

        ### jeśli stacja leży poza granicami Polski
        if len(in_woj) != ind:
            in_woj.append("-")
            in_pow.append('-')
        ind+=1

    station_loc['woj'] = in_woj
    if not only_woj:
        station_loc['pow'] = in_pow
    return station_loc

konfiguracja MongoDB

In [None]:
import pymongo
import json
import geojson
from shapely.geometry.point import Point
from shapely.geometry.polygon import Polygon

client = pymongo.MongoClient("mongodb+srv://pag2:giPAG2@cluster0.jrtrict.mongodb.net/?retryWrites=true&w=majority")
db = client.pag2

imgw = db.imgw
effacility = db.effacility
stations = db.stations

In [None]:
def sort_data_one(collection, feature, match_element, project_features):
    el = list(collection.aggregate([
    {
        '$unwind' : {
            'path' : '$features',
            'includeArrayIndex': 'features.id'
        }
    },
    {
        '$match' : {
            feature : match_element
        }
    },
    {
        '$project' : {
            project_features[0] : 1,
            project_features[1] : 1
        }
    }
    ]))
    res = el[0]
    res.pop('_id')

    return res

In [None]:
def sort_data_many(collection, match_element, project_features):
    el = list(collection.aggregate([
    {
        '$unwind' : {
            'path' : '$features',
            'includeArrayIndex': 'features.id'
        }
    },
    {
        '$project' : {
            project_features[0] : 1,
            project_features[1] : 1
        }
    }
    ]))
    res = []
    for item in el:
        item.pop('_id')

    ### WYSZUKIWANIE GEOMETRII ITERUJĄC PO ZWYKŁEJ LIŚCIE
    ### MOŻNA DO BAZY DANYCH WRZUCIĆ WSZYSTKIE STACJE I POTEM UŻYĆ '$GeoWithin' DO ICH WYBIERANIA ALE OPERACJA DODAWANIA I USUWANIA STACJI W MONGODB TRWA PO ~3 MINUTY
        if Point(item.get('features', {}).get('geometry', {}).get('coordinates')).within(Polygon(match_element)):
            res.append(item)
    return res

In [None]:
### STACJE POMIAROWE W POLSCE
stat = gpd.read_file('D:\\STUDIA_5_SEM\\pag_2\\cw2\\Dane\\effacility.geojson')
stat = json.loads(stat.to_json())
effacility.insert_one(stat)

In [None]:
# usunięcie stacji z MongoDB
effacility.delete_one(stat)

In [None]:
### WOJEWÓDZTWA
woj = gpd.read_file('D:\\STUDIA_5_SEM\\pag_2\\cw2\\Dane\\woj.shp')
wojewodztwa = json.loads(woj.to_json())
imgw.insert_one(wojewodztwa)

In [None]:
# usunięcie województw z MongoDB
imgw.delete_one(wojewodztwa)

In [None]:
# usunięcie wyników obliczeń z MongoDB -> datę trzeba wpisać odręcznie
stations.delete_many({"srednia.('2022-09-01', 'dzien')" : {'$gt': 0}})

In [None]:
# zamknięcie połączenia z bazą danych
client.close()

konfiguracja Redis

In [None]:
import redis

r = redis.ConnectionPool(
  host = '127.0.0.1',
  port = 6379,
  db = 0
)

db_redis = redis.Redis(connection_pool=r)

In [None]:
def inputIntoRedis(df, idstacji, date):
    data = df.to_dict('list')
    n = 0
    i = 0
    indexStacji = []
    indexStacji.append(n)
    while i+1 < len(idstacji):
        if idstacji[i] != data['KodSH'][n]:
            indexStacji.append(n)
            i += 1
        n += 1
    for a in range(len(indexStacji)):
        if a == len(indexStacji)-1:
            pomiar = [str(x) for x in data['Wartosc'][indexStacji[a]:]]
            czas = data['Data'][indexStacji[a]:]
            czas = ','.join(czas)
            pomiar = ','.join(pomiar)
            klucz = str(idstacji[a]) + '#' + data['ParametrSH'][0] + '#' + date
            db_redis.hmset(klucz, {'data': czas, 'wartosc': pomiar})
        else:
            pomiar = [str(x) for x in data['Wartosc'][indexStacji[a]:indexStacji[a+1]]]
            czas = data['Data'][indexStacji[a]:indexStacji[a+1]]
            czas = ','.join(czas)
            pomiar = ','.join(pomiar)
            klucz = str(idstacji[a]) + '#' + data['ParametrSH'][0] + '#' + date
            db_redis.hmset(klucz, {'data': czas, 'wartosc': pomiar})

In [None]:
def getArythmeticMeanMaxMin(key, lat, long, redisDB):
    try:
        val, date = redisDB.hmget(key, ['wartosc', 'data'])
        date = date.decode('utf-8').split(',')
        val = val.decode('utf-8').split(',')
        val = [float(x) for x in val]
        id = key.split('#')[0]
        station = LocationInfo(lat,long)
        res = pd.DataFrame()
        for i in range(len(date)):
            currentDate = DF_date_to_datetime(date[i])
            s = sun(station.observer, date=currentDate)
            if currentDate < s['sunrise'].replace(tzinfo=None):
                newDate = currentDate + datetime.timedelta(days=-1)
                res = pd.concat(
                    [res, pd.DataFrame({'IdStacji': id, 'Data': [newDate.strftime('%Y-%m-%d')], 'pora_dnia': ['noc'], 'srednia': [val[i]]})],
                    ignore_index=True)

            elif currentDate >= s['sunrise'].replace(tzinfo=None) and currentDate < s['sunset'].replace(tzinfo=None):
                res = pd.concat(
                    [res, pd.DataFrame({'IdStacji': id, 'Data': [currentDate.strftime('%Y-%m-%d')], 'pora_dnia': ['dzień'], 'srednia': [val[i]]})],
                    ignore_index=True)

            elif currentDate >= s['sunset'].replace(tzinfo=None):
                res = pd.concat(
                    [res, pd.DataFrame({'IdStacji': id, 'Data': [currentDate.strftime('%Y-%m-%d')], 'pora_dnia': ['noc'], 'srednia': [val[i]]})],
                    ignore_index=True)

        mediana = res.groupby([res.IdStacji, res.Data, res.pora_dnia]).median(numeric_only = True).srednia.tolist()
        final = res.groupby([res.IdStacji, res.Data, res.pora_dnia]).mean(numeric_only = True)
        final['mediana'] = mediana

        return final
        
    except AttributeError:
        pass