# Orange Hi-Tech Girls: AI

## **Zadanie**

W Orange wykorzystujemy wiele różnych urządzeń tworzących infrastrukturę naszej sieci. Znajdują się one w różnych lokalizacjach, np. w budynkach lub na budynkach, w różnych miejscach w przestrzeni publicznej. Na ich działanie może wpływać wiele czynników – jednym z nich jest pogoda.

Twoim zadaniem jest przeanalizowanie pogody (np. temperatury, opadów, siły wiatru) w lokalizacjach, w których Orange oraz konkurencyjni operatorzy posiadają stacje BTS, biorąc pod uwagę także awaryjność BTS Orange w kolejnych miesiącach lat 2017 i 2022.

## **Możesz wykorzystać dane ze źródeł**

*   dane pogodowe zawarte w plikach „A..”, „B…” itd. – wartości wskaźników temperatury w stacjach w kolejnych dniach lat 2017 i 2022, gdzie H1 i H2 oznacza pierwszą i drugą połowę roku (informacja o lokalizacji stacji znajduje się w pliku „kody_stacji.csv”, a wyjaśnienie kodów parametrów – w pliku „kody_parametr.csv”,
*   dane dot. BTS w plikach „bts.csv” (operator, lokalizacja, technologia obsługiwana przez stację),
*   dane dot. awaryjności BTS w pliku (bts_anomalie_pct.xlsx) – odsetek anomalii dot. funkcjonowania BTS w danym miesiącu (im wyższy odsetek, tym gorzej funkcjonuje BTS).

Dane są sztucznie wygenerowane i nie przedstawiają rzeczywistej sytuacji Orange ani konkurencji.

[Plik do pobrania](https://hitechgirls.orange.pl/files/resources/Zadanie_dataai.zip)

## **Przygotuj zbiór danych**

*   połączenie źródeł danych w jeden dataset za pomocą odpowiednich id,
*   agregacja danych pogodowych do większych częstotliwości np. średnie dobowe czy miesięczne,
*   połączenie danych dot. lokalizacji łącząc współrzędne geograficzne z nazwami miejscowości.

## **Przeprowadź następującą analizę danych**

*   analiza zbiorów danych – statystyki, podsumowania, analizę danych,
*   zidentyfikowanie stacji, które są narażone na najbardziej ekstremalne warunki pogodowe/największe zmiany pogody w badanym czasie,
*   wizualizacja danych pogodowych i lokalizacji sieci na mapie,
*   porównanie sieci Orange z innymi sieciami,
*   ocena wpływu pogody na awaryjność BTS.

## **Dodatkowo możesz wytrenować model ML**

*   clustering – identyfikacja stacji o podobnych warunkach pogodowych i awaryjności,
*   model klasyfikacyjny przewidujący wystąpienie anomalii powyżej zadanego progu,
*   model przewidujący jaki odsetek anomalii wystąpi w danym miesiącu w określonej lokalizacji.

Nie musisz realizować wszystkich punktów analizy ani korzystać ze wszystkich danych. Do Ciebie należy decyzja czy chcesz się skupić na danych jednego operatora czy wielu, czy użyjesz wskaźników pogodowych, a jeśli tak to których, czy porównasz ze sobą dane z 2017 i 2022, czy wykorzystasz tylko jeden rok albo krótszy okres.

*Analizę danych wykonaj w języku Python, z wykorzystaniem wszystkich pakietów, jakich potrzebujesz. Swoje rozwiązanie dostarcz w postaci Jupyter notebook w dwóch formatach: ipynb oraz .html (możesz wygenerować .html za pomocą opcji "Zapisz jako"/"Download as").*

## **Rozwiązanie powinno zawierać**

*   całość kodu jaką stworzyłaś na potrzeby zadania,
*   opis metodologii, jaką zastosowałaś - np. krótkie komentarze krok po kroku, co wykonujesz w kodzie.
*   wnioski z analizy, opisy wizualizacji,
*   krótki opis Twoich pomysłów na rozwój rozwiązania i jego zastosowanie w praktyce.

Do opisów możesz użyć Markdowna albo zamieścić je jako komentarze w kodzie.

# Rozwiązanie

## Przygotowanie

### Import bibliotek

In [2]:
'''
# pobranie sweetviz
!pip install sweetviz -qq
!echo '[Layout]' > Override.ini
!echo 'show_logo = 0' >> Override.ini


import sweetviz as sv

sv.config_parser.read("Override.ini")
my_report = sv.analyze(data_raw)
my_report.show_html(filepath='Basic_report.html', layout='vertical', scale=None)
my_report.show_notebook()
'''

'\n# pobranie sweetviz\n!pip install sweetviz -qq\n!echo \'[Layout]\' > Override.ini\n!echo \'show_logo = 0\' >> Override.ini\n\n\nimport sweetviz as sv\n\nsv.config_parser.read("Override.ini")\nmy_report = sv.analyze(data_raw)\nmy_report.show_html(filepath=\'Basic_report.html\', layout=\'vertical\', scale=None)\nmy_report.show_notebook()\n'

In [3]:
# importowanie potrzebnych bibliotek
import pandas as pd

In [4]:
# sprawdzenie wersji pandas
pd.__version__

'1.5.3'

## Parametry - łączenie danych

### Parametr A

In [5]:
# wczytanie pliku A_2017_H1.csv
A_2017_H1 = pd.read_csv('https://drive.google.com/uc?id=1PHN7ENUUyHKRCM356wLp1DAVUHc4tX0E', encoding='cp1250', sep=';')

In [6]:
A_2017_H1

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,538,A,01.01.2017 00:00,75
1,538,A,01.01.2017 01:00,87
2,538,A,01.01.2017 02:00,87
3,538,A,01.01.2017 03:00,93
4,538,A,01.01.2017 04:00,84
...,...,...,...,...
1019584,560,A,30.06.2017 19:00,259
1019585,560,A,30.06.2017 20:00,225
1019586,560,A,30.06.2017 21:00,226
1019587,560,A,30.06.2017 22:00,225


In [7]:
# wczytanie pliku A_2017_H2.csv
A_2017_H2 = pd.read_csv('https://drive.google.com/uc?id=1Aill8jh9D2EBHh0pvUloB-FAOnsyxhU4', encoding='cp1250', sep=';')

In [8]:
A_2017_H2

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,538,A,01.07.2017 00:00,162
1,538,A,01.07.2017 01:00,148
2,538,A,01.07.2017 02:00,156
3,538,A,01.07.2017 03:00,134
4,538,A,01.07.2017 04:00,159
...,...,...,...,...
1029299,560,A,31.12.2017 19:00,141
1029300,560,A,31.12.2017 20:00,128
1029301,560,A,31.12.2017 21:00,149
1029302,560,A,31.12.2017 22:00,138


In [9]:
# wczytanie pliku A_2022_H1.csv
A_2022_H1 = pd.read_csv('https://drive.google.com/uc?id=1N3y8t19_m-cusCgMabCbp0lUVPuDep48', encoding='cp1250', sep=';')

In [10]:
A_2022_H1

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,538,A,01.01.2022 00:00,79
1,538,A,01.01.2022 01:00,86
2,538,A,01.01.2022 02:00,87
3,538,A,01.01.2022 03:00,91
4,538,A,01.01.2022 04:00,85
...,...,...,...,...
1019584,560,A,30.06.2022 19:00,256
1019585,560,A,30.06.2022 20:00,23
1019586,560,A,30.06.2022 21:00,229
1019587,560,A,30.06.2022 22:00,227


In [11]:
# wczytanie pliku A_2022_H2.csv
A_2022_H2 = pd.read_csv('https://drive.google.com/uc?id=1ps_QGu3QT-ePS13By6myDgwRcT0Nh7Kg', encoding='cp1250', sep=';')

In [12]:
A_2022_H2

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,538,A,01.07.2022 00:00,166
1,538,A,01.07.2022 01:00,15
2,538,A,01.07.2022 02:00,152
3,538,A,01.07.2022 03:00,139
4,538,A,01.07.2022 04:00,161
...,...,...,...,...
1029299,560,A,31.12.2022 19:00,136
1029300,560,A,31.12.2022 20:00,129
1029301,560,A,31.12.2022 21:00,147
1029302,560,A,31.12.2022 22:00,136


In [13]:
par_A = pd.concat([A_2017_H1, A_2017_H2, A_2022_H1, A_2022_H2], axis=0, ignore_index=True)

In [14]:
par_A

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,538,A,01.01.2017 00:00,75
1,538,A,01.01.2017 01:00,87
2,538,A,01.01.2017 02:00,87
3,538,A,01.01.2017 03:00,93
4,538,A,01.01.2017 04:00,84
...,...,...,...,...
4097781,560,A,31.12.2022 19:00,136
4097782,560,A,31.12.2022 20:00,129
4097783,560,A,31.12.2022 21:00,147
4097784,560,A,31.12.2022 22:00,136


### Parametr B

In [15]:
# wczytanie pliku B_2017_H1.csv
B_2017_H1 = pd.read_csv('https://drive.google.com/uc?id=1D_ctClz_TPWPqqzGdJjmCAFER0W9fieD', encoding='cp1250', sep=';')

In [16]:
B_2017_H1

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,445,B,01.01.2017 00:00,155
1,445,B,01.01.2017 01:00,144
2,445,B,01.01.2017 02:00,155
3,445,B,01.01.2017 03:00,150
4,445,B,01.01.2017 04:00,153
...,...,...,...,...
1021416,556,B,30.06.2017 19:00,205
1021417,556,B,30.06.2017 20:00,176
1021418,556,B,30.06.2017 21:00,153
1021419,556,B,30.06.2017 22:00,156


In [17]:
# wczytanie pliku B_2017_H2.csv
B_2017_H2 = pd.read_csv('https://drive.google.com/uc?id=1e7BDPc-E8gXjP0kcvO10fbTro2MOPgXK', encoding='cp1250', sep=';')

In [18]:
B_2017_H2

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,445,B,01.07.2017 00:00,157
1,445,B,01.07.2017 01:00,146
2,445,B,01.07.2017 02:00,14
3,445,B,01.07.2017 03:00,139
4,445,B,01.07.2017 04:00,22
...,...,...,...,...
1029604,556,B,31.12.2017 19:00,142
1029605,556,B,31.12.2017 20:00,149
1029606,556,B,31.12.2017 21:00,151
1029607,556,B,31.12.2017 22:00,145


In [19]:
# wczytanie pliku B_2022_H1.csv
B_2022_H1 = pd.read_csv('https://drive.google.com/uc?id=1meCyNosCBZiSeESBXI-3_bx2WL49ioBQ', encoding='cp1250', sep=';')

In [20]:
B_2022_H1

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,445,B,01.01.2022 00:00,146
1,445,B,01.01.2022 01:00,144
2,445,B,01.01.2022 02:00,148
3,445,B,01.01.2022 03:00,141
4,445,B,01.01.2022 04:00,146
...,...,...,...,...
1021416,556,B,30.06.2022 19:00,198
1021417,556,B,30.06.2022 20:00,168
1021418,556,B,30.06.2022 21:00,151
1021419,556,B,30.06.2022 22:00,148


In [21]:
# wczytanie pliku B_2022_H2.csv
B_2022_H2 = pd.read_csv('https://drive.google.com/uc?id=12qOrZL74pQWg7uFdsYCeLxtVe2lxPK3M', encoding='cp1250', sep=';')

In [22]:
B_2022_H2

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,445,B,01.07.2022 00:00,159
1,445,B,01.07.2022 01:00,155
2,445,B,01.07.2022 02:00,148
3,445,B,01.07.2022 03:00,146
4,445,B,01.07.2022 04:00,224
...,...,...,...,...
1029604,556,B,31.12.2022 19:00,148
1029605,556,B,31.12.2022 20:00,15
1029606,556,B,31.12.2022 21:00,151
1029607,556,B,31.12.2022 22:00,149


In [23]:
par_B = pd.concat([B_2017_H1, B_2017_H2, B_2022_H1, B_2022_H2], axis=0, ignore_index=True)

In [24]:
par_B

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,445,B,01.01.2017 00:00,155
1,445,B,01.01.2017 01:00,144
2,445,B,01.01.2017 02:00,155
3,445,B,01.01.2017 03:00,150
4,445,B,01.01.2017 04:00,153
...,...,...,...,...
4102055,556,B,31.12.2022 19:00,148
4102056,556,B,31.12.2022 20:00,15
4102057,556,B,31.12.2022 21:00,151
4102058,556,B,31.12.2022 22:00,149


### Parametr C

In [25]:
# wczytanie pliku C_2017_H1.csv
C_2017_H1 = pd.read_csv('https://drive.google.com/uc?id=1B0-FAPsJooigjA0bxUPJPyFN1UIqUvfF', encoding='cp1250', sep=';')

In [26]:
C_2017_H1

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,2,C,01.01.2017 00:00,61
1,2,C,01.01.2017 01:00,84
2,2,C,01.01.2017 02:00,71
3,2,C,01.01.2017 03:00,6
4,2,C,01.01.2017 04:00,58
...,...,...,...,...
1035968,560,C,30.06.2017 19:00,12
1035969,560,C,30.06.2017 20:00,08
1035970,560,C,30.06.2017 21:00,1
1035971,560,C,30.06.2017 22:00,19


In [27]:
# wczytanie pliku C_2017_H2.csv
C_2017_H2 = pd.read_csv('https://drive.google.com/uc?id=1SZPzcPwstbCKTnkCOan5YqsZ1rblaUAl', encoding='cp1250', sep=';')

In [28]:
C_2017_H2

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,2,C,01.07.2017 00:00,21
1,2,C,01.07.2017 01:00,18
2,2,C,01.07.2017 02:00,25
3,2,C,01.07.2017 03:00,18
4,2,C,01.07.2017 04:00,26
...,...,...,...,...
1074974,349,C,10.12.2017 09:00,4
1074975,349,C,10.12.2017 10:00,47
1074976,349,C,10.12.2017 11:00,38
1074977,349,C,10.12.2017 12:00,37


In [29]:
# wczytanie pliku C_2022_H1.csv
C_2022_H1 = pd.read_csv('https://drive.google.com/uc?id=1E9BYBWESGeeGoowULUFJbROt2h3Vajve', encoding='cp1250', sep=';')

In [30]:
C_2022_H1

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,2,C,01.01.2022 00:00,67
1,2,C,01.01.2022 01:00,83
2,2,C,01.01.2022 02:00,79
3,2,C,01.01.2022 03:00,56
4,2,C,01.01.2022 04:00,57
...,...,...,...,...
1035968,560,C,30.06.2022 19:00,15
1035969,560,C,30.06.2022 20:00,09
1035970,560,C,30.06.2022 21:00,12
1035971,560,C,30.06.2022 22:00,16


In [31]:
# wczytanie pliku C_2022_H2.csv
C_2022_H2 = pd.read_csv('https://drive.google.com/uc?id=1eCDBsycTi-Vew2Zg43nAiFclL4RwOSiv', encoding='cp1250', sep=';')

In [32]:
C_2022_H2

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,2,C,01.07.2022 00:00,15
1,2,C,01.07.2022 01:00,23
2,2,C,01.07.2022 02:00,28
3,2,C,01.07.2022 03:00,25
4,2,C,01.07.2022 04:00,2
...,...,...,...,...
1074974,349,C,10.12.2022 09:00,45
1074975,349,C,10.12.2022 10:00,43
1074976,349,C,10.12.2022 11:00,43
1074977,349,C,10.12.2022 12:00,41


In [33]:
par_C = pd.concat([C_2017_H1, C_2017_H2, C_2022_H1, C_2022_H2], axis=0, ignore_index=True)

In [34]:
par_C

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,2,C,01.01.2017 00:00,61
1,2,C,01.01.2017 01:00,84
2,2,C,01.01.2017 02:00,71
3,2,C,01.01.2017 03:00,6
4,2,C,01.01.2017 04:00,58
...,...,...,...,...
4221899,349,C,10.12.2022 09:00,45
4221900,349,C,10.12.2022 10:00,43
4221901,349,C,10.12.2022 11:00,43
4221902,349,C,10.12.2022 12:00,41


### Parametr D

In [35]:
# wczytanie pliku D_2017.csv
D_2017 = pd.read_csv('https://drive.google.com/uc?id=1usXqOugY4f5HkCDSpdbFsUmZWApSK6JO', encoding='cp1250', sep=';')

  D_2017 = pd.read_csv('https://drive.google.com/uc?id=1usXqOugY4f5HkCDSpdbFsUmZWApSK6JO', encoding='cp1250', sep=';')


In [36]:
D_2017

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,1.0,D,01.01.2017 06:00,37
1,1.0,D,02.01.2017 06:00,4
2,1.0,D,03.01.2017 06:00,09
3,1.0,D,04.01.2017 06:00,55
4,1.0,D,05.01.2017 06:00,17
...,...,...,...,...
1035968,,,,
1035969,,,,
1035970,,,,
1035971,,,,


In [37]:
# wczytanie pliku D_2022.csv
D_2022 = pd.read_csv('https://drive.google.com/uc?id=12TC9WMzvxkl0_DCRNQduWU28GAsyCCUX', encoding='cp1250', sep=';')

  D_2022 = pd.read_csv('https://drive.google.com/uc?id=12TC9WMzvxkl0_DCRNQduWU28GAsyCCUX', encoding='cp1250', sep=';')


In [38]:
D_2022

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,1.0,D,01.01.2022 06:00,35
1,1.0,D,02.01.2022 06:00,4
2,1.0,D,03.01.2022 06:00,12
3,1.0,D,04.01.2022 06:00,64
4,1.0,D,05.01.2022 06:00,14
...,...,...,...,...
1035968,,,,
1035969,,,,
1035970,,,,
1035971,,,,


In [39]:
par_D = pd.concat([D_2017, D_2022], axis=0, ignore_index=True)

In [40]:
par_D

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,1.0,D,01.01.2017 06:00,37
1,1.0,D,02.01.2017 06:00,4
2,1.0,D,03.01.2017 06:00,09
3,1.0,D,04.01.2017 06:00,55
4,1.0,D,05.01.2017 06:00,17
...,...,...,...,...
2071941,,,,
2071942,,,,
2071943,,,,
2071944,,,,


### Parametr E

In [41]:
# wczytanie pliku E_2017_H1.csv
E_2017_H1 = pd.read_csv('https://drive.google.com/uc?id=1Bm9AA8hieaTDExz8DcwlK6TVMI06nd2b', encoding='cp1250', sep=';')

In [42]:
E_2017_H1

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,2,E,01.01.2017 00:00,95
1,2,E,01.01.2017 01:00,99
2,2,E,01.01.2017 02:00,96
3,2,E,01.01.2017 03:00,96
4,2,E,01.01.2017 04:00,93
...,...,...,...,...
1036138,560,E,30.06.2017 19:00,66
1036139,560,E,30.06.2017 20:00,84
1036140,560,E,30.06.2017 21:00,75
1036141,560,E,30.06.2017 22:00,91


In [43]:
# wczytanie pliku E_2017_H2.csv
E_2017_H2 = pd.read_csv('https://drive.google.com/uc?id=1sSBzCGKmfduY67irUtW5ARTYiGLWs7-_', encoding='cp1250', sep=';')

In [44]:
E_2017_H2

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,2,E,01.07.2017 00:00,94
1,2,E,01.07.2017 01:00,93
2,2,E,01.07.2017 02:00,97
3,2,E,01.07.2017 03:00,97
4,2,E,01.07.2017 04:00,103
...,...,...,...,...
1047929,554,E,12.12.2017 12:00,86
1047930,554,E,12.12.2017 13:00,82
1047931,554,E,12.12.2017 14:00,75
1047932,554,E,12.12.2017 15:00,79


In [45]:
# wczytanie pliku E_2022_H1.csv
E_2022_H1 = pd.read_csv('https://drive.google.com/uc?id=1FX3dTG432RKZVQc7L5kz9G-Ib8Timz-4', encoding='cp1250', sep=';')

In [46]:
E_2022_H1

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,2,E,01.01.2022 00:00,97
1,2,E,01.01.2022 01:00,97
2,2,E,01.01.2022 02:00,95
3,2,E,01.01.2022 03:00,95
4,2,E,01.01.2022 04:00,97
...,...,...,...,...
1036138,560,E,30.06.2022 19:00,68
1036139,560,E,30.06.2022 20:00,87
1036140,560,E,30.06.2022 21:00,80
1036141,560,E,30.06.2022 22:00,89


In [47]:
# wczytanie pliku E_2022_H2.csv
E_2022_H2 = pd.read_csv('https://drive.google.com/uc?id=1Gcarx8pUj5hgjK3kI8j0R3Et3WI7jta6', encoding='cp1250', sep=';')

In [48]:
E_2022_H2

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,2,E,01.07.2022 00:00,96
1,2,E,01.07.2022 01:00,98
2,2,E,01.07.2022 02:00,96
3,2,E,01.07.2022 03:00,102
4,2,E,01.07.2022 04:00,98
...,...,...,...,...
1047929,554,E,12.12.2022 12:00,87
1047930,554,E,12.12.2022 13:00,79
1047931,554,E,12.12.2022 14:00,77
1047932,554,E,12.12.2022 15:00,74


In [49]:
par_E = pd.concat([E_2017_H1, E_2017_H2, E_2022_H1, E_2022_H2], axis=0, ignore_index=True)

In [50]:
par_E

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,2,E,01.01.2017 00:00,95
1,2,E,01.01.2017 01:00,99
2,2,E,01.01.2017 02:00,96
3,2,E,01.01.2017 03:00,96
4,2,E,01.01.2017 04:00,93
...,...,...,...,...
4168149,554,E,12.12.2022 12:00,87
4168150,554,E,12.12.2022 13:00,79
4168151,554,E,12.12.2022 14:00,77
4168152,554,E,12.12.2022 15:00,74


### Czyszczenie danych

In [51]:
# sprawdzanie obecności wartości NaN wśród parametrów
print('\nNaN par_A:', par_A.isna().values.any(),
      '\nNaN par_B:', par_B.isna().values.any(),
      '\nNaN par_C:', par_C.isna().values.any(),
      '\nNaN par_D:', par_D.isna().values.any(),
      '\nNaN par_E:', par_E.isna().values.any())


NaN par_A: False 
NaN par_B: False 
NaN par_C: False 
NaN par_D: True 
NaN par_E: False


In [52]:
# usuwanie wartości NaN w tabeli par_D
par_D.dropna(how='all', inplace=True)
print('Nan par_D:', par_D.isna().values.any())

Nan par_D: False


### Połączenie parametrów

In [53]:
par = pd.concat([par_A, par_B, par_C, par_D, par_E], axis=0, ignore_index=True)

In [54]:
par

Unnamed: 0,ID_stacji,Parametr,Data_godzina,Wartość
0,538.0,A,01.01.2017 00:00,75
1,538.0,A,01.01.2017 01:00,87
2,538.0,A,01.01.2017 02:00,87
3,538.0,A,01.01.2017 03:00,93
4,538.0,A,01.01.2017 04:00,84
...,...,...,...,...
16972851,554.0,E,12.12.2022 12:00,87
16972852,554.0,E,12.12.2022 13:00,79
16972853,554.0,E,12.12.2022 14:00,77
16972854,554.0,E,12.12.2022 15:00,74


In [55]:
# double-check czy są wartości NaN w złączonej tabeli
print('Czy są jakieś wartości NaN:', par.isna().values.any())

Czy są jakieś wartości NaN: False


### Obsługa typów danych

In [56]:
# sprawdzenie typów danych
par.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16972856 entries, 0 to 16972855
Data columns (total 4 columns):
 #   Column        Dtype  
---  ------        -----  
 0   ID_stacji     float64
 1   Parametr      object 
 2   Data_godzina  object 
 3   Wartość       object 
dtypes: float64(1), object(3)
memory usage: 518.0+ MB


In [57]:
# Zmiana danych
# ID -> int
par['ID_stacji'] = par['ID_stacji'].astype(int)

In [58]:
# Data_godzina -> datetime
#par['Data_godzina'] = pd.to_datetime(par['Data_godzina'])

In [59]:
# Wartość -> float
par['Wartość'] = par['Wartość'].str.replace(',','.')
par['Wartość'] = par['Wartość'].astype(float)

In [60]:
par.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16972856 entries, 0 to 16972855
Data columns (total 4 columns):
 #   Column        Dtype  
---  ------        -----  
 0   ID_stacji     int64  
 1   Parametr      object 
 2   Data_godzina  object 
 3   Wartość       float64
dtypes: float64(1), int64(1), object(2)
memory usage: 518.0+ MB


## Łączenie parametrów z kodami

### Edycja kodów stacji

In [61]:
# wczytanie pliku kody_stacji.csv
kody_stacji = pd.read_csv('https://drive.google.com/uc?id=1KCedOUXTk2b3pNOvbOobS5nYmv4rFF4z', encoding='cp1250', sep=';')

In [62]:
kody_stacji

Unnamed: 0,ID,Nazwa,Szerokość geograficzna,Długość geograficzna
0,1,RYBNIK-STODOŁY,50 09 16,18 28 59
1,2,DZIWNÓW,54 01 20,14 43 54
2,3,ZIELENIEC,50 19 48,16 23 39
3,4,MIĘDZYGÓRZE,50 13 06,16 46 23
4,5,MIĘDZYLESIE,50 09 12,16 40 15
...,...,...,...,...
575,576,TUROWO,21 54 06,141
576,577,BUKOWIEC,22 24 49,435
577,578,SITOWIEC,17 45 15,134
578,579,MESZNO,17 08 27,212


In [63]:
kody_stacji.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 580 entries, 0 to 579
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   ID                      580 non-null    int64 
 1   Nazwa                   580 non-null    object
 2   Szerokość geograficzna  580 non-null    object
 3   Długość geograficzna    580 non-null    object
dtypes: int64(1), object(3)
memory usage: 18.2+ KB


Czy dane dotyczące położenia się zgadzają?

In [None]:
'''
Polska usytuowana jest na półkuli północnej i wschodniej,
pomiędzy 49°00' a 54°50' szerokości geograficznej północnej,
oraz między 14°07' a 24°09' długości geograficznej wschodniej.
'''

"\nPolska usytuowana jest na półkuli północnej i wschodniej,\npomiędzy 49°00' a 54°50' szerokości geograficznej północnej, \noraz między 14°07' a 24°09' długości geograficznej wschodniej.\n"

In [86]:
kody_stacji['Długość geograficzna'].unique()

array(['18 28 59', '14 43 54', '16 23 39', '16 46 23', '16 40 15',
       '17 01 02', '17 09 59', '17 05 03', '17 23 14', '17 26 17',
       '17 47 41', '18 37 24', '18 56 33', '19 57 40', '19 45 32',
       '20 10 58', '19 32 37', '18 42 20', '18 58 10', '20 36 44',
       '20 49 50', '19 22 49', '21 03 21', '21 11 49', '22 36 03',
       '16 50 20', '17 27 44', '18 29 54', '19 37 23', '20 39 37',
       '21 05 25', '22 49 35', '22 33 56', '23 52 44', '23 45 16',
       '23 31 09', '23 11 44', '23 50 52', '14 36 57', '15 48 33',
       '15 18 05', '20 23 00', '20 53 12', '20 26 22', '20 07 05',
       '20 51 31', '20 14 41', '20 07 25', '20 12 43', '20 12 34',
       '20 57 24', '20 16 55', '20 25 54', '20 18 57', '20 06 26',
       '20 05 54', '20 53 11', '20 06 54', '20 00 21', '20 02 52',
       '21 18 30', '21 48 59', '21 17 44', '21 29 06', '21 10 16',
       '18 38 54', '18 52 15', '18 59 41', '18 49 11', '18 51 41',
       '18 58 03', '18 54 04', '18 56 25', '19 53 42', '19 48 

In [180]:
# sprawdzenie czy istnieją wartości szerokości i długości geograficznej, które
# nie mieszczą się w granicach Polski lub mają wprowadzoną nieprawidłową ilóść znaków
sz = [wsp for wsp in kody_stacji['Szerokość geograficzna'] if (wsp < '49 00 00' or wsp > '54 50 00' or len(wsp) < 8)]
sz

['17 50 36',
 '16 49 05',
 '15 43 05',
 '18 56 49',
 '21 54 06',
 '22 24 49',
 '17 45 15',
 '17 08 27',
 '16 07 25']

In [190]:
dl = [wsp for wsp in kody_stacji['Długość geograficzna'] if (wsp < '14 07 00' or wsp > '24 09 00' or len(wsp) < 8)]
dl

['162', '91', '105', '104', '141', '435', '134', '212', '49']

In [192]:
# wypisanie tablicy miejscowości ze złymi danymi szerokości geograficznej
sz_t = kody_stacji[kody_stacji['Szerokość geograficzna'].isin(sz)]
sz_t

Unnamed: 0,ID,Nazwa,Szerokość geograficzna,Długość geograficzna
571,572,BUKOWINA,17 50 36,162
572,573,KOPASZEWO,16 49 05,91
573,574,SŁONOWICE,15 43 05,105
574,575,RADZYŃ-FIJEWO,18 56 49,104
575,576,TUROWO,21 54 06,141
576,577,BUKOWIEC,22 24 49,435
577,578,SITOWIEC,17 45 15,134
578,579,MESZNO,17 08 27,212
579,580,WICEWO,16 07 25,49


In [193]:
# wypisanie tablicy miejscowości ze złymi danymi długości geograficznej
dl_t = kody_stacji[kody_stacji['Długość geograficzna'].isin(dl)]
dl_t

Unnamed: 0,ID,Nazwa,Szerokość geograficzna,Długość geograficzna
571,572,BUKOWINA,17 50 36,162
572,573,KOPASZEWO,16 49 05,91
573,574,SŁONOWICE,15 43 05,105
574,575,RADZYŃ-FIJEWO,18 56 49,104
575,576,TUROWO,21 54 06,141
576,577,BUKOWIEC,22 24 49,435
577,578,SITOWIEC,17 45 15,134
578,579,MESZNO,17 08 27,212
579,580,WICEWO,16 07 25,49


In [197]:
# sprawdzenie czy te tablice mają te same źle wpisane rekordy
sz_t.equals(dl_t)

True

In [None]:
# złe szerokości i długości geograficzne mają wpisane identyczne rekordy (parami),
# dlatego trzeba przeanalizować tylko te wartości

In [200]:
# sprawdzenie czy w kody_stacji znajduje się inne zestawienie danych geograficznych z tymi nazwami - nie znajduje się
kody_stacji[kody_stacji['Nazwa'].isin(sz_t['Nazwa'])]

Unnamed: 0,ID,Nazwa,Szerokość geograficzna,Długość geograficzna
571,572,BUKOWINA,17 50 36,162
572,573,KOPASZEWO,16 49 05,91
573,574,SŁONOWICE,15 43 05,105
574,575,RADZYŃ-FIJEWO,18 56 49,104
575,576,TUROWO,21 54 06,141
576,577,BUKOWIEC,22 24 49,435
577,578,SITOWIEC,17 45 15,134
578,579,MESZNO,17 08 27,212
579,580,WICEWO,16 07 25,49


In [65]:
# stworzenie kopii df do edycji
kody = kody_stacji.copy()

In [66]:
# Zmiana wartości kolumny szerokość geograficzna
# dodanie kierunku, stopni, minut, sekund
kody[['Szer_st', 'Szer_m', 'Szer_s']] = kody['Szerokość geograficzna'].str.split(' ', expand=True)
kody.drop(columns='Szerokość geograficzna', inplace=True)
kody['Szerokość geograficzna'] = 'N ' + kody.Szer_st + '° ' + kody.Szer_m + '\' ' + kody.Szer_s + '" '
kody.drop(columns=['Szer_st', 'Szer_m', 'Szer_s'], inplace=True)
kody

Unnamed: 0,ID,Nazwa,Długość geograficzna,Szerokość geograficzna
0,1,RYBNIK-STODOŁY,18 28 59,"N 50° 09' 16"""
1,2,DZIWNÓW,14 43 54,"N 54° 01' 20"""
2,3,ZIELENIEC,16 23 39,"N 50° 19' 48"""
3,4,MIĘDZYGÓRZE,16 46 23,"N 50° 13' 06"""
4,5,MIĘDZYLESIE,16 40 15,"N 50° 09' 12"""
...,...,...,...,...
575,576,TUROWO,141,"N 21° 54' 06"""
576,577,BUKOWIEC,435,"N 22° 24' 49"""
577,578,SITOWIEC,134,"N 17° 45' 15"""
578,579,MESZNO,212,"N 17° 08' 27"""


In [67]:
# Zmiana wartości kolumny długość geograficzna
# dodanie kierunku, stopni, minut, sekund
kody[['Dł_st', 'Dł_m', 'Dł_s']] = kody['Długość geograficzna'].str.split(' ', expand=True)
kody.drop(columns='Długość geograficzna', inplace=True)
kody['Długość geograficzna'] = 'E ' + kody.Dł_st + '° ' + kody.Dł_m + '\' ' + kody.Dł_s + '" '
kody.drop(columns=['Dł_st', 'Dł_m', 'Dł_s'], inplace=True)
kody

Unnamed: 0,ID,Nazwa,Szerokość geograficzna,Długość geograficzna
0,1,RYBNIK-STODOŁY,"N 50° 09' 16""","E 18° 28' 59"""
1,2,DZIWNÓW,"N 54° 01' 20""","E 14° 43' 54"""
2,3,ZIELENIEC,"N 50° 19' 48""","E 16° 23' 39"""
3,4,MIĘDZYGÓRZE,"N 50° 13' 06""","E 16° 46' 23"""
4,5,MIĘDZYLESIE,"N 50° 09' 12""","E 16° 40' 15"""
...,...,...,...,...
575,576,TUROWO,"N 21° 54' 06""",
576,577,BUKOWIEC,"N 22° 24' 49""",
577,578,SITOWIEC,"N 17° 45' 15""",
578,579,MESZNO,"N 17° 08' 27""",


In [70]:
'''
# zmiana nazwy kolumny ID_stacji na ID w celu łączenia tabel
par.rename(columns={'ID_stacji':'ID'}, inplace=True)
'''

"\n# zmiana nazwy kolumny ID_stacji na ID w celu łączenia tabel\npar.rename(columns={'ID_stacji':'ID'}, inplace=True)\n"

In [71]:
'''
# sprawdzenie typów wartości ID z obu tabel
print('Wartość ID z tabeli par:', par['ID'].dtype, '\nWartość ID z tabeli kody_stacji:', kody_stacji['ID'].dtype)
'''

"\n# sprawdzenie typów wartości ID z obu tabel\nprint('Wartość ID z tabeli par:', par['ID'].dtype, '\nWartość ID z tabeli kody_stacji:', kody_stacji['ID'].dtype)\n"

In [72]:
#data = pd.merge(par, kody_stacji, on='ID')

### Zmiana nazw kodów parametrów

Zastosowana by zwiększyć czytelność tabeli

In [73]:
'''
# wczytanie pliku kody_parametr.csv
kody_param = pd.read_csv('https://drive.google.com/uc?id=1cgBnbbtkAcvhkkJ2-cvL9rd7v60p2Nbi', encoding='cp1250', sep=';')
'''

"\n# wczytanie pliku kody_parametr.csv\nkody_param = pd.read_csv('https://drive.google.com/uc?id=1cgBnbbtkAcvhkkJ2-cvL9rd7v60p2Nbi', encoding='cp1250', sep=';')\n"

In [74]:
#kody_param

In [75]:
'''
# przygotowanie słownika do zmiany nazw
di = {
    'A': 'T_pow',
    'B': 'T_gruntu',
    'C': 'Vśr_wiatru',
    'D': 'Suma_opadu_1d',
    'E': 'RH_pow' # wilgotność względna
}
'''

"\n# przygotowanie słownika do zmiany nazw\ndi = {\n    'A': 'T_pow',\n    'B': 'T_gruntu',\n    'C': 'Vśr_wiatru',\n    'D': 'Suma_opadu_1d',\n    'E': 'RH_pow' # wilgotność względna\n}\n"

In [76]:
'''
data['Parametr'] = data['Parametr'].replace(di)
data
'''

"\ndata['Parametr'] = data['Parametr'].replace(di)\ndata\n"