In [89]:
import geopandas as gpd
from ETL_script import get_layer

#function that takes the name of a layer and returns the amount of null values in each column
def look_for_null(selected_layer):
    gdf_layer = get_layer(selected_layer)
    mask = gdf_layer.isnull()
    null_values_amount = mask.sum()
    print(f'Ilość pustych wartości: \n{null_values_amount}\n')
    rows_with_missing_data = gdf_layer[mask.any(axis=1)]
    if not rows_with_missing_data.empty:
        print("Przykładowe wiersze z brakami danych:")
        # Wyświetlamy oryginalne dane, żebyś mogła podjąć decyzję
        print(rows_with_missing_data.head(20))
    else:
        print("Brak wierszy z pustymi wartościami.")

In [None]:
#function that takes the name of a layer and prints and returns a df with duplicate gml_id
def look_for_duplicates(selected_layer):
    gdf_layer = get_layer(selected_layer)
    duplikaty_id = gdf_layer[gdf_layer.duplicated(subset=['gml_id'])]
    print(f'Ilość duplikatów: \n{duplikaty_id}\n')
    return duplikaty_id 

In [77]:
layer = 'RCN_Transakcja'
#data types of the important columns 
transakcja_layer = get_layer(layer)
print(f"Typ danych kolumny z ceną: {transakcja_layer['cenaTransakcjiBrutto'].dtype}")

look_for_null(layer)
look_for_duplicates(layer)

Typ danych kolumny z ceną: float64
Ilość pustych wartości: 
gml_id                  0
przestrzenNazw          0
lokalnyId               0
wersjaId                0
oznaczenieTransakcji    0
rodzajTransakcji        0
rodzajRynku             0
stronaSprzedajaca       0
stronaKupujaca          0
cenaTransakcjiBrutto    0
dtype: int64

Brak wierszy z pustymi wartościami.
Ilość duplikatów: 
Empty DataFrame
Columns: [gml_id, przestrzenNazw, lokalnyId, wersjaId, oznaczenieTransakcji, rodzajTransakcji, rodzajRynku, stronaSprzedajaca, stronaKupujaca, cenaTransakcjiBrutto]
Index: []



Unnamed: 0,gml_id,przestrzenNazw,lokalnyId,wersjaId,oznaczenieTransakcji,rodzajTransakcji,rodzajRynku,stronaSprzedajaca,stronaKupujaca,cenaTransakcjiBrutto


In [78]:
layer = 'RCN_Dokument'
#data types of the important columns 
dokument_layer = get_layer(layer)
print(f"Typ danych kolumny z datą: {dokument_layer['dataSporzadzeniaDokumentu'].dtype}")

look_for_null(layer)
look_for_duplicates(layer)

Typ danych kolumny z datą: object
Ilość pustych wartości: 
gml_id                       0
oznaczenieDokumentu          0
dataSporzadzeniaDokumentu    0
tworcaDokumentu              0
dtype: int64

Brak wierszy z pustymi wartościami.
Ilość duplikatów: 
Empty DataFrame
Columns: [gml_id, oznaczenieDokumentu, dataSporzadzeniaDokumentu, tworcaDokumentu]
Index: []



Unnamed: 0,gml_id,oznaczenieDokumentu,dataSporzadzeniaDokumentu,tworcaDokumentu


In [86]:
print(dokument_layer['dataSporzadzeniaDokumentu'].apply(type).value_counts())

dataSporzadzeniaDokumentu
<class 'str'>    5422
Name: count, dtype: int64


In [79]:
layer = 'RCN_Nieruchomosc'
nieruchomosc_layer = get_layer(layer)
#data types of the important columns
print(f"Typ danych kolumny z polem powierzchni gruntowej: {nieruchomosc_layer['polePowierzchniNieruchomosciGruntowej'].dtype}")
print(f"Typ danych kolumny z ceną nieruchomosci: {nieruchomosc_layer['cenaNieruchomosciBrutto'].dtype}")

look_for_null(layer)
look_for_duplicates(layer)

Typ danych kolumny z polem powierzchni gruntowej: float64
Typ danych kolumny z ceną nieruchomosci: float64
Ilość pustych wartości: 
gml_id                                          0
rodzajNieruchomosci                             0
rodzajPrawaDoNieruchomosci                      0
udzialWPrawieDoNieruchomosci                    0
cenaNieruchomosciBrutto                       244
polePowierzchniNieruchomosciGruntowej        5535
polePowierzchniNieruchomosciGruntowej_uom    5535
dtype: int64

Przykładowe wiersze z brakami danych:
                   gml_id  rodzajNieruchomosci  rodzajPrawaDoNieruchomosci  \
0   ID_1_obj_id_228956918                    4                           3   
1   ID_1_obj_id_228955487                    4                           3   
2   ID_1_obj_id_228955187                    4                           3   
3   ID_1_obj_id_228955101                    4                           3   
4   ID_1_obj_id_228951187                    4                           3  

Unnamed: 0,gml_id,rodzajNieruchomosci,rodzajPrawaDoNieruchomosci,udzialWPrawieDoNieruchomosci,cenaNieruchomosciBrutto,polePowierzchniNieruchomosciGruntowej,polePowierzchniNieruchomosciGruntowej_uom


In [80]:
layer = 'RCN_Dzialka'
#data types of the important columns 
dzialka_layer = get_layer(layer)
print(f"Typ danych kolumny z ceną dzialki: {dzialka_layer['cenaDzialkiEwidencyjnejBrutto'].dtype}")
print(f"Typ danych kolumny z polem powierzchni dzialki: {dzialka_layer['polePowierzchniEwidencyjnej'].dtype}")

look_for_null(layer)
look_for_duplicates(layer)

Typ danych kolumny z ceną dzialki: float64
Typ danych kolumny z polem powierzchni dzialki: float64
Ilość pustych wartości: 
gml_id                                 0
idDzialki                              0
polePowierzchniEwidencyjnej            0
polePowierzchniEwidencyjnej_uom        0
sposobUzytkowania                      0
przeznaczenieWMPZP                 14223
cenaDzialkiEwidencyjnejBrutto      13959
geometria                          14227
geometry                               3
dtype: int64

Przykładowe wiersze z brakami danych:
                   gml_id                idDzialki  \
0   ID_1_obj_id_228956922  026401_1.0025.AR_8.4/37   
1   ID_1_obj_id_228956920  026401_1.0025.AR_8.4/26   
2   ID_1_obj_id_228956921  026401_1.0025.AR_8.4/32   
3   ID_1_obj_id_228955490  026401_1.0025.AR_8.4/32   
4   ID_1_obj_id_228955491  026401_1.0025.AR_8.4/37   
5   ID_1_obj_id_228955489  026401_1.0025.AR_8.4/26   
6   ID_1_obj_id_228955191  026401_1.0025.AR_8.4/37   
7   ID_1_obj_id_2289551

Unnamed: 0,gml_id,idDzialki,polePowierzchniEwidencyjnej,polePowierzchniEwidencyjnej_uom,sposobUzytkowania,przeznaczenieWMPZP,cenaDzialkiEwidencyjnejBrutto,geometria,geometry


In [81]:
#checking for non null and non nan values
maska_poprawnych = dzialka_layer['cenaDzialkiEwidencyjnejBrutto'].notnull()
wiersze_z_cena = dzialka_layer[maska_poprawnych]
print(wiersze_z_cena.head(20))

                     gml_id                 idDzialki  \
2300  ID_1_obj_id_228635174  026401_1.0028.AR_42.12/3   
2301  ID_1_obj_id_228635170   026401_1.0028.AR_42.3/8   
2302  ID_1_obj_id_228635172  026401_1.0028.AR_42.13/2   
2303  ID_1_obj_id_228635171   026401_1.0028.AR_42.2/7   
2304  ID_1_obj_id_228635173   026401_1.0028.AR_42.3/9   
2305  ID_1_obj_id_228635169  026401_1.0028.AR_42.13/1   
6146  ID_1_obj_id_228133736  026401_1.0028.AR_42.12/3   
6147  ID_1_obj_id_228133733   026401_1.0028.AR_42.2/7   
6148  ID_1_obj_id_228133734  026401_1.0028.AR_42.13/2   
6149  ID_1_obj_id_228133732   026401_1.0028.AR_42.3/8   
6150  ID_1_obj_id_228133731  026401_1.0028.AR_42.13/1   
6151  ID_1_obj_id_228133735   026401_1.0028.AR_42.3/9   
6152  ID_1_obj_id_228133683   026401_1.0028.AR_42.3/8   
6153  ID_1_obj_id_228133686   026401_1.0028.AR_42.3/9   
6154  ID_1_obj_id_228133685  026401_1.0028.AR_42.13/2   
6155  ID_1_obj_id_228133687  026401_1.0028.AR_42.12/3   
6156  ID_1_obj_id_228133684   0

In [82]:
layer = 'RCN_Budynek'
#data types of the important columns 
budynek_layer = get_layer(layer)
print(f"Typ danych kolumny z ceną budynku: {budynek_layer['cenaBudynkuBrutto'].dtype}")

look_for_null(layer)
look_for_duplicates(layer)

Typ danych kolumny z ceną budynku: float64
Ilość pustych wartości: 
gml_id                   0
idBudynku                0
rodzajBudynku            0
cenaBudynkuBrutto    17588
geometria            17650
geometry                 4
dtype: int64

Przykładowe wiersze z brakami danych:
                   gml_id                      idBudynku  rodzajBudynku  \
0   ID_1_obj_id_228956923  026401_1.0025.AR_8.4/26.1_BUD            110   
1   ID_1_obj_id_228955492  026401_1.0025.AR_8.4/26.1_BUD            110   
2   ID_1_obj_id_228955192  026401_1.0025.AR_8.4/26.1_BUD            110   
3   ID_1_obj_id_228955106  026401_1.0025.AR_8.4/26.1_BUD            110   
4   ID_1_obj_id_228951190   026401_1.0025.AR_1.5/8.2_BUD            110   
5   ID_1_obj_id_228951087  026401_1.0025.AR_8.4/26.1_BUD            110   
6   ID_1_obj_id_228951055  026401_1.0025.AR_8.4/26.1_BUD            110   
7   ID_1_obj_id_228950965  026401_1.0025.AR_8.4/26.1_BUD            110   
8   ID_1_obj_id_228949438  026401_1.0025.AR

Unnamed: 0,gml_id,idBudynku,rodzajBudynku,cenaBudynkuBrutto,geometria,geometry


In [83]:
layer = 'RCN_Lokal'
#data types of the important columns 
lokal_layer = get_layer(layer)
print(f"Typ danych kolumny z liczbą izb: {lokal_layer['liczbaIzb'].dtype}")
print(f"Typ danych kolumny z numerem kondygnacji: {lokal_layer['nrKondygnacji'].dtype}")
print(f"Typ danych kolumny z polem powierzchni pomieszczen przynaleznych: {lokal_layer['powUzytkowaLokalu'].dtype}")
print(f"Typ danych kolumny z ceną lokalu: {lokal_layer['cenaLokaluBrutto'].dtype}")
print(f"Typ danych kolumny z polem powierzchni lokalu: {lokal_layer['powUzytkowaPomieszczenPrzynal'].dtype}")

look_for_null(layer)
look_for_duplicates(layer)

Typ danych kolumny z liczbą izb: float64
Typ danych kolumny z numerem kondygnacji: float64
Typ danych kolumny z polem powierzchni pomieszczen przynaleznych: float64
Typ danych kolumny z ceną lokalu: float64
Typ danych kolumny z polem powierzchni lokalu: float64
Ilość pustych wartości: 
gml_id                                  0
idLokalu                                0
funkcjaLokalu                           0
liczbaIzb                              74
nrKondygnacji                           4
powUzytkowaLokalu                       0
powUzytkowaLokalu_uom                   0
cenaLokaluBrutto                     1195
dodatkoweInformacje                  5103
powUzytkowaPomieszczenPrzynal        4480
powUzytkowaPomieszczenPrzynal_uom    4480
geometry                                2
dtype: int64

Przykładowe wiersze z brakami danych:
                   gml_id                                idLokalu  \
0   ID_1_obj_id_228956919  026401_1.0025.AR_8.4/26.1_BUD.1005_LOK   
1   ID_1_obj_id_228

Unnamed: 0,gml_id,idLokalu,funkcjaLokalu,liczbaIzb,nrKondygnacji,powUzytkowaLokalu,powUzytkowaLokalu_uom,cenaLokaluBrutto,dodatkoweInformacje,powUzytkowaPomieszczenPrzynal,powUzytkowaPomieszczenPrzynal_uom,geometry


In [84]:
layer = 'RCN_Adres'
adres_layer = get_layer(layer)
print(f"Typ danych kolumny z numerem porzadkowym: {adres_layer['numerPorzadkowy'].dtype}")

look_for_null(layer)
look_for_duplicates(layer)

Typ danych kolumny z numerem porzadkowym: object
Ilość pustych wartości: 
gml_id              0
miejscowosc         0
ulica               0
numerPorzadkowy    23
dtype: int64

Przykładowe wiersze z brakami danych:
                                                 gml_id miejscowosc  \
269   PL.PZGiK.112.EGiB_59F322D4-ADDC-4AE1-93E2-B1BE...     Wrocław   
549   PL.PZGiK.112.EGiB_2EC0EF82-590D-4DD0-A62F-2CB4...     Wrocław   
825   PL.PZGiK.112.EGiB_2E90179B-5AFB-4826-8F6B-A850...     Wrocław   
880   PL.PZGiK.112.EGiB_938CE840-3494-4854-B11E-7B0B...     Wrocław   
1030  PL.PZGiK.112.EGiB_C588C51B-547E-48A5-B31C-7EEB...     Wrocław   
1032  PL.PZGiK.112.EGiB_AE7850D7-4C16-413B-9E7B-048B...     Wrocław   
1312  PL.PZGiK.112.EGiB_4B4DBCD6-30C5-4858-A102-4ABE...     Wrocław   
2003  PL.PZGiK.112.EGiB_55D978DD-150C-430E-A892-FD95...     Wrocław   
2014  PL.PZGiK.112.EGiB_2D8D26DB-BE39-482A-BE54-0E2B...     Wrocław   
2184  PL.PZGiK.112.EGiB_F6A1F53E-0823-4797-85BC-2497...     Wrocław   
2976 

Unnamed: 0,gml_id,miejscowosc,ulica,numerPorzadkowy


In [85]:
print(adres_layer['numerPorzadkowy'].apply(type).value_counts())

numerPorzadkowy
<class 'str'>         6952
<class 'NoneType'>      23
Name: count, dtype: int64
