# Data preparation and processing

At this point, let's remind our core aim: to analyse some interesting relationships (esp. rent prices and distance from metro) based on data scraped from sReality.cz. 

Now, having the scraped massive dataset, our goal is to analyse and visualize underlaying relationships of chosen variables. We attempt to do so by (a) matplotlib and (b) geopandas tools. Nevertheless, before we can do so, the data need to be inspected and adjusted.

## I. Getting familiar with the data

First, we prepare the environment for analysis and get familiar with the structure and variables of data.

In [2]:
import pandas as pd
import numpy as np

data = pd.read_csv("scraped_dataset.csv", sep = ';') #uploading our scraped data
data.head(4)

Unnamed: 0.1,Unnamed: 0,Adresa,Aktualizace:,Balkón:,Bankomat:,Bazén:,Bezbariérový:,Bus MHD:,Celková cena:,Cena:,...,Večerka:,Vlak:,Vlastnictví:,Voda:,Vybavení:,Výtah:,Výška stropu:,Zlevněno:,Škola:,Školka:
0,0,"Dobrovolného, Praha 9 - Černý Most Panorama",['Dnes'],,"['Bankomat České spořitelny', ' (542 m)']",,,"['Generála Janouška', ' (132 m)']",['12 000 Kč za měsíc'],,...,"['Albert Supermarket', ' (451 m)']","['Praha-Kyje', ' (1445 m)']",['Osobní'],,,,,,"['ZUŠ Praha 9, Ratibořická', ' (234 m)']","['MŠ Sluníčko Praha 9 - Černý Most', ' (279 m)']"
1,0,"Bořivojova, Praha 3 - Žižkov Panorama",['Dnes'],,"['Bankomat České spořitelny', ' (122 m)']",,"[""'boolean-false'""]","['Tachovské náměstí', ' (443 m)']","['9 500 Kč za nemovitost, + provize RK']",,...,"['Shalamar Foods', ' (165 m)']","['Praha hlavní nádraží', ' (984 m)']",['Osobní'],,,,,,"['Gymnázium Karla Sladkovského Praha 3', ' (56...","['ZŠ a MŠ Jaroslava Seiferta Praha 3', ' (243 ..."
2,0,"Tupolevova, Praha 9 - Letňany Panorama",['Dnes'],,"['Bankomat České spořitelny', ' (236 m)']",,"[""'boolean-true'""]","['Šumperská', ' (177 m)']",['13 900 Kč za měsíc'],,...,"['Penny Market', ' (183 m)']","['Praha-Čakovice', ' (1695 m)']",['Osobní'],,,"[""'boolean-true'""]",,,"['Základní škola Fryčovická', ' (160 m)']","['MŠ Havířovská', ' (255 m)']"
3,0,"Podbělohorská, Praha 5 - Smíchov Panorama",['Dnes'],,"['Bankomat Komerční banky', ' (381 m)']",,"[""'boolean-false'""]","['Pod Lipkami', ' (30 m)']","['15 000 Kč za nemovitost, + provize RK']",,...,"['Smíšené zboží Plzeňská\t187', ' (404 m)']","['Praha-Cibulka', ' (1229 m)']",['Osobní'],['Dálkový vodovod'],,,,,"['ZUŠ Na Popelce', ' (224 m)']","['TROIS PETITES POMMES, s.r.o.', ' (343 m)']"


In [3]:
data = data.drop(["Unnamed: 0"], axis= 1)  #this drops the unnamed column as it has no value
data.info() #inspecting all the variables, their type and number of observations

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7878 entries, 0 to 7877
Data columns (total 79 columns):
 #   Column                                   Non-Null Count  Dtype 
---  ------                                   --------------  ----- 
 0   Adresa                                   7878 non-null   object
 1   Aktualizace:                             7878 non-null   object
 2   Balkón:                                  1960 non-null   object
 3   Bankomat:                                7455 non-null   object
 4   Bazén:                                   21 non-null     object
 5   Bezbariérový:                            1744 non-null   object
 6   Bus MHD:                                 7756 non-null   object
 7   Celková cena:                            7646 non-null   object
 8   Cena:                                    47 non-null     object
 9   Cukrárna:                                7455 non-null   object
 10  Datum nastěhování:                       1751 non-null   obj

In [4]:
#We rename columns so that we can better work with them 
#Specifically, adding underscored characters in multi-word names, deleting colons, 
#rewriting some long names in shorter form (among those that are very likely to be used in the analysis)

data.columns = ['Adresa', 'Aktualizace', 'Balkón', 'Bankomat', 'Bazén',
       'Bezbariérový', 'Bus_MHD', 'Price_total', 'Price', 'Cukrárna',
       'Datum_nastěhování', 'Datum_prohlídky_do', 'Datum_prohlídky',
       'Datum_zahájení_prodeje', 'Divadlo', 'Doprava', 'Elektřina',
       'Energy_demands', 'Garáž', 'Hospoda', 'Hřiště',
       'ID_zakázky:', 'ID', 'Kino', 'Komunikace', 'Kulturní_památka',
       'Lodžie', 'Lékař', 'Lékárna', 'Metro', 'Náklady_na_bydlení',
       'Obchod', 'Odpad', 'Parkování', 'Plocha_podlahová',
       'Plocha_pozemku', 'Plocha_zahrady', 'Plocha_zastavěná', 'Plyn',
       'Podlaží', 'Poloha domu', 'Poznámka_k_ceně', 'Počet bytů', 'Pošta',
       'Provize', 'Energy_demands_II', 'Převod_do_OV',
       'Přírodní zajímavost', 'Půdní_vestavba', 'Původní_cena',
       'Restaurace', 'Rok_kolaudace', 'Rok_rekonstrukce', 'Sklep',
       'Sportoviště', 'Stav_objektu', 'Stav', 'Stavba', 'Telekomunikace',
       'Terasa', 'Title', 'Topení', 'Tram', 'Typ_bytu', 'Typ_domu',
       'Energy_demands_III', 'Umístění_objektu',
       'Area', 'Veterinář', 'Večerka', 'Vlak', 'Vlastnictví',
       'Voda', 'Vybavení', 'Výtah', 'Výška_stropu', 'Zlevněno', 'Škola',
       'Školka']

In total, we have 7878 observations and 79 columns. Neverheless, as we can see above, many of the columns contain only a relatively limited information (in terms of number of their observations), specifically 49 variables have more than 10% of missing values. Hence, the strenght of their evidence is limited and we need to be aware of this limitation. Variables with extreme portion of missing values (> 90%) deserve special attention and we should rather not include them in the analysis at all because they don't tell us much.

In [5]:
n_observations = data.shape[0]
empty = data.isnull().sum()
empty[empty > n_observations*0.9].sort_values(ascending = False).count()
#number of variables that miss more than 90% of observations

25

In [6]:
empty[empty > n_observations*0.9].sort_values(ascending = False) #list of those variables

Typ_domu                  7877
Plocha_pozemku            7877
Poloha domu               7877
Datum_prohlídky_do        7873
Datum_zahájení_prodeje    7870
Počet bytů                7870
Bazén                     7857
Převod_do_OV              7854
Půdní_vestavba            7838
Datum_prohlídky           7832
Price                     7831
Stav                      7818
Plocha_zahrady            7808
Výška_stropu              7801
Energy_demands_II         7719
Provize                   7705
Původní_cena              7693
Zlevněno                  7693
Plocha_zastavěná          7663
Rok_kolaudace             7643
Energy_demands_III        7579
Typ_bytu                  7547
Rok_rekonstrukce          7319
Lodžie                    7309
Náklady_na_bydlení        7224
dtype: int64

The most suitable variables are these 31 that miss less than 90% of observations. Regarding the aim of our project, it is pleasant that variable 'Metro' can be found here. In our analysis, we will consider 6 more variables, i.e. all variables that contain more than 66% of observations.

In [7]:
empty[empty < n_observations*0.1].sort_values(ascending = False)

Kulturní_památka    757
Kino                463
Divadlo             459
Obchod              456
Restaurace          423
Bankomat            423
Cukrárna            423
Hospoda             423
Lékař               423
Lékárna             423
Škola               423
Pošta               423
Školka              423
Veterinář           423
Večerka             423
Metro               254
Price_total         232
Tram                205
Vlak                128
Bus_MHD             122
Sportoviště         117
Hřiště              117
Vlastnictví           1
Podlaží               0
Area                  0
Title                 0
Stavba                0
Stav_objektu          0
Aktualizace           0
Adresa                0
dtype: int64

In [8]:
empty[np.all([(empty > n_observations*0.1),(empty < n_observations*0.33)], axis = 0)].sort_values(ascending = False)

Plocha_podlahová    2575
Výtah               2249
Poznámka_k_ceně     2114
Vybavení            1901
Energy_demands      1896
ID_zakázky:          953
dtype: int64

## II. Data cleaning and processing

At this point, two things need to be done. Adjusting the dataset only for variables that have some evidence power, and adjusting the column 'Price' as its string values are currently very messy which makes it impossible to work with this crucial variable in our analysis.

### Let's start by keeping worthy variables only
As discussed above, we consider only variables with more than 66% of observations. Let's adjust the dataset accordingly...

In [9]:
variable = empty[empty < n_observations*0.33]
variable.index

Index(['Adresa', 'Aktualizace', 'Bankomat', 'Bus_MHD', 'Price_total',
       'Cukrárna', 'Divadlo', 'Energy_demands', 'Hospoda', 'Hřiště',
       'ID_zakázky:', 'Kino', 'Kulturní_památka', 'Lékař', 'Lékárna', 'Metro',
       'Obchod', 'Plocha_podlahová', 'Podlaží', 'Poznámka_k_ceně', 'Pošta',
       'Restaurace', 'Sportoviště', 'Stav_objektu', 'Stavba', 'Title', 'Tram',
       'Area', 'Veterinář', 'Večerka', 'Vlak', 'Vlastnictví', 'Vybavení',
       'Výtah', 'Škola', 'Školka'],
      dtype='object')

In [10]:
data = data[variable.index]

In [11]:
data[variable.index].head()

Unnamed: 0,Adresa,Aktualizace,Bankomat,Bus_MHD,Price_total,Cukrárna,Divadlo,Energy_demands,Hospoda,Hřiště,...,Tram,Area,Veterinář,Večerka,Vlak,Vlastnictví,Vybavení,Výtah,Škola,Školka
0,"Dobrovolného, Praha 9 - Černý Most Panorama",['Dnes'],"['Bankomat České spořitelny', ' (542 m)']","['Generála Janouška', ' (132 m)']",['12 000 Kč za měsíc'],"['Shisha Room Dvin', ' (1144 m)']","['Přírodní divadlo Dády Stoklasy', ' (3152 m)']",['Třída G - Mimořádně nehospodárná'],"['Šenk Na Rajské', ' (476 m)']","['Dětské hřiště Rajský vrch', ' (162 m)']",...,"['Lehovec', ' (1136 m)']",['26m2'],"['MetropoleVet Praha s.r.o.', ' (623 m)']","['Albert Supermarket', ' (451 m)']","['Praha-Kyje', ' (1445 m)']",['Osobní'],,,"['ZUŠ Praha 9, Ratibořická', ' (234 m)']","['MŠ Sluníčko Praha 9 - Černý Most', ' (279 m)']"
1,"Bořivojova, Praha 3 - Žižkov Panorama",['Dnes'],"['Bankomat České spořitelny', ' (122 m)']","['Tachovské náměstí', ' (443 m)']","['9 500 Kč za nemovitost, + provize RK']","['Klub JINÝ KAFE', ' (283 m)']","['Žižkovské divadlo Járy Cimrmana', ' (280 m)']",['Třída G - Mimořádně nehospodárná'],"['Hospůdka U Habásků', ' (209 m)']","['Dětské hřiště Bořivojova', ' (294 m)']",...,"['Lipanská', ' (186 m)']",['23m2'],"['MVDr. Jan Dubský', ' (425 m)']","['Shalamar Foods', ' (165 m)']","['Praha hlavní nádraží', ' (984 m)']",['Osobní'],,,"['Gymnázium Karla Sladkovského Praha 3', ' (56...","['ZŠ a MŠ Jaroslava Seiferta Praha 3', ' (243 ..."
2,"Tupolevova, Praha 9 - Letňany Panorama",['Dnes'],"['Bankomat České spořitelny', ' (236 m)']","['Šumperská', ' (177 m)']",['13 900 Kč za měsíc'],"['Café Infinity', ' (204 m)']","['Divadlo Pohádka', ' (1057 m)']",,"['Pivnice na Královce', ' (1824 m)']","['Venkovní posilovna u obchodního centra', ' (...",...,"['Sídliště Ďáblice', ' (1906 m)']",['52m2'],"['Veterinární ordinace Letňany', ' (302 m)']","['Penny Market', ' (183 m)']","['Praha-Čakovice', ' (1695 m)']",['Osobní'],,"[""'boolean-true'""]","['Základní škola Fryčovická', ' (160 m)']","['MŠ Havířovská', ' (255 m)']"
3,"Podbělohorská, Praha 5 - Smíchov Panorama",['Dnes'],"['Bankomat Komerční banky', ' (381 m)']","['Pod Lipkami', ' (30 m)']","['15 000 Kč za nemovitost, + provize RK']","['Cukrárna Pod Marjánkou', ' (1333 m)']","['JUDr. Jiří Šilhán', ' (279 m)']",['Třída B - Velmi úsporná'],"['Restaurace Na zámyšli', ' (423 m)']","['Dětské hřiště Na Vršku', ' (116 m)']",...,"['Kavalírka', ' (370 m)']",['58m2'],"['Veterinární klinika - MVDr. Pavel Santar, MV...","['Smíšené zboží Plzeňská\t187', ' (404 m)']","['Praha-Cibulka', ' (1229 m)']",['Osobní'],,,"['ZUŠ Na Popelce', ' (224 m)']","['TROIS PETITES POMMES, s.r.o.', ' (343 m)']"
4,"Mezi domy, Praha 4 - Písnice Panorama",['Dnes'],"['Bankomat Komerční banky', ' (780 m)']","['U Libušské sokolovny', ' (275 m)']",['19 500 Kč za měsíc'],"['Cukrářství Viktoria, s.r.o.', ' (900 m)']","['Tradiční loutkové divadlo Zvoneček', ' (3145...",['Třída D - Méně úsporná č. 78/2013 Sb. podle ...,"['Hospůdka U Báti', ' (509 m)']","['Dětské hřiště Pyramida Na Okruhu', ' (78 m)']",...,"['Levského', ' (1815 m)']",['93m2'],"['Vetnemo, s.r.o.', ' (634 m)']","['VIVACOMEX, spol. s r.o.', ' (450 m)']","['Praha-Krč', ' (3635 m)']",['Osobní'],,"[""'boolean-true'""]",['Střední odborné učiliště potravinářské Praha...,"['Mateřská škola Mezi Domy', ' (105 m)']"


In [12]:
data[variable.index].head().to_csv('dataview.csv', sep = ';')

### Cleaning the square brackets in the whole dataset

In [13]:
data = data.applymap(lambda x: x.strip("['']") if type(x) == str else x) #deletes all the square brackets if type string

### Dealing with messy prices

Before we can do the analysis, we need to deal with the complicated form of stated prices and obtain purely the monthly rent in CZK, without other specification (in other words, we need to extract integer out of the string values).

In order to be able to suitably merge the resulting list of prices to the original dataset, it is neccessary to get rid of rows with empty prices values beforehand. Furthermore, during the analysis, we explored two error values in the dataset (tiny but with serious consequences): observation data.Price_total[984] has value of "12 CZK" which is nonsense and observation data.Price_total[6727] has value "23 214 CZK (850 EUR)" which cases troubles in the analysis and we need to get rid of both of these errors beforehand.

In [14]:
def get_price(x):
    if ~(type(x) == float and np.isnan(x)): #this check if a valus is not an NA
        kc = x.split('Kč') #splits the string by Kc
        kc_nogap = kc[0].replace(' ','') #gets the string left of Kc and deletes spaces
        kc_int = int(kc_nogap) #converts to int
        return kc_int 
    else:
        return x #if NA stay NA

In [15]:
data['Cena'] = data['Price_total'].apply(get_price) #apply the above defined function to column Price_total

In [16]:
data['Cena']

0       12000.0
1        9500.0
2       13900.0
3       15000.0
4       19500.0
         ...   
7873    35000.0
7874    33000.0
7875    55000.0
7876    75000.0
7877    35000.0
Name: Cena, Length: 7878, dtype: float64

### Separate distance and name  in variable containing 'list'

In [17]:
import re
def extractor(inp): 
    ''' This function deletes all non numeric chachters from a string
    '''
    try: 
        result = int(re.sub("[^0-9]", "",inp))
    except:
        result = None
    return result

In [18]:
def brush(x, posi):
    ''' 
    This function solves one problem with a structure of our data, we stored it as a list but pandas converted it to string.
    We therefore grab the values by "," in a list structure [" "," "]. We know our lists have two values at most
    '''
    if ~(type(x) == float and np.isnan(x)):
        try:
            first = x.strip('[]') # this line is probably redundand since we cleaned the dataset above 
            return first.split("', '")[posi] 
        except IndexError: #in column Restaurant some values have a different structure
            first = x.strip('[]') # this line is probably redundand since we cleaned the dataset above 
            return first.split(",")[posi] 
    else:
        return None  #once NA always NA

In [19]:
def clean(var_name): #from our intitial list we create two new columns 
    data[f'{var_name}_name'] = data[var_name].apply(brush, args = (0,))
    data[f'{var_name}_dist'] = data[var_name].apply(brush, args = (1,))
    data[f'{var_name}_dist'] = data[f'{var_name}_dist'].apply(extractor) #we keep only digits converted to int in the _dist column
    

In [20]:
var_to_clean = ['Bankomat','Bus_MHD', 'Cukrárna','Divadlo','Hospoda','Hřiště','Kino',
 'Kulturní_památka', 'Lékař', 'Lékárna', 'Metro','Obchod','Pošta','Restaurace', 'Sportoviště',
'Tram', 'Veterinář', 'Večerka', 'Vlak','Škola', 'Školka'] # list of column names to clean

In [21]:
for var in var_to_clean:
    clean(var)

### Converting True & False to 1 & 0

In [22]:
def Booli(x): # converts special true and false strings to  1 & 0
    if ~(type(x) == float and np.isnan(x)):
        if x == '"\'boolean-false\'"':
            return 0
        elif x == '"\'boolean-true\'"':
            return 1
        else:
            return x
    else:
        return x

In [23]:
def convert_01(var_name): #rewrites values by a Booli function
    data[var_name] = data[var_name].apply(Booli)  

In [24]:
var_conv = ['Výtah','Vybavení']

In [25]:
for var in var_conv:
    convert_01(var)

### Analyzing certain vars

In [26]:
def group_exm(var_name): #this function returns values and they frequency of occurence
    return data.groupby(var_name)[var_name].count()  

In [27]:
group_exm('Aktualizace')

Aktualizace
01.02.2020       1
01.03.2020       1
01.04.2020      71
02.01.2020       2
02.02.2020       5
              ... 
30.03.2020      46
30.11.2019       1
31.03.2020     104
Dnes          1271
Včera          489
Name: Aktualizace, Length: 127, dtype: int64

In [28]:
group_exm('Stav_objektu')

Stav_objektu
Dobrý                 630
K demolici              1
Novostavba           1267
Po rekonstrukci      1679
Projekt                 2
Před rekonstrukcí      11
Ve výstavbě             1
Velmi dobrý          4287
Name: Stav_objektu, dtype: int64

In [29]:
group_exm('Stavba')

Stavba
Cihlová      6365
Dřevěná         6
Kamenná        10
Montovaná       8
Panelová      635
Skeletová     243
Smíšená       611
Name: Stavba, dtype: int64

In [30]:
group_exm('Vlastnictví')

Vlastnictví
Družstevní        208
Osobní           7633
Státní/obecní      36
Name: Vlastnictví, dtype: int64

In [31]:
group_exm('Vybavení')

Vybavení
0            987
1           3845
Částečně    1145
Name: Vybavení, dtype: int64

In [32]:
group_exm('Energy_demands') #this could yet tell us something

Energy_demands
Třída A - Mimořádně úsporná                                          42
Třída A - Mimořádně úsporná č. 148/2007 Sb. podle vyhlášky            1
Třída A - Mimořádně úsporná č. 78/2013 Sb. podle vyhlášky            11
Třída B - Velmi úsporná                                             298
Třída B - Velmi úsporná č. 148/2007 Sb. podle vyhlášky               34
Třída B - Velmi úsporná č. 78/2013 Sb. podle vyhlášky               284
Třída C - Úsporná                                                   477
Třída C - Úsporná č. 148/2007 Sb. podle vyhlášky                     49
Třída C - Úsporná č. 78/2013 Sb. podle vyhlášky                     341
Třída D - Méně úsporná                                              187
Třída D - Méně úsporná č. 148/2007 Sb. podle vyhlášky                21
Třída D - Méně úsporná č. 78/2013 Sb. podle vyhlášky                187
Třída E - Nehospodárná                                               51
Třída E - Nehospodárná č. 148/2007 Sb. podle vyhl

### Transformation of energy demands

In [33]:
def eng_class(x):
    
    if x in ['Třída A - Mimořádně úsporná','Třída A - Mimořádně úsporná č. 148/2007 Sb. podle vyhlášky','Třída A - Mimořádně úsporná č. 78/2013 Sb. podle vyhlášky']:
        clas = 'A'
    elif x in ['Třída B - Velmi úsporná', 'Třída B - Velmi úsporná č. 148/2007 Sb. podle vyhlášky', 'Třída B - Velmi úsporná č. 78/2013 Sb. podle vyhlášky']:
        clas = 'B'
    elif x in ['Třída C - Úsporná', 'Třída C - Úsporná č. 148/2007 Sb. podle vyhlášky', 'Třída C - Úsporná č. 78/2013 Sb. podle vyhlášky']:
        clas = 'C'
    elif x in ['Třída D - Méně úsporná', 'Třída D - Méně úsporná č. 148/2007 Sb. podle vyhlášky', 'Třída D - Méně úsporná č. 78/2013 Sb. podle vyhlášky']:
        clas = 'D'
    elif x in ['Třída E - Nehospodárná','Třída E - Nehospodárná č. 148/2007 Sb. podle vyhlášky', 'Třída E - Nehospodárná č. 78/2013 Sb. podle vyhlášky']:
        clas = 'E'
    elif x in ['Třída F - Velmi nehospodárná','Třída F - Velmi nehospodárná č. 78/2013 Sb. podle vyhlášky']:
        clas = 'F'
    elif x in ['Třída G - Mimořádně nehospodárná','Třída G - Mimořádně nehospodárná č. 148/2007 Sb. podle vyhlášky', 'Třída G - Mimořádně nehospodárná č. 78/2013 Sb. podle vyhlášky']:
        clas = 'G'
    else:
        clas = x
    
    return clas

In [34]:
data['Energy_class'] = data['Energy_demands'].apply(eng_class)

In [35]:
group_exm('Energy_class')

Energy_class
A      54
B     616
C     867
D     395
E     120
F      47
G    3883
Name: Energy_class, dtype: int64

### Transformation of Plocha_podlahova and Area

In [36]:
ar_var = ['Area', 'Plocha_podlahová']

In [37]:
def ext_m2(inp): #converting area based variable to int
    if ~(type(inp) == float and np.isnan(inp)):
        return int(inp.split('m2')[0])
    else:
        return inp

In [38]:
for var in ar_var:
    data[var] = data[var].apply(ext_m2)

In [39]:
sum(data['Plocha_podlahová'] == data['Area']) #those variables are the same in 50% of the cases

4593

In [40]:
#sloupce ID_zakáyzky, Aktualize asi nemaji velkou informacni hodnotu pro nase ucely. 

### Extracting value from a Title

In [41]:
def get_rooms(x): #This function extract the number of rooms(type) from the title
    words = x.split(' ')
    for word in words:
        if '+' in word:
            return(word)
        elif 'atypické' == word:
            return('atyp')
        elif 'pokoje' == word:
            return(1)
        elif 'více' == word:
            return('6+')

In [42]:
data['Rooms'] = data['Title'].apply(get_rooms)

In [43]:
group_exm('Rooms') #tohle rika, ze Prazaci maji vetsinou oddeleny zachod a koupelnu

Rooms
1         83
1+1      395
1+kk    1476
2+1      701
2+kk    2477
3+1      649
3+kk    1271
4+1      222
4+kk     394
5+1       65
5+kk      74
6+        37
atyp      33
Name: Rooms, dtype: int64

### Patro

In [44]:
def get_patro(x):
    if x[0] == 'p':
        return(0)
    elif x[0] == '-':
        return int(x[0:2])
    else:
        return int(x[0])
        

In [45]:
data['Podlaží_č'] = data['Podlaží'].apply(get_patro) #This extract the floor(always first) from Podlazi

In [46]:
group_exm('Podlaží_č')

Podlaží_č
-1      14
 0      88
 1    1105
 2    1690
 3    1588
 4    1312
 5    1049
 6     665
 7     240
 8      89
 9      38
Name: Podlaží_č, dtype: int64

### Dealing with messy adresses

In this case, we should adjust the data with regards to the following visualization - our goal is not just a simple analysis but a spatial visualization using geopandas. For this purpose, our adresses need to be adjusted in a way that allow us to assign a geographic position (i.e. their GPS coordinates).

In [47]:
# It is possible to obtain the coordinates even without knowing exact adress 
# (the method takes simply a centroid of a given area). First, we need to get rid of confusing parts of the adresses.

def simple_adress(x):
   
    if ~(type(x) == float and np.isnan(x)): #this check if a valus is not an NA
        lis = x.split('-') #splits the string by "-"
        lis_x = lis[0].replace("Panorama","") #"Panorama always confused the following methods, better to delete it"
        return lis_x
    else:
        return x #if NA stay NA

In [48]:
data['Adress_clean'] = data['Adresa'].apply(simple_adress) #Calling the fce on Adresses and adding results to data

In [49]:
import geopy
from geopy.geocoders import Nominatim
nom = Nominatim(user_agent="my-application")

In [50]:
#Getting exact location for a given place name using geopy and open locator Nominatim (something like Google Maps).
def get_geo_info(place_name):

    # Create geo_locator object instance
    geo_locator = Nominatim(user_agent="my-application")

    # Attempt to obtain geo data for given place name
    try:
        location = geo_locator.geocode(place_name, timeout=1)
    except Exception:
        raise Exception("Location error")

    if not location:
        raise Exception("Location error")

    return location

In [51]:
#Check how does it work
get_geo_info(data['Adress_clean'][21])

Location(V Háji, Holešovice, Praha, okres Hlavní město Praha, Hlavní město Praha, Praha, 17004, Česká republika, (50.1019058, 14.4541955, 0.0))

In [60]:
#Calling the fce get_geo_info on all of the adresses and extracting only latitude and longitude of them
#It takes approximately 2 hours to run.

locations = []

for adress in data.Adress_clean:
    try:
        location = get_geo_info(adress)
        locations.append((location.latitude, location.longitude))
        
    except Exception as e:
        locations.append('NaN')

In [61]:
data['location'] = locations

### Let us reconsider which var are valuable

In [62]:
pd.set_option('display.max_columns', None)
data.head(4)

Unnamed: 0,Adresa,Aktualizace,Bankomat,Bus_MHD,Price_total,Cukrárna,Divadlo,Energy_demands,Hospoda,Hřiště,ID_zakázky:,Kino,Kulturní_památka,Lékař,Lékárna,Metro,Obchod,Plocha_podlahová,Podlaží,Poznámka_k_ceně,Pošta,Restaurace,Sportoviště,Stav_objektu,Stavba,Title,Tram,Area,Veterinář,Večerka,Vlak,Vlastnictví,Vybavení,Výtah,Škola,Školka,Cena,Bankomat_name,Bankomat_dist,Bus_MHD_name,Bus_MHD_dist,Cukrárna_name,Cukrárna_dist,Divadlo_name,Divadlo_dist,Hospoda_name,Hospoda_dist,Hřiště_name,Hřiště_dist,Kino_name,Kino_dist,Kulturní_památka_name,Kulturní_památka_dist,Lékař_name,Lékař_dist,Lékárna_name,Lékárna_dist,Metro_name,Metro_dist,Obchod_name,Obchod_dist,Pošta_name,Pošta_dist,Restaurace_name,Restaurace_dist,Sportoviště_name,Sportoviště_dist,Tram_name,Tram_dist,Veterinář_name,Veterinář_dist,Večerka_name,Večerka_dist,Vlak_name,Vlak_dist,Škola_name,Škola_dist,Školka_name,Školka_dist,Energy_class,Rooms,Podlaží_č,Adress_clean,location
0,"Dobrovolného, Praha 9 - Černý Most Panorama",Dnes,"Bankomat České spořitelny', ' (542 m)","Generála Janouška', ' (132 m)",12 000 Kč za měsíc,"Shisha Room Dvin', ' (1144 m)","Přírodní divadlo Dády Stoklasy', ' (3152 m)",Třída G - Mimořádně nehospodárná,"Šenk Na Rajské', ' (476 m)","Dětské hřiště Rajský vrch', ' (162 m)",N05462,"CineStar Černý Most', ' (1815 m)","Hajnova vila', ' (3984 m)","MUDr. Zdeněk Valentík', ' (363 m)","Lékárna U Rajské zahrady', ' (500 m)","Rajská zahrada', ' (525 m)","Kaufland', ' (1486 m)",26.0,1. podlaží z celkem 5,"+ 2.500,-Kč poplatky, elektřina, provize RK","Pošta Praha 98 - Česká pošta, s.p.', ' (442 m)","Jiří Stopfer', ' (443 m)","Veřejné hřiště na míčové hry Pospíchalova', ' ...",Novostavba,Skeletová,Pronájem bytu 1+kk 26 m²,"Lehovec', ' (1136 m)",26,"MetropoleVet Praha s.r.o.', ' (623 m)","Albert Supermarket', ' (451 m)","Praha-Kyje', ' (1445 m)",Osobní,,,"ZUŠ Praha 9, Ratibořická', ' (234 m)","MŠ Sluníčko Praha 9 - Černý Most', ' (279 m)",12000.0,Bankomat České spořitelny,542.0,Generála Janouška,132.0,Shisha Room Dvin,1144.0,Přírodní divadlo Dády Stoklasy,3152.0,Šenk Na Rajské,476.0,Dětské hřiště Rajský vrch,162.0,CineStar Černý Most,1815.0,Hajnova vila,3984.0,MUDr. Zdeněk Valentík,363.0,Lékárna U Rajské zahrady,500.0,Rajská zahrada,525.0,Kaufland,1486.0,"Pošta Praha 98 - Česká pošta, s.p.",442.0,Jiří Stopfer,443.0,Veřejné hřiště na míčové hry Pospíchalova,295.0,Lehovec,1136.0,MetropoleVet Praha s.r.o.,623.0,Albert Supermarket,451.0,Praha-Kyje,1445.0,"ZUŠ Praha 9, Ratibořická",234.0,MŠ Sluníčko Praha 9 - Černý Most,279.0,G,1+kk,1,"Dobrovolného, Praha 9","(50.1017892, 14.5615725)"
1,"Bořivojova, Praha 3 - Žižkov Panorama",Dnes,"Bankomat České spořitelny', ' (122 m)","Tachovské náměstí', ' (443 m)","9 500 Kč za nemovitost, + provize RK","Klub JINÝ KAFE', ' (283 m)","Žižkovské divadlo Járy Cimrmana', ' (280 m)",Třída G - Mimořádně nehospodárná,"Hospůdka U Habásků', ' (209 m)","Dětské hřiště Bořivojova', ' (294 m)",57/4562,"Filmový klub VŠE', ' (691 m)","Dům U černé Matky Boží', ' (1846 m)","MUDr. Milan Hudi', ' (502 m)","Lékárna U Matky Boží', ' (147 m)","Jiřího z Poděbrad', ' (652 m)","PAVILON, a.s.', ' (941 m)",23.0,5. podlaží z celkem 4,"plus poplatky, 500","Pošta Praha 35 - Česká pošta, s.p.', ' (176 m)","Restaurace Lavička', ' (119 m)","Sportovní centrum Olšanka', ' (469 m)",Dobrý,Cihlová,Pronájem bytu 1+kk 23 m²,"Lipanská', ' (186 m)",23,"MVDr. Jan Dubský', ' (425 m)","Shalamar Foods', ' (165 m)","Praha hlavní nádraží', ' (984 m)",Osobní,,,"Gymnázium Karla Sladkovského Praha 3', ' (56 m)","ZŠ a MŠ Jaroslava Seiferta Praha 3', ' (243 m)",9500.0,Bankomat České spořitelny,122.0,Tachovské náměstí,443.0,Klub JINÝ KAFE,283.0,Žižkovské divadlo Járy Cimrmana,280.0,Hospůdka U Habásků,209.0,Dětské hřiště Bořivojova,294.0,Filmový klub VŠE,691.0,Dům U černé Matky Boží,1846.0,MUDr. Milan Hudi,502.0,Lékárna U Matky Boží,147.0,Jiřího z Poděbrad,652.0,"PAVILON, a.s.",941.0,"Pošta Praha 35 - Česká pošta, s.p.",176.0,Restaurace Lavička,119.0,Sportovní centrum Olšanka,469.0,Lipanská,186.0,MVDr. Jan Dubský,425.0,Shalamar Foods,165.0,Praha hlavní nádraží,984.0,Gymnázium Karla Sladkovského Praha 3,56.0,ZŠ a MŠ Jaroslava Seiferta Praha 3,243.0,G,1+kk,5,"Bořivojova, Praha 3","(50.0821429, 14.4537291)"
2,"Tupolevova, Praha 9 - Letňany Panorama",Dnes,"Bankomat České spořitelny', ' (236 m)","Šumperská', ' (177 m)",13 900 Kč za měsíc,"Café Infinity', ' (204 m)","Divadlo Pohádka', ' (1057 m)",,"Pivnice na Královce', ' (1824 m)","Venkovní posilovna u obchodního centra', ' (19...",,"Cinema City Letňany', ' (223 m)","Hajnova vila', ' (2248 m)","MUDr. Petr Zieg', ' (317 m)","APOMED, s.r.o.', ' (302 m)","Letňany', ' (1382 m)","Tesco', ' (366 m)",,4. podlaží,,"Pošta Praha 99 - Česká pošta, s.p.', ' (680 m)","Pub Infinity', ' (207 m)","Surf Arena', ' (350 m)",Velmi dobrý,Panelová,Pronájem bytu 2+1 52 m²,"Sídliště Ďáblice', ' (1906 m)",52,"Veterinární ordinace Letňany', ' (302 m)","Penny Market', ' (183 m)","Praha-Čakovice', ' (1695 m)",Osobní,,1.0,"Základní škola Fryčovická', ' (160 m)","MŠ Havířovská', ' (255 m)",13900.0,Bankomat České spořitelny,236.0,Šumperská,177.0,Café Infinity,204.0,Divadlo Pohádka,1057.0,Pivnice na Královce,1824.0,Venkovní posilovna u obchodního centra,194.0,Cinema City Letňany,223.0,Hajnova vila,2248.0,MUDr. Petr Zieg,317.0,"APOMED, s.r.o.",302.0,Letňany,1382.0,Tesco,366.0,"Pošta Praha 99 - Česká pošta, s.p.",680.0,Pub Infinity,207.0,Surf Arena,350.0,Sídliště Ďáblice,1906.0,Veterinární ordinace Letňany,302.0,Penny Market,183.0,Praha-Čakovice,1695.0,Základní škola Fryčovická,160.0,MŠ Havířovská,255.0,,2+1,4,"Tupolevova, Praha 9","(50.1273975, 14.5148998)"
3,"Podbělohorská, Praha 5 - Smíchov Panorama",Dnes,"Bankomat Komerční banky', ' (381 m)","Pod Lipkami', ' (30 m)","15 000 Kč za nemovitost, + provize RK","Cukrárna Pod Marjánkou', ' (1333 m)","JUDr. Jiří Šilhán', ' (279 m)",Třída B - Velmi úsporná,"Restaurace Na zámyšli', ' (423 m)","Dětské hřiště Na Vršku', ' (116 m)",44/4562,"CineStar Anděl', ' (2038 m)","Šaldova vila', ' (757 m)","MUDr. Drahomíra Miškovská', ' (309 m)","Lékárna Melissa', ' (447 m)","Radlická', ' (2026 m)","Obchodní centrum Nový Smíchov', ' (2075 m)",58.0,2. podlaží z celkem 3,", 3500","Pošta Praha 56 - Česká pošta, s.p.', ' (379 m)","ŘÍZKÁRNA ROZVOZ JÍDEL', ' (345 m)","TJ Banka Praha z.s.', ' (345 m)",Novostavba,Cihlová,Pronájem bytu 2+kk 58 m²,"Kavalírka', ' (370 m)",58,"Veterinární klinika - MVDr. Pavel Santar, MVDr...","Smíšené zboží Plzeňská\t187', ' (404 m)","Praha-Cibulka', ' (1229 m)",Osobní,,,"ZUŠ Na Popelce', ' (224 m)","TROIS PETITES POMMES, s.r.o.', ' (343 m)",15000.0,Bankomat Komerční banky,381.0,Pod Lipkami,30.0,Cukrárna Pod Marjánkou,1333.0,JUDr. Jiří Šilhán,279.0,Restaurace Na zámyšli,423.0,Dětské hřiště Na Vršku,116.0,CineStar Anděl,2038.0,Šaldova vila,757.0,MUDr. Drahomíra Miškovská,309.0,Lékárna Melissa,447.0,Radlická,2026.0,Obchodní centrum Nový Smíchov,2075.0,"Pošta Praha 56 - Česká pošta, s.p.",379.0,ŘÍZKÁRNA ROZVOZ JÍDEL,345.0,TJ Banka Praha z.s.,345.0,Kavalírka,370.0,"Veterinární klinika - MVDr. Pavel Santar, MVDr...",1141.0,Smíšené zboží Plzeňská\t187,404.0,Praha-Cibulka,1229.0,ZUŠ Na Popelce,224.0,"TROIS PETITES POMMES, s.r.o.",343.0,B,2+kk,2,"Podbělohorská, Praha 5","(50.0732544, 14.3812666)"


In [63]:
worth = ['Adresa', 'Aktualizace', 'Cena','Price_total','ID_zakázky:', 'Plocha_podlahová', 'Podlaží', 'Podlaží_č', 
'Poznámka_k_ceně', 'Stav_objektu', 'Stavba', 'Title','Rooms', 
'Area', 'Vlastnictví', 'Vybavení', 'Výtah','Bankomat_name', 'Bankomat_dist',
'Bus_MHD_name', 'Bus_MHD_dist', 'Cukrárna_name', 'Cukrárna_dist',
'Divadlo_name', 'Divadlo_dist', 'Hospoda_name', 'Hospoda_dist',
'Hřiště_name', 'Hřiště_dist', 'Kino_name', 'Kino_dist',
'Kulturní_památka_name', 'Kulturní_památka_dist', 'Lékař_name',
'Lékař_dist', 'Lékárna_name', 'Lékárna_dist', 'Metro_name',
'Metro_dist', 'Obchod_name', 'Obchod_dist', 'Pošta_name', 'Pošta_dist',
'Restaurace_name', 'Restaurace_dist', 'Sportoviště_name',
'Sportoviště_dist', 'Tram_name', 'Tram_dist', 'Veterinář_name',
'Veterinář_dist', 'Večerka_name', 'Večerka_dist', 'Vlak_name',
'Vlak_dist', 'Škola_name', 'Škola_dist', 'Školka_name', 'Školka_dist',
'Energy_class','Adress_clean','location']

In [64]:
data1 = data[worth].copy()

In [65]:
pd.set_option('display.max_columns', None)
data1.head(4)

Unnamed: 0,Adresa,Aktualizace,Cena,Price_total,ID_zakázky:,Plocha_podlahová,Podlaží,Podlaží_č,Poznámka_k_ceně,Stav_objektu,Stavba,Title,Rooms,Area,Vlastnictví,Vybavení,Výtah,Bankomat_name,Bankomat_dist,Bus_MHD_name,Bus_MHD_dist,Cukrárna_name,Cukrárna_dist,Divadlo_name,Divadlo_dist,Hospoda_name,Hospoda_dist,Hřiště_name,Hřiště_dist,Kino_name,Kino_dist,Kulturní_památka_name,Kulturní_památka_dist,Lékař_name,Lékař_dist,Lékárna_name,Lékárna_dist,Metro_name,Metro_dist,Obchod_name,Obchod_dist,Pošta_name,Pošta_dist,Restaurace_name,Restaurace_dist,Sportoviště_name,Sportoviště_dist,Tram_name,Tram_dist,Veterinář_name,Veterinář_dist,Večerka_name,Večerka_dist,Vlak_name,Vlak_dist,Škola_name,Škola_dist,Školka_name,Školka_dist,Energy_class,Adress_clean,location
0,"Dobrovolného, Praha 9 - Černý Most Panorama",Dnes,12000.0,12 000 Kč za měsíc,N05462,26.0,1. podlaží z celkem 5,1,"+ 2.500,-Kč poplatky, elektřina, provize RK",Novostavba,Skeletová,Pronájem bytu 1+kk 26 m²,1+kk,26,Osobní,,,Bankomat České spořitelny,542.0,Generála Janouška,132.0,Shisha Room Dvin,1144.0,Přírodní divadlo Dády Stoklasy,3152.0,Šenk Na Rajské,476.0,Dětské hřiště Rajský vrch,162.0,CineStar Černý Most,1815.0,Hajnova vila,3984.0,MUDr. Zdeněk Valentík,363.0,Lékárna U Rajské zahrady,500.0,Rajská zahrada,525.0,Kaufland,1486.0,"Pošta Praha 98 - Česká pošta, s.p.",442.0,Jiří Stopfer,443.0,Veřejné hřiště na míčové hry Pospíchalova,295.0,Lehovec,1136.0,MetropoleVet Praha s.r.o.,623.0,Albert Supermarket,451.0,Praha-Kyje,1445.0,"ZUŠ Praha 9, Ratibořická",234.0,MŠ Sluníčko Praha 9 - Černý Most,279.0,G,"Dobrovolného, Praha 9","(50.1017892, 14.5615725)"
1,"Bořivojova, Praha 3 - Žižkov Panorama",Dnes,9500.0,"9 500 Kč za nemovitost, + provize RK",57/4562,23.0,5. podlaží z celkem 4,5,"plus poplatky, 500",Dobrý,Cihlová,Pronájem bytu 1+kk 23 m²,1+kk,23,Osobní,,,Bankomat České spořitelny,122.0,Tachovské náměstí,443.0,Klub JINÝ KAFE,283.0,Žižkovské divadlo Járy Cimrmana,280.0,Hospůdka U Habásků,209.0,Dětské hřiště Bořivojova,294.0,Filmový klub VŠE,691.0,Dům U černé Matky Boží,1846.0,MUDr. Milan Hudi,502.0,Lékárna U Matky Boží,147.0,Jiřího z Poděbrad,652.0,"PAVILON, a.s.",941.0,"Pošta Praha 35 - Česká pošta, s.p.",176.0,Restaurace Lavička,119.0,Sportovní centrum Olšanka,469.0,Lipanská,186.0,MVDr. Jan Dubský,425.0,Shalamar Foods,165.0,Praha hlavní nádraží,984.0,Gymnázium Karla Sladkovského Praha 3,56.0,ZŠ a MŠ Jaroslava Seiferta Praha 3,243.0,G,"Bořivojova, Praha 3","(50.0821429, 14.4537291)"
2,"Tupolevova, Praha 9 - Letňany Panorama",Dnes,13900.0,13 900 Kč za měsíc,,,4. podlaží,4,,Velmi dobrý,Panelová,Pronájem bytu 2+1 52 m²,2+1,52,Osobní,,1.0,Bankomat České spořitelny,236.0,Šumperská,177.0,Café Infinity,204.0,Divadlo Pohádka,1057.0,Pivnice na Královce,1824.0,Venkovní posilovna u obchodního centra,194.0,Cinema City Letňany,223.0,Hajnova vila,2248.0,MUDr. Petr Zieg,317.0,"APOMED, s.r.o.",302.0,Letňany,1382.0,Tesco,366.0,"Pošta Praha 99 - Česká pošta, s.p.",680.0,Pub Infinity,207.0,Surf Arena,350.0,Sídliště Ďáblice,1906.0,Veterinární ordinace Letňany,302.0,Penny Market,183.0,Praha-Čakovice,1695.0,Základní škola Fryčovická,160.0,MŠ Havířovská,255.0,,"Tupolevova, Praha 9","(50.1273975, 14.5148998)"
3,"Podbělohorská, Praha 5 - Smíchov Panorama",Dnes,15000.0,"15 000 Kč za nemovitost, + provize RK",44/4562,58.0,2. podlaží z celkem 3,2,", 3500",Novostavba,Cihlová,Pronájem bytu 2+kk 58 m²,2+kk,58,Osobní,,,Bankomat Komerční banky,381.0,Pod Lipkami,30.0,Cukrárna Pod Marjánkou,1333.0,JUDr. Jiří Šilhán,279.0,Restaurace Na zámyšli,423.0,Dětské hřiště Na Vršku,116.0,CineStar Anděl,2038.0,Šaldova vila,757.0,MUDr. Drahomíra Miškovská,309.0,Lékárna Melissa,447.0,Radlická,2026.0,Obchodní centrum Nový Smíchov,2075.0,"Pošta Praha 56 - Česká pošta, s.p.",379.0,ŘÍZKÁRNA ROZVOZ JÍDEL,345.0,TJ Banka Praha z.s.,345.0,Kavalírka,370.0,"Veterinární klinika - MVDr. Pavel Santar, MVDr...",1141.0,Smíšené zboží Plzeňská\t187,404.0,Praha-Cibulka,1229.0,ZUŠ Na Popelce,224.0,"TROIS PETITES POMMES, s.r.o.",343.0,B,"Podbělohorská, Praha 5","(50.0732544, 14.3812666)"


### ...and finally, store the new nice data1 for easier work on visualizations

In [66]:
data1.to_csv('data1.csv', sep=';')
#%store data1 
'''storing data1 to use in other jupyter notebooks''' 
# we used this jupyter magic at first but we found it less reliable and our dataset could not be accessed without running this code