# Data preparation, processing and visualization

At this point, let's remind our core aim: to analyse some interesting relationships (esp. rent prices and distance from metro) based on data scraped from sReality.cz. 

Now, having the scraped massive dataset, our goal is to analyse and visualize underlaying relationships of chosen variables. We attempt to do so by (a) matplotlib and (b) geopandas tools. Nevertheless, before we can do so, the data need to be inspected and adjusted.

## I. Getting familiar with the data

First, we prepare the environment for analysis and get familiar with the structure and variables of data.

In [53]:
import pandas as pd
import numpy as np

data = pd.read_csv("dataset.csv", sep = ';') #uploading our scraped data
data.head(4)

Unnamed: 0.1,Unnamed: 0,Adresa,Aktualizace:,Balkón:,Bankomat:,Bazén:,Bezbariérový:,Bus MHD:,Celková cena:,Cena:,...,Večerka:,Vlak:,Vlastnictví:,Voda:,Vybavení:,Výtah:,Výška stropu:,Zlevněno:,Škola:,Školka:
0,0,"Dobrovolného, Praha 9 - Černý Most Panorama",['Dnes'],,"['Bankomat České spořitelny', ' (542 m)']",,,"['Generála Janouška', ' (132 m)']",['12 000 Kč za měsíc'],,...,"['Albert Supermarket', ' (451 m)']","['Praha-Kyje', ' (1445 m)']",['Osobní'],,,,,,"['ZUŠ Praha 9, Ratibořická', ' (234 m)']","['MŠ Sluníčko Praha 9 - Černý Most', ' (279 m)']"
1,0,"Bořivojova, Praha 3 - Žižkov Panorama",['Dnes'],,"['Bankomat České spořitelny', ' (122 m)']",,"[""'boolean-false'""]","['Tachovské náměstí', ' (443 m)']","['9 500 Kč za nemovitost, + provize RK']",,...,"['Shalamar Foods', ' (165 m)']","['Praha hlavní nádraží', ' (984 m)']",['Osobní'],,,,,,"['Gymnázium Karla Sladkovského Praha 3', ' (56...","['ZŠ a MŠ Jaroslava Seiferta Praha 3', ' (243 ..."
2,0,"Tupolevova, Praha 9 - Letňany Panorama",['Dnes'],,"['Bankomat České spořitelny', ' (236 m)']",,"[""'boolean-true'""]","['Šumperská', ' (177 m)']",['13 900 Kč za měsíc'],,...,"['Penny Market', ' (183 m)']","['Praha-Čakovice', ' (1695 m)']",['Osobní'],,,"[""'boolean-true'""]",,,"['Základní škola Fryčovická', ' (160 m)']","['MŠ Havířovská', ' (255 m)']"
3,0,"Podbělohorská, Praha 5 - Smíchov Panorama",['Dnes'],,"['Bankomat Komerční banky', ' (381 m)']",,"[""'boolean-false'""]","['Pod Lipkami', ' (30 m)']","['15 000 Kč za nemovitost, + provize RK']",,...,"['Smíšené zboží Plzeňská\t187', ' (404 m)']","['Praha-Cibulka', ' (1229 m)']",['Osobní'],['Dálkový vodovod'],,,,,"['ZUŠ Na Popelce', ' (224 m)']","['TROIS PETITES POMMES, s.r.o.', ' (343 m)']"


In [54]:
data = data.drop(["Unnamed: 0"], axis= 1)  #this drops the unnamed column as it has no value
data.info() #inspecting all the variables, their type and number of observations

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7878 entries, 0 to 7877
Data columns (total 79 columns):
Adresa                                     7878 non-null object
Aktualizace:                               7878 non-null object
Balkón:                                    1960 non-null object
Bankomat:                                  7455 non-null object
Bazén:                                     21 non-null object
Bezbariérový:                              1744 non-null object
Bus MHD:                                   7756 non-null object
Celková cena:                              7646 non-null object
Cena:                                      47 non-null object
Cukrárna:                                  7455 non-null object
Datum nastěhování:                         1751 non-null object
Datum prohlídky do:                        5 non-null object
Datum prohlídky:                           46 non-null object
Datum zahájení prodeje:                    8 non-null object
Divadlo: 

In [55]:
#We rename columns so that we can better work with them 
#Specifically, adding underscored characters in multi-word names, deleting colons, 
#rewriting some long names in shorter form (among those that are very likely to be used in the analysis)

data.columns = ['Adresa', 'Aktualizace', 'Balkón', 'Bankomat', 'Bazén',
       'Bezbariérový', 'Bus_MHD', 'Price_total', 'Price', 'Cukrárna',
       'Datum_nastěhování', 'Datum_prohlídky_do', 'Datum_prohlídky',
       'Datum_zahájení_prodeje', 'Divadlo', 'Doprava', 'Elektřina',
       'Energy_demands', 'Garáž', 'Hospoda', 'Hřiště',
       'ID_zakázky:', 'ID', 'Kino', 'Komunikace', 'Kulturní_památka',
       'Lodžie', 'Lékař', 'Lékárna', 'Metro', 'Náklady_na_bydlení',
       'Obchod', 'Odpad', 'Parkování', 'Plocha_podlahová',
       'Plocha_pozemku', 'Plocha_zahrady', 'Plocha_zastavěná', 'Plyn',
       'Podlaží', 'Poloha domu', 'Poznámka_k_ceně', 'Počet bytů', 'Pošta',
       'Provize', 'Energy_demands_II', 'Převod_do_OV',
       'Přírodní zajímavost', 'Půdní_vestavba', 'Původní_cena',
       'Restaurace', 'Rok_kolaudace', 'Rok_rekonstrukce', 'Sklep',
       'Sportoviště', 'Stav_objektu', 'Stav', 'Stavba', 'Telekomunikace',
       'Terasa', 'Title', 'Topení', 'Tram', 'Typ_bytu', 'Typ_domu',
       'Energy_demands_III', 'Umístění_objektu',
       'Area', 'Veterinář', 'Večerka', 'Vlak', 'Vlastnictví',
       'Voda', 'Vybavení', 'Výtah', 'Výška_stropu', 'Zlevněno', 'Škola',
       'Školka']

In total, we have 7878 observations and 79 columns. Neverheless, as we can see above, many of the columns contain only a relatively limited information (in terms of number of their observations), specifically 49 variables have more than 10% of missing values. Hence, the strenght of their evidence is limited and we need to be aware of this limitation. Variables with extreme portion of missing values (> 90%) deserve special attention and we should rather not include them in the analysis at all because they don't tell us much.

In [56]:
n_observations = data.shape[0]
empty = data.isnull().sum()
empty[empty > n_observations*0.9].sort_values(ascending = False).count()
#number of variables that miss more than 90% of observations

25

In [57]:
empty[empty > n_observations*0.9].sort_values(ascending = False) #list of those variables

Typ_domu                  7877
Plocha_pozemku            7877
Poloha domu               7877
Datum_prohlídky_do        7873
Datum_zahájení_prodeje    7870
Počet bytů                7870
Bazén                     7857
Převod_do_OV              7854
Půdní_vestavba            7838
Datum_prohlídky           7832
Price                     7831
Stav                      7818
Plocha_zahrady            7808
Výška_stropu              7801
Energy_demands_II         7719
Provize                   7705
Původní_cena              7693
Zlevněno                  7693
Plocha_zastavěná          7663
Rok_kolaudace             7643
Energy_demands_III        7579
Typ_bytu                  7547
Rok_rekonstrukce          7319
Lodžie                    7309
Náklady_na_bydlení        7224
dtype: int64

The most suitable variables are these 31 that miss less than 90% of observations. Regarding the aim of our project, it is pleasant that variable 'Metro' can be found here. In our analysis, we will consider 6 more variables, i.e. all variables that contain more than 66% of observations.

In [58]:
empty[empty < n_observations*0.1].sort_values(ascending = False)

Kulturní_památka    757
Kino                463
Divadlo             459
Obchod              456
Restaurace          423
Bankomat            423
Cukrárna            423
Hospoda             423
Lékař               423
Lékárna             423
Škola               423
Pošta               423
Školka              423
Veterinář           423
Večerka             423
Metro               254
Price_total         232
Tram                205
Vlak                128
Bus_MHD             122
Sportoviště         117
Hřiště              117
Vlastnictví           1
Podlaží               0
Area                  0
Title                 0
Stavba                0
Stav_objektu          0
Aktualizace           0
Adresa                0
dtype: int64

In [59]:
empty[np.all([(empty > n_observations*0.1),(empty < n_observations*0.33)], axis = 0)].sort_values(ascending = False)

Plocha_podlahová    2575
Výtah               2249
Poznámka_k_ceně     2114
Vybavení            1901
Energy_demands      1896
ID_zakázky:          953
dtype: int64

## II. Dataset adjustments
At this point, two things need to be done. Adjusting the dataset only for variables that have some evidence power, and adjusting the column 'Price' as its string values are currently very messy which makes it impossible to work with this crucial variable in our analysis.

### a) Keeping worthy variables only
As discussed above, we consider only variables with more than 66% of observations. Let's adjust the dataset accordingly...

In [60]:
variable = empty[empty < n_observations*0.33]
variable.index

Index(['Adresa', 'Aktualizace', 'Bankomat', 'Bus_MHD', 'Price_total',
       'Cukrárna', 'Divadlo', 'Energy_demands', 'Hospoda', 'Hřiště',
       'ID_zakázky:', 'Kino', 'Kulturní_památka', 'Lékař', 'Lékárna', 'Metro',
       'Obchod', 'Plocha_podlahová', 'Podlaží', 'Poznámka_k_ceně', 'Pošta',
       'Restaurace', 'Sportoviště', 'Stav_objektu', 'Stavba', 'Title', 'Tram',
       'Area', 'Veterinář', 'Večerka', 'Vlak', 'Vlastnictví', 'Vybavení',
       'Výtah', 'Škola', 'Školka'],
      dtype='object')

In [61]:
data = data[variable.index]

In [62]:
data[variable.index].head()

Unnamed: 0,Adresa,Aktualizace,Bankomat,Bus_MHD,Price_total,Cukrárna,Divadlo,Energy_demands,Hospoda,Hřiště,...,Tram,Area,Veterinář,Večerka,Vlak,Vlastnictví,Vybavení,Výtah,Škola,Školka
0,"Dobrovolného, Praha 9 - Černý Most Panorama",['Dnes'],"['Bankomat České spořitelny', ' (542 m)']","['Generála Janouška', ' (132 m)']",['12 000 Kč za měsíc'],"['Shisha Room Dvin', ' (1144 m)']","['Přírodní divadlo Dády Stoklasy', ' (3152 m)']",['Třída G - Mimořádně nehospodárná'],"['Šenk Na Rajské', ' (476 m)']","['Dětské hřiště Rajský vrch', ' (162 m)']",...,"['Lehovec', ' (1136 m)']",['26m2'],"['MetropoleVet Praha s.r.o.', ' (623 m)']","['Albert Supermarket', ' (451 m)']","['Praha-Kyje', ' (1445 m)']",['Osobní'],,,"['ZUŠ Praha 9, Ratibořická', ' (234 m)']","['MŠ Sluníčko Praha 9 - Černý Most', ' (279 m)']"
1,"Bořivojova, Praha 3 - Žižkov Panorama",['Dnes'],"['Bankomat České spořitelny', ' (122 m)']","['Tachovské náměstí', ' (443 m)']","['9 500 Kč za nemovitost, + provize RK']","['Klub JINÝ KAFE', ' (283 m)']","['Žižkovské divadlo Járy Cimrmana', ' (280 m)']",['Třída G - Mimořádně nehospodárná'],"['Hospůdka U Habásků', ' (209 m)']","['Dětské hřiště Bořivojova', ' (294 m)']",...,"['Lipanská', ' (186 m)']",['23m2'],"['MVDr. Jan Dubský', ' (425 m)']","['Shalamar Foods', ' (165 m)']","['Praha hlavní nádraží', ' (984 m)']",['Osobní'],,,"['Gymnázium Karla Sladkovského Praha 3', ' (56...","['ZŠ a MŠ Jaroslava Seiferta Praha 3', ' (243 ..."
2,"Tupolevova, Praha 9 - Letňany Panorama",['Dnes'],"['Bankomat České spořitelny', ' (236 m)']","['Šumperská', ' (177 m)']",['13 900 Kč za měsíc'],"['Café Infinity', ' (204 m)']","['Divadlo Pohádka', ' (1057 m)']",,"['Pivnice na Královce', ' (1824 m)']","['Venkovní posilovna u obchodního centra', ' (...",...,"['Sídliště Ďáblice', ' (1906 m)']",['52m2'],"['Veterinární ordinace Letňany', ' (302 m)']","['Penny Market', ' (183 m)']","['Praha-Čakovice', ' (1695 m)']",['Osobní'],,"[""'boolean-true'""]","['Základní škola Fryčovická', ' (160 m)']","['MŠ Havířovská', ' (255 m)']"
3,"Podbělohorská, Praha 5 - Smíchov Panorama",['Dnes'],"['Bankomat Komerční banky', ' (381 m)']","['Pod Lipkami', ' (30 m)']","['15 000 Kč za nemovitost, + provize RK']","['Cukrárna Pod Marjánkou', ' (1333 m)']","['JUDr. Jiří Šilhán', ' (279 m)']",['Třída B - Velmi úsporná'],"['Restaurace Na zámyšli', ' (423 m)']","['Dětské hřiště Na Vršku', ' (116 m)']",...,"['Kavalírka', ' (370 m)']",['58m2'],"['Veterinární klinika - MVDr. Pavel Santar, MV...","['Smíšené zboží Plzeňská\t187', ' (404 m)']","['Praha-Cibulka', ' (1229 m)']",['Osobní'],,,"['ZUŠ Na Popelce', ' (224 m)']","['TROIS PETITES POMMES, s.r.o.', ' (343 m)']"
4,"Mezi domy, Praha 4 - Písnice Panorama",['Dnes'],"['Bankomat Komerční banky', ' (780 m)']","['U Libušské sokolovny', ' (275 m)']",['19 500 Kč za měsíc'],"['Cukrářství Viktoria, s.r.o.', ' (900 m)']","['Tradiční loutkové divadlo Zvoneček', ' (3145...",['Třída D - Méně úsporná č. 78/2013 Sb. podle ...,"['Hospůdka U Báti', ' (509 m)']","['Dětské hřiště Pyramida Na Okruhu', ' (78 m)']",...,"['Levského', ' (1815 m)']",['93m2'],"['Vetnemo, s.r.o.', ' (634 m)']","['VIVACOMEX, spol. s r.o.', ' (450 m)']","['Praha-Krč', ' (3635 m)']",['Osobní'],,"[""'boolean-true'""]",['Střední odborné učiliště potravinářské Praha...,"['Mateřská škola Mezi Domy', ' (105 m)']"


In [63]:
data[variable.index].head().to_csv('dataview.csv', sep = ';')

# Data cleaning and processing

## Cleaning the square brackets in the whole dataset

In [64]:
data = data.applymap(lambda x: x.strip("['']") if type(x) == str else x) #deletes all the square brackets if type string

### b) Dealing with messy prices (alternative 1 - Sila advice)

Before we can do the analysis, we need to deal with the complicated form of stated prices and obtain purely the monthly rent in CZK, without other specification (in other words, we need to extract integer out of the string values).

In order to be able to suitably merge the resulting list of prices to the original dataset, it is neccessary to get rid of rows with empty prices values beforehand. Furthermore, during the analysis, we explored two error values in the dataset (tiny but with serious consequences): observation data.Price_total[984] has value of "12 CZK" which is nonsense and observation data.Price_total[6727] has value "23 214 CZK (850 EUR)" which cases troubles in the analysis and we need to get rid of both of these errors beforehand.

In [65]:
def get_price(x):
    if ~(type(x) == float and np.isnan(x)): #this check if a valus is not an NA
        kc = x.split('Kč') #splits the string by Kc
        kc_nogap = kc[0].replace(' ','') #gets the string left of Kc and deletes spaces
        kc_int = int(kc_nogap) #converts to int
        return kc_int 
    else:
        return x #if NA stay NA

In [66]:
data['Cena'] = data['Price_total'].apply(get_price) #apply the above defined function to column Price_total

In [67]:
data['Cena']

0       12000.0
1        9500.0
2       13900.0
3       15000.0
4       19500.0
         ...   
7873    35000.0
7874    33000.0
7875    55000.0
7876    75000.0
7877    35000.0
Name: Cena, Length: 7878, dtype: float64

### b) Dealing with messy prices (alternative 3 - split method)

In [68]:
prices_strings = [str(x) for x in data.Price_total]

In [69]:
prices_alt = []

for x in prices_strings:
    prices_alt.append(x.split("Kč")[0].replace(" ","").replace("'","").replace("[",""))

print(prices_alt)

['12000', '9500', '13900', '15000', '19500', '17000', '12500', '8500', '13000', '34900', '13000', '15200', '29000', '13490', '14500', '14500', '19500', '13000', '18000', '17000', '17500', '15500', '7500', '12500', '27000', '20000', '15000', 'nan', 'nan', '15500', '20000', '14800', '110000', '39000', '19000', '14700', '18000', '16000', '18900', '11990', '25000', '13500', '14500', '21000', '17000', '35000', '30000', '60497', '43000', '35000', '99500', '49500', '49000', '33000', '24000', '13000', '12000', '15288', '9500', '10600', '14500', '9000', '18800', '11500', '15000', '9950', '16000', '14450', '8450', '8000', '12000', '16500', '14500', 'nan', '12250', '13900', '17500', 'nan', '9450', '9500', '12000', '9400', '9000', '11500', '25000', '14000', '15500', '15000', '14800', '12200', '19000', '14000', '7500', '14500', '14000', '16000', '25500', '13500', '15000', '13250', '14000', '14000', '12500', '15500', '21000', '17500', '22000', '17000', '13500', '20000', '10500', '14000', '13000', '8

In [70]:
prices_alt_float = [float(i) for i in prices_alt]
len(prices_alt_float)

7878

In [71]:
prices_alt_float[3993]

126992.0

Number of NaNs:

In [72]:
YZX = np.array(prices_alt_float)
NaNs_alt = np.argwhere(np.isnan(YZX))
len(NaNs_alt)

232

### Separate distance and name  in variable containing 'list'

In [73]:
import re
def extractor(inp): 
    ''' This function deletes all non numeric chachters from a string
    '''
    try: 
        result = int(re.sub("[^0-9]", "",inp))
    except:
        result = None
    return result

In [74]:
def brush(x, posi):
    ''' 
    This function solves one problem with a structure of our data, we stored it as a list but pandas converted it to string.
    We therefore grab the values by "," in a list structure [" "," "]. We know our lists have two values at most
    '''
    if ~(type(x) == float and np.isnan(x)):
        try:
            first = x.strip('[]') # this line is probably redundand since we cleaned the dataset above 
            return first.split("', '")[posi] 
        except IndexError: #in column Restaurant some values have a different structure
            first = x.strip('[]') # this line is probably redundand since we cleaned the dataset above 
            return first.split(",")[posi] 
    else:
        return None  #once NA always NA

In [75]:
def clean(var_name): #from our intitial list we create two new columns 
    data[f'{var_name}_name'] = data[var_name].apply(brush, args = (0,))
    data[f'{var_name}_dist'] = data[var_name].apply(brush, args = (1,))
    data[f'{var_name}_dist'] = data[f'{var_name}_dist'].apply(extractor) #we keep only digits converted to int in the _dist column
    

In [76]:
var_to_clean = ['Bankomat','Bus_MHD', 'Cukrárna','Divadlo','Hospoda','Hřiště','Kino',
 'Kulturní_památka', 'Lékař', 'Lékárna', 'Metro','Obchod','Pošta','Restaurace', 'Sportoviště',
'Tram', 'Veterinář', 'Večerka', 'Vlak','Škola', 'Školka'] # list of column names to clean

In [77]:
for var in var_to_clean:
    clean(var)

### converting True & False to 1 & 0

In [81]:
def Booli(x): # converts special true and false strings to  1 & 0
    if ~(type(x) == float and np.isnan(x)):
        if x == '"\'boolean-false\'"':
            return 0
        elif x == '"\'boolean-true\'"':
            return 1
        else:
            return x
    else:
        return x

In [27]:
def convert_01(var_name): #rewrites values by a Booli function
    data[var_name] = data[var_name].apply(Booli)  

In [28]:
var_conv = ['Výtah','Vybavení']

In [29]:
for var in var_conv:
    convert_01(var)

### Analyzing certain vars

In [30]:
def group_exm(var_name): #this function returns values and they frequency of occurence
    return data.groupby(var_name)[var_name].count()  

In [31]:
group_exm('Aktualizace')

Aktualizace
01.02.2020       1
01.03.2020       1
01.04.2020      71
02.01.2020       2
02.02.2020       5
              ... 
30.03.2020      46
30.11.2019       1
31.03.2020     104
Dnes          1271
Včera          489
Name: Aktualizace, Length: 127, dtype: int64

In [32]:
group_exm('Stav_objektu')

Stav_objektu
Dobrý                 630
K demolici              1
Novostavba           1267
Po rekonstrukci      1679
Projekt                 2
Před rekonstrukcí      11
Ve výstavbě             1
Velmi dobrý          4287
Name: Stav_objektu, dtype: int64

In [33]:
group_exm('Stavba')

Stavba
Cihlová      6365
Dřevěná         6
Kamenná        10
Montovaná       8
Panelová      635
Skeletová     243
Smíšená       611
Name: Stavba, dtype: int64

In [34]:
group_exm('Vlastnictví')

Vlastnictví
Družstevní        208
Osobní           7633
Státní/obecní      36
Name: Vlastnictví, dtype: int64

In [35]:
group_exm('Vybavení')

Vybavení
0            987
1           3845
Částečně    1145
Name: Vybavení, dtype: int64

In [36]:
group_exm('Energy_demands') #this could yet tell us something

Energy_demands
Třída A - Mimořádně úsporná                                          42
Třída A - Mimořádně úsporná č. 148/2007 Sb. podle vyhlášky            1
Třída A - Mimořádně úsporná č. 78/2013 Sb. podle vyhlášky            11
Třída B - Velmi úsporná                                             298
Třída B - Velmi úsporná č. 148/2007 Sb. podle vyhlášky               34
Třída B - Velmi úsporná č. 78/2013 Sb. podle vyhlášky               284
Třída C - Úsporná                                                   477
Třída C - Úsporná č. 148/2007 Sb. podle vyhlášky                     49
Třída C - Úsporná č. 78/2013 Sb. podle vyhlášky                     341
Třída D - Méně úsporná                                              187
Třída D - Méně úsporná č. 148/2007 Sb. podle vyhlášky                21
Třída D - Méně úsporná č. 78/2013 Sb. podle vyhlášky                187
Třída E - Nehospodárná                                               51
Třída E - Nehospodárná č. 148/2007 Sb. podle vyhl

### Transformation of energy demands

In [37]:
def eng_class(x):
    
    if x in ['Třída A - Mimořádně úsporná','Třída A - Mimořádně úsporná č. 148/2007 Sb. podle vyhlášky','Třída A - Mimořádně úsporná č. 78/2013 Sb. podle vyhlášky']:
        clas = 'A'
    elif x in ['Třída B - Velmi úsporná', 'Třída B - Velmi úsporná č. 148/2007 Sb. podle vyhlášky', 'Třída B - Velmi úsporná č. 78/2013 Sb. podle vyhlášky']:
        clas = 'B'
    elif x in ['Třída C - Úsporná', 'Třída C - Úsporná č. 148/2007 Sb. podle vyhlášky', 'Třída C - Úsporná č. 78/2013 Sb. podle vyhlášky']:
        clas = 'C'
    elif x in ['Třída D - Méně úsporná', 'Třída D - Méně úsporná č. 148/2007 Sb. podle vyhlášky', 'Třída D - Méně úsporná č. 78/2013 Sb. podle vyhlášky']:
        clas = 'D'
    elif x in ['Třída E - Nehospodárná','Třída E - Nehospodárná č. 148/2007 Sb. podle vyhlášky', 'Třída E - Nehospodárná č. 78/2013 Sb. podle vyhlášky']:
        clas = 'E'
    elif x in ['Třída F - Velmi nehospodárná','Třída F - Velmi nehospodárná č. 78/2013 Sb. podle vyhlášky']:
        clas = 'F'
    elif x in ['Třída G - Mimořádně nehospodárná','Třída G - Mimořádně nehospodárná č. 148/2007 Sb. podle vyhlášky', 'Třída G - Mimořádně nehospodárná č. 78/2013 Sb. podle vyhlášky']:
        clas = 'G'
    else:
        clas = x
    
    return clas

In [38]:
data['Energy_class'] = data['Energy_demands'].apply(eng_class)

In [39]:
group_exm('Energy_class')

Energy_class
A      54
B     616
C     867
D     395
E     120
F      47
G    3883
Name: Energy_class, dtype: int64

### Transformation of Plocha_podlahova and Area

In [40]:
ar_var = ['Area', 'Plocha_podlahová']

In [41]:
def ext_m2(inp): #converting area based variable to int
    if ~(type(inp) == float and np.isnan(inp)):
        return int(inp.split('m2')[0])
    else:
        return inp

In [42]:
for var in ar_var:
    data[var] = data[var].apply(ext_m2)

In [43]:
sum(data['Plocha_podlahová'] == data['Area']) #those variables are the same in 50% of the cases

4593

In [44]:
#sloupce ID_zakáyzky, Aktualize asi nemaji velkou informacni hodnotu pro nase ucely. 

### Extracting value from a Title

In [45]:
def get_rooms(x): #This function extract the number of rooms(type) from the title
    words = x.split(' ')
    for word in words:
        if '+' in word:
            return(word)
        elif 'atypické' == word:
            return('atyp')
        elif 'pokoje' == word:
            return(1)
        elif 'více' == word:
            return('6+')

In [46]:
data['Rooms'] = data['Title'].apply(get_rooms)

In [47]:
group_exm('Rooms') #tohle rika, ze Prazaci maji vetsinou oddeleny zachod a koupelnu

Rooms
1         83
1+1      395
1+kk    1476
2+1      701
2+kk    2477
3+1      649
3+kk    1271
4+1      222
4+kk     394
5+1       65
5+kk      74
6+        37
atyp      33
Name: Rooms, dtype: int64

### Patro

In [68]:
def get_patro(x):
    if x[0] == 'p':
        return(0)
    elif x[0] == '-':
        return int(x[0:2])
    else:
        return int(x[0])
        

In [69]:
data['Podlaží_č'] = data['Podlaží'].apply(get_patro) #This extract the floor(always first) from Podlazi

In [72]:
group_exm('Podlaží_č')

Podlaží_č
-1      14
 0      88
 1    1105
 2    1690
 3    1588
 4    1312
 5    1049
 6     665
 7     240
 8      89
 9      38
Name: Podlaží_č, dtype: int64

### c) Dealing with messy adresses

In this case, regex method extracting numerical characters (=districts of Prague) from observations appears to be the best way. Using the split fce doesn't seem to work well in this case.

In [74]:
#my first attempts for the split method. does not work that nice, but i keep it here for case...
#adress_strings = [str(i) for i in data.Adresa]

In [75]:
#district = []

#for y in adress_strings:
#    district.append(y.split("-")[0][-8:].replace(" ","").replace("[",""))

#print(district)

In [76]:
district = data['Adresa'].apply(extractor)
print(district)

0        9.0
1        3.0
2        9.0
3        5.0
4        4.0
        ... 
7873     NaN
7874    10.0
7875    10.0
7876     7.0
7877     7.0
Name: Adresa, Length: 7878, dtype: float64


In [77]:
data['district'] = district

In [78]:
data['district'].sort_values(ascending = False)[1:31] 
#we can see that these values apparently doesn't give as what we want. 
#it is because of occurence of "28. října" in couple of adresses of Prague 1 and "28. pluku" in Prague 10,
#"5. máje" in Prague 5, "5.května" in Prague 4, "obětí 6.května" in Prague 4 and "8.listopadu" in Prague 6.
#For these adresses we need to get rid of the first 1 or 2 characters to obtain the districts' numbers.
#Furthermore also 'Praha 10 - Praha 15 Panorama' [index 5017] and 'Praha 4 - Praha 11 Panorama' [index 2750]
#bring some complications. For these two, we need to get rid of last 2 characters.

1098    2810.0
2489    2810.0
6459    2810.0
83      2810.0
1436    2810.0
2165    2810.0
1693    2810.0
3550    2810.0
6768    2810.0
2819    2810.0
2488    2810.0
5017    1015.0
2750     411.0
4575     281.0
7230     281.0
7783     281.0
4698     281.0
7023     281.0
6192     281.0
168       86.0
74        64.0
7607      55.0
6107      55.0
651       55.0
6216      54.0
236       54.0
3223      54.0
134       54.0
1800      54.0
3956      14.0
Name: district, dtype: float64

In [79]:
data['Adresa'][168]

'8. listopadu, Praha 6 - Břevnov'

In [80]:
fal_indx = data['district'].sort_values(ascending = False)[1:30].index

In [81]:
dist_name = ('Panorama', 'Praha1','Praha2','Praha3','Praha4','Praha5','Praha6','Praha7','Praha8','Praha9','Praha10','Praha11','Praha12','Praha13','Praha14','Praha15','Praha16','Praha17','Praha18','Praha19','Praha20','Praha21','Praha22')

In [82]:
a = [district.count(x) for x in dist_name]
print(a)

KeyError: 'Requested level (Panorama) does not match index name (None)'

In [87]:
data['Adresa'][0].split(' ')

['Dobrovolného,', 'Praha', '9', '-', 'Černý', 'Most', 'Panorama']

In [102]:
def get_Praga(x):
    lis = x.split(' ')
    index  = lis.index('Praha')
    return lis[index+1]

In [103]:
data['Adresa'].apply(get_Praga)

IndexError: list index out of range

In [114]:
for index, k in enumerate(data['Adresa']):
    try:
        lis = k.split(' ')
        indexy  = lis.index('Praha')
        if lis[indexy+1] == '-':
            print(f'{index}  {lis[indexy+2:]}')
        else:
            print(f'{index}  {lis[indexy+1]}')
    except IndexError:
        print(f'{index}  {lis[indexy]}')

0  9
1  3
2  9
3  5
4  4
5  4
6  1
7  9
8  4
9  2
10  5
11  2
12  5
13  2
14  ['Kobylisy']
15  ['Vysočany']
16  ['Nusle']
17  4
18  1
19  1
20  1
21  7
22  10
23  2
24  6
25  5
26  4
27  5
28  5
29  3
30  2
31  1
32  1
33  1
34  1
35  10
36  10
37  8
38  1
39  9
40  3
41  3
42  8
43  1
44  1
45  1
46  4
47  2
48  Praha
49  4
50  4
51  6
52  4
53  3
54  10
55  3
56  8
57  4
58  10
59  3
60  4
61  4
62  9
63  4
64  5
65  1
66  2
67  1
68  1
69  5
70  3
71  5
72  9
73  10
74  4
75  5
76  8
77  6
78  5
79  9
80  ['Radotín']
81  9
82  9
83  10
84  5
85  4
86  3
87  4
88  9
89  4
90  3
91  10
92  10
93  5
94  9
95  8
96  3
97  5
98  8
99  9
100  5
101  5
102  1
103  2
104  1
105  1
106  3
107  8
108  4
109  3
110  9
111  9
112  9
113  4
114  10
115  5
116  5
117  8
118  10
119  9
120  10
121  5
122  3
123  3
124  4
125  3
126  10
127  1
128  2
129  5
130  10
131  5
132  5
133  3
134  4
135  9
136  5
137  9
138  9
139  9
140  4
141  10
142  5
143  5
144  4
145  2
146  8
147  5
148  4
149  3
1

2290  4
2291  1
2292  4
2293  8
2294  3
2295  1
2296  3
2297  6
2298  10
2299  9
2300  6
2301  6
2302  10
2303  6
2304  5
2305  7
2306  10
2307  5
2308  5
2309  6
2310  3
2311  1
2312  1
2313  4
2314  2
2315  2
2316  6
2317  3
2318  5
2319  7
2320  4
2321  6
2322  10
2323  1
2324  10
2325  5
2326  3
2327  3
2328  1
2329  3
2330  10
2331  5
2332  6
2333  5
2334  9
2335  1
2336  2
2337  8
2338  4
2339  1
2340  9
2341  6
2342  6
2343  5
2344  ['Malá', 'Strana']
2345  5
2346  1
2347  1
2348  6
2349  8
2350  9
2351  10
2352  10
2353  5
2354  4
2355  6
2356  7
2357  5
2358  3
2359  10
2360  9
2361  2
2362  2
2363  8
2364  5
2365  1
2366  6
2367  2
2368  1
2369  5
2370  9
2371  4
2372  9
2373  10
2374  5
2375  1
2376  4
2377  4
2378  4
2379  4
2380  1
2381  10
2382  5
2383  5
2384  3
2385  5
2386  2
2387  2
2388  4
2389  3
2390  6
2391  8
2392  9
2393  7
2394  ['Žižkov']
2395  10
2396  7
2397  5
2398  5
2399  4
2400  9
2401  ['Strašnice']
2402  10
2403  1
2404  4
2405  ['Žižkov']
2406  7
2407

4430  6
4431  3
4432  8
4433  9
4434  10
4435  1
4436  3
4437  1
4438  1
4439  5
4440  10
4441  2
4442  2
4443  2
4444  1
4445  2
4446  5
4447  5
4448  8
4449  3
4450  5
4451  1
4452  1
4453  3
4454  9
4455  6
4456  10
4457  9
4458  6
4459  1
4460  1
4461  5
4462  5
4463  7
4464  8
4465  8
4466  1
4467  10
4468  10
4469  6
4470  4
4471  10
4472  3
4473  2
4474  2
4475  1
4476  2
4477  7
4478  10
4479  1
4480  10
4481  5
4482  7
4483  ['Letňany']
4484  2
4485  7
4486  2
4487  1
4488  10
4489  4
4490  8
4491  3
4492  6
4493  9
4494  4
4495  4
4496  Praha
4497  4
4498  10
4499  8
4500  2
4501  3
4502  2
4503  1
4504  1
4505  1
4506  5
4507  1
4508  4
4509  1
4510  1
4511  1
4512  4
4513  1
4514  1
4515  1
4516  1
4517  ['Vinohrady']
4518  1
4519  1
4520  8
4521  2
4522  2
4523  2
4524  2
4525  1
4526  10
4527  2
4528  2
4529  1
4530  8
4531  8
4532  2
4533  3
4534  1
4535  1
4536  1
4537  ['Staré', 'Město']
4538  ['Praha', '1']
4539  9
4540  5
4541  7
4542  7
4543  10
4544  ['Vinohrady']


6760  ['Holešovice']
6761  9
6762  4
6763  8
6764  10
6765  8
6766  1
6767  3
6768  10
6769  5
6770  ['Strašnice']
6771  2
6772  10
6773  10
6774  10
6775  5
6776  10
6777  9
6778  10
6779  10
6780  9
6781  7
6782  5
6783  9
6784  1
6785  9
6786  2
6787  5
6788  9
6789  8
6790  10
6791  1
6792  10
6793  7
6794  ['Hostivař']
6795  9
6796  9
6797  10
6798  4
6799  5
6800  1
6801  1
6802  2
6803  1
6804  1
6805  1
6806  7
6807  ['Malá', 'Strana']
6808  6
6809  2
6810  2
6811  1
6812  1
6813  1
6814  1
6815  3
6816  ['Nové', 'Město']
6817  ['Nové', 'Město']
6818  ['Nové', 'Město']
6819  ['Nové', 'Město']
6820  3
6821  2
6822  1
6823  ['Nové', 'Město']
6824  1
6825  1
6826  8
6827  1
6828  8
6829  9
6830  4
6831  ['Ďáblice']
6832  1
6833  1
6834  9
6835  5
6836  1
6837  2
6838  2
6839  5
6840  5
6841  2
6842  ['Záběhlice']
6843  5
6844  3
6845  1
6846  9
6847  9
6848  3
6849  2
6850  7
6851  3
6852  4
6853  3
6854  5
6855  ['Praha', '9']
6856  5
6857  7
6858  8
6859  ['Ruzyně']
6860  7
6861

In [117]:
data['Adresa'][2750]

'Květnového vítězství, Praha 4 - Praha 11 Panorama'

In [98]:
a = ['Dobrovolného,', '9', '-', 'Černý', 'Most', 'Praha']

In [99]:
a.index('Praha')

5

In [83]:
55+1300+997+731+718+1131+491+313+524+488

6748

### Let us reconsider which var are valuable

In [84]:
pd.set_option('display.max_columns', None)
data.head(4)

Unnamed: 0,Adresa,Aktualizace,Bankomat,Bus_MHD,Price_total,Cukrárna,Divadlo,Energy_demands,Hospoda,Hřiště,ID_zakázky:,Kino,Kulturní_památka,Lékař,Lékárna,Metro,Obchod,Plocha_podlahová,Podlaží,Poznámka_k_ceně,Pošta,Restaurace,Sportoviště,Stav_objektu,Stavba,Title,Tram,Area,Veterinář,Večerka,Vlak,Vlastnictví,Vybavení,Výtah,Škola,Školka,Cena,Bankomat_name,Bankomat_dist,Bus_MHD_name,Bus_MHD_dist,Cukrárna_name,Cukrárna_dist,Divadlo_name,Divadlo_dist,Hospoda_name,Hospoda_dist,Hřiště_name,Hřiště_dist,Kino_name,Kino_dist,Kulturní_památka_name,Kulturní_památka_dist,Lékař_name,Lékař_dist,Lékárna_name,Lékárna_dist,Metro_name,Metro_dist,Obchod_name,Obchod_dist,Pošta_name,Pošta_dist,Restaurace_name,Restaurace_dist,Sportoviště_name,Sportoviště_dist,Tram_name,Tram_dist,Veterinář_name,Veterinář_dist,Večerka_name,Večerka_dist,Vlak_name,Vlak_dist,Škola_name,Škola_dist,Školka_name,Školka_dist,Energy_class,Rooms,Podlaží_č,district
0,"Dobrovolného, Praha 9 - Černý Most Panorama",Dnes,"Bankomat České spořitelny', ' (542 m)","Generála Janouška', ' (132 m)",12 000 Kč za měsíc,"Shisha Room Dvin', ' (1144 m)","Přírodní divadlo Dády Stoklasy', ' (3152 m)",Třída G - Mimořádně nehospodárná,"Šenk Na Rajské', ' (476 m)","Dětské hřiště Rajský vrch', ' (162 m)",N05462,"CineStar Černý Most', ' (1815 m)","Hajnova vila', ' (3984 m)","MUDr. Zdeněk Valentík', ' (363 m)","Lékárna U Rajské zahrady', ' (500 m)","Rajská zahrada', ' (525 m)","Kaufland', ' (1486 m)",26.0,1. podlaží z celkem 5,"+ 2.500,-Kč poplatky, elektřina, provize RK","Pošta Praha 98 - Česká pošta, s.p.', ' (442 m)","Jiří Stopfer', ' (443 m)","Veřejné hřiště na míčové hry Pospíchalova', ' ...",Novostavba,Skeletová,Pronájem bytu 1+kk 26 m²,"Lehovec', ' (1136 m)",26,"MetropoleVet Praha s.r.o.', ' (623 m)","Albert Supermarket', ' (451 m)","Praha-Kyje', ' (1445 m)",Osobní,,,"ZUŠ Praha 9, Ratibořická', ' (234 m)","MŠ Sluníčko Praha 9 - Černý Most', ' (279 m)",12000.0,Bankomat České spořitelny,542.0,Generála Janouška,132.0,Shisha Room Dvin,1144.0,Přírodní divadlo Dády Stoklasy,3152.0,Šenk Na Rajské,476.0,Dětské hřiště Rajský vrch,162.0,CineStar Černý Most,1815.0,Hajnova vila,3984.0,MUDr. Zdeněk Valentík,363.0,Lékárna U Rajské zahrady,500.0,Rajská zahrada,525.0,Kaufland,1486.0,"Pošta Praha 98 - Česká pošta, s.p.",442.0,Jiří Stopfer,443.0,Veřejné hřiště na míčové hry Pospíchalova,295.0,Lehovec,1136.0,MetropoleVet Praha s.r.o.,623.0,Albert Supermarket,451.0,Praha-Kyje,1445.0,"ZUŠ Praha 9, Ratibořická",234.0,MŠ Sluníčko Praha 9 - Černý Most,279.0,G,1+kk,1,9.0
1,"Bořivojova, Praha 3 - Žižkov Panorama",Dnes,"Bankomat České spořitelny', ' (122 m)","Tachovské náměstí', ' (443 m)","9 500 Kč za nemovitost, + provize RK","Klub JINÝ KAFE', ' (283 m)","Žižkovské divadlo Járy Cimrmana', ' (280 m)",Třída G - Mimořádně nehospodárná,"Hospůdka U Habásků', ' (209 m)","Dětské hřiště Bořivojova', ' (294 m)",57/4562,"Filmový klub VŠE', ' (691 m)","Dům U černé Matky Boží', ' (1846 m)","MUDr. Milan Hudi', ' (502 m)","Lékárna U Matky Boží', ' (147 m)","Jiřího z Poděbrad', ' (652 m)","PAVILON, a.s.', ' (941 m)",23.0,5. podlaží z celkem 4,"plus poplatky, 500","Pošta Praha 35 - Česká pošta, s.p.', ' (176 m)","Restaurace Lavička', ' (119 m)","Sportovní centrum Olšanka', ' (469 m)",Dobrý,Cihlová,Pronájem bytu 1+kk 23 m²,"Lipanská', ' (186 m)",23,"MVDr. Jan Dubský', ' (425 m)","Shalamar Foods', ' (165 m)","Praha hlavní nádraží', ' (984 m)",Osobní,,,"Gymnázium Karla Sladkovského Praha 3', ' (56 m)","ZŠ a MŠ Jaroslava Seiferta Praha 3', ' (243 m)",9500.0,Bankomat České spořitelny,122.0,Tachovské náměstí,443.0,Klub JINÝ KAFE,283.0,Žižkovské divadlo Járy Cimrmana,280.0,Hospůdka U Habásků,209.0,Dětské hřiště Bořivojova,294.0,Filmový klub VŠE,691.0,Dům U černé Matky Boží,1846.0,MUDr. Milan Hudi,502.0,Lékárna U Matky Boží,147.0,Jiřího z Poděbrad,652.0,"PAVILON, a.s.",941.0,"Pošta Praha 35 - Česká pošta, s.p.",176.0,Restaurace Lavička,119.0,Sportovní centrum Olšanka,469.0,Lipanská,186.0,MVDr. Jan Dubský,425.0,Shalamar Foods,165.0,Praha hlavní nádraží,984.0,Gymnázium Karla Sladkovského Praha 3,56.0,ZŠ a MŠ Jaroslava Seiferta Praha 3,243.0,G,1+kk,5,3.0
2,"Tupolevova, Praha 9 - Letňany Panorama",Dnes,"Bankomat České spořitelny', ' (236 m)","Šumperská', ' (177 m)",13 900 Kč za měsíc,"Café Infinity', ' (204 m)","Divadlo Pohádka', ' (1057 m)",,"Pivnice na Královce', ' (1824 m)","Venkovní posilovna u obchodního centra', ' (19...",,"Cinema City Letňany', ' (223 m)","Hajnova vila', ' (2248 m)","MUDr. Petr Zieg', ' (317 m)","APOMED, s.r.o.', ' (302 m)","Letňany', ' (1382 m)","Tesco', ' (366 m)",,4. podlaží,,"Pošta Praha 99 - Česká pošta, s.p.', ' (680 m)","Pub Infinity', ' (207 m)","Surf Arena', ' (350 m)",Velmi dobrý,Panelová,Pronájem bytu 2+1 52 m²,"Sídliště Ďáblice', ' (1906 m)",52,"Veterinární ordinace Letňany', ' (302 m)","Penny Market', ' (183 m)","Praha-Čakovice', ' (1695 m)",Osobní,,1.0,"Základní škola Fryčovická', ' (160 m)","MŠ Havířovská', ' (255 m)",13900.0,Bankomat České spořitelny,236.0,Šumperská,177.0,Café Infinity,204.0,Divadlo Pohádka,1057.0,Pivnice na Královce,1824.0,Venkovní posilovna u obchodního centra,194.0,Cinema City Letňany,223.0,Hajnova vila,2248.0,MUDr. Petr Zieg,317.0,"APOMED, s.r.o.",302.0,Letňany,1382.0,Tesco,366.0,"Pošta Praha 99 - Česká pošta, s.p.",680.0,Pub Infinity,207.0,Surf Arena,350.0,Sídliště Ďáblice,1906.0,Veterinární ordinace Letňany,302.0,Penny Market,183.0,Praha-Čakovice,1695.0,Základní škola Fryčovická,160.0,MŠ Havířovská,255.0,,2+1,4,9.0
3,"Podbělohorská, Praha 5 - Smíchov Panorama",Dnes,"Bankomat Komerční banky', ' (381 m)","Pod Lipkami', ' (30 m)","15 000 Kč za nemovitost, + provize RK","Cukrárna Pod Marjánkou', ' (1333 m)","JUDr. Jiří Šilhán', ' (279 m)",Třída B - Velmi úsporná,"Restaurace Na zámyšli', ' (423 m)","Dětské hřiště Na Vršku', ' (116 m)",44/4562,"CineStar Anděl', ' (2038 m)","Šaldova vila', ' (757 m)","MUDr. Drahomíra Miškovská', ' (309 m)","Lékárna Melissa', ' (447 m)","Radlická', ' (2026 m)","Obchodní centrum Nový Smíchov', ' (2075 m)",58.0,2. podlaží z celkem 3,", 3500","Pošta Praha 56 - Česká pošta, s.p.', ' (379 m)","ŘÍZKÁRNA ROZVOZ JÍDEL', ' (345 m)","TJ Banka Praha z.s.', ' (345 m)",Novostavba,Cihlová,Pronájem bytu 2+kk 58 m²,"Kavalírka', ' (370 m)",58,"Veterinární klinika - MVDr. Pavel Santar, MVDr...","Smíšené zboží Plzeňská\t187', ' (404 m)","Praha-Cibulka', ' (1229 m)",Osobní,,,"ZUŠ Na Popelce', ' (224 m)","TROIS PETITES POMMES, s.r.o.', ' (343 m)",15000.0,Bankomat Komerční banky,381.0,Pod Lipkami,30.0,Cukrárna Pod Marjánkou,1333.0,JUDr. Jiří Šilhán,279.0,Restaurace Na zámyšli,423.0,Dětské hřiště Na Vršku,116.0,CineStar Anděl,2038.0,Šaldova vila,757.0,MUDr. Drahomíra Miškovská,309.0,Lékárna Melissa,447.0,Radlická,2026.0,Obchodní centrum Nový Smíchov,2075.0,"Pošta Praha 56 - Česká pošta, s.p.",379.0,ŘÍZKÁRNA ROZVOZ JÍDEL,345.0,TJ Banka Praha z.s.,345.0,Kavalírka,370.0,"Veterinární klinika - MVDr. Pavel Santar, MVDr...",1141.0,Smíšené zboží Plzeňská\t187,404.0,Praha-Cibulka,1229.0,ZUŠ Na Popelce,224.0,"TROIS PETITES POMMES, s.r.o.",343.0,B,2+kk,2,5.0


In [89]:
worth = ['Adresa', 'Aktualizace', 'Cena','Price_total','ID_zakázky:', 'Plocha_podlahová', 'Podlaží', 'Podlaží_č', 
'Poznámka_k_ceně', 'Stav_objektu', 'Stavba', 'Title','Rooms', 
'Area', 'Vlastnictví', 'Vybavení', 'Výtah','Bankomat_name', 'Bankomat_dist',
'Bus_MHD_name', 'Bus_MHD_dist', 'Cukrárna_name', 'Cukrárna_dist',
'Divadlo_name', 'Divadlo_dist', 'Hospoda_name', 'Hospoda_dist',
'Hřiště_name', 'Hřiště_dist', 'Kino_name', 'Kino_dist',
'Kulturní_památka_name', 'Kulturní_památka_dist', 'Lékař_name',
'Lékař_dist', 'Lékárna_name', 'Lékárna_dist', 'Metro_name',
'Metro_dist', 'Obchod_name', 'Obchod_dist', 'Pošta_name', 'Pošta_dist',
'Restaurace_name', 'Restaurace_dist', 'Sportoviště_name',
'Sportoviště_dist', 'Tram_name', 'Tram_dist', 'Veterinář_name',
'Veterinář_dist', 'Večerka_name', 'Večerka_dist', 'Vlak_name',
'Vlak_dist', 'Škola_name', 'Škola_dist', 'Školka_name', 'Školka_dist',
'Energy_class']

In [90]:
data1 = data[worth].copy()

In [91]:
pd.set_option('display.max_columns', None)
data1.head(4)

Unnamed: 0,Adresa,Aktualizace,Cena,Price_total,ID_zakázky:,Plocha_podlahová,Podlaží,Podlaží_č,Poznámka_k_ceně,Stav_objektu,Stavba,Title,Rooms,Area,Vlastnictví,Vybavení,Výtah,Bankomat_name,Bankomat_dist,Bus_MHD_name,Bus_MHD_dist,Cukrárna_name,Cukrárna_dist,Divadlo_name,Divadlo_dist,Hospoda_name,Hospoda_dist,Hřiště_name,Hřiště_dist,Kino_name,Kino_dist,Kulturní_památka_name,Kulturní_památka_dist,Lékař_name,Lékař_dist,Lékárna_name,Lékárna_dist,Metro_name,Metro_dist,Obchod_name,Obchod_dist,Pošta_name,Pošta_dist,Restaurace_name,Restaurace_dist,Sportoviště_name,Sportoviště_dist,Tram_name,Tram_dist,Veterinář_name,Veterinář_dist,Večerka_name,Večerka_dist,Vlak_name,Vlak_dist,Škola_name,Škola_dist,Školka_name,Školka_dist,Energy_class
0,"Dobrovolného, Praha 9 - Černý Most Panorama",Dnes,12000.0,12 000 Kč za měsíc,N05462,26.0,1. podlaží z celkem 5,1,"+ 2.500,-Kč poplatky, elektřina, provize RK",Novostavba,Skeletová,Pronájem bytu 1+kk 26 m²,1+kk,26,Osobní,,,Bankomat České spořitelny,542.0,Generála Janouška,132.0,Shisha Room Dvin,1144.0,Přírodní divadlo Dády Stoklasy,3152.0,Šenk Na Rajské,476.0,Dětské hřiště Rajský vrch,162.0,CineStar Černý Most,1815.0,Hajnova vila,3984.0,MUDr. Zdeněk Valentík,363.0,Lékárna U Rajské zahrady,500.0,Rajská zahrada,525.0,Kaufland,1486.0,"Pošta Praha 98 - Česká pošta, s.p.",442.0,Jiří Stopfer,443.0,Veřejné hřiště na míčové hry Pospíchalova,295.0,Lehovec,1136.0,MetropoleVet Praha s.r.o.,623.0,Albert Supermarket,451.0,Praha-Kyje,1445.0,"ZUŠ Praha 9, Ratibořická",234.0,MŠ Sluníčko Praha 9 - Černý Most,279.0,G
1,"Bořivojova, Praha 3 - Žižkov Panorama",Dnes,9500.0,"9 500 Kč za nemovitost, + provize RK",57/4562,23.0,5. podlaží z celkem 4,5,"plus poplatky, 500",Dobrý,Cihlová,Pronájem bytu 1+kk 23 m²,1+kk,23,Osobní,,,Bankomat České spořitelny,122.0,Tachovské náměstí,443.0,Klub JINÝ KAFE,283.0,Žižkovské divadlo Járy Cimrmana,280.0,Hospůdka U Habásků,209.0,Dětské hřiště Bořivojova,294.0,Filmový klub VŠE,691.0,Dům U černé Matky Boží,1846.0,MUDr. Milan Hudi,502.0,Lékárna U Matky Boží,147.0,Jiřího z Poděbrad,652.0,"PAVILON, a.s.",941.0,"Pošta Praha 35 - Česká pošta, s.p.",176.0,Restaurace Lavička,119.0,Sportovní centrum Olšanka,469.0,Lipanská,186.0,MVDr. Jan Dubský,425.0,Shalamar Foods,165.0,Praha hlavní nádraží,984.0,Gymnázium Karla Sladkovského Praha 3,56.0,ZŠ a MŠ Jaroslava Seiferta Praha 3,243.0,G
2,"Tupolevova, Praha 9 - Letňany Panorama",Dnes,13900.0,13 900 Kč za měsíc,,,4. podlaží,4,,Velmi dobrý,Panelová,Pronájem bytu 2+1 52 m²,2+1,52,Osobní,,1.0,Bankomat České spořitelny,236.0,Šumperská,177.0,Café Infinity,204.0,Divadlo Pohádka,1057.0,Pivnice na Královce,1824.0,Venkovní posilovna u obchodního centra,194.0,Cinema City Letňany,223.0,Hajnova vila,2248.0,MUDr. Petr Zieg,317.0,"APOMED, s.r.o.",302.0,Letňany,1382.0,Tesco,366.0,"Pošta Praha 99 - Česká pošta, s.p.",680.0,Pub Infinity,207.0,Surf Arena,350.0,Sídliště Ďáblice,1906.0,Veterinární ordinace Letňany,302.0,Penny Market,183.0,Praha-Čakovice,1695.0,Základní škola Fryčovická,160.0,MŠ Havířovská,255.0,
3,"Podbělohorská, Praha 5 - Smíchov Panorama",Dnes,15000.0,"15 000 Kč za nemovitost, + provize RK",44/4562,58.0,2. podlaží z celkem 3,2,", 3500",Novostavba,Cihlová,Pronájem bytu 2+kk 58 m²,2+kk,58,Osobní,,,Bankomat Komerční banky,381.0,Pod Lipkami,30.0,Cukrárna Pod Marjánkou,1333.0,JUDr. Jiří Šilhán,279.0,Restaurace Na zámyšli,423.0,Dětské hřiště Na Vršku,116.0,CineStar Anděl,2038.0,Šaldova vila,757.0,MUDr. Drahomíra Miškovská,309.0,Lékárna Melissa,447.0,Radlická,2026.0,Obchodní centrum Nový Smíchov,2075.0,"Pošta Praha 56 - Česká pošta, s.p.",379.0,ŘÍZKÁRNA ROZVOZ JÍDEL,345.0,TJ Banka Praha z.s.,345.0,Kavalírka,370.0,"Veterinární klinika - MVDr. Pavel Santar, MVDr...",1141.0,Smíšené zboží Plzeňská\t187,404.0,Praha-Cibulka,1229.0,ZUŠ Na Popelce,224.0,"TROIS PETITES POMMES, s.r.o.",343.0,B


In [92]:
%store data1 #storing data1 to use in other jupyter notebooks

Stored 'data1' (DataFrame)
