In [None]:
import pandas as pd 
import geopandas as gpd

# reading database
geo_data = gpd.GeoDataFrame(gpd.read_file("WijkBuurtkaart_2021_v2/wijkenbuurten_2021_v2.gpkg"))
#convert Rijksdriehoeksmeting (RD) GIS coordinates format to Lat/Long 
geo_data.set_crs(epsg='28992')
geo_data = geo_data.to_crs(epsg='4326') 

# get the only data we need 
geo_data = geo_data[geo_data['gemeentenaam'] == "Amsterdam"]
geo_data = geo_data[geo_data['buurtnaam'] != " "]


data = pd.DataFrame(geo_data.drop(columns='geometry', axis = 1))
#data = pd.read_csv('ams_buurten_2018.csv', sep = ";")
data = data[data["water"] == "NEE"]

geo_data = geo_data[['geometry', 'buurtcode']]

# write it down to the .csv file
geo_data.to_csv(r'geodata_amsterdam.csv', index = False)

print(geo_data.shape)
geo_data.head()

In [None]:
print(data.shape)
data.head()

In [None]:
new_data = pd.read_csv('wijken.csv', sep = ";")
print(new_data.shape)
new_data.head()

In [None]:
data_wijk = new_data[new_data['gemeentenaam'] == "Amsterdam"]
data_wijk = data_wijk[data_wijk['wijknaam'] != ' ']
data_wijk = data_wijk[['wijkcode', 'wijknaam']]
print(data_wijk.shape)
data_wijk.head()

In [None]:
#data = pd.merge(data, data_wijk, on="wijkcode")
def get_wijk(row):
    data_row = data_wijk[data_wijk['wijkcode'] == row['wijkcode']]
    value = "" if data_row.empty else data_row['wijknaam'].iloc[0]
    return value
    

data = data.copy()

data['wijknaam'] = data.apply(lambda row: get_wijk(row), axis=1)
print(data.shape)
data.head()

In [None]:
data['wijkcode'] = data['wijkcode'].astype(str).str.replace('WK0363', '')
data.head()

In [None]:
import re
data_wijk_stadsdeelcode = pd.read_csv('GEBIED_BUURTEN.csv', sep = ";")
data_wijk_stadsdeelcode = data_wijk_stadsdeelcode[['Wijkcode', 'Stadsdeelcode']]
data_wijk_stadsdeelcode = data_wijk_stadsdeelcode.rename(columns={'Wijkcode': 'wijkcode'})
data_wijk_stadsdeelcode = data_wijk_stadsdeelcode.drop_duplicates(subset=["wijkcode"], keep='first')

print(data_wijk_stadsdeelcode.shape)
data_wijk_stadsdeelcode.head()

In [None]:
data_stadsdelen = pd.read_csv('GEBIED_STADSDELEN.csv', sep = ";")
data_stadsdelen = data_stadsdelen[['Stadsdeelcode', 'Stadsdeelnaam']]
data_stadsdelen = data_stadsdelen.rename(columns={'Stadsdeelnaam': 'stadsdeel'})
#print(data_stadsdelen.shape)
data_stadsdelen.head()


In [None]:
print(data_stadsdelen.shape)
data_stadsdelen = pd.merge(data_stadsdelen, data_wijk_stadsdeelcode, on="Stadsdeelcode")
print(data_stadsdelen.shape)
data_stadsdelen.head()


In [None]:
data_stadsdelen['wijkcode'] = data_stadsdelen['wijkcode'].astype(str).str.replace('\D', 'WK0363', regex=True)
data_stadsdelen.to_excel('amsterdam_stadsdelen.xlsx', index = None, header=True)
data_stadsdelen['wijkcode'] = data_stadsdelen['wijkcode'].astype(str).str.replace('WK0363', '', regex=True)
print(data_stadsdelen.shape)
data_stadsdelen.head()

In [None]:
#data = pd.merge(data, data_wijk, on="wijkcode")
def get_stadsdeel(row):
    #print("wijkcode: " +  row['wijkcode'] + " stadsdeel: " + )
    data_row = data_stadsdelen[data_stadsdelen['wijkcode'] == row['wijkcode']]
    value = "" if data_row.empty else data_row['stadsdeel'].iloc[0]
    return value
    

data = data.copy()

data['stadsdeel'] = data.apply(lambda row: get_stadsdeel(row), axis=1)
print(data.shape)
data.head()

In [None]:
empty_data = data[data['stadsdeel'] == '']
empty_data.shape

In [None]:
data = data.copy()
data.replace(to_replace="X", value="0", inplace=True)
data.replace(to_replace="-", value="0", inplace=True)
data.replace(to_replace=-99999999, value=0, inplace=True)

for col_name in data.select_dtypes(include=[object]):
    data[col_name] = data[col_name].str.replace(',','.')
    
data.fillna(0, inplace=True)

In [None]:
cols=[i for i in data.columns if i not in ['geom','buurtcode', 'buurtnaam', 'wijkcode', 'gemeentecode', 'gemeentenaam', 
                                           'water', 'jaarstatcode', 'jrstatcode', 'wijknaam', 'stadsdeel']]
for col in cols:
    print(col)
    data[col]=pd.to_numeric(data[col])

print(data.dtypes.to_list())

In [None]:
def calculate_totaal_from_perc(persentage, aantal):
    return int(persentage * aantal / 100)

def calculate_totaal_from_av(avg, aantal):
    return int(avg * aantal)

data['eengezinswoning'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_eengezinswoning'],
                                                                            row['woningvoorraad']), axis=1)
data['meergezinswoning'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_meergezinswoning'],
                                                                                            row['woningvoorraad']), axis=1)
data['koopwoningen'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_koopwoningen'],
                                                                                            row['woningvoorraad']), axis=1)
data['huurwoningen'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_huurwoningen'],
                                                                                            row['woningvoorraad']), axis=1)
data['huurwoningen_in_bezit_woningcorporaties'] = data.apply(lambda row: calculate_totaal_from_perc(row['perc_huurwoningen_in_bezit_woningcorporaties'],
                                                                                            row['woningvoorraad']), axis=1)
data['huurwoningen_in_bezit_overige_verhuurders'] = data.apply(lambda row: calculate_totaal_from_perc(row['perc_huurwoningen_in_bezit_overige_verhuurders'],
                                                                                            row['woningvoorraad']), axis=1)
data['woningen_met_eigendom_onbekend'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_woningen_met_eigendom_onbekend'],
                                                                                            row['woningvoorraad']), axis=1)
data['bouwjaarklasse_tot_2000'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_bouwjaarklasse_tot_2000'],
                                                                                            row['woningvoorraad']), axis=1)
data['bouwjaarklasse_vanaf_2000'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_bouwjaarklasse_vanaf_2000'],
                                                                                            row['woningvoorraad']), axis=1)
data['woningwaarde'] = data.apply(lambda row: calculate_totaal_from_av(row['gemiddelde_woningwaarde'],
                                                                                            row['woningvoorraad']), axis=1)

In [None]:
#Filter only the columns which we'll need to neighbourhood map
data_buurten = data[['bevolkingsdichtheid_inwoners_per_km2',
                     'aantal_inwoners',
                     'mannen',
                     'vrouwen',
                     'percentage_personen_0_tot_15_jaar',
                     'percentage_personen_15_tot_25_jaar',
                     'percentage_personen_25_tot_45_jaar', 
                     'percentage_personen_45_tot_65_jaar',
                     'percentage_personen_65_jaar_en_ouder',
                     'percentage_ongehuwd',
                     'percentage_gehuwd',
                     'percentage_gescheid', 
                     'percentage_verweduwd', 
                     'geboortes_per_1000_inwoners', 
                     'aantal_huishoudens', 
                     'gemiddelde_huishoudsgrootte', 
                     'woningvoorraad', 
                     'gemiddelde_woningwaarde',
                     'personenautos_per_huishouden', 
                     'motortweewielers_totaal',
                     'bouwjaarklasse_tot_2000',
                     'stadsdeel',
                     'buurtcode',
                     'buurtnaam'
                    ]]

In [None]:
data_buurten.to_csv(r'amsterdam_buurten.csv', index = False)

For classification and prediction I want to get rid of the percentage fields and calculate this values in terms of "total amount of things"

In [None]:
data['personen_0_tot_15_jaar'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_personen_0_tot_15_jaar'],
                                                                            row['aantal_inwoners']), axis=1)
data['personen_15_tot_25_jaar'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_personen_15_tot_25_jaar'],
                                                                            row['aantal_inwoners']), axis=1)
data['personen_25_tot_45_jaar'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_personen_25_tot_45_jaar'],
                                                                            row['aantal_inwoners']), axis=1)
data['personen_45_tot_65_jaar'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_personen_45_tot_65_jaar'],
                                                                            row['aantal_inwoners']), axis=1)
data['personen_65_jaar_en_ouder'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_personen_65_jaar_en_ouder'],
                                                                            row['aantal_inwoners']), axis=1)
data['ongehuwd'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_ongehuwd'],
                                                                            row['aantal_inwoners']), axis=1)
data['gehuwd'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_gehuwd'],
                                                                            row['aantal_inwoners']), axis=1)
data['gescheid'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_gescheid'],
                                                                            row['aantal_inwoners']), axis=1)
data['verweduwd'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_verweduwd'],
                                                                            row['aantal_inwoners']), axis=1)
data['eenpersoonshuishoudens'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_eenpersoonshuishoudens'],
                                                                            row['aantal_huishoudens']), axis=1)
data['huishoudens_zonder_kinderen'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_huishoudens_zonder_kinderen'],
                                                                            row['aantal_huishoudens']), axis=1)
data['huishoudens_met_kinderen'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_huishoudens_met_kinderen'],
                                                                            row['aantal_huishoudens']), axis=1)
data['westerse_migratieachtergrond'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_westerse_migratieachtergrond'],
                                                                            row['aantal_inwoners']), axis=1)
data['niet_westerse_migratieachtergrond'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_niet_westerse_migratieachtergrond'],
                                                                            row['aantal_inwoners']), axis=1)
data['uit_marokko'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_uit_marokko'],
                                                                            row['aantal_inwoners']), axis=1)
data['uit_nederlandse_antillen_en_aruba'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_uit_nederlandse_antillen_en_aruba'],
                                                                            row['aantal_inwoners']), axis=1)
data['uit_suriname'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_uit_suriname'],
                                                                            row['aantal_inwoners']), axis=1)
data['uit_turkije'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_uit_turkije'],
                                                                            row['aantal_inwoners']), axis=1)
data['overige_nietwestersemigratieachtergrond'] = data.apply(lambda row: calculate_totaal_from_perc(row['percentage_overige_nietwestersemigratieachtergrond'],
                                                                            row['aantal_inwoners']), axis=1)

cols_persentage = [x for x in data.columns if "percentage_" in x]
data.drop(cols_persentage, axis=1, inplace = True)
cols_to_drop = [x for x in data.columns if "_binnen_" in x]
data.drop(cols_to_drop, axis=1, inplace = True)

print(data.columns)
data.head()



In [None]:
data.to_csv(r'wijkbuurtkaart_data.csv', index = False)

# Prepare data for charts by city district

In [None]:
# First let's calculate total distance to aminities for all residents of city district
data['huisartsenpraktijk_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['huisartsenpraktijk_gemiddelde_afstand_in_km'],
                                                                                                        row['aantal_inwoners']), axis=1)
data['apotheek_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['apotheek_gemiddelde_afstand_in_km'],
                                                                                                        row['aantal_inwoners']), axis=1)
data['grote_supermarkt_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['grote_supermarkt_gemiddelde_afstand_in_km'],
                                                                                                        row['aantal_inwoners']), axis=1)
data['winkels_ov_dagelijkse_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['winkels_ov_dagelijkse_levensm_gem_afst_in_km'],
                                                                                                        row['aantal_inwoners']), axis=1)
data['cafe_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['cafe_gemiddelde_afstand_in_km'],
                                                                                                        row['aantal_inwoners']), axis=1)
data['cafetaria_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['cafetaria_gemiddelde_afstand_in_km'],
                                                                                                        row['aantal_inwoners']), axis=1)
data['restaurant_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['restaurant_gemiddelde_afstand_in_km'],
                                                                                                        row['aantal_inwoners']), axis=1)
data['hotel_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['hotel_gemiddelde_afstand_in_km'],
                                                                                                        row['aantal_inwoners']), axis=1)
data['brandweerkazerne_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['brandweerkazerne_gemiddelde_afstand_in_km'],
                                                                                                        row['aantal_inwoners']), axis=1)
data['zwembad_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['zwembad_gemiddelde_afstand_in_km'],
                                                                                                        row['aantal_inwoners']), axis=1)
data['kunstijsbaan_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['kunstijsbaan_gemiddelde_afstand_in_km'],
                                                                                                        row['aantal_inwoners']), axis=1)
data['bibliotheek_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['bibliotheek_gemiddelde_afstand_in_km'],
                                                                                                        row['aantal_inwoners']), axis=1)
data['bioscoop_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['bioscoop_gemiddelde_afstand_in_km'],
                                                                                              row['aantal_inwoners']), axis=1)
data['sauna_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['sauna_gemiddelde_afstand_in_km'],
                                                                                           row['aantal_inwoners']), axis=1)
data['zonnebank_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['zonnebank_gemiddelde_afstand_in_km'],
                                                                                           row['aantal_inwoners']), axis=1)
data['attractiepark_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['attractiepark_gemiddelde_afstand_in_km'],
                                                                                           row['aantal_inwoners']), axis=1)
data['kinderdagverblijf_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['kinderdagverblijf_gemiddelde_afstand_in_km'],
                                                                                           row['aantal_inwoners']), axis=1)
data['bso_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['buitenschoolse_opvang_gem_afstand_in_km'],
                                                                                           row['aantal_inwoners']), axis=1)
data['basisonderwijs_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['basisonderwijs_gemiddelde_afstand_in_km'],
                                                                                           row['aantal_inwoners']), axis=1)
data['voortgezet_onderwijs_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['voortgezet_onderwijs_gem_afstand_in_km'],
                                                                                           row['aantal_inwoners']), axis=1)
data['vmbo_gemiddelde_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['vmbo_gemiddelde_afstand_in_km'],
                                                                                           row['aantal_inwoners']), axis=1)
data['havo_vwo_total_km'] = data.apply(lambda row: calculate_totaal_from_av(row['havo_vwo_gemiddelde_afstand_in_km'],
                                                                                           row['aantal_inwoners']), axis=1)

In [None]:
data_district = data.groupby('stadsdeel')[['aantal_bedrijven_nijverheid_energie',
                                           'aantal_bedrijven_handel_en_horeca',
                                           'aantal_bedrijven_vervoer_informatie_communicatie',
                                           'aantal_bedrijven_financieel_onroerend_goed',
                                           'aantal_bedrijven_zakelijke_dienstverlening',
                                           'aantal_bedrijven_overheid_onderwijs_en_zorg',
                                           'aantal_bedrijven_cultuur_recreatie_overige',
                                           'aantal_bedrijfsvestigingen',
                                           'woningvoorraad',
                                           'eengezinswoning',
                                           'meergezinswoning',
                                           'koopwoningen',
                                           'huurwoningen',
                                           'huurwoningen_in_bezit_woningcorporaties',
                                           'huurwoningen_in_bezit_overige_verhuurders',
                                           'woningen_met_eigendom_onbekend',
                                           'bouwjaarklasse_tot_2000',
                                           'bouwjaarklasse_vanaf_2000',
                                           'huisartsenpraktijk_total_km',
                                           'apotheek_total_km',
                                           'grote_supermarkt_total_km',
                                           'winkels_ov_dagelijkse_total_km',
                                           'cafe_total_km',
                                           'cafetaria_total_km',
                                           'restaurant_total_km',
                                           'hotel_total_km',
                                           'brandweerkazerne_total_km',
                                           'zwembad_total_km',
                                           'kunstijsbaan_total_km',
                                           'bibliotheek_total_km',
                                           'bioscoop_total_km',
                                           'sauna_total_km',
                                           'zonnebank_total_km',
                                           'attractiepark_total_km',
                                           'kinderdagverblijf_total_km',
                                           'bso_total_km',
                                           'basisonderwijs_total_km',
                                           'voortgezet_onderwijs_total_km',
                                           'vmbo_gemiddelde_total_km',
                                           'havo_vwo_total_km',
                                           'aantal_inwoners'
                                          ]].apply(sum).reset_index()


In [None]:
data_woz = data.groupby('stadsdeel')[['woningvoorraad',
                                      'woningwaarde'
                                     ]].apply(sum).reset_index()

def calculate_avg_woz(stadsdeel):
    woz_row = data_woz[data_woz['stadsdeel'] == stadsdeel]
    result = woz_row['woningwaarde']/woz_row['woningvoorraad']
    return result.iloc[0]
    
data_district['gemiddelde_woningwaarde'] = data_district.apply(lambda row: calculate_avg_woz(row['stadsdeel']), axis=1)
data_district

In [None]:
data_district['huisartsenpraktijk_avg_km'] = data_district.apply(lambda row: row['huisartsenpraktijk_total_km']/row['aantal_inwoners'], axis=1)
data_district['apotheek_avg_km'] = data_district.apply(lambda row: row['apotheek_total_km']/row['aantal_inwoners'], axis=1)
data_district['grote_supermarkt_avg_km'] = data_district.apply(lambda row: row['grote_supermarkt_total_km']/row['aantal_inwoners'], axis=1)
data_district['winkels_ov_dagelijkse_avg_km'] = data_district.apply(lambda row: row['winkels_ov_dagelijkse_total_km']/row['aantal_inwoners'], axis=1)
data_district['cafe_avg_km'] = data_district.apply(lambda row: row['cafe_total_km']/row['aantal_inwoners'], axis=1)
data_district['cafetaria_avg_km'] = data_district.apply(lambda row: row['cafetaria_total_km']/row['aantal_inwoners'], axis=1)
data_district['restaurant_avg_km'] = data_district.apply(lambda row: row['restaurant_total_km']/row['aantal_inwoners'], axis=1)
data_district['hotel_avg_km'] = data_district.apply(lambda row: row['hotel_total_km']/row['aantal_inwoners'], axis=1)
data_district['brandweerkazerne_avg_km'] = data_district.apply(lambda row: row['brandweerkazerne_total_km']/row['aantal_inwoners'], axis=1)
data_district['zwembad_avg_km'] = data_district.apply(lambda row: row['zwembad_total_km']/row['aantal_inwoners'], axis=1)
data_district['kunstijsbaan_avg_km'] = data_district.apply(lambda row: row['kunstijsbaan_total_km']/row['aantal_inwoners'], axis=1)
data_district['bibliotheek_avg_km'] = data_district.apply(lambda row: row['bibliotheek_total_km']/row['aantal_inwoners'], axis=1)
data_district['bioscoop_avg_km'] = data_district.apply(lambda row: row['bioscoop_total_km']/row['aantal_inwoners'], axis=1)
data_district['sauna_avg_km'] = data_district.apply(lambda row: row['sauna_total_km']/row['aantal_inwoners'], axis=1)
data_district['zonnebank_avg_km'] = data_district.apply(lambda row: row['zonnebank_total_km']/row['aantal_inwoners'], axis=1)
data_district['attractiepark_avg_km'] = data_district.apply(lambda row: row['attractiepark_total_km']/row['aantal_inwoners'], axis=1)
data_district['kinderdagverblijf_avg_km'] = data_district.apply(lambda row: row['kinderdagverblijf_total_km']/row['aantal_inwoners'], axis=1)
data_district['bso_avg_km'] = data_district.apply(lambda row: row['bso_total_km']/row['aantal_inwoners'], axis=1)
data_district['basisonderwijs_avg_km'] = data_district.apply(lambda row: row['basisonderwijs_total_km']/row['aantal_inwoners'], axis=1)
data_district['voortgezet_onderwijs_avg_km'] = data_district.apply(lambda row: row['voortgezet_onderwijs_total_km']/row['aantal_inwoners'], axis=1)
data_district['vmbo_gemiddelde_avg_km'] = data_district.apply(lambda row: row['vmbo_gemiddelde_total_km']/row['aantal_inwoners'], axis=1)
data_district['havo_vwo_avg_km'] = data_district.apply(lambda row: row['havo_vwo_total_km']/row['aantal_inwoners'], axis=1)

data_district.drop(['huisartsenpraktijk_total_km', 
                    'apotheek_total_km',
                    'grote_supermarkt_total_km',
                    'winkels_ov_dagelijkse_total_km',
                    'cafe_total_km',
                    'cafetaria_total_km',
                    'restaurant_total_km',
                    'hotel_total_km',
                    'brandweerkazerne_total_km',
                    'zwembad_total_km',
                    'kunstijsbaan_total_km',
                    'bibliotheek_total_km',
                    'bioscoop_total_km',
                    'sauna_total_km',
                    'zonnebank_total_km',
                    'attractiepark_total_km',
                    'kinderdagverblijf_total_km',
                    'bso_total_km',
                    'basisonderwijs_total_km',
                    'voortgezet_onderwijs_total_km',
                    'vmbo_gemiddelde_total_km',
                    'havo_vwo_total_km'], 
                   axis=1, inplace = True)


In [None]:
data_district.to_csv(r'amsterdam_district.csv', index = False)