# Preprocessing of rental data, apartment sales data & postal code keys data

In [1]:
cities = ['Helsinki', 'Espoo-Kauniainen', 'Tampere', 'Vantaa', 'Oulu', 'Turku', 'Jyväskylä', \
        'Kuopio', 'Lahti', 'Pori', 'Kouvola', 'Joensuu', 'Lappeenranta', 'Hämeenlinna', \
        'Vaasa', 'Seinäjoki', 'Rovaniemi', 'Mikkeli', 'Porvoo', 'Kotka']

## Rental apartment data

### Rentals 2011-2014

##### Read .csv-file

In [2]:
import pandas as pd

csv_file = 'raw_data/002_vuokrat_2011-2018.csv'

rentals_2011_2018_df = pd.read_csv(csv_file, delimiter=';', encoding='latin1')

rentals_2011_2018_df.head()

Unnamed: 0,Vuosi,Alue,Rahoitusmuoto,Luokka,"Neliövuokra, euroa/m2/kk",Lukumäärä
0,2011,Koko maa,Vapaarahoitteinen,1h,14.46,50921
1,2011,Koko maa,Vapaarahoitteinen,2h,11.02,49291
2,2011,Koko maa,Vapaarahoitteinen,3h+,9.64,21830
3,2011,Pääkaupunkiseutu (PKS),Vapaarahoitteinen,1h,18.18,11510
4,2011,Pääkaupunkiseutu (PKS),Vapaarahoitteinen,2h,13.93,8610


##### Rename columns

In [3]:
rentals_2011_2018_df.rename(
    columns={
        'Vuosi': 'Year', 
        'Alue': 'City',
        'Luokka': 'Rooms',
        'Neliövuokra, euroa/m2/kk': 'Rent per m2',
        'Lukumäärä': 'Rental apartment count',
    },
    inplace=True
)

##### Remove column, filter area & year

In [4]:
rentals_2011_2018_df = rentals_2011_2018_df.drop('Rahoitusmuoto', axis=1)
rentals_2011_2018_df = rentals_2011_2018_df[rentals_2011_2018_df['City'].isin(cities)]
rentals_2011_2014_df = rentals_2011_2018_df[rentals_2011_2018_df['Year'] < 2015].copy()

rentals_2011_2014_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 240 entries, 75 to 1091
Data columns (total 5 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Year                    240 non-null    int64  
 1   City                    240 non-null    object 
 2   Rooms                   240 non-null    object 
 3   Rent per m2             240 non-null    float64
 4   Rental apartment count  240 non-null    int64  
dtypes: float64(1), int64(2), object(2)
memory usage: 11.2+ KB


##### Categorize number of rooms

In [5]:
category_codes = {'1h': 1, '2h': 2, '3h+': 3}
rentals_2011_2014_df['Rooms'] = pd.Categorical(rentals_2011_2014_df['Rooms'], categories=category_codes.keys(), ordered=True)
rentals_2011_2014_df['Rooms'] = rentals_2011_2014_df['Rooms'].cat.rename_categories(category_codes)

rentals_2011_2014_df.head()

Unnamed: 0,Year,City,Rooms,Rent per m2,Rental apartment count
75,2011,Helsinki,1,18.83,9050
76,2011,Helsinki,2,14.2,5949
77,2011,Helsinki,3,12.22,2181
90,2011,Espoo-Kauniainen,1,15.72,1217
91,2011,Espoo-Kauniainen,2,13.88,1318


### Rentals 2015-2022

##### Read .csv-file

In [6]:
import pandas as pd

csv_file = 'raw_data/11x5_vuokrat_2015-2022.csv'

rentals_2015_2022_df = pd.read_csv(csv_file, delimiter=';', encoding='latin1')

rentals_2015_2022_df.head()

Unnamed: 0,Vuosi,Alue,Huoneluku,Rahoitusmuoto,Lukumäärä,Neliövuokra (eur/m2)
0,2015,Koko maa,Yksiöt,Vapaarahoitteinen,172192,16.38
1,2015,Koko maa,Kaksiot,Vapaarahoitteinen,175484,11.76
2,2015,Koko maa,Kolmiot+,Vapaarahoitteinen,66615,11.27
3,2015,Pääkaupunkiseutu (PKS),Yksiöt,Vapaarahoitteinen,47530,22.07
4,2015,Pääkaupunkiseutu (PKS),Kaksiot,Vapaarahoitteinen,49504,15.58


##### Rename columns

In [7]:
rentals_2015_2022_df.rename(
    columns={
        'Vuosi': 'Year', 
        'Alue': 'City',
        'Huoneluku': 'Rooms',
        'Lukumäärä': 'Rental apartment count',
        'Neliövuokra (eur/m2)': 'Rent per m2',
    },
    inplace=True
)

##### Remove column & filter area

In [8]:
rentals_2015_2022_df = rentals_2015_2022_df.drop('Rahoitusmuoto', axis=1)
rentals_2015_2022_df = rentals_2015_2022_df[rentals_2015_2022_df['City'].isin(cities)]

rentals_2015_2022_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 480 entries, 12 to 2015
Data columns (total 5 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Year                    480 non-null    int64  
 1   City                    480 non-null    object 
 2   Rooms                   480 non-null    object 
 3   Rental apartment count  480 non-null    int64  
 4   Rent per m2             480 non-null    float64
dtypes: float64(1), int64(2), object(2)
memory usage: 22.5+ KB


##### Categorize number of rooms

In [9]:
category_codes = {'Yksiöt': 1, 'Kaksiot': 2, 'Kolmiot+': 3}
rentals_2015_2022_df['Rooms'] = pd.Categorical(rentals_2015_2022_df['Rooms'], categories=category_codes.keys(), ordered=True)
rentals_2015_2022_df['Rooms'] = rentals_2015_2022_df['Rooms'].cat.rename_categories(category_codes)

##### Reorder columns

In [10]:
rentals_2015_2022_df = rentals_2015_2022_df[['Year', 'City', 'Rooms', 'Rent per m2', 'Rental apartment count']]

rentals_2015_2022_df.head()

Unnamed: 0,Year,City,Rooms,Rent per m2,Rental apartment count
12,2015,Helsinki,1,22.97,34702
13,2015,Helsinki,2,15.97,27355
14,2015,Helsinki,3,14.78,11993
27,2015,Espoo-Kauniainen,1,19.74,6202
28,2015,Espoo-Kauniainen,2,14.89,9814


### Merge rentals 2011-2022

In [11]:
rentals_2011_2022_df = pd.concat([rentals_2011_2014_df, rentals_2015_2022_df], axis=0)
rentals_2011_2022_df.reset_index(drop=True, inplace=True)

rentals_2011_2022_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 720 entries, 0 to 719
Data columns (total 5 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   Year                    720 non-null    int64   
 1   City                    720 non-null    object  
 2   Rooms                   720 non-null    category
 3   Rent per m2             720 non-null    float64 
 4   Rental apartment count  720 non-null    int64   
dtypes: category(1), float64(1), int64(2), object(1)
memory usage: 23.5+ KB


##### Write to .csv

In [12]:
file_path = 'preprocessed_data/preprocessed_rentals_2011-2022.csv'
rentals_2011_2022_df.to_csv(file_path, index=False)

## Apartment sales data

In [13]:
csv_file = 'raw_data/13mw_osakeasunnot_2011-2022.csv'

sold_apartments_2011_2022_df = pd.read_csv(csv_file, delimiter=';', encoding='latin1')

sold_apartments_2011_2022_df.head()

Unnamed: 0,Vuosi,Alue,Talotyyppi,Neliöhinta (EUR/m2),"Kauppojen lukumäärä, varainsiirtoverotiedot vuoteen 2019 asti","Kauppojen lukumäärä, varainsiirtoverotiedot vuodesta 2020 alkaen"
0,2011,Koko maa,Kerrostalo yksiöt,2760,11680,.
1,2011,Koko maa,Kerrostalo kaksiot,2242,24538,.
2,2011,Koko maa,Kerrostalo kolmiot+,2365,16491,.
3,2011,Pääkaupunkiseutu (PKS),Kerrostalo yksiöt,4438,3922,.
4,2011,Pääkaupunkiseutu (PKS),Kerrostalo kaksiot,3728,7165,.


##### Rename columns

In [14]:
sold_apartments_2011_2022_df.rename(
    columns={
        'Vuosi': 'Year',
        'Alue': 'City',
        'Talotyyppi': 'Rooms', 
        'Neliöhinta (EUR/m2)': 'Sales price per m2',
    }, 
    inplace=True
)

##### Filter area

In [15]:
sold_apartments_2011_2022_df = sold_apartments_2011_2022_df[sold_apartments_2011_2022_df['City'].isin(cities)]

sold_apartments_2011_2022_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 720 entries, 18 to 3131
Data columns (total 6 columns):
 #   Column                                                            Non-Null Count  Dtype 
---  ------                                                            --------------  ----- 
 0   Year                                                              720 non-null    int64 
 1   City                                                              720 non-null    object
 2   Rooms                                                             720 non-null    object
 3   Sales price per m2                                                720 non-null    object
 4   Kauppojen lukumäärä, varainsiirtoverotiedot vuoteen 2019 asti     720 non-null    object
 5   Kauppojen lukumäärä, varainsiirtoverotiedot vuodesta 2020 alkaen  720 non-null    object
dtypes: int64(1), object(5)
memory usage: 39.4+ KB


##### Add sold apartments count

In [16]:
sold_apartments_2011_2022_df['Kauppojen lukumäärä, varainsiirtoverotiedot vuoteen 2019 asti'] = sold_apartments_2011_2022_df['Kauppojen lukumäärä, varainsiirtoverotiedot vuoteen 2019 asti'].replace('.', '')
sold_apartments_2011_2022_df['Kauppojen lukumäärä, varainsiirtoverotiedot vuodesta 2020 alkaen'] = sold_apartments_2011_2022_df['Kauppojen lukumäärä, varainsiirtoverotiedot vuodesta 2020 alkaen'].replace('.', '')

sold_apartments_2011_2022_df['Sold apartments count'] = sold_apartments_2011_2022_df['Kauppojen lukumäärä, varainsiirtoverotiedot vuoteen 2019 asti'] + sold_apartments_2011_2022_df['Kauppojen lukumäärä, varainsiirtoverotiedot vuodesta 2020 alkaen']

sold_apartments_2011_2022_df = sold_apartments_2011_2022_df.drop(['Kauppojen lukumäärä, varainsiirtoverotiedot vuoteen 2019 asti', 'Kauppojen lukumäärä, varainsiirtoverotiedot vuodesta 2020 alkaen'], axis=1)

sold_apartments_2011_2022_df.head()

Unnamed: 0,Year,City,Rooms,Sales price per m2,Sold apartments count
18,2011,Helsinki,Kerrostalo yksiöt,4645,3154
19,2011,Helsinki,Kerrostalo kaksiot,3966,4973
20,2011,Helsinki,Kerrostalo kolmiot+,3987,3476
33,2011,Espoo-Kauniainen,Kerrostalo yksiöt,3525,370
34,2011,Espoo-Kauniainen,Kerrostalo kaksiot,3209,1085


##### Categorize number of rooms

In [17]:
category_codes = {'Kerrostalo yksiöt': 1, 'Kerrostalo kaksiot': 2, 'Kerrostalo kolmiot+': 3}
sold_apartments_2011_2022_df['Rooms'] = pd.Categorical(sold_apartments_2011_2022_df['Rooms'], categories=category_codes.keys(), ordered=True)
sold_apartments_2011_2022_df['Rooms'] = sold_apartments_2011_2022_df['Rooms'].cat.rename_categories(category_codes)

sold_apartments_2011_2022_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 720 entries, 18 to 3131
Data columns (total 5 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   Year                   720 non-null    int64   
 1   City                   720 non-null    object  
 2   Rooms                  720 non-null    category
 3   Sales price per m2     720 non-null    object  
 4   Sold apartments count  720 non-null    object  
dtypes: category(1), int64(1), object(3)
memory usage: 29.0+ KB


##### Change types

In [18]:
sold_apartments_2011_2022_df = sold_apartments_2011_2022_df.astype({'Sales price per m2': int, 'Sold apartments count': int})

sold_apartments_2011_2022_df.head()

Unnamed: 0,Year,City,Rooms,Sales price per m2,Sold apartments count
18,2011,Helsinki,1,4645,3154
19,2011,Helsinki,2,3966,4973
20,2011,Helsinki,3,3987,3476
33,2011,Espoo-Kauniainen,1,3525,370
34,2011,Espoo-Kauniainen,2,3209,1085


In [19]:
sold_apartments_2011_2022_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 720 entries, 18 to 3131
Data columns (total 5 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   Year                   720 non-null    int64   
 1   City                   720 non-null    object  
 2   Rooms                  720 non-null    category
 3   Sales price per m2     720 non-null    int64   
 4   Sold apartments count  720 non-null    int64   
dtypes: category(1), int64(3), object(1)
memory usage: 29.0+ KB


##### Write to .csv

In [20]:
file_path = 'preprocessed_data/preprocessed_sold_apartments_2011-2022.csv'
sold_apartments_2011_2022_df.to_csv(file_path, index=False)

## Postal code keys data

##### Read .xlsx-file

In [21]:
postal_raw_df = pd.read_excel('raw_data/postinumerot.xlsx', skiprows=2)

postal_raw_df.head()

Unnamed: 0,Postinumeroalue,Postinumeroalueen nimi,Postinumeroalueen nimi (sv),Kunta,Kunnan nimi,Kuntaryhmä,Kuntaryhmän nimi,Seutukunta,Seutukunnan nimi,Maakunta,...,Suuralue,Suuralueen nimi,AVI,AVI:n nimi,ELY,ELY:n nimi,Hyvinvointialue,Hyvinvointialueen nimi,Vaalipiiri,Vaalipiirin nimi
0,100,Helsinki keskusta - Etu-Töölö,Helsingfors centrum - Främre Tölö,91,Helsinki,1,Kaupunkimaiset kunnat,11,Helsingin seutukunta,1,...,1,Helsinki-Uusimaa,1,Etelä-Suomen AVI,1,Uudenmaan ELY-keskus,90,Helsingin kaupunki,1,Helsingin vaalipiiri
1,120,Punavuori - Bulevardi,Rödbergen - Bulevarden,91,Helsinki,1,Kaupunkimaiset kunnat,11,Helsingin seutukunta,1,...,1,Helsinki-Uusimaa,1,Etelä-Suomen AVI,1,Uudenmaan ELY-keskus,90,Helsingin kaupunki,1,Helsingin vaalipiiri
2,130,Kaartinkaupunki,Gardesstaden,91,Helsinki,1,Kaupunkimaiset kunnat,11,Helsingin seutukunta,1,...,1,Helsinki-Uusimaa,1,Etelä-Suomen AVI,1,Uudenmaan ELY-keskus,90,Helsingin kaupunki,1,Helsingin vaalipiiri
3,140,Kaivopuisto - Ullanlinna,Brunnsparken - Ulrikasborg,91,Helsinki,1,Kaupunkimaiset kunnat,11,Helsingin seutukunta,1,...,1,Helsinki-Uusimaa,1,Etelä-Suomen AVI,1,Uudenmaan ELY-keskus,90,Helsingin kaupunki,1,Helsingin vaalipiiri
4,150,Punavuori - Eira - Hernesaari,Rödbergen - Eira - Ärtholmen,91,Helsinki,1,Kaupunkimaiset kunnat,11,Helsingin seutukunta,1,...,1,Helsinki-Uusimaa,1,Etelä-Suomen AVI,1,Uudenmaan ELY-keskus,90,Helsingin kaupunki,1,Helsingin vaalipiiri


In [22]:
postal_raw_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3026 entries, 0 to 3025
Data columns (total 21 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   Postinumeroalue              3026 non-null   int64 
 1   Postinumeroalueen nimi       3026 non-null   object
 2   Postinumeroalueen nimi (sv)  3026 non-null   object
 3   Kunta                        3026 non-null   int64 
 4   Kunnan nimi                  3026 non-null   object
 5   Kuntaryhmä                   3026 non-null   int64 
 6   Kuntaryhmän nimi             3026 non-null   object
 7   Seutukunta                   3026 non-null   int64 
 8   Seutukunnan nimi             3026 non-null   object
 9   Maakunta                     3026 non-null   int64 
 10  Maakunnan nimi               3026 non-null   object
 11  Suuralue                     3026 non-null   int64 
 12  Suuralueen nimi              3026 non-null   object
 13  AVI                          3026

##### Select & rename columns

In [23]:
postal_df = postal_raw_df[[
    'Postinumeroalue', 
    'Postinumeroalueen nimi', 
    'Kunta', 
    'Kunnan nimi', 
    'Kuntaryhmä',
    'Kuntaryhmän nimi',
    'Maakunta',
    'Maakunnan nimi',
    'Suuralue',
    'Suuralueen nimi'
]].copy()

postal_df.rename(
    columns={
        'Postinumeroalue': 'Postal code',
        'Postinumeroalueen nimi': 'Postal code name', 
        'Kunta': 'Municipality', 
        'Kunnan nimi': 'Municipality name', 
        'Kuntaryhmä': 'Municipality group',
        'Kuntaryhmän nimi': 'Municipality group name',
        'Maakunta': 'Region',
        'Maakunnan nimi': 'Region name',
        'Suuralue': 'Area',
        'Suuralueen nimi': 'Area name'
    },
    inplace=True
)

postal_df.head()

Unnamed: 0,Postal code,Postal code name,Municipality,Municipality name,Municipality group,Municipality group name,Region,Region name,Area,Area name
0,100,Helsinki keskusta - Etu-Töölö,91,Helsinki,1,Kaupunkimaiset kunnat,1,Uusimaa,1,Helsinki-Uusimaa
1,120,Punavuori - Bulevardi,91,Helsinki,1,Kaupunkimaiset kunnat,1,Uusimaa,1,Helsinki-Uusimaa
2,130,Kaartinkaupunki,91,Helsinki,1,Kaupunkimaiset kunnat,1,Uusimaa,1,Helsinki-Uusimaa
3,140,Kaivopuisto - Ullanlinna,91,Helsinki,1,Kaupunkimaiset kunnat,1,Uusimaa,1,Helsinki-Uusimaa
4,150,Punavuori - Eira - Hernesaari,91,Helsinki,1,Kaupunkimaiset kunnat,1,Uusimaa,1,Helsinki-Uusimaa


##### Write to .csv

In [24]:
file_path = 'preprocessed_data/preprocessed_postal_codes.csv'
postal_df.to_csv(file_path, index=False)

# Merge apartment data 2011-2022

In [25]:
merged_apartment_df = pd.merge(rentals_2011_2022_df, sold_apartments_2011_2022_df, on=['Year', 'City', 'Rooms'], how='outer')
merged_apartment_df = merged_apartment_df.reset_index(drop=True)

merged_apartment_df.head()

Unnamed: 0,Year,City,Rooms,Rent per m2,Rental apartment count,Sales price per m2,Sold apartments count
0,2011,Helsinki,1,18.83,9050,4645,3154
1,2011,Helsinki,2,14.2,5949,3966,4973
2,2011,Helsinki,3,12.22,2181,3987,3476
3,2011,Espoo-Kauniainen,1,15.72,1217,3525,370
4,2011,Espoo-Kauniainen,2,13.88,1318,3209,1085


In [26]:
merged_apartment_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 720 entries, 0 to 719
Data columns (total 7 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   Year                    720 non-null    int64   
 1   City                    720 non-null    object  
 2   Rooms                   720 non-null    category
 3   Rent per m2             720 non-null    float64 
 4   Rental apartment count  720 non-null    int64   
 5   Sales price per m2      720 non-null    int64   
 6   Sold apartments count   720 non-null    int64   
dtypes: category(1), float64(1), int64(4), object(1)
memory usage: 34.7+ KB


##### Write to .csv

In [27]:
file_path = 'preprocessed_data/preprocessed_merged_apartments_2011-2022.csv'
merged_apartment_df.to_csv(file_path, index=False)

# Preprocessing of population & population forecast data

## Population data

##### Read .csv-file

In [28]:
csv_file = 'raw_data/11s1_keskiväkiluku.csv'

population_raw_df = pd.read_csv(csv_file, delimiter=';', encoding='latin1')

population_raw_df.head()

Unnamed: 0,Alue,Vuosi,Yhteensä Keskiväkiluku,0 - 14 Keskiväkiluku,15 - 24 Keskiväkiluku,25 - 44 Keskiväkiluku,45 - 64 Keskiväkiluku,65 - 74 Keskiväkiluku,75 - Keskiväkiluku
0,Akaa,1981,15768.5,3098.5,2392.0,4578.0,3522.0,1449.0,729.0
1,Akaa,1982,15752.0,3081.0,2335.5,4635.5,3497.5,1432.0,770.5
2,Akaa,1983,15727.5,3045.5,2309.0,4673.0,3482.5,1402.0,815.5
3,Akaa,1984,15731.0,3019.0,2283.0,4723.5,3480.0,1360.0,865.5
4,Akaa,1985,15696.0,2977.0,2255.0,4741.0,3478.0,1331.5,913.5


##### Rename columns

In [29]:
population_raw_df.rename(
    columns={
        'Alue': 'Municipality name', 
        'Vuosi': 'Year',
        'Yhteensä Keskiväkiluku': 'Total population',
        '0 - 14 Keskiväkiluku': '0 - 14',
        '15 - 24 Keskiväkiluku': '15 - 24',
        '25 - 44 Keskiväkiluku': '25 - 44',
        '45 - 64 Keskiväkiluku': '45 - 64',
        '65 - 74 Keskiväkiluku': '65 - 74',
        '75 - Keskiväkiluku': '75 -',
    },
    inplace=True
)

population_raw_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12978 entries, 0 to 12977
Data columns (total 9 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Municipality name  12978 non-null  object 
 1   Year               12978 non-null  int64  
 2   Total population   12978 non-null  float64
 3   0 - 14             12978 non-null  float64
 4   15 - 24            12978 non-null  float64
 5   25 - 44            12978 non-null  float64
 6   45 - 64            12978 non-null  float64
 7   65 - 74            12978 non-null  float64
 8   75 -               12978 non-null  float64
dtypes: float64(7), int64(1), object(1)
memory usage: 912.6+ KB


##### Write to .csv

In [30]:
file_path = 'preprocessed_data/preprocessed_population.csv'
population_raw_df.to_csv(file_path, index=False)

## Population forecast data

##### Read .csv-file

In [31]:
csv_file = 'raw_data/139f_väestöennuste.csv'

population_fc_raw_df = pd.read_csv(csv_file, delimiter=';', encoding='latin1')

population_fc_raw_df.head()

Unnamed: 0,Alue,Vuosi,Yhteensä Väestö 31.12. (ennuste 2021),0 - 14 Väestö 31.12. (ennuste 2021),15 - 24 Väestö 31.12. (ennuste 2021),25 - 44 Väestö 31.12. (ennuste 2021),45 - 64 Väestö 31.12. (ennuste 2021),65 - 74 Väestö 31.12. (ennuste 2021),75 - Väestö 31.12. (ennuste 2021)
0,Akaa,2021,16264,2628,1479,3621,4482,2368,1686
1,Akaa,2022,16142,2519,1489,3534,4468,2357,1775
2,Akaa,2023,16023,2438,1473,3448,4478,2283,1903
3,Akaa,2024,15906,2356,1451,3394,4461,2244,2000
4,Akaa,2025,15795,2267,1446,3314,4477,2215,2076


##### Rename columns

In [32]:
population_raw_df.rename(
    columns={
        'Alue': 'Municipality name', 
        'Vuosi': 'Year',
        'Yhteensä Väestö 31.12. (ennuste 2021)': 'Total population',
        '0 - 14 Väestö 31.12. (ennuste 2021)': '0 - 14',
        '15 - 24 Väestö 31.12. (ennuste 2021)': '15 - 24',
        '25 - 44 Väestö 31.12. (ennuste 2021)': '25 - 44',
        '45 - 64 Väestö 31.12. (ennuste 2021)': '45 - 64',
        '65 - 74 Väestö 31.12. (ennuste 2021)': '65 - 74',
        '75 - Väestö 31.12. (ennuste 2021)': '75 -',
    },
    inplace=True
)

population_raw_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12978 entries, 0 to 12977
Data columns (total 9 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Municipality name  12978 non-null  object 
 1   Year               12978 non-null  int64  
 2   Total population   12978 non-null  float64
 3   0 - 14             12978 non-null  float64
 4   15 - 24            12978 non-null  float64
 5   25 - 44            12978 non-null  float64
 6   45 - 64            12978 non-null  float64
 7   65 - 74            12978 non-null  float64
 8   75 -               12978 non-null  float64
dtypes: float64(7), int64(1), object(1)
memory usage: 912.6+ KB


##### Write to .csv

In [33]:
file_path = 'preprocessed_data/preprocessed_population_fc.csv'
population_raw_df.to_csv(file_path, index=False)

# Merging apartment & population data 2011-2022

In [34]:
merged_apartment_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 720 entries, 0 to 719
Data columns (total 7 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   Year                    720 non-null    int64   
 1   City                    720 non-null    object  
 2   Rooms                   720 non-null    category
 3   Rent per m2             720 non-null    float64 
 4   Rental apartment count  720 non-null    int64   
 5   Sales price per m2      720 non-null    int64   
 6   Sold apartments count   720 non-null    int64   
dtypes: category(1), float64(1), int64(4), object(1)
memory usage: 34.7+ KB


In [35]:
population_raw_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12978 entries, 0 to 12977
Data columns (total 9 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Municipality name  12978 non-null  object 
 1   Year               12978 non-null  int64  
 2   Total population   12978 non-null  float64
 3   0 - 14             12978 non-null  float64
 4   15 - 24            12978 non-null  float64
 5   25 - 44            12978 non-null  float64
 6   45 - 64            12978 non-null  float64
 7   65 - 74            12978 non-null  float64
 8   75 -               12978 non-null  float64
dtypes: float64(7), int64(1), object(1)
memory usage: 912.6+ KB


In [36]:
population_df = population_raw_df[['Municipality name', 'Year', 'Total population']].copy()

population_df.rename(
    columns={
        'Municipality name': 'City'
    },
    inplace=True
)

population_df['City'] = population_df['City'].replace(['Espoo', 'Kauniainen'], 'Espoo-Kauniainen')

population_grouped = population_df.groupby(['Year', 'City'], as_index=False)
population_grouped_df = population_grouped['Total population'].sum()
population_grouped_df = population_grouped_df.reset_index(drop=True)

population_grouped_df.head()


Unnamed: 0,Year,City,Total population
0,1981,Akaa,15768.5
1,1981,Alajärvi,11154.0
2,1981,Alavieska,2996.5
3,1981,Alavus,13610.0
4,1981,Asikkala,8285.5


In [37]:
merged_apartments_population_df = pd.merge(merged_apartment_df, population_grouped_df, on=['Year', 'City'], how='inner')

merged_apartments_population_df.head()

Unnamed: 0,Year,City,Rooms,Rent per m2,Rental apartment count,Sales price per m2,Sold apartments count,Total population
0,2011,Helsinki,1,18.83,9050,4645,3154,591966.5
1,2011,Helsinki,2,14.2,5949,3966,4973,591966.5
2,2011,Helsinki,3,12.22,2181,3987,3476,591966.5
3,2011,Espoo-Kauniainen,1,15.72,1217,3525,370,258952.5
4,2011,Espoo-Kauniainen,2,13.88,1318,3209,1085,258952.5


In [38]:
merged_apartments_population_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 720 entries, 0 to 719
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   Year                    720 non-null    int64   
 1   City                    720 non-null    object  
 2   Rooms                   720 non-null    category
 3   Rent per m2             720 non-null    float64 
 4   Rental apartment count  720 non-null    int64   
 5   Sales price per m2      720 non-null    int64   
 6   Sold apartments count   720 non-null    int64   
 7   Total population        720 non-null    float64 
dtypes: category(1), float64(2), int64(4), object(1)
memory usage: 45.8+ KB


##### Write to .csv

In [39]:
file_path = 'preprocessed_data/preprocessed_merged_apartments_population_2011-2022.csv'
merged_apartments_population_df.to_csv(file_path, index=False)