.Rhistory

# histogram of No. or Reg Props
ggplot(data = df_foi,
mapping = aes(x = NumberOfProperties)) +
geom_histogram() +
ggtitle("Figure 2: Number of registered properties per postcode - Edinburgh") +
theme(plot.title = element_text(size = 14, face = "plain")) +
xlab("Number of Registered Properties in Postcode") +
ylab("Number of Postcodes")
# open postcode directory - gives some errors which we ignore for now
# NB that to fit onto GitHub, have had to cut down to EH pcodes only but left
#    code unchanged so assumes it is whole of Scotland
df_pcode <- read_csv(
"data/Scottish_Postcode_Directory_2017_2 (EH).csv",
col_types = cols(
pc7 = col_character(),
pc8 = col_character(),
Grid_Reference_Easting = col_double(),
Grid_Reference_Northing = col_double(),
Latitude = col_double(),
Longitude = col_double(),
DataZone2011 = col_character(),
HHC2011 = col_double(),
Pop2011 = col_double(),
HHC2001 = col_double(),
Pop2001 = col_double()
)
)
# cut df_pcodes to "EH"" and only the vars we need to attach to foi data
df_pcode2 <- subset(df_pcode, str_sub(pc7, 1, 2) == "EH",
select = c(pc7, pc8, DataZone2011, LAU_Level1_2011
)
)
# add data from df_pcode2 to df_foi
df_foi <- df_foi %>%
left_join(df_pcode2, by = "pc8")
# check how many cases have missing values - for pc7 it is 18
sum(is.na(df_foi$pc7))
# check how many properties this affects - 27
sum(df_foi$NumberOfProperties[is.na(df_foi$DataZone2011)])
# check number of rows and valid cases in all cols
# NB there is some drop off in HHC and Pop figs, esp. for 2001
nrow(df_foi)
colSums(!is.na(df_foi))
# aggregate foi data to DZ level, summing number of registered props
df_foi_dz <- df_foi %>%
group_by(DataZone2011) %>%
summarise(
NumberOfProperties = sum(NumberOfProperties, na.rm = TRUE)
)
nrow(df_foi_dz)
# number of properties with missing DZ
sum(df_foi_dz$NumberOfProperties[
is.na(df_foi_dz$DataZone2011)
])
# second cut of df_pcode to those in Edinburgh in order to make list of DZs in city
df_pcode3 <- subset(df_pcode, LAU_Level1_2011 == "S30000008",
select = c(DataZone2011
)
)
# collapse so it is just a list of DZs in Edinburgh
df_dz_Edin <- df_pcode3 %>%
group_by(DataZone2011) %>%
summarise()
# also extract as list
dz_Edin <- (df_dz_Edin$DataZone2011)
# Open census data file with tenure composition for DZs in 2011
df_census <- as_tibble(read_csv("data/tenure DZ2011.csv"))
# make correct PRS and PRSPct figures
df_census <- mutate(df_census,
PRS = PrtRent_2011,
PRSPct = PrtRent_2011/All_HH_2011)
# reduce to DZs in Edinburgh using the list - dz_Edin
df_census <- df_census[df_census$DataZone %in% dz_Edin,]
# rename 'Datazone' as 'Datazone2011' for matching
colnames(df_census)[1] <- "DataZone2011"
# merge census tenure data on to the Edinburgh Datazones file.
df_dz_Edin <- df_dz_Edin %>%
left_join(df_census, by = "DataZone2011")
# merge foi data - use full join
df_dz_Edin <- df_dz_Edin %>%
full_join(df_foi_dz, by = "DataZone2011")
# check number of DZ and number with registered properties
nrow(df_dz_Edin)
# check number in DZ not in Edinburgh or missing DZ
sum(is.na(df_dz_Edin$All_HH_2011))
# put cases outside Edin (or missing DZ) in sep df
df_dz_NotEdin <- df_dz_Edin[
is.na(df_dz_Edin$All_HH_2011),
]
# number of properties lost
sum(df_dz_NotEdin$NumberOfProperties)
# proportion of original total
sprintf("%.2f %%",
100 * sum(df_dz_NotEdin$NumberOfProperties)/
sum(df_foi$NumberOfProperties))
# number of properties lost - no DZ i.e. pcode match failed
sum(df_dz_NotEdin$NumberOfProperties[
is.na(df_dz_NotEdin$DataZone2011)
])
# number of DZ with FOI data but not in Edin
nrow(df_dz_NotEdin[
!is.na(df_dz_NotEdin$DataZone2011),])
# number of properties lost - not in Edin i.e. others
sum(df_dz_NotEdin$NumberOfProperties[
!is.na(df_dz_NotEdin$DataZone2011)
])
# remove cases outside Edin (or missing DZ) from df_dz_Edin
df_dz_Edin <- df_dz_Edin[
!is.na(df_dz_Edin$All_HH_2011),]
# check number of DZ in Edinb without registered properties
sum(is.na(df_dz_Edin$NumberOfProperties))
# where reg props missing for any DZ, set to zero
df_dz_Edin$NumberOfProperties[
is.na(df_dz_Edin$NumberOfProperties)
] <- 0
# number of properties in final dataset
sum(df_dz_Edin$NumberOfProperties)
# DZs with no registered properties
nrow(df_dz_Edin[df_dz_Edin$NumberOfProperties == 0,])
# highest number of props in a DZ
max(df_dz_Edin$NumberOfProperties)
# histogram of No. or Reg Props
ggplot(data = df_dz_Edin,
mapping = aes(x = NumberOfProperties)) +
geom_histogram() +
ggtitle("Figure 3: Number of registered properties per Datazone - Edinburgh") +
theme(plot.title = element_text(size = 14, face = "plain")) +
xlab("Number of Registered Properties in Datazone") +
ylab("Number of Datazones")
# make text for correlation
corr <- signif(
cor(df_dz_Edin$PRS, df_dz_Edin$NumberOfProperties),
digits = 2)
corr_text <- paste("R =", corr)
# num prs props at census
sum(df_census$PRS)
# 'expected' line given number of llord register (sum(df_foi$NumberOfProperties))
# and number at Census
expected_slope <- sum(df_foi$NumberOfProperties)/sum(df_census$PRS)
ggplot(data = df_dz_Edin,
mapping = aes(x = PRS, y = NumberOfProperties)) +
geom_point() +
ggtitle("Figure 4: Registered properties in 2017 vs PRS households in 2011 - Edinburgh") +
xlab("PRS households in 2011 (Census)") +
ylab("No. of registered properties in 2017") +
theme(plot.title = element_text(size = 14, face = "plain")) +
geom_abline(slope=1) +
geom_abline(slope=expected_slope, linetype = "dashed") +
geom_text(x = 25, y = 450,
label = corr_text)
# global options for knit
knitr::opts_chunk$set(fig.width=8, fig.height=6, fig.path='Figs/',
echo=FALSE, include=FALSE, warning=FALSE, message=FALSE)
# install packages - first time only
# packs <- c("tidyverse", "dplyr", "readxl")
# install.packages(packs)
# load libraries
library(dplyr)
library(tidyverse)
library(readxl)
# open csv file from FoI request
df_foi <- as_tibble(read_excel("data/16177 Response Data.xlsx"))
# rename cols to remove spaces
names(df_foi) <- c("PropertyPostcode", "NumberOfProperties")
# make id column from row number
df_foi <- tibble::rowid_to_column(df_foi, "ID")
# make pc8 as uppercase version of original - name to match var in pcode lookup
df_foi <- mutate(df_foi,
pc8 = toupper(PropertyPostcode))
# this shows that first two letters in pc8 are always EH
table(str_sub(df_foi$pc8, 1, 2))
# this shows that length of pc8 mostly 7 or 8, but one 9
table(str_length(df_foi$pc8))
# identify the case - "EH16 4 FE"
subset(df_foi, str_length(pc8) > 8)
# change that case
df_foi$pc8[df_foi$pc8 == "EH16 4 FE"] <- "EH16 4FE"
# check that it is fixed
table(str_length(df_foi$pc8))
# quick check on final state of df_foi
head(df_foi)
# histogram of No. or Reg Props
ggplot(data = df_foi,
mapping = aes(x = NumberOfProperties)) +
geom_histogram() +
ggtitle("Figure 2: Number of registered properties per postcode - Edinburgh") +
theme(plot.title = element_text(size = 14, face = "plain")) +
xlab("Number of Registered Properties in Postcode") +
ylab("Number of Postcodes")
# open postcode directory - gives some errors which we ignore for now
# NB that to fit onto GitHub, have had to cut down to EH pcodes only but left
#    code unchanged so assumes it is whole of Scotland
df_pcode <- read_csv(
"data/Scottish_Postcode_Directory_2017_2 (EH).csv",
col_types = cols(
pc7 = col_character(),
pc8 = col_character(),
Grid_Reference_Easting = col_double(),
Grid_Reference_Northing = col_double(),
Latitude = col_double(),
Longitude = col_double(),
DataZone2011 = col_character(),
HHC2011 = col_double(),
Pop2011 = col_double(),
HHC2001 = col_double(),
Pop2001 = col_double()
)
)
# cut df_pcodes to "EH"" and only the vars we need to attach to foi data
df_pcode2 <- subset(df_pcode, str_sub(pc7, 1, 2) == "EH",
select = c(pc7, pc8, DataZone2011, LAU_Level1_2011
)
)
# add data from df_pcode2 to df_foi
df_foi <- df_foi %>%
left_join(df_pcode2, by = "pc8")
# check how many cases have missing values - for pc7 it is 18
sum(is.na(df_foi$pc7))
# check how many properties this affects - 27
sum(df_foi$NumberOfProperties[is.na(df_foi$DataZone2011)])
# check number of rows and valid cases in all cols
# NB there is some drop off in HHC and Pop figs, esp. for 2001
nrow(df_foi)
colSums(!is.na(df_foi))
# aggregate foi data to DZ level, summing number of registered props
df_foi_dz <- df_foi %>%
group_by(DataZone2011) %>%
summarise(
NumberOfProperties = sum(NumberOfProperties, na.rm = TRUE)
)
nrow(df_foi_dz)
# number of properties with missing DZ
sum(df_foi_dz$NumberOfProperties[
is.na(df_foi_dz$DataZone2011)
])
# second cut of df_pcode to those in Edinburgh in order to make list of DZs in city
df_pcode3 <- subset(df_pcode, LAU_Level1_2011 == "S30000008",
select = c(DataZone2011
)
)
# collapse so it is just a list of DZs in Edinburgh
df_dz_Edin <- df_pcode3 %>%
group_by(DataZone2011) %>%
summarise()
# also extract as list
dz_Edin <- (df_dz_Edin$DataZone2011)
# Open census data file with tenure composition for DZs in 2011
df_census <- as_tibble(read_csv("data/tenure DZ2011.csv"))
# make correct PRS and PRSPct figures
df_census <- mutate(df_census,
PRS = PrtRent_2011,
PRSPct = PrtRent_2011/All_HH_2011)
# reduce to DZs in Edinburgh using the list - dz_Edin
df_census <- df_census[df_census$DataZone %in% dz_Edin,]
# rename 'Datazone' as 'Datazone2011' for matching
colnames(df_census)[1] <- "DataZone2011"
# merge census tenure data on to the Edinburgh Datazones file.
df_dz_Edin <- df_dz_Edin %>%
left_join(df_census, by = "DataZone2011")
# merge foi data - use full join
df_dz_Edin <- df_dz_Edin %>%
full_join(df_foi_dz, by = "DataZone2011")
# check number of DZ and number with registered properties
nrow(df_dz_Edin)
# check number in DZ not in Edinburgh or missing DZ
sum(is.na(df_dz_Edin$All_HH_2011))
# put cases outside Edin (or missing DZ) in sep df
df_dz_NotEdin <- df_dz_Edin[
is.na(df_dz_Edin$All_HH_2011),
]
# number of properties lost
sum(df_dz_NotEdin$NumberOfProperties)
# proportion of original total
sprintf("%.2f %%",
100 * sum(df_dz_NotEdin$NumberOfProperties)/
sum(df_foi$NumberOfProperties))
# number of properties lost - no DZ i.e. pcode match failed
sum(df_dz_NotEdin$NumberOfProperties[
is.na(df_dz_NotEdin$DataZone2011)
])
# number of DZ with FOI data but not in Edin
nrow(df_dz_NotEdin[
!is.na(df_dz_NotEdin$DataZone2011),])
# number of properties lost - not in Edin i.e. others
sum(df_dz_NotEdin$NumberOfProperties[
!is.na(df_dz_NotEdin$DataZone2011)
])
# remove cases outside Edin (or missing DZ) from df_dz_Edin
df_dz_Edin <- df_dz_Edin[
!is.na(df_dz_Edin$All_HH_2011),]
# check number of DZ in Edinb without registered properties
sum(is.na(df_dz_Edin$NumberOfProperties))
# where reg props missing for any DZ, set to zero
df_dz_Edin$NumberOfProperties[
is.na(df_dz_Edin$NumberOfProperties)
] <- 0
# number of properties in final dataset
sum(df_dz_Edin$NumberOfProperties)
# DZs with no registered properties
nrow(df_dz_Edin[df_dz_Edin$NumberOfProperties == 0,])
# highest number of props in a DZ
max(df_dz_Edin$NumberOfProperties)
# histogram of No. or Reg Props
ggplot(data = df_dz_Edin,
mapping = aes(x = NumberOfProperties)) +
geom_histogram() +
ggtitle("Figure 3: Number of registered properties per Datazone - Edinburgh") +
theme(plot.title = element_text(size = 14, face = "plain")) +
xlab("Number of Registered Properties in Datazone") +
ylab("Number of Datazones")
# make text for correlation
corr <- signif(
cor(df_dz_Edin$PRS, df_dz_Edin$NumberOfProperties),
digits = 2)
corr_text <- paste("R =", corr)
# num prs props at census
sum(df_census$PRS)
# 'expected' line given number of llord register (sum(df_foi$NumberOfProperties))
# and number at Census
expected_slope <- sum(df_foi$NumberOfProperties)/sum(df_census$PRS)
ggplot(data = df_dz_Edin,
mapping = aes(x = PRS, y = NumberOfProperties)) +
geom_point() +
ggtitle("Figure 4: Registered properties in 2017 vs PRS households in 2011 - Edinburgh") +
xlab("PRS households in 2011 (Census)") +
ylab("No. of registered properties in 2017") +
theme(plot.title = element_text(size = 14, face = "plain")) +
geom_abline(slope=1) +
geom_abline(slope=expected_slope, linetype = "dashed") +
geom_text(x = 25, y = 450,
label = corr_text)
# global options for knit
knitr::opts_chunk$set(fig.width=8, fig.height=6, fig.path='Figs/',
echo=FALSE, include=FALSE, warning=FALSE, message=FALSE)
# install packages - first time only
# packs <- c("tidyverse", "dplyr", "readxl")
# install.packages(packs)
# load libraries
library(dplyr)
library(tidyverse)
library(readxl)
# open csv file from FoI request
df_foi <- as_tibble(read_excel("data/16177 Response Data.xlsx"))
# rename cols to remove spaces
names(df_foi) <- c("PropertyPostcode", "NumberOfProperties")
# make id column from row number
df_foi <- tibble::rowid_to_column(df_foi, "ID")
# make pc8 as uppercase version of original - name to match var in pcode lookup
df_foi <- mutate(df_foi,
pc8 = toupper(PropertyPostcode))
# this shows that first two letters in pc8 are always EH
table(str_sub(df_foi$pc8, 1, 2))
# this shows that length of pc8 mostly 7 or 8, but one 9
table(str_length(df_foi$pc8))
# identify the case - "EH16 4 FE"
subset(df_foi, str_length(pc8) > 8)
# change that case
df_foi$pc8[df_foi$pc8 == "EH16 4 FE"] <- "EH16 4FE"
# check that it is fixed
table(str_length(df_foi$pc8))
# quick check on final state of df_foi
head(df_foi)
# histogram of No. or Reg Props
ggplot(data = df_foi,
mapping = aes(x = NumberOfProperties)) +
geom_histogram() +
ggtitle("Figure 2: Number of registered properties per postcode - Edinburgh") +
theme(plot.title = element_text(size = 14, face = "plain")) +
xlab("Number of Registered Properties in Postcode") +
ylab("Number of Postcodes")
# open postcode directory - gives some errors which we ignore for now
# NB that to fit onto GitHub, have had to cut down to EH pcodes only but left
#    code unchanged so assumes it is whole of Scotland
df_pcode <- read_csv(
"data/Scottish_Postcode_Directory_2017_2 (EH).csv",
col_types = cols(
pc7 = col_character(),
pc8 = col_character(),
Grid_Reference_Easting = col_double(),
Grid_Reference_Northing = col_double(),
Latitude = col_double(),
Longitude = col_double(),
DataZone2011 = col_character(),
HHC2011 = col_double(),
Pop2011 = col_double(),
HHC2001 = col_double(),
Pop2001 = col_double()
)
)
# cut df_pcodes to "EH"" and only the vars we need to attach to foi data
df_pcode2 <- subset(df_pcode, str_sub(pc7, 1, 2) == "EH",
select = c(pc7, pc8, DataZone2011, LAU_Level1_2011
)
)
# add data from df_pcode2 to df_foi
df_foi <- df_foi %>%
left_join(df_pcode2, by = "pc8")
# check how many cases have missing values - for pc7 it is 18
sum(is.na(df_foi$pc7))
# check how many properties this affects - 27
sum(df_foi$NumberOfProperties[is.na(df_foi$DataZone2011)])
# check number of rows and valid cases in all cols
# NB there is some drop off in HHC and Pop figs, esp. for 2001
nrow(df_foi)
colSums(!is.na(df_foi))
# aggregate foi data to DZ level, summing number of registered props
df_foi_dz <- df_foi %>%
group_by(DataZone2011) %>%
summarise(
NumberOfProperties = sum(NumberOfProperties, na.rm = TRUE)
)
nrow(df_foi_dz)
# number of properties with missing DZ
sum(df_foi_dz$NumberOfProperties[
is.na(df_foi_dz$DataZone2011)
])
# second cut of df_pcode to those in Edinburgh in order to make list of DZs in city
df_pcode3 <- subset(df_pcode, LAU_Level1_2011 == "S30000008",
select = c(DataZone2011
)
)
# collapse so it is just a list of DZs in Edinburgh
df_dz_Edin <- df_pcode3 %>%
group_by(DataZone2011) %>%
summarise()
# also extract as list
dz_Edin <- (df_dz_Edin$DataZone2011)
# Open census data file with tenure composition for DZs in 2011
df_census <- as_tibble(read_csv("data/tenure DZ2011.csv"))
# make correct PRS and PRSPct figures
df_census <- mutate(df_census,
PRS = PrtRent_2011,
PRSPct = PrtRent_2011/All_HH_2011)
# reduce to DZs in Edinburgh using the list - dz_Edin
df_census <- df_census[df_census$DataZone %in% dz_Edin,]
# rename 'Datazone' as 'Datazone2011' for matching
colnames(df_census)[1] <- "DataZone2011"
# merge census tenure data on to the Edinburgh Datazones file.
df_dz_Edin <- df_dz_Edin %>%
left_join(df_census, by = "DataZone2011")
# merge foi data - use full join
df_dz_Edin <- df_dz_Edin %>%
full_join(df_foi_dz, by = "DataZone2011")
# check number of DZ and number with registered properties
nrow(df_dz_Edin)
# check number in DZ not in Edinburgh or missing DZ
sum(is.na(df_dz_Edin$All_HH_2011))
# put cases outside Edin (or missing DZ) in sep df
df_dz_NotEdin <- df_dz_Edin[
is.na(df_dz_Edin$All_HH_2011),
]
# number of properties lost
sum(df_dz_NotEdin$NumberOfProperties)
# proportion of original total
sprintf("%.2f %%",
100 * sum(df_dz_NotEdin$NumberOfProperties)/
sum(df_foi$NumberOfProperties))
# number of properties lost - no DZ i.e. pcode match failed
sum(df_dz_NotEdin$NumberOfProperties[
is.na(df_dz_NotEdin$DataZone2011)
])
# number of DZ with FOI data but not in Edin
nrow(df_dz_NotEdin[
!is.na(df_dz_NotEdin$DataZone2011),])
# number of properties lost - not in Edin i.e. others
sum(df_dz_NotEdin$NumberOfProperties[
!is.na(df_dz_NotEdin$DataZone2011)
])
# remove cases outside Edin (or missing DZ) from df_dz_Edin
df_dz_Edin <- df_dz_Edin[
!is.na(df_dz_Edin$All_HH_2011),]
# check number of DZ in Edinb without registered properties
sum(is.na(df_dz_Edin$NumberOfProperties))
# where reg props missing for any DZ, set to zero
df_dz_Edin$NumberOfProperties[
is.na(df_dz_Edin$NumberOfProperties)
] <- 0
# number of properties in final dataset
sum(df_dz_Edin$NumberOfProperties)
# DZs with no registered properties
nrow(df_dz_Edin[df_dz_Edin$NumberOfProperties == 0,])
# highest number of props in a DZ
max(df_dz_Edin$NumberOfProperties)
# histogram of No. or Reg Props
ggplot(data = df_dz_Edin,
mapping = aes(x = NumberOfProperties)) +
geom_histogram() +
ggtitle("Figure 3: Number of registered properties per Datazone - Edinburgh") +
theme(plot.title = element_text(size = 14, face = "plain")) +
xlab("Number of Registered Properties in Datazone") +
ylab("Number of Datazones")
# make text for correlation
corr <- signif(
cor(df_dz_Edin$PRS, df_dz_Edin$NumberOfProperties),
digits = 2)
corr_text <- paste("R =", corr)
# num prs props at census
sum(df_census$PRS)
# 'expected' line given number of llord register (sum(df_foi$NumberOfProperties))
# and number at Census
expected_slope <- sum(df_foi$NumberOfProperties)/sum(df_census$PRS)
ggplot(data = df_dz_Edin,
mapping = aes(x = PRS, y = NumberOfProperties)) +
geom_point() +
ggtitle("Figure 4: Registered properties in 2017 vs PRS households in 2011 - Edinburgh") +
xlab("PRS households in 2011 (Census)") +
ylab("No. of registered properties in 2017") +
theme(plot.title = element_text(size = 14, face = "plain")) +
geom_abline(slope=1) +
geom_abline(slope=expected_slope, linetype = "dashed") +
geom_text(x = 25, y = 450,
label = corr_text)