In [1]:
# Aplica o lpSolve para carregar a rede - resulta na quantidade de viagens entre
# cada hexágono de origem e destino (relação população vs matrículas)

# carregar bibliotecas
library('tidyverse')
# library('tidylog')
library('lpSolve')
options(scipen = 999)

── [1mAttaching packages[22m ─────────────────────────────────────────────────────────────────────────────── tidyverse 1.3.1 ──

[32m✔[39m [34mggplot2[39m 3.3.3     [32m✔[39m [34mpurrr  [39m 0.3.4
[32m✔[39m [34mtibble [39m 3.1.1     [32m✔[39m [34mdplyr  [39m 1.0.5
[32m✔[39m [34mtidyr  [39m 1.1.3     [32m✔[39m [34mstringr[39m 1.4.0
[32m✔[39m [34mreadr  [39m 1.4.0     [32m✔[39m [34mforcats[39m 0.5.1

── [1mConflicts[22m ────────────────────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()



In [2]:
# Definir ano de análise e limite máximo de tempo
ano <- '2019'; tempo_max <- '15'

# Estrutura de pastas e arquivos
pasta_dados       <- "../../yellow_dados"
pasta_aop_optimum <- sprintf("%s/13_aop_optimum", pasta_dados)
pasta_opaop_ano   <- sprintf("%s/%s", pasta_aop_optimum, ano)

In [3]:
# ------------------------------------------------------------------------------
# Bases de dados - população (demanda) > matrículas (oferta)
# ------------------------------------------------------------------------------

# No nosso caso, teremos uma população maior do que a quantidade de matrículas,
# o que nos fará ter de transpor (inverter) as linhas com as colunas, deixando
# a população na origem como linhas e as matrículas no destino como colunas.

# Demanda: quantidade de pessoas por hexágono
pop <- sprintf('%s/hex_grid_sp_res09_dados_censo_por_hexagono.csv', pasta_aop_optimum)
pop <- read_delim(pop, delim = ';', col_types = cols(.default = "c"))
pop <- pop %>% mutate_at(2:ncol(.), as.numeric)
pop <- pop %>% select(orig = id_hex, pop = pessoas_15_17_hex)
# Checar se algum id ficou duplicado por qualquer motivo
# pop %>% group_by(orig) %>% tally() %>% filter(n > 1) %>% nrow()
head(pop, 2)

# Oferta: quantidade de matrículas por hexágono
mat <- sprintf('%s/matriculas_censo_escolar_2019_por_hexagono.csv', pasta_aop_optimum)
mat <- read_delim(mat, delim = ';', col_types = cols(.default = "c"))
mat <- mat %>% mutate_at(2:ncol(.), as.numeric)
mat <- mat %>% select(dest = id_hex, mat = matriculas_idades_15_17)
# Checar se algum id ficou duplicado por qualquer motivo
# mat %>% group_by(dest) %>% tally() %>% filter(n > 1) %>% nrow()
head(mat, 2)

# Neste caso, temos uma demanda de população MAIOR do que a oferta de matrículas
print(sprintf('População: %s; Matrículas: %s (Diferença: %s)', sum(pop$pop), sum(mat$mat), sum(pop$pop) - sum(mat$mat)))

# Matriz de tempo entre hexágonos, já removidos os tempos acima do limite
# estabelecido (15, 30, 40 minutos)
custos <- sprintf('%s/01_ttmatrix_%s_res09_%smin.csv', pasta_opaop_ano, ano, tempo_max)
custos <- read_delim(custos, delim = ';', col_types = cols(.default = "c"))
custos <- custos %>% select(hex_id, time = time_adj)
# Checar se algum id ficou duplicado por qualquer motivo
# custos %>% group_by(hex_id) %>% tally() %>% filter(n > 1) %>% nrow()
custos <- custos %>% separate(hex_id, into = c('orig', 'dest'), sep = '-', remove = TRUE)
head(custos, 2)

orig,pop
<chr>,<dbl>
89a81000003ffff,40
89a81000007ffff,2


dest,mat
<chr>,<dbl>
89a81000027ffff,1048
89a8100002bffff,369


[1] "População: 505207; Matrículas: 374710 (Diferença: 130497)"


orig,dest,time
<chr>,<chr>,<chr>
89a81000003ffff,89a8100000bffff,399.459
89a81000003ffff,89a81000017ffff,140.424


In [5]:
# ------------------------------------------------------------------------------
# Etapa 1 - Chegar se há origens ou destinos impossíveis de satisfazer
# ------------------------------------------------------------------------------

# Gerar a matriz de custos por combinações entre origens e destinos
cost.mat <-
  # Combinar todos os valores de origem para todos os de destino em um dataframe
  expand_grid(orig = pop$orig, dest = mat$dest) %>% 
  # Juntar com a matriz de custos
  left_join(custos, by = c('orig', 'dest')) %>% 
  # Se origem for igual ao destino, é um par OD possível e o custo é zero
  mutate(time = ifelse(orig == dest, '0', time))

# cost.mat %>% filter(orig == dest)
head(cost.mat)

orig,dest,time
<chr>,<chr>,<chr>
89a81000003ffff,89a81000027ffff,644.656
89a81000003ffff,89a8100002bffff,693.182
89a81000003ffff,89a81000077ffff,601.127
89a81000003ffff,89a8100008fffff,258.346
89a81000003ffff,89a81000133ffff,
89a81000003ffff,89a81000163ffff,


In [6]:
# Se o tempo for NA, é porque a origem está no dataframe de origem (há 
# população), mas o destino não está no dataframe da matriz de custos, ou
# seja, não é possível chegar naquelas matrículas (está acima do limite de 
# tempo estabelecido previamente - 15, 30 , 40 minutos). O que vamos fazer é
# checar se não é possível chegar de nenhuma forma a esses destinos (não estão
# na matriz de custos) - se não for, vamos registrar e remover de cost.mat. Caso
# seja possível chegar neles por alguma combinação (ou seja, o destino está
# na matriz "custos", esses NA serão substituídos por valores proibitivos adiante
destinos_impossiveis <- 
  cost.mat %>% 
  filter(is.na(time)) %>% 
  select(dest) %>% 
  distinct() %>% 
  filter(!dest %in% custos$dest)

# destinos_impossiveis %>% summarise(this = toString(dest)) %>% pull()

# De forma similar, o mesmo acontece com as origens - detectar as isoladas
origens_impossiveis <- 
  cost.mat %>% 
  filter(is.na(time)) %>% 
  select(orig) %>% 
  distinct() %>% 
  filter(!orig %in% custos$orig)

# origens_impossiveis %>% summarise(this = toString(orig)) %>% pull()


# Remover destinos e origens impossíveis, caso existam
cost.mat <- cost.mat %>% filter(!dest %in% destinos_impossiveis$dest)
cost.mat <- cost.mat %>% filter(!orig %in% origens_impossiveis$orig)

# Atualizar dataframes de matrículas (destinos) e população (origens)
mat <- mat %>% filter(!dest %in% destinos_impossiveis$dest)
pop <- pop %>% filter(!orig %in% origens_impossiveis$orig)

# Como fica a relação entre demanda e oferta?
print(sprintf('População: %s; Matrículas: %s; Diferença: %s', sum(pop$pop), sum(mat$mat), sum(pop$pop) - sum(mat$mat)))

# Registrar composição de linhas e colunas
reg_linhas  <- cost.mat %>% select(orig) %>% arrange() %>% distinct()
reg_colunas <- cost.mat %>% select(dest) %>% arrange() %>% distinct()

# Continuar a gerar a matriz de custos
cost.mat <- 
  cost.mat %>% 
  # Aqui, destinos (oferta) ficam como COLUNAS; origens (demanda) ficam como LINHAS
  pivot_wider(id_cols     = orig,
              names_from  = dest,
              values_from = time) %>%
  # Precisamos ordenar as colunas para que a ordem seja a mesma dos DESTINOS/OFERTA
  select(orig, order(colnames(.))) %>%
  # Precisamos ordenar as linhas para que a ordem seja a mesma das ORIGENS/DEMANDA
  arrange(orig) %>%
  # Garantir que conteúdo da matriz esteja em número e que valores NA serão
  # considerados como valores proibitivos
  mutate(across(where(is.character), as.numeric),
         across(where(is.numeric), ~ replace_na(.x, 100000))) %>% 
  # across(where(is.numeric), ~ replace_na(.x, 0))) %>%
  # Tendo garantido que linhas e colunas estão ordenadas, remover nomes das linhas
  select(-orig)

head(cost.mat, 2)

[1] "População: 483781; Matrículas: 369307; Diferença: 114474"


“NAs introduzidos por coerção”


89a81000027ffff,89a8100002bffff,89a81000077ffff,89a8100008fffff,89a81000133ffff,89a81000163ffff,89a8100016fffff,89a810001cfffff,89a8100032bffff,89a810003b7ffff,⋯,89a8107756bffff,89a8107758bffff,89a810775a7ffff,89a81077683ffff,89a81077693ffff,89a81077697ffff,89a8107769bffff,89a8107a5a7ffff,89a8107a5b7ffff,89a8108de6bffff
<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,⋯,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
644.656,693.182,601.127,258.346,100000,100000,100000,800.498,100000,100000,⋯,100000,100000,100000,100000,100000,100000,100000,100000,100000,100000
755.751,528.6,368.786,397.74,100000,100000,100000,100000.0,100000,100000,⋯,100000,100000,100000,100000,100000,100000,100000,100000,100000,100000


In [7]:
# ------------------------------------------------------------------------------
# Etapa 2 - lpSolve
# ------------------------------------------------------------------------------

# Este é um problema de minimização de custos (tempo)
direction <- 'min'

# Aqui, as linhas são os hexágonos h3 resolução 09 com a POPULAÇÃO na faixa etária escolhida
row.signs <- rep('<=', nrow(pop))
row.rhs <- pop$pop

# As colunas são os hexágonos h3 resolução 09 com as quantidades de MATRÍCULAS
col.signs <- rep('>=', nrow(mat))
col.rhs <- mat$mat

# Solucionando o problema
(start = Sys.time())
solution <- lp.transport(cost.mat  = as.matrix(cost.mat),
                         direction = direction,
                         row.signs = row.signs,
                         row.rhs   = row.rhs,
                         col.signs = col.signs,
                         col.rhs   = col.rhs)
Sys.time()
Sys.time() - start

In [8]:
Sys.time()

[1] "2024-07-15 12:43:48 -03"