lisjoin

A small package with list-tibble join operations.

Motivation

There no native strictly key-pair data structure to R. There is, however, a sufficently good first-approach which is a named list.

{
  ids <- paste0(sample(letters, size = 1000, replace = TRUE), 
                sample(1:30, 4, replace = TRUE))
  named_list <- purrr::map(1:1000, function(.x) rnorm(10))
  names(named_list) <- ids
  head(named_list)
}

## $p28
##  [1] -1.46777476  0.74539593 -0.04664338  0.10781217  1.46081849  1.12868098
##  [7] -0.92717928 -0.14309675 -0.11820866 -0.43120743
## 
## $s30
##  [1] -1.31831735  1.99491831 -0.03777807 -1.25668048  0.09732199 -0.65921933
##  [7]  0.89431084 -0.36112306 -1.11437703  1.61232659
## 
## $v12
##  [1] -1.3033179675  1.1507490652  0.0002327135 -0.4352504670 -0.0690152133
##  [6]  2.0782264295  2.0316954216 -1.0194318330 -1.2564915962  0.4674051620
## 
## $f15
##  [1] -2.52414903 -2.04408138  0.16168534  0.73952108 -0.98379734 -0.24529745
##  [7]  0.39888376 -1.97808891  0.29995678  0.01493763
## 
## $y28
##  [1] -2.18879872  1.09157658 -0.04494610 -0.21365753 -1.61516204  0.92281453
##  [7] -0.00809693 -0.78239806 -0.37681752  1.10060229
## 
## $n30
##  [1] -0.9895956  0.5019188  0.6067216 -0.7643856  1.1582335  0.2849196
##  [7] -0.6200820  0.1745718 -0.3898789 -0.5189159

And this approach can get you far-ish.

library(tidyverse)

## ── Attaching packages ────────────────────────────────────────────────────────────────────── tidyverse 1.3.0 ──

## ✓ ggplot2 3.3.2     ✓ purrr   0.3.4
## ✓ tibble  3.0.3     ✓ dplyr   1.0.2
## ✓ tidyr   1.1.2     ✓ stringr 1.4.0
## ✓ readr   1.3.1     ✓ forcats 0.5.0

## ── Conflicts ───────────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

pluck(named_list, sample(ids, 1))

##  [1]  0.593759344  0.009909793 -0.743166196  0.221449062  0.530201613
##  [6]  0.078539020  0.606547272  0.335228779 -0.270646825 -1.218436378

# update specific values
ids_to_update <- sample(ids, 5)

modify_at(named_list, 
          ids_to_update, 
          function(x) 2*x - 3) ->
  updated_list

sample(named_list, 200) %>% # recover ids given condition
  keep(~ mean(.x) < -.5) %>%
  names()

##  [1] "w28" "y12" "t15" "k30" "e15" "b12" "u28" "i15" "l28" "s28" "c30" "j28"
## [13] "g15" "f28" "g30"

And by that I mean this far.

(tibble(key = sample(ids, 100),
       val = runif(100)) ->
  keyval_tibble)

## # A tibble: 100 x 2
##    key      val
##    <chr>  <dbl>
##  1 m15   0.291 
##  2 j28   0.686 
##  3 f28   0.930 
##  4 e30   0.889 
##  5 o30   0.977 
##  6 g28   0.914 
##  7 t28   0.790 
##  8 q28   0.0524
##  9 y15   0.644 
## 10 t15   0.764 
## # … with 90 more rows

left_join(keyval_tibble)

## Error in auto_copy(x, y, copy = copy): argument "y" is missing, with no default

left_join(keyval_tibble, named_list, by = character(), copy = TRUE)

## # A tibble: 1,000 x 1,002
##    key     val     p28     s30      v12     f15      y28    n30    c12    c15
##    <chr> <dbl>   <dbl>   <dbl>    <dbl>   <dbl>    <dbl>  <dbl>  <dbl>  <dbl>
##  1 m15   0.291 -1.47   -1.32   -1.30e+0 -2.52   -2.19    -0.990 -1.62   0.353
##  2 m15   0.291  0.745   1.99    1.15e+0 -2.04    1.09     0.502 -0.438  0.571
##  3 m15   0.291 -0.0466 -0.0378  2.33e-4  0.162  -0.0449   0.607 -0.474  1.70 
##  4 m15   0.291  0.108  -1.26   -4.35e-1  0.740  -0.214   -0.764 -0.381  1.24 
##  5 m15   0.291  1.46    0.0973 -6.90e-2 -0.984  -1.62     1.16  -1.48  -0.319
##  6 m15   0.291  1.13   -0.659   2.08e+0 -0.245   0.923    0.285 -0.984  0.431
##  7 m15   0.291 -0.927   0.894   2.03e+0  0.399  -0.00810 -0.620 -0.532  0.968
##  8 m15   0.291 -0.143  -0.361  -1.02e+0 -1.98   -0.782    0.175 -0.331  0.378
##  9 m15   0.291 -0.118  -1.11   -1.26e+0  0.300  -0.377   -0.390  1.37  -0.504
## 10 m15   0.291 -0.431   1.61    4.67e-1  0.0149  1.10    -0.519 -1.54  -1.20 
## # … with 990 more rows, and 992 more variables: h28 <dbl>, i30 <dbl>,
## #   t12 <dbl>, h15 <dbl>, c28 <dbl>, w30 <dbl>, w12 <dbl>, a15 <dbl>,
## #   x28 <dbl>, k30 <dbl>, w12.1 <dbl>, g15 <dbl>, g28 <dbl>, e30 <dbl>,
## #   n12 <dbl>, n15 <dbl>, o28 <dbl>, a30 <dbl>, o12 <dbl>, z15 <dbl>,
## #   m28 <dbl>, b30 <dbl>, c12.1 <dbl>, o15 <dbl>, w28 <dbl>, d30 <dbl>,
## #   w12.2 <dbl>, m15 <dbl>, b28 <dbl>, j30 <dbl>, m12 <dbl>, o15.1 <dbl>,
## #   s28 <dbl>, q30 <dbl>, t12.1 <dbl>, t15 <dbl>, c28.1 <dbl>, d30.1 <dbl>,
## #   r12 <dbl>, u15 <dbl>, b28.1 <dbl>, v30 <dbl>, a12 <dbl>, a15.1 <dbl>,
## #   h28.1 <dbl>, f30 <dbl>, m12.1 <dbl>, l15 <dbl>, g28.1 <dbl>, q30.1 <dbl>,
## #   p12 <dbl>, i15 <dbl>, b28.2 <dbl>, g30 <dbl>, x12 <dbl>, f15.1 <dbl>,
## #   h28.2 <dbl>, e30.1 <dbl>, c12.2 <dbl>, p15 <dbl>, x28.1 <dbl>, e30.2 <dbl>,
## #   x12.1 <dbl>, n15.1 <dbl>, e28 <dbl>, y30 <dbl>, a12.1 <dbl>, x15 <dbl>,
## #   q28 <dbl>, x30 <dbl>, l12 <dbl>, g15.1 <dbl>, f28 <dbl>, w30.1 <dbl>,
## #   k12 <dbl>, t15.1 <dbl>, e28.1 <dbl>, u30 <dbl>, b12 <dbl>, z15.1 <dbl>,
## #   a28 <dbl>, z30 <dbl>, b12.1 <dbl>, p15.1 <dbl>, q28.1 <dbl>, k30.1 <dbl>,
## #   h12 <dbl>, h15.1 <dbl>, j28 <dbl>, p30 <dbl>, z12 <dbl>, u15.1 <dbl>,
## #   u28 <dbl>, y30.1 <dbl>, c12.3 <dbl>, d15 <dbl>, f28.1 <dbl>, v30.1 <dbl>,
## #   w12.3 <dbl>, q15 <dbl>, …

lisjoin, as of now, provides a lazy prototypical approach:

library(lisjoin)

lisjoin(keyval_tibble, named_list, .key = key)

## # A tibble: 1,013 x 3
##    key     val list_val  
##    <chr> <dbl> <list>    
##  1 m15   0.291 <dbl [10]>
##  2 m15   0.291 <dbl [10]>
##  3 m15   0.291 <dbl [10]>
##  4 m15   0.291 <dbl [10]>
##  5 m15   0.291 <dbl [10]>
##  6 m15   0.291 <dbl [10]>
##  7 m15   0.291 <dbl [10]>
##  8 m15   0.291 <dbl [10]>
##  9 j28   0.686 <dbl [10]>
## 10 j28   0.686 <dbl [10]>
## # … with 1,003 more rows

Right now lisjoin supports key-guessing, type stability, left/right/inner/full joins. For example, since we know the output is going to be a double-precision number:

library(lisjoin)

map(named_list,
    ~ reduce(.x, sum)) %>% 
  lisjoin(keyval_tibble, 
          .,
          .key = key,
          type = 'dbl')

## # A tibble: 1,013 x 3
##    key     val list_val
##    <chr> <dbl>    <dbl>
##  1 m15   0.291   -4.24 
##  2 m15   0.291   -4.24 
##  3 m15   0.291   -4.24 
##  4 m15   0.291   -4.24 
##  5 m15   0.291   -4.24 
##  6 m15   0.291   -4.24 
##  7 m15   0.291   -4.24 
##  8 m15   0.291   -4.24 
##  9 j28   0.686    0.376
## 10 j28   0.686    0.376
## # … with 1,003 more rows

Long term goals

This package is inspired by clojure’s map structure, purrr’s filosophy and design. In the long term I see it as a tool allowing tidy data workflows on lists.

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
R		R
man		man
renv		renv
.Rbuildignore		.Rbuildignore
.Rprofile		.Rprofile
.gitignore		.gitignore
DESCRIPTION		DESCRIPTION
LICENSE		LICENSE
LICENSE.md		LICENSE.md
NAMESPACE		NAMESPACE
lisjoin.Rproj		lisjoin.Rproj
readme.Rmd		readme.Rmd
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Licenses found

Repository files navigation

lisjoin

Motivation

Long term goals

About

Licenses found

Releases

Packages

Languages

License

Licenses found

pedrocava/lisjoin

Folders and files

Latest commit

History

Repository files navigation

lisjoin

Motivation

Long term goals

About

Topics

Resources

License

Licenses found

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages