sanger-pathogens · andrewjpage · Mar 12, 2015 · Feb 13, 2015 · Feb 13, 2015 · Mar 3, 2015
diff --git a/AUTHORS b/AUTHORS
@@ -1 +1,2 @@
 Andrew J. Page (ap13@sanger.ac.uk)
+Carla A. Cummins (cc21@sanger.ac.uk)
diff --git a/bin/create_pan_genome b/bin/create_pan_genome
@@ -13,7 +13,7 @@ Create a pan genome from a set of proteome FASTA files
 
 BEGIN { unshift( @INC, '../lib' ) }
 BEGIN { unshift( @INC, './lib' ) }
-# BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
+#BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
 use Bio::PanGenome::CommandLine::CreatePanGenome;
 
 Bio::PanGenome::CommandLine::CreatePanGenome->new(args => \@ARGV, script_name => $0)->run;
diff --git a/bin/extract_proteome_from_gff b/bin/extract_proteome_from_gff
@@ -13,7 +13,7 @@ Take in GFF files and output the proteome
 
 BEGIN { unshift( @INC, '../lib' ) }
 BEGIN { unshift( @INC, './lib' ) }
-BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
+#BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
 use Bio::PanGenome::CommandLine::ExtractProteomeFromGff;
 
 Bio::PanGenome::CommandLine::ExtractProteomeFromGff->new(args => \@ARGV, script_name => $0)->run;
diff --git a/bin/iterative_cdhit b/bin/iterative_cdhit
@@ -13,7 +13,7 @@ Iteratively run cdhit
 
 BEGIN { unshift( @INC, '../lib' ) }
 BEGIN { unshift( @INC, './lib' ) }
-BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
+#BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
 use Bio::PanGenome::CommandLine::IterativeCdhit;
 
 Bio::PanGenome::CommandLine::IterativeCdhit->new(args => \@ARGV, script_name => $0)->run;
diff --git a/bin/merge_multifasta_alignments b/bin/merge_multifasta_alignments
@@ -13,7 +13,7 @@ Take in a list of alignment files with equal numbers of sequences and merge them
 
 BEGIN { unshift( @INC, '../lib' ) }
 BEGIN { unshift( @INC, './lib' ) }
-BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
+#BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
 use Bio::PanGenome::CommandLine::MergeMultipleFastaAlignments;
 
 Bio::PanGenome::CommandLine::MergeMultipleFastaAlignments->new(args => \@ARGV, script_name => $0)->run;
diff --git a/bin/pan_genome_core_alignment b/bin/pan_genome_core_alignment
@@ -13,7 +13,7 @@ package Bio::PanGenome::Main::PanGenomeCoreAlignment;
 
 BEGIN { unshift( @INC, '../lib' ) }
 BEGIN { unshift( @INC, './lib' ) }
-BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
+#BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
 use Bio::PanGenome::CommandLine::PanGenomeCoreAlignment;
 
 Bio::PanGenome::CommandLine::PanGenomeCoreAlignment->new(args => \@ARGV, script_name => $0)->run;
diff --git a/bin/pan_genome_post_analysis b/bin/pan_genome_post_analysis
@@ -13,7 +13,7 @@ Perform the post analysis on the pan genome
 
 BEGIN { unshift( @INC, '../lib' ) }
 BEGIN { unshift( @INC, './lib' ) }
-BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
+#BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
 use Bio::PanGenome::CommandLine::PanGenomePostAnalysis;
 
 Bio::PanGenome::CommandLine::PanGenomePostAnalysis->new(args => \@ARGV, script_name => $0)->run;
diff --git a/bin/pan_genome_reorder_spreadsheet b/bin/pan_genome_reorder_spreadsheet
@@ -13,7 +13,7 @@ Take in a tree and a spreadsheet and output a reordered spreadsheet
 
 BEGIN { unshift( @INC, '../lib' ) }
 BEGIN { unshift( @INC, './lib' ) }
-BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
+#BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
 use Bio::PanGenome::CommandLine::PanGenomeReorderSpreadsheet;
 
 Bio::PanGenome::CommandLine::PanGenomeReorderSpreadsheet->new(args => \@ARGV, script_name => $0)->run;
diff --git a/bin/parallel_all_against_all_blastp b/bin/parallel_all_against_all_blastp
@@ -13,7 +13,7 @@ Take in a FASTA file of proteins and blast against itself
 
 BEGIN { unshift( @INC, '../lib' ) }
 BEGIN { unshift( @INC, './lib' ) }
-BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
+#BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
 use Bio::PanGenome::CommandLine::ParallelAllAgainstAllBlastp;
 
 Bio::PanGenome::CommandLine::ParallelAllAgainstAllBlastp->new(args => \@ARGV, script_name => $0)->run;
diff --git a/bin/protein_muscle_alignment_from_nucleotides b/bin/protein_muscle_alignment_from_nucleotides
@@ -13,7 +13,7 @@ Take in a multifasta file of nucleotides, convert to proteins and align with mus
 
 BEGIN { unshift( @INC, '../lib' ) }
 BEGIN { unshift( @INC, './lib' ) }
-BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
+#BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
 use Bio::PanGenome::CommandLine::ProteinMuscleAlignmentFromNucleotides;
 
 Bio::PanGenome::CommandLine::ProteinMuscleAlignmentFromNucleotides->new(args => \@ARGV, script_name => $0)->run;
diff --git a/bin/query_pan_genome b/bin/query_pan_genome
@@ -13,7 +13,7 @@ Take in a groups file and the protein fasta files and output selected data
 
 BEGIN { unshift( @INC, '../lib' ) }
 BEGIN { unshift( @INC, './lib' ) }
-BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
+#BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
 use Bio::PanGenome::CommandLine::QueryPanGenome;
 
 Bio::PanGenome::CommandLine::QueryPanGenome->new(args => \@ARGV, script_name => $0)->run;
diff --git a/bin/roary b/bin/roary
@@ -0,0 +1,19 @@
+#!/usr/bin/env perl
+
+package Bio::PanGenome::Main::Roary;
+
+# ABSTRACT: Create a pan genome from a set of proteome FASTA files
+# PODNAME: create_pan_geneome
+
+=head1 SYNOPSIS
+
+Create a pan genome from a set of proteome FASTA files
+
+=cut
+
+BEGIN { unshift( @INC, '../lib' ) }
+BEGIN { unshift( @INC, './lib' ) }
+#BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
+use Bio::PanGenome::CommandLine::Roary;
+
+Bio::PanGenome::CommandLine::Roary->new(args => \@ARGV, script_name => $0)->run;
diff --git a/bin/transfer_annotation_to_groups b/bin/transfer_annotation_to_groups
@@ -13,7 +13,7 @@ Take in a groups file and a set of GFF files and transfer the consensus annotati
 
 BEGIN { unshift( @INC, '../lib' ) }
 BEGIN { unshift( @INC, './lib' ) }
-BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
+#BEGIN { unshift( @INC, '/software/pathogen/internal/prod/lib/' ) }
 use Bio::PanGenome::CommandLine::TransferAnnotationToGroups;
 
 Bio::PanGenome::CommandLine::TransferAnnotationToGroups->new(args => \@ARGV, script_name => $0)->run;
diff --git a/lib/Bio/PanGenome.pm b/lib/Bio/PanGenome.pm
@@ -31,17 +31,19 @@ has 'output_filename'             => ( is => 'rw', isa => 'Str',      default  =
 has 'output_pan_geneome_filename' => ( is => 'rw', isa => 'Str',      default  => 'pan_genome.fa' );
 has 'output_statistics_filename'  => ( is => 'rw', isa => 'Str',      default  => 'gene_presence_absence.csv' );
 has 'job_runner'                  => ( is => 'rw', isa => 'Str',      default  => 'LSF' );
-has 'cpus'                        => ( is => 'ro', isa => 'Int',      default => 1 );
+has 'cpus'                        => ( is => 'ro', isa => 'Int',      default  => 1 );
 has 'makeblastdb_exec'            => ( is => 'rw', isa => 'Str',      default  => 'makeblastdb' );
 has 'blastp_exec'                 => ( is => 'rw', isa => 'Str',      default  => 'blastp' );
 has 'mcxdeblast_exec'             => ( is => 'ro', isa => 'Str',      default  => 'mcxdeblast' );
 has 'mcl_exec'                    => ( is => 'ro', isa => 'Str',      default  => 'mcl' );
 has 'perc_identity'               => ( is => 'ro', isa => 'Num',      default  => 98 );
 has 'dont_delete_files'           => ( is => 'ro', isa => 'Bool',     default  => 0 );
 has 'dont_create_rplots'          => ( is => 'rw', isa => 'Bool',     default  => 0 );
+has 'dont_split_groups'           => ( is => 'ro', isa => 'Bool',     default  => 0 );
 has 'verbose_stats'               => ( is => 'rw', isa => 'Bool',     default  => 0 );
 has 'translation_table'           => ( is => 'rw', isa => 'Int',      default  => 11 );
 has 'group_limit'                 => ( is => 'rw', isa => 'Num',      default  => 50000 );
+has 'core_definition'             => ( is => 'rw', isa => 'Num',      default  => 1.0 );
 
 has 'output_multifasta_files' => ( is => 'ro', isa => 'Bool', default => 0 );
 
@@ -119,9 +121,11 @@ sub run {
         output_multifasta_files     => $self->output_multifasta_files,
         dont_delete_files           => $self->dont_delete_files,
         dont_create_rplots          => $self->dont_create_rplots,
+        dont_split_groups           => $self->dont_split_groups,
         verbose_stats               => $self->verbose_stats,
         translation_table           => $self->translation_table,
         group_limit                 => $self->group_limit,
+        core_definition             => $self->core_definition,
     );
     $post_analysis->run();
 

diff --git a/lib/Bio/PanGenome/AnalyseGroups.pm b/lib/Bio/PanGenome/AnalyseGroups.pm
@@ -38,7 +38,7 @@ sub BUILD {
     my ($self) = @_;
     # This triggers _genes_to_groups to be built
     $self->_groups_to_genes;
-    # This triggers _genes_to_file to be buit
+    # This triggers _genes_to_file to be built
     $self->_files_to_genes;
     $self->_freq_groups_per_genome;
 }

diff --git a/lib/Bio/PanGenome/AnnotateGroups.pm b/lib/Bio/PanGenome/AnnotateGroups.pm
@@ -19,6 +19,8 @@ Take in a group file and assosiated GFF files for the isolates and update the gr
 use Moose;
 use Bio::PanGenome::Exceptions;
 use Bio::PanGenome::GeneNamesFromGFF;
+use Data::Dumper;
+use Array::Utils qw(array_minus);
 
 use File::Grep qw(fgrep);
 
@@ -174,6 +176,7 @@ sub _builder__groups_to_id_names {
             $groups_to_id_names{$group_name} = \@elements;
         }
     }
+
     return \%groups_to_id_names;
 }
 
@@ -259,8 +262,7 @@ sub _split_groups {
 sub _remove_ids_from_group {
     my ( $self, $ids_to_remove, $group ) = @_;
 
-    my @remaining_ids =
-      grep { not $_ ~~ @{$ids_to_remove} } @{ $self->_groups_to_id_names->{$group} };
+    my @remaining_ids = array_minus( @{ $self->_groups_to_id_names->{$group} }, @{ $ids_to_remove } );
     $self->_groups_to_id_names->{$group} = \@remaining_ids;
     if ( @{ $self->_groups_to_id_names->{$group} } == 0 ) {
         delete( $self->_groups_to_id_names->{$group} );