Merge pull request #5 from sh1992/master

concat script
jackRogers · May 1, 2012 · fdf2fed · fdf2fed
2 parents 3361dfd + a6fc2a8
commit fdf2fed
Show file tree

Hide file tree

Showing 52 changed files with 890,799 additions and 0 deletions.
diff --git a/OrangeWidgets b/OrangeWidgets
diff --git a/concat.py b/concat.py
@@ -0,0 +1,48 @@
+import os #we need this.
+#path = 'Level_3\/'
+path = 'myTest\/'
+
+def concat(path,output): #takes a path and an output, e.g. concat('Level_3\/','test') would look in Level_3/ for files and output to 'test.tab'
+    results = open(output+'.tab','w') #our output file
+    listing = os.listdir(path) #the directory with all of the patient data files
+    all_files=[] #list of the contents of every file
+    for infile in listing: #so for each file in our directory
+        cur_file = open(path+infile).readlines() #read that file
+        del cur_file[0] #get rid of its headers
+        all_files.append(cur_file) #and add its contents to the list of all files.
+
+    genes = [] #need our gene IDs for the header, this wil be a list of them
+    for line in all_files[0]: #just going through the first file because gene IDs should be the same for everything.
+        line = line.strip('\n').split('\t')
+        genes.append(line[1]) #adding each gene ID to our list.
+
+    #setting up header
+    results.write('barcode\t') #our patient ID (PID)
+    for gene in genes: #so for each gene ID in our genes
+        results.write(gene+'\t') #we write it and then a tab. this is a tab delimited file, you will see tabs frequently.
+    results.write('\n')
+    results.write('d\t')
+    for gene in genes: #same concept as above but with 'c' for continuous variable.
+        results.write('c\t')
+    results.write('\n')
+    results.write('\t')
+    for gene in genes: #and again, but just tabs because we don't have a class variable.
+        results.write('\t')
+    results.write('\n')
+
+    #get gene values and PID for each file, then write to output file.
+    for file_contents in all_files: 
+        gene_vals=[] #a list to hold our gene values for each file
+        PID = file_contents[0].split('\t')[0] #Just taking the PID from the first line of each file.
+        for line in file_contents:
+            line = line.strip('\n').split('\t') #turns the string into a list, split at tabs. (removed return character)
+            gene_vals.append(str(line[2])+'\t') #amassing gene values into a list.
+        if len(gene_vals) != len(genes): #gives and error if there aren't as many gene_vals as gene IDs.
+                print 'error!'
+        gene_vals = ''.join(gene_vals) #joining out list of "geneval\t"'s into a giant string
+        results.write(str(PID)+'\t'+gene_vals+'\n') #what actually writes to file.
+    results.close() #don't leave files open.
+
+
+
+
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0001-01C-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0001-01C-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0003-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0003-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0006-01B-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0006-01B-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0007-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0007-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0009-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0009-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0010-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0010-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0011-01B-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0011-01B-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0014-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0014-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0021-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0021-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0024-01B-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0024-01B-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0027-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0027-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0028-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0028-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0033-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0033-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0034-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0034-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0037-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0037-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0038-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0038-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0043-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0043-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0046-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0046-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0047-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0047-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0052-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0052-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0054-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0054-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0055-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0055-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0057-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0057-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0058-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0058-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0060-01A-01R-0179-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0060-01A-01R-0179-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0064-01A-01R-0195-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0064-01A-01R-0195-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0069-01A-01R-0195-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0069-01A-01R-0195-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0071-01A-01R-0195-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0071-01A-01R-0195-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0074-01A-01R-0195-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0074-01A-01R-0195-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0075-01A-01R-0195-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0075-01A-01R-0195-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0080-01A-01R-0195-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0080-01A-01R-0195-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0083-01A-01R-0195-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0083-01A-01R-0195-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0085-01A-01R-0195-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0085-01A-01R-0195-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0086-01A-01R-0195-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0086-01A-01R-0195-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0089-01A-01R-0195-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0089-01A-01R-0195-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0099-01A-01R-0195-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0099-01A-01R-0195-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0102-01A-01R-0195-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0102-01A-01R-0195-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0107-01A-01R-0195-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0107-01A-01R-0195-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0113-01A-01R-0195-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0113-01A-01R-0195-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0114-01A-01R-0195-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0114-01A-01R-0195-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0115-01A-01R-0195-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0115-01A-01R-0195-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0116-01A-01R-0195-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-02-0116-01A-01R-0195-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-06-0122-01A-01R-0213-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-06-0122-01A-01R-0213-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-06-0124-01A-01R-0213-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-06-0124-01A-01R-0213-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-06-0125-01A-01R-0213-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-06-0125-01A-01R-0213-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-06-0126-01A-01R-0213-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-06-0126-01A-01R-0213-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-06-0128-01A-01R-0213-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-06-0128-01A-01R-0213-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-06-0129-01A-01R-0213-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-06-0129-01A-01R-0213-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-06-0130-01A-01R-0213-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-06-0130-01A-01R-0213-07__gene_expression_analysis.txt
diff --git a/...t/unc.edu__AgilentG4502A_07_1__TCGA-06-0132-01A-02R-0229-07__gene_expression_analysis.txt b/...t/unc.edu__AgilentG4502A_07_1__TCGA-06-0132-01A-02R-0229-07__gene_expression_analysis.txt