In [None]:
import polars as pl
import os
import re
from rich import print
from rich.console import Console
from pathlib import Path
import csv
from itertools import islice
import argparse

console = Console()


In [None]:
def get_df(file_path):
  '''Carga un archivo, detecta su separador y devuelve un dataframe.

  Args:
      file_path(str): Ruta del archivo.

  Returns:
      pl.DataFrame: DataFrame con los datos.
  '''

  try:

    file_path = Path(file_path).resolve()
    print(f"[yellow]:warning:[/] Se utilizará el siguiente archivo [bold green]{file_path.name}[/]")

    with open(file_path, 'r', newline='', encoding='utf-8') as f:

        sample = ''.join(islice(f, 5)) # Lee (solo) las 5 primeras lineas y las concatena en una cadena ('' hace que no se meta nada en el medio) (Problema csvfile.readlines(): leería todo el archivo y despues se cogerian las 5 primeras)

        delimiter = csv.Sniffer().sniff(sample).delimiter # La clase sniffer detecta el formato de un csv. Sniff es un metodo que devuelve el objeto Dialect. delimiter es un atributo de dialect que contiene el separador
        print(f"[yellow]:warning:[/] Se ha detectado el separador: [bold yellow]{repr(delimiter)}[/]")

        f.seek(0) # Para devolver el puntero al principio del archivo

        df = pl.read_csv(f, separator=delimiter, infer_schema_length=10000) # Polars lee todo el archivo y devuelve el dataframe, aumentamos el infer_schema_length para que detecte bien los tipos de dato de la columna prob

    return df

  except FileNotFoundError:
      console.print(f":x: Archivo no encontrado en la ruta: {file_path}")

In [200]:
df_annotations=get_df(r"merge_tables\BeiRNA\BeiRNA_JoinedAnnotations.tsv")
df_counts=get_df(r"merge_tables\BeiRNA\countsfilteredBeiRNA_BagBrown_vs_countsfilteredBeiRNA_SeaWater.txt")

print(df_annotations)
print(df_counts)



## Validar la tabla de annotations 
 En este caso tengo que ver si la tabla tiene 15 o 35 columnas, si tiene solo 15 devuelve un df con estas tres X.ID", "GENENAME", "DESCRIPTION". Si la tabla tiene 35 se quedas solo con estas 12 ("ORF.ID", "Gene.name", "Gene.length", "ORF.length", "ORF.start",
  "ORF.end", "Strand", "Protein.sequence", "Pfam", "InterPro",
  "GENENAME", "DESCRIPTION").

Si tiene cualquier otro número de columnas lanzar un error e indicar que hay que usar una con 15 o 35

In [330]:
def validate_annotation_table(df):
    if df.width == 15:
        header = ["X ID", "GENENAME", "DESCRIPTION"]
        missing_columns = []

        console.print(f"El DataFrame {"df"} contiene [bold green]15[/] columnas.")

        for column in header:
            if column not in df.columns:
                missing_columns.append(column)    

        if len(missing_columns)!= 0:
            console.print(f"[bold red]:x:[/] La(s) columna(s) [italic purple]{missing_columns}[/] no está(n) presente(s) en el DataFrame {"df"}.")

        else:        
            console.print(f"[bold yellow]:warning: Se seleccionarán las siguientes columnas del DataFrame: [italic green]{header}[/]")
            console.print(f"[bold yellow]:warning: La columna [italic green] X ID[/], se modificará a [italic green] ID [/]")
            
            return df.select([pl.concat_str([pl.col("X ID").str.split("::").list.get(i) for i in range(3)], separator = "::").alias("ID"), 
                              pl.col("X ID").alias("old_ID"), 
                              "GENENAME",
                                "DESCRIPTION"])

    elif df.width == 35:
        header = ["ORF ID", "Gene name", "Gene length", "ORF length", "ORF start", "ORF end", 
                  "Strand", "Protein sequence", "Pfam", "InterPro", "GENENAME", "DESCRIPTION"]
        missing_columns = []

        console.print(f"El DataFrame de anotaciones contiene [bold green]35[/] columnas.")

        for column in header:
            if column not in df.columns:
                missing_columns.append(column)    

        if len(missing_columns)!= 0:
            console.print(f"[bold red]:x:[/] La(s) columna(s) [italic purple]{missing_columns}[/] no está(n) presente(s) en el DataFrame {"df"}.")

        else:        
            console.print(f"[bold yellow]:warning: Se seleccionarán las siguientes columnas del DataFrame: [italic green]{header}[/]")
            return df.select([pl.col("ORF ID").alias("ID"), "Gene name", "Gene length", "ORF length", "ORF start", "ORF end", 
                  "Strand", "Protein sequence", "Pfam", "InterPro", "GENENAME", "DESCRIPTION"])
    
    else: 
        console.print(f"[bold red]:x:[/] DataFrame no válido. Debe contener 15 o 35 columnas.")

In [202]:
df_annotations = validate_annotation_table(df_annotations)
print(df_annotations.columns)
print(df_annotations)

In [None]:
def validate_counts_table(df):
    if df.width == 6:

        if df.columns[0] == '':
            df = df.rename({ '': "old_ID" }) #el fallo puede ser por esto?

        console.print(f"[bold yellow]:warning:[/] Se han cambiado los nombres de las columnas a: [italic green] old_ID, countsfiltered_ControlDMSO_mean, countsfiltered_DEHP_mean, theta, prob y log2FC[/].")
        console.print(f"[bold yellow]:warning:[/] Se ha generado una nueva columna:[italic green] ID [/].")
        df = df.select([
            pl.col(df.columns[0]).alias("old_ID"),
            pl.col("old_ID").str.slice(offset = pl.col("old_ID").str.find("~~") + 2).alias("ID"),
            pl.col(df.columns[1]).alias("countsfiltered_ControlDMSO_mean"),
            pl.col(df.columns[2]).alias("countsfiltered_DEHP_mean"),
            pl.col(df.columns[3]).alias("theta"),
            pl.col(df.columns[4]).alias("prob"),
            pl.col(df.columns[5]).alias("log2FC"),
            ])
        
        return df
    
    else:
        console.print(f"[bold red]:x:[/] DataFrame no válido. Debe contener 6 columnas.")
    

In [204]:
print(df_counts.columns)
df_counts = validate_counts_table(df_counts)
print(df_counts)

In [331]:
def merge_tables (annotation_path, count_path, output_path, output_name):

    file_output = (f"{output_path}/{output_name}")

    df_annotations = validate_annotation_table(get_df(annotation_path))

    df_counts = validate_counts_table(get_df(count_path))

    final_table = df_counts.join(df_annotations, on = "ID", how = "left" )

    final_table.write_csv(file_output)  

    return final_table

    

In [332]:
tabla_final = merge_tables("merge_tables\\BeiRNA\\BeiRNA_JoinedAnnotations.tsv", "merge_tables\\BeiRNA\\countsfilteredBeiRNA_BagBrown_vs_countsfilteredBeiRNA_SeaWater.txt", ".", "final_table.tsv")

print(tabla_final)

In [None]:
if __name__ == "__main__":

    parser = argparse.ArgumentParser(description = "Une las tablas de anotaciones y de expresión diferencial")
    parser.add_argument("-a", "--annotations", required = True, help = "Ruta de la tabla de anotaciones")
    parser.add_argument("-c", "--counts", required = True, help = "Ruta a la tabla de expresión diferencial")
    parser.add_argument("-o", "--outputdir", required = True, help ="Ruta del directorio de salida")
    parser.add_argument("-n", "--name", required = True, help = "Nombre para el archivo de salida")

    args = parser.parse_args()

    merge_tables(
        annotation_path=args.annotation,
        count_path=args.counts,
        output_path=args.output_dir,
        output_name=args.name
        )
