In [13]:
import gzip
import pandas as pd
import os

# Configuraciones de visualización (opcional)
#pd.set_option('display.max_columns', None)
#pd.set_option('display.width', 200)
#pd.set_option('display.max_rows', 10)

archivo_gz = 'GRCh38.nr_duplications.common.acmg_genes.tsv.gz'
archivo_salida_tsv = 'archivo_descomprimido.tsv'

# Leer el archivo comprimido
with gzip.open(archivo_gz, 'rt') as f:
    df = pd.read_csv(f, sep='\t', quotechar='"', escapechar='\\', header=1)

# Verificación inicial de los datos
#print(df.head())
#print(df.columns)

# Guardar los datos descomprimidos en un archivo TSV
df.to_csv(archivo_salida_tsv, sep='\t', index=False)

# Identificar columnas completamente llenas de valores nulos
columnas_con_nulos = [col for col in ['platform', 'clinical_significance', 'clinvar_accession'] if df[col].isnull().all()]
#print("Columnas completamente llenas de valores nulos:", columnas_con_nulos)

# Opcional: eliminar estas columnas específicas si están completamente llenas de nulos
df = df.drop(columns=columnas_con_nulos)
df['variant'] = df['variant'].str.split(';')
df = df.explode('variant')
#print(df.head())

# Identificar columnas que contienen al menos un valor nulo y decidir eliminarlas
columnas_con_algun_nulo = df.columns[df.isnull().any()].tolist()
#print("Columnas que serán eliminadas porque contienen al menos un valor nulo:", columnas_con_algun_nulo)

# Eliminar las columnas que contienen al menos un valor nulo
df = df.drop(columns=columnas_con_algun_nulo)
#print(df.head())

# Seleccionar y verificar un subconjunto específico de columnas
df_1 = df[['#chr', 'outermost_start', 'outermost_stop', 'method', 'variant_type', 'variant', 'gene']]
df_2 = df_1.copy()
df_2.rename(columns={'#chr': 'CHROM', 'outermost_start': 'POS', 'outermost_stop': 'END'}, inplace=True)

# Verificación final del resultado
print(df_2.head())



  CHROM        POS        END      method variant_type      variant   gene
0     1  115690941  115807344  Sequencing  duplication  nssv4298193  CASQ2
0     1  115690941  115807344  Sequencing  duplication  nssv4298194  CASQ2
0     1  115690941  115807344  Sequencing  duplication  nssv4298195  CASQ2
0     1  115690941  115807344  Sequencing  duplication  nssv4298196  CASQ2
0     1  115690941  115807344  Sequencing  duplication  nssv4298197  CASQ2


In [14]:
specific_row = df_2.iloc[1]
print(specific_row)

CHROM                     1
POS               115690941
END               115807344
method           Sequencing
variant_type    duplication
variant         nssv4298194
gene                  CASQ2
Name: 0, dtype: object


In [15]:
# Añadir nuevas columnas que voy a necesitar
df_2['DB'] = 'dbVar' # Columna base de datos

In [16]:
specific_row_2 = df_2.iloc[1]
print(specific_row_2)

CHROM                     1
POS               115690941
END               115807344
method           Sequencing
variant_type    duplication
variant         nssv4298194
gene                  CASQ2
DB                    dbVar
Name: 0, dtype: object


In [17]:
'''El criterio utilizado para eliminar las columnas es que estén completamente llenas de valores nulos. Esto significa que una columna solo será eliminada si todos sus valores son nulos. 
El código verifica todas las entradas de cada columna especificada y las elimina solo si cada entrada en una columna es un valor nulo.'''

'El criterio utilizado para eliminar las columnas es que estén completamente llenas de valores nulos. Esto significa que una columna solo será eliminada si todos sus valores son nulos. \nEl código verifica todas las entradas de cada columna especificada y las elimina solo si cada entrada en una columna es un valor nulo.'

In [18]:
'''El criterio para eliminar las columnas en este caso es que contengan al menos un valor nulo. A diferencia del primer 
código, aquí una columna será eliminada si contiene cualquier número de valores nulos, incluso si solo es uno.'''

'El criterio para eliminar las columnas en este caso es que contengan al menos un valor nulo. A diferencia del primer \ncódigo, aquí una columna será eliminada si contiene cualquier número de valores nulos, incluso si solo es uno.'

In [19]:
'''Esta línea reasigna al DataFrame df manteniendo solo las columnas especificadas: '#chr', 'outermost_start', 'outermost_stop', 'method', 'variant_type', 'variant', y 'gene'. Esencialmente, filtra el DataFrame para incluir solo estas columnas, eliminando todas las demás que puedan existir. 
Si inicialmente el DataFrame tenía más columnas, estas serán eliminadas de la vista resultante.'''

"Esta línea reasigna al DataFrame df manteniendo solo las columnas especificadas: '#chr', 'outermost_start', 'outermost_stop', 'method', 'variant_type', 'variant', y 'gene'. Esencialmente, filtra el DataFrame para incluir solo estas columnas, eliminando todas las demás que puedan existir. \nSi inicialmente el DataFrame tenía más columnas, estas serán eliminadas de la vista resultante."

In [20]:
'''Este código guarda el contenido del DataFrame df en un archivo TSV dentro de una carpeta llamada 'Salidas' y luego imprime un mensaje que informa al usuario de que la operación se ha completado con éxito.'''

"Este código guarda el contenido del DataFrame df en un archivo TSV dentro de una carpeta llamada 'Salidas' y luego imprime un mensaje que informa al usuario de que la operación se ha completado con éxito."

In [21]:
# Define la ruta y el nombre del archivo TSV de salida
archivo_salida_tsv = 'salida_GRCh38.nr_duplications.tsv'
carpeta_salida = 'Salidas'
archivo_salida_tsv = os.path.join(carpeta_salida, archivo_salida_tsv)
# Guardar el DataFrame en un archivo TSV
df_2.to_csv(archivo_salida_tsv, sep='\t', index=False)

print(f"DataFrame guardado con éxito en '{carpeta_salida}'")


DataFrame guardado con éxito en 'Salidas'


In [22]:
#archivo_gz = 'GRCh38.variant_call.clinical.conflicting_or_other.vcf.gz'

# Descomprimir y leer el archivo
#with gzip.open(archivo_gz, 'rt') as archivo:
#    for linea in archivo:
#        print(linea)

In [23]:
'''este código verifica que todas las columnas necesarias estén presentes en un DataFrame, lo filtra 
para retener solo estas columnas relevantes y luego guarda el DataFrame filtrado en un archivo TSV, informando al usuario del resultado de estas operaciones.'''

'este código verifica que todas las columnas necesarias estén presentes en un DataFrame, lo filtra \npara retener solo estas columnas relevantes y luego guarda el DataFrame filtrado en un archivo TSV, informando al usuario del resultado de estas operaciones.'

In [24]:
# Lista de columnas relevantes según tu YARRRML
# Ajusta esta lista según las columnas que realmente estén definidas en tu YARRRML
relevant_columns = ['#chr', 'outermost_start', 'outermost_stop', 'variant']

# Verifica si todas las columnas relevantes existen en el DataFrame, para evitar errores
missing_columns = [col for col in relevant_columns if col not in df.columns]
if missing_columns:
    print("Advertencia: Las siguientes columnas relevantes no se encontraron en el archivo:", missing_columns)
else:
    # Elimina las columnas que no están en 'relevant_columns'
    df = df[relevant_columns]

    # Guarda el DataFrame resultante en un nuevo archivo
    output_path = 'archivo_filtrado.tsv'  # Asegúrate de actualizar esta ruta
    df.to_csv(output_path, sep='\t', index=False)

    print(f"Archivo guardado exitosamente en: {output_path}")

Archivo guardado exitosamente en: archivo_filtrado.tsv
