# <span style="color:navy"> Análisis de secuenciación de RNA de una sola célula (scRNA-seq) en hepatoblastoma (HB)</span>

El presente análisis de secuenciación de una sola célula, se basa en los estudios de Bruce Aronow et al., (January 25, 2023), *Modeling Hepatoblastoma: Identification of Distinct Tumor Cell Populations and Key Genetic Mechanisms through Single Cell Sequencing (scRNA-seq)* y de Sonya A MacParland et al. (June 19, 2024), *Single cell RNA sequencing of human liver reveals distinct intrahepatic macrophage populations* obtenidos a través del portal [Human Cell Atlas](https://data.humancellatlas.org/) (HCA) donde: 

1. **Primer estudio:** Bruce Aronow et al. (January 25, 2023) [Modeling Hepatoblastoma: Identification of Distinct Tumor Cell Populations and Key Genetic Mechanisms through Single Cell Sequencing (scRNA-seq)](https://explore.data.humancellatlas.org/projects/2084526b-a66f-4c40-bb89-6fd162f2eb38), se descargaron los archivos de matriz 10X con un subconjunto de muestra: 2 muestras de hígado sano (control) y 5 muestras de tumor de hepatoblastoma con el tipo de archivo *tar.gz* que contiene 14 archivos (2,63 GB).

2. **Segundo estudio:** Sonya A MacParland et al. (June 19, 2024) [Single cell RNA sequencing of human liver reveals distinct intrahepatic macrophage populations](https://explore.data.humancellatlas.org/projects/4d6f6c96-2a83-43d8-8fe1-0f53bffd4674), se descargaron los archivos en formato *loom* que contiene 6 archivos (7,67 GB) donde se seleccionaron 5 muestras tumorales y 2 controles.

Después de la descarga de los archivos y antes de preprocesar los datos, se limpian los datos para trabajar solo con el número de genes (n_genes), identificadores de genes y el número de células (n_cells).

----------

El artículo titulado "*Identification of distinct tumor cell populations and key genetic mechanisms through single cell sequencing in hepatoblastoma*" se enfoca en el análisis del hepatoblastoma (HB), el tumor hepático maligno más común durante la infancia, en pacientes pediátricos. Los investigadores emplearon la secuenciación de ARN de una sola célula (scRNAseq) para estudiar muestras de tumor humano, tejido hepático adyacente no tumoral y xenoinjertos derivados de pacientes (PDX). 

**Características de las muestras utilizadas:**

- **Muestras de tumor humano:** Se obtuvieron directamente de pacientes pediátricos diagnosticados con hepatoblastoma (HB).

- **Tejido hepático adyacente no tumoral:** Muestras de hígado sin afectación tumoral, recolectadas de las mismas áreas anatómicas que las muestras tumorales para servir como controles.

- **Xenoinjertos derivados de pacientes (PDX):** Fragmentos de tumor humano fueron implantados en ratones inmunodeficientes para generar modelos PDX, permitiendo el estudio del tumor en un entorno in vivo.

**Etapa de la enfermedad en los pacientes:**

El artículo no proporciona detalles específicos sobre las etapas clínicas de la enfermedad en los pacientes de los cuales se obtuvieron las muestras. Sin embargo, dado que las muestras tumorales se utilizaron para crear modelos PDX y para análisis moleculares detallados, es probable que provinieran de pacientes en etapas donde el tumor era accesible para biopsia o resección quirúrgica.

**<span style="color:navy">Evaluación y caracterización del microambiente celular:</span>**

Mediante el análisis de scRNAseq, los investigadores identificaron diversas poblaciones celulares dentro del tumor y el tejido hepático adyacente. Se detectaron diferentes tipos de células, incluyendo células tumorales, hepatocitos, células endoteliales, células estrelladas hepáticas, eritrocitos, células T/NK y colangiocitos. Además, se identificaron subpoblaciones específicas de células tumorales con perfiles genéticos distintos, lo que sugiere heterogeneidad intratumoral. Este enfoque permitió una comprensión detallada de las interacciones entre las células tumorales y su microambiente, proporcionando información valiosa sobre los mecanismos genéticos clave en el desarrollo y progresión del hepatoblastoma.

----------

El artículo titulado "*Single cell RNA sequencing of human liver reveals distinct intrahepatic macrophage populations*" se centra en la creación de un mapa detallado del paisaje celular del hígado humano mediante la secuenciación de ARN de una sola célula (scRNA-seq).

**Características de las muestras utilizadas:**

- **Origen de las muestras:** Se obtuvieron muestras de tejido hepático fresco de cinco donantes humanos fallecidos por muerte neurológica (NDD). Estos donantes fueron considerados sanos en términos hepáticos, ya que sus hígados estaban destinados a trasplante pero no fueron utilizados por razones no relacionadas con la salud del órgano.

- **Proceso de disociación:** Se desarrolló un protocolo específico para disociar el tejido hepático en células individuales sin dañar poblaciones celulares frágiles, evitando técnicas que pudieran enriquecer o sesgar ciertas poblaciones celulares.

**Etapa de la enfermedad en los pacientes:**

Las muestras provinieron de donantes sin enfermedades hepáticas conocidas, por lo que se consideran representativas de hígados sanos. No se incluyeron pacientes con patologías hepáticas en este estudio.

**<span style="color:navy">Evaluación y caracterización del microambiente celular:</span>**

Mediante scRNA-seq, los investigadores analizaron 8,444 células hepáticas, identificando 20 poblaciones celulares distintas, incluyendo:

- **Células parenquimatosas:** Hepatocitos.

- **Células no parenquimatosas:** Células endoteliales, colangiocitos, células estrelladas hepáticas, células B, diversas subpoblaciones de células T convencionales y no convencionales, células NK y diferentes poblaciones de macrófagos intrahepáticos.

Un hallazgo destacado fue la identificación de dos poblaciones distintas de macrófagos residentes en el hígado, sugiriendo funciones inflamatorias y no inflamatorias/inmunorreguladoras específicas. Este análisis detallado proporciona una visión integral del microambiente inmunológico hepático en condiciones normales.

--------

## <span style="color:cornflowerblue"> 1. Loading and writing </span>

### <span style="color:navy">1.0 Configuración del entorno y datos</span>

Cargamos las librerias necesarias en Python. La API de Scanpy proporciona acceso a un conjunto completo de herramientas, que utiliza bibliotecas como NumPy y SciPy, mientras que Pandas facilita la importación de datos y gestiona las estructuras de datos, particularmente el módulo AnnData. Para las visualizaciones, se deben importar Matplotlib y Seaborn.

In [1]:
#Para descargas
import gdown, os, gzip, shutil

# Gestión básica de datos y representación gráfica
import pandas as pd
import numpy as np
from scipy import sparse
import matplotlib.pyplot as plt
import os

# Scanpy fundamentals
import anndata as ad
import scanpy as sc
import seaborn as sb

# sc.settings.set_figure_params(dpi=200, frameon=False)
sc.set_figure_params(figsize=(6, 6))
import scvi

  from .autonotebook import tqdm as notebook_tqdm
  doc = func(self, args[0].__doc__, *args[1:], **kwargs)


----------
### <span style="color:navy">1.1 Carga de las muestras control de hígado sano</span>
Estas muestras corresponden a las del **segundo estudio**: Sonya A MacParland et al. (June 19, 2024) [Single cell RNA sequencing of human liver reveals distinct intrahepatic macrophage populations](https://explore.data.humancellatlas.org/projects/4d6f6c96-2a83-43d8-8fe1-0f53bffd4674), que son archivos en formato *loom* que contiene 6 archivos (7,67 GB); 5 muestras tumorales y 2 controles.

**Download via curl** --> Species: Homo sapiens

File Type:
| Name      | File Count | File Size |
|-----------|------------|-----------|
| loom      | 6          | 7.67 GB   |

**Formatos de archivos de entrada**

| Nombre                           | Extensión |
|---------------------------------|-----------|
| 10x hdf5                        | .hdf5     |
| R Data Format                   | .rds      |
| AnnData Object                  | .h5ad     |
| Loom                            | .loom     |
| Text-based Market Exchange Format (MEX) | .mtx      |

In [4]:
%cd /home/mcgonzalez/Servicio_Social/Data/HB_filtered

/home/mcgonzalez/Servicio_Social/Data/HB_filtered


In [5]:
import gzip
import shutil
import os

# Ruta base donde están los archivos
base_path = "/home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB17_background_filtered_feature_bc_matrix"

# Archivos de entrada y salida
files = [
    "barcodes.tsv.gz",
    "features.tsv.gz",
    "matrix.mtx.gz",
]

# Descomprimir cada archivo
for file in files:
    input_path = os.path.join(base_path, file)
    output_path = os.path.join(base_path, file.replace('.gz', ''))
    with gzip.open(input_path, 'rb') as f_in:
        with open(output_path, 'wb') as f_out:
            shutil.copyfileobj(f_in, f_out)
            print(f"Descomprimido: {input_path}")

Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB17_background_filtered_feature_bc_matrix/barcodes.tsv.gz
Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB17_background_filtered_feature_bc_matrix/features.tsv.gz
Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB17_background_filtered_feature_bc_matrix/matrix.mtx.gz


In [6]:
adata6 = sc.read_10x_mtx(
    "/home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB17_background_filtered_feature_bc_matrix",
    var_names="gene_symbols",
    cache=False  # Fuerza la lectura directa sin caché
)

In [7]:
adata6.var_names_make_unique()

In [8]:
sc.pp.filter_genes(adata6, min_cells =10)
sc.pp.filter_cells(adata6, min_genes =200)

In [9]:
adata6.var = adata6.var.drop(columns=['feature_types'])
adata6.var_names_make_unique()
adata6

AnnData object with n_obs × n_vars = 11197 × 16895
    obs: 'n_genes'
    var: 'gene_ids', 'n_cells'

In [10]:
import gzip
import shutil
import os

# Ruta base donde están los archivos
base_path = "/home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB53_background_filtered_feature_bc_matrix"

# Archivos de entrada y salida
files = [
    "barcodes.tsv.gz",
    "features.tsv.gz",
    "matrix.mtx.gz",
]

# Descomprimir cada archivo
for file in files:
    input_path = os.path.join(base_path, file)
    output_path = os.path.join(base_path, file.replace('.gz', ''))
    with gzip.open(input_path, 'rb') as f_in:
        with open(output_path, 'wb') as f_out:
            shutil.copyfileobj(f_in, f_out)
            print(f"Descomprimido: {input_path}")

Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB53_background_filtered_feature_bc_matrix/barcodes.tsv.gz
Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB53_background_filtered_feature_bc_matrix/features.tsv.gz
Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB53_background_filtered_feature_bc_matrix/matrix.mtx.gz


In [17]:
adata7 = sc.read_10x_mtx(
    "/home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB53_background_filtered_feature_bc_matrix",
    var_names="gene_symbols",
    cache=False  # Fuerza la lectura directa sin caché
)

In [18]:
adata7.var_names_make_unique()

In [19]:
sc.pp.filter_genes(adata7, min_cells =10)
sc.pp.filter_cells(adata7, min_genes =200)

In [20]:
adata7.var = adata7.var.drop(columns=['feature_types'])
adata7.var_names_make_unique()
adata7

AnnData object with n_obs × n_vars = 8540 × 22277
    obs: 'n_genes'
    var: 'gene_ids', 'n_cells'

-------------
## <span style="color:navy">1.2 Carga de muestras de hepatoblastoma (HB)</span>
Estas muestras corresponden al primer estudio de Bruce Aronow et al. (January 25, 2023) [Modeling Hepatoblastoma: Identification of Distinct Tumor Cell Populations and Key Genetic Mechanisms through Single Cell Sequencing (scRNA-seq)](https://explore.data.humancellatlas.org/projects/2084526b-a66f-4c40-bb89-6fd162f2eb38), que contiene los archivos de matriz 10X; 2 muestras de hígado sano (control) y 5 muestras de tumor de hepatoblastoma con el tipo de archivo *tar.gz* que contiene 14 archivos (2,63 GB).

**Download via curl** --> Species: Homo sapiens

File Type:
| Name      | File Count | File Size |
|-----------|------------|-----------|
| tar.gz    | 14         | 2.63 GB   |

In [21]:
import gzip
import shutil
import os

# Ruta base donde están los archivos
base_path = "/home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB17_tumor_filtered_feature_bc_matrix"

# Archivos de entrada y salida
files = [
    "barcodes.tsv.gz",
    "features.tsv.gz",
    "matrix.mtx.gz",
]

# Descomprimir cada archivo
for file in files:
    input_path = os.path.join(base_path, file)
    output_path = os.path.join(base_path, file.replace('.gz', ''))
    with gzip.open(input_path, 'rb') as f_in:
        with open(output_path, 'wb') as f_out:
            shutil.copyfileobj(f_in, f_out)
            print(f"Descomprimido: {input_path}")

Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB17_tumor_filtered_feature_bc_matrix/barcodes.tsv.gz
Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB17_tumor_filtered_feature_bc_matrix/features.tsv.gz
Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB17_tumor_filtered_feature_bc_matrix/matrix.mtx.gz


In [22]:
adata8 = sc.read_10x_mtx('HB17_tumor_filtered_feature_bc_matrix', var_names='gene_symbols')

In [23]:
adata8.var_names_make_unique()

In [24]:
sc.pp.filter_genes(adata8, min_cells =10)
sc.pp.filter_cells(adata8, min_genes =200)

In [25]:
adata8.var = adata8.var.drop(columns=['feature_types'])
adata8.var_names_make_unique()
adata8

AnnData object with n_obs × n_vars = 7995 × 22112
    obs: 'n_genes'
    var: 'gene_ids', 'n_cells'

In [26]:
import gzip
import shutil
import os

# Ruta base donde están los archivos
base_path = "/home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB17_PDX_filtered_feature_bc_matrix"

# Archivos de entrada y salida
files = [
    "barcodes.tsv.gz",
    "features.tsv.gz",
    "matrix.mtx.gz",
]

# Descomprimir cada archivo
for file in files:
    input_path = os.path.join(base_path, file)
    output_path = os.path.join(base_path, file.replace('.gz', ''))
    with gzip.open(input_path, 'rb') as f_in:
        with open(output_path, 'wb') as f_out:
            shutil.copyfileobj(f_in, f_out)
            print(f"Descomprimido: {input_path}")

Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB17_PDX_filtered_feature_bc_matrix/barcodes.tsv.gz
Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB17_PDX_filtered_feature_bc_matrix/features.tsv.gz
Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB17_PDX_filtered_feature_bc_matrix/matrix.mtx.gz


In [27]:
adata9 = sc.read_10x_mtx(
    "/home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB17_PDX_filtered_feature_bc_matrix",
    var_names="gene_symbols",
    cache=False  # Fuerza la lectura directa sin caché
)

In [28]:
adata9.var_names_make_unique()

In [29]:
sc.pp.filter_genes(adata9, min_cells =10)
sc.pp.filter_cells(adata9, min_genes =200)

In [30]:
adata9.var = adata9.var.drop(columns=['feature_types'])
adata9.var_names_make_unique()
adata9

AnnData object with n_obs × n_vars = 8027 × 22405
    obs: 'n_genes'
    var: 'gene_ids', 'n_cells'

In [31]:
import gzip
import shutil
import os

# Ruta base donde están los archivos
base_path = "/home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB30_tumor_filtered_feature_bc_matrix"

# Archivos de entrada y salida
files = [
    "barcodes.tsv.gz",
    "features.tsv.gz",
    "matrix.mtx.gz",
]

# Descomprimir cada archivo
for file in files:
    input_path = os.path.join(base_path, file)
    output_path = os.path.join(base_path, file.replace('.gz', ''))
    with gzip.open(input_path, 'rb') as f_in:
        with open(output_path, 'wb') as f_out:
            shutil.copyfileobj(f_in, f_out)
            print(f"Descomprimido: {input_path}")

Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB30_tumor_filtered_feature_bc_matrix/barcodes.tsv.gz
Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB30_tumor_filtered_feature_bc_matrix/features.tsv.gz
Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB30_tumor_filtered_feature_bc_matrix/matrix.mtx.gz


In [32]:
adata10 = sc.read_10x_mtx(
    "/home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB30_tumor_filtered_feature_bc_matrix",
    var_names="gene_symbols",
    cache=False  # Fuerza la lectura directa sin caché
)

In [33]:
adata10.var_names_make_unique()

In [34]:
sc.pp.filter_genes(adata10, min_cells =10)
sc.pp.filter_cells(adata10, min_genes =200)

In [35]:
adata10.var = adata10.var.drop(columns=['feature_types'])
adata10.var_names_make_unique()
adata10

AnnData object with n_obs × n_vars = 19042 × 24433
    obs: 'n_genes'
    var: 'gene_ids', 'n_cells'

In [36]:
import gzip
import shutil
import os

# Ruta base donde están los archivos
base_path = "/home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB30_PDX_filtered_feature_bc_matrix"

# Archivos de entrada y salida
files = [
    "barcodes.tsv.gz",
    "features.tsv.gz",
    "matrix.mtx.gz",
]

# Descomprimir cada archivo
for file in files:
    input_path = os.path.join(base_path, file)
    output_path = os.path.join(base_path, file.replace('.gz', ''))
    with gzip.open(input_path, 'rb') as f_in:
        with open(output_path, 'wb') as f_out:
            shutil.copyfileobj(f_in, f_out)
            print(f"Descomprimido: {input_path}")

Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB30_PDX_filtered_feature_bc_matrix/barcodes.tsv.gz
Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB30_PDX_filtered_feature_bc_matrix/features.tsv.gz
Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB30_PDX_filtered_feature_bc_matrix/matrix.mtx.gz


In [37]:
adata11 = sc.read_10x_mtx(
    "/home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB30_PDX_filtered_feature_bc_matrix",
    var_names="gene_symbols",
    cache=False  # Fuerza la lectura directa sin caché
)

In [38]:
adata11.var_names_make_unique()

In [39]:
sc.pp.filter_genes(adata11, min_cells =10)
sc.pp.filter_cells(adata11, min_genes =200)

In [40]:
adata11.var = adata11.var.drop(columns=['feature_types'])
adata11.var_names_make_unique()
adata11

AnnData object with n_obs × n_vars = 10303 × 23198
    obs: 'n_genes'
    var: 'gene_ids', 'n_cells'

In [41]:
import gzip
import shutil
import os

# Ruta base donde están los archivos
base_path = "/home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB53_tumor_filtered_feature_bc_matrix"

# Archivos de entrada y salida
files = [
    "barcodes.tsv.gz",
    "features.tsv.gz",
    "matrix.mtx.gz",
]

# Descomprimir cada archivo
for file in files:
    input_path = os.path.join(base_path, file)
    output_path = os.path.join(base_path, file.replace('.gz', ''))
    with gzip.open(input_path, 'rb') as f_in:
        with open(output_path, 'wb') as f_out:
            shutil.copyfileobj(f_in, f_out)
            print(f"Descomprimido: {input_path}")

Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB53_tumor_filtered_feature_bc_matrix/barcodes.tsv.gz
Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB53_tumor_filtered_feature_bc_matrix/features.tsv.gz
Descomprimido: /home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB53_tumor_filtered_feature_bc_matrix/matrix.mtx.gz


In [42]:
adata12 = sc.read_10x_mtx(
    "/home/mcgonzalez/Servicio_Social/Data/HB_filtered/HB53_tumor_filtered_feature_bc_matrix",
    var_names="gene_symbols",
    cache=False  # Fuerza la lectura directa sin caché
)

In [43]:
adata12 = sc.read_10x_mtx('HB53_tumor_filtered_feature_bc_matrix', var_names='gene_symbols')

In [44]:
adata12.var_names_make_unique()

In [45]:
sc.pp.filter_genes(adata12, min_cells =10)
sc.pp.filter_cells(adata12, min_genes =200)

In [46]:
adata12.var = adata12.var.drop(columns=['feature_types'])
adata12.var_names_make_unique()
adata12

AnnData object with n_obs × n_vars = 12832 × 24324
    obs: 'n_genes'
    var: 'gene_ids', 'n_cells'

## <span style="color:navy">1.3 Creación de archivos h5ad</span>

In [47]:
pwd

'/home/mcgonzalez/Servicio_Social/Data/HB_filtered'

In [48]:
%cd /home/mcgonzalez/Servicio_Social/Data/Inicial_h5ad

/home/mcgonzalez/Servicio_Social/Data/Inicial_h5ad


  self.shell.db['dhist'] = compress_dhist(dhist)[-100:]


-----
**`adata1.write_h5ad('control1')`** guarda el objeto `adata1` en un archivo en formato `.h5ad` donde `adata1` es un objeto del tipo `AnnData`; almacena la matriz de expresión génica junto con metadatos adicionales, `.write_h5ad('control1')` es un método del objeto `AnnData` que se usa para escribir y guardar el objeto en un archivo en el formato `.h5ad`; el formato `.h5ad` se basa en HDF5 (un formato de archivo para almacenar grandes cantidades de datos jerárquicamente) y está optimizado para datos de secuenciación de ARN de una sola célula, y `'control1'` es el nombre designado para el archivo de salida llamado `control1.h5ad`.

**Nota:** el método `write_h5ad` agrega automáticamente la extensión `.h5ad` si no se proporciona.

In [49]:
adata6.write_h5ad('control6')

In [50]:
adata7.write_h5ad('control7')

In [51]:
adata8.write_h5ad('tumor_s1')

In [52]:
adata9.write_h5ad('tumor_s2')

In [53]:
adata10.write_h5ad('tumor_s3')

In [54]:
adata11.write_h5ad('tumor_s4')

In [55]:
adata12.write_h5ad('tumor_s5')