# Notebook de exploración y preprocesado de los datos

En este notebook hacemos una exploración más exhaustiva de los datos realizando un preprocesamiento inicial con una primera preselcción y generación de datasets de train y test.


## Data exploration

## Libreries

In [1]:
import pandas as pd
import scanpy as sc
from anndata import AnnData

## Load data

In [9]:
#data_folder = "demo data/"
#adata = sc.read_h5ad(data_folder + "adata_layer1.h5ad") #<---
adata_conway = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/Conway20.h5ad")
adata_dumas = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/Dumas20.h5ad")
adata_hinze = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/Hinze20.h5ad")
adata_janosevic = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/Janosevic21.h5ad")
adata_kirita = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/Kirita20.h5ad")
adata_miao = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/Miao21.h5ad")
adata_park = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/Park18.h5ad")
adata_wu = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/Wu19.h5ad")

In [7]:
adata_wu

AnnData object with n_obs × n_vars = 97445 × 16653
    obs: 'Origin', 'suspension_type', 'n_genes', 'n_genes_by_counts', 'log1p_n_genes_by_counts', 'total_counts', 'log1p_total_counts', 'total_counts_mt', 'log1p_total_counts_mt', 'pct_counts_mt', 'total_counts_ribo', 'log1p_total_counts_ribo', 'pct_counts_ribo', 'total_counts_hb', 'log1p_total_counts_hb', 'pct_counts_hb', 'author_cell_type', 'disease_ontology_term_id', 'self_reported_ethnicity_ontology_term_id', 'cell_type_ontology_term_id', 'organism_ontology_term_id', 'sex_ontology_term_id', 'is_primary_data', 'development_stage_ontology_term_id', 'tissue_ontology_term_id', 'assay_ontology_term_id', 'donor_id', 'cell_type', 'assay', 'disease', 'organism', 'sex', 'tissue', 'self_reported_ethnicity', 'development_stage', 'batch'
    var: 'feature_is_filtered', 'feature_name', 'feature_reference', 'feature_biotype'
    uns: 'schema_version', 'title'
    obsm: 'X_scANVI', 'X_scVI', 'X_umap'

In [3]:
# Lista de variables que contienen los datasets
datasets = [adata_conway, adata_hinze, adata_janosevic, adata_kirita, adata_miao, adata_park, adata_wu]

# Lista de nombres de los datasets
nombres_datasets = ['conway', 'hinze', 'janosevic', 'kirita', 'miao', 'park', 'wu']

# Realizar análisis descriptivos y visualizaciones para cada dataset
for dataset, nombre in zip(datasets, nombres_datasets):
    if dataset is not None:  # Verificar si dataset no es None
        # Obtener el conteo de instancias por clase
        conteo_por_clase = dataset.obs['cell_type'].value_counts()
        
        # Calcular el número total de instancias sumando el conteo de instancias por clase
        total_instancias = conteo_por_clase.sum()
        
        print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")


El número total de instancias en el dataset conway es: 5852
El número total de instancias en el dataset hinze es: 30586
El número total de instancias en el dataset janosevic es: 9145
El número total de instancias en el dataset kirita es: 25850
El número total de instancias en el dataset miao es: 22813
El número total de instancias en el dataset park es: 25828
El número total de instancias en el dataset wu es: 11221


In [4]:
# Lista de variables que contienen los datasets
datasets = [adata_conway, adata_hinze, adata_janosevic, adata_kirita, adata_miao, adata_park, adata_wu]

# Lista de nombres de los datasets
nombres_datasets = ['conway', 'hinze', 'janosevic', 'kirita', 'miao', 'park', 'wu']

# Realizar análisis descriptivos y visualizaciones para cada dataset
for dataset, nombre in zip(datasets, nombres_datasets):
    if dataset is not None:  # Verificar si dataset no es None
        # Obtener el número de columnas
        num_columnas = dataset.X.shape[1]
        
        print(f"El número de columnas en el dataset {nombre} es: {num_columnas}")


El número de columnas en el dataset conway es: 16653
El número de columnas en el dataset hinze es: 16653
El número de columnas en el dataset janosevic es: 16653
El número de columnas en el dataset kirita es: 16653
El número de columnas en el dataset miao es: 16653
El número de columnas en el dataset park es: 16653
El número de columnas en el dataset wu es: 16653


In [11]:
# Dataset específico a analizar
dataset = adata_wu
nombre = 'conway'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")


El número total de instancias en el dataset conway es: 20644
El conteo de instancias por clase en el dataset conway es:
cell_type
epithelial cell of proximal tubule                                     10522
kidney distal convoluted tubule epithelial cell                         3912
native cell                                                             1108
T cell                                                                   666
kidney connecting tubule epithelial cell                                 665
kidney loop of Henle epithelial cell                                     634
renal beta-intercalated cell                                             553
endothelial cell                                                         510
kidney loop of Henle medullary thick ascending limb epithelial cell      357
kidney collecting duct principal cell                                    295
macrophage                                                               286
kidney loop of Henle co

In [None]:
# Dataset específico a analizar
dataset = adata_wu
nombre = 'conway'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Filtrar las clases que tienen más de 20 instancias
    clases_validas = conteo_por_clase[conteo_por_clase > 20].index
    
    # Crear un subconjunto del dataset con las clases válidas
    dataset_subconjunto = dataset[dataset.obs['cell_type'].isin(clases_validas)].copy()
    
    # Mostrar información del subconjunto
    print(f"El número total de instancias en el dataset {nombre} después del filtrado es: {dataset_subconjunto.n_obs}")
    print("Conteo de instancias por clase en el subconjunto:")
    print(dataset_subconjunto.obs['cell_type'].value_counts())
else:
    print(f"El dataset {nombre} es None")


In [None]:
# Lista de rutas de los datasets
rutas_datasets = [
    "/home/a/Escritorio/TFM/src/NSForest/data/Conway20.h5ad",
    "/home/a/Escritorio/TFM/src/NSForest/data/Dumas20.h5ad",
    "/home/a/Escritorio/TFM/src/NSForest/data/Hinze20.h5ad",
    "/home/a/Escritorio/TFM/src/NSForest/data/Janosevic21.h5ad",
    "/home/a/Escritorio/TFM/src/NSForest/data/Kirita20.h5ad",
    "/home/a/Escritorio/TFM/src/NSForest/data/Miao21.h5ad",
    "/home/a/Escritorio/TFM/src/NSForest/data/Park18.h5ad",
    "/home/a/Escritorio/TFM/src/NSForest/data/Wu19.h5ad"
]

# Lista de nombres de los datasets
nombres_datasets = ['Conway20', 'Dumas20', 'Hinze20', 'Janosevic21', 'Kirita20', 'Miao21', 'Park18', 'Wu19']

# Ruta de salida para guardar los subconjuntos
ruta_salida = "/home/a/Escritorio/TFM/src/NSForest/data/"

# Iterar sobre las rutas de los datasets y nombres
for ruta, nombre in zip(rutas_datasets, nombres_datasets):
    # Cargar el dataset
    dataset = sc.read_h5ad(ruta)
    
    if dataset is not None:
        # Obtener el conteo de instancias por clase
        conteo_por_clase = dataset.obs['cell_type'].value_counts()
        
        # Filtrar las clases que tienen más de 20 instancias
        clases_validas = conteo_por_clase[conteo_por_clase > 20].index
        
        # Crear un subconjunto del dataset con las clases válidas
        dataset_subconjunto = dataset[dataset.obs['cell_type'].isin(clases_validas)].copy()
        
        # Guardar el subconjunto en la ruta especificada
        ruta_guardado = ruta_salida + nombre + "_subconjunto.h5ad"
        dataset_subconjunto.write(ruta_guardado)
        
        # Mostrar información del subconjunto
        print(f"El número total de instancias en el dataset {nombre} después del filtrado es: {dataset_subconjunto.n_obs}")
        print(f"El subconjunto ha sido guardado en: {ruta_guardado}")
    else:
        print(f"El dataset {nombre} es None")


In [3]:
adata_conway = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/Conway20_subconjunto.h5ad")
adata_hinze = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/Hinze20_subconjunto.h5ad")
adata_janosevic = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/Janosevic21_subconjunto.h5ad")
adata_kirita = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/Kirita20_subconjunto.h5ad")
adata_miao = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/Miao21_subconjunto.h5ad")
adata_park = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/Park18_subconjunto.h5ad")
adata_wu = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/Wu19_subconjunto.h5ad")

In [3]:
# Lista de variables que contienen los datasets
datasets = [adata_conway, adata_hinze, adata_janosevic, adata_kirita, adata_miao, adata_park, adata_wu]

# Lista de nombres de los datasets
nombres_datasets = ['conway', 'hinze', 'janosevic', 'kirita', 'miao', 'park', 'wu']

# Contar el número de clusters diferentes en cada dataset
for dataset, nombre in zip(datasets, nombres_datasets):
    if dataset is not None:  # Verificar si dataset no es None
        clusters_diferentes = dataset.obs['cell_type'].nunique()
        print(f"En el dataset {nombre} hay {clusters_diferentes} clusters diferentes.")
    else:
        print(f"El dataset {nombre} no está disponible.")

En el dataset conway hay 13 clusters diferentes.
En el dataset hinze hay 20 clusters diferentes.
En el dataset janosevic hay 14 clusters diferentes.
En el dataset kirita hay 18 clusters diferentes.
En el dataset miao hay 18 clusters diferentes.
En el dataset park hay 21 clusters diferentes.
En el dataset wu hay 13 clusters diferentes.


In [4]:
# Lista de nombres de los datasets
nombres_datasets = ['conway', 'hinze', 'janosevic', 'kirita', 'miao', 'park', 'wu']

# Diccionario para almacenar los nombres de clusters de cada dataset
clusters_por_dataset = {nombre: set(dataset.obs['cell_type'].unique()) for nombre, dataset in zip(nombres_datasets, datasets) if dataset is not None}

# Obtener la lista de todos los clusters únicos
todos_clusters = sorted(set.union(*[set(clusters) for clusters in clusters_por_dataset.values()]))

# Construir el DataFrame con los nombres de los clusters como índice y los nombres de los datasets como columnas
df = pd.DataFrame(0, columns=nombres_datasets, index=todos_clusters)

# Rellenar el DataFrame con 0 o 1 dependiendo de si el cluster se encuentra en el dataset o no
for dataset, clusters in clusters_por_dataset.items():
    for cluster in todos_clusters:
        df.loc[cluster, dataset] = 1 if cluster in clusters else 0

# Exportar el DataFrame a un archivo CSV
df.to_csv('clusters.csv')

# Mostrar el DataFrame
df

Unnamed: 0,conway,hinze,janosevic,kirita,miao,park,wu
B cell,0,0,0,0,0,1,0
T cell,1,1,1,1,1,1,0
dendritic cell,0,0,1,0,0,0,0
endothelial cell,1,1,1,1,1,1,1
epithelial cell of proximal tubule,1,1,1,1,1,1,1
fibroblast,0,1,0,1,0,0,0
glomerular endothelial cell,1,1,0,0,1,1,0
kidney collecting duct epithelial cell,0,0,0,0,0,1,0
kidney collecting duct principal cell,1,1,1,1,1,1,1
kidney connecting tubule epithelial cell,1,1,1,1,1,1,1


Datasets:
- conway, hinze,	janosevic,	kirita,	miao,	park,	wu:
    - endothelial cell
    - epithelial cell of proximal tubule
    - kidney collecting duct principal cell	
    - kidney connecting tubule epithelial cell
    - kidney distal convoluted tubule epithelial cell
    - renal beta-intercalated cell

- conway, hinze,	janosevic,	kirita,	miao,	park:
    - T cell
    - endothelial cell
    - epithelial cell of proximal tubule
    - kidney collecting duct principal cell	
    - kidney connecting tubule epithelial cell
    - kidney distal convoluted tubule epithelial cell
    - kidney loop of Henle cortical thick ascending limb epithelial cell	
    - kidney loop of Henle epithelial cell
    - kidney loop of Henle medullary thick ascending limb epithelial cell
    - renal beta-intercalated cell

- conway, hinze,	janosevic, kirita, miao:
    - T cell
    - endothelial cell
    - epithelial cell of proximal tubule
    - kidney collecting duct principal cell	
    - kidney connecting tubule epithelial cell
    - kidney distal convoluted tubule epithelial cell
    - kidney loop of Henle cortical thick ascending limb epithelial cell	
    - kidney loop of Henle epithelial cell
    - kidney loop of Henle medullary thick ascending limb epithelial cell
    - renal beta-intercalated cell

- conway, hinze,	janosevic, kirita:
    - T cell
    - endothelial cell
    - epithelial cell of proximal tubule
    - kidney collecting duct principal cell	
    - kidney connecting tubule epithelial cell
    - kidney distal convoluted tubule epithelial cell
    - kidney loop of Henle cortical thick ascending limb epithelial cell	
    - kidney loop of Henle epithelial cell
    - kidney loop of Henle medullary thick ascending limb epithelial cell	
    - renal beta-intercalated cell	

- conway, hinze,	janosevic:
    - T cell
    - endothelial cell
    - epithelial cell of proximal tubule
    - kidney collecting duct principal cell	
    - kidney connecting tubule epithelial cell
    - kidney distal convoluted tubule epithelial cell
    - kidney loop of Henle cortical thick ascending limb epithelial cell	
    - kidney loop of Henle epithelial cell
    - kidney loop of Henle medullary thick ascending limb epithelial cell
    - native cell	
    - renal beta-intercalated cell	

- janosevic, kirita, miao, park:
    - T cell
    - endothelial cell
    - epithelial cell of proximal tubule
    - kidney collecting duct principal cell	
    - kidney connecting tubule epithelial cell
    - kidney distal convoluted tubule epithelial cell
    - kidney loop of Henle cortical thick ascending limb epithelial cell	
    - kidney loop of Henle epithelial cell
    - kidney loop of Henle medullary thick ascending limb epithelial cell
    - renal alpha-intercalated cell
    - renal beta-intercalated cell

## Seleccion de instancias

Haremos 3 datasets:
1. conway, hinze,	janosevic,	kirita,	miao,	park,	wu:
    - endothelial cell
    - epithelial cell of proximal tubule
    - kidney collecting duct principal cell	
    - kidney connecting tubule epithelial cell
    - kidney distal convoluted tubule epithelial cell
    - renal beta-intercalated cell

2. conway, hinze,	janosevic, kirita, miao:
    - T cell
    - endothelial cell
    - epithelial cell of proximal tubule
    - kidney collecting duct principal cell	
    - kidney connecting tubule epithelial cell
    - kidney distal convoluted tubule epithelial cell
    - kidney loop of Henle cortical thick ascending limb epithelial cell	
    - kidney loop of Henle epithelial cell
    - kidney loop of Henle medullary thick ascending limb epithelial cell
    - renal beta-intercalated cell

3. janosevic, kirita, miao, park:
    - T cell
    - endothelial cell
    - epithelial cell of proximal tubule
    - kidney collecting duct principal cell	
    - kidney connecting tubule epithelial cell
    - kidney distal convoluted tubule epithelial cell
    - kidney loop of Henle cortical thick ascending limb epithelial cell	
    - kidney loop of Henle epithelial cell
    - kidney loop of Henle medullary thick ascending limb epithelial cell
    - renal alpha-intercalated cell
    - renal beta-intercalated cell


Filtraremos los datasets según las siguientes clases

1. Haremos un primer dataset que contiene todos los datasets (después haremos split train y test).

1. También otro dataset que contiene todos los datasets menos uno que lo dejaremos para test.

Realizaremos esta operación para los tres subconjuntos mostrados arriba

### 1. conway, hinze,	janosevic,	kirita,	miao,	park,	wu:
    - endothelial cell
    - epithelial cell of proximal tubule
    - kidney collecting duct principal cell	
    - kidney connecting tubule epithelial cell
    - kidney distal convoluted tubule epithelial cell
    - renal beta-intercalated cell

In [None]:
# Lista de clases de interés que se utilizarán para filtrar los conjuntos de datos
clases_interesantes = ['endothelial cell',
                       'epithelial cell of proximal tubule',
                       'kidney collecting duct principal cell',
                       'kidney connecting tubule epithelial cell',
                       'kidney distal convoluted tubule epithelial cell',
                       'renal beta-intercalated cell']

# Aplicar el filtro para cada conjunto de datos
adata_conway_filtrado = adata_conway[adata_conway.obs['cell_type'].isin(clases_interesantes)]
adata_hinze_filtrado = adata_hinze[adata_hinze.obs['cell_type'].isin(clases_interesantes)]
adata_janosevic_filtrado = adata_janosevic[adata_janosevic.obs['cell_type'].isin(clases_interesantes)]
adata_kirita_filtrado = adata_kirita[adata_kirita.obs['cell_type'].isin(clases_interesantes)]
adata_miao_filtrado = adata_miao[adata_miao.obs['cell_type'].isin(clases_interesantes)]
adata_park_filtrado = adata_park[adata_park.obs['cell_type'].isin(clases_interesantes)]
adata_wu_filtrado = adata_wu[adata_wu.obs['cell_type'].isin(clases_interesantes)]


### Concatenar todos los datasets en uno
- Haremos train y test de este nuevo dataset

In [4]:
# Concatenar objetos AnnData
def concatenate_anndata(adata_list):
    # Crear un nuevo objeto AnnData
    adata_concatenated = AnnData.concatenate(*adata_list, join='outer', index_unique=None)
    
    # Conservar la información de 'uns' de los objetos originales
    for key in adata_list[0].uns:
        if key not in adata_concatenated.uns:
            adata_concatenated.uns[key] = adata_list[0].uns[key]
    
    return adata_concatenated

In [None]:
# Lista de los conjuntos de datos a concatenar
datasets_to_concatenate = [adata_conway_filtrado, adata_hinze_filtrado, adata_janosevic_filtrado,
                      adata_kirita_filtrado, adata_miao_filtrado, adata_park_filtrado, adata_wu_filtrado]

# Concatenar los conjuntos de datos
adata_completo = concatenate_anndata(datasets_to_concatenate)

### Concatenar todos los datasets menos wu (lo usaremos como test)

In [None]:
# Lista de los conjuntos de datos a concatenar
datasets_to_concatenate = [adata_conway_filtrado, adata_hinze_filtrado, adata_janosevic_filtrado,
                      adata_kirita_filtrado, adata_miao_filtrado, adata_park_filtrado]

# Concatenar los conjuntos de datos
adata_semi_completo = concatenate_anndata(datasets_to_concatenate)

### Guardamos los dataser en directorio

In [None]:
ruta_salida = "/home/a/Escritorio/TFM/src/NSForest/data/data_selection/"
# Guardar los datasets filtrados
adata_completo.write(ruta_salida + 'adata_selected_dt7_6cl.h5ad')
adata_semi_completo.write(ruta_salida + 'adata_selected_dt6_6cl.h5ad')
adata_wu_filtrado.write(ruta_salida + 'adata_selected_wu_6cl.h5ad')

### 2. conway, hinze,	janosevic,	kirita,	miao:
    - T cell
    - endothelial cell
    - epithelial cell of proximal tubule
    - kidney collecting duct principal cell	
    - kidney connecting tubule epithelial cell
    - kidney distal convoluted tubule epithelial cell
    - kidney loop of Henle cortical thick ascending limb epithelial cell	
    - kidney loop of Henle epithelial cell
    - kidney loop of Henle medullary thick ascending limb epithelial cell
    - renal beta-intercalated cell

In [None]:
# Lista de clases de interés que se utilizarán para filtrar los conjuntos de datos
clases_interesantes = ['T cell',
                       'endothelial cell',
                       'epithelial cell of proximal tubule',
                       'kidney collecting duct principal cell',
                       'kidney connecting tubule epithelial cell',
                       'kidney distal convoluted tubule epithelial cell',
                       'kidney loop of Henle cortical thick ascending limb epithelial cell',
                       'kidney loop of Henle epithelial cell',
                       'kidney loop of Henle medullary thick ascending limb epithelial cell',
                       'renal beta-intercalated cell']

# Aplicar el filtro para cada conjunto de datos
adata_conway_filtrado = adata_conway[adata_conway.obs['cell_type'].isin(clases_interesantes)]
adata_hinze_filtrado = adata_hinze[adata_hinze.obs['cell_type'].isin(clases_interesantes)]
adata_janosevic_filtrado = adata_janosevic[adata_janosevic.obs['cell_type'].isin(clases_interesantes)]
adata_kirita_filtrado = adata_kirita[adata_kirita.obs['cell_type'].isin(clases_interesantes)]
adata_miao_filtrado = adata_miao[adata_miao.obs['cell_type'].isin(clases_interesantes)]

### Concatenar todos los datasets en uno
- Haremos train y test de este nuevo dataset

In [None]:
# Lista de los conjuntos de datos a concatenar
datasets_to_concatenate = [adata_conway_filtrado, adata_hinze_filtrado, adata_janosevic_filtrado,
                      adata_kirita_filtrado, adata_miao_filtrado]

# Concatenar los conjuntos de datos
adata_completo = concatenate_anndata(datasets_to_concatenate)

### Concatenar todos los datasets menos miao (lo usaremos como test)

In [None]:
# Lista de los conjuntos de datos a concatenar
datasets_to_concatenate = [adata_conway_filtrado, adata_hinze_filtrado, adata_janosevic_filtrado,
                      adata_kirita_filtrado]

# Concatenar los conjuntos de datos
adata_semi_completo = concatenate_anndata(datasets_to_concatenate)

### Guardamos los dataser en directorio

In [None]:
# Guardar los datasets filtrados
adata_completo.write(ruta_salida + 'adata_selected_dt5_10cl.h5ad')
adata_semi_completo.write(ruta_salida + 'adata_selected_dt4_10cl.h5ad')
adata_miao_filtrado.write(ruta_salida + 'adata_selected_miao_10cl.h5ad')

### 3. janosevic, kirita, miao, park:
    - T cell
    - endothelial cell
    - epithelial cell of proximal tubule
    - kidney collecting duct principal cell	
    - kidney connecting tubule epithelial cell
    - kidney distal convoluted tubule epithelial cell
    - kidney loop of Henle cortical thick ascending limb epithelial cell	
    - kidney loop of Henle epithelial cell
    - kidney loop of Henle medullary thick ascending limb epithelial cell
    - renal alpha-intercalated cell
    - renal beta-intercalated cell

In [None]:
# Lista de clases de interés que se utilizarán para filtrar los conjuntos de datos
clases_interesantes = ['T cell',
                       'endothelial cell',
                       'epithelial cell of proximal tubule',
                       'kidney collecting duct principal cell',
                       'kidney connecting tubule epithelial cell',
                       'kidney distal convoluted tubule epithelial cell',
                       'kidney loop of Henle cortical thick ascending limb epithelial cell',
                       'kidney loop of Henle epithelial cell',
                       'kidney loop of Henle medullary thick ascending limb epithelial cell',
                       'renal alpha-intercalated cell',
                       'renal beta-intercalated cell']

# Aplicar el filtro para cada conjunto de datos
adata_janosevic_filtrado = adata_janosevic[adata_janosevic.obs['cell_type'].isin(clases_interesantes)]
adata_kirita_filtrado = adata_kirita[adata_kirita.obs['cell_type'].isin(clases_interesantes)]
adata_miao_filtrado = adata_miao[adata_miao.obs['cell_type'].isin(clases_interesantes)]
adata_park_filtrado = adata_park[adata_park.obs['cell_type'].isin(clases_interesantes)]


### Concatenar todos los datasets en uno
- Haremos train y test de este nuevo dataset

In [None]:
# Lista de los conjuntos de datos a concatenar
datasets_to_concatenate = [adata_janosevic_filtrado, adata_kirita_filtrado, adata_miao_filtrado, adata_park_filtrado]

# Concatenar los conjuntos de datos
adata_completo = concatenate_anndata(datasets_to_concatenate)

### Concatenar todos los datasets menos park (lo usaremos como test)

In [None]:
# Lista de los conjuntos de datos a concatenar
datasets_to_concatenate = [adata_janosevic_filtrado, adata_kirita_filtrado, adata_miao_filtrado]

# Concatenar los conjuntos de datos
adata_semi_completo = concatenate_anndata(datasets_to_concatenate)

### Guardamos los dataser en directorio

In [None]:
# Guardar los datasets filtrados
adata_completo.write(ruta_salida + 'adata_selected_dt4_10cl_01.h5ad')
adata_semi_completo.write(ruta_salida + 'adata_selected_dt3_10cl_01.h5ad')
adata_park_filtrado.write(ruta_salida + 'adata_selected_park_10cl_01.h5ad')

In [None]:
adata_1_1 = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/data_selection/adata_selected_dt7_6cl.h5ad")
adata_1_2 = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/data_selection/adata_selected_dt6_6cl.h5ad")
adata_1_3 = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/data_selection/adata_selected_wu_6cl.h5ad")
adata_2_1 = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/data_selection/adata_selected_dt5_10cl.h5ad")
adata_2_2 = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/data_selection/adata_selected_dt4_10cl.h5ad")
adata_2_3 = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/data_selection/adata_selected_miao_10cl.h5ad")
adata_3_1 = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/data_selection/adata_selected_dt4_10cl_01.h5ad")
adata_3_2 = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/data_selection/adata_selected_dt3_10cl_01.h5ad")
adata_3_3 = sc.read_h5ad("/home/a/Escritorio/TFM/src/NSForest/data/data_selection/adata_selected_park_10cl_01.h5ad")

### Unimos todos los datasets siguientes menos uno que lo dejaremos para test:
conway, hinze,	janosevic,	kirita,	miao y park:
- T cell
- endothelial cell
- epithelial cell of proximal tubule
- kidney collecting duct principal cell	
- kidney connecting tubule epithelial cell
- kidney distal convoluted tubule epithelial cell
- kidney loop of Henle cortical thick ascending limb epithelial cell	
- kidney loop of Henle epithelial cell
- kidney loop of Henle medullary thick ascending limb epithelial cell
- renal beta-intercalated cell

In [11]:
clases_interesantes = ['T cell',
                       'endothelial cell',
                       'epithelial cell of proximal tubule',
                       'kidney collecting duct principal cell',
                       'kidney connecting tubule epithelial cell',
                       'kidney distal convoluted tubule epithelial cell',
                       'kidney loop of Henle cortical thick ascending limb epithelial cell',
                       'kidney loop of Henle epithelial cell',
                       'kidney loop of Henle medullary thick ascending limb epithelial cell',
                       'renal beta-intercalated cell']

# Aplicar el filtro para cada conjunto de datos
adata_conway_filtrado = adata_conway[adata_conway.obs['cell_type'].isin(clases_interesantes)]
adata_hinze_filtrado = adata_hinze[adata_hinze.obs['cell_type'].isin(clases_interesantes)]
adata_janosevic_filtrado = adata_janosevic[adata_janosevic.obs['cell_type'].isin(clases_interesantes)]
adata_kirita_filtrado = adata_kirita[adata_kirita.obs['cell_type'].isin(clases_interesantes)]
adata_miao_filtrado = adata_miao[adata_miao.obs['cell_type'].isin(clases_interesantes)]
adata_park_filtrado = adata_park[adata_park.obs['cell_type'].isin(clases_interesantes)]

In [20]:
# Lista de los conjuntos de datos a concatenar
datasets_to_concatenate = [adata_conway_filtrado, adata_hinze_filtrado, adata_janosevic_filtrado,
                           adata_kirita_filtrado, adata_miao_filtrado]

# Concatenar los conjuntos de datos
adata_switched_1 = concatenate_anndata(datasets_to_concatenate)

datasets_to_concatenate = [adata_conway_filtrado, adata_hinze_filtrado, adata_janosevic_filtrado,
                           adata_kirita_filtrado, adata_park_filtrado]

# Concatenar los conjuntos de datos
adata_switched_2 = concatenate_anndata(datasets_to_concatenate)

datasets_to_concatenate = [adata_conway_filtrado, adata_hinze_filtrado,adata_janosevic_filtrado,
                           adata_miao_filtrado, adata_park_filtrado]

# Concatenar los conjuntos de datos
adata_switched_3 = concatenate_anndata(datasets_to_concatenate)

datasets_to_concatenate = [adata_conway_filtrado, adata_hinze_filtrado, adata_kirita_filtrado,
                           adata_miao_filtrado, adata_park_filtrado]

# Concatenar los conjuntos de datos
adata_switched_4 = concatenate_anndata(datasets_to_concatenate)

datasets_to_concatenate = [adata_conway_filtrado, adata_janosevic_filtrado, adata_kirita_filtrado,
                           adata_miao_filtrado, adata_park_filtrado]

# Concatenar los conjuntos de datos
adata_switched_5 = concatenate_anndata(datasets_to_concatenate)

datasets_to_concatenate = [adata_hinze_filtrado, adata_janosevic_filtrado, adata_kirita_filtrado,
                           adata_miao_filtrado, adata_park_filtrado]

# Concatenar los conjuntos de datos
adata_switched_6 = concatenate_anndata(datasets_to_concatenate)


See the tutorial for concat at: https://anndata.readthedocs.io/en/latest/concatenation.html

See the tutorial for concat at: https://anndata.readthedocs.io/en/latest/concatenation.html

See the tutorial for concat at: https://anndata.readthedocs.io/en/latest/concatenation.html

See the tutorial for concat at: https://anndata.readthedocs.io/en/latest/concatenation.html

See the tutorial for concat at: https://anndata.readthedocs.io/en/latest/concatenation.html

See the tutorial for concat at: https://anndata.readthedocs.io/en/latest/concatenation.html


### Guardamos los dataser en directorio

In [21]:
ruta_salida = "/home/a/Escritorio/TFM/src/NSForest/data/data_final_selection/"

adata_switched_1.write(ruta_salida + 'adata_switched_1.h5ad') #unión de conway, hinze, janosevic, kirita y miao
adata_switched_2.write(ruta_salida + 'adata_switched_2.h5ad') #unión de conway, hinze, janosevic, kirita y park
adata_switched_3.write(ruta_salida + 'adata_switched_3.h5ad') #unión de conway, hinze, janosevic, miao y park
adata_switched_4.write(ruta_salida + 'adata_switched_4.h5ad') #unión de conway, hinze, kirita, miao y park
adata_switched_5.write(ruta_salida + 'adata_switched_5.h5ad') #unión de conway, janosevic, kirita, miao y park
adata_switched_6.write(ruta_salida + 'adata_switched_6.h5ad') #unión de hinze, janosevic, kirita, miao y park

adata_conway_filtrado.write(ruta_salida + 'adata_selected_conway_10cl.h5ad')
adata_hinze_filtrado.write(ruta_salida + 'adata_selected_hinze_10cl.h5ad')
adata_janosevic_filtrado.write(ruta_salida + 'adata_selected_janosevic_10cl.h5ad')
adata_kirita_filtrado.write(ruta_salida + 'adata_selected_kirita_10cl.h5ad')
adata_miao_filtrado.write(ruta_salida + 'adata_selected_miao_10cl.h5ad')
adata_park_filtrado.write(ruta_salida + 'adata_selected_park_10cl.h5ad')

### Confirmamos que la selección se ha realizado correctamente

In [22]:
# Lista de variables que contienen los datasets
datasets = [adata_switched_1, adata_switched_2, adata_switched_3, adata_switched_4, adata_switched_5, adata_switched_6,
            adata_conway_filtrado, adata_hinze_filtrado, adata_janosevic_filtrado, adata_kirita_filtrado, adata_miao_filtrado,
            adata_park_filtrado]

# Lista de nombres de los datasets
nombres_datasets = ['adata_switched_1', 'adata_switched_2', 'adata_switched_3', 'adata_switched_4', 'adata_switched_5', 'adata_switched_6',
                     'adata_conway_filtrado', 'adata_hinze_filtrado', 'adata_janosevic_filtrado', 'adata_kirita_filtrado', 'adata_miao_filtrado',
                     'adata_park_filtrado']

# Realizar análisis descriptivos y visualizaciones para cada dataset
for dataset, nombre in zip(datasets, nombres_datasets):
    if dataset is not None:  # Verificar si dataset no es None
        # Obtener el conteo de instancias por clase
        conteo_por_clase = dataset.obs['cell_type'].value_counts()
        
        # Calcular el número total de instancias sumando el conteo de instancias por clase
        total_instancias = conteo_por_clase.sum()
        
        print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")

El número total de instancias en el dataset adata_switched_1 es: 87122
El número total de instancias en el dataset adata_switched_2 es: 88424
El número total de instancias en el dataset adata_switched_3 es: 86698
El número total de instancias en el dataset adata_switched_4 es: 101344
El número total de instancias en el dataset adata_switched_5 es: 82125
El número total de instancias en el dataset adata_switched_6 es: 104662
El número total de instancias en el dataset adata_conway_filtrado es: 5413
El número total de instancias en el dataset adata_hinze_filtrado es: 27950
El número total de instancias en el dataset adata_janosevic_filtrado es: 8731
El número total de instancias en el dataset adata_kirita_filtrado es: 23377
El número total de instancias en el dataset adata_miao_filtrado es: 21651
El número total de instancias en el dataset adata_park_filtrado es: 22953


In [23]:
# Realizar análisis descriptivos y visualizaciones para cada dataset
for dataset, nombre in zip(datasets, nombres_datasets):
    if dataset is not None:  # Verificar si dataset no es None
        # Obtener el número de columnas
        num_columnas = dataset.X.shape[1]
        
        print(f"El número de columnas en el dataset {nombre} es: {num_columnas}")

El número de columnas en el dataset adata_switched_1 es: 16653
El número de columnas en el dataset adata_switched_2 es: 16653
El número de columnas en el dataset adata_switched_3 es: 16653
El número de columnas en el dataset adata_switched_4 es: 16653
El número de columnas en el dataset adata_switched_5 es: 16653
El número de columnas en el dataset adata_switched_6 es: 16653
El número de columnas en el dataset adata_conway_filtrado es: 16653
El número de columnas en el dataset adata_hinze_filtrado es: 16653
El número de columnas en el dataset adata_janosevic_filtrado es: 16653
El número de columnas en el dataset adata_kirita_filtrado es: 16653
El número de columnas en el dataset adata_miao_filtrado es: 16653
El número de columnas en el dataset adata_park_filtrado es: 16653


In [24]:
# Dataset específico a analizar
dataset = adata_switched_1
nombre = 'adata_switched_1'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_switched_1 es: 87122
El conteo de instancias por clase en el dataset adata_switched_1 es:
cell_type
epithelial cell of proximal tubule                                     53164
kidney distal convoluted tubule epithelial cell                        10865
endothelial cell                                                        4492
kidney collecting duct principal cell                                   4330
kidney loop of Henle medullary thick ascending limb epithelial cell     3391
kidney loop of Henle cortical thick ascending limb epithelial cell      3285
kidney loop of Henle epithelial cell                                    2684
kidney connecting tubule epithelial cell                                2531
renal beta-intercalated cell                                            1492
T cell                                                                   888
Name: count, dtype: int64


In [25]:
# Dataset específico a analizar
dataset = adata_switched_2
nombre = 'adata_switched_2'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_switched_2 es: 88424
El conteo de instancias por clase en el dataset adata_switched_2 es:
cell_type
epithelial cell of proximal tubule                                     53484
kidney distal convoluted tubule epithelial cell                         9419
endothelial cell                                                        4944
kidney collecting duct principal cell                                   4154
kidney loop of Henle medullary thick ascending limb epithelial cell     3770
kidney loop of Henle cortical thick ascending limb epithelial cell      3519
kidney connecting tubule epithelial cell                                3089
kidney loop of Henle epithelial cell                                    3072
renal beta-intercalated cell                                            1754
T cell                                                                  1219
Name: count, dtype: int64


In [26]:
# Dataset específico a analizar
dataset = adata_switched_3
nombre = 'adata_switched_3'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_switched_3 es: 86698
El conteo de instancias por clase en el dataset adata_switched_3 es:
cell_type
epithelial cell of proximal tubule                                     55738
kidney distal convoluted tubule epithelial cell                        14306
kidney collecting duct principal cell                                   3086
kidney connecting tubule epithelial cell                                2371
endothelial cell                                                        2291
kidney loop of Henle epithelial cell                                    2056
kidney loop of Henle medullary thick ascending limb epithelial cell     1886
renal beta-intercalated cell                                            1772
T cell                                                                  1616
kidney loop of Henle cortical thick ascending limb epithelial cell      1576
Name: count, dtype: int64


In [27]:
# Dataset específico a analizar
dataset = adata_switched_4
nombre = 'adata_switched_4'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_switched_4 es: 101344
El conteo de instancias por clase en el dataset adata_switched_4 es:
cell_type
epithelial cell of proximal tubule                                     60372
kidney distal convoluted tubule epithelial cell                        14792
endothelial cell                                                        4599
kidney collecting duct principal cell                                   4541
kidney loop of Henle medullary thick ascending limb epithelial cell     3715
kidney loop of Henle cortical thick ascending limb epithelial cell      3484
kidney connecting tubule epithelial cell                                3156
kidney loop of Henle epithelial cell                                    3100
renal beta-intercalated cell                                            2090
T cell                                                                  1495
Name: count, dtype: int64


In [28]:
# Dataset específico a analizar
dataset = adata_switched_5
nombre = 'adata_switched_5'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_switched_5 es: 82125
El conteo de instancias por clase en el dataset adata_switched_5 es:
cell_type
epithelial cell of proximal tubule                                     47069
kidney distal convoluted tubule epithelial cell                        13767
endothelial cell                                                        4349
kidney loop of Henle epithelial cell                                    3043
kidney loop of Henle cortical thick ascending limb epithelial cell      2799
kidney collecting duct principal cell                                   2760
kidney loop of Henle medullary thick ascending limb epithelial cell     2651
kidney connecting tubule epithelial cell                                2328
T cell                                                                  1698
renal beta-intercalated cell                                            1661
Name: count, dtype: int64


In [29]:
# Dataset específico a analizar
dataset = adata_switched_6
nombre = 'adata_switched_6'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_switched_6 es: 104662
El conteo de instancias por clase en el dataset adata_switched_6 es:
cell_type
epithelial cell of proximal tubule                                     61753
kidney distal convoluted tubule epithelial cell                        15626
endothelial cell                                                        4975
kidney collecting duct principal cell                                   4624
kidney loop of Henle medullary thick ascending limb epithelial cell     3772
kidney loop of Henle epithelial cell                                    3430
kidney connecting tubule epithelial cell                                3335
kidney loop of Henle cortical thick ascending limb epithelial cell      3312
renal beta-intercalated cell                                            2146
T cell                                                                  1689
Name: count, dtype: int64


In [30]:
# Dataset específico a analizar
dataset = adata_conway_filtrado
nombre = 'adata_conway_filtrado'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_conway_filtrado es: 5413
El conteo de instancias por clase en el dataset adata_conway_filtrado es:
cell_type
epithelial cell of proximal tubule                                     4563
kidney loop of Henle cortical thick ascending limb epithelial cell      283
endothelial cell                                                        155
kidney distal convoluted tubule epithelial cell                         129
kidney collecting duct principal cell                                    75
kidney loop of Henle medullary thick ascending limb epithelial cell      65
kidney loop of Henle epithelial cell                                     47
renal beta-intercalated cell                                             37
T cell                                                                   32
kidney connecting tubule epithelial cell                                 27
Name: count, dtype: int64


In [31]:
# Dataset específico a analizar
dataset = adata_hinze_filtrado
nombre = 'adata_hinze_filtrado'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_hinze_filtrado es: 27950
El conteo de instancias por clase en el dataset adata_hinze_filtrado es:
cell_type
epithelial cell of proximal tubule                                     19247
kidney distal convoluted tubule epithelial cell                         1988
kidney collecting duct principal cell                                   1939
kidney loop of Henle medullary thick ascending limb epithelial cell     1186
kidney connecting tubule epithelial cell                                1034
kidney loop of Henle cortical thick ascending limb epithelial cell       796
endothelial cell                                                         781
renal beta-intercalated cell                                             522
kidney loop of Henle epithelial cell                                     434
T cell                                                                    23
Name: count, dtype: int64


In [32]:
# Dataset específico a analizar
dataset = adata_janosevic_filtrado
nombre = 'adata_janosevic_filtrado'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_janosevic_filtrado es: 8731
El conteo de instancias por clase en el dataset adata_janosevic_filtrado es:
cell_type
epithelial cell of proximal tubule                                     5944
kidney distal convoluted tubule epithelial cell                         963
endothelial cell                                                        531
kidney loop of Henle epithelial cell                                    377
T cell                                                                  226
kidney connecting tubule epithelial cell                                206
kidney collecting duct principal cell                                   158
kidney loop of Henle medullary thick ascending limb epithelial cell     122
kidney loop of Henle cortical thick ascending limb epithelial cell      111
renal beta-intercalated cell                                             93
Name: count, dtype: int64


In [33]:
# Dataset específico a analizar
dataset = adata_kirita_filtrado
nombre = 'adata_kirita_filtrado'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_kirita_filtrado es: 23377
El conteo de instancias por clase en el dataset adata_kirita_filtrado es:
cell_type
epithelial cell of proximal tubule                                     10578
endothelial cell                                                        2839
kidney loop of Henle cortical thick ascending limb epithelial cell      2019
kidney loop of Henle medullary thick ascending limb epithelial cell     1951
kidney collecting duct principal cell                                   1613
kidney distal convoluted tubule epithelial cell                         1449
kidney loop of Henle epithelial cell                                    1421
kidney connecting tubule epithelial cell                                 991
renal beta-intercalated cell                                             411
T cell                                                                   105
Name: count, dtype: int64


In [34]:
# Dataset específico a analizar
dataset = adata_miao_filtrado
nombre = 'adata_miao_filtrado'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_miao_filtrado es: 21651
El conteo de instancias por clase en el dataset adata_miao_filtrado es:
cell_type
epithelial cell of proximal tubule                                     12832
kidney distal convoluted tubule epithelial cell                         6336
kidney collecting duct principal cell                                    545
T cell                                                                   502
renal beta-intercalated cell                                             429
kidney loop of Henle epithelial cell                                     405
kidney connecting tubule epithelial cell                                 273
endothelial cell                                                         186
kidney loop of Henle cortical thick ascending limb epithelial cell        76
kidney loop of Henle medullary thick ascending limb epithelial cell       67
Name: count, dtype: int64


In [35]:
# Dataset específico a analizar
dataset = adata_park_filtrado
nombre = 'adata_park_filtrado'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_park_filtrado es: 22953
El conteo de instancias por clase en el dataset adata_park_filtrado es:
cell_type
epithelial cell of proximal tubule                                     13152
kidney distal convoluted tubule epithelial cell                         4890
T cell                                                                   833
kidney connecting tubule epithelial cell                                 831
kidney loop of Henle epithelial cell                                     793
renal beta-intercalated cell                                             691
endothelial cell                                                         638
kidney loop of Henle medullary thick ascending limb epithelial cell      446
kidney collecting duct principal cell                                    369
kidney loop of Henle cortical thick ascending limb epithelial cell       310
Name: count, dtype: int64


## Unimos nuevos datasets

### Unimos todos los datasets siguientes menos uno que lo dejaremos para test:
conway, hinze,	janosevic,	kirita,	miao, park y wu:
- endothelial cell
- epithelial cell of proximal tubule
- kidney collecting duct principal cell	
- kidney connecting tubule epithelial cell
- kidney distal convoluted tubule epithelial cell
- renal beta-intercalated cell

In [5]:
# Lista de clases de interés que se utilizarán para filtrar los conjuntos de datos
clases_interesantes = ['endothelial cell',
                       'epithelial cell of proximal tubule',
                       'kidney collecting duct principal cell',
                       'kidney connecting tubule epithelial cell',
                       'kidney distal convoluted tubule epithelial cell',
                       'renal beta-intercalated cell']

# Aplicar el filtro para cada conjunto de datos
adata_conway_filtrado = adata_conway[adata_conway.obs['cell_type'].isin(clases_interesantes)]
adata_hinze_filtrado = adata_hinze[adata_hinze.obs['cell_type'].isin(clases_interesantes)]
adata_janosevic_filtrado = adata_janosevic[adata_janosevic.obs['cell_type'].isin(clases_interesantes)]
adata_kirita_filtrado = adata_kirita[adata_kirita.obs['cell_type'].isin(clases_interesantes)]
adata_miao_filtrado = adata_miao[adata_miao.obs['cell_type'].isin(clases_interesantes)]
adata_park_filtrado = adata_park[adata_park.obs['cell_type'].isin(clases_interesantes)]
adata_wu_filtrado = adata_wu[adata_wu.obs['cell_type'].isin(clases_interesantes)]

In [7]:
# Lista de los conjuntos de datos a concatenar
datasets_to_concatenate = [adata_conway_filtrado, adata_hinze_filtrado, adata_janosevic_filtrado,
                           adata_kirita_filtrado, adata_miao_filtrado, adata_park_filtrado]

# Concatenar los conjuntos de datos
adata_switched_2_1 = concatenate_anndata(datasets_to_concatenate)

datasets_to_concatenate = [adata_conway_filtrado, adata_hinze_filtrado, adata_janosevic_filtrado,
                           adata_kirita_filtrado, adata_miao_filtrado, adata_wu_filtrado]

# Concatenar los conjuntos de datos
adata_switched_2_2 = concatenate_anndata(datasets_to_concatenate)

datasets_to_concatenate = [adata_conway_filtrado, adata_hinze_filtrado,adata_janosevic_filtrado,
                           adata_kirita_filtrado, adata_park_filtrado, adata_wu_filtrado]

# Concatenar los conjuntos de datos
adata_switched_2_3 = concatenate_anndata(datasets_to_concatenate)

datasets_to_concatenate = [adata_conway_filtrado, adata_hinze_filtrado, adata_janosevic_filtrado,
                           adata_miao_filtrado, adata_park_filtrado, adata_wu_filtrado]

# Concatenar los conjuntos de datos
adata_switched_2_4 = concatenate_anndata(datasets_to_concatenate)

datasets_to_concatenate = [adata_conway_filtrado, adata_hinze_filtrado, adata_kirita_filtrado,
                           adata_miao_filtrado, adata_park_filtrado, adata_wu_filtrado]

# Concatenar los conjuntos de datos
adata_switched_2_5 = concatenate_anndata(datasets_to_concatenate)

datasets_to_concatenate = [adata_conway_filtrado, adata_janosevic_filtrado, adata_kirita_filtrado,
                           adata_miao_filtrado, adata_park_filtrado, adata_wu_filtrado]

# Concatenar los conjuntos de datos
adata_switched_2_6 = concatenate_anndata(datasets_to_concatenate)

datasets_to_concatenate = [adata_hinze_filtrado, adata_janosevic_filtrado, adata_kirita_filtrado,
                           adata_miao_filtrado, adata_park_filtrado, adata_wu_filtrado]

# Concatenar los conjuntos de datos
adata_switched_2_7 = concatenate_anndata(datasets_to_concatenate)


See the tutorial for concat at: https://anndata.readthedocs.io/en/latest/concatenation.html

See the tutorial for concat at: https://anndata.readthedocs.io/en/latest/concatenation.html

See the tutorial for concat at: https://anndata.readthedocs.io/en/latest/concatenation.html

See the tutorial for concat at: https://anndata.readthedocs.io/en/latest/concatenation.html

See the tutorial for concat at: https://anndata.readthedocs.io/en/latest/concatenation.html

See the tutorial for concat at: https://anndata.readthedocs.io/en/latest/concatenation.html

See the tutorial for concat at: https://anndata.readthedocs.io/en/latest/concatenation.html


### Guardamos los dataser en directorio

In [8]:
ruta_salida = "/home/a/Escritorio/TFM/src/NSForest/data/data_final_selection/"

adata_switched_2_1.write(ruta_salida + 'adata_switched_2_1.h5ad') #unión de conway, hinze, janosevic, kirita, miao y park
adata_switched_2_2.write(ruta_salida + 'adata_switched_2_2.h5ad') #unión de conway, hinze, janosevic, kirita y park
adata_switched_2_3.write(ruta_salida + 'adata_switched_2_3.h5ad') #unión de conway, hinze, janosevic, miao y park
adata_switched_2_4.write(ruta_salida + 'adata_switched_2_4.h5ad') #unión de conway, hinze, kirita, miao y park
adata_switched_2_5.write(ruta_salida + 'adata_switched_2_5.h5ad') #unión de conway, janosevic, kirita, miao y park
adata_switched_2_6.write(ruta_salida + 'adata_switched_2_6.h5ad') #unión de hinze, janosevic, kirita, miao y park
adata_switched_2_7.write(ruta_salida + 'adata_switched_2_7.h5ad') #unión de hinze, janosevic, kirita, miao y park

adata_conway_filtrado.write(ruta_salida + 'adata_selected_conway_6cl.h5ad')
adata_hinze_filtrado.write(ruta_salida + 'adata_selected_hinze_6cl.h5ad')
adata_janosevic_filtrado.write(ruta_salida + 'adata_selected_janosevic_6cl.h5ad')
adata_kirita_filtrado.write(ruta_salida + 'adata_selected_kirita_6cl.h5ad')
adata_miao_filtrado.write(ruta_salida + 'adata_selected_miao_6cl.h5ad')
adata_park_filtrado.write(ruta_salida + 'adata_selected_park_6cl.h5ad')
adata_wu_filtrado.write(ruta_salida + 'adata_selected_wu_6cl.h5ad')

### Confirmamos que la selección se ha realizado correctamente

In [9]:
# Lista de variables que contienen los datasets
datasets = [adata_switched_2_1, adata_switched_2_2, adata_switched_2_3, adata_switched_2_4, adata_switched_2_5, adata_switched_2_6, adata_switched_2_7,
            adata_conway_filtrado, adata_hinze_filtrado, adata_janosevic_filtrado, adata_kirita_filtrado, adata_miao_filtrado,
            adata_park_filtrado, adata_wu_filtrado]

# Lista de nombres de los datasets
nombres_datasets = ['adata_switched_2_1', 'adata_switched_2_2', 'adata_switched_2_3', 'adata_switched_2_4', 'adata_switched_2_5', 'adata_switched_2_6',
                     'adata_switched_2_7', 'adata_conway_filtrado', 'adata_hinze_filtrado', 'adata_janosevic_filtrado', 'adata_kirita_filtrado', 'adata_miao_filtrado',
                     'adata_park_filtrado', 'adata_wu_filtrado']

# Realizar análisis descriptivos y visualizaciones para cada dataset
for dataset, nombre in zip(datasets, nombres_datasets):
    if dataset is not None:  # Verificar si dataset no es None
        # Obtener el conteo de instancias por clase
        conteo_por_clase = dataset.obs['cell_type'].value_counts()
        
        # Calcular el número total de instancias sumando el conteo de instancias por clase
        total_instancias = conteo_por_clase.sum()
        
        print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")

El número total de instancias en el dataset adata_switched_2_1 es: 97445
El número total de instancias en el dataset adata_switched_2_2 es: 85429
El número total de instancias en el dataset adata_switched_2_3 es: 85399
El número total de instancias en el dataset adata_switched_2_4 es: 88119
El número total de instancias en el dataset adata_switched_2_5 es: 98105
El número total de instancias en el dataset adata_switched_2_6 es: 80489
El número total de instancias en el dataset adata_switched_2_7 es: 101014
El número total de instancias en el dataset adata_conway_filtrado es: 4986
El número total de instancias en el dataset adata_hinze_filtrado es: 25511
El número total de instancias en el dataset adata_janosevic_filtrado es: 7895
El número total de instancias en el dataset adata_kirita_filtrado es: 17881
El número total de instancias en el dataset adata_miao_filtrado es: 20601
El número total de instancias en el dataset adata_park_filtrado es: 20571
El número total de instancias en el 

In [10]:
# Realizar análisis descriptivos y visualizaciones para cada dataset
for dataset, nombre in zip(datasets, nombres_datasets):
    if dataset is not None:  # Verificar si dataset no es None
        # Obtener el número de columnas
        num_columnas = dataset.X.shape[1]
        
        print(f"El número de columnas en el dataset {nombre} es: {num_columnas}")

El número de columnas en el dataset adata_switched_2_1 es: 16653
El número de columnas en el dataset adata_switched_2_2 es: 16653
El número de columnas en el dataset adata_switched_2_3 es: 16653
El número de columnas en el dataset adata_switched_2_4 es: 16653
El número de columnas en el dataset adata_switched_2_5 es: 16653
El número de columnas en el dataset adata_switched_2_6 es: 16653
El número de columnas en el dataset adata_switched_2_7 es: 16653
El número de columnas en el dataset adata_conway_filtrado es: 16653
El número de columnas en el dataset adata_hinze_filtrado es: 16653
El número de columnas en el dataset adata_janosevic_filtrado es: 16653
El número de columnas en el dataset adata_kirita_filtrado es: 16653
El número de columnas en el dataset adata_miao_filtrado es: 16653
El número de columnas en el dataset adata_park_filtrado es: 16653
El número de columnas en el dataset adata_wu_filtrado es: 16653


In [11]:
# Dataset específico a analizar
dataset = adata_switched_2_1
nombre = 'adata_switched_2_1'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_switched_2_1 es: 97445
El conteo de instancias por clase en el dataset adata_switched_2_1 es:
cell_type
epithelial cell of proximal tubule                 66316
kidney distal convoluted tubule epithelial cell    15755
endothelial cell                                    5130
kidney collecting duct principal cell               4699
kidney connecting tubule epithelial cell            3362
renal beta-intercalated cell                        2183
Name: count, dtype: int64


In [12]:
# Dataset específico a analizar
dataset = adata_switched_2_2
nombre = 'adata_switched_2_2'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_switched_2_2 es: 85429
El conteo de instancias por clase en el dataset adata_switched_2_2 es:
cell_type
epithelial cell of proximal tubule                 59680
kidney distal convoluted tubule epithelial cell    11491
endothelial cell                                    4824
kidney collecting duct principal cell               4606
kidney connecting tubule epithelial cell            3072
renal beta-intercalated cell                        1756
Name: count, dtype: int64


In [13]:
# Dataset específico a analizar
dataset = adata_switched_2_3
nombre = 'adata_switched_2_3'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_switched_2_3 es: 85399
El conteo de instancias por clase en el dataset adata_switched_2_3 es:
cell_type
epithelial cell of proximal tubule                 60000
kidney distal convoluted tubule epithelial cell    10045
endothelial cell                                    5276
kidney collecting duct principal cell               4430
kidney connecting tubule epithelial cell            3630
renal beta-intercalated cell                        2018
Name: count, dtype: int64


In [14]:
# Dataset específico a analizar
dataset = adata_switched_2_4
nombre = 'adata_switched_2_4'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_switched_2_4 es: 88119
El conteo de instancias por clase en el dataset adata_switched_2_4 es:
cell_type
epithelial cell of proximal tubule                 62254
kidney distal convoluted tubule epithelial cell    14932
kidney collecting duct principal cell               3362
kidney connecting tubule epithelial cell            2912
endothelial cell                                    2623
renal beta-intercalated cell                        2036
Name: count, dtype: int64


In [15]:
# Dataset específico a analizar
dataset = adata_switched_2_5
nombre = 'adata_switched_2_5'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_switched_2_5 es: 98105
El conteo de instancias por clase en el dataset adata_switched_2_5 es:
cell_type
epithelial cell of proximal tubule                 66888
kidney distal convoluted tubule epithelial cell    15418
endothelial cell                                    4931
kidney collecting duct principal cell               4817
kidney connecting tubule epithelial cell            3697
renal beta-intercalated cell                        2354
Name: count, dtype: int64


In [16]:
# Dataset específico a analizar
dataset = adata_switched_2_6
nombre = 'adata_switched_2_6'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_switched_2_6 es: 80489
El conteo de instancias por clase en el dataset adata_switched_2_6 es:
cell_type
epithelial cell of proximal tubule                 53585
kidney distal convoluted tubule epithelial cell    14393
endothelial cell                                    4681
kidney collecting duct principal cell               3036
kidney connecting tubule epithelial cell            2869
renal beta-intercalated cell                        1925
Name: count, dtype: int64


In [17]:
# Dataset específico a analizar
dataset = adata_switched_2_7
nombre = 'adata_switched_2_7'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_switched_2_7 es: 101014
El conteo de instancias por clase en el dataset adata_switched_2_7 es:
cell_type
epithelial cell of proximal tubule                 68269
kidney distal convoluted tubule epithelial cell    16252
endothelial cell                                    5307
kidney collecting duct principal cell               4900
kidney connecting tubule epithelial cell            3876
renal beta-intercalated cell                        2410
Name: count, dtype: int64


In [18]:
# Dataset específico a analizar
dataset = adata_conway_filtrado
nombre = 'adata_conway_filtrado'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_conway_filtrado es: 4986
El conteo de instancias por clase en el dataset adata_conway_filtrado es:
cell_type
epithelial cell of proximal tubule                 4563
endothelial cell                                    155
kidney distal convoluted tubule epithelial cell     129
kidney collecting duct principal cell                75
renal beta-intercalated cell                         37
kidney connecting tubule epithelial cell             27
Name: count, dtype: int64


In [19]:
# Dataset específico a analizar
dataset = adata_hinze_filtrado
nombre = 'adata_hinze_filtrado'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_hinze_filtrado es: 25511
El conteo de instancias por clase en el dataset adata_hinze_filtrado es:
cell_type
epithelial cell of proximal tubule                 19247
kidney distal convoluted tubule epithelial cell     1988
kidney collecting duct principal cell               1939
kidney connecting tubule epithelial cell            1034
endothelial cell                                     781
renal beta-intercalated cell                         522
Name: count, dtype: int64


In [20]:
# Dataset específico a analizar
dataset = adata_janosevic_filtrado
nombre = 'adata_janosevic_filtrado'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_janosevic_filtrado es: 7895
El conteo de instancias por clase en el dataset adata_janosevic_filtrado es:
cell_type
epithelial cell of proximal tubule                 5944
kidney distal convoluted tubule epithelial cell     963
endothelial cell                                    531
kidney connecting tubule epithelial cell            206
kidney collecting duct principal cell               158
renal beta-intercalated cell                         93
Name: count, dtype: int64


In [21]:
# Dataset específico a analizar
dataset = adata_kirita_filtrado
nombre = 'adata_kirita_filtrado'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_kirita_filtrado es: 17881
El conteo de instancias por clase en el dataset adata_kirita_filtrado es:
cell_type
epithelial cell of proximal tubule                 10578
endothelial cell                                    2839
kidney collecting duct principal cell               1613
kidney distal convoluted tubule epithelial cell     1449
kidney connecting tubule epithelial cell             991
renal beta-intercalated cell                         411
Name: count, dtype: int64


In [22]:
# Dataset específico a analizar
dataset = adata_miao_filtrado
nombre = 'adata_miao_filtrado'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_miao_filtrado es: 20601
El conteo de instancias por clase en el dataset adata_miao_filtrado es:
cell_type
epithelial cell of proximal tubule                 12832
kidney distal convoluted tubule epithelial cell     6336
kidney collecting duct principal cell                545
renal beta-intercalated cell                         429
kidney connecting tubule epithelial cell             273
endothelial cell                                     186
Name: count, dtype: int64


In [23]:
# Dataset específico a analizar
dataset = adata_park_filtrado
nombre = 'adata_park_filtrado'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_park_filtrado es: 20571
El conteo de instancias por clase en el dataset adata_park_filtrado es:
cell_type
epithelial cell of proximal tubule                 13152
kidney distal convoluted tubule epithelial cell     4890
kidney connecting tubule epithelial cell             831
renal beta-intercalated cell                         691
endothelial cell                                     638
kidney collecting duct principal cell                369
Name: count, dtype: int64


In [24]:
# Dataset específico a analizar
dataset = adata_wu_filtrado
nombre = 'adata_wu_filtrado'

# Verificar si el dataset no es None
if dataset is not None:
    # Obtener el conteo de instancias por clase
    conteo_por_clase = dataset.obs['cell_type'].value_counts()
    
    # Calcular el número total de instancias sumando el conteo de instancias por clase
    total_instancias = conteo_por_clase.sum()
    
    print(f"El número total de instancias en el dataset {nombre} es: {total_instancias}")
    
    # Mostrar el conteo de instancias por clase
    print(f"El conteo de instancias por clase en el dataset {nombre} es:")
    print(conteo_por_clase)
else:
    print(f"El dataset {nombre} es None")

El número total de instancias en el dataset adata_wu_filtrado es: 8555
El conteo de instancias por clase en el dataset adata_wu_filtrado es:
cell_type
epithelial cell of proximal tubule                 6516
kidney distal convoluted tubule epithelial cell     626
kidney connecting tubule epithelial cell            541
endothelial cell                                    332
kidney collecting duct principal cell               276
renal beta-intercalated cell                        264
Name: count, dtype: int64
