# Reorganización de los datos de los archivos procedentes de DepMap
```
Autor:  Martín Sende Pombo (email: martinsendepombo@outlook.com)
Colaborador: Raúl José Salgado García
Creado: 05-03-2024
Fecha de la última modificación: 30-07-2024
Propósito: Modificar la estructura de los datos de 3 archivos CSV procedentes de DepMap, para elaborar sus correspondientes tablas de BigQuery.
```
Copyright (C) 2024  Martín Sende Pombo

    Este programa es software libre: puede redistribuirlo y/o modificarlo
    bajo los términos de la Licencia Pública General de GNU publicada por la
    Free Software Foundation, ya sea la versión 3 de la Licencia,
    o (a su elección) cualquier versión posterior.

    Este programa se distribuye con la esperanza de que sea útil,
    pero SIN NINGUNA GARANTÍA; ni siquiera la garantía implícita
    de COMERCIABILIDAD o IDONEIDAD PARA UN PROPÓSITO PARTICULAR.
    Consulte la Licencia Pública General GNU para más detalles.

    Debería haber recibido una copia de la Licencia Pública General
    GNU junto con este programa. Si no es así, consulte <https://www.gnu.org/licenses/>.

## Para guardar después los datos del número de copia en una tabla de BigQuery

In [22]:
import pandas as pd

# Cargar el dataframe desde el archivo CSV
df = pd.read_csv('DepMap23Q4/OmicsCNGene.csv', index_col=0)
# Utiliza la función stack() para hacer la transformación
nuevo_df = df.stack().reset_index()
# nuevo_df contendrá el nuevo dataframe con las columnas DepMap_ID, Gene_Symbol y CNA
nuevo_df.columns = ['DepMap_ID', 'Gene_Symbol', 'CNA']
#print(nuevo_df)

# Extraer Hugo_Symbol y Entrez_ID de la columna Gene_Symbol
nuevo_df[['Hugo_Symbol', 'Entrez_ID']] = nuevo_df['Gene_Symbol'].str.extract(r'([^\s]+) \((\d+)\)')
# Eliminar la columna Gene_Symbol original
nuevo_df.drop(columns=['Gene_Symbol'], inplace=True)
#print(nuevo_df)
# Guardar el DataFrame modificado en un nuevo archivo CSV
nuevo_df.to_csv('OmicsCNGene_tabla.csv', index=False)

     DepMap_ID             Gene_Symbol         CNA
0   ACH-000431         FAM87B (400728)    5.000000
1   ACH-000431      LINC01128 (643837)   -0.918003
2   ACH-000431         FAM41C (284593)    0.938003
3   ACH-000431   LINC02593 (100130417)    0.948003
4   ACH-000431           NOC2L (26155)    0.968003
5   ACH-000431         KLHL17 (339451)    0.978003
6   ACH-000431         PLEKHN1 (84069)    0.988003
7   ACH-000431           PERM1 (84808)    0.998003
8   ACH-000358         FAM87B (400728)    0.642543
9   ACH-000358      LINC01128 (643837)    0.666204
10  ACH-000358  AL669831.7 (107984850)    0.652543
11  ACH-000358         FAM41C (284593)    0.662543
12  ACH-000358   LINC02593 (100130417) -200.000000
13  ACH-000358         SAMD11 (148398)    0.682543
14  ACH-000358         PLEKHN1 (84069)   -0.000024
15  ACH-000358           PERM1 (84808)    0.712543
     DepMap_ID         CNA Hugo_Symbol  Entrez_ID
0   ACH-000431    5.000000      FAM87B     400728
1   ACH-000431   -0.918003   LINC

## Para guardar después los datos de expresión génica en una tabla de BigQuery

In [None]:
import pandas as pd

# Cargar el dataframe desde el archivo CSV
df = pd.read_csv('DepMap23Q4/OmicsExpressionProteinCodingGenesTPMLogp1.csv', index_col=0)
# Utiliza la función stack() para hacer la transformación
nuevo_df = df.stack().reset_index()
# nuevo_df contendrá el nuevo dataframe con las columnas DepMap_ID, Gene_Symbol y CNA
nuevo_df.columns = ['DepMap_ID', 'Gene_Symbol', 'TPM']
#print(nuevo_df)

# Extraer Hugo_Symbol y Entrez_ID de la columna Gene_Symbol
nuevo_df[['Hugo_Symbol', 'Entrez_ID']] = nuevo_df['Gene_Symbol'].str.extract(r'([^\s]+) \((\d+)\)')
# Eliminar la columna Gene_Symbol original
nuevo_df.drop(columns=['Gene_Symbol'], inplace=True)
#print(nuevo_df)
# Guardar el DataFrame modificado en un nuevo archivo CSV
nuevo_df.to_csv('OmicsExpressionProteinCodingGenesTPMLogp1_tabla.csv', index=False)

## Para guardar después los datos de efectos genéticos en una tabla de BigQuery

In [None]:
import pandas as pd

# Cargar el dataframe desde el archivo CSV
df = pd.read_csv('DepMap23Q4/CRISPRGeneEffect.csv', index_col=0)
# Utiliza la función stack() para hacer la transformación
nuevo_df = df.stack().reset_index()
# nuevo_df contendrá el nuevo dataframe con las columnas DepMap_ID, Gene_Symbol y CNA
nuevo_df.columns = ['DepMap_ID', 'Gene_Symbol', 'Gene_Effect']
#print(nuevo_df)

# Extraer Hugo_Symbol y Entrez_ID de la columna Gene_Symbol
nuevo_df[['Hugo_Symbol', 'Entrez_ID']] = nuevo_df['Gene_Symbol'].str.extract(r'([^\s]+) \((\d+)\)')
# Eliminar la columna Gene_Symbol original
nuevo_df.drop(columns=['Gene_Symbol'], inplace=True)
#print(nuevo_df)
# Guardar el DataFrame modificado en un nuevo archivo CSV
nuevo_df.to_csv('CRISPRGeneEffect_tabla.csv', index=False)