In [1]:
# The purpose of this script is to convert Biogrid BIOGRID-ORCS-ALL1-homo_sapiens-1.1.16.screens data.
# The data were downloaded from the https://downloads.thebiogrid.org site. 
# a preliminary check showed that the file extension is: .tab.txt 
# with this data we will try to create a database
# We will start with a scan of the folder and its files and then list them.


# El proposito de este script es la conversion de la data Biogrid BIOGRID-ORCS-ALL1-homo_sapiens-1.1.16.screens
# Los datos fueron descargados de la pagina https://downloads.thebiogrid.org 
# Una revision preliminar demostro que la extencion de los archivos es: .tab.txt 
# con estos datos intentaremos crear una base de datos
# Comenzaremos con una exploracion de la carpeta y sus archivos para luego listarlos


import os
import pandas as pd
import csv

# Folder path
# Ruta de la carpeta

folder_path = r"C:/Polimeromics/data/BIOGRID-ORCS-ALL1-homo_sapiens-1.1.16.screens"

# We normalize the route to handle possible errors with spaces.
# Normalizamos la ruta para manejar posibles errores con espacios
folder_path = os.path.normpath(folder_path)

# We check if the folder exists and list all the items in it.
# Comprobamos si la carpeta existe y listamos todos los elementos dentro
if os.path.exists(folder_path):
    print(f"La carpeta existe: {folder_path}")
    print("Contenido de la carpeta:")
    print(os.listdir(folder_path))  # Listamos los archivos y carpetas / List files and folders
else:
    print(f"La carpeta no existe: {folder_path}")

    # Search for files in the folder and subfolders
    # Buscar archivos en la carpeta y subcarpetas
found_files = []
for root, dirs, files in os.walk(folder_path):
    for file in files:
        if file.endswith(".tab"):
            found_files.append(os.path.join(root, file))

# Show found files
# Mostrar archivos encontrados
if found_files:
    print("\nArchivos encontrados con extensión '.tab':")
    for file in found_files:
        print(file)
else:
    print("\nNo se encontraron archivos con extensión '.tab' en la carpeta especificada.")

La carpeta existe: C:\Polimeromics\data\BIOGRID-ORCS-ALL1-homo_sapiens-1.1.16.screens
Contenido de la carpeta:
['BIOGRID-ORCS-SCREEN_1-1.1.16.screen.tab.txt', 'BIOGRID-ORCS-SCREEN_100-1.1.16.screen.tab.txt', 'BIOGRID-ORCS-SCREEN_1000-1.1.16.screen.tab.txt', 'BIOGRID-ORCS-SCREEN_1001-1.1.16.screen.tab.txt', 'BIOGRID-ORCS-SCREEN_1002-1.1.16.screen.tab.txt', 'BIOGRID-ORCS-SCREEN_1003-1.1.16.screen.tab.txt', 'BIOGRID-ORCS-SCREEN_1004-1.1.16.screen.tab.txt', 'BIOGRID-ORCS-SCREEN_1005-1.1.16.screen.tab.txt', 'BIOGRID-ORCS-SCREEN_1006-1.1.16.screen.tab.txt', 'BIOGRID-ORCS-SCREEN_1007-1.1.16.screen.tab.txt', 'BIOGRID-ORCS-SCREEN_1008-1.1.16.screen.tab.txt', 'BIOGRID-ORCS-SCREEN_1009-1.1.16.screen.tab.txt', 'BIOGRID-ORCS-SCREEN_101-1.1.16.screen.tab.txt', 'BIOGRID-ORCS-SCREEN_1010-1.1.16.screen.tab.txt', 'BIOGRID-ORCS-SCREEN_1011-1.1.16.screen.tab.txt', 'BIOGRID-ORCS-SCREEN_1012-1.1.16.screen.tab.txt', 'BIOGRID-ORCS-SCREEN_1013-1.1.16.screen.tab.txt', 'BIOGRID-ORCS-SCREEN_1014-1.1.16.screen.tab

In [6]:
# The files are in .tab.txt format.
# Conversion of the .tab.txt files to csv and create a folder to save and clean them.

# Los archivos estan en formato .tab.txt
# Conversion de los archivos .tab.txt a csv y crear una carpeta para guardarlos

# Path of the folder containing the .tab.txt files
# Ruta de la carpeta que contiene los archivos .tab.txt
carpeta_tab_txt = "C:/Polimeromics/data/BIOGRID-ORCS-ALL1-homo_sapiens-1.1.16.screens"
carpeta_csv = "C:/Polimeromics/data/BIOGRID-CSV"
os.makedirs(carpeta_csv, exist_ok=True)  # Crear carpeta para los CSV

def convertir_a_csv(ruta_archivo):
    try:
        # Load tabular file as DataFrame
        # Cargar archivo tabular como DataFrame
        df = pd.read_csv(ruta_archivo, sep='\t', encoding='utf-8')
        # Save as CSV
        # Guardar como CSV
        nombre_archivo = os.path.basename(ruta_archivo).replace('.tab.txt', '.csv')
        ruta_csv = os.path.join(carpeta_csv, nombre_archivo)
        df.to_csv(ruta_csv, index=False, encoding='utf-8')
        print(f"Convertido: {ruta_archivo} -> {ruta_csv}")
    except Exception as e:
        print(f"Error al convertir {ruta_archivo}: {e}")

# Process all .tab.txt files
# Procesar todos los archivos .tab.txt
archivos_tab_txt = [os.path.join(carpeta_tab_txt, f) for f in os.listdir(carpeta_tab_txt) if f.endswith('.tab.txt')]

for archivo in archivos_tab_txt:
    convertir_a_csv(archivo)

print(f"\nConversión completa. Archivos CSV guardados en: {carpeta_csv}")


Convertido: C:/Polimeromics/data/BIOGRID-ORCS-ALL1-homo_sapiens-1.1.16.screens\BIOGRID-ORCS-SCREEN_1-1.1.16.screen.tab.txt -> C:/Polimeromics/data/BIOGRID-CSV\BIOGRID-ORCS-SCREEN_1-1.1.16.screen.csv
Convertido: C:/Polimeromics/data/BIOGRID-ORCS-ALL1-homo_sapiens-1.1.16.screens\BIOGRID-ORCS-SCREEN_100-1.1.16.screen.tab.txt -> C:/Polimeromics/data/BIOGRID-CSV\BIOGRID-ORCS-SCREEN_100-1.1.16.screen.csv
Convertido: C:/Polimeromics/data/BIOGRID-ORCS-ALL1-homo_sapiens-1.1.16.screens\BIOGRID-ORCS-SCREEN_1000-1.1.16.screen.tab.txt -> C:/Polimeromics/data/BIOGRID-CSV\BIOGRID-ORCS-SCREEN_1000-1.1.16.screen.csv
Convertido: C:/Polimeromics/data/BIOGRID-ORCS-ALL1-homo_sapiens-1.1.16.screens\BIOGRID-ORCS-SCREEN_1001-1.1.16.screen.tab.txt -> C:/Polimeromics/data/BIOGRID-CSV\BIOGRID-ORCS-SCREEN_1001-1.1.16.screen.csv
Convertido: C:/Polimeromics/data/BIOGRID-ORCS-ALL1-homo_sapiens-1.1.16.screens\BIOGRID-ORCS-SCREEN_1002-1.1.16.screen.tab.txt -> C:/Polimeromics/data/BIOGRID-CSV\BIOGRID-ORCS-SCREEN_1002-1

In [2]:
# I want to list the sizes as this is the third time I have tried to make the BIOGRID database.
# Quiero listar los tamanos ya que es la tercera vez que intento hacer la base de datos de BIOGRID

# Path of the folder where the files are located
# Ruta de la carpeta donde están los archivos
carpeta_archivos = "C:/Polimeromics/data/BIOGRID-CSV"

# List for storing file information
# Lista para almacenar información de los archivos
informacion_archivos = []

# Scrolls through the folder and gets the size of each file
# Recorre la carpeta y obtiene el tamaño de cada archivo
for archivo in os.listdir(carpeta_archivos):
    ruta_completa = os.path.join(carpeta_archivos, archivo)
    if os.path.isfile(ruta_completa):
        tamano = os.path.getsize(ruta_completa)  # Obtiene el tamaño en bytes
        informacion_archivos.append({"Archivo": archivo, "Tamano (MB)": tamano / (1024 * 1024)})

# Creates a DataFrame with the information
# Crea un DataFrame con la información
df_archivos = pd.DataFrame(informacion_archivos)

# Ordenar los archivos por tamaño
# Ordena los archivos por tamaño
df_archivos = df_archivos.sort_values(by="Tamano (MB)", ascending=False)

# Save the report in a CSV file
# Guarda el reporte en un archivo CSV
reporte_csv = os.path.join(carpeta_archivos, "reporte_tamanos_archivos.csv")
df_archivos.to_csv(reporte_csv, index=False)

print(f"Reporte generado: {reporte_csv}")


Reporte generado: C:/Polimeromics/data/BIOGRID-CSV\reporte_tamanos_archivos.csv


In [3]:
# I will generate a list with a report for each of the CSV files.
# Generare una lista con un  reporte de cada uno de los archivos CSV


# Ruta de la carpeta que contiene los archivos CSV
# Ruta de la carpeta que contiene los archivos CSV
folder_path = "C:/Polimeromics/data/BIOGRID-CSV"
# Path of the output file (in the same folder)
# Ruta del archivo de salida (en la misma carpeta)
output_file = os.path.join(folder_path, "informe_biogrid.csv")

def generate_csv_report(folder_path, output_file):
    try:
        # Check if the folder exists
        # Verificar si la carpeta existe
        if not os.path.exists(folder_path):
            raise FileNotFoundError(f"La carpeta '{folder_path}' no existe.")
        # Get list of CSV files in the folder 
        # Obtener la lista de archivos CSV en la carpeta
        files = [f for f in os.listdir(folder_path) if f.endswith('.csv')]

        if not files:
            raise FileNotFoundError("No se encontraron archivos CSV en la carpeta.")
        # Initialize the output file with headers
        # Inicializar el archivo de salida con encabezados
        with open(output_file, mode="w", newline="", encoding="utf-8") as csvfile:
            writer = csv.writer(csvfile)
            # Write headers
            # Escribir encabezados
            writer.writerow(["Archivo", "Tamaño (MB)", "Número de columnas", "Nombres de columnas", "Estado"])
            # Procesar cada archivo
            # Procesar cada archivo
            for index, file in enumerate(files, start=1):
                file_path = os.path.join(folder_path, file)
                try:
                    # Get file size
                    # Obtener el tamaño del archivo
                    file_size = os.path.getsize(file_path) / (1024 * 1024)  # Tamaño en MB
                    # Read a sample CSV file (5 rows)
                    # Leer una muestra del archivo CSV (5 filas)
                    df = pd.read_csv(file_path, nrows=5)
                    # Write the file information to the output CSV
                    # Escribir la información del archivo en el CSV de salida
                    writer.writerow([
                        file,
                        f"{file_size:.2f}",
                        len(df.columns),
                        ", ".join(df.columns),
                        "Procesado correctamente"
                    ])
                except Exception as e:
                    # Logging errors for problematic files
                    # Registrar errores para archivos problemáticos
                    writer.writerow([
                        file,
                        "N/A",
                        "N/A",
                        "N/A",
                        f"Error: {str(e)}"
                    ])

        print(f"Informe generado exitosamente: {output_file}")

    except Exception as e:
        print(f"Error: {str(e)}")

# Ejecutar la función
generate_csv_report(folder_path, output_file)


Informe generado exitosamente: C:/Polimeromics/data/BIOGRID-CSV\informe_biogrid.csv


In [5]:
# I start cleaning up the file; removing null values, removing special text characters, normalizing scientific notations 
# to a maximum of 12 digits and normalizing extreme values to the mean if they do not exceed 30% of the data.
# Then I will divide the file by blocks and perform the cleaning of each block separately.


import os
import pandas as pd
import numpy as np

def clean_data_frame(df):
    """
    Aplica limpieza básica al DataFrame:
        - Elimina valores nulos.
        - Remueve caracteres especiales de texto.
        - Normaliza notaciones científicas a un máximo de 12 dígitos.
        - Normaliza valores extremos a la media si no superan el 30% de los datos.

    Args:
        df (pd.DataFrame): DataFrame a limpiar.

    Returns:
        pd.DataFrame: DataFrame limpio.
    """
    # Remove null values
    # Eliminar valores nulos
    df.dropna(inplace=True)
    # Remove special characters from text columns
    # Remover caracteres especiales de columnas de texto
    for col in df.select_dtypes(include=['object']).columns:
        df[col] = df[col].str.replace(r'[^\w\s]', '', regex=True)
    # Normalize scientific notation to 12 digits
    # Normalizar notaciones científicas a 12 dígitos
    for col in df.select_dtypes(include=['float64', 'int64']).columns:
        df[col] = df[col].apply(lambda x: round(x, 12) if not pd.isnull(x) else x)
    # Normalize extreme values to the mean if they do not exceed 30%.
    # Normalizar valores extremos a la media si no superan el 30%
    for col in df.select_dtypes(include=['float64', 'int64']).columns:
        q1 = df[col].quantile(0.25)
        q3 = df[col].quantile(0.75)
        iqr = q3 - q1
        lower_bound = q1 - 1.5 * iqr
        upper_bound = q3 + 1.5 * iqr

        outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
        if len(outliers) / len(df) <= 0.3:  # Si los outliers no superan el 30%
            mean_value = df[col].mean()
            df.loc[(df[col] < lower_bound) | (df[col] > upper_bound), col] = mean_value

    return df

def process_blocks(folder_path, block_size_mb=500):
    """
    Divide los archivos restantes en bloques de tamaño acumulado no mayor a block_size_mb y los procesa por separado.

    Args:
        folder_path (str): Ruta de la carpeta con los archivos restantes.
        block_size_mb (float): Tamaño máximo acumulado por bloque en MB.

    Returns:
        None
    """
    # Create a new folder for the clean blocks
    # Crear una nueva carpeta para los bloques limpios
    cleaned_folder = os.path.join(folder_path, "cleaned_blocks")
    os.makedirs(cleaned_folder, exist_ok=True)
    # List all remaining files
    # Listar todos los archivos restantes
    files = os.listdir(folder_path)
    file_sizes = []

    for file_name in files:
        file_path = os.path.join(folder_path, file_name)
        if os.path.isfile(file_path):
            file_size_mb = os.path.getsize(file_path) / (1024 * 1024)  # Convertir bytes a MB
            file_sizes.append((file_name, file_size_mb))
    # Sort the files by size (ascending)
    # Ordenar los archivos por tamaño (ascendente)
    file_sizes.sort(key=lambda x: x[1])
    # Group files in blocks
    # Agrupar archivos en bloques
    blocks = []
    current_block = []
    current_size = 0

    for file_name, file_size in file_sizes:
        if current_size + file_size <= block_size_mb:
            current_block.append(file_name)
            current_size += file_size
        else:
            blocks.append(current_block)
            current_block = [file_name]
            current_size = file_size

    if current_block:
        blocks.append(current_block)
    # Process each block
    # Procesar cada bloque
    for i, block in enumerate(blocks):
        print(f"\nProcesando bloque {i + 1} con {len(block)} archivos")
        combined_data = pd.DataFrame()

        for file_name in block:
            file_path = os.path.join(folder_path, file_name)
            try:
                data = pd.read_csv(file_path)
                cleaned_data = clean_data_frame(data)
                combined_data = pd.concat([combined_data, cleaned_data], ignore_index=True)
            except Exception as e:
                print(f"Error al procesar {file_name}: {e}")
        # Save the cleaned block in the new folder
        # Guardar el bloque limpio en la nueva carpeta
        output_file = os.path.join(cleaned_folder, f"cleaned_block_{i + 1}.csv")
        combined_data.to_csv(output_file, index=False)
        print(f"Bloque {i + 1} guardado en: {output_file}")

# Path to BIOGRID-CSV folder
# Ruta de la carpeta BIOGRID-CSV
folder_path = "C:/Polimeromics/data/BIOGRID-CSV"

# Process the remaining blocks
# Procesar los bloques restantes
if __name__ == "__main__":
    process_blocks(folder_path, block_size_mb=500)



Procesando bloque 1 con 653 archivos
Bloque 1 guardado en: C:/Polimeromics/data/BIOGRID-CSV\cleaned_blocks\cleaned_block_1.csv

Procesando bloque 2 con 271 archivos
Bloque 2 guardado en: C:/Polimeromics/data/BIOGRID-CSV\cleaned_blocks\cleaned_block_2.csv

Procesando bloque 3 con 265 archivos
Bloque 3 guardado en: C:/Polimeromics/data/BIOGRID-CSV\cleaned_blocks\cleaned_block_3.csv

Procesando bloque 4 con 256 archivos
Bloque 4 guardado en: C:/Polimeromics/data/BIOGRID-CSV\cleaned_blocks\cleaned_block_4.csv

Procesando bloque 5 con 225 archivos
Bloque 5 guardado en: C:/Polimeromics/data/BIOGRID-CSV\cleaned_blocks\cleaned_block_5.csv

Procesando bloque 6 con 16 archivos
Bloque 6 guardado en: C:/Polimeromics/data/BIOGRID-CSV\cleaned_blocks\cleaned_block_6.csv
