In [16]:
import pandas as pd
import zipfile
import os

def dividir_csv(arquivo_original: str, arquivo_saida1: str, arquivo_saida2: str):
    
    try:
        print(f"Lendo o arquivo original: '{arquivo_original}'...")
        df = pd.read_csv(arquivo_original)
        print(f"Dimensões do DataFrame original ('{os.path.basename(arquivo_original)}'): {df.shape[0]} linhas, {df.shape[1]} colunas")

        tamanho_total = len(df)
        ponto_divisao = tamanho_total // 2

        df1 = df.iloc[:ponto_divisao]
        df2 = df.iloc[ponto_divisao:]

        print(f"Dimensões da Parte 1 ('{os.path.basename(arquivo_saida1)}'): {df1.shape[0]} linhas, {df1.shape[1]} colunas")
        print(f"Dimensões da Parte 2 ('{os.path.basename(arquivo_saida2)}'): {df2.shape[0]} linhas, {df2.shape[1]} colunas")

        df1.to_csv(arquivo_saida1, index=False)
        df2.to_csv(arquivo_saida2, index=False)
        print(f"Arquivo '{arquivo_original}' dividido em '{arquivo_saida1}' e '{arquivo_saida2}' com sucesso!")

    except FileNotFoundError:
        print(f"Erro: O arquivo '{arquivo_original}' não foi encontrado.")
    except Exception as e:
        print(f"Ocorreu um erro ao dividir o arquivo: {e}")

def compactar_um_csv_em_zip(arquivo_csv_entrada: str, arquivo_zip_saida: str):
    
    try:
        if not os.path.exists(arquivo_csv_entrada):
            print(f"Aviso: O arquivo CSV de entrada '{arquivo_csv_entrada}' não foi encontrado. O ZIP não será criado.")
            return

        with zipfile.ZipFile(arquivo_zip_saida, 'w', zipfile.ZIP_DEFLATED) as zipf:
            zipf.write(arquivo_csv_entrada, os.path.basename(arquivo_csv_entrada))
        print(f"Arquivo '{arquivo_csv_entrada}' compactado em '{arquivo_zip_saida}' com sucesso!")
    except Exception as e:
        print(f"Ocorreu um erro ao compactar o arquivo '{arquivo_csv_entrada}': {e}")

def juntar_csvs_em_dataframe(arquivo_csv1: str, arquivo_csv2: str) -> pd.DataFrame | None:

    try:
        print(f"\nLendo o primeiro arquivo para junção: '{arquivo_csv1}'...")
        df1 = pd.read_csv(arquivo_csv1)
        print(f"Dimensões de '{os.path.basename(arquivo_csv1)}': {df1.shape[0]} linhas, {df1.shape[1]} colunas")

        print(f"Lendo o segundo arquivo para junção: '{arquivo_csv2}'...")
        df2 = pd.read_csv(arquivo_csv2)
        print(f"Dimensões de '{os.path.basename(arquivo_csv2)}': {df2.shape[0]} linhas, {df2.shape[1]} colunas")

        df_concatenado = pd.concat([df1, df2], ignore_index=True)
        print(f"Dimensões do DataFrame final concatenado: {df_concatenado.shape[0]} linhas, {df_concatenado.shape[1]} colunas")
        print(f"Arquivos '{arquivo_csv1}' e '{arquivo_csv2}' juntados em um DataFrame com sucesso!")
        return df_concatenado
    except FileNotFoundError:
        print(f"Erro: Um ou ambos os arquivos CSV ('{arquivo_csv1}', '{arquivo_csv2}') não foram encontrados.")
        return None
    except Exception as e:
        print(f"Ocorreu um erro ao juntar os arquivos CSV: {e}")
        return None

In [17]:

arquivo_csv_original = 'ZMays/Agrup/k-mer/k-mer_agrupado.csv'
arquivo_csv_parte1 = 'ZMays/Agrup/k-mer/parte1.csv'
arquivo_csv_parte2 = 'ZMays/Agrup/k-mer/parte2.csv'
arquivo_zip_parte1 = 'ZMays/Agrup/k-mer/parte1_csv.zip'
arquivo_zip_parte2 = 'ZMays/Agrup/k-mer/parte2_csv.zip'

print("--- Etapa 1: Dividindo o CSV ---")
dividir_csv(arquivo_csv_original, arquivo_csv_parte1, arquivo_csv_parte2)

print("\n--- Etapa 2: Compactando os CSVs divididos em ZIPs separados ---")
compactar_um_csv_em_zip(arquivo_csv_parte1, arquivo_zip_parte1)
compactar_um_csv_em_zip(arquivo_csv_parte2, arquivo_zip_parte2)


--- Etapa 1: Dividindo o CSV ---
Lendo o arquivo original: 'ZMays/Agrup/k-mer/k-mer_agrupado.csv'...
Dimensões do DataFrame original ('k-mer_agrupado.csv'): 62482 linhas, 5462 colunas
Dimensões da Parte 1 ('parte1.csv'): 31241 linhas, 5462 colunas
Dimensões da Parte 2 ('parte2.csv'): 31241 linhas, 5462 colunas
Arquivo 'ZMays/Agrup/k-mer/k-mer_agrupado.csv' dividido em 'ZMays/Agrup/k-mer/parte1.csv' e 'ZMays/Agrup/k-mer/parte2.csv' com sucesso!

--- Etapa 2: Compactando os CSVs divididos em ZIPs separados ---
Arquivo 'ZMays/Agrup/k-mer/parte1.csv' compactado em 'ZMays/Agrup/k-mer/parte1_csv.zip' com sucesso!
Arquivo 'ZMays/Agrup/k-mer/parte2.csv' compactado em 'ZMays/Agrup/k-mer/parte2_csv.zip' com sucesso!


In [None]:
arquivo_csv_parte1 = 'ZMays/Agrup/k-mer/parte1.csv'
arquivo_csv_parte2 = 'ZMays/Agrup/k-mer/parte2.csv'

print("\n--- Etapa 3: Juntando os CSVs divididos em um DataFrame ---")
dataframe_final = juntar_csvs_em_dataframe(arquivo_csv_parte1, arquivo_csv_parte2)

if dataframe_final is not None:
    print("\nPré-visualização do DataFrame final (primeiras 5 linhas):")
    print(dataframe_final.head())
    print("\nPré-visualização do DataFrame final (últimas 5 linhas):")
    print(dataframe_final.tail())
    print(f"\nDimensões totais verificadas do DataFrame final: {dataframe_final.shape}")

    # Verificação opcional da integridade (comparar com o original)
    try:
        df_original_releitura = pd.read_csv(arquivo_csv_original)
        if df_original_releitura.equals(dataframe_final):
            print("\nVERIFICAÇÃO: DataFrame final é idêntico ao DataFrame original! Tudo certo!")
        else:
            print("\nVERIFICAÇÃO: DataFrame final NÃO é idêntico ao DataFrame original. Algo deu errado.")
    except Exception as e:
        print(f"\nErro ao tentar verificar com o original: {e}")


--- Etapa 3: Juntando os CSVs divididos em um DataFrame ---

Lendo o primeiro arquivo para junção: 'ZMays/Agrup/k-mer/parte1.csv'...
Dimensões de 'parte1.csv': 31241 linhas, 5462 colunas
Lendo o segundo arquivo para junção: 'ZMays/Agrup/k-mer/parte2.csv'...
Dimensões de 'parte2.csv': 31241 linhas, 5462 colunas
Dimensões do DataFrame final concatenado: 62482 linhas, 5462 colunas
Arquivos 'ZMays/Agrup/k-mer/parte1.csv' e 'ZMays/Agrup/k-mer/parte2.csv' juntados em um DataFrame com sucesso!

Pré-visualização do DataFrame final (primeiras 5 linhas):
            nameseq         A         C         G         T        AA  \
0  10_104431_104500  0.328571  0.157143  0.185714  0.328571  0.101449   
1  10_104817_104874  0.293103  0.293103  0.189655  0.224138  0.105263   
2  10_104957_105096  0.350000  0.157143  0.228571  0.264286  0.143885   
3  10_106081_106190  0.400000  0.118182  0.172727  0.309091  0.201835   
4  10_106081_108136  0.340953  0.165370  0.196984  0.296693  0.136740   

         

In [19]:
print(dataframe_final.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 62482 entries, 0 to 62481
Columns: 5462 entries, nameseq to label
dtypes: float64(5460), object(2)
memory usage: 2.5+ GB
None


In [20]:
print(dataframe_final)

                   nameseq         A         C         G         T        AA  \
0         10_104431_104500  0.328571  0.157143  0.185714  0.328571  0.101449   
1         10_104817_104874  0.293103  0.293103  0.189655  0.224138  0.105263   
2         10_104957_105096  0.350000  0.157143  0.228571  0.264286  0.143885   
3         10_106081_106190  0.400000  0.118182  0.172727  0.309091  0.201835   
4         10_106081_108136  0.340953  0.165370  0.196984  0.296693  0.136740   
...                    ...       ...       ...       ...       ...       ...   
62477  9_80085082_80085224  0.195804  0.279720  0.209790  0.314685  0.049296   
62478  9_80090125_80096282  0.277688  0.213219  0.217766  0.291328  0.096963   
62479  9_80104841_80126544  0.210238  0.260459  0.300590  0.228714  0.046768   
62480    9_8012224_8012430  0.260870  0.294686  0.173913  0.270531  0.082524   
62481  9_80126686_80127117  0.310185  0.180556  0.268519  0.240741  0.083527   

             AC        AG        AT    