In [75]:
from pandas import read_csv, DataFrame
from zipfile import ZipFile
from datetime import datetime
import os 

In [76]:
root_path = os.path.realpath(os.path.join(os.path.dirname("__file__"), '..'))

path_to_raw_data = root_path + '/01-data/01-raw/'
path_to_processed_data = root_path + '/01-data/02-processed/'

In [77]:
def unzip_train_test(zip_path: str, unzip_path: str):
    
    """
    Função que lê os arquivos zipados do kaggle em uma determinada pasta e exporta em\
    outra pasta.
    
    Parametros
    ----------
    
    zip_path: str
        Caminho do arquivo zip a ser lido
    unzip_path: str
        Caminho do arquivo zip a ser exportado
        
    Retorna
    -------
    Um teste se o arquivo foi exportado corretamente    
    """
    
    zip_main = ZipFile(zip_path)
    
    if os.path.exists(path_to_processed_data) == False:

        os.makedirs(path_to_processed_data)
    
        print('A pasta foi criada')
    
    else: 
    
        print('A pasta de dados já existe')

    try:
        
        date = datetime.now().strftime('%d/%m/%Y %H:%M:%S')
        print(f'{date} - Salvando os dados de treino')
        
        zip_train1 = zip_main.open('train.csv.zip')
        zip_train2 = ZipFile(zip_train1).open('train.csv')

        train_pandas_df = read_csv(zip_train2)   
                
        train_file_name = unzip_path + 'train.csv'
        train_pandas_df.to_csv(train_file_name)
        
        date = datetime.now().strftime('%d/%m/%Y %H:%M:%S')
        print(f'{date} - Dados de treino salvos em {train_file_name}')
        
        
        date = datetime.now().strftime('%d/%m/%Y %H:%M:%S')
        print(f'{date} - Salvando os dados de teste')
        
        zip_test1 = zip_main.open('test.csv.zip')
        zip_test2 = ZipFile(zip_test1).open('test.csv')

        test_pandas_df = read_csv(zip_test2)   
                
        test_file_name = unzip_path + 'test.csv'
        test_pandas_df.to_csv(test_file_name)
        
        date = datetime.now().strftime('%d/%m/%Y %H:%M:%S')
        print(f'{date} - Dados de teste salvos em {test_file_name}')
        
        
    except Exception as e:
        
        date = datetime.now().strftime('%d/%m/%Y %H:%M:%S')
        print(f'{date} - {str(e)}')

In [78]:
#---- Apĺicação dos dados para criar a base de teste e treino dentro da pasta: 
# 01-data/02-processed

unzip_train_test(zip_path = path_to_raw_data + 'sberbank-russian-housing-market.zip',
                 unzip_path = path_to_processed_data)

A pasta foi criada
25/07/2022 18:44:16 - Salvando os dados de treino
25/07/2022 18:44:25 - Dados de treino salvos em C:\Users\msb_rasilva\Documents\Github\kaggleSberbankRussianHousingMarket/01-data/02-processed/train.csv
25/07/2022 18:44:25 - Salvando os dados de teste
25/07/2022 18:44:28 - Dados de teste salvos em C:\Users\msb_rasilva\Documents\Github\kaggleSberbankRussianHousingMarket/01-data/02-processed/test.csv
