# Ingestão e Organização dos Dados

Este notebook é responsável exclusivamente pela obtenção, carga e validação inicial
das bases de dados utilizadas no desafio de análise de crédito.

As bases são baixadas automaticamente a partir de um repositório público do GitHub e
armazenadas localmente na pasta `data/raw/`.

Nenhuma análise exploratória ou modelagem é realizada neste notebook.


In [1]:
from pathlib import Path
import requests
import pandas as pd

In [2]:
# Diretórios do projeto
PROJECT_ROOT = Path.cwd().parent
DATA_RAW_DIR = PROJECT_ROOT / "data" / "raw"
DATA_RAW_DIR.mkdir(parents=True, exist_ok=True)

DATA_RAW_DIR


WindowsPath('c:/Users/ggrinspun/Github/desafio-analise-de-credito/data/raw')

In [3]:
BASE_URL = "https://raw.githubusercontent.com/Neurolake/challenge-data-scientist/main/datasets/credit_01"

FILES = {
    "train.gz": f"{BASE_URL}/train.gz",
    "test.gz": f"{BASE_URL}/test.gz",
    "oot.gz": f"{BASE_URL}/oot.gz",
}


In [4]:
for filename, url in FILES.items():
    file_path = DATA_RAW_DIR / filename
    
    if not file_path.exists():
        print(f"Baixando {filename}...")
        response = requests.get(url)
        response.raise_for_status()
        file_path.write_bytes(response.content)
    else:
        print(f"{filename} já existe")

print("Download concluído")

train.gz já existe
test.gz já existe
oot.gz já existe
Download concluído


In [5]:
df_train = pd.read_csv(DATA_RAW_DIR / "train.gz", compression="gzip")
df_test  = pd.read_csv(DATA_RAW_DIR / "test.gz",  compression="gzip")
df_oot   = pd.read_csv(DATA_RAW_DIR / "oot.gz",   compression="gzip")


In [6]:
print("Train:", df_train.shape)
print("Test :", df_test.shape)
print("OOT  :", df_oot.shape)

Train: (120750, 151)
Test : (51751, 151)
OOT  : (91965, 150)


In [7]:
TARGET_COL = "TARGET"

assert TARGET_COL in df_train.columns
assert TARGET_COL in df_test.columns
assert TARGET_COL not in df_oot.columns

print("Verificação da variável TARGET concluída")


Verificação da variável TARGET concluída


## Salvando em versão padronizada(Parquet)

In [8]:
DATA_PROCESSED_DIR = PROJECT_ROOT / "data" / "processed"
DATA_PROCESSED_DIR.mkdir(parents=True, exist_ok=True)

df_train.to_parquet(DATA_PROCESSED_DIR / "train.parquet", index=False)
df_test.to_parquet(DATA_PROCESSED_DIR / "test.parquet", index=False)
df_oot.to_parquet(DATA_PROCESSED_DIR / "oot.parquet", index=False)

print("Dados salvos em formato parquet")


Dados salvos em formato parquet
