# Ingestão e Organização dos Dados

Este notebook é responsável exclusivamente pela obtenção, carga e validação inicial
das bases de dados utilizadas no desafio de análise de crédito.

As bases são baixadas automaticamente a partir de um repositório público do GitHub e
armazenadas localmente na pasta `data/raw/`.

Nenhuma análise exploratória ou modelagem é realizada neste notebook.


In [2]:
from pathlib import Path
import requests
import pandas as pd

# Desafio 1

In [3]:
from pathlib import Path

# ============================================================
# ROOT DO PROJETO
# ============================================================
PROJECT_ROOT = Path.cwd().parent

# ============================================================
# CONTEXTO DO DESAFIO
# ============================================================
CHALLENGE_NAME = "desafio_01"

# ============================================================
# DIRETÓRIOS DE DADOS
# ============================================================
DATA_DIR = PROJECT_ROOT / "data" / CHALLENGE_NAME

DATA_RAW_DIR = DATA_DIR / "raw"
DATA_PROCESSED_DIR = DATA_DIR / "processed"
DATA_FINAL_DIR = DATA_DIR / "final"

# ============================================================
# CRIAÇÃO DOS DIRETÓRIOS
# ============================================================
for d in [DATA_RAW_DIR, DATA_PROCESSED_DIR, DATA_FINAL_DIR]:
    d.mkdir(parents=True, exist_ok=True)

DATA_RAW_DIR


WindowsPath('c:/Users/ggrinspun/Github/desafio-analise-de-credito/data/desafio_01/raw')

In [4]:
BASE_URL = "https://raw.githubusercontent.com/Neurolake/challenge-data-scientist/main/datasets/credit_01"

FILES = {
    "train.gz": f"{BASE_URL}/train.gz",
    "test.gz": f"{BASE_URL}/test.gz",
    "oot.gz": f"{BASE_URL}/oot.gz",
}


In [5]:
import requests

for filename, url in FILES.items():
    file_path = DATA_RAW_DIR / filename

    if not file_path.exists():
        print(f"Baixando {filename}...")
        response = requests.get(url)
        response.raise_for_status()
        file_path.write_bytes(response.content)
    else:
        print(f"{filename} já existe")

print("Download concluído")


train.gz já existe
test.gz já existe
oot.gz já existe
Download concluído


In [6]:
import pandas as pd

df_train = pd.read_csv(DATA_RAW_DIR / "train.gz", compression="gzip")
df_test  = pd.read_csv(DATA_RAW_DIR / "test.gz",  compression="gzip")
df_oot   = pd.read_csv(DATA_RAW_DIR / "oot.gz",   compression="gzip")

print("Train:", df_train.shape)
print("Test :", df_test.shape)
print("OOT  :", df_oot.shape)


Train: (120750, 151)
Test : (51751, 151)
OOT  : (91965, 150)


In [7]:
TARGET_COL = "TARGET"

assert TARGET_COL in df_train.columns
assert TARGET_COL in df_test.columns
assert TARGET_COL not in df_oot.columns

print("Verificação da variável TARGET concluída")


Verificação da variável TARGET concluída


## Salvando em versão padronizada(Parquet)

In [8]:
# DATA_PROCESSED_DIR já definido anteriormente como:
# PROJECT_ROOT / "data" / CHALLENGE_NAME / "processed"

df_train.to_parquet(DATA_PROCESSED_DIR / "train.parquet", index=False)
df_test.to_parquet(DATA_PROCESSED_DIR / "test.parquet", index=False)
df_oot.to_parquet(DATA_PROCESSED_DIR / "oot.parquet", index=False)

print("Dados salvos em formato parquet")


Dados salvos em formato parquet


# Desafio 2

In [9]:
CHALLENGE_NAME = "desafio_02"

# ============================================================
# DIRETÓRIOS DE DADOS
# ============================================================
DATA_DIR = PROJECT_ROOT / "data" / CHALLENGE_NAME
DATA_RAW_DIR = DATA_DIR / "raw"

DATA_RAW_DIR.mkdir(parents=True, exist_ok=True)

DATA_RAW_DIR


WindowsPath('c:/Users/ggrinspun/Github/desafio-analise-de-credito/data/desafio_02/raw')

In [10]:
BASE_URL = (
    "https://raw.githubusercontent.com/"
    "Neurolake/challenge-data-scientist/main/datasets/credit_02"
)

FILE_NAME = "base_case.csv"
FILE_URL = f"{BASE_URL}/{FILE_NAME}"

In [11]:
file_path = DATA_RAW_DIR / FILE_NAME

if not file_path.exists():
    print(f"Baixando {FILE_NAME}...")
    response = requests.get(FILE_URL)
    response.raise_for_status()
    file_path.write_bytes(response.content)
else:
    print(f"{FILE_NAME} já existe")

print("Download do desafio_02 concluído")


Baixando base_case.csv...
Download do desafio_02 concluído


In [15]:
with open(DATA_RAW_DIR / "base_case.csv", "r", encoding="utf-8", errors="ignore") as f:
    line = f.readline()
    print(repr(line))


'index\talvo\tREF_DATE\tPRODUTO\tDIAS_ATRASO\tcol_4\tcol_5\tcol_6\tcol_7\tcol_8\tcol_9\tcol_10\tcol_11\tcol_12\tcol_13\tcol_14\tcol_15\tcol_16\tcol_17\tcol_18\tcol_19\tcol_20\tcol_21\tcol_22\tcol_23\tcol_24\tcol_25\tcol_26\tcol_27\tcol_28\tcol_29\tcol_30\tcol_31\tcol_32\tcol_33\tcol_34\tcol_35\tcol_36\tcol_37\tcol_38\tcol_39\tcol_40\tcol_41\tcol_42\tcol_43\tcol_44\tcol_45\tcol_46\tcol_47\tcol_48\tcol_49\tcol_50\tcol_51\tcol_52\tcol_53\tcol_54\tcol_55\tcol_56\tcol_57\tcol_58\tcol_59\tcol_60\tcol_61\tcol_62\tcol_63\tcol_64\tcol_65\tcol_66\tcol_67\tcol_68\tcol_69\tcol_70\tcol_71\tcol_72\tcol_73\tcol_74\tcol_75\tcol_76\tcol_77\tcol_78\tcol_79\tcol_80\tcol_81\tcol_82\tcol_83\tcol_84\tcol_85\tcol_86\tcol_87\tcol_88\tcol_89\tcol_90\tcol_91\tcol_92\tcol_93\tcol_94\tcol_95\tcol_96\tcol_97\tcol_98\tcol_99\tcol_100\tcol_101\tcol_102\tcol_103\tcol_104\tcol_105\tcol_106\tcol_107\tcol_108\tcol_109\tcol_110\tcol_111\tcol_112\tcol_113\tcol_114\tcol_115\tcol_116\tcol_117\tcol_118\tcol_119\tcol_120\tcol

Embora o arquivo possua extensão .csv, verificou-se que os dados estão separados por tabulação (\t). Dessa forma, foi necessário ajustar explicitamente o delimitador no processo de ingestão para garantir a correta leitura da base.

In [16]:
df_base = pd.read_csv(
    DATA_RAW_DIR / "base_case.csv",
    sep="\t",
    encoding="utf-8"
)

print(df_base.shape)
df_base.head()


(46522, 203)


Unnamed: 0,index,alvo,REF_DATE,PRODUTO,DIAS_ATRASO,col_4,col_5,col_6,col_7,col_8,...,col_192,col_193,col_194,col_195,col_196,col_197,col_198,col_199,col_200,REGIAO
0,0,0,2023-01-31,CREDITO PESSOAL,52,2461.11,30 a 60,0,0,0,...,0,2,,MEDIO,,3.0,-1.0,1.0,URBANO,NORTE
1,1,0,2022-12-29,CREDITO PESSOAL,37,4674.5,30 a 60,0,0,0,...,0,4,D,MEDIO,D,2.0,1.0,1.0,URBANO,NORDESTE
2,2,0,2023-09-29,CREDITO PESSOAL,36,43649.17,30 a 60,1,0,0,...,0,8,B,MUITO ALTO,B+,4.0,3.0,1.0,URBANO,SUDESTE
3,3,1,2023-02-28,CREDITO PESSOAL,48,1090.58,30 a 60,0,0,0,...,0,1,C,BAIXO,C-,4.0,-4.0,0.0,URBANO,SUDESTE
4,4,0,2023-02-28,CREDITO PESSOAL,34,1495.49,30 a 60,0,0,0,...,0,3,C,MEDIO,C,4.0,-1.0,1.0,URBANO,SUDESTE
