## Fase 3.1 — Ingestão de Dados Reais (KaggleHub)

Nesta etapa damos sequência à **Fase 3.1** do plano de atividades, que corresponde à primeira ação prática com dados reais, agora utilizando o **KaggleHub** para baixar o dataset diretamente do repositório oficial do Kaggle.  
Essa abordagem garante que o arquivo seja obtido na versão mais recente, com rastreabilidade e compatibilidade para versionamento com DVC. O processo será executado **dentro do container**, evitando divergências entre ambiente local e remoto.

Após o download, o caminho de saída será exibido para validação, permitindo o rastreamento do arquivo bruto e preparação para push no backend MinIO/DVC.


In [2]:
# ETAPA: DOWNLOAD DOS DADOS REAIS VIA KAGGLEHUB

# Instala o kagglehub dentro do ambiente do notebook
%pip install kagglehub

# Verifica se o pacote foi instalado corretamente
import kagglehub
print("Pacote kagglehub importado com sucesso.")

# Importa biblioteca kagglehub
import kagglehub

# Baixa a versão mais recente do dataset
path = kagglehub.dataset_download("parisrohan/credit-score-classification")

# Exibe caminho de saída para conferência
print("\n Download concluído.")
print("📂 Caminho local do dataset:", path)


Collecting kagglehub
  Downloading kagglehub-0.3.12-py3-none-any.whl (67 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m68.0/68.0 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: kagglehub
Successfully installed kagglehub-0.3.12
[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.0.1[0m[39;49m -> [0m[32;49m25.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.
Pacote kagglehub importado com sucesso.


  from .autonotebook import tqdm as notebook_tqdm


Downloading from https://www.kaggle.com/api/v1/datasets/download/parisrohan/credit-score-classification?dataset_version_number=1...


100%|██████████| 9.51M/9.51M [00:01<00:00, 7.39MB/s]

Extracting files...

 Download concluído.
📂 Caminho local do dataset: /root/.cache/kagglehub/datasets/parisrohan/credit-score-classification/versions/1





In [5]:
# ETAPA: MOVER ARQUIVOS USANDO O PATH REAL RETORNADO PELO kagglehub

import os
import shutil

# Use o valor exato retornado pelo kagglehub.dataset_download()
# Se a variável 'path' não existir mais, substitua abaixo pelo caminho real exibido no output
source_dir = path  # exemplo: "/root/.cache/kagglehub/datasets/parisrohan/credit-score-classification/version_123456"

destination_dir = "data/raw"
os.makedirs(destination_dir, exist_ok=True)

# Copia todos os arquivos do diretório real
for filename in os.listdir(source_dir):
    source_file = os.path.join(source_dir, filename)
    destination_file = os.path.join(destination_dir, filename)
    shutil.copy2(source_file, destination_file)

print("Arquivos movidos para:", destination_dir)
print("Conteúdo atual em data/raw/:", os.listdir(destination_dir))


Arquivos movidos para: data/raw
Conteúdo atual em data/raw/: ['test.csv', 'train.csv']


In [6]:
# ETAPA: VERSIONAR ARQUIVOS COM DVC ADD

# Comando shell dentro do notebook Jupyter
# Adiciona todos os arquivos da pasta data/raw/ ao controle DVC
!dvc add data/raw

# Lista o conteúdo para conferir arquivos .dvc criados
!ls -lh data/raw
!cat data/raw.dvc


 [?25l[32m⠋[0m Checking graph
Adding...                                                                       
![A
Collecting files and computing hashes in data/raw     |0.00 [00:00,     ?file/s][A
                                                                                [A
![A
  0% Checking cache in '/workspace/.dvc/cache/files/md5'| |0/? [00:00<?,    ?fil[A
                                                                                [A
![A
  0%|          |Adding data/raw to cache              0/2 [00:00<?,     ?file/s][A
                                                                                [A
![A
Checking out /workspace/notebooks/data/raw            |0.00 [00:00,    ?files/s][A
100% Adding...|████████████████████████████████████████|1/1 [00:00, 14.93file/s][A
[0mtotal 45M
-rw-r--r-- 1 root root 15M Jul 14 09:17 test.csv
-rw-r--r-- 1 root root 30M Jul 14 09:17 train.csv
outs:
- md5: 5dc4156c8cba026c76905a26de89fdb9.dir
  size: 46502530
  nfiles: 2
  

In [7]:
# ETAPA: ENVIAR ARQUIVOS VERSIONADOS PARA BACKEND REMOTO COM DVC PUSH

# Executa push dos dados para o storage remoto configurado
!dvc push

# Verifica status para garantir que tudo foi enviado corretamente
!dvc status


Collecting                                            |4.00 [00:00,  312entry/s]
Pushing
![A
  0% Querying remote cache|                          |0/1 [00:00<?,    ?files/s][A
                                                                                [A
![A
  0% Checking cache in 'mba-mlops-bucket/files/md5'| |0/? [00:00<?,    ?files/s][A
                                                                                [A
![A
  0% Checking cache in '/workspace/.dvc/cache/files/md5'| |0/? [00:00<?,    ?fil[A
                                                                                [A
![A
  0%|          |Pushing to s3                         0/3 [00:00<?,     ?file/s][A

![A[A

  0%|          |/workspace/.dvc/cache/files/md50.00/14.7M [00:00<?,        ?B/s][A[A

                                                                                [A[A

![A[A

  0%|          |/workspace/.dvc/cache/files/md50.00/29.7M [00:00<?,        ?B/s][A[A

100%|██████████|/wor