## ↓ Coleta de Dados CSV (Pipeline AWS)

Este notebook demonstra a lógica usada para:
- Download de arquivos CSV públicos a partir de uma lista de URLs
- Armazena os arquivos localmente na pasta `../data`
- Garante que o diretório existe antes de salvar
- Utiliza cabeçalhos HTTP (User-Agent) para evitar bloqueios de acesso

Esse passo faz parte da etapa de extração (bronze) do pipeline.

> ⚠️ Esta é apenas uma demonstração. A execução oficial deve ser feita via o script `scripts/extract_data.py`.

In [7]:
import requests
import os

### 1. Definindo as URLs dos arquivos CSV públicos

In [None]:
# Lista de URLs dos arquivos CSV a serem baixados
urls = [
    "https://data.boston.gov/dataset/8048697b-ad64-4bfc-b090-ee00169f2323/resource/c9509ab4-6f6d-4b97-979a-0cf2a10c922b/download/tmphrybkxuh.csv",
    "https://data.boston.gov/dataset/8048697b-ad64-4bfc-b090-ee00169f2323/resource/b7ea6b1b-3ca4-4c5b-9713-6dc1db52379a/download/tmpzxzxeqfb.csv",
    "https://data.boston.gov/dataset/8048697b-ad64-4bfc-b090-ee00169f2323/resource/30022137-709d-465e-baae-ca155b51927d/download/tmpzccn8u4q.csv",
    "https://data.boston.gov/dataset/8048697b-ad64-4bfc-b090-ee00169f2323/resource/2be28d90-3a90-4af1-a3f6-f28c1e25880a/download/tmp7602cia8.csv",
    "https://data.boston.gov/dataset/8048697b-ad64-4bfc-b090-ee00169f2323/resource/ea2e4696-4a2d-429c-9807-d02eb92e0222/download/tmpcje3ep_w.csv",
    "https://data.boston.gov/dataset/8048697b-ad64-4bfc-b090-ee00169f2323/resource/6ff6a6fd-3141-4440-a880-6f60a37fe789/download/tmpcv_10m2s.csv"
]

### 2. Definindo onde cada arquivo será salvo

In [None]:
# Caminhos onde os arquivos baixados serão salvos
filenames = [
    "../data/raw/data_2015.csv",
    "../data/raw/data_2016.csv",
    "../data/raw/data_2017.csv",
    "../data/raw/data_2018.csv",
    "../data/raw/data_2019.csv",
    "../data/raw/data_2020.csv"
]


### 3. Função de extração com tratamento de erro e cabeçalho HTTP

In [15]:
# Função para baixar um arquivo de uma URL e salvá-lo com o nome indicado
def extract_data(url, filename):
  try:
      headers = {'User-Agent': 'Mozilla/5.0'}
      response = requests.get(url, headers=headers)

      if response.status_code == 200:
        # Garante que o diretório de destino existe (cria se não existir)
        os.makedirs(os.path.dirname(filename), exist_ok=True)
        # Abre o arquivo no modo binário de escrita e salva o conteúdo
        with open(filename, 'wb') as f:
          f.write(response.content)
          print(f'File downloaded and saved as {filename}')
      else:
        print(f'Failed to download the file. Status code: {response.status_code}')

      print(f'Extracted {filename}')
  except Exception as e:
    print(e)

### 4. Execução da função de extração com pares URL → Path

In [None]:
# Loop para executar o download de cada URL e salvar com o nome correspondente
for url, filename in zip(urls, filenames):
  extract_data(url, filename)

File downloaded and saved as ../data/data_2015.csv
Extracted ../data/data_2015.csv
File downloaded and saved as ../data/data_2016.csv
Extracted ../data/data_2016.csv
File downloaded and saved as ../data/data_2017.csv
Extracted ../data/data_2017.csv
File downloaded and saved as ../data/data_2018.csv
Extracted ../data/data_2018.csv
File downloaded and saved as ../data/data_2019.csv
Extracted ../data/data_2019.csv
File downloaded and saved as ../data/data_2020.csv
Extracted ../data/data_2020.csv
