<a href="https://colab.research.google.com/github/evmpython/2_codigos_gerais/blob/main/32_download_dados_FTP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# **DOWNLOAD DE DADOS VIA PROTOCOLO FTP**
---


1. url dos dados: http://ftp.cptec.inpe.br/chuva/transfer/dados_RS/


---


- Código realizado por: Diego Souza -- 07/05/2024 - https://github.com/diegormsouza

- Código atualizado por: Enrique V. Mattos -- 13/05/2024 - enrique@unifei.edu.br


---



#Exemplo 1: usando: `requests`, `BeautifulSoup` e `Wget`

In [None]:
# importa bibliotecas
from bs4 import BeautifulSoup
from tqdm.notebook import tqdm_notebook
import requests
import os
import warnings
warnings.filterwarnings("ignore")

# monta drive
from google.colab import drive
drive.mount('/content/drive')

# pasta de saída
dir = '/content/drive/MyDrive/2-PESQUISA/artigo_Chuva_RS_26abril_05maio2024/04_radar/'
os.makedirs(f'{dir}', exist_ok=True)

# link do site
url = 'ftp.cptec.inpe.br/chuva/transfer/dados_RS/'

# extensão dos arquivos
ext = 'hdf5'
#ext = 'HDF5'
#ext = '.mvol'

# caminho completo dos arquivos
url = 'http://' + url

# função que baixa os dados
def listFD(url, ext=''):

    page = requests.get(url).text

    soup = BeautifulSoup(page, 'html.parser')

    return [url + '/' + node.get('href') for node in soup.find_all('a') if node.get('href').endswith(ext)]

# loop nos arquivo que estão no diretório específicado
for file in tqdm_notebook(listFD(url, ext)):

    # caminha de saída
    path_out = f'{dir}input/dados_radar/'

    # baixando os arquivos
    !wget -q -c {file} -P {path_out}

  0%|          | 0/509 [00:00<?, ?it/s]

#Exemplo 2: Usando: `requests` e `BeautifulSoup`  

In [1]:
# import bibliotecas
import os                        # Miscellaneous operating system interfaces
import requests                  # HTTP library for Python
from bs4 import BeautifulSoup    # Pulling data out of HTML and XML files
import re                        # Regular expression operations
import glob                      # Unix style pathname pattern expansion

# data desejada (YYYY-MM-DD--HH)
date = '2024-05-01--00'

# radares de interesse
radares = ['CGU', 'STI']

# cria o diretório onde serão salvo os dados
dir = "samples"; os.makedirs(dir, exist_ok=True)

# Loop dos radares. Exemplo dos nomes dos arquivos
# Radar de Santiago: STI-250--2024-05-01--13-10-23.mvol
# Radar de Canguçu: CGU-250--2024-05-01--00-30-02.mvol
for radar in radares:

  part = f'{radar}'                                           # Complement the aoi string

  url = f'http://ftp.cptec.inpe.br/chuva/transfer/dados_RS/'  # HTTPS server

  result = requests.get(url)                                  # Make the connection
  soup = BeautifulSoup(result.content, 'html.parser')         # Parse the HTML file
  mvol_files = soup.find_all('a', href=re.compile("\.mvol"))  # Find all "mvol" files in the server

  filenames = []                                              # Create the list

  for i in mvol_files:                                        # For each mvol file
          filenames.append(i.extract().get_text())            # Add the file to filenames

  filenames = [x for x in filenames if date in x]             # Apply first filter: date
  filenames = [x for x in filenames if part in x]             # Apply second filter: radar

  # baixando cada arquivo da lista
  for file in filenames:

    filename = file
    url = f'{url}{filename}'

    print("O seguinte arquivo será baixado: ", filename)

    # envia uma requisição para a URL especificada
    myfile = requests.get(url)

    # download o arquivo
    open(f'{dir}/{filename}', 'wb').write(myfile.content)

O seguinte arquivo será baixado:  CGU-250--2024-05-01--00-30-02.mvol
O seguinte arquivo será baixado:  CGU-250--2024-05-01--00-40-24.mvol
O seguinte arquivo será baixado:  CGU-250--2024-05-01--00-50-24.mvol
O seguinte arquivo será baixado:  STI-250--2024-05-01--00-00-23.mvol
O seguinte arquivo será baixado:  STI-250--2024-05-01--00-10-23.mvol
O seguinte arquivo será baixado:  STI-250--2024-05-01--00-20-23.mvol
O seguinte arquivo será baixado:  STI-250--2024-05-01--00-30-23.mvol
O seguinte arquivo será baixado:  STI-250--2024-05-01--00-40-23.mvol
O seguinte arquivo será baixado:  STI-250--2024-05-01--00-50-23.mvol


In [3]:
mvol_files

[<a href="CGU-250--2024-04-28--01-00-23.mvol">CGU-250--2024-04-28--01-00-23.mvol</a>,
 <a href="CGU-250--2024-04-28--01-10-23.mvol">CGU-250--2024-04-28--01-10-23.mvol</a>,
 <a href="CGU-250--2024-04-28--01-20-23.mvol">CGU-250--2024-04-28--01-20-23.mvol</a>,
 <a href="CGU-250--2024-04-28--01-30-23.mvol">CGU-250--2024-04-28--01-30-23.mvol</a>,
 <a href="CGU-250--2024-04-28--01-40-23.mvol">CGU-250--2024-04-28--01-40-23.mvol</a>,
 <a href="CGU-250--2024-04-28--10-30-02.mvol">CGU-250--2024-04-28--10-30-02.mvol</a>,
 <a href="CGU-250--2024-04-28--10-40-23.mvol">CGU-250--2024-04-28--10-40-23.mvol</a>,
 <a href="CGU-250--2024-04-28--10-50-24.mvol">CGU-250--2024-04-28--10-50-24.mvol</a>,
 <a href="CGU-250--2024-04-28--11-00-23.mvol">CGU-250--2024-04-28--11-00-23.mvol</a>,
 <a href="CGU-250--2024-04-28--11-10-23.mvol">CGU-250--2024-04-28--11-10-23.mvol</a>,
 <a href="CGU-250--2024-04-28--11-20-23.mvol">CGU-250--2024-04-28--11-20-23.mvol</a>,
 <a href="CGU-250--2024-04-28--11-30-23.mvol">CGU-250-

In [2]:
filenames

['STI-250--2024-05-01--00-00-23.mvol',
 'STI-250--2024-05-01--00-10-23.mvol',
 'STI-250--2024-05-01--00-20-23.mvol',
 'STI-250--2024-05-01--00-30-23.mvol',
 'STI-250--2024-05-01--00-40-23.mvol',
 'STI-250--2024-05-01--00-50-23.mvol']