<a href="https://colab.research.google.com/github/armandossrecife/lp2024-1/blob/main/my_download.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Download de arquivos

In [1]:
import requests
from tqdm import tqdm  # Import for progress bar
from urllib.parse import urlparse
import os

## Class de utilidades

In [40]:
PROTOCOLOS_SUPORTADOS = ('http', 'https', 'ftp')

# Classe que extrai nome e extensao de uma URL
class Util:
    def extrair_nome_extensao_url(self, url):
        try:
            parsed_url = urlparse(url)
            if parsed_url.scheme not in PROTOCOLOS_SUPORTADOS:
                raise ValueError(f"Protocolo não suportado: {parsed_url.scheme}")

            caminho_arquivo = parsed_url.path
            if not caminho_arquivo:
                raise ValueError("Arquivo não identificado na URL")
            arquivo = os.path.basename(caminho_arquivo).split('.')
            nome_arquivo = arquivo[0]
            extensao = arquivo[1]
            return nome_arquivo,extensao

        except Exception as ex:
            raise ValueError(f"{str(ex)}") from ex  # Preserve original exception

In [3]:
# Exemplos:
url1 = 'https://raw.githubusercontent.com/armandossrecife/teste/main/babydogcat.png'
url2 = 'https://raw.githubusercontent.com/armandossrecife/teste/main/screen_matrix.jpeg'
url3 = 'https://raw.githubusercontent.com/armandossrecife/teste/main/Kalimba.mp3'
url4 = 'https://raw.githubusercontent.com/armandossrecife/teste/main/Adrienne.mp4'

In [4]:
nome1, extensao1 = Util().extrair_nome_extensao_url(url1)
print(f'Arquivo: {nome1}, Extensão: {extensao1}')

Arquivo: babydogcat, Extensão: .png


In [5]:
nome4, extensao4 = Util().extrair_nome_extensao_url(url4)
print(f'Arquivo: {nome4}, Extensão: {extensao4}')

Arquivo: Adrienne, Extensão: .mp4


In [7]:
try:
  Util().extrair_nome_extensao_url("qualquer coisa")
except Exception as ex:
  print(ex)

Protocolo não suportado: 


## Introdução a barra de progresso em modo texto

https://tqdm.github.io

In [8]:
!pip install tqdm



In [9]:
from tqdm import tqdm

contador = 0
for i in tqdm(range(100)):
    pass

100%|██████████| 100/100 [00:00<00:00, 629775.38it/s]


In [13]:
import time

def faz_alguma_coisa():
  time.sleep(1)

# total de iteracoes: 10
total_seconds = 10

print(f"Aguarde {total_seconds}s...")
for _ in range(total_seconds):
  faz_alguma_coisa()

Aguarde 10s...


In [14]:
# Como o tqdm atualiza com base em iterações
# podemos criar um loop com atrasos de um segundo
with tqdm(total=total_seconds, desc="Simulando um progresso", unit="s") as pbar:
    for _ in range(total_seconds):
        faz_alguma_coisa()
        pbar.update(1)  # Atualiza a barra de progresso em 1 segundo.

Simulando um progresso: 100%|██████████| 10/10 [00:10<00:00,  1.00s/s]


## Faz o download de um arquivo

URL do arquivo: https://raw.githubusercontent.com/armandossrecife/teste/main/babydogcat.png

### Download sem barra de progresso

In [15]:
print(f"url: {url1}")
response = requests.get(url1, stream=True)  # Enable streaming for progress
cabecalho_resposta = response.headers
dados_cabecalho = dict(cabecalho_resposta)

print(f"Headers: {dados_cabecalho}")
total_size = int(response.headers.get('content-length', 0))  # Get total file size
print(f'Total: {total_size}')

url: https://raw.githubusercontent.com/armandossrecife/teste/main/babydogcat.png
Headers: {'Connection': 'keep-alive', 'Content-Length': '2209621', 'Cache-Control': 'max-age=300', 'Content-Security-Policy': "default-src 'none'; style-src 'unsafe-inline'; sandbox", 'Content-Type': 'image/png', 'ETag': 'W/"4f6a952bd59a8ed42da0350551c5ec7a63aca30cadbbbc5edd10eadc096cd887"', 'Strict-Transport-Security': 'max-age=31536000', 'X-Content-Type-Options': 'nosniff', 'X-Frame-Options': 'deny', 'X-XSS-Protection': '1; mode=block', 'X-GitHub-Request-Id': '3E90:371613:43F6708:45AEC57:668D5DDC', 'Accept-Ranges': 'bytes', 'Date': 'Tue, 09 Jul 2024 15:57:16 GMT', 'Via': '1.1 varnish', 'X-Served-By': 'cache-bur-kbur8200044-BUR', 'X-Cache': 'MISS', 'X-Cache-Hits': '0', 'X-Timer': 'S1720540637.562918,VS0,VE214', 'Vary': 'Authorization,Accept-Encoding,Origin', 'Access-Control-Allow-Origin': '*', 'Cross-Origin-Resource-Policy': 'cross-origin', 'X-Fastly-Request-ID': 'ae39fe4328d1aca28738feadcd41af47414225de'

In [16]:
dados_cabecalho

{'Connection': 'keep-alive',
 'Content-Length': '2209621',
 'Cache-Control': 'max-age=300',
 'Content-Security-Policy': "default-src 'none'; style-src 'unsafe-inline'; sandbox",
 'Content-Type': 'image/png',
 'ETag': 'W/"4f6a952bd59a8ed42da0350551c5ec7a63aca30cadbbbc5edd10eadc096cd887"',
 'Strict-Transport-Security': 'max-age=31536000',
 'X-Content-Type-Options': 'nosniff',
 'X-Frame-Options': 'deny',
 'X-XSS-Protection': '1; mode=block',
 'X-GitHub-Request-Id': '3E90:371613:43F6708:45AEC57:668D5DDC',
 'Accept-Ranges': 'bytes',
 'Date': 'Tue, 09 Jul 2024 15:57:16 GMT',
 'Via': '1.1 varnish',
 'X-Served-By': 'cache-bur-kbur8200044-BUR',
 'X-Cache': 'MISS',
 'X-Cache-Hits': '0',
 'X-Timer': 'S1720540637.562918,VS0,VE214',
 'Vary': 'Authorization,Accept-Encoding,Origin',
 'Access-Control-Allow-Origin': '*',
 'Cross-Origin-Resource-Policy': 'cross-origin',
 'X-Fastly-Request-ID': 'ae39fe4328d1aca28738feadcd41af47414225de',
 'Expires': 'Tue, 09 Jul 2024 16:02:16 GMT',
 'Source-Age': '0'}

In [17]:
# Conteudo da resposta
print(type(response.content))

<class 'bytes'>


In [18]:
# Cria um canal de conteudo binario com pedacos em 1024 bytes
response.iter_content(chunk_size=1024)

<generator object iter_slices at 0x7b9937bb3bc0>

In [19]:
# Consome o conteudo binario desse canal
print("Aguarde...")
# Cria um novo arquivo para receber o conteudo binario
nome_arquivo = 'meu_arquivo.png'
with open(nome_arquivo, 'wb') as file:
    for chunk in response.iter_content(chunk_size=1024):
        file.write(chunk)
print(f"Arquivo {nome_arquivo} criado com sucesso!")

Aguarde...
Arquivo meu_arquivo.png criado com sucesso!


### Download com barra de progresso

In [20]:
print(f"url: {url1}")
response = requests.get(url1, stream=True)  # Enable streaming for progress
cabecalho_resposta = response.headers
dados_cabecalho = dict(cabecalho_resposta)
print(f"Headers: {dados_cabecalho}")
total_size = int(response.headers.get('content-length', 0))  # Get total file size
print(f'Total: {total_size}')

url: https://raw.githubusercontent.com/armandossrecife/teste/main/babydogcat.png
Headers: {'Connection': 'keep-alive', 'Content-Length': '2209621', 'Cache-Control': 'max-age=300', 'Content-Security-Policy': "default-src 'none'; style-src 'unsafe-inline'; sandbox", 'Content-Type': 'image/png', 'ETag': 'W/"4f6a952bd59a8ed42da0350551c5ec7a63aca30cadbbbc5edd10eadc096cd887"', 'Strict-Transport-Security': 'max-age=31536000', 'X-Content-Type-Options': 'nosniff', 'X-Frame-Options': 'deny', 'X-XSS-Protection': '1; mode=block', 'X-GitHub-Request-Id': '3E90:371613:43F6708:45AEC57:668D5DDC', 'Accept-Ranges': 'bytes', 'Date': 'Tue, 09 Jul 2024 15:59:07 GMT', 'Via': '1.1 varnish', 'X-Served-By': 'cache-bur-kbur8200114-BUR', 'X-Cache': 'HIT', 'X-Cache-Hits': '0', 'X-Timer': 'S1720540747.423270,VS0,VE1', 'Vary': 'Authorization,Accept-Encoding,Origin', 'Access-Control-Allow-Origin': '*', 'Cross-Origin-Resource-Policy': 'cross-origin', 'X-Fastly-Request-ID': 'fbce27433b251a3f092c211c9b5af701d95f8e35', '

In [21]:
# Conteudo da resposta
print(type(response.content))

<class 'bytes'>


In [22]:
len(response.content)

2209621

In [23]:
# Cria um canal de conteudo binario com pedacos em 1024 bytes
response.iter_content(chunk_size=1024)

<generator object iter_slices at 0x7b9937a07220>

In [24]:
print("Aguarde...")
# Cria um novo arquivo para receber o conteudo binario
nome_arquivo = 'meu_arquivo.png'
with open(nome_arquivo, 'wb') as file:
  with tqdm(total=total_size, unit='B', unit_scale=True, desc="meu_arquivo.png") as pbar:
    for chunk in response.iter_content(chunk_size=1024):
      if chunk:
        file.write(chunk)
        pbar.update(len(chunk))

Aguarde...


meu_arquivo.png: 100%|██████████| 2.21M/2.21M [00:00<00:00, 277MB/s]


## Classe de download com barra de progresso

In [25]:
# Download para baixar arquivos da internet.
class Download:
    def __init__(self, url, path_arquivo):
        self.url = url # Armazena a URL do arquivo a ser baixado.
        self.path_arquivo = path_arquivo # Caminho e nome do arquivo onde o download será salvo.
        self.callback = None

    # Sobre a funcao callback
    # Deve ser chamada durante o progresso do download.
    # Atualiza os eventos de retorno
    # Deve receber dois parâmetros: o tamanho total do arquivo e o progresso atual.
    def set_callback(self, callback):
        self.callback = callback

    def executa(self):
        try:
            print('Aguarde...')
            response = requests.get(self.url, stream=True)  # Enable streaming for progress
            response.raise_for_status()  # Verifica se houve algum erro na requisição
            total_size = int(response.headers.get('content-length', 0))  # Get total file size
            with open(self.path_arquivo, 'wb') as file:
                with tqdm(total=total_size, unit='B', unit_scale=True, desc=self.path_arquivo) as pbar:
                    for chunk in response.iter_content(chunk_size=1024):
                        if chunk:
                            file.write(chunk)
                            pbar.update(len(chunk))
                            if self.callback:
                                self.callback(total_size, pbar.n)  # Call the callback with total size and current progress
            print(f"Download completo. Tamanho: {total_size}, Arquivo salvo em: {self.path_arquivo}")
            return total_size
        except requests.exceptions.MissingSchema:
            print("URL inválida. Certifique-se de fornecer uma URL válida.")
            raise Exception('URL inválida. Certifique-se de fornecer uma URL válida.')
        except requests.exceptions.RequestException as e:
            print(f"Erro na conexão: {e}")
            raise Exception(f"Erro na conexão: {e}")

In [26]:
meu_download = Download(url1, 'meu_arquivo.png')
meu_download.executa()

Aguarde...


meu_arquivo.png: 100%|██████████| 2.21M/2.21M [00:00<00:00, 10.6MB/s]

Download completo. Tamanho: 2209621, Arquivo salvo em: meu_arquivo.png





2209621

In [38]:
print(url3)
nome_arquivo,ext = Util().extrair_nome_extensao_url(url3)
print(nome_arquivo,ext, end="")

https://raw.githubusercontent.com/armandossrecife/teste/main/Kalimba.mp3
Kalimba.mp3
Kalimba mp3

In [39]:
nome_arquivo,ext = Util().extrair_nome_extensao_url(url3)
meu_download = Download(url3, f'{nome_arquivo}.{ext}')
meu_download.executa()

Kalimba.mp3
Aguarde...


Kalimba.mp3: 100%|██████████| 8.41M/8.41M [00:00<00:00, 24.3MB/s]

Download completo. Tamanho: 8414449, Arquivo salvo em: Kalimba.mp3





8414449

In [41]:
nome_arquivo,ext = Util().extrair_nome_extensao_url(url4)
meu_download = Download(url4, f'{nome_arquivo}.{ext}')
meu_download.executa()

Aguarde...


Adrienne.mp4: 100%|██████████| 14.9M/14.9M [00:00<00:00, 31.7MB/s]

Download completo. Tamanho: 14944332, Arquivo salvo em: Adrienne.mp4





14944332