## Descarga de archivo desde internet

Descargamos archivo .zip desde una dirección de internet. Lo vamos a hacer de a fracciones para evitar sobrepoblar la memoria en caso que sea un archivo muy extenso

In [8]:
import requests

url = "http://microdatos.dane.gov.co/index.php/catalog/472/download/21071"
filename = "Expo_2021.zip"
response = requests.get(url, stream=True) # stream=True para bajarlo de a pedazos

if response.status_code == 200: # Significa que se pudo acceder al recurso
    with open(filename, "wb") as f:
        for chunk in response.iter_content(1024): # Lo parto en partes para ahorro de memoria
            f.write(chunk)
    print(f"Expo_2021.zip downloaded successfully!")
else:
    print(f"Error downloading file: {response.status_code}")

Expo_2021.zip downloaded successfully!


Esta sería la versión para descargalo de una sola vez

In [12]:
url = "http://microdatos.dane.gov.co/index.php/catalog/472/download/21071"

response = requests.get(url, stream=False)

with open(filename, "wb") as f:
    f.write(response.content)

## Manejando archivo .zip

Vamos a manipular un archivo .zip, para descomprimirlo y permitir su uso

In [14]:
from zipfile import ZipFile

with ZipFile("./Expo_2021.zip", "r") as zip_file:
    zip_file.extractall(".")

Ahora vamos a listar lo que había en el interior del mismo

In [15]:
import os

os.listdir("./Expo_2021")

['Abril.zip',
 'Agosto.zip',
 'Diciembre.zip',
 'Enero.zip',
 'Febrero.zip',
 'Julio.zip',
 'Junio.zip',
 'Marzo.zip',
 'Mayo.zip',
 'Noviembre.zip',
 'Octubre.zip',
 'Septiembre.zip']

Más archivos zip!

Vamos a buscar descomprimirlos a todos de un tirón

In [16]:
from glob import glob

In [17]:
datos_path = "./Expo_2021"
zip_files_paths = glob(datos_path + "/*.zip")
zip_files_paths

['./Expo_2021\\Abril.zip',
 './Expo_2021\\Agosto.zip',
 './Expo_2021\\Diciembre.zip',
 './Expo_2021\\Enero.zip',
 './Expo_2021\\Febrero.zip',
 './Expo_2021\\Julio.zip',
 './Expo_2021\\Junio.zip',
 './Expo_2021\\Marzo.zip',
 './Expo_2021\\Mayo.zip',
 './Expo_2021\\Noviembre.zip',
 './Expo_2021\\Octubre.zip',
 './Expo_2021\\Septiembre.zip']

In [22]:
for zip_file_path in zip_files_paths:
    folder_name = zip_file_path[:-4]

    with ZipFile(zip_file_path, "r") as zip_file:
        zip_file.extractall(folder_name)

Si quiero extraer un solo archivo del .zip:

In [None]:
path_de_zip = "./Expo_2021.zip"
with ZipFile(path_de_zip, "r") as zip_file:
    nombre_archivos = zip_file.namelist()
    print(nombre_archivos)
    archivo_a_extraer = nombre_archivos[0]
    zip_file.extract(archivo_a_extraer, "aca nomas")

In [42]:
path_de_zip = "./Expo_2021.zip"
with ZipFile(path_de_zip, "r") as zip_file:
    nombre_archivos = zip_file.namelist()
    print(nombre_archivos)
    archivo_a_extraer = nombre_archivos[0]
    print(archivo_a_extraer)

    # nombre_clean = archivo_a_extraer.replace(path_de_zip[2:-4], "")
    # print(nombre_clean)
    with ZipFile(archivo_a_extraer, "r") as zip_interno:
        print(zip_interno.namelist())
        zip_interno.extractall("./EXTRACCION_UNICA")

['Expo_2021/Abril.zip', 'Expo_2021/Agosto.zip', 'Expo_2021/Diciembre.zip', 'Expo_2021/Enero.zip', 'Expo_2021/Febrero.zip', 'Expo_2021/Julio.zip', 'Expo_2021/Junio.zip', 'Expo_2021/Marzo.zip', 'Expo_2021/Mayo.zip', 'Expo_2021/Noviembre.zip', 'Expo_2021/Octubre.zip', 'Expo_2021/Septiembre.zip']
Expo_2021/Abril.zip
['Abril.sav', 'Abril.csv', 'Abril.dta']


['Expo_2021/Abril.zip', 'Expo_2021/Agosto.zip', 'Expo_2021/Diciembre.zip', 'Expo_2021/Enero.zip', 'Expo_2021/Febrero.zip', 'Expo_2021/Julio.zip', 'Expo_2021/Junio.zip', 'Expo_2021/Marzo.zip', 'Expo_2021/Mayo.zip', 'Expo_2021/Noviembre.zip', 'Expo_2021/Octubre.zip', 'Expo_2021/Septiembre.zip']
