In [1]:
import urllib
import urllib.request
from bs4 import BeautifulSoup
import requests
from pathlib import Path

In [20]:
def obem_dados_censo(
        url: str = 'https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/censo-escolar',

) -> Path:
    '''
    Realiza o download dos dados do Censo Escolar

    :param url: endereço do site do INEP com os dados do censo \n
    :return: caminho para os dados de saída
    '''

    html = urllib.request.urlopen(url).read()
    soup = BeautifulSoup(html, features='html.parser')

    # Criando um dicionário com o nome das URL´s para download
    #####################################################################################################
    # Capturando a class no arquivo HTML cujo nome é external-link 
    # tags = soup.find_all("a", {"class":"external-link"})
    # tag = tags[0]
    # print(tag['href'])

    # Outra forma: {'2023.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2023.zip', 
    #               '2022.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2022.zip'...}
    links = {tag['href'].split("_")[-1]: tag['href'] for tag in soup.find_all("a", {"class":"external-link"})}

    #####################################################################################################

    # Baixando arquivos da URL
    #####################################################################################################
    caminho_saida = Path("dados/censo_escolar")

    # Criando o caminho
    # parents=True - vai incluir o caminho pai
    # exist_ok=True - se o caminho existir não fará nada
    caminho_saida.mkdir(parents=True, exist_ok=True)

    # Baixando somente um arquivo
    # stream=True - faz o download em paralelo, para não travar
    # r = requests.get(links['1995.zip'], stream=True)
    with open(caminho_saida / "1995.zip", "wb") as arq:
        arq.write(r.content)

    for dado in links:
        # stream=True - faz o download em paralelo, para não travar
        r = requests.get(links[dado], stream=True)
        with open(caminho_saida / "1995.zip", "wb") as arq:
            arq.write(r.content)

In [21]:
obem_dados_censo()

{'2023.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2023.zip', '2022.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2022.zip', '2021.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2021.zip', '2020.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2020.zip', '2019.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2019.zip', '2018.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2018.zip', '2017.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2017.zip', '2016.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2016.zip', '2015.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2015.zip', '2014.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2014.zip', '2013.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escola

In [42]:
%reload_ext autoreload
%autoreload 2
import src.aquisicao.inep.base_inep as etl_base_inep 

In [43]:
inep_etl = etl_base_inep.BaseINEPETL("dados/censo_escolar", "saida/aquisicao", "censo-escolar")

In [44]:
inep_etl.le_pagina_inep()

{'2023.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2023.zip',
 '2022.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2022.zip',
 '2021.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2021.zip',
 '2020.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2020.zip',
 '2019.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2019.zip',
 '2018.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2018.zip',
 '2017.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2017.zip',
 '2016.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2016.zip',
 '2015.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2015.zip',
 '2014.zip': 'https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2014.zip',
 '2013.zip': 'https://download.inep.gov.br/dados_abertos/microdados_ce