<a href="https://colab.research.google.com/github/aavelinoo/ale/blob/main/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
import os

# 1. URL principal
url = "https://sites.google.com/edu.joinville.sc.gov.br/maletadoeducador/mapa-de-progressão-da-aprendizagem"
headers = {"User-Agent": "Mozilla/5.0"}

# Cria pasta para salvar
os.makedirs("disciplinas_csv", exist_ok=True)

# 2. Coleta links da página
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, "html.parser")

disciplinas = {}

print("🔎 Coletando links de disciplinas...")

for link in soup.find_all('a'):
    texto = link.get_text(strip=True)
    href = link.get('href')

    if href and ("docs.google.com/spreadsheets" in href or "drive.google.com" in href):
        disciplinas[texto] = href

# 3. Processa planilhas
for nome, link in disciplinas.items():
    print(f"\n📥 Processando disciplina: {nome}")

    # Detectar se é Google Sheets
    if "spreadsheets" in link:
        # Extrair ID da planilha e GID (aba)
        match = re.search(r'/d/([a-zA-Z0-9-_]+)', link)
        gid_match = re.search(r'gid=([0-9]+)', link)

        if match:
            sheet_id = match.group(1)
            gid = gid_match.group(1) if gid_match else "0"

            # Converte pra CSV direto
            csv_url = f"https://docs.google.com/spreadsheets/d/{sheet_id}/export?format=csv&gid={gid}"
            try:
                df = pd.read_csv(csv_url)

                # Filtro por colunas que contenham "expectativa" ou "habilidade"
                cols_interesse = [col for col in df.columns if re.search(r'expectativa|habilidade', col, re.IGNORECASE)]

                if cols_interesse:
                    df_filtrado = df[cols_interesse].dropna(how='all')
                    df_filtrado.to_csv(f"disciplinas_csv/{nome}.csv", index=False)
                    print(f"✅ Salvo: disciplinas_csv/{nome}.csv")
                else:
                    print("⚠️ Nenhuma coluna de expectativa ou habilidade encontrada.")
            except Exception as e:
                print(f"❌ Erro ao processar planilha: {e}")
        else:
            print("⚠️ Link de planilha malformado.")
    else:
        print("📄 Documento não é uma planilha, ignorado por enquanto.")

print("\n🏁 Concluído!")

🔎 Coletando links de disciplinas...

🏁 Concluído!
