In [20]:
import requests
from bs4 import BeautifulSoup
import re
import string

In [10]:
# Lista de URLs da Série A de 2018 a 2025
urls = [
    f"https://www.cbf.com.br/futebol-brasileiro/tabelas/campeonato-brasileiro/serie-a/{ano}"
    for ano in range(2018, 2026)
]

# Lista para armazenar os nomes dos times por ano
brasileirao_times = {}

# Palavras que queremos ignorar
exclusoes = {"Jogos"}

for url in urls:
    ano = url.split("/")[-1]
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')

    times = set()
    for tag in soup.find_all('strong'):
        nome = tag.text.strip()
        if len(nome) > 3 and not any(char.isdigit() for char in nome) and nome not in exclusoes:
            times.add(nome)

    brasileirao_times[ano] = sorted(times)

# Exibindo os resultados
for ano, times in brasileirao_times.items():
    print(f"Série A {ano}:")
    for time in times:
        print(f" - {time}")


Série A 2018:
 - America Fc
 - Athletico Paranaense
 - Atlético
 - Bahia
 - Botafogo
 - Ceará
 - Chapecoense
 - Corinthians
 - Cruzeiro
 - Flamengo
 - Fluminense
 - Grêmio
 - Internacional
 - Palmeiras
 - Paraná
 - Santos
 - Sport
 - São Paulo
 - Vasco da Gama
 - Vitória
Série A 2019:
 - Athletico Paranaense
 - Atlético
 - Avaí
 - Bahia
 - Botafogo
 - Ceará
 - Chapecoense
 - Corinthians
 - Cruzeiro
 - Flamengo
 - Fluminense
 - Fortaleza
 - Goiás
 - Grêmio
 - Internacional
 - Palmeiras
 - Santos
 - São Paulo
 - Vasco da Gama
Série A 2020:
 - Athletico Paranaense
 - Atlético
 - Bahia
 - Botafogo
 - Ceará
 - Corinthians
 - Coritiba
 - Flamengo
 - Fluminense
 - Fortaleza
 - Goiás
 - Grêmio
 - Internacional
 - Palmeiras
 - Red Bull Bragantino
 - Santos
 - Sport
 - São Paulo
 - Vasco da Gama
Série A 2021:
 - America
 - Athletico Paranaense
 - Atlético
 - Atlético Mineiro
 - Bahia
 - Ceará
 - Chapecoense
 - Corinthians
 - Cuiabá
 - Flamengo
 - Fluminense
 - Fortaleza
 - Grêmio
 - Internaciona

In [21]:
# Consolidando todos os clubes em uma lista única sem repetição
todos_os_clubes = set()
for times in brasileirao_times.values():
    todos_os_clubes.update(times)

# Exibindo a lista consolidada
print("Lista consolidada de clubes da Série A (2018-2025):")
for clube in sorted(todos_os_clubes):
    print(f" - {clube}")

Lista consolidada de clubes da Série A (2018–2025):
 - America
 - America Fc
 - America Saf
 - Athletico Paranaense
 - Atlético
 - Atlético Goianiense Saf
 - Atlético Mineiro
 - Atlético Mineiro Saf
 - Avaí
 - Bahia
 - Botafogo
 - Ceará
 - Chapecoense
 - Corinthians
 - Coritiba
 - Coritiba S.a.f.
 - Criciúma
 - Cruzeiro
 - Cruzeiro Saf
 - Cuiabá
 - Cuiabá Saf
 - Flamengo
 - Fluminense
 - Fortaleza
 - Fortaleza Ec Saf
 - Goiás
 - Grêmio
 - Internacional
 - Juventude
 - Mirassol
 - Palmeiras
 - Paraná
 - Red Bull Bragantino
 - Santos
 - Santos Fc
 - Sport
 - São Paulo
 - Vasco da Gama
 - Vasco da Gama S.a.f.
 - Vitória


In [22]:
# Função para limpar e padronizar nomes
def limpar_nome(nome):
    nome = nome.lower()
    # Remove siglas comuns com ou sem pontuação
    nome = re.sub(r'\b(f\.?c\.?|s\.?a\.?f\.?|saf|ec)\b', '', nome)
    # Remove pontuação residual
    nome = nome.translate(str.maketrans('', '', string.punctuation))
    # Normaliza espaços
    nome = re.sub(r'\s+', ' ', nome)
    nome = nome.strip()
    nome = nome.title()
    return nome


# Aplicando a limpeza
clubes_limpos = set()
for clube in todos_os_clubes:
    clubes_limpos.add(limpar_nome(clube))

# Exibindo a lista final
print("Lista final de clubes da Série A (2018–2025):")
for clube in sorted(clubes_limpos):
    print(f" - {clube}")


Lista final de clubes da Série A (2018–2025):
 - America
 - Athletico Paranaense
 - Atlético
 - Atlético Goianiense
 - Atlético Mineiro
 - Avaí
 - Bahia
 - Botafogo
 - Ceará
 - Chapecoense
 - Corinthians
 - Coritiba
 - Criciúma
 - Cruzeiro
 - Cuiabá
 - Flamengo
 - Fluminense
 - Fortaleza
 - Goiás
 - Grêmio
 - Internacional
 - Juventude
 - Mirassol
 - Palmeiras
 - Paraná
 - Red Bull Bragantino
 - Santos
 - Sport
 - São Paulo
 - Vasco Da Gama
 - Vitória
