# Introdução
Bem-vindo ao projeto de construção de um notebook de web scraping focado em adquirir dados do Sofascore, especificamente dados gerais do Campeonato Brasileiro (Brasileirão). Vamos adentrar no estudo sobre extração e manipulação de dados e análise de informações relevantes no contexto esportivo.

O web scraping é uma técnica de extração automatizada de dados de websites. É uma habilidade essencial para engenheiros de dados, cientistas de dados e desenvolvedores de machine learning, pois permite coletar grandes volumes de dados de fontes públicas para análise e modelagem. No caso do Sofascore, um site conhecido por fornecer estatísticas detalhadas e atualizadas sobre diversos esportes, os dados podem ser usados para análises preditivas, estudos de desempenho, visualizações e muito mais.

<div style="text-align: center;">
  <img src="https://images.unsplash.com/photo-1624880357913-a8539238245b?q=80&w=1000&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D" width="70%">
</div>


> OBJETIVO: Criar um script capaz de adquirir os dados de *estatísticas* do campeonato brasileiro de 2023 do site de estatística esportiva *Sofascore*.

In [1]:
import requests
import pandas as pd
import datetime
import duckdb

Web scraping é uma técnica poderosa para coletar dados de websites, mas nem sempre é a melhor abordagem, especialmente quando o site disponibiliza APIs que permitem o acesso direto aos dados. Usar APIs em vez de bibliotecas como BeautifulSoup por exemplo pode oferecer várias vantagens como:

**Facilidade e Eficiência:** APIs são projetadas para fornecer dados de maneira estruturada e eficiente. Com uma chamada de API, você pode obter exatamente os dados que precisa sem ter que navegar pela estrutura HTML da página.

**Confiabilidade:** A estrutura das páginas web pode mudar frequentemente, o que pode quebrar seu script de web scraping. As APIs, por outro lado, têm versões controladas e são mais estáveis, garantindo que seus scripts continuem funcionando mesmo após atualizações no site.

Assim, vamos utilizar as APIs que o site fornece para acessar esses dados diretamente.

Ao explorar a aba de rede nas ferramentas do desenvolvedor, podemos identificar as chamadas de API que o site realiza, permitindo-nos replicar essas solicitações em nosso próprio código.

In [2]:
# These are the headers we need to access the API
headers = {
    'authority': 'api.sofascore.com',
    'accept': '*/*',
    'accept-language': 'en-US,en;q=0.9',
    'cache-control': 'max-age=0',
    'dnt': '1',
    'if-none-match': 'W/"4bebed6144"',
    'origin': 'https://www.sofascore.com',
    'referer': 'https://www.sofascore.com/',
    'sec-ch-ua': '"Not.A/Brand";v="8", "Chromium";v="114"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"macOS"',
    'sec-fetch-dest': 'empty',
    'sec-fetch-mode': 'cors',
    'sec-fetch-site': 'same-site',
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36',
}

# URL da API do Sofascore
url = 'https://www.sofascore.com/api/v1/unique-tournament/325/season/58766/top-teams/overall'

Passo a Passo para pegar os dados que você deseja do site via API:

- 1: Encontre o mapa de chamada da API na guia rede. Clique botão direito do mouse na página web, vá em inspecionar. Após abrir uma pagina no seu navegador, clique em network e logo abaixo em Fetch/XHR e de um refresh na página que você quer pegar os dados;
- 2: Clique com o botão direito e copie como cURL;
- 3: Entre no site curlconverter.com e cole o cURL;
- 4: copie o código python e introduza em seu trabalho.

URL da API e Cabeçalhos: A URL da API é especificada e cabeçalhos são incluídos para emular um navegador real, o que pode ser necessário para evitar bloqueios por parte do servidor.

Função get_sofascore_data: Esta função encapsula a lógica para fazer a solicitação HTTP e lidar com possíveis erros.

In [3]:
# Função para obter dados da API do Sofascore
def get_sofascore_stats_geral(url, headers=None):
    try:
        # Fazer a solicitação HTTP
        response = requests.get(url, headers=headers)
        
        # Verificar se a solicitação foi bem-sucedida
        response.raise_for_status()  # Isso levantará um erro para códigos de status 4xx/5xx
        
        # Retornar os dados JSON
        return response.json()
    
    except requests.exceptions.HTTPError as http_err:
        print(f"Erro HTTP ao acessar {url}: {http_err}")
    except requests.exceptions.ConnectionError as conn_err:
        print(f"Erro de conexão ao acessar {url}: {conn_err}")
    except requests.exceptions.Timeout as timeout_err:
        print(f"Tempo de solicitação esgotado ao acessar {url}: {timeout_err}")
    except requests.exceptions.RequestException as req_err:
        print(f"Erro ao acessar {url}: {req_err}")
    except ValueError as json_err:
        print(f"Erro ao analisar JSON de {url}: {json_err}")
    
    # Retornar None em caso de erro
    return None

In [4]:
# Obter dados da API
data = get_sofascore_stats_geral(url, headers)

if data:
    # Processar os dados JSON conforme necessário
    print("Dados obtidos com sucesso!")
else:
    print("Falha ao obter dados.")

Dados obtidos com sucesso!


In [5]:
data

{'topTeams': {'avgRating': [{'team': {'name': 'Athletico',
     'slug': 'athletico',
     'shortName': 'Athletico',
     'userCount': 102496,
     'type': 0,
     'id': 1967,
     'teamColors': {'primary': '#52b030',
      'secondary': '#52b030',
      'text': '#ffffff'},
     'fieldTranslations': {'nameTranslation': {'ru': 'Атлетико Паранаэнсе'},
      'shortNameTranslation': {}}},
    'statistics': {'avgRating': 7.0652173913044,
     'id': 18741,
     'matches': 6,
     'awardedMatches': 0}},
   {'team': {'name': 'Atlético Mineiro',
     'slug': 'atletico-mineiro',
     'shortName': 'Atlético Mineiro',
     'userCount': 175490,
     'type': 0,
     'id': 1977,
     'teamColors': {'primary': '#52b030',
      'secondary': '#52b030',
      'text': '#ffffff'},
     'fieldTranslations': {'nameTranslation': {'ru': 'Атлетико Минейро'},
      'shortNameTranslation': {}}},
    'statistics': {'avgRating': 7.0628205128205,
     'id': 18746,
     'matches': 5,
     'awardedMatches': 0}},
   {'te

Verificando todas as chaves do JSON

In [6]:
data.keys()

dict_keys(['topTeams'])

In [7]:
len(data.get('topTeams'))

23

In [9]:
data.get('topTeams').keys()

dict_keys(['avgRating', 'goalsScored', 'goalsConceded', 'bigChances', 'bigChancesMissed', 'hitWoodwork', 'yellowCards', 'redCards', 'averageBallPossession', 'accuratePasses', 'accurateLongBalls', 'accurateCrosses', 'shots', 'shotsOnTarget', 'successfulDribbles', 'tackles', 'interceptions', 'clearances', 'corners', 'fouls', 'penaltyGoals', 'penaltyGoalsConceded', 'cleanSheets'])

In [12]:
data.get('topTeams')

{'avgRating': [{'team': {'name': 'Athletico',
    'slug': 'athletico',
    'shortName': 'Athletico',
    'userCount': 102496,
    'type': 0,
    'id': 1967,
    'teamColors': {'primary': '#52b030',
     'secondary': '#52b030',
     'text': '#ffffff'},
    'fieldTranslations': {'nameTranslation': {'ru': 'Атлетико Паранаэнсе'},
     'shortNameTranslation': {}}},
   'statistics': {'avgRating': 7.0652173913044,
    'id': 18741,
    'matches': 6,
    'awardedMatches': 0}},
  {'team': {'name': 'Atlético Mineiro',
    'slug': 'atletico-mineiro',
    'shortName': 'Atlético Mineiro',
    'userCount': 175490,
    'type': 0,
    'id': 1977,
    'teamColors': {'primary': '#52b030',
     'secondary': '#52b030',
     'text': '#ffffff'},
    'fieldTranslations': {'nameTranslation': {'ru': 'Атлетико Минейро'},
     'shortNameTranslation': {}}},
   'statistics': {'avgRating': 7.0628205128205,
    'id': 18746,
    'matches': 5,
    'awardedMatches': 0}},
  {'team': {'name': 'Flamengo',
    'slug': 'flam

# Manipulando dados do JSON

In [17]:
data['topTeams']['avgRating']

[{'team': {'name': 'Athletico',
   'slug': 'athletico',
   'shortName': 'Athletico',
   'userCount': 102496,
   'type': 0,
   'id': 1967,
   'teamColors': {'primary': '#52b030',
    'secondary': '#52b030',
    'text': '#ffffff'},
   'fieldTranslations': {'nameTranslation': {'ru': 'Атлетико Паранаэнсе'},
    'shortNameTranslation': {}}},
  'statistics': {'avgRating': 7.0652173913044,
   'id': 18741,
   'matches': 6,
   'awardedMatches': 0}},
 {'team': {'name': 'Atlético Mineiro',
   'slug': 'atletico-mineiro',
   'shortName': 'Atlético Mineiro',
   'userCount': 175490,
   'type': 0,
   'id': 1977,
   'teamColors': {'primary': '#52b030',
    'secondary': '#52b030',
    'text': '#ffffff'},
   'fieldTranslations': {'nameTranslation': {'ru': 'Атлетико Минейро'},
    'shortNameTranslation': {}}},
  'statistics': {'avgRating': 7.0628205128205,
   'id': 18746,
   'matches': 5,
   'awardedMatches': 0}},
 {'team': {'name': 'Flamengo',
   'slug': 'flamengo',
   'shortName': 'Flamengo',
   'userCo

In [38]:
# Extrair chaves de data.get('topTeams') para uma lista
keys_list = list(data.get('topTeams').keys())

# Criar um dicionário para coletar todos os dados
all_data = {}

# Iterar sobre cada chave para extrair dados
for key in keys_list:
    standings = data['topTeams'][key]

    for row in standings:
        team_id = row['team']['id']
        if team_id not in all_data:
            all_data[team_id] = {
                'id': team_id,
                'team': row['team']['name']
            }
        all_data[team_id][key] = row['statistics'][key]

# Converter o dicionário para DataFrame
df_final = pd.DataFrame.from_dict(all_data, orient='index').reset_index(drop=True)
df_final

Unnamed: 0,id,team,avgRating,goalsScored,goalsConceded,bigChances,bigChancesMissed,hitWoodwork,yellowCards,redCards,...,shotsOnTarget,successfulDribbles,tackles,interceptions,clearances,corners,fouls,penaltyGoals,penaltyGoalsConceded,cleanSheets
0,1967,Athletico,7.065217,9,3,10,5,5,15,2,...,31,47,93,49,120,32,90,0,0,4
1,1977,Atlético Mineiro,7.062821,9,3,13,7,0,15,2,...,25,35,105,53,70,36,76,1,0,3
2,5981,Flamengo,7.044828,7,5,10,6,3,12,0,...,26,60,94,48,102,43,79,1,0,2
3,1981,São Paulo,7.042222,10,6,18,11,3,18,0,...,32,55,100,54,92,36,76,1,0,2
4,1984,Criciúma,6.985417,6,2,5,2,1,8,0,...,14,29,39,23,82,6,28,0,0,1
5,1966,Internacional,6.952381,4,3,10,7,1,14,0,...,20,26,76,30,70,24,70,0,0,1
6,1954,Cruzeiro,6.946753,8,7,8,5,2,12,1,...,25,43,91,31,74,30,61,0,0,1
7,1955,Bahia,6.944681,9,6,14,8,3,16,0,...,27,38,100,60,117,25,68,1,0,2
8,1957,Corinthians,6.937895,3,5,13,11,3,17,0,...,27,50,67,59,106,35,81,0,0,3
9,1999,Red Bull Bragantino,6.936458,7,6,6,2,1,16,0,...,28,59,114,41,156,34,92,0,0,1


In [42]:
# Criando conexão com o banco de dados DuckDB local
con = duckdb.connect('database/BrasilStatsDB.db')

query = 'SELECT * FROM descricao_campeonatos'
result = con.execute(query).fetchdf()
result

Unnamed: 0,id,name,slug,updatedAtTimestamp
0,325,Brasileirão Série A,brasileirao-serie-a,2024-04-14 00:26:31


In [44]:
df_final['id_Tournament'] = result.loc[0, 'id']

In [45]:
df_final.head()

Unnamed: 0,team,id,avgRating,goalsScored,goalsConceded,bigChances,bigChancesMissed,hitWoodwork,yellowCards,redCards,...,successfulDribbles,tackles,interceptions,clearances,corners,fouls,penaltyGoals,penaltyGoalsConceded,cleanSheets,id_Tournament
0,Athletico,1967,7.065217,9,3,10,5,5,15,2,...,47,93,49,120,32,90,0,0,4,325
1,Atlético Mineiro,1977,7.062821,9,3,13,7,0,15,2,...,35,105,53,70,36,76,1,0,3,325
2,Flamengo,5981,7.044828,7,5,10,6,3,12,0,...,60,94,48,102,43,79,1,0,2,325
3,São Paulo,1981,7.042222,10,6,18,11,3,18,0,...,55,100,54,92,36,76,1,0,2,325
4,Criciúma,1984,6.985417,6,2,5,2,1,8,0,...,29,39,23,82,6,28,0,0,1,325


Note que novamente atibuímos o ID do campeonato brasileiro a essa base e pegamos um ID muito importante: dos times do campeonato. Será muito importante para possíveis relacionamentos entre tabelas.

# Integração com Banco de Dados do DuckDB

Colocar dados em um banco de dados como o DuckDB proporciona organização, segurança e eficiência na manipulação e análise de grandes volumes de dados, sendo uma escolha adequada especialmente para aplicações que necessitam de consultas rápidas e análises complexas.

Um banco de dados permite armazenar e organizar grandes volumes de dados de forma estruturada. Isso facilita o gerenciamento, a consulta e a atualização dos dados conforme necessário, sem comprometer o desempenho.

Assim, quando precisarmos relacionar informações para um possível treinamento de modelo de machine learning, deep learning, ou até mesmo para Data Analytics, já iremos ter um banco de dados com todas as informações disponíveis.

## Por que escolher DuckDB:
- Desempenho otimizado para análises rápidas: DuckDB é conhecido por seu desempenho otimizado para consultas analíticas e operações de leitura, especialmente em conjuntos de dados maiores. Ele é projetado para ser rápido mesmo em ambientes onde o tempo de resposta é crítico;

- Compatibilidade com SQL padrão: DuckDB oferece suporte ao SQL padrão, o que facilita a transição e o uso por desenvolvedores familiarizados com bancos de dados relacionais tradicionais. Isso permite aproveitar habilidades existentes em SQL para manipular e analisar dados;



In [46]:
# Criando conexão com o banco de dados DuckDB local
con = duckdb.connect('database/BrasilStatsDB.db')

# Inserindo o dataframe do campeonato na tabela 'tournament'
con.execute('CREATE OR REPLACE TABLE estatisticas_campeonatos AS SELECT * FROM df_final')

<duckdb.duckdb.DuckDBPyConnection at 0x225e7b75f30>

Verificando se as tabelas foram criadas corretamente

In [48]:
query = 'SELECT * FROM estatisticas_campeonatos where id=1967'
result = con.execute(query).fetchdf()
result

Unnamed: 0,team,id,avgRating,goalsScored,goalsConceded,bigChances,bigChancesMissed,hitWoodwork,yellowCards,redCards,...,successfulDribbles,tackles,interceptions,clearances,corners,fouls,penaltyGoals,penaltyGoalsConceded,cleanSheets,id_Tournament
0,Athletico,1967,7.065217,9,3,10,5,5,15,2,...,47,93,49,120,32,90,0,0,4,325


# Conclusão

Usar APIs para coletar dados é uma abordagem poderosa que oferece várias vantagens em comparação com o web scraping tradicional. Ao utilizar as APIs do Sofascore, garantimos que nossos dados são extraídos de maneira eficiente, confiável. Para futuros projetos, considere explorar outras APIs esportivas e integrar diferentes fontes de dados para análises mais abrangentes.

Espero que este guia tenha sido útil e claro. Boa sorte com o seu projeto de web scraping e continue expandindo suas habilidades em ciência de dados e machine learning!