# Notebook n°2 - NBA Data Analysis

## Récupération des données

On procède ici à un scrapping des données depuis le site officiel de la NBA.

In [19]:
import pandas as pd
import numpy as np
import requests
import time
pd.set_option('display.max_columns', None) # pour afficher toutes les colonnes

On commence par un test avec l'url nécessaire pour récupérer ces données, ce qui nous permet de définir les en-têtes (`headers`) que l'on souhaite récupérer. Comme l'url ne eprmet de récupérer les données que d'une saison et d'un type de saison à la fois, on ajoute ces deux colonnes au `DataFrame` final afin de réaliser un fichier global contenant toutes les saisons et types de saisons souhaités.
Dans notre cas, on va récupérer les données de 2013 à 2024.

In [20]:
test_url ='https://stats.nba.com/stats/leagueLeaders?LeagueID=00&PerMode=Totals&Scope=S&Season=2022-23&SeasonType=Regular%20Season&StatCategory=PTS'

In [21]:
r = requests.get(test_url).json()

In [22]:
table_headers = r['resultSet']['headers']

In [23]:
df_cols = ['Year', 'Season_type'] + table_headers

____

In [24]:
headers ={
    'Accept': '*/*',
    'Accept-Encoding': 'gzip, deflate, br, zstd',
    'Accept-Language': 'fr-FR,fr;q=0.9,en-US;q=0.8,en;q=0.7,de;q=0.6,ar;q=0.5,af;q=0.4',
    'Connection': 'keep-alive',
    'Host': 'stats.nba.com',
    'Origin': 'https://www.nba.com',
    'Referer': 'https://www.nba.com/',
    'Sec-Fetch-Dest': 'empty',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Site': 'same-site',
    'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Mobile Safari/537.36',
    'sec-ch-ua': '"Chromium";v="124", "Google Chrome";v="124", "Not-A.Brand";v="99"',
    'sec-ch-ua-mobile': '?1',
    'sec-ch-ua-platform': '"Android"'
}

La méthode suivante permet de procéder au scrapping des données. Pour ce faire, on a défini plus haut un "headers", qui regroupe les informations supplémentaires envoyées avec la requête HTTP et fournissent des détails sur le client et ses préférences au serveur Web.
Ensuite, on défini

In [25]:
df = pd.DataFrame(columns=df_cols)
season_types = ['Regular%20Season', 'Playoffs']
years = ['2013-14', '2014-15', '2015-16', '2016-17', '2017-18', '2018-19', '2019-20', '2020-21', '2021-22', '2022-23', '2023-24']
begin = time.time()

for y in years :
    for s in season_types :
        api_url = 'https://stats.nba.com/stats/leagueLeaders?LeagueID=00&PerMode=Totals&Scope=S&Season='+y+'&SeasonType='+s+'&StatCategory=PTS'
        r= requests.get(url=api_url, headers=headers).json()
        temp_df1 = pd.DataFrame(r['resultSet']['rowSet'], columns=table_headers)
        temp_df2 = pd.DataFrame({'Year':[y for i in range(len(temp_df1))],
                                'Season_type':[s for i in range(len(temp_df1))]})
        temp_df3 = pd.concat([temp_df2, temp_df1], axis=1)
        df = pd.concat([df, temp_df3], axis=0)
        print(f'Scraping terminé pour la saison {y} et le type de saison {s}.')
        lag = np.random.uniform(low=5, high=40)
        print(f'Pause de {round(lag,1)} secondes avant de continuer...')
        time.sleep(lag)

print(f'Scraping terminé ! Durée totale : {round((time.time()-begin)/60, 2)}')
df.to_csv('nba_player_data_2.csv', index=False)

  df = pd.concat([df, temp_df3], axis=0)


Scraping terminé pour la saison 2013-14 et le type de saison Regular%20Season.
Pause de 32.5 secondes avant de continuer...
