# PFE : Analyse de données statistiques sportives

## I. Scrapping des données

Dans un premier temps, nous allons chercher à prédire le prochain MVP en NBA.
Pour cela, on s'intéressera aux informations suivantes :
- Votes MVP de chaque année depuis 1980 
- Statistiques des joueurs depuis 1980
- Statistiques des équipes depuis 1980  

Remarque : On récupère les données depuis 1980 car la saison 1980-1981 était la première saison pour laquelle ce n'était plus les joueurs qui votaient mais des journalistes et des commentateurs comme c'est le cas actuellement.

### Basketball Reference
Nous récupérons les données (dans un premier temps) sur le site https://www.basketball-reference.com qui répertorie un nombre conséquent de statistiques en NBA pour chaque saison.


On commence tout d'abord par repérer les pages qui vont nous intéresser

### Votes MVP

<img src="image/img1.png" style="height:300px">

Sur cette page, on a les votes du MVP pour la saison 2021-2022 ainsi il faudrait être capable de récupérer la page correspondante pour chaque saison depuis 1980.
Ce qui nous fait une quarantaine de page à récupérer

### Statistiques joueurs

<img src="image/img2.png" style="height:300px">

Sur cette page, on a les statistiques moyennes par match pour chaque joueur pour la saison 2021-2022 ainsi il faudrait être capable de récupérer la page correspondante pour chaque saison depuis 1980. Ce qui nous fait une quarantaine de page à récupérer.

Remarque : Certains joueurs apparaissent en double voire triple car ces statistiques sont calculés pour chaque équipe
dans lesquelles ils ont joué durant la saison

### Statistiques des équipes

<img src="image/img3.png" style="height:300px">

Sur cette page, nous avons les statistiques des équipes de la conférence Est de la NBA ainsi que celles de la conférence Ouest.
On va chercher à récupérer une combinaison de ces deux tableaux pour chaque année depuis 1980. Ce qui nous fait une quarantaine de page à récupérer.

### BILAN
On a donc environ 120 pages à récupérer, il va donc nous falloir 120 requêtes.

### PROBLEME

Le site Basketball Reference possède une protection contre les attaques DDOS ce qui provoque un ban ip au bout d'une trantaine de requêtes consécutives, ce qui pose problème dans notre cas.

On a donc trouvé une solution en nous tournant vers le module Selenium qui de part son fonctionnement, contourne cette protection.

## CODE

### Import des librairies nécessaires

In [1]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from bs4 import BeautifulSoup
import pandas as pd
import time
import sqlite3

### Définition de variable générale

In [2]:
years =  list(range(1980,2022)) #liste des années dont on récupère les données
s = Service('/chromedriver/chromedriver.exe')
driver = webdriver.Chrome(service = s) #définition du driver chrome pour le scrapping avec selenium

### A) Scrapping votes MVP

1) Récupération des fichiers html associés à chaque page contenant les votes MVP que l'on stocke dans un dossier "mvp" 

In [3]:
url_mvps = "https://www.basketball-reference.com/awards/awards_{}.html"
for year in years:
    url = url_mvps.format(year)
    driver.get(url)
    html = driver.page_source #grab the data
    with open("mvp/{}.html".format(year),"w+",encoding="utf-8") as f:
        f.write(html)
    

2) Exploitation des fichiers html pour créer un dataframe exploitable

En s'intéressant au fichier html, en repère rapidement la partie du code qui va nous intéresser (ici la balise ayant pour id  "mvp")

<img src="image/img4.png" style="height:400px">

On en profite pour retirer directement la ligne "over_header" qui n'a pas d'utilité dans notre étude 

<img src="image/img5.png" style="height:400px">

In [5]:
dfs = []
for year in years:
    with open("mvp/{}.html".format(year),encoding="utf-8") as f:
        page = f.read()
    soup = BeautifulSoup(page,"html.parser")
    if(soup.find('tr',class_ = "over_header")!=None):
        soup.find('tr',class_ = "over_header").decompose()
    
    mvp_table = soup.find_all(id = "mvp")
    mvp = pd.read_html(str(mvp_table))[0]
    mvp["Year"] = year #Pour distinguer l'année dont vient les données
    dfs.append(mvp)
mvps = pd.concat(dfs)
mvps

Unnamed: 0,Rank,Player,Age,Tm,First,Pts Won,Pts Max,Share,G,MP,...,TRB,AST,STL,BLK,FG%,3P%,FT%,WS,WS/48,Year
0,1,Kareem Abdul-Jabbar,32,LAL,147.0,147.0,221,0.665,82,38.3,...,10.8,4.5,1.0,3.4,0.604,0.000,0.765,14.8,0.227,1980
1,2,Julius Erving,29,PHI,31.5,31.5,221,0.143,78,36.1,...,7.4,4.6,2.2,1.8,0.519,0.200,0.787,12.5,0.213,1980
2,3,George Gervin,27,SAS,19.0,19.0,221,0.086,78,37.6,...,5.2,2.6,1.4,1.0,0.528,0.314,0.852,10.6,0.173,1980
3,4,Larry Bird,23,BOS,15.0,15.0,221,0.068,82,36.0,...,10.4,4.5,1.7,0.6,0.474,0.406,0.836,11.2,0.182,1980
4,5T,Tiny Archibald,31,BOS,2.0,2.0,221,0.009,80,35.8,...,2.5,8.4,1.3,0.1,0.482,0.222,0.830,8.9,0.148,1980
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10,11,Russell Westbrook,32,WAS,0.0,5.0,1010,0.005,65,36.4,...,11.5,11.7,1.4,0.4,0.439,0.315,0.656,3.7,0.075,2021
11,12,Ben Simmons,24,PHI,0.0,3.0,1010,0.003,58,32.4,...,7.2,6.9,1.6,0.6,0.557,0.300,0.613,6.0,0.153,2021
12,13T,James Harden,31,TOT,0.0,1.0,1010,0.001,44,36.6,...,7.9,10.8,1.2,0.8,0.466,0.362,0.861,7.0,0.208,2021
13,13T,LeBron James,36,LAL,0.0,1.0,1010,0.001,45,33.4,...,7.7,7.8,1.1,0.6,0.513,0.365,0.698,5.6,0.179,2021


3) Envoi dans un base de donnée SQL

In [28]:
mvpcon = sqlite3.connect('players.sqlite')

In [29]:
mvps.to_sql("MVP", con = mvpcon)

685

In [30]:
print(mvpcon.execute("SELECT Player FROM MVP").fetchall())

[('Kareem Abdul-Jabbar',), ('Julius Erving',), ('George Gervin',), ('Larry Bird',), ('Tiny Archibald',), ('Dennis Johnson',), ('Dan Roundfield',), ('Gus Williams',), ('Moses Malone',), ('Julius Erving',), ('Larry Bird',), ('Kareem Abdul-Jabbar',), ('Moses Malone',), ('George Gervin',), ('Marques Johnson',), ('Robert Parish',), ('Dennis Johnson',), ('Tiny Archibald',), ('Jamaal Wilkes',), ('Magic Johnson',), ('Adrian Dantley',), ('Phil Ford',), ('Bernard King',), ('Kelvin Ransey',), ('Jack Sikma',), ('Otis Birdsong',), ('Micheal Ray Richardson',), ('Truck Robinson',), ('Reggie Theus',), ('Norm Nixon',), ('Artis Gilmore',), ('Bob Lanier',), ('Michael Cooper',), ('Walter Davis',), ('George Johnson',), ('Bobby Jones',), ('Mike Mitchell',), ('James Silas',), ('Quinn Buckner',), ('Caldwell Jones',), ('Moses Malone',), ('Larry Bird',), ('Julius Erving',), ('Robert Parish',), ('Gus Williams',), ('George Gervin',), ('Sidney Moncrief',), ('Magic Johnson',), ('Jack Sikma',), ('Kareem Abdul-Jabbar

### B)  Scrapping statistiques joueurs

1) Récupération des fichiers html associés à chaque page contenant les statistiques des joueurs que l'on stocke dans un dossier "player"

In [8]:
player_stats_url = "https://www.basketball-reference.com/leagues/NBA_{}_per_game.html"
for year in years:
    url = player_stats_url.format(year)
    driver.get(url)
    html = driver.page_source #grab the data
    with open("player/{}.html".format(year),"w+",encoding="utf-8") as f:
        f.write(html)
  

2) Exploitation des fichiers html pour créer un dataframe exploitable

En s'intéressant au fichier html, en repère rapidement la partie du code qui va nous intéresser (ici la balise ayant pour id  "per_game_stats")

<img src="image/img8.png" style="height:400px">

On en profite pour retirer les "thead" qui ne sont pas utiles pour notre étude

<img src="image/img9.png" style="height:400px">

In [17]:
dfs2 = []
for year in years:
    with open("player/{}.html".format(year),encoding="utf-8") as f:
        page = f.read()
    soup = BeautifulSoup(page,"html.parser")
    tHeads = soup.findAll('tr', class_="thead")
    for tHead in tHeads:
        tHead.decompose()
    player_table = soup.find(id = "per_game_stats")
    player = pd.read_html(str(player_table))[0]
    player["Year"] = year
    dfs2.append(player)
players = pd.concat(dfs2)
players

Unnamed: 0,Rk,Player,Pos,Age,Tm,G,GS,MP,FG,FGA,...,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS,Year
0,1,Kareem Abdul-Jabbar*,C,32,LAL,82,,38.3,10.2,16.9,...,2.3,8.5,10.8,4.5,1.0,3.4,3.6,2.6,24.8,1980
1,2,Tom Abernethy,PF,25,GSW,67,,18.2,2.3,4.7,...,0.9,1.9,2.9,1.3,0.5,0.2,0.6,1.8,5.4,1980
2,3,Alvan Adams,C,25,PHO,75,,28.9,6.2,11.7,...,2.1,6.0,8.1,4.3,1.4,0.7,2.9,3.2,14.9,1980
3,4,Tiny Archibald*,PG,31,BOS,80,80.0,35.8,4.8,9.9,...,0.7,1.7,2.5,8.4,1.3,0.1,3.0,2.7,14.1,1980
4,5,Dennis Awtrey,C,31,CHI,26,,21.5,1.0,2.3,...,1.1,3.3,4.4,1.5,0.5,0.6,1.0,2.5,3.3,1980
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
700,536,Delon Wright,PG,28,SAC,27,8.0,25.8,3.9,8.3,...,1.0,2.9,3.9,3.6,1.6,0.4,1.3,1.1,10.0,2021
701,537,Thaddeus Young,PF,32,CHI,68,23.0,24.3,5.4,9.7,...,2.5,3.8,6.2,4.3,1.1,0.6,2.0,2.2,12.1,2021
702,538,Trae Young,PG,22,ATL,63,63.0,33.7,7.7,17.7,...,0.6,3.3,3.9,9.4,0.8,0.2,4.1,1.8,25.3,2021
703,539,Cody Zeller,C,28,CHO,48,21.0,20.9,3.8,6.8,...,2.5,4.4,6.8,1.8,0.6,0.4,1.1,2.5,9.4,2021


3) Envoi dans un base de donnée SQL

In [31]:
playerscon = sqlite3.connect('players.sqlite')

In [32]:
players.to_sql("PLAYERS", con = playerscon)

21655

### C) Scrapping des statistiques des équipes

1) Récupération des fichiers html associés à chaque page contenant les statistiques des équipes que l'on stocke dans un dossier "team"

In [15]:
team_stats_url = "https://www.basketball-reference.com/leagues/NBA_{}_standings.html"
for year in years:
    url = team_stats_url.format(year)
    driver.get(url)
    html = driver.page_source #grab the data
    with open("team/{}.html".format(year),"w+",encoding="utf-8") as f:
        f.write(html)

2) Exploitation des fichiers html pour créer un dataframe exploitable

En s'intéressant au fichier html, en repère rapidement la partie du code qui va nous intéresser. Ici ce sont les balises ayant pour id  "divs_standings_E" et "divs_standings_W" qui représentent respectivement les statistiques des équipes de la conférence Est de la Nba et celle de l'Ouest

Conférence Est
<img src="image/img10.png" style="height:350px">
Conférence Ouest
<img src="image/img11.png" style="height:350px">

On en profite pour retirer encore une fois les "thead" inutiles

<img src="image/img12.png" style="height:300px">

In [57]:
dfs3 = []
for year in years: 
    
    with open("team/{}.html".format(year),encoding="utf-8") as f:
        page = f.read()
    soup = BeautifulSoup(page,"html.parser")
    if(soup.find('tr', class_="thead")!=None):
         soup.find('tr', class_="thead").decompose()
    team_table = soup.find(id = "divs_standings_E")
    team = pd.read_html(str(team_table))[0]
    team["Year"] = year
    team["Team"] = team["Eastern Conference"]
    del team["Eastern Conference"]
    dfs3.append(team)

    soup = BeautifulSoup(page,"html.parser")
    if(soup.find('tr', class_="thead")!=None):
        
        soup.find('tr', class_="thead").decompose()
   
    team_table = soup.find(id = "divs_standings_W")
    team = pd.read_html(str(team_table))[0]
    team["Year"] = year
    team["Team"] = team["Western Conference"]
    del team["Western Conference"]
    dfs3.append(team)
teams = pd.concat(dfs3)
teams

Unnamed: 0,W,L,W/L%,GB,PS/G,PA/G,SRS,Year,Team
0,61,21,.744,—,113.5,105.7,7.37,1980,Boston Celtics*
1,59,23,.720,2.0,109.1,104.9,4.04,1980,Philadelphia 76ers*
2,39,43,.476,22.0,107.0,109.5,-2.27,1980,Washington Bullets*
3,39,43,.476,22.0,114.0,115.1,-0.96,1980,New York Knicks
4,34,48,.415,27.0,108.3,109.5,-0.98,1980,New Jersey Nets
...,...,...,...,...,...,...,...,...,...
13,42,30,.583,—,112.4,110.2,2.26,2021,Dallas Mavericks*
14,38,34,.528,4.0,113.3,112.3,1.07,2021,Memphis Grizzlies*
15,33,39,.458,9.0,111.1,112.8,-1.58,2021,San Antonio Spurs
16,31,41,.431,11.0,114.6,114.9,-0.20,2021,New Orleans Pelicans


3) Envoi dans un base de donnée SQL

In [76]:
teamscon = sqlite3.connect('teams.sqlite')

In [82]:
teams.to_sql("TEAMS", con = teamscon)

ValueError: Table 'TEAMS' already exists.

In [83]:
test = pd.read_sql("""SELECT * from TEAMS""", teamscon)

In [84]:
test

Unnamed: 0,index,W,L,W/L%,GB,PS/G,PA/G,SRS,Year,Team
0,0,61,21,.744,—,113.5,105.7,7.37,1980,Boston Celtics*
1,1,59,23,.720,2.0,109.1,104.9,4.04,1980,Philadelphia 76ers*
2,2,39,43,.476,22.0,107.0,109.5,-2.27,1980,Washington Bullets*
3,3,39,43,.476,22.0,114.0,115.1,-0.96,1980,New York Knicks
4,4,34,48,.415,27.0,108.3,109.5,-0.98,1980,New Jersey Nets
...,...,...,...,...,...,...,...,...,...,...
1319,13,42,30,.583,—,112.4,110.2,2.26,2021,Dallas Mavericks*
1320,14,38,34,.528,4.0,113.3,112.3,1.07,2021,Memphis Grizzlies*
1321,15,33,39,.458,9.0,111.1,112.8,-1.58,2021,San Antonio Spurs
1322,16,31,41,.431,11.0,114.6,114.9,-0.20,2021,New Orleans Pelicans
