## Etape 1 : Scraping des résultats depuis bases.athle

Objectifs :
+ créer un pipeline pour récupérer les données d'une compétition d'athlétisme (course sur route, trail, cross, ...)
+ retourner ces données sous la forme d'une table relationnelle
+ par la suite, exploiter cette table pour créer des statistiques et visualisations sur les compétitions

Format d'une URL de bases.athle :
+ ? avant la requête
+ & pour ajouter des paramètres à la recherche 

bases.athle.fr/asp.net/liste.aspx**?frmbase=resultats**&**frmmode=1**&**frmespace=0**&**frmcompetition=**274211

Liste des paramètres pour une recherche par athlète :
+ frmsaison
+ frmclub
+ frmnom
+ frmprenom
+ frmsexe
+ frmlicence
+ frmdepartement
+ frmligue
+ frmcomprch


### Installation de la libraire lxml

In [1]:
!pip install lxml

Collecting lxml
  Downloading lxml-4.9.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.manylinux_2_24_x86_64.whl (6.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.9/6.9 MB[0m [31m20.9 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hInstalling collected packages: lxml
Successfully installed lxml-4.9.1


### Import des librairies requises

In [2]:
import lxml
import urllib
import bs4
import pandas as pd
import re
from urllib import request

In [3]:
#Exemple de résultats d'une compétition
url="https://bases.athle.fr/asp.net/liste.aspx?frmbase=resultats&frmmode=1&frmespace=0&frmcompetition=253657"

In [4]:
request_text = request.urlopen(url).read()

In [5]:
page = bs4.BeautifulSoup(request_text, "lxml")

### Dictionnaires utiles

#### Catégories de performance et cotation d'après table FFA

In [25]:
#bareme et table de cotation
#source: https://www.athle.fr/asp.net/main.html/html.aspx?htmlid=125

perf = {'IA': 40, 'IB': 35, #international
        'N1': 30, 'N2': 28, 'N3': 26, 'N4': 24, #national
        'IR1': 21, 'IR2': 20, 'IR3': 19, 'IR4': 18, #inter-regional
        'R1': 15, 'R2': 14, 'R3': 13, 'R4': 12, 'R5': 11, 'R6': 10, #regional
        'D1': 8, 'D2': 7, 'D3': 6, 'D4': 5, 'D5': 4, 'D6': 3, 'D7': 2} #departemental

#### Catégories d'âge d'après la réglementation FFA

In [26]:
#categories d'âge en 2023
#source: https://www.athle.fr/asp.net/main.html/html.aspx?htmlid=25

cat = {'M10': 'Masters 10', 'M9': 'Masters 9', 'M8': 'Masters 8', 'M7': 'Masters 7', 'M6': 'Masters 6',
       'M5': 'Masters 5', 'M4': 'Masters 4', 'M3': 'Masters 3', 'M2': 'Masters 2', 'M1': 'Masters 1', 'M0': 'Masters 0',
       'SE': 'Seniors',
       'JU': 'Juniors',
       'CA': 'Cadet.te.s',
       'MI': 'Minimes',
       'BE': 'Benjamin.e.s',
       'PO': 'Poussins',
       'EA': 'École d\'Athlétisme',
       'BB': 'Baby Athlé'}

## Date, nom, lieu, ligue, label et département de la compétition

In [7]:
header = page.find('div', {'class' : "mainheaders"})
header=str(header)
print(header)

<div class="mainheaders">06/11/22 - 10 km de Riorges<br/><span style="font-size:13px">Riorges - ARA - 042 - Label Régional</span></div>


#### Nom de la compétition

In [8]:
re_nom = re.compile("(?<=\- )(.*?)(?=\<)")
text = re_nom.findall(header)
nom = text[0]
sous_titre = text[1]
print(nom)

10 km de Riorges


#### Lieu de la compétition

In [9]:
re_lieu = re.compile("(?<=\>)(\D*?)(?=\ -)")
lieu = re_lieu.findall(header)[0]
print(lieu)

Riorges


#### Date de la compétition

In [10]:
re_date = re.compile("[0-9]{2}/[0-9]{2}/[0-9]{2}")
date = re_date.findall(header)[0]
print(date)

06/11/22


#### Ligue de la compétition

In [11]:
soustitre = nom[1]
re_ligue = re.compile("[A-Z]{3}")
ligue = re_ligue.findall(sous_titre)[0]
print(ligue)

ARA


#### Département de la compétition

In [12]:
re_dept = re.compile("[0-9]{3}")
dept = re_dept.findall(sous_titre)[0]
print(dept)

042


#### Label de la compétition (en cours)

In [13]:
re_label = re.compile("(?<=Label ).*(?<!')")
try:
    label = re_label.findall(sous_titre)[0]
    print(label)
except IndexError:
    print("Pas de label pour cette compétition")

Régional


#### Données de la compétition sous forme de dictionnaire

In [14]:
compet= {'nom': nom,
      'lieu': lieu,
      'date': date,
      'ligue': ligue,
      'dept': dept,
      'label': label}

In [15]:
compet['dept']

'042'

In [16]:
print(page.find("title"))

<title>les Résultats des Compétitions</title>


In [17]:
print(page.find("mainheaders"))

None


In [18]:
print("Il y a", len(page.findAll("tr")), "éléments dans la page qui sont des <tr>")

Il y a 257 éléments dans la page qui sont des <tr>


In [19]:
print(page.find('a', {'title' : 'Records principaux pour cette épreuve'}))

<a class="white" href="/asp.net/liste.aspx?frmbase=records&amp;frmmode=2&amp;frmespace=0&amp;frmcompetition=253657&amp;frmepreuve=261&amp;frmsexe=M&amp;frmserie=10 Km Route TC" title="Records principaux pour cette épreuve">10 Km Route TC</a>


In [20]:
print(page.find('tr'))

<tr> <td style="width:2px"><div class="separator"></div></td> <td class="barButtons"><span class="barButtonsOff" onclick="history.back()" onmouseout="this.className='barButtonsOff'" onmouseover="this.className='barButtonsOn'" style="width:25px;background-image:url('/images/v3/bar.back.gif')" title="Retour"> </span></td> <td style="width:2px"><div class="separator"></div></td><td class="barInputs"> <select class="barSelect" onchange="document.location='/asp.net/liste.aspx?frmbase=resultats&amp;frmmode=1&amp;frmespace=0&amp;frmcompetition=253657&amp;frmposition=' + this.options[this.selectedIndex].value"><option selected="selected" value="0">Page &gt; 001/002 &lt;</option><option value="1">Page &gt; 002/002 &lt;</option></select>  <select class="barSelect" onchange="document.location='/asp.net/liste.aspx?frmbase=resultats&amp;frmmode=1&amp;frmespace=0&amp;frmcompetition=253657&amp;frmtri=' + this.options[this.selectedIndex].value"><option selected="selected" value="0">Tri &gt; Cat./Sex./

## Athlètes et chronos de la compétition

In [21]:
text = str(page.findAll('td', {'class' : 'datas1'}))
text = text.replace("<td class=\"datas1\">", "")
text = text.replace("</b>", "")
text = text.replace("<b>", "")
text = text.replace("<td>", "")
text = text.replace("</td>", "")

In [22]:
headers = []
for i in page.find_all('td'):
    title = i.text
    headers.append(title)

In [23]:
headers[15:]

['1',
 '',
 "30'58''",
 '',
 'LORTON Guillaume',
 '',
 'Montlucon Athletisme',
 '',
 '003',
 '',
 'ARA',
 '',
 'SEM/89',
 '',
 'N4',
 '',
 '\xa0',
 '2',
 '',
 "31'30''",
 '',
 'BETRON Adrien',
 '',
 'Beaujolais Runners',
 '',
 '069',
 '',
 'ARA',
 '',
 'SEM/89',
 '',
 'IR1',
 '',
 '\xa0',
 '3',
 '',
 "32'01''",
 '',
 'MOULIN Loic',
 '',
 'Lyon Athletisme',
 '',
 '069',
 '',
 'ARA',
 '',
 'SEM/92',
 '',
 'IR2',
 '',
 '\xa0',
 '4',
 '',
 "32'15''",
 '',
 'DEBROUCKER Guillaume',
 '',
 'Atousports',
 '',
 '042',
 '',
 'ARA',
 '',
 'M1M/82',
 '',
 'IR2',
 '',
 '\xa0',
 '5',
 '',
 "32'40''",
 '',
 'KEMEI Charles (Ken)',
 '',
 'Club Athletique Roannais',
 '',
 '042',
 '',
 'ARA',
 '',
 'M0M/84',
 '',
 'IR2',
 '',
 '\xa0',
 '6',
 '',
 "33'02''",
 '',
 'SPIMOLA MARQUES Tiago (POR)',
 '',
 'Vauclin Athletic Club',
 '',
 '972',
 '',
 'MAR',
 '',
 'M1M/83',
 '',
 'IR3',
 '',
 '\xa0',
 '7',
 '',
 "33'38''",
 '',
 'CROUZET Corentin',
 '',
 'Atousports',
 '',
 '042',
 '',
 'ARA',
 '',
 'SEM/93',
 '',