<h1> I. PREPARATION (Etat : 100% Terminé) </h1>

<h2>I.1. Importations </h2>

In [1]:
# Pour rendre les fichiers Excels exploitables après téléchargement
import os
import re                                # Module d'opérations à base d'expressions rationnelles
import shutil                            # Module High-level file operations
import tempfile                          # Module de génération de fichiers et répertoires temporaires
from fnmatch      import fnmatch         # Librairie de filtrage par motif des noms de fichiers UNIX
from os           import listdir         # Pour lister les fichiers et sous-dossiers existants dans un répertoire
from os.path      import isfile, join    # Manipulation des noms de répertoires communs
from zipfile      import ZipFile         # Manipulation des fichiers ZIP

# Pour pré-traiter, traiter, et post-traiter les données
import cartopy as ctp                               # Pour manipuler les données géographiques
import datetime as dt                               # Pour manipuler les données temporelles
import dateparser
import matplotlib.pyplot as plt                     # Pour représenter les données
import numpy as np                                  # Pour manipuler les données
import pandas as pd                                 # Pour manipuler les données en forme de DataFrame
import requests                                     # Pour récupérer les données HTTP

from bs4 import BeautifulSoup                       # Pour exploiter les données d'un site internet à base de code HTML
from sklearn.metrics import r2_score                # 
from sklearn import preprocessing                   #
from sklearn.linear_model import LassoCV            #
from sklearn.linear_model import LinearRegression   # Pour études de régression linéaire

# Pour analyser et optimiser le temps de traitement
import time
import threading
from tqdm.auto import tqdm

- <u>Variables :</u>
>- BOOL_DirExist : Boolean validating the existence of the sub-directory
>- DIR_Data : Data directory
>- DIR_Main : Main directory
>- DIR_XLSRank : Directory containing daily rank Excel file
>- EXT_RankFile : String of Daily rank Excel file extension
>- FILE : String of FileName.FileExt
>- LIST_FileID : ID of the file in string date format "AAAAMMDD_HHMMSS"
>- LIST_FilesTemp : Temporary file liste to compare
>- LIST_FilesToDwnld : Missing files list to download
>- LIST_RankDate : List of ranking dates format"AAAA-MM-DD HH:MM:SS"
>- LIST_SoupURLRank : List of daily ranks in the URL
>- LIST_Time : List of date as datetime.datetime 
>- SOUP_URLRank : Soup of the URL rank
>- URL_Ranks : URL of ranks
>- URL_DwnldRank : Download link of ranks Excel files (without file ID and .ext)

- <u>Functions (def):</u>
>- CHECK_DATA_DIR : Check that data directories exist
>- CHECK_FILE_LIST : Check that all excel ranking files exist in the subdirectory
>- CONVERT_TIME_FORMAT : Convert date format
>- DWNLD_DAILY_RANK_FILES : Download Excel ranking files
>- GET_RANKING_DATE_LIST : Extract list of ranking date in AAAA-MM-DD HH:MM:SS format
>- UPDATE_FORMAT : Resolve the problem to open downloaded Excel files


<h2>I.2. Définitions des répertoires, liens internet, et type de fichiers</h2>

In [2]:
# Directories & SubDirectories
DIR_Main = os.getcwd()        # Main directory
DIR_XLSRank = 'DataRank_2021' # Sub-directory containing xlsx daily rank files

#DataSkipperDir = 'DataSkipper_2021'

# Uniform Resource Locators (URL) of Vendee Globe 2020-2021 data
URL_Ranks = "https://www.vendeeglobe.org/fr/classement"
URL_DwnldRank = "https://www.vendeeglobe.org/download-race-data/vendeeglobe_"
URL_Skippers = "https://www.vendeeglobe.org/fr/glossaire"

# FilesType
EXT_RankFile = ".xlsx"

<h2>I.3. Outils de conversion </h2>

In [3]:
def CONVERT_TIME_FORMAT (LIST_URL_Time :'YYYY-MM-DD hh:mm:ss')\
      ->'datetime.datetime(YYYY,M,D,H,M),[YYYYMMDD_HHMMSS]':
    
    LIST_Time =[]               # Daily rank date list extracted from URL_Rank
    LIST_FileID = []            # File ID list
    for i in LIST_URL_Time:     # Converting all the daily rank date formats
        LIST_Time.append(dt.datetime.strptime(i, "%Y-%m-%d %H:%M:%S"))
        LIST_FileID.append(dt.datetime.strptime(i, "%Y-%m-%d %H:%M:%S").
                           strftime("%Y%m%d_%H%M%S"))
    return LIST_Time,LIST_FileID

<h2>I.4. Gestion des répertoires et des fichiers </h2>

In [4]:
def CHECK_DATA_DIR(DIR_Main:'Dir_String', TYPE_Data:'Type_String')\
      ->'BOOL_ExistDir, DIR_Data':
    
    DIR_Data = os.path.join(DIR_Main, TYPE_Data)
    if not os.path.exists(DIR_Data):   # Make subdirectory if doesn't exist
        os.mkdir(DIR_Data)
        BOOL_DirExist = False
    else:
        BOOL_DirExist = True           # Else pass
    print("The subdirectory exists "+TYPE_Data+" exists :"+\
          str(np.where(BOOL_DirExist==True,"OK","NOK")))
    return BOOL_DirExist, DIR_Data

In [5]:
def GET_RANKING_DATE_LIST(URL_Ranks : 'URL_String')\
      ->'List of ranking date in AAAA-MM-DD HH:MM:SS format':
    
    
    SOUP_URLRank = BeautifulSoup(requests.get(URL_Ranks).
                                 content.decode('utf-8'))            #Get Soup
    LIST_SoupURLRank = SOUP_URLRank\
          .findAll('option')                        #Extract only options list
    LIST_RankDate = []
    for iLIST_SoupURLRank in LIST_SoupURLRank:     #Generate ranking date list
        LIST_RankDate.append(iLIST_SoupURLRank.text[2:])
    LIST_RankDate = np.unique(LIST_RankDate[1:-1])        #Delete duplications
    print("Number of daily ranking files : " + str(len(LIST_RankDate)))
    return LIST_RankDate

In [6]:
def UPDATE_FORMAT(FILE : "FileName.FileExt string",
                  name_filter : "Name filer string",
                  change : 'string')\
      ->'Nothing : Excel files are updated to be workable':
    DIR_temp = tempfile.mkdtemp()
    try:
        NAME_temp = os.path.join(DIR_temp, 'new.zip')
        with ZipFile(FILE, 'r') as r, ZipFile(NAME_temp, 'w') as w:
            for item in r.infolist():
                DATA = r.read(item.filename)           
                DATA = change(DATA)
                w.writestr(item, DATA)
        shutil.move(NAME_temp, FILE)
    finally:
        shutil.rmtree(DIR_temp)

In [7]:
def DWNLD_DAILY_RANK_FILES(URL_DwnldRank : 'DownloadingURL_String',
                           LIST_FileID : 'List of string containing files ID',
                           EXT_RankFile : '.ext_file String',
                           DIR_Data : 'Data Directory string',
                           DIR_Main : 'Main Directory string')\
      -> 'Nothing : Excel files downloaded and saved in data directory':
    os.chdir(DIR_Data)                                    # Go to subdirectory
    with tqdm(range(len(LIST_FileID)),
              desc = "Downloading progress bar")\
              as outer :
        for iLIST_FileID in LIST_FileID:    # Download each Excel ranking file
            resp = requests.get(URL_DwnldRank+iLIST_FileID+EXT_RankFile)
            FILE = "vendeeglobe_"+iLIST_FileID+EXT_RankFile
            with open(FILE,'wb')as file:
                file.write(resp.content)
            UPDATE_FORMAT(FILE,name_filter='xl/styles.xml',
                          change=lambda d:re.sub(b'xxid="\d*"',b"",d))
            outer.update()
    os.chdir(DIR_Main)

In [8]:
def CHECK_FILE_LIST(DIR_Main: 'Main directory string',
                    DIR_Data: 'Ranking excel directory string',
                    LIST_FileID: 'List of excel file ID string')\
      -> 'List of string of excel file ID to download':  
    LIST_FilesTemp = [f for f in listdir(DIR_Data)\
                      if isfile(join(DIR_Data,f))]
    LIST_FilesToDwnld = []
    for iLIST_FilesTemp in LIST_FileID:
        if not str("vendeeglobe_"+iLIST_FilesTemp+".xlsx") in LIST_FilesTemp:
            LIST_FilesToDwnld.append(iLIST_FilesTemp)
    return LIST_FilesToDwnld

In [9]:
'''MAIN DOWNLOADING DATA'''

BOOL_DirExist, DIR_Data = CHECK_DATA_DIR(DIR_Main,DIR_XLSRank)
LIST_RankDate = GET_RANKING_DATE_LIST(URL_Ranks)
LIST_Time, LIST_FileID = CONVERT_TIME_FORMAT(LIST_RankDate)
"""if BOOL_DirExist == False:
    print('Subdirectory "Datarank_2021" complete : NOK')
    print('Downloading ', len(LIST_FileID),
          ' Excel daily ranking files')
    DWNLD_DAILY_RANK_FILES(URL_DwnldRank,
                           LIST_FileID,
                           EXT_RankFile,
                           DIR_Data,
                           DIR_Main)
else :"""
LIST_FilesToDwnld = CHECK_FILE_LIST(DIR_Main,
                                    DIR_Data,
                                    LIST_FileID)
if len(LIST_FilesToDwnld)!=0:
    print('Subdirectory "Datarank_2021" complete : NOK')
    print('Downloading ',len(LIST_FilesToDwnld),
          ' missing Excel daily ranking files')
    DWNLD_DAILY_RANK_FILES(URL_DwnldRank,
                          LIST_FilesToDwnld,
                          EXT_RankFile,
                          DIR_Data,
                          DIR_Main)
    
print("-------------------------------------------------")
print('Subdirectory "Datarank_2021" created : OK')
print('Subdirectory "Datarank_2021" complete : OK')

The subdirectory exists DataRank_2021 exists :OK
Number of daily ranking files : 702
-------------------------------------------------
Subdirectory "Datarank_2021" created : OK
Subdirectory "Datarank_2021" complete : OK


<h1>Chargement des données excel en DF (En cours)</h1>

In [122]:
def GEN_DAILY_RANKING_DF(DIR_Data,LIST_FileID,LIST_Time, DIR_Main):
    os.chdir(DIR_Data)
    print(os.getcwd())
    DF_Rank=pd.DataFrame()
    i=0
    for iLIST_FileID in LIST_FileID:
        #print(iLIST_FileID)
        DF_Temp = pd.read_excel("vendeeglobe_"+iLIST_FileID+EXT_RankFile,header=[3,4],nrows=33)
        #DF_Temp['Unnamed: 0_level_0']= dt.datetime.strftime(LIST_Time[i],"%Y/%m/%d %H:%M:%S")
        DF_Rank = pd.concat([DF_Rank, DF_Temp],ignore_index=True)
        i+=1
    
    return DF_Rank

In [123]:
DF_Rank = GEN_DAILY_RANKING_DF(DIR_Data,LIST_FileID,LIST_Time,DIR_Main)
DF_Rank.head()

D:\TELECOM PARIS\GitHub\Kit_BgD_AlexandreROULEAU\211103_FinalProject\DataRank_2021


Unnamed: 0_level_0,DTF,DTL,Date d'arrivée\nArrival date,Date d'arrivée\nArrival date,Date d'arrivée\nArrival date,Date d'arrivée\nArrival date,Depuis 24 heures\nSince 24 hours,Depuis 24 heures\nSince 24 hours,Depuis 24 heures\nSince 24 hours,Depuis 24 heures\nSince 24 hours,...,Temps de course\nRace time,Temps de course\nRace time,Temps de course\nRace time,Temps de course\nRace time,Unnamed: 0_level_0,Écarts\nGaps,Écarts\nGaps,Écarts\nGaps,Écarts\nGaps,►
Unnamed: 0_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Cap\nHeading,Distance\nDistance,VMG\nVMG,Vitesse\nSpeed,...,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 0_level_1.1,Au premier\nTo first,Au premier\nTo first.1,Au précédent\nTo previous,Au précédent\nTo previous.1,Unnamed: 18_level_1
0,24293.9 nm,0.0 nm,,,,,201°,6.1 nm,0.3 kts,0.3 kts,...,,,,,,,,,,
1,24294.2 nm,0.4 nm,,,,,196°,6.0 nm,0.2 kts,0.3 kts,...,,,,,,,,,,
2,24294.3 nm,0.5 nm,,,,,199°,5.5 nm,0.2 kts,0.2 kts,...,,,,,,,,,,
3,24294.5 nm,0.6 nm,,,,,196°,5.6 nm,0.2 kts,0.2 kts,...,,,,,,,,,,
4,24294.5 nm,0.6 nm,,,,,195°,5.8 nm,0.7 kts,0.8 kts,...,,,,,,,,,,


In [135]:
pd.read_excel("vendeeglobe_20210127_170000.xlsx",header=[3,4],nrows=35).head()

Unnamed: 0_level_0,Unnamed: 0_level_0,Rang\nRank,Nat. / Voile\nNat. / Sail,Skipper / Bateau\nSkipper / crew,Date d'arrivée\nArrival date,Date d'arrivée\nArrival date,Date d'arrivée\nArrival date,Date d'arrivée\nArrival date,Temps de course\nRace time,Temps de course\nRace time,Temps de course\nRace time,Temps de course\nRace time,Écarts\nGaps,Écarts\nGaps,Écarts\nGaps,Écarts\nGaps,Sur l'ortho\nOver ortho,Sur l'ortho\nOver ortho,►,Sur le fond\nOver ground,Sur le fond\nOver ground
Unnamed: 0_level_1,Unnamed: 0_level_1.1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,...,Unnamed: 11_level_1,Au premier\nTo first,Au premier\nTo first.1,Au précédent\nTo previous,Au précédent\nTo previous.1,Vitesse\nSpeed,Distance\nDistance,Unnamed: 18_level_1,Vitesse\nSpeed,Distance\nDistance
0,,1\nARV,\nFRA 79,Charlie Dalin\nAPIVIA,,,,27/01/2021 21:35:47 FR,80j 06h 15min 47s\n,,...,,,,,,12.6 kts,24355.0 nm,119.6 %,15.1 kts,29135.0 nm
1,,Rang\nRank,Nat. / Voile\nNat. / Sail,Skipper / Bateau\nSkipper / crew,,,,Depuis 30 minutes\nSince 30 minutes,,,...,Depuis le dernier classement\nSince the the la...,,,,Depuis 24 heures\nSince 24 hours,,,,DTF,DTL
2,,,,,Heure FR\nHour FR,Latitude\nLatitude,Longitude\nLongitude,Cap\nHeading,Vitesse\nSpeed,VMG\nVMG,...,Cap\nHeading,Vitesse\nSpeed,VMG\nVMG,Distance\nDistance,Cap\nHeading,Vitesse\nSpeed,VMG\nVMG,Distance\nDistance,,
3,,2,\nFRA 18,Louis Burton\nBureau Vallée 2,17:30 FR\n,46°03.01'N,04°00.21'W,114°,18.4 kts,14.1 kts,...,114°,18.1 kts,16.2 kts,54.1 nm,104°,17.5 kts,17.1 kts,420.8 nm,95.7 nm,0.0 nm
4,,3,\nMON 10,Boris Herrmann\nSeaexplorer - Yacht Club De Mo...,17:30 FR\n,44°54.90'N,04°33.63'W,35°,20.7 kts,19.9 kts,...,55°,13.6 kts,13.6 kts,40.8 nm,76°,13.6 kts,13.2 kts,325.2 nm,149.4 nm,53.7 nm


In [137]:
test = pd.read_excel("vendeeglobe_20210127_170000.xlsx",header=[3,4],nrows=35).head()
test

Unnamed: 0_level_0,Unnamed: 0_level_0,Rang\nRank,Nat. / Voile\nNat. / Sail,Skipper / Bateau\nSkipper / crew,Date d'arrivée\nArrival date,Date d'arrivée\nArrival date,Date d'arrivée\nArrival date,Date d'arrivée\nArrival date,Temps de course\nRace time,Temps de course\nRace time,Temps de course\nRace time,Temps de course\nRace time,Écarts\nGaps,Écarts\nGaps,Écarts\nGaps,Écarts\nGaps,Sur l'ortho\nOver ortho,Sur l'ortho\nOver ortho,►,Sur le fond\nOver ground,Sur le fond\nOver ground
Unnamed: 0_level_1,Unnamed: 0_level_1.1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,...,Unnamed: 11_level_1,Au premier\nTo first,Au premier\nTo first.1,Au précédent\nTo previous,Au précédent\nTo previous.1,Vitesse\nSpeed,Distance\nDistance,Unnamed: 18_level_1,Vitesse\nSpeed,Distance\nDistance
0,,1\nARV,\nFRA 79,Charlie Dalin\nAPIVIA,,,,27/01/2021 21:35:47 FR,80j 06h 15min 47s\n,,...,,,,,,12.6 kts,24355.0 nm,119.6 %,15.1 kts,29135.0 nm
1,,Rang\nRank,Nat. / Voile\nNat. / Sail,Skipper / Bateau\nSkipper / crew,,,,Depuis 30 minutes\nSince 30 minutes,,,...,Depuis le dernier classement\nSince the the la...,,,,Depuis 24 heures\nSince 24 hours,,,,DTF,DTL
2,,,,,Heure FR\nHour FR,Latitude\nLatitude,Longitude\nLongitude,Cap\nHeading,Vitesse\nSpeed,VMG\nVMG,...,Cap\nHeading,Vitesse\nSpeed,VMG\nVMG,Distance\nDistance,Cap\nHeading,Vitesse\nSpeed,VMG\nVMG,Distance\nDistance,,
3,,2,\nFRA 18,Louis Burton\nBureau Vallée 2,17:30 FR\n,46°03.01'N,04°00.21'W,114°,18.4 kts,14.1 kts,...,114°,18.1 kts,16.2 kts,54.1 nm,104°,17.5 kts,17.1 kts,420.8 nm,95.7 nm,0.0 nm
4,,3,\nMON 10,Boris Herrmann\nSeaexplorer - Yacht Club De Mo...,17:30 FR\n,44°54.90'N,04°33.63'W,35°,20.7 kts,19.9 kts,...,55°,13.6 kts,13.6 kts,40.8 nm,76°,13.6 kts,13.2 kts,325.2 nm,149.4 nm,53.7 nm


In [154]:
test = pd.read_excel("vendeeglobe_20210127_210000.xlsx",nrows=35).head(15)
test

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20
0,,,,,,,,,,,...,,,,,,,,,,
1,,Classement du mercredi 27 janvier 2021 à 22h00 FR,,,,,,,,,...,,,,,,,,,,
2,,Rang\nRank,Nat. / Voile\nNat. / Sail,Skipper / Bateau\nSkipper / crew,Date d'arrivée\nArrival date,,,,Temps de course\nRace time,,...,,Écarts\nGaps,,,,Sur l'ortho\nOver ortho,,►,Sur le fond\nOver ground,
3,,,,,,,,,,,...,,Au premier\nTo first,,Au précédent\nTo previous,,Vitesse\nSpeed,Distance\nDistance,,Vitesse\nSpeed,Distance\nDistance
4,,1\nARV,\nFRA 17,Yannick Bestaven\nMaître Coq IV,,,,28/01/2021 05:19:46 FR,80j 03h 44min 46s\n-10h 15min 00s,,...,,,,,,12.6 kts,24365.7 nm,117.3 %,14.8 kts,28583.8 nm
5,,2\nARV,\nFRA 79,Charlie Dalin\nAPIVIA,,,,27/01/2021 21:35:47 FR,80j 06h 15min 47s\n,,...,,,02h 31min 01s,,02h 31min 01s,12.6 kts,24365.7 nm,119.6 %,15.1 kts,29135.0 nm
6,,3\nARV,\nFRA 18,Louis Burton\nBureau Vallée 2,,,,28/01/2021 01:45:12 FR,80j 10h 25min 12s\n,,...,,,06h 40min 26s,,04h 09min 25s,12.6 kts,24365.7 nm,117.6 %,14.8 kts,28650.0 nm
7,,Rang\nRank,Nat. / Voile\nNat. / Sail,Skipper / Bateau\nSkipper / crew,,,,Depuis 30 minutes\nSince 30 minutes,,,...,Depuis le dernier classement\nSince the the la...,,,,Depuis 24 heures\nSince 24 hours,,,,DTF,DTL
8,,,,,Heure FR\nHour FR,Latitude\nLatitude,Longitude\nLongitude,Cap\nHeading,Vitesse\nSpeed,VMG\nVMG,...,Cap\nHeading,Vitesse\nSpeed,VMG\nVMG,Distance\nDistance,Cap\nHeading,Vitesse\nSpeed,VMG\nVMG,Distance\nDistance,,
9,,4,\nMON 10,Boris Herrmann\nSeaexplorer - Yacht Club De Mo...,21:30 FR\n,45°54.02'N,03°42.52'W,24°,7.3 kts,5.4 kts,...,32°,17.3 kts,16.4 kts,69.2 nm,77°,13.5 kts,13.4 kts,324.0 nm,87.2 nm,0.0 nm


In [163]:
test.loc[test['Unnamed: 8']=="Temps de course\nRace time"].index

Int64Index([2], dtype='int64')

In [160]:
test.loc[test["Unnamed: 5"]=="Latitude\nLatitude"].index

Int64Index([8], dtype='int64')

In [209]:
Head_Arrivee = test.loc[test['Unnamed: 8']=="Temps de course\nRace time"].index.values[0]+2
print(Head_Arrivee)
Head_EnCourse = test.loc[test["Unnamed: 5"]=="Latitude\nLatitude"].index.values[0]
print(Head_EnCourse)
test_Arrivee = pd.read_excel("vendeeglobe_20210127_210000.xlsx",header = [Head_Arrivee-1,Head_Arrivee], nrows=Head_EnCourse-Head_Arrivee-1)
test_Encourse = pd.read_excel("vendeeglobe_20210127_210000.xlsx",header = [Head_EnCourse, Head_EnCourse+1],nrows=33-(Head_EnCourse-Head_Arrivee-1))

4
8


In [210]:
test_Arrivee

Unnamed: 0_level_0,Unnamed: 0_level_0,Rang\nRank,Nat. / Voile\nNat. / Sail,Skipper / Bateau\nSkipper / crew,Date d'arrivée\nArrival date,Date d'arrivée\nArrival date,Date d'arrivée\nArrival date,Date d'arrivée\nArrival date,Temps de course\nRace time,Temps de course\nRace time,Temps de course\nRace time,Temps de course\nRace time,Écarts\nGaps,Écarts\nGaps,Écarts\nGaps,Écarts\nGaps,Sur l'ortho\nOver ortho,Sur l'ortho\nOver ortho,►,Sur le fond\nOver ground,Sur le fond\nOver ground
Unnamed: 0_level_1,Unnamed: 0_level_1.1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,...,Unnamed: 11_level_1,Au premier\nTo first,Au premier\nTo first.1,Au précédent\nTo previous,Au précédent\nTo previous.1,Vitesse\nSpeed,Distance\nDistance,Unnamed: 18_level_1,Vitesse\nSpeed,Distance\nDistance
0,,1\nARV,\nFRA 17,Yannick Bestaven\nMaître Coq IV,,,,28/01/2021 05:19:46 FR,80j 03h 44min 46s\n-10h 15min 00s,,...,,,,,,12.6 kts,24365.7 nm,117.3 %,14.8 kts,28583.8 nm
1,,2\nARV,\nFRA 79,Charlie Dalin\nAPIVIA,,,,27/01/2021 21:35:47 FR,80j 06h 15min 47s\n,,...,,,02h 31min 01s,,02h 31min 01s,12.6 kts,24365.7 nm,119.6 %,15.1 kts,29135.0 nm
2,,3\nARV,\nFRA 18,Louis Burton\nBureau Vallée 2,,,,28/01/2021 01:45:12 FR,80j 10h 25min 12s\n,,...,,,06h 40min 26s,,04h 09min 25s,12.6 kts,24365.7 nm,117.6 %,14.8 kts,28650.0 nm


In [211]:
test_Encourse

Unnamed: 0_level_0,Unnamed: 0_level_0,Rang\nRank,Nat. / Voile\nNat. / Sail,Skipper / Bateau\nSkipper / crew,Skipper / Bateau\nSkipper / crew,Skipper / Bateau\nSkipper / crew,Skipper / Bateau\nSkipper / crew,Depuis 30 minutes\nSince 30 minutes,Depuis 30 minutes\nSince 30 minutes,Depuis 30 minutes\nSince 30 minutes,...,Depuis le dernier classement\nSince the the last report,Depuis le dernier classement\nSince the the last report,Depuis le dernier classement\nSince the the last report,Depuis le dernier classement\nSince the the last report,Depuis 24 heures\nSince 24 hours,Depuis 24 heures\nSince 24 hours,Depuis 24 heures\nSince 24 hours,Depuis 24 heures\nSince 24 hours,DTF,DTL
Unnamed: 0_level_1,Unnamed: 0_level_1.1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Heure FR\nHour FR,Latitude\nLatitude,Longitude\nLongitude,Cap\nHeading,Vitesse\nSpeed,VMG\nVMG,...,Cap\nHeading,Vitesse\nSpeed,VMG\nVMG,Distance\nDistance,Cap\nHeading,Vitesse\nSpeed,VMG\nVMG,Distance\nDistance,Unnamed: 19_level_1,Unnamed: 20_level_1
0,,4,\nMON 10,Boris Herrmann\nSeaexplorer - Yacht Club De Mo...,21:30 FR\n,45°54.02'N,03°42.52'W,24°,7.3 kts,5.4 kts,...,32°,17.3 kts,16.4 kts,69.2 nm,77°,13.5 kts,13.4 kts,324.0 nm,87.2 nm,0.0 nm
1,,5,\nFRA 59,Thomas Ruyant\nLinkedOut,21:31 FR\n1min,46°43.88'N,04°34.72'W,103°,16.5 kts,16.4 kts,...,113°,17.0 kts,16.7 kts,68.5 nm,101°,17.6 kts,17.5 kts,423.9 nm,116.5 nm,29.3 nm
2,,6,\nFRA 1000,Damien Seguin\nGroupe APICIL,21:30 FR\n,46°12.15'N,07°24.08'W,86°,17.5 kts,17.5 kts,...,84°,17.7 kts,17.7 kts,70.9 nm,80°,17.0 kts,17.0 kts,408.7 nm,233.5 nm,146.4 nm
3,,7,\nITA 34,Giancarlo Pedote\nPrysmian Group,21:30 FR\n,46°37.33'N,07°31.92'W,100°,20.4 kts,20.1 kts,...,94°,19.6 kts,19.6 kts,78.5 nm,83°,19.6 kts,19.5 kts,471.3 nm,237.6 nm,150.5 nm
4,,8,\nFRA 01,Jean Le Cam\nYes we Cam !,21:30 FR\n,45°30.21'N,11°00.33'W,66°,18.5 kts,18.1 kts,...,66°,18.2 kts,17.9 kts,72.6 nm,62°,17.4 kts,17.4 kts,418.2 nm,389.0 nm,301.8 nm
5,,9,\nFRA 09,Benjamin Dutreux\nOMIA - Water Family,21:30 FR\n,44°21.30'N,14°42.63'W,76°,18.5 kts,18.4 kts,...,71°,17.6 kts,17.6 kts,70.5 nm,59°,17.0 kts,17.0 kts,409.2 nm,558.9 nm,471.7 nm
6,,10,\nFRA 53,Maxime Sorel\nV And B Mayenne,21:30 FR\n,40°51.12'N,17°58.94'W,58°,17.2 kts,17.2 kts,...,58°,17.5 kts,17.5 kts,70.0 nm,50°,17.7 kts,17.7 kts,424.7 nm,778.5 nm,691.3 nm
7,,11,FR\nFRA 02,Armel Tripon\nL'Occitane en Provence,21:30 FR\n,38°39.28'N,19°40.45'W,62°,17.1 kts,16.9 kts,...,67°,17.0 kts,16.5 kts,67.9 nm,48°,14.4 kts,14.4 kts,345.0 nm,916.8 nm,829.7 nm
8,,12,\nFRA 30,Clarisse Cremer\nBanque Populaire X,21:30 FR\n,29°02.01'N,28°46.22'W,308°,8.6 kts,-0.7 kts,...,11°,7.1 kts,6.1 kts,28.3 nm,26°,9.4 kts,9.1 kts,224.8 nm,1640.3 nm,1553.2 nm
9,,13,\nFRA 49,Romain Attanasio\nPure - Best Western Hotels a...,21:30 FR\n,15°27.19'N,35°22.32'W,346°,11.6 kts,7.8 kts,...,346°,11.2 kts,7.6 kts,44.8 nm,350°,11.8 kts,9.1 kts,282.1 nm,2509.7 nm,2422.6 nm


<h1>Chargement des données de voiliers (90% terminé)</h1>

<u>A voir</u>

Voir pour l'indexage du DF :
- Par nom de skipper
- Par nom de bateau
- Par numéro de voile

Avis personnel : Numéro de voile probablement plus facilement identifiable pour les raisons suivantes:
- Longueur du string des numéro de voile courte. Référence unique (on peut changer de marin sur ce même bateau, ou donner un nouveau nom au voilier, ça ne changera pas la référence de la voile)
- Nom de skipper réduit pour certains (diminutif, ex:Alexandre --> Alex)
- Nom de bateau : long string (idem pour certains noms de marin), risque de différence élevé (donc plus difficile à merger)

In [1]:
def GEN_SEPCS_DF (URL_Skipper):
    # Paramètres des types de données à extraire
    PARAM_Data = {
        "BoatSpecs" : ['ul', "class", "boats-list__popup-specs-list"],
        "Nom voilier" : ['h3',"class","boats-list__boat-name"],
        "Nom skipper" : ["span","class", "boats-list__skipper-name"]
    }
    
    # Fonction d'extraction de données techniques spécifiques
    #(BoatSpecs, BoatName, SkipperName) sous forme de list
    def LIST_SOUP (URL_Skipper, PARAM_Data,iPARAM_Data):
        return BeautifulSoup(requests.get(URL_Skipper).content\
                                 .decode("utf-8")).findAll(
                                    PARAM_Data[iPARAM_Data][0],
                                    {PARAM_Data[iPARAM_Data][1]:
                                     PARAM_Data[iPARAM_Data][2]})
    # Création d'un DF Spécifications techniques du voilier vierge
    DF_TechSpecs=pd.DataFrame()
    
    # Remplissage du DF
    for iPARAM_Data in PARAM_Data:
        LIST_Soup = LIST_SOUP (URL_Skipper, PARAM_Data, iPARAM_Data)
        # Remplir d'abord les données techniques du voilier
        #(Num. voile, Anciens nom, Architece, Chantier, Date lanc., Longueur,...)
        if iPARAM_Data == list(PARAM_Data.keys())[0]:
            idx = 0
            for iLIST_Soup in LIST_Soup:
                iDATA,iVAL = np.transpose([string.split(' : ',1) for string
                                           in iLIST_Soup.text.split("\n")[1:-1]])
                DF_TechSpecs = pd.concat([DF_TechSpecs,
                                          pd.DataFrame([iVAL],columns = iDATA)],
                                             ignore_index=True)
                idx+=1
        # Ajouter ensuite les colonnes Nom de voilier, et nom du marin;
        #puis les mettre en premières colonnes
        else:
            DF_TechSpecs[iPARAM_Data] = [string.text for string in LIST_Soup]
            DF_TechSpecs = DF_TechSpecs[DF_TechSpecs.columns.tolist()[-1:]+
                                        DF_TechSpecs.columns.tolist()[:-1]]
    
    # Homogénéisation des données
       # liste des valeurs [init, new] et des unités à supprimer
        #suivant le nom de la colonne 
    VAL_ToReplace = {"Date de lancement":[], # pour reconvertion des dates
                    "Anciens noms du bateau":[np.nan,''],"Voile quille":[np.nan,''], # Pour remplacement des valeurs
                    "Nombre de dérives":[["foiler", "2 asymétriques"],['foils', "2"]], # Pour remplacement des valeurs
                    "Longueur":[' m'],"Largeur" :[' m'],"Tirant d'eau":[' m'],"Hauteur mât":[' m'], # Suppresion des unités de longueur
                    "Surface de voiles au près":[' m2', ' m²'],"Surface de voiles au portant":[' m2', ' m²'], #Suppression des unités de surface
                    "Déplacement (poids)":[' t', ' tonnes']} #Suppresion des unités de masse
    for iCOL in VAL_ToReplace:
        if iCOL in ["Anciens noms du bateau","Voile quille","Nombre de dérives"]:      
            DF_TechSpecs[iCOL] = DF_TechSpecs[iCOL]\
                                    .replace(VAL_ToReplace[iCOL][0],
                                             VAL_ToReplace[iCOL][1])
        elif "Date de lancement" in iCOL:
            DF_TechSpecs[iCOL] = DF_TechSpecs[iCOL].apply(dateparser.parse)
        else :
            for iUNIT in VAL_ToReplace[iCOL]:
                DF_TechSpecs[iCOL] = DF_TechSpecs[iCOL].str.strip(iUNIT)
            if "Déplacement (poids)" in iCOL:
                DF_TechSpecs[iCOL] = DF_TechSpecs[iCOL].str\
                                        .replace('[a-zA-Z]', '0', regex=True)
            DF_TechSpecs[iCOL] = DF_TechSpecs[iCOL].str.replace(',','.')
            DF_TechSpecs[iCOL] = DF_TechSpecs[iCOL].astype('float')
    # Repositionnement des unités de dimensionnement dans l'entête de certaines colonnes
    TITLE_ToReplace = {"Longueur":'Longueur [m]',
                   "Largeur" :'Largeur m',
                   "Tirant d'eau":"Tirant d'eau [m]",
                   "Hauteur mât":'Hauteur mât [m]',
                   "Surface de voiles au près":'Surface de voiles au près [m²]',
                   "Surface de voiles au portant":'Surface de voiles au portant [m²]',
                   "Déplacement (poids)":'Déplacement (poids) [t]'}
    DF_TechSpecs = DF_TechSpecs.rename(columns = TITLE_ToReplace)
    return DF_TechSpecs

In [101]:
DF_TechSpecs = GEN_SEPCS_DF(URL_Skippers)

DF_TechSpecs

Unnamed: 0,Nom skipper,Nom voilier,Numéro de voile,Anciens noms du bateau,Architecte,Chantier,Date de lancement,Longueur [m],Largeur m,Tirant d'eau [m],Déplacement (poids) [t],Nombre de dérives,Hauteur mât [m],Voile quille,Surface de voiles au près [m²],Surface de voiles au portant [m²]
0,Fabrice AMEDEO,NEWREST - ART & FENÊTRES,FRA 56,"No Way Back, Vento di Sardegna",VPLP/Verdier,Persico Marine,2015-08-01,18.28,5.85,4.5,7.0,foils,29.0,monotype,320.0,570.0
1,Romain ATTANASIO,PURE - Best Western®,FRA 49,"Gitana Eighty, Synerciel, Newrest-Matmut",Bruce Farr Design,Southern Ocean Marine (Nouvelle Zélande),2007-03-08,18.28,5.8,4.5,9.0,2,28.0,acier forgé,80.0,560.0
2,Alexia BARRIER,TSE - 4MYPLANET,FRA72,"Famille Mary-Etamine du Lys, Initiatives Coeur...",Marc Lombard,MAG France,1998-03-01,18.28,5.54,4.5,9.0,2,29.0,acier,60.0,580.0
3,Yannick BESTAVEN,Maître CoQ IV,17,Safran 2 - Des Voiles et Vous,Verdier - VPLP,CDK Technologies,2015-03-12,18.28,5.8,4.5,8.0,foils,29.0,acier mécano soudé,310.0,550.0
4,Jérémie BEYOU,CHARAL,08,,VPLP,CDK Technologies,2018-08-18,18.28,5.85,4.5,8.0,foils,29.0,acier,320.0,600.0
5,Arnaud BOISSIÈRES,LA MIE CÂLINE - ARTISANS ARTIPÔLE,FRA 14,"Ecover3, Président, Gamesa, Kilcullen Voyager-...",Owen Clarke Design LLP - Clay Oliver,Hakes Marine - Mer Agitée,2007-08-03,18.28,5.65,4.5,7.9,foils,29.0,basculante avec vérin,300.0,610.0
6,Louis BURTON,BUREAU VALLEE 2,18,Banque Populaire VIII,Verdier - VPLP,CDK Technologies,2015-06-09,18.28,5.8,4.5,7.6,foils,28.0,acier,300.0,600.0
7,Didac COSTA,ONE PLANET ONE OCEAN,ESP 33,Kingfisher - Educacion sin Fronteras - Forum M...,Owen Clarke Design,Martens Yachts,2000-02-02,18.28,5.3,4.5,8.9,2,26.0,acier,40.0,470.0
8,Manuel COUSIN,GROUPE SÉTIN,FRA 71,"Paprec-Virbac2, Estrella Damm, We are Water, L...",Bruce Farr Yacht Design,Southern Ocean Marine (Nouvelle-Zélande),2007-02-02,18.28,5.8,4.5,9.0,2,28.5,basculante sur vérin hydraulique,70.0,560.0
9,Clarisse CREMER,BANQUE POPULAIRE X,FRA30,Macif - SMA,Verdier - VPLP,CDK - Mer Agitée,2011-03-01,18.28,5.7,4.5,7.7,2,29.0,acier forgé,340.0,570.0
