# Webscraping & Data Processing

Lucas Artaud DIA 1

In [484]:
import requests
import pandas as pd
from bs4 import BeautifulSoup

In [485]:
pd.set_option('display.max_rows', 100)

## Récupération des données à partir du site Internet

In [486]:
url = "https://www.lunil.com/comparatif-des-vehicules-electriques-par-segment/"
response = requests.get(url)
response

<Response [200]>

In [487]:
soup = BeautifulSoup(response.text, 'html.parser')

data = []
rows = soup.find_all('tr')
for row in rows:
    cells = row.find_all('td')
    if len(cells) > 1:
        row_data = []
        for cell in cells:
            cell_text = cell.get_text(strip=True)
            row_data.append(cell_text if cell_text and cell_text != 'Inconnu' else None)
    data.append(row_data)

df = pd.DataFrame(data)
df.drop_duplicates(inplace=True)
df.columns = df.iloc[0] 
df = df[1:]
df.set_index('Modèle', inplace=True)
df.dropna(how='all', inplace=True)
df

Unnamed: 0_level_0,Prix (approximatif),Longueur (mm),Largeur (mm),Puissance de la batterie (kWh),Vitesse maximale (km/h),Autonomie (km),Poids (kg),Accélération de 0 à 100 km
Modèle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Volkswagen e-Up!,20k – 30k €,3595,1641,32,130,260,1100,"9,9 s"
Fiat 500e,30k € et +,3555,1627,24,150,200,1150,"9,1 s"
Citroën e-Méhari,22k € et +,3495,1660,30,110,200,1065,
DS3 Crossback E-tense,40k € et +,4118,1791,50,150,430,1170,"8,7 s"
Dacia Spring,20k € et +,3715,1625,26 – 36,125,155 – 300,970,"19,1 s"
Honda e,"33,5 € et +",3945,1755,35.5,145,220,1320,"8,3 s"
Nissan LEAF II,32k € et +,4480,1820,40,150,385,1590,"7,9 s"
Renault Zoé,35k et +,4085,1730,52,140,395,1502,"9,5 s"
Opel Corsa-e,29k € et +,4050,1800,50,150,330,1365,"7,6 s"
Peugeot e-208,33k € et +,4055,1745,46,150,400,1455,"8,1 s"


## Nettoyage de la largeur et de la longueur

In [488]:
df['Largeur (mm)'] = df['Largeur (mm)'].replace(',', '', regex=True).astype('Int64')
df['Longueur (mm)'] = df['Longueur (mm)'].replace(',', '', regex=True).astype('Int64')

## Nettoyage des virgules, des tirets et des espaces

In [489]:
df = df.replace(',', '.', regex=True)
df = df.replace('–', '-', regex=True)
df = df.replace('\s', '', regex=True)
df

Unnamed: 0_level_0,Prix (approximatif),Longueur (mm),Largeur (mm),Puissance de la batterie (kWh),Vitesse maximale (km/h),Autonomie (km),Poids (kg),Accélération de 0 à 100 km
Modèle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Volkswagen e-Up!,20k-30k€,3595,1641,32,130,260,1100,9.9s
Fiat 500e,30k€et+,3555,1627,24,150,200,1150,9.1s
Citroën e-Méhari,22k€et+,3495,1660,30,110,200,1065,
DS3 Crossback E-tense,40k€et+,4118,1791,50,150,430,1170,8.7s
Dacia Spring,20k€et+,3715,1625,26-36,125,155-300,970,19.1s
Honda e,33.5€et+,3945,1755,35.5,145,220,1320,8.3s
Nissan LEAF II,32k€et+,4480,1820,40,150,385,1590,7.9s
Renault Zoé,35ket+,4085,1730,52,140,395,1502,9.5s
Opel Corsa-e,29k€et+,4050,1800,50,150,330,1365,7.6s
Peugeot e-208,33k€et+,4055,1745,46,150,400,1455,8.1s


## Nettoyage des prix

On remplace la colonne "Prix (approximatif)" par une colonne "Prix minimal" et une colonne "Prix maximal" :

In [490]:
# Diviser la colonne 'Prix (approximatif)' en deux colonnes 'Prix minimal (euros)' et 'Prix maximal (euros)'
df[['Prix (euros) min', 'Prix (euros) max']] = df['Prix (approximatif)'].str.split('-', expand=True)

# Supprimer les caractères non numériques des colonnes de prix
df['Prix (euros) min'] = df['Prix (euros) min'].str.replace(r'[^\d.]', '', regex=True)
df['Prix (euros) max'] = df['Prix (euros) max'].str.replace(r'[^\d.]', '', regex=True)

# Convertir les valeurs en numériques
df['Prix (euros) min'] = df['Prix (euros) min'].apply(pd.to_numeric)
df['Prix (euros) max'] = df['Prix (euros) max'].apply(pd.to_numeric)

# Convertir les prix en milliers d'euros
df['Prix (euros) min'] *= 1000
df['Prix (euros) max'] *= 1000

# Convertir les colonnes de prix en types de données entiers optionnels
df['Prix (euros) min'] = df['Prix (euros) min'].astype('Int64')
df['Prix (euros) max'] = df['Prix (euros) max'].astype('Int64')

# Supprimer la colonne originale
df.drop('Prix (approximatif)', axis=1, inplace=True)

df

Unnamed: 0_level_0,Longueur (mm),Largeur (mm),Puissance de la batterie (kWh),Vitesse maximale (km/h),Autonomie (km),Poids (kg),Accélération de 0 à 100 km,Prix (euros) min,Prix (euros) max
Modèle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Volkswagen e-Up!,3595,1641,32,130,260,1100,9.9s,20000.0,30000.0
Fiat 500e,3555,1627,24,150,200,1150,9.1s,30000.0,
Citroën e-Méhari,3495,1660,30,110,200,1065,,22000.0,
DS3 Crossback E-tense,4118,1791,50,150,430,1170,8.7s,40000.0,
Dacia Spring,3715,1625,26-36,125,155-300,970,19.1s,20000.0,
Honda e,3945,1755,35.5,145,220,1320,8.3s,33500.0,
Nissan LEAF II,4480,1820,40,150,385,1590,7.9s,32000.0,
Renault Zoé,4085,1730,52,140,395,1502,9.5s,35000.0,
Opel Corsa-e,4050,1800,50,150,330,1365,7.6s,29000.0,
Peugeot e-208,4055,1745,46,150,400,1455,8.1s,33000.0,


## Nettoyage de l'accélération

In [491]:
# Supprimer le 's' de la colonne 'Accélération de 0 à 100 km'
df['Accélération de 0 à 100 km'] = df['Accélération de 0 à 100 km'].replace('s', '', regex=True)

# Diviser la colonne en deux colonnes basées sur '/'
df[['Accélération de 0 à 100 km/h (s) min', 'Accélération de 0 à 100 km/h (s) max']] = df['Accélération de 0 à 100 km'].str.split('/', expand=True)

# Extraire les valeurs numériques (avec un point qui sépare la partie entière et la artie décimale) des colonnes min et max
df['Accélération de 0 à 100 km/h (s) min'] = df['Accélération de 0 à 100 km/h (s) min'].str.extract(r'(\d+\.\d+)')
df['Accélération de 0 à 100 km/h (s) max'] = df['Accélération de 0 à 100 km/h (s) max'].str.extract(r'(\d+\.\d+)')

# Convertir les valeurs en numériques
df['Accélération de 0 à 100 km/h (s) min'] = df['Accélération de 0 à 100 km/h (s) min'].apply(pd.to_numeric)
df['Accélération de 0 à 100 km/h (s) max'] = df['Accélération de 0 à 100 km/h (s) max'].apply(pd.to_numeric)

# Remplacer les valeurs manquantes dans la colonne max par celles de la colonne min
df['Accélération de 0 à 100 km/h (s) max'] = df['Accélération de 0 à 100 km/h (s) max'].combine_first(df['Accélération de 0 à 100 km/h (s) min'])

# Supprimer la colonne originale
df.drop('Accélération de 0 à 100 km', axis=1, inplace=True)

df

Unnamed: 0_level_0,Longueur (mm),Largeur (mm),Puissance de la batterie (kWh),Vitesse maximale (km/h),Autonomie (km),Poids (kg),Prix (euros) min,Prix (euros) max,Accélération de 0 à 100 km/h (s) min,Accélération de 0 à 100 km/h (s) max
Modèle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Volkswagen e-Up!,3595,1641,32,130,260,1100,20000.0,30000.0,9.9,9.9
Fiat 500e,3555,1627,24,150,200,1150,30000.0,,9.1,9.1
Citroën e-Méhari,3495,1660,30,110,200,1065,22000.0,,,
DS3 Crossback E-tense,4118,1791,50,150,430,1170,40000.0,,8.7,8.7
Dacia Spring,3715,1625,26-36,125,155-300,970,20000.0,,19.1,19.1
Honda e,3945,1755,35.5,145,220,1320,33500.0,,8.3,8.3
Nissan LEAF II,4480,1820,40,150,385,1590,32000.0,,7.9,7.9
Renault Zoé,4085,1730,52,140,395,1502,35000.0,,9.5,9.5
Opel Corsa-e,4050,1800,50,150,330,1365,29000.0,,7.6,7.6
Peugeot e-208,4055,1745,46,150,400,1455,33000.0,,8.1,8.1


## Nettoyage des autres colonnes

In [492]:
def split_and_replace(df, column_name, is_Int64=True):
    # Diviser la colonne en deux en utilisant le séparateur "-"
    new_columns = df[column_name].str.split('-', expand=True)

    # Renommer les nouvelles colonnes avec les suffixes "min" et "max"
    new_columns.columns = [f"{column_name} {suffix}" for suffix in ['min', 'max']]

    # Convertir les valeurs en numérique
    new_columns = new_columns.apply(pd.to_numeric)

    # Remplacer les valeurs nulles dans la colonne 'max' par les valeurs de la colonne 'min'
    new_columns[f"{column_name} max"] = new_columns[f"{column_name} max"].combine_first(new_columns[f"{column_name} min"])

    # Supprimer la colonne d'origine
    df = df.drop(column_name, axis=1)

    # Convertir les colonnes en types de données entiers optionnels
    if is_Int64:
        new_columns = new_columns.astype('Int64')

    # Concaténer les nouvelles colonnes avec le DataFrame d'origine
    df = pd.concat([df, new_columns], axis=1)

    return df

In [493]:
df = split_and_replace(df, 'Puissance de la batterie (kWh)', False)
df = split_and_replace(df, 'Vitesse maximale (km/h)')
df = split_and_replace(df, 'Autonomie (km)')
df = split_and_replace(df, 'Poids (kg)')
df

Unnamed: 0_level_0,Longueur (mm),Largeur (mm),Prix (euros) min,Prix (euros) max,Accélération de 0 à 100 km/h (s) min,Accélération de 0 à 100 km/h (s) max,Puissance de la batterie (kWh) min,Puissance de la batterie (kWh) max,Vitesse maximale (km/h) min,Vitesse maximale (km/h) max,Autonomie (km) min,Autonomie (km) max,Poids (kg) min,Poids (kg) max
Modèle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Volkswagen e-Up!,3595,1641,20000.0,30000.0,9.9,9.9,32.0,32.0,130.0,130.0,260.0,260.0,1100.0,1100.0
Fiat 500e,3555,1627,30000.0,,9.1,9.1,24.0,24.0,150.0,150.0,200.0,200.0,1150.0,1150.0
Citroën e-Méhari,3495,1660,22000.0,,,,30.0,30.0,110.0,110.0,200.0,200.0,1065.0,1065.0
DS3 Crossback E-tense,4118,1791,40000.0,,8.7,8.7,50.0,50.0,150.0,150.0,430.0,430.0,1170.0,1170.0
Dacia Spring,3715,1625,20000.0,,19.1,19.1,26.0,36.0,125.0,125.0,155.0,300.0,970.0,970.0
Honda e,3945,1755,33500.0,,8.3,8.3,35.5,35.5,145.0,145.0,220.0,220.0,1320.0,1320.0
Nissan LEAF II,4480,1820,32000.0,,7.9,7.9,40.0,40.0,150.0,150.0,385.0,385.0,1590.0,1590.0
Renault Zoé,4085,1730,35000.0,,9.5,9.5,52.0,52.0,140.0,140.0,395.0,395.0,1502.0,1502.0
Opel Corsa-e,4050,1800,29000.0,,7.6,7.6,50.0,50.0,150.0,150.0,330.0,330.0,1365.0,1365.0
Peugeot e-208,4055,1745,33000.0,,8.1,8.1,46.0,46.0,150.0,150.0,400.0,400.0,1455.0,1455.0


## Colonnes extraites

In [494]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 50 entries, Volkswagen e-Up! to HyundaiLafestaEV
Data columns (total 14 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   Longueur (mm)                         50 non-null     Int64  
 1   Largeur (mm)                          50 non-null     Int64  
 2   Prix (euros) min                      44 non-null     Int64  
 3   Prix (euros) max                      12 non-null     Int64  
 4   Accélération de 0 à 100 km/h (s) min  37 non-null     float64
 5   Accélération de 0 à 100 km/h (s) max  37 non-null     float64
 6   Puissance de la batterie (kWh) min    45 non-null     float64
 7   Puissance de la batterie (kWh) max    45 non-null     float64
 8   Vitesse maximale (km/h) min           42 non-null     Int64  
 9   Vitesse maximale (km/h) max           42 non-null     Int64  
 10  Autonomie (km) min                    44 non-null     Int64  
 1