In [1]:
# Importation des bibliothèques nécessaires
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
import time

# Fonction pour scraper les données de population par pays
def scrape_population_data():
    """
    Scrapes population data by country from Worldometers and returns a DataFrame with the scraped data.
    """
    url = "https://www.worldometers.info/world-population/population-by-country/"
    start_time = time.time()

    # Envoi de la requête HTTP
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Trouver la table contenant les données sans utiliser d'ID
    tables = soup.find_all('table')  # Trouver toutes les tables sur la page
    table = tables[0]  # On suppose que la première table est celle avec les données de population
    
    # Vérification et extraction des données
    rows = table.find_all('tr')

    # Extraire les données ligne par ligne
    data = []
    for row in rows[1:]:  # Ignorer la première ligne (les en-têtes)
        cols = row.find_all('td')
        cols = [col.text.strip() for col in cols]
        data.append(cols)

    # Définir les noms de colonnes basés sur l'en-tête du tableau
    columns = [
        'Rank', 'Country', 'Population', 'Yearly Change', 'Net Change',
        'Density (P/Km²)', 'Land Area (Km²)', 'Migrants (net)', 'Fertility Rate',
        'Median Age', 'Urban Pop %', 'World Share'
    ]

    # Créer un DataFrame
    df = pd.DataFrame(data, columns=columns)

    # Nettoyage des données: gestion des valeurs 'N.A.' et autres valeurs non numériques
    def safe_convert_to_numeric(value):
        """Convertit la valeur en numérique, remplaçant les valeurs non numériques par NaN."""
        try:
            return pd.to_numeric(value.replace(',', '').replace('%', ''), errors='coerce')
        except AttributeError:
            return np.nan

    # Appliquer la fonction de conversion sûre aux colonnes numériques
    numeric_columns = ['Population', 'Net Change', 'Density (P/Km²)', 'Land Area (Km²)', 'Migrants (net)', 'Yearly Change', 'Urban Pop %', 'World Share']
    for col in numeric_columns:
        df[col] = df[col].apply(safe_convert_to_numeric)

    # Sauvegarder les données nettoyées dans un fichier CSV
    csv_path = 'population_by_country.csv'
    df.to_csv(csv_path, index=False)
    
    print(f"Scraping complet! Données sauvegardées dans {csv_path}. Temps pris: {time.time() - start_time:.2f} secondes.")
    return df

# Exécution de la fonction
df = scrape_population_data()

# Afficher un aperçu des premières lignes du DataFrame
df.head()


Scraping complet! Données sauvegardées dans population_by_country.csv. Temps pris: 1.14 secondes.


Unnamed: 0,Rank,Country,Population,Yearly Change,Net Change,Density (P/Km²),Land Area (Km²),Migrants (net),Fertility Rate,Median Age,Urban Pop %,World Share
0,1,India,1450935791,0.89,12866195,488,2973190,-630830,2.0,28,37.0,17.78
1,2,China,1419321278,-0.23,-3263655,151,9388211,-318992,1.0,40,66.0,17.39
2,3,United States,345426571,0.57,1949236,38,9147420,1286132,1.6,38,82.0,4.23
3,4,Indonesia,283487931,0.82,2297864,156,1811570,-38469,2.1,30,59.0,3.47
4,5,Pakistan,251269164,1.52,3764669,326,770880,-1401173,3.5,20,34.0,3.08


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Visualisation des 10 pays les plus peuplés
top_10 = df[['Country', 'Population']].sort_values(by='Population', ascending=False).head(10)

plt.figure(figsize=(10, 6))
sns.barplot(x='Population', y='Country', data=top_10, palette="viridis")
plt.title("Top 10 des pays les plus peuplés")
plt.xlabel("Population (en milliards)")
plt.ylabel("Pays")
plt.show()
