# **ANALYSE & PRÉDICTION DE l'ORIGINE DES FORTUNES MONDIALES (2023)** 
### **BLOC 06 : DIRIGER UN PROJET DATA**

**Objectifs**
- Comprendre les facteurs déterminants qui séparent les entrepreneurs ("Self-Made") des héritiers parmi les 2 640 milliardaires mondiaux. 
- Construire un outil capable de prédire cette origine.

[Billionaires Statistics Dataset (2023) - Kaggle](https://www.kaggle.com/datasets/nelgiriyewithana/billionaires-statistics-dataset?resource=download)

---

### Importation des bibliothèques & Configuration

In [53]:
# Manipulation de données
import pandas as pd
import numpy as np

# Visualisation
import plotly.express as px
import plotly.subplots as sp

# Machine learning
from sklearn.linear_model import LinearRegression

# Configuration
import warnings
warnings.filterwarnings('ignore')
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

---

## **PARTIE 1 |  ANALYSE EXPLORATOIRE INITIALE ET TRAITEMENT DES DONNÉES**

### 1. Chargement et aperçu général

In [54]:
# Chargement du dataset
df_billionnaires = pd.read_csv(r'Billionaires Statistics Dataset.csv')
print(f"Taille originale du dataset : {df_billionnaires.shape}")

# Aperçu des premières lignes
df_billionnaires.head()

Taille originale du dataset : (2640, 35)


Unnamed: 0,rank,finalWorth,category,personName,age,country,city,source,industries,countryOfCitizenship,organization,selfMade,status,gender,birthDate,lastName,firstName,title,date,state,residenceStateRegion,birthYear,birthMonth,birthDay,cpi_country,cpi_change_country,gdp_country,gross_tertiary_education_enrollment,gross_primary_education_enrollment_country,life_expectancy_country,tax_revenue_country_country,total_tax_rate_country,population_country,latitude_country,longitude_country
0,1,211000,Fashion & Retail,Bernard Arnault & family,74.0,France,Paris,LVMH,Fashion & Retail,France,LVMH Moët Hennessy Louis Vuitton,False,U,M,3/5/1949 0:00,Arnault,Bernard,Chairman and CEO,4/4/2023 5:01,,,1949.0,3.0,5.0,110.05,1.1,"$2,715,518,274,227",65.6,102.5,82.5,24.2,60.7,67059887.0,46.227638,2.213749
1,2,180000,Automotive,Elon Musk,51.0,United States,Austin,"Tesla, SpaceX",Automotive,United States,Tesla,True,D,M,6/28/1971 0:00,Musk,Elon,CEO,4/4/2023 5:01,Texas,South,1971.0,6.0,28.0,117.24,7.5,"$21,427,700,000,000",88.2,101.8,78.5,9.6,36.6,328239523.0,37.09024,-95.712891
2,3,114000,Technology,Jeff Bezos,59.0,United States,Medina,Amazon,Technology,United States,Amazon,True,D,M,1/12/1964 0:00,Bezos,Jeff,Chairman and Founder,4/4/2023 5:01,Washington,West,1964.0,1.0,12.0,117.24,7.5,"$21,427,700,000,000",88.2,101.8,78.5,9.6,36.6,328239523.0,37.09024,-95.712891
3,4,107000,Technology,Larry Ellison,78.0,United States,Lanai,Oracle,Technology,United States,Oracle,True,U,M,8/17/1944 0:00,Ellison,Larry,CTO and Founder,4/4/2023 5:01,Hawaii,West,1944.0,8.0,17.0,117.24,7.5,"$21,427,700,000,000",88.2,101.8,78.5,9.6,36.6,328239523.0,37.09024,-95.712891
4,5,106000,Finance & Investments,Warren Buffett,92.0,United States,Omaha,Berkshire Hathaway,Finance & Investments,United States,Berkshire Hathaway Inc. (Cl A),True,D,M,8/30/1930 0:00,Buffett,Warren,CEO,4/4/2023 5:01,Nebraska,Midwest,1930.0,8.0,30.0,117.24,7.5,"$21,427,700,000,000",88.2,101.8,78.5,9.6,36.6,328239523.0,37.09024,-95.712891


In [55]:
# Informations générales
df_billionnaires.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2640 entries, 0 to 2639
Data columns (total 35 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   rank                                        2640 non-null   int64  
 1   finalWorth                                  2640 non-null   int64  
 2   category                                    2640 non-null   object 
 3   personName                                  2640 non-null   object 
 4   age                                         2575 non-null   float64
 5   country                                     2602 non-null   object 
 6   city                                        2568 non-null   object 
 7   source                                      2640 non-null   object 
 8   industries                                  2640 non-null   object 
 9   countryOfCitizenship                        2640 non-null   object 
 10  organization

In [56]:
# Statistiques basiques
df_billionnaires.describe(include='all')

Unnamed: 0,rank,finalWorth,category,personName,age,country,city,source,industries,countryOfCitizenship,organization,selfMade,status,gender,birthDate,lastName,firstName,title,date,state,residenceStateRegion,birthYear,birthMonth,birthDay,cpi_country,cpi_change_country,gdp_country,gross_tertiary_education_enrollment,gross_primary_education_enrollment_country,life_expectancy_country,tax_revenue_country_country,total_tax_rate_country,population_country,latitude_country,longitude_country
count,2640.0,2640.0,2640,2640,2575.0,2602,2568,2640,2640,2640,325,2640,2640,2640,2564,2640,2637,339,2640,753,747,2564.0,2564.0,2564.0,2456.0,2456.0,2476,2458.0,2459.0,2458.0,2457.0,2458.0,2476.0,2476.0,2476.0
unique,,,18,2638,,78,741,906,18,77,294,2,6,2,2060,1736,1770,97,2,45,5,,,,,,68,,,,,,,,
top,,,Finance & Investments,Wang Yanqing & family,,United States,New York,Real estate,Finance & Investments,United States,Meta Platforms,True,D,M,1/1/1965 0:00,Li,John,Investor,4/4/2023 5:01,California,West,,,,,,"$21,427,700,000,000",,,,,,,,
freq,,,372,2,,754,99,151,372,735,4,1812,1223,2303,19,44,40,44,2638,178,248,,,,,,754,,,,,,,,
mean,1289.159091,4623.787879,,,65.140194,,,,,,,,,,,,,,,,,1957.183307,5.74025,12.099844,127.755204,4.364169,,67.225671,102.85852,78.122823,12.546235,43.963344,510205300.0,34.903592,12.583156
std,739.693726,9834.240939,,,13.258098,,,,,,,,,,,,,,,,,13.282516,3.710085,9.918876,26.452951,3.623763,,21.343426,4.710977,3.730099,5.368625,12.145296,554244700.0,17.003497,86.762989
min,1.0,1000.0,,,18.0,,,,,,,,,,,,,,,,,1921.0,1.0,1.0,99.55,-1.9,,4.0,84.7,54.3,0.1,9.9,38019.0,-40.900557,-106.346771
25%,659.0,1500.0,,,56.0,,,,,,,,,,,,,,,,,1948.0,2.0,1.0,117.24,1.7,,50.6,100.2,77.0,9.6,36.6,66834400.0,35.86166,-95.712891
50%,1312.0,2300.0,,,65.0,,,,,,,,,,,,,,,,,1957.0,6.0,11.0,117.24,2.9,,65.6,101.8,78.5,9.6,41.2,328239500.0,37.09024,10.451526
75%,1905.0,4200.0,,,75.0,,,,,,,,,,,,,,,,,1966.0,9.0,21.0,125.08,7.5,,88.2,102.6,80.9,12.8,59.1,1366418000.0,40.463667,104.195397


In [57]:
# Colonnes avec des valeurs manquantes
missing = df_billionnaires.isnull().sum()
missing = missing[missing > 0]  
print(missing)

# Nombre total de valeurs manquantes dans le DataFrame
total_missing = df_billionnaires.isnull().sum().sum()
print("\nNombre total de valeurs manquantes :", total_missing)

age                                             65
country                                         38
city                                            72
organization                                  2315
birthDate                                       76
firstName                                        3
title                                         2301
state                                         1887
residenceStateRegion                          1893
birthYear                                       76
birthMonth                                      76
birthDay                                        76
cpi_country                                    184
cpi_change_country                             184
gdp_country                                    164
gross_tertiary_education_enrollment            182
gross_primary_education_enrollment_country     181
life_expectancy_country                        182
tax_revenue_country_country                    183
total_tax_rate_country         

### 2. Traitement des données (nettoyage, imputation, conversion des types, suppression...)

In [58]:
# Création d'une copie du DataFrame pour la manipulation
df = df_billionnaires.copy()

In [59]:
# Nettoyage de la colonne GDP (Data Cleaning) : suppression des symboles et conversion en float

df['gdp_country'] = df['gdp_country'].str.replace(r'[$,]', '', regex=True)
df['gdp_country'] = df['gdp_country'].astype(float)

In [60]:
# Imputation de la colonne "age" via la colonne "birthDate"

df['birthDate'] = pd.to_datetime(df['birthDate'], errors='coerce')
mask_missing_age = df['age'].isnull() & df['birthDate'].notnull()
df.loc[mask_missing_age, 'age'] = 2023 - df.loc[mask_missing_age, 'birthDate'].dt.year
print(f"Nombre d'âges imputés à partir de 'birthDate' : {mask_missing_age.sum()}")

Nombre d'âges imputés à partir de 'birthDate' : 1


In [61]:
# Imputation des 38 valeurs manquantes de 'country' à partir de 'countryOfCitizenship', car dans la grande majorité des cas les deux informations coïncident.
# Cette approche permet de préserver la logique des données et d’éviter une imputation arbitraire (par le mode) qui pourrait introduire du bruit ou biaiser la distribution.

similarity = (df['country'] == df['countryOfCitizenship']).mean()
print(f"Dans {similarity:.2%} des cas, le pays de résidence correspond au pays de citoyenneté, ce qui valide l'imputation par cohérence plutôt que par mode")

df['country'] = df['country'].fillna(df['countryOfCitizenship'])

Dans 88.03% des cas, le pays de résidence correspond au pays de citoyenneté, ce qui valide l'imputation par cohérence plutôt que par mode


In [62]:
# Réparation des colonnes macro-économiques et géographiques ("Group-wise fill")
# Pour chaque colonne, on remplit les NaN en utilisant la valeur présente dans les autres lignes du même pays

cols_to_fix = [
    'cpi_country', 'cpi_change_country', 'gdp_country', 
    'gross_tertiary_education_enrollment', 'gross_primary_education_enrollment_country',
    'life_expectancy_country', 'tax_revenue_country_country', 'total_tax_rate_country',
    'population_country', 'latitude_country', 'longitude_country'
]

missing_before = df[cols_to_fix].isnull().sum()

for col in cols_to_fix:
    df[col] = df[col].fillna(df.groupby('country')[col].transform('first'))

missing_after = df[cols_to_fix].isnull().sum()

imputed = missing_before - missing_after

# Vérification
print("Nombre de valeurs imputées :")
print(imputed)
print("-" * 50) 
print("Nombre de valeurs manquantes après imputation :")
print(df[cols_to_fix].isnull().sum())
print("-" * 50) 
pays_sans_gdp = df[df['gdp_country'].isnull()]['country'].unique()
print(f"Il reste {len(pays_sans_gdp)} pays sans données :")
print(list(pays_sans_gdp))

Nombre de valeurs imputées :
cpi_country                                   34
cpi_change_country                            34
gdp_country                                   34
gross_tertiary_education_enrollment           34
gross_primary_education_enrollment_country    34
life_expectancy_country                       34
tax_revenue_country_country                   34
total_tax_rate_country                        34
population_country                            34
latitude_country                              34
longitude_country                             34
dtype: int64
--------------------------------------------------
Nombre de valeurs manquantes après imputation :
cpi_country                                   150
cpi_change_country                            150
gdp_country                                   130
gross_tertiary_education_enrollment           148
gross_primary_education_enrollment_country    147
life_expectancy_country                       148
tax_revenue_country_

In [63]:
# Imputation de données pour combler les 3 oubliés majeurs (Ireland, Hong Kong et Taïwan)
# Sources (2021/2023): World Bank, OECD Data, Hong Kong Census and Statistics Department, Central Bank of Ireland / CSO Ireland, 
# PwC / World Bank Doing Business Reports et Directorate-General of Budget, Accounting and Statistics, Taiwan (DGBAS)

patch_final = {
    'Ireland': {
        'cpi_country': 108.1,
        'cpi_change_country': 7.8,
        'gdp_country': 529240000000.0,
        'gross_tertiary_education_enrollment': 76.6,
        'gross_primary_education_enrollment_country': 99.6,
        'tax_revenue_country_country': 16.8,
        'total_tax_rate_country': 26.5, 
        'population_country': 5033000,
        'life_expectancy_country': 80.2,
        'latitude_country': 53.1424, 
        'longitude_country': -7.6921,
        'total_tax_rate_country': 26.1 # Taux effectif moyen business
    },
    'Hong Kong': {
        'cpi_country': 104.6,
        'cpi_change_country': 1.9,
        'gdp_country': 360980000000.0,
        'gross_tertiary_education_enrollment': 97.4,
        'gross_primary_education_enrollment_country': 101.1,
        'tax_revenue_country_country': 14.1,
        'total_tax_rate_country': 22.5, 
        'population_country': 7413000,
        'life_expectancy_country': 85.0, 
        'latitude_country': 22.3193, 
        'longitude_country': 114.1694,
        'total_tax_rate_country': 22.8
    },
    'Taiwan': {
        'cpi_country': 107.5,
        'cpi_change_country': 3.0,
        'gdp_country': 760460000000.0,
        'gross_tertiary_education_enrollment': 84.0,
        'gross_primary_education_enrollment_country': 98.5,
        'tax_revenue_country_country': 12.5,
        'total_tax_rate_country': 34.0, 
        'population_country': 23570000,
        'life_expectancy_country': 80.9, 
        'latitude_country': 23.6978, 
        'longitude_country': 120.9605,
        'total_tax_rate_country': 34.0
    }
}

for country, data in patch_final.items():
    mask = df['country'] == country
    for col, value in data.items():
        df.loc[mask, col] = df.loc[mask, col].fillna(value)

print("Patch final appliqué (Irlande, HK, Taiwan).")
print(f"Valeurs manquantes dans le PIB après application du patch: {df['gdp_country'].isnull().sum()} (Paradis fiscaux/Micro-états).")

Patch final appliqué (Irlande, HK, Taiwan).
Valeurs manquantes dans le PIB après application du patch: 12 (Paradis fiscaux/Micro-états).


In [64]:
# Conversion object → category

cat_cols = df.select_dtypes(include='object').columns
df[cat_cols] = df[cat_cols].astype('category')

In [65]:
# Suppression des colonnes inutiles, redondantes, trop vides ou trop précises (Data Selection)

columns_to_drop = [
    'rank',
    'category',
    'personName',
    'city',
    'lastName',
    'firstName',  
    'source', 
    'organization',
    'status', 
    'title',
    'date', 
    'state',  
    'residenceStateRegion',
    'birthYear',
    'birthMonth',
    'birthDay',
    'birthDate',
    'latitude_country',
    'longitude_country' 
]

df = df.drop(columns=columns_to_drop)

### 3. Création de variables

In [66]:
# Création d'une colonne catégorielle "industry_group" à partir de "industries" et supression de la colonne "industries" ensuite
# Avantages : meilleurs graphes, encodage catégoriel plus stable, meilleures performances du ML (moins de sparsité, moins de bruit)

industry_mapping = {
    "Finance & Investments": "Finance",
    "Real Estate": "Finance",
    "Diversified": "Finance",

    "Technology": "Technology",
    "Telecom": "Technology",

    "Media & Entertainment": "Media",
    "Sports": "Media",

    "Fashion & Retail": "Retail",

    "Food & Beverage": "Consumer Goods",

    "Healthcare": "Healthcare",

    "Manufacturing": "Manufacturing",
    "Automotive": "Manufacturing",

    "Metals & Mining": "Industry",
    "Construction & Engineering": "Industry",
    "Logistics": "Industry",

    "Energy": "Energy",

    "Gambling & Casinos": "Services",
    "Service": "Services",
}

df['industry_group'] = df['industries'].map(industry_mapping).astype('category')

print(df['industry_group'].value_counts())

industry_group
Finance           752
Manufacturing     397
Technology        345
Retail            266
Consumer Goods    212
Healthcare        201
Industry          159
Media             130
Energy            100
Services           78
Name: count, dtype: int64


In [67]:
# Création de la colonne "continent"

continent_mapping = {
    # EUROPE (Ouest & Centrale)
    'France': 'Europe', 'Spain': 'Europe', 'Germany': 'Europe', 'Switzerland': 'Europe', 
    'Belgium': 'Europe', 'Austria': 'Europe', 'United Kingdom': 'Europe', 
    'Monaco': 'Europe', 'Czech Republic': 'Europe', 'Sweden': 'Europe', 'Italy': 'Europe', 
    'Norway': 'Europe', 'Denmark': 'Europe', 'Netherlands': 'Europe', 'Poland': 'Europe', 
    'Ukraine': 'Europe', 'Greece': 'Europe', 'Portugal': 'Europe', 'Latvia': 'Europe', 
    'Finland': 'Europe', 'Luxembourg': 'Europe', 'Ireland': 'Europe', 'Guernsey': 'Europe', 
    'Liechtenstein': 'Europe', 'Romania': 'Europe', 'Slovakia': 'Europe', 'Hungary': 'Europe', 
    'Andorra': 'Europe', 'Cyprus': 'Europe',
    
    # EURASIA
    'Russia': 'Eurasia', 
    'Turkey': 'Eurasia', 
    'Kazakhstan': 'Eurasia', 
    'Georgia': 'Eurasia', 
    'Armenia': 'Eurasia', 

    # NORTH AMERICA (incl. Central & Caribbean)
    'United States': 'North America', 'Mexico': 'North America', 'Canada': 'North America', 
    'Bahamas': 'North America', 'Cayman Islands': 'North America', 'Bermuda': 'North America', 
    'British Virgin Islands': 'North America', 'Panama': 'North America', 'Turks and Caicos Islands': 'North America',
    
    # ASIA
    'India': 'Asia', 'China': 'Asia', 'Hong Kong': 'Asia', 'Japan': 'Asia', 
    'Indonesia': 'Asia', 'United Arab Emirates': 'Asia', 'Uzbekistan': 'Asia', 
    'Singapore': 'Asia', 'Israel': 'Asia', 'Malaysia': 'Asia', 'South Korea': 'Asia', 
    'Philippines': 'Asia', 'Taiwan': 'Asia', 'Thailand': 'Asia', 'Vietnam': 'Asia', 
    'Cambodia': 'Asia', 'Lebanon': 'Asia', 'Oman': 'Asia', 'Qatar': 'Asia', 
    'Nepal': 'Asia', 'Bahrain': 'Asia', 
    
    # SOUTH AMERICA
    'Chile': 'South America', 'Brazil': 'South America', 'Colombia': 'South America', 
    'Argentina': 'South America', 'Uruguay': 'South America', 'Peru': 'South America',
    
    # OCEANIA
    'Australia': 'Oceania', 'New Zealand': 'Oceania',
    
    # AFRICA
    'Nigeria': 'Africa', 'South Africa': 'Africa', 'Egypt': 'Africa', 
    'Eswatini (Swaziland)': 'Africa', 'Algeria': 'Africa', 'Morocco': 'Africa', 
    'Tanzania': 'Africa'
}

df['continent'] = df['country'].map(continent_mapping).astype('category')

print(df['continent'].value_counts())

continent
Asia             1054
North America     821
Europe            530
Eurasia           113
South America      60
Oceania            45
Africa             17
Name: count, dtype: int64


In [68]:
# Valeurs manquantes après le traitement des données dans le DataFrame
total_missing_processed = df.isnull().sum().sum()

print(f"Pour rappel, nombre total de valeurs manquantes avant le traitement des données : {total_missing}")
print("Nombre total de valeurs manquantes après traitement :", total_missing_processed)

Pour rappel, nombre total de valeurs manquantes avant le traitement des données : 10812
Nombre total de valeurs manquantes après traitement : 302


In [69]:
# Sauvegarde du DataFrame nettoyé

df.to_csv('billionaires_cleaned.csv', index=False)
print("DataFrame nettoyé sauvegardé sous 'billionaires_cleaned.csv'")

DataFrame nettoyé sauvegardé sous 'billionaires_cleaned.csv'


---

## **PARTIE 2 | VISUALISATIONS SOCIO-ÉCONOMIQUES, GÉOGRAPHIQUES ET MACRO-ÉCONOMIQUES**

### DataFrame `df_viz` pour les visualisations

In [None]:
# Création d'une copie pour la visualisation
df_viz = df.copy()

# Création des bins d'âge
bins = [18, 40, 50, 60, 70, 80, 101]
labels = ["18-39", "40-49", "50-59", "60-69", "70-79", "80+"]
df_viz["Tranche d'âge"] = pd.cut(df_viz['age'], bins=bins, labels=labels, right=False)

# Renommage des colonnes pour la lisibilité
df_viz = df_viz.rename(columns={
    'age': 'Âge',
    'finalWorth': 'Fortune (M$)',
    'selfMade': 'Origine de la fortune',
    'country': 'Pays',
    'industry_group': "Secteur",
    'countryOfCitizenship': "Pays de citoyenneté",
    'selfMade': 'Origine de la fortune',
    'gender': 'Genre',
    "cpi_country": "Indice des prix à la consommation",
    "cpi_change_country": "Variation IPC",
    "gdp_country": "PIB",
    "gross_tertiary_education_enrollment": "Taux d'inscription dans l'enseignement supérieur",
    "gross_primary_education_enrollment_country": "Taux d'inscription dans le primaire",
    "life_expectancy_country": "Espérance de vie",
    "tax_revenue_country_country": "Recettes fiscales PIB",
    "total_tax_rate_country": "Taux d'imposition total",
    "population_country": "Population",
    'continent': 'Continent'
})

# Mapping pour la lisibilité
df_viz['Origine de la fortune'] = df_viz['Origine de la fortune'].map({True: 'Self-Made', False: 'Héritage'})
df_viz['Genre'] = df_viz['Genre'].map({'M': 'Homme', 'F': 'Femme'})

mapping_secteur = {
    "Finance": "Finance",
    "Manufacturing": "Industrie manufacturière",
    "Technology": "Technologie",
    "Retail": "Commerce de détail",
    "Consumer Goods": "Biens de consommation",
    "Healthcare": "Santé",
    "Industry": "Industrie",
    "Media": "Médias",
    "Energy": "Énergie",
    "Services": "Services"
}
df_viz["Secteur"] = df_viz["Secteur"].replace(mapping_secteur)

mapping_continent = {
    "Asia": "Asie",
    "North America": "Amérique du Nord",
    "Europe": "Europe",
    "Eurasia": "Eurasie",
    "South America": "Amérique du Sud",
    "Oceania": "Océanie",
    "Africa": "Afrique"
}
df_viz["Continent"] = df_viz["Continent"].replace(mapping_continent)

### 1. Profils des milliardaires (analyse démographique)

In [71]:
# Répartition des fortunes par genre

fig_gender = px.pie(
    df_viz,
    names="Genre",
    hole=0.4,
    color="Genre",
    color_discrete_map={"Homme": "#1f77b4", "Femme": "#e377c2"}
)
fig_gender.update_traces(textposition='inside', textinfo='percent+label')
fig_gender.update_layout(showlegend=False, title_text="<b>Proportion des genres parmis les milliardaires<b>", width=600, height=400)
fig_gender.show()


# Répartition globale de l'origine de la fortune + répartition selon le genre

# Donut global
fig_global = px.pie(
    df_viz,
    names="Origine de la fortune",
    hole=0.4,
    color="Origine de la fortune",
    color_discrete_map={"Self-Made": "#2ca02c", "Héritage": "#aae8ad"}
)

# Donut hommes
df_hommes = df_viz[df_viz["Genre"] == "Homme"]
fig_hommes = px.pie(
    df_hommes,
    names="Origine de la fortune",
    hole=0.4,
    color="Origine de la fortune",
    color_discrete_map={"Self-Made": "#1f77b4", "Héritage": "#aec7e8"}  # bleu foncé vs bleu pâle
)

# Donut femmes
df_femmes = df_viz[df_viz["Genre"] == "Femme"]
fig_femmes = px.pie(
    df_femmes,
    names="Origine de la fortune",
    hole=0.4,
    color="Origine de la fortune",
    color_discrete_map={"Self-Made": "#e377c2", "Héritage": "#f7b6d2"}  # rose foncé vs rose pâle
)

# Figure avec 3 colonnes
fig = sp.make_subplots(rows=1, cols=3, specs=[[{'type':'domain'}, {'type':'domain'}, {'type':'domain'}]],
                       subplot_titles=["Global", "Hommes", "Femmes"])

# Traces
fig.add_trace(fig_global.data[0], 1, 1)
fig.add_trace(fig_hommes.data[0], 1, 2)
fig.add_trace(fig_femmes.data[0], 1, 3)

# Mise en forme
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.update_layout(showlegend=False, title_text="<b>Proportion Self-Made vs Héritage (Global, Hommes, Femmes)<b>", width=1400)

fig.show()

In [73]:
# Distribution des milliardaires par âge et genre

counts = df_viz['Genre'].value_counts()
total = len(df_viz)

legend_labels = {
    Genre: f"{Genre} ({counts[Genre]} | {counts[Genre]/total:.1%})"
    for Genre in counts.index
}

fig_age = px.histogram(
    df_viz,
    x="Tranche d'âge",
    color="Genre",
    barmode="group",
    title="<b>Distribution des milliardaires par âge et genre<b>",
    labels={"count": "Nombre de milliardaires"},
    color_discrete_map={"Homme": "#1f77b4", "Femme": "#e377c2"},
    category_orders={"Tranche d'âge": labels}
)

fig_age.for_each_trace(lambda t: t.update(name=legend_labels[t.name]))
fig_age.update_layout(bargap=0.1)
fig_age.show()

median_age_h = df_viz[df_viz['Genre'] == 'Homme']['Âge'].median()
median_age_f = df_viz[df_viz['Genre'] == 'Femme']['Âge'].median()
print(f"Âge médian des milliardaires hommes : {median_age_h} ans")
print(f"Âge médian des milliardaires femmes : {median_age_f} ans")

Âge médian des milliardaires hommes : 65.0 ans
Âge médian des milliardaires femmes : 63.0 ans


In [21]:
# Origine de la fortune selon les groupes d’âge (Heatmap)

counts = df_viz.groupby(["Tranche d'âge", "Origine de la fortune"]).size().reset_index(name="count")

totals = counts.groupby("Tranche d'âge")["count"].transform("sum")

counts["pct"] = counts["count"] / totals * 100

fig_heatmap = px.density_heatmap(
    counts,
    x="Tranche d'âge",
    y="Origine de la fortune",
    z="pct",  # colorie par pourcentage
    text_auto=True,  # affiche les % dans les cases
    title="<b>Part des Self-Made vs Héritage selon les tranches d'âge<b>",
    labels={"pct": "%"},
    color_continuous_scale="Viridis",
    category_orders={"Tranche d'âge": labels}
)

fig_heatmap.show()

**Les plus jeunes milliardaires ont une proportion plus élevée d'héritiers comparé aux tranches d'âge plus élevées.** \
Les 50-59 représentent la tranche la plus "self-made".

In [22]:
# Répartition de la fortune selon le genre (filtrage pour ne pas écraser les graphes : 98% des moins fortunés)

seuil = df_viz["Fortune (M$)"].quantile(0.98)
df_viz_98pct = df_viz[df_viz["Fortune (M$)"] <= seuil]

fig_violin = px.violin(
    df_viz_98pct, y="Fortune (M$)", 
    x="Genre", 
    color="Genre",
    title="<b>Montant de la fortune selon le genre (sans les outliers)<b>", 
    color_discrete_map={"Homme": "#1f77b4", "Femme": "#e377c2"}, 
    box=True, points="all"
)
fig_violin.show()

La **médiane de fortune** est **identique chez les hommes et les femmes (≈ 2,3 milliards de dollars)**, ce qui peut surprendre. \
La **forme des distributions** est **relativement similaire**, mais la présence masculine est plus marquée dans toutes les tranches, ce qui reflète leur poids dans le dataset (87,2 %).

Si les écarts de dispersion ne sont pas flagrants dans les 98 % visualisés ici, les outliers invisibles sur ce graphique révèlent une asymétrie : 
- 1 seule femme atteint 80 Mds, 
- tandis que 10 hommes sont au-dessus et atteignent jusqu’à 211 Mds $.

Les **10 plus grandes fortunes** sont **exclusivement masculines** dans ce corpus.

In [23]:
# Répartition de la fortune selon l'origine de la fortune (filtrage : 98% des moins fortunés)

seuil = df_viz["Fortune (M$)"].quantile(0.98)
df_viz_98pct = df_viz[df_viz["Fortune (M$)"] <= seuil]

fig_violin = px.violin(
    df_viz_98pct, y="Fortune (M$)", 
    x="Origine de la fortune", 
    color="Origine de la fortune",
    title="<b>Montant de la fortune selon l'origine de la fortune (sans les outliers)<b>", 
    color_discrete_map={"Self-Made": "#2ca02c", "Héritage": "#aae8ad"}, 
    box=True, points="all"
)
fig_violin.show()

La **médiane de fortune** est **plus élevée chez les héritiers (2,6 Mds € contre 2,2 Mds € pour les self-made)**, ce qui suggère un avantage structurel dans l’accumulation patrimoniale.

Toutefois, **les plus grandes fortunes restent majoritairement self-made** : seuls 2 héritiers figurent parmi les 10 plus riches, mais le record absolu (211 Mds €) appartient à un héritier français !

### 2. Géographie de la richesse

In [24]:
# Distribition des milliardaire par pays (cartographie)

df_map = df_viz['Pays'].value_counts().reset_index()
df_map.columns = ['country', 'Nombre']

# Carte choroplèthe
fig_map = px.choropleth(
    df_map,
    locations="country",
    locationmode="country names",
    color="Nombre",
    color_continuous_scale="Tealgrn",
    projection="natural earth",
    title="<b>Nombre de milliardaires par pays<b>",
)

fig_map.update_layout(
    margin=dict(l=0, r=0, t=50, b=0),
    coloraxis_colorbar=dict(title="Nombre"),
    height=600
)

fig_map.show()

In [25]:
# Top 20 des pays avec le plus de milliardaires

df_map = df_viz['Pays'].value_counts().reset_index()
df_map.columns = ['Pays', 'Nombre de milliardaires']


fig_bar = px.bar(
    df_map.sort_values("Nombre de milliardaires", ascending=False).head(20),
    x="Pays",
    y="Nombre de milliardaires",
    title="<b>Top 20 des pays par nombre de milliardaires<b>",
    labels={"Nombre de milliardaires": "Nombre de milliardaires"},
    color="Nombre de milliardaires",
    color_continuous_scale="Tealgrn"
)
fig_bar.show()

In [26]:
# Proportion Self-Made / Héritage pour les pays accueillant au moins 30 milliardaires

# Comptage par pays et origine
df_counts = df_viz.groupby(["Pays", "Origine de la fortune"]).size().reset_index(name="count")

# Filtrer les pays avec au moins 30 milliardaires
df_totals = df_counts.groupby("Pays")["count"].sum().reset_index(name="total")
df_counts = df_counts.merge(df_totals, on="Pays")
df_counts = df_counts[df_counts["total"] >= 30]

# Calculer le % Self-Made (pour le tri)
df_counts["pct_selfmade"] = df_counts.apply(lambda row: (row["count"] / row["total"]) * 100 if row["Origine de la fortune"] == "Self-Made" else None, axis=1)
df_selfmade = df_counts.dropna(subset=["pct_selfmade"])

# Trier les pays par % Self-Made décroissant
ordered_pays = df_selfmade.sort_values("pct_selfmade", ascending=False)["Pays"]

# Filtrer les données pour les pays sélectionnés
df_filtered = df_viz[df_viz["Pays"].isin(ordered_pays)]

# Créer un DataFrame pour le graphique avec la colonne 'count'
df_plot = df_counts[df_counts["Pays"].isin(ordered_pays)]

#Histogramme
fig_pays = px.histogram(
    df_plot,
    x="Pays",
    y="count",
    color="Origine de la fortune",
    barnorm="percent",
    category_orders={"Pays": ordered_pays.tolist()},
    title="<b>Proportion Self-Made vs Héritage par pays (≥ 30 milliardaires)</b>",
    color_discrete_map={"Self-Made": "#2ca02c", "Héritage": "#aae8ad"},
    labels={"count": "Pourcentage", "Origine de la fortune": "Origine"},
    hover_data={"Pays": True, "Origine de la fortune": True, "count": True},
)

# Ajouter le nombre exact de milliardaires au-dessus et en-dessous de chaque barre selon l'origine de la fortune
for pays in ordered_pays:
    for origine in ["Self-Made", "Héritage"]:
        count = df_plot[(df_plot["Pays"] == pays) & (df_plot["Origine de la fortune"] == origine)]["count"].values
        if len(count) > 0:
            fig_pays.add_annotation(
                x=pays,
                y=100 if origine == "Self-Made" else 0,
                text=str(int(count[0])),
                showarrow=False,
                font=dict(size=10, color="black"),
                yshift=10 if origine == "Self-Made" else -20,
            )

# Ajouter la ligne de majorité
fig_pays.add_hline(y=50, line_dash="dot", annotation_text="Majorité", annotation_position="bottom right")

# Personnaliser le layout
fig_pays.update_layout(
    xaxis=dict(tickangle=-45),
    hovermode="x unified",
    barmode="relative",
)

fig_pays.show()

**Petit focus sur 3 pays**

***Le paradoxe allemand : pourquoi tant d'héritiers malgré la guerre ?***
- Le "Mittelstand" (capitalisme familial) : l'économie allemande repose sur un tissu dense de PME et d'entreprises de taille intermédiaire (Mittelstand) qui sont presque exclusivement familiales.\
les entreprises allemandes (comme BMW, Aldi, Lidl, ou les géants de la chimie/mécanique) restent la propriété verrouillée de quelques familles depuis des générations.
- La survie des actifs industriels : la Seconde Guerre mondiale n'a pas détruit les titres de propriété. L'inflation de l'entre-deux-guerres a ruiné les rentiers, mais a favorisé les industriels. \
Après la guerre, grâce au Plan Marshall et au "Miracle économique", ces mêmes familles ont pu reconstruire leurs empires sur les bases légales de ce qu'elles possédaient déjà. Il y a eu une continuité dynastique très forte.
- Une fiscalité ultra-favorable à l'héritage : les lois fiscales spécifiques permettent d'hériter d'une entreprise presque sans impôts si l'héritier s'engage à conserver l'entreprise et les emplois pendant un certain nombre d'années. Cela encourage massivement la transmission dynastique plutôt que la vente.

***Le cas russe : l'efficacité du "Grand Reset"***
- L'éradication de 1917 : les Bolchéviques n'ont pas seulement taxé la richesse, ils ont aboli la propriété privée et physiquement éliminé ou exilé l'aristocratie et la bourgeoisie.
- La naissance des Oligarques (années 1990) : à la chute de l'URSS, une poignée d'individus (souvent bien connectés au parti ou aux services secrets) a racheté pour une bouchée de pain les immenses actifs d'État (pétrole, gaz, nickel) lors des privatisations chaotiques.

***La Chine : la nouvelle économie**
- La "Grande Rupture" (l'ère Mao : 1949-1976) : l'arrivée de Mao Zedong et du Parti Communiste Chinois en 1949 a entraîné l'abolition de la propriété privée.
- Le "Redémarrage" (l'ère Deng Xiaoping : 1978) : Deng Xiaoping lance les réformes d'ouverture (Gaige Kaifang). Cela signifie que toute la fortune privée chinoise a moins de 50 ans.
- La fortune est plus souvent issue de la création de nouvelles industries (manufacture, immobilier, tech) ex nihilo, portées par une croissance économique fulgurante.

In [27]:
# Nombre de milliardaires par continent

df_continent = df_viz['Continent'].value_counts().reset_index()
df_continent.columns = ['Continent', 'Nombre de milliardaires']


fig_bar = px.bar(
    df_continent.sort_values("Nombre de milliardaires", ascending=False).head(20),
    x="Continent",
    y="Nombre de milliardaires",
    title="<b>Classement des continents par nombre de milliardaires<b>",
    labels={"Nombre de milliardaires": "Nombre de milliardaires"},
    color="Nombre de milliardaires",
    color_continuous_scale="Tealgrn"
)
fig_bar.show()


# Proportion Self-Made vs Héritage par continent (100% Stacked Bar)
continents_order = ["Asie", "Amérique du Nord", "Europe", "Eurasie", "Amérique du Sud", "Océanie", "Afrique"]

fig_continent = px.histogram(
    df_viz,
    x="Continent",
    color="Origine de la fortune",
    barnorm="percent",
    text_auto=".0f",
    title="<b>Proportion Self-Made vs Héritage par continent</b>",
    color_discrete_map={"Self-Made": "#2ca02c", "Héritage": "#aae8ad"},
    labels={"count": "Pourcentage", "Continent": "Continent"},
    category_orders={"Continent": continents_order},
)

fig_continent.add_hline(y=50, line_dash="dot", annotation_text="Majorité", annotation_position="bottom right")

In [28]:
# Top 15 des pays par richesse médiane (sur 78 pays)
# On ne garde que les pays avec au moins 20 milliardaires pour éviter les biais (petits pays avec 2-3 seul ultra-riche)

median_wealth = df_viz.groupby('Pays')['Fortune (M$)'].median().reset_index()
countries_with_enough_data = df_viz['Pays'].value_counts()
countries_with_enough_data = countries_with_enough_data[countries_with_enough_data >= 20].index
median_wealth = median_wealth[median_wealth['Pays'].isin(countries_with_enough_data)]

top15_median = median_wealth.sort_values('Fortune (M$)', ascending=False).head(15)

fig_median = px.bar(
    top15_median,
    x='Pays',
    y='Fortune (M$)',
    title="<b>Top 15 des pays ayant au moins 20 milliardaires | Richesse médiane par milliardaire (M$)</b>",
    text_auto='.0f',
    color='Fortune (M$)',
    color_continuous_scale='Tealgrn'
)
fig_median.show()

Le cas de la France s'explique avec la présence de l'outlier B. Arnault (1ère fortune mondiale en 2023).

### 3. Industrie & Macro-économie

In [29]:
# Répartition des milliardaires par secteur et origine de la fortune

# Comptage par secteur et origine
counts = df_viz.groupby(["Secteur", "Origine de la fortune"]).size().reset_index(name="count")

# Calcul du total par secteur
totals = counts.groupby("Secteur")["count"].sum().reset_index(name="total")
counts = counts.merge(totals, on="Secteur")

# Calcul du % Self-Made et Héritage
counts["pct"] = counts.apply(
    lambda row: (row["count"] / row["total"]) * 100,
    axis=1
)

# Préparation des labels pour les barres
counts["label"] = counts.apply(
    lambda row: f"{row['pct']:.0f}%" if row["Origine de la fortune"] == "Self-Made" else f"{row['pct']:.0f}%",
    axis=1
)

# Trier les secteurs par nombre total décroissant
ordered_sectors = totals.sort_values("total", ascending=False)["Secteur"].tolist()

# Palette de couleurs
color_map = {
    "Self-Made": "#2ca02c",   # vert soutenu
    "Héritage": "#aae8ad"     # vert clair
}

# Création du graphique
fig = px.bar(
    counts,
    x="Secteur",
    y="count",
    color="Origine de la fortune",
    category_orders={"Secteur": ordered_sectors},
    title="<b>Répartition des milliardaires par secteur d'activité et origine de la fortune</b>",
    color_discrete_map=color_map,
    labels={"count": "Nombre de milliardaires"},
    custom_data=[counts["count"], counts["label"]]  # Pour le hover et le texte
)

# Personnalisation du texte des barres (pourcentages)
fig.update_traces(
    texttemplate="%{customdata[1]}",  # Affiche le pourcentage
    textposition="inside",
    hovertemplate="<b>%{x}</b><br>" +
                  "Origine: %{color}<br>" +
                  "Nombre: %{customdata[0]}<br>" +
                  "Pourcentage: %{customdata[1]}<extra></extra>"
)

fig.update_layout(
    #xaxis=dict(tickangle=-45),
    legend_title_text="Origine de la fortune",
    #width=1000,
    height=600
)

fig.show()

**La Technologie domine en termes de self-made** (secteur le plus "méritocratique" avec un 92%).\
Les secteurs de la Santé et de l'Énergie ont également un taux élevé de self-made (73%).

Les secteurs traditionnels comme les **Biens de consommation** ou le **Commerce** montrent une plus forte présence d’**héritiers** (avec respectivement 49% et 40% d'héritiers).

In [30]:
# Âge vs Industrie

top_sectors = df_viz['Secteur'].value_counts().nlargest(10).index
df_box = df_viz[df_viz['Secteur'].isin(top_sectors)]

fig_box = px.box(
    df_box,
    x="Secteur",
    y="Âge",
    color="Secteur",
    title="<b>Distribution des âges par industrie</b>",
    points="outliers" # Affiche les points aberrants (les très jeunes prodiges)
)

fig_box.update_layout(showlegend=False) # Pas besoin de légende, l'axe X suffit
fig_box.show()

Le secteur de la Tech est le plus jeune (médiane à 57 ans). \
Les secteurs des Services et du Commerce de détail sont plus âgés (médiane à 69 ans). \
Mais on peut constater que quelques très très jeunes sont présents dans le Commerce de détail et les Médias.

In [None]:
# Corrélation macro | PIB vs Nombre de milliardaires (hors États-Unis/Chine)

# Préparation des données
df_eco = df_viz.groupby('Pays').agg({
    'Fortune (M$)': 'sum',
    'Pays': 'count',
    'PIB': 'first',
    'Continent': 'first'
}).rename(columns={'Pays': 'Nb_Milliardaires'}).reset_index()
df_eco = df_eco.dropna(subset=['PIB'])
df_eco["Fortune (Mds$)"] = df_eco["Fortune (M$)"].div(1000)

# Filtrer les pays extrêmes (outliers)
pays_extremes = ["États-Unis", "Chine"]
df_main = df_eco[~df_eco["Pays"].isin(pays_extremes)]
df_extremes = df_eco[df_eco["Pays"].isin(pays_extremes)]

# Calcul de la ligne de tendance (sans les pays extrêmes)
X = np.log10(df_main["PIB"].values).reshape(-1, 1)
y = df_main["Nb_Milliardaires"].values
model = LinearRegression().fit(X, y)
trend_line_x = np.linspace(min(df_main["PIB"]), max(df_main["PIB"]), 100)
trend_line_y = model.predict(np.log10(trend_line_x).reshape(-1, 1))

# Création du graphique
fig_eco = px.scatter(
    df_main,
    x="PIB",
    y="Nb_Milliardaires",
    size="Fortune (Mds$)", # Taille des bulles selon la fortune cumulée
    color="Continent",
    hover_name="Pays",
    log_x=True,
    title="<b>Corrélation | PIB vs Nombre de milliardaires (hors États-Unis/Chine)</b>",
    labels={
        "PIB": "PIB du Pays ($ - échelle log)",
        "Nb_Milliardaires": "Nombre de milliardaires (échelle linéaire)",
        "Fortune (Mds$)": "Fortune cumulée (Mds $)"
    },
    size_max=150,  # Taille maximale des bulles
    color_discrete_sequence=px.colors.qualitative.Plotly
)

# Ajout de la ligne de tendance
fig_eco.add_scatter(
    x=trend_line_x,
    y=trend_line_y,
    mode="lines",
    line=dict(color="red", dash="dash"),
    name="Tendance (hors extrêmes)"
)

# Ajout des pays extrêmes avec des annotations
for _, row in df_extremes.iterrows():
    fig_eco.add_scatter(
        x=[row["PIB"]],
        y=[row["Nb_Milliardaires"]],
        marker=dict(size=150, color="black"),
        name=row["Pays"]
    )
    fig_eco.add_annotation(
        x=row["PIB"],
        y=row["Nb_Milliardaires"],
        text=row["Pays"],
        showarrow=True,
        ax=20,
        ay=-30
    )

# Personnalisation des axes
fig_eco.update_layout(
    yaxis=dict(
        type="linear",
        range=[-20, 200]
    ),
    xaxis=dict(
        type="log",
        range=[np.log10(1e10), np.log10(1e13)]
    ),
    legend_title_text="Continent",
    hovermode="closest",
    margin=dict(l=20, r=20, t=80, b=20),
)

fig_eco.show()

Ce nuage de points explore la relation entre le PIB d’un pays (échelle logarithmique) et son nombre de milliardaires (échelle linéaire), en excluant les deux géants que sont les États-Unis et la Chine. \
Chaque bulle représente un pays, colorée selon son continent, et dimensionnée par la richesse totale cumulée.

***Échelle logarithmique du PIB*** \
Cela signifie que chaque graduation représente une multiplication par 10 (100B, 1T, 10T, etc.). \
Cette échelle permet de mieux visualiser les pays à PIB modeste tout en conservant les pays plus riches dans le même graphe.

***Exclusion des États-Unis et de la Chine*** \
Ces deux pays dominent largement en nombre de milliardaires et auraient écrasé la tendance globale. Leur retrait permet une lecture plus nuancée des autres pays.

**Corrélation positive** \
Plus le PIB est élevé, plus le nombre de milliardaires tend à augmenter. Cela semble logique : un plus grand marché génère plus d’opportunités de création de richesse.

**Hétérogénéité continentale**

**Concentration de la richesse** \
Certains pays ont des bulles très grandes, ce qui signifie que la richesse est concentrée entre les mains de quelques milliardaires.

**Diversité économique** \
Les pays européens et asiatiques montrent une grande diversité en termes de PIB et de nombre de milliardaires.

In [32]:
# Impact fiscal | Nombre moyen de milliardiaires par pays selon le taux d'imposition
# "Est-ce que les pays à forte imposition ont moins de milliardaires ?"

# Préparation des données agrégées par pays
df_macro = df_viz.groupby('Pays').agg({
    'Taux d\'imposition total': 'first',
    "Taux d'inscription dans l'enseignement supérieur": 'first',
    'Pays': 'count', # Compte le nombre de milliardaires
    'PIB': 'first'
}).rename(columns={'Pays': 'Nb_Milliardaires'}).reset_index()

# Création des catégories d'impôts (Bins)
# Faible: < 30% | Moyen: 30-45% | Élevé: > 45%
bins_tax = [0, 30, 45, 100]
labels_tax = ['Faible (<30%)', 'Moyen (30-45%)', 'Élevé (>45%)']
df_macro['Groupe_Fiscal'] = pd.cut(df_macro['Taux d\'imposition total'], bins=bins_tax, labels=labels_tax)

# On calcule la moyenne de milliardaires par type de pays
df_tax_simple = df_macro.groupby('Groupe_Fiscal').agg({
    'Nb_Milliardaires': 'mean', # Moyenne de milliardaires par pays de ce groupe
    'PIB': 'mean' # Juste pour info
}).reset_index()

fig_tax = px.bar(
    df_tax_simple,
    x='Groupe_Fiscal',
    y='Nb_Milliardaires',
    title="<b>Impact Fiscal | Moyenne de milliardaires selon le niveau d'impôt</b>",
    color='Groupe_Fiscal',
    color_discrete_sequence=px.colors.qualitative.Prism,
    text_auto='.0f', # Affiche 1 chiffre après la virgule
    labels={"Nb_Milliardaires": "Moyenne de milliardaires par pays", "Groupe_Fiscal": "Niveau d'imposition"}
)
fig_tax.update_layout(showlegend=False)
fig_tax.show()

# ==============================================================================
 
# Éducation | Nombre moyen de milliardiaires par pays selon le taux d'inscription dans l'enseignement supérieur
# "Le niveau d'éducation joue-t-il sur la création de richesse ?"

# Création des catégories d'éducation
# Faible: < 50% | Moyen: 50-80% | Élevé: > 80% (Pays très développés)
bins_edu = [0, 50, 80, 200]
labels_edu = ['Faible (<50%)', 'Intermédiaire (50-80%)', 'Élevé (>80%)']
df_macro['Groupe_Educ'] = pd.cut(df_macro["Taux d'inscription dans l'enseignement supérieur"], bins=bins_edu, labels=labels_edu)

# Agrégation
df_edu_simple = df_macro.groupby('Groupe_Educ').agg({
    'Nb_Milliardaires': 'mean'
}).reset_index()

fig_edu = px.bar(
    df_edu_simple,
    x='Groupe_Educ',
    y='Nb_Milliardaires',
    title="<b>Capital Humain | Moyenne de milliardaires selon le niveau d'éducation</b>",
    color='Groupe_Educ',
    color_discrete_sequence=px.colors.qualitative.Prism,
    text_auto='.0f',
    labels={"Nb_Milliardaires": "Moyenne de milliardaires par pays", "Groupe_Educ": "Taux d'inscription Supérieur"}
)
fig_edu.update_layout(showlegend=False)
fig_edu.show()

La pression fiscale ne semble pas être un facteur discriminant majeur dans la localisation des milliardaires. \
Une corrélation positive apparaît entre le niveau d'éducation et la concentration de grandes fortunes.