#  Étude des données de la Banque mondiale pour identifier des opportunités d'expansion pour l'EdTech

# Sommaire


Ce rapport présente une étude préliminaire des données de la Banque mondiale pour identifier des opportunités d'expansion pour l'EdTech. L'objectif de cette étude est de déterminer les pays avec un fort potentiel de clients pour les services d'EdTech et d'analyser l'évolution de ce potentiel pour chacun de ces pays. Pour atteindre cet objectif, nous avons effectué une pré-analyse des données pour valider leur qualité, décrire les informations contenues et sélectionner les indicateurs pertinents. Nous avons ensuite réalisé une analyse exploratoire pour déterminer les ordres de grandeur des indicateurs statistiques classiques pour les pays du monde. Cette analyse a permis d'identifier les pays qui présentent des opportunités pour l'expansion de l'EdTech.

## Table des Matières
*  [Préambule](#sec:Preambule)
*  [Pré-analyse des jeux de données](#sec:PreanalyseDesJeuxDeDonnees)
    * [EdStats Data](#subsec:EdStatsData)
    * [EdStats Country](#subsec:EdStatsCountry)
    * [EdStats Foot Note](#subsec:EdStatsFootNote)
    * [EdStats Country Series](#subsec:EdStatsCountrySeries)
    * [EdStats Series](#subsec:EdStatsSeries)
* [Jeux de données utilisés pour l'étude](#sec:JeuxDeDonneesUtilisesPourLetude)
    * [Suppression des groupes de catégories et de régions du jeu de données](#subsec:Suppressiondesgroupesdecategoriesetderegionsdujeudedonnees)
    * [Visualisation du PIB sur la carte du monde](#subsec:VisualisationduPIBsurlacartedumonde)
    * [Nettoyage des données en fonction de la population des pays](#subsec:Nettoyagedesdonneesenfonctiondelapopulationdespays)
    * [Nettoyage des données en fonction de la valeur du PIB des pays](#subsec:NettoyagedesdonneesenfonctiondelavaleurduPIBdespays)
    * [Nettoyage des données en fonction des utilisateurs d'Internet pour 100 personnes pour chaque pays](#subsec:NettoyagedesdonneesenfonctiondesutilisateursdInternetpour100personnespourchaquepays)
    * [Analyse des données avec plusieurs noms d'indicateurs considérés](#subsec:Analysedesdonneesavecplusieursnomsdindicateursconsideres)
* [Analyse pour répondre à la problématique](#sec:AnalysePourRepondreaLaProblematique)
* [Conclusion et perspectives](#sec:ConclusionEtPerspectives)

Avant d'entrer dans le vif du sujet, il est important de rappeler l'objectif de cette étude et de présenter les jeux de données utilisés. Ainsi, cette première section permettra de comprendre le contexte de l'étude et de situer les enjeux.

<a id='sec:Preambule'></a>
# Préambule 

L'expansion de l'EdTech est un enjeu majeur pour l'entreprise. Pour identifier les pays où l'EdTech peut s'étendre à ces régions, nous avons utilisé les données de la Banque mondiale. Ces données contiennent des informations sur l'accès à l'éducation, l'obtention de diplômes, les dépenses liées à l'éducation, etc. Nous avons supposé que ces indicateurs pourraient être utilisés pour identifier les pays avec un fort potentiel de clients pour les services d'EdTech.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import missingno as msno
import importlib.metadata
import difflib

In [None]:
import plotly.express as px
import plotly.figure_factory as ff
from plotly import __version__
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
import chart_studio.plotly as py
import cufflinks as cf 
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# For Notebooks
init_notebook_mode(connected=True)
# For offline use
cf.go_offline()
%matplotlib inline

Le module **_numpy_** est une bibliothèque Python qui fournit des outils pour travailler avec des tableaux multidimensionnels et des matrices. Il offre des fonctions pour effectuer des opérations mathématiques avancées sur les données, telles que les statistiques, les fonctions trigonométriques et algébriques, et la manipulation de données. Nous utiliserons ce module pour effectuer des calculs mathématiques sur les données de la Banque mondiale.

Le module **_pandas_** est un outil de manipulation de données très puissant en Python. Il permet de lire des données structurées depuis des fichiers CSV, Excel ou SQL, et de les manipuler pour effectuer des analyses exploratoires et des calculs statistiques. Dans ce projet, nous utiliserons ce module pour charger les données de la Banque mondiale et les mettre en forme pour pouvoir les analyser.

Le module **_matplotlib_** est un outil de visualisation de données en Python. Il permet de créer des graphiques et des diagrammes à partir des données pour faciliter la compréhension et la communication des résultats. Nous utiliserons ce module pour créer des graphiques pour illustrer nos analyses.

Le module **_seaborn_** est une bibliothèque de visualisation de données basée sur matplotlib. Il permet de créer des graphiques esthétiques et informatifs avec un code plus simple et moins de paramètres que matplotlib. Nous utiliserons ce module pour créer des graphiques pour illustrer nos analyses.

**_Plotly_** est une bibliothèque de visualisation de données interactive et open-source. Elle permet de créer des graphiques interactifs pour des analyses exploratoires et des présentations visuelles. Elle offre également la possibilité de générer des graphiques en HTML pour une visualisation en ligne. Plotly est utilisé pour la création de graphiques en 2D et 3D, de cartes, de sous-plots et de visualisations animées.

Le module **_missingno_** est une bibliothèque de visualisation de données pour les données manquantes. Il permet de visualiser les données manquantes dans un ensemble de données en utilisant des graphiques tels que les matrices de corrélation, les histogrammes, les cartes thermiques et les dendrogrammes. Nous utiliserons ce module pour identifier les données manquantes dans le jeu de données de la Banque mondiale et pour déterminer comment les traiter.



Ce code affiche les versions de Python et des bibliothèques utilisées dans le projet, ainsi que la version de la bibliothèque Matplotlib, afin d'assurer la compatibilité et de s'assurer que le code fonctionnera correctement.

In [None]:
!python --version

# Version des librairies utilisées
print('\n'.join(f'{m.__name__} - {m.__version__}' 
                for m in globals().values() 
                if getattr(m, '__version__', None)))

print("matplotlib - ", importlib.metadata.version('matplotlib'))

<a id='sec:PreanalyseDesJeuxDeDonnees'></a>
# Pré-analyse des jeux de données

Nous avons commencé par valider la qualité du jeu de données de la Banque mondiale. Nous avons vérifié s'il comportait beaucoup de données manquantes, dupliquées, ou si les données étaient cohérentes entre elles. Nous avons également décrit les informations contenues dans le jeu de données, notamment le nombre de colonnes et le nombre de lignes.

<a id='subsec:EdStatsData'></a>
## EdStats Data

In [None]:
df = pd.read_csv('EdStatsData.csv')

In [None]:
display(df.head(5))

In [None]:
#Avec la fonction 'info()', nous pouvons voir combien de données 
#non vides chaque colonne contient et quel type de données elle contient.
df.info()

Il s'agit d'un DataFrame pandas qui contient 70 colonnes et 886 930 lignes. Les colonnes représentent différentes informations, telles que le nom du pays, le code du pays, le nom de l'indicateur et le code de l'indicateur. Les colonnes de la 4ème à la 68ème représentent les années de 1970 à 2100, avec les valeurs de l'indicateur pour chaque année et chaque pays. Certaines années ont des valeurs manquantes car toutes les données ne sont pas disponibles pour toutes les années. La dernière colonne est inutile et peut être supprimée. Le DataFrame utilise 473,7 Mo de mémoire.

In [None]:
df.pop(df.columns[-1])
#La commande "df.pop(df.columns[-1])" supprime la dernière colonne du dataframe "df".
df.info()

Les premières et troisièmes colonnes définissent le pays et l'indicateur, et les deuxième et quatrième colonnes conservent leurs abréviations. Les colonnes restantes ont répertorié les années dans une série séquentielle de 1970 à 2017 et il y a des colonnes de données tous les 5 ans de 2020 à 2100 après 2017.

Vous verrez maintenant les valeurs répétées sous le pays et l'indicator la colonne de données.

In [None]:
df['Country Name'].nunique()

In [None]:
df['Country Name'].value_counts()

In [None]:
df['Indicator Name'].nunique()

In [None]:
df['Indicator Name'].value_counts()

Après ces commandes, on peut remarquer que :

* La colonne 'Country Name' contient 242 noms de régions et de pays. Ces noms sont utilisés pour identifier les régions et les pays dans les données utilisées pour l'analyse. La liste est utilisée pour filtrer les données et ne conserver que celles qui sont pertinentes pour l'étude.
* La colonne 'Indicator Name' contient 3665 noms d'indicateurs différents et que chaque indicateur a 242 entrées (correspondant à différentes années pour chaque pays).

Ce code calcule le nombre de données non nulles pour chaque colonne du dataframe df à partir de la 4ème colonne, qui sont les années. Ensuite, il trace un graphique à barres représentant la longueur des données non vides pour chaque année. Le titre du graphique est "Longueur des données pour chaque colonne des années".

In [None]:
notempty_values = np.zeros(len(df.columns))
for i in range(len(df.columns)):
    column = df.columns[i]
    notempty_values[i] = df[column].notnull().sum()

In [None]:
fig = px.bar(x=df.columns[4:], y =notempty_values[4:])
fig.update_layout(
    title="Longueur des données pour chaque colonne des années",
    xaxis_title="Années",
    yaxis_title="Longueur des données non vides",
    font=dict(
        family="Courier New, monospace",
        size=18,
        color="Black"
    )
)

fig.show()

In [None]:
x_valueManque = df.isnull().sum().sum()
print("Le nombre total de valeurs manquantes dans le jeu de données df est de:",x_valueManque)

In [None]:
# pd.set_option('display.max_rows', 70)
# display(df.notnull().sum())
df.columns[4:51]

In [None]:
pd.set_option('display.max_colwidth', None)

Table_Indi1 = pd.pivot_table(df, values=df.columns[4:51], index=['Indicator Name']
               ,aggfunc=lambda x: len(x.dropna())/len(x)).sort_values(by='2010',ascending=False)[:20]

Ce code calcule la proportion de valeurs non-nulles pour chaque indicateur dans les années 1990 à 2016. Pour cela, il utilise la fonction pivot_table de pandas en prenant les valeurs de la 4ème colonne jusqu'à la 51ème colonne (les années 1990 à 2016), en indexant par le nom de l'indicateur, et en utilisant une fonction personnalisée pour le calcul de la proportion. Ensuite, il trie les résultats par ordre décroissant de la proportion de valeurs non-nulles en 2010 et sélectionne les 20 premiers indicateurs.

En d'autres termes, ce code permet de déterminer les indicateurs les plus fiables en fonction du pourcentage de données manquantes sur une période de temps donnée.

In [None]:
sns.heatmap(Table_Indi1)

La commande "sns.heatmap(Table_Indi1)" permet de créer une heatmap (carte de chaleur) en utilisant la bibliothèque Seaborn de Python. La heatmap affiche les 20 indicateurs les plus remplis dans la colonne "2010" du dataframe. Les valeurs sont normalisées et représentées par des couleurs allant du noir fonce pour les valeurs les plus faibles au rose clair pour les valeurs les plus élevées. Cette visualisation permet d'identifier rapidement les indicateurs les plus complets en termes de données pour une année donnée, ce qui peut être utile pour une analyse ultérieure.

In [None]:
Table_Indi = pd.pivot_table(df, values=df.columns[4:], index=['Indicator Name'])

Ce code définit une fonction appelée find_full_index qui prend en entrée un dataframe et une liste de noms de colonnes. La fonction renvoie l'index des lignes dans le dataframe qui ont des valeurs non-nulles pour au moins une des colonnes spécifiées.

Ensuite, le code sélectionne un sous-ensemble de colonnes à partir de l'indice 48 jusqu'à la fin du dataframe Table_Indi et stocke les noms de ces colonnes dans la variable columns. En utilisant la fonction find_full_index avec ce sous-ensemble de colonnes, le code détermine quelles sont les lignes du dataframe qui ont des valeurs non-nulles pour ces colonnes. Les noms de ces lignes sont stockés dans la variable full_index.

En fin de compte, cela peut être utile pour identifier les indicateurs pour lesquels il existe des données complètes pour les années sélectionnées.

In [None]:
def find_full_index(df, columns):
    full_index = df[df[columns].notnull().any(axis=1)].index
    return full_index

columns = Table_Indi.columns[48:]
print(columns)
full_index = find_full_index(Table_Indi, columns)
print("Full data for index:", full_index)

Nous avons créé une fonction pour trouver les indices (indicateurs) ayant des données complètes pour les années futures. Les années sélectionnées sont 2020 à 2100. Il convient de noter que ces années sont des années futures et que les données présentées sont donc des projections. Cela explique pourquoi ces colonnes sont pour la plupart vides pour le reste des indicateurs, car ils ne concernent que les projections futures. La sortie de cette fonction nous donne l'indice des indicateurs qui ont des projections pour les années sélectionnées.

Cette fonction prend en entrée une table de données et une liste de colonnes à rechercher.
Elle renvoie les index de lignes où toutes les colonnes de la liste sont remplies pour l'année 2017.

In [None]:
#Cette fonction prend en entrée une table de données et une liste de colonnes à rechercher.
#Elle renvoie les index de lignes où toutes les colonnes de la liste sont remplies pour l'année 2017.
find_full_index(Table_Indi,['2017'])


In [None]:
Table_Pay1 = pd.pivot_table(df, values=df.columns[4:51], index=['Country Name'],
                           aggfunc=lambda x: len(x.dropna())/len(x)).sort_values(by='2010', ascending=True)[:20]

Cette fonction trace une heatmap en utilisant la table de données Table_Pay1 créée précédemment.

In [None]:
sns.heatmap(Table_Pay1)

En examinant la heatmap, on remarque que les pays avec le moins de données sont des petits pays insulaires. Comme ces informations sont peu importantes pour l'extension de l'entreprise EdTech, nous pouvons supprimer ces groupes de noms de pays pour pouvoir traiter le reste des données plus efficacement.

In [None]:
indicators = ['Population, ages 0-14, total', 'GDP, PPP (constant 2011 international $)',\
              'Internet users (per 100 people)','Population, total']

df_filtered = df[df['Indicator Name'].isin(indicators)].set_index('Country Name')\
                    .loc[:,['Indicator Name'] + list(map(str, range(1990, 2017)))]

df_filtered =df_filtered.reset_index()

Ces codes filtrent les données du dataframe 'df' pour sélectionner les indicateurs pertinents pour notre projet EdTech axé sur l'éducation en ligne pour les jeunes étudiants de niveau collégial et secondaire. Les indicateurs sélectionnés sont 'Population, âges 0-14, total', 'PIB, PPA (dollars internationaux constants de 2011)' et 'Utilisateurs d'Internet (pour 100 personnes)'.

En résumé, ces codes permettent de sélectionner les indicateurs pertinents pour notre projet, ainsi que les années correspondantes, pour une analyse ultérieure des données

In [None]:
msno.matrix(df_filtered)

<a id='subsec:EdStatsCountry'></a>
## EdStats Country


Après avoir analysé les données EdStats, nous nous tournons maintenant vers les informations de chaque pays. Le jeu de données EdStats Country contient des informations sur les différents pays comme la région, le groupe de revenus, la population, etc. Nous allons donc explorer ces informations pour avoir une vue d'ensemble sur les différents pays du monde.

Chargement des données des informations pays

In [None]:
df_c = pd.read_csv('EdStatsCountry.csv')

In [None]:
display(df_c.head(10))

Ce jeu de données contient des informations sur les pays du monde, notamment leur code pays, leur nom, leur région, leur niveau de revenu, leur monnaie, ainsi que d'autres indicateurs socio-économiques tels que la population, les données sur les ménages et les données sur l'agriculture.



In [None]:
df_c.info()

* En regardant le DataFrame, on peut constater qu'il y a plusieurs colonnes qui ont des valeurs manquantes. Certaines colonnes n'ont que très peu de données disponibles, ce qui peut compliquer l'analyse. Par exemple, les colonnes "National accounts reference year", "Other groups", "Alternative conversion factor" et "Vital registration complete" ont très peu de données disponibles.

* Cela dit, il est toujours possible d'obtenir des informations utiles à partir de ces données malgré leur manque de complétude. En examinant les colonnes qui ont des données disponibles, on pourrait peut-être identifier des indices intéressants. Par exemple, les colonnes "Region" et "Income Group" pourraient fournir des informations sur la répartition géographique et économique des pays. De même, les colonnes "Latest population census" et "Latest household survey" pourraient fournir des informations sur la taille de la population et les conditions socio-économiques dans les différents pays.

In [None]:
df_c = df_c.drop(df_c.columns[-1], axis=1)


Nous commençons par visualiser les données manquantes à l'aide de la bibliothèque Missigno.

In [None]:
msno.matrix(df_c)


La visualisation ci-dessus montre la répartition des valeurs manquantes dans les colonnes du jeu de données. Nous pouvons voir que les colonnes "Other groups", "Alternative conversion factor", "Vital registration complete", "Latest industrial data" et "Latest household survey" ont une forte proportion de valeurs manquantes.

In [None]:
msno.bar(df_c)

Cela nous donnera un graphique à barres montrant le nombre de valeurs manquantes dans chaque colonne.

Ensuite, nous pouvons supprimer les colonnes qui ont trop de valeurs manquantes pour être utiles :

In [None]:
df_c.drop(['Special Notes', 'Other groups', 'Alternative conversion factor', 'Vital registration complete',\
           'National accounts reference year']
          , axis=1, inplace=True)

In [None]:
msno.bar(df_c)

<a id='subsec:EdStatsFootNote)'></a>
## EdStats Foot Note

In [None]:
df_f=pd.read_csv('EdStatsFootNote.csv')

In [None]:
df_f = df_f.drop(columns=['Unnamed: 4'])


In [None]:
display(df_f.head(5))

In [None]:
df_f.info()

In [None]:
display(df_f.head(60))

Cet ensemble de données contient des informations sur divers indicateurs économiques, sociaux et environnementaux pour les pays du monde entier. Chaque indicateur est mesuré sur plusieurs années et pour chaque pays, et les données sont collectées auprès de diverses sources telles que la Banque mondiale et les Nations unies. Les données peuvent être utilisées pour étudier les tendances et les variations des indicateurs à travers le temps et l'espace, ainsi que pour analyser les relations entre les différents indicateurs et leur impact sur le développement des pays.

<a id='subsec:EdStatsCountrySeries'></a>
## EdStats Country Series

In [None]:
df_cs = pd.read_csv('EdStatsCountry-Series.csv')

In [None]:
df_cs.info()

In [None]:
df_cs.pop(df_cs.columns[-1])
display(df_cs.head(60))

Les données semblent être liées aux estimations démographiques et économiques mondiales basées sur les données de diverses sources telles que les Nations Unies, l'Eurostat et d'autres organismes statistiques.

In [None]:
df_cs['CountryCode'].nunique()

<a id='subsec:EdStatsSeries'></a>
## EdStats Series

In [None]:
df_s = pd.read_csv('EdStatsSeries.csv')

In [None]:
df_s.info()

In [None]:
df_s.head()

Ce DataFrame contient 3665 lignes et 21 colonnes. Les colonnes comprennent des informations telles que le code de la série, le sujet, le nom et la définition de l'indicateur, la périodicité, la source des données, etc. Ce DataFrame contient des données sur des indicateurs d'éducation provenant de diverses sources. Cependant, il y a plusieurs colonnes dans lesquelles les données manquent. Par exemple, la colonne "Unit of measure" ne contient aucune donnée, et les colonnes "Notes from original source", "Other web links", "Related indicators" et "License Type" sont complètement vides. En outre, il y a peu de données dans les colonnes "Periodicity", "Base Period", "Other notes", "Aggregation method", "Limitations and exceptions", "Statistical concept and methodology" et "Development relevance".

In [None]:
#Affiche un diagramme à barres qui montre la proportion de valeurs manquantes
#dans chaque colonne du dataframe df_s.
msno.bar(df_s)

La boucle for parcourt toutes les colonnes du dataframe et supprime les colonnes qui ont plus de la moitié de leurs données manquantes.

In [None]:
# Boucle sur toutes les colonnes
for col in df_s.columns:
    # Vérifier si la colonne a des données manquantes
    if df_s[col].isnull().sum() > 0:
        # Vérifier si la moitié des données sont manquantes
        if df_s[col].isnull().sum() > (len(df_s[col]) / 2):
            # Supprimer la colonne
            df_s.drop(col, axis=1, inplace=True)

# Afficher les informations sur les colonnes après la suppression
print(df_s.info())

msno.matrix(df_s) affiche un diagramme de matrice qui montre la répartition des données manquantes dans chaque colonne du dataframe df_s.

In [None]:
msno.matrix(df_s)

In [None]:
display(df_s.head())

In [None]:
if (df_s['Short definition'] != df_s['Long definition']).any():
#vérifie si les colonnes "Short definition" et "Long definition" ont des différences de contenu entre elles.
    print('There is a difference between the two columns')
else:
    print('The two columns are identical')

In [None]:
#for index, row in df_s.iterrows(): boucle à travers les lignes du dataframe df_s et compare le contenu de la colonne
#"Short definition" avec celui de la colonne "Long definition". 
#Si les deux colonnes ne correspondent pas, la fonction difflib est utilisée pour afficher les différences.
for index, row in df_s.iterrows():
    text1 = row['Short definition']
    text2 = row['Long definition']
    if isinstance(text1, float):
        text1 = str(text1)
    if isinstance(text2, float):
        text2 = str(text2)
    print(f"Differences in row {index}:")
    for line in difflib.unified_diff(text1.splitlines(), text2.splitlines()):
        print(line)

In [None]:
df_s['Match'] = (df_s['Short definition'] == df_s['Long definition'])
#crée une nouvelle colonne dans le dataframe df_s qui vérifie si les valeurs
#dans les colonnes "Short definition" et "Long definition" correspondent.
# Create the bar plot
counts = df_s['Match'].value_counts()

#Le code suivant crée un diagramme à barres 
#qui montre la proportion de valeurs "True" et "False" dans la colonne "Match"
plt.bar(counts.index.astype(str), counts.values)

plt.xlabel('Values')
plt.ylabel('Count')
plt.title('Boolean Column Plot')
plt.show()

In [None]:
#La colonne "Short definition" est ensuite supprimée du dataframe df_s.
df_s.drop('Short definition',axis=1, inplace=True)

In [None]:
display(df_s['Topic'].unique())


In [None]:
df_s['Topic'].nunique()

La colonne 'Topic' contient les indexes de catégories pour les 3665 indicateurs utilisés dans le premier jeu de données. Ces catégories peuvent être utilisées pour catégoriser les indicateurs selon les noms de thèmes sélectionnés. Il y a 37 catégories uniques au total.

<a id='sec:JeuxDeDonneesUtilisesPourLetude'></a>
## Jeux de données utilisés pour l'étude

J'ai choisi le premier jeu de données "EdStats Data" car il fournit des informations plus détaillées sur chaque indicateur pour plusieurs années pour chaque pays. Les autres jeux de données contiennent principalement des informations supplémentaires telles que des notes de bas de page et des descriptions liées au contexte du premier jeu de données principal. Par conséquent, il n'est pas vraiment nécessaire de les utiliser pour évaluer le potentiel de pays et de clients pour la stratégie de l'entreprise EdTech.

<a id='subsec:Suppressiondesgroupesdecategoriesetderegionsdujeudedonnees'></a>
### Suppression des groupes de catégories et de régions du jeu de données

L'objectif de cette étape était de nettoyer la colonne 'Country Name' en supprimant les noms de catégories et de régions. J'ai utilisé une autre source de données pour créer un nouveau DataFrame avec les noms de pays restants, afin de garantir la précision de nos analyses et d'exclure les informations pouvant biaiser les résultats.

In [None]:
# Trouver les codes de pays qui ne sont pas dans df_cs

Diff_Country = list(set(df['Country Code'].unique()) - set(df_cs['CountryCode'].unique()))

In [None]:
# Fonction pour trouver le nom du pays à partir de son code

def findlong(a):
    return df[df['Country Code']==a]['Country Name'].unique()

In [None]:
# Récupération de tous les noms de pays pour chaque code de pays qui ne figure pas dans df_cs

CategoryCountry = []
for i in range(len(Diff_Country)):
    CategoryCountry.extend(findlong(Diff_Country[i]))

In [None]:
display(CategoryCountry)

In [None]:
# Liste de pays à supprimer de la liste de catégories

remove_list =['Curacao', 'Nauru', 'St. Martin (French part)','Sint Maarten (Dutch part)',
              'British Virgin Islands', 'South Sudan']
# Suppression des pays de la liste de catégories

CategoryCountry= [x for x in CategoryCountry if x not in remove_list]


In [None]:
display(CategoryCountry)

In [None]:
# Filtrer df pour inclure uniquement les pays de la liste de catégories
df_category = df_filtered[df_filtered['Country Name'].isin(CategoryCountry)]
# Filtrer df_rest pour exclure les pays de la liste de catégories
df_filtered = df_filtered[~df_filtered['Country Name'].isin(CategoryCountry)]
    

In [None]:
# Nombre de pays uniques dans la colonne 'Country Name' de df_filtered après la suppression
# des pays de la liste de catégories
df_filtered['Country Name'].nunique()

<a id='subsec:VisualisationduPIBsurlacartedumonde'></a>
### Visualisation du PIB sur la carte du monde

Ce code trace une carte choroplèthe représentant le PIB en dollars américains pour chaque pays en 2010. La carte utilise une échelle de couleurs pour représenter le PIB, allant des couleurs les plus claires pour les pays avec les PIB les plus bas aux couleurs les plus foncées pour les pays avec les PIB les plus élevés. La carte est projetée avec une projection équirectangulaire.

In [None]:
dataPlot = dict(
            type = 'choropleth',
            colorscale = 'Viridis',
            reversescale = True,
            locations = df_filtered['Country Name'].unique().tolist(),
            locationmode = "country names",
            z = df_filtered[df_filtered['Indicator Name']=='GDP, PPP (constant 2011 international $)']['2010'],
            text = df_filtered['Country Name'].unique().tolist(),
            marker = dict(line = dict(color = 'rgb(255,255,255)',width = 1)),
            colorbar = {'title' : 'GDP US'},
      ) 

In [None]:
layout = dict(
    title = '2010 Global GDP',
    geo = dict(
        showframe = False,
        projection={'type':'equirectangular'}
    )
)

In [None]:
choromap = go.Figure(data = [dataPlot],layout = layout)
iplot(choromap)

<a id='subsec:Nettoyagedesdonneesenfonctiondelapopulationdespays'></a>
### Nettoyage des données en fonction de la population des pays

Cette analyse a pour but de sélectionner les 50 pays les moins peuplés en 2010 et de les comparer avec les autres pays en termes de population. L'année 2010 a été choisie car elle contient le plus grand nombre de données et donne des résultats plus précis par rapport aux autres années.

In [None]:
# Sélection des données de population totale
df_population = df_filtered[df_filtered['Indicator Name']=='Population, total']

In [None]:
# Sélection des données de 2010

df_2010 = df_population[['Country Name', '2010']]


In [None]:
# Somme des données de population pour chaque pays en 2010

df_grouped2010 = df_2010.groupby('Country Name').sum()


In [None]:
# Sélection des 50 pays les moins peuplés en 2010

small_50_countries = df_grouped2010.sort_values(by='2010', ascending=True).head(50)


In [None]:
# Affichage d'un graphique scatter représentant la population de ces 50 pays en 2010

small_50_countries.iplot(kind='scatter')

Enfin, j'ai créé un nouveau dataframe excluant ces 50 pays pour une utilisation ultérieure.

J'ai supprimé les pays les moins peuplés de mon analyse en suivant la stratégie du projet EdStat, qui vise à se concentrer sur les pays les plus peuplés et les plus importants en termes de développement économique et social. Cela permet de fournir une analyse plus pertinente et plus précise en se concentrant sur les pays qui ont le plus d'impact sur le développement global.

In [None]:
# Suppression des pays les moins peuplés de la dataframe originale
# df_filtered 
df_filtered= df_filtered[~df_filtered['Country Name'].isin(small_50_countries.index.tolist())]
    

In [None]:
# Nombre de pays uniques dans la colonne 'Country Name' de df_rest

df_filtered['Country Name'].nunique()

<a id='subsec:Nettoyagedesdonneesenfonctiondelapopulationdespays'></a>
### Nettoyage des données en fonction de la valeur du PIB des pays

J'ai choisi l'indicateur 'GDP, PPP (constant 2011 international $)' car il mesure le produit intérieur brut d'un pays en prenant en compte le pouvoir d'achat de sa monnaie, ce qui permet de comparer plus précisément le niveau de richesse entre différents pays. De plus, cet indicateur est ajusté pour l'inflation et les variations de taux de change, ce qui en fait un outil de mesure fiable pour les comparaisons à long terme.

In [None]:
#Crée un nouveau dataframe df_filtered_GDP qui contient uniquement les valeurs pour
#l'indicateur "GDP, PPP (constant 2011 international $)". Il est indexé par le nom du pays.
df_filtered_GDP = df_filtered[df_filtered['Indicator Name']=='GDP, PPP (constant 2011 international $)']\
                                .set_index('Country Name')

In [None]:
#Tracer un graphique en barres montrant les 50 pays avec le plus petit PIB en 2010.
df_filtered_GDP['2010'].sort_values(ascending=True).head(50).iplot(kind='bar')

In [None]:
#Crée une liste de pays à exclure du dataframe 
#d'origine en raison de valeurs manquantes pour l'indicateur de PIB en 2010.
rem_country_list =[df_filtered_GDP[df_filtered_GDP['2010'].isnull()==True].index.tolist() +
                           df_filtered_GDP['2010'].sort_values(ascending=True).head(46).index.tolist()]

In [None]:
rem_country_list[0]

In [None]:
#Crée un nouveau dataframe df_filtered qui exclut les pays de la liste des pays à exclure.
df_filtered = df_filtered[~df_filtered['Country Name'].isin(rem_country_list[0])]

In [None]:
#Affiche le nombre de pays uniques dans le nouveau dataframe.
df_filtered['Country Name'].nunique()

In [None]:
#Affiche une liste des noms de tous les pays présents dans le nouveau dataframe.
display(df_filtered['Country Name'].unique().tolist())

<a id='subsec:NettoyagedesdonneesenfonctiondesutilisateursdInternetpour100personnespourchaquepays'></a>
### Nettoyage des données en fonction des utilisateurs d'Internet pour 100 personnes pour chaque pays

In [None]:
# Sélectionner les données sur l'utilisation d'Internet et les mettre en index par pays
df_filtered_Internet = df_filtered[df_filtered['Indicator Name']=='Internet users (per 100 people)']\
                                                .set_index('Country Name')

In [None]:
# Trouver les pays où il manque des données pour l'année 2010
df_filtered_Internet[df_filtered_Internet['2010'].isnull()==True].index.tolist()

In [None]:
# Créer un graphique de la matrice de corrélation pour les données sur l'utilisation d'Internet
display(msno.matrix(df_filtered_Internet))

In [None]:
#Affiche une matrice de visualisation de données manquantes pour le dataframe df_filtered_Internet à partir de 1997.
display(msno.matrix(df_filtered_Internet.iloc[:, df_filtered_Internet.columns.get_loc('1997'):]))

In [None]:
# Sélectionner les données sur l'utilisation d'Internet à partir de l'année 1997
df_filtered_Internet=df_filtered_Internet.iloc[:, df_filtered_Internet.columns.get_loc('1997'):]

In [None]:
# Afficher des informations sur le DataFrame
df_filtered_Internet.info()

In [None]:
# Ajouter des colonnes pour les années 2017 à 2030, avec des valeurs NaN
for year in range(2017, 2031):
    df_filtered_Internet[str(year)] = np.nan

In [None]:
df_filtered_Internet.info()

In [None]:
# Remplacer les valeurs manquantes pour chaque année (2017-2030) en se basant sur la tendance des données précédentes
for col in df_filtered_Internet.columns:
    if int(col) >= 2017:
        for idx, row in df_filtered_Internet.iterrows():
            # Obtenir les 8 données précédentes pour cette ligne
            prev_8 = row[str(int(col)-8):str(int(col))]

            # Calculer la différence entre chaque donnée et la précédente
            diffs = prev_8.diff()

            # Vérifier si la tendance est à la hausse ou à la baisse
            if diffs.mean() > 0:
                new_val = row[str(int(col)-1)] + diffs.mean()
            else:
                new_val = row[str(int(col)-1)] - diffs.mean()

            # Limiter la valeur à 99 si nécessaire
            if new_val > 99.99:
                new_val = 99.99
            elif new_val < 0:
                new_val = 0

            # Définir la nouvelle valeur
            df_filtered_Internet.at[idx, col] = new_val


In [None]:
# Trouver les pays où moins de 50% de la population utilise Internet en 2023
low_user_Internet_country=df_filtered_Internet[~(df_filtered_Internet['2023'] >= 50)].sort_values(by='2023').index.tolist()

In [None]:
# Afficher la liste des pays concernés et le nombre de pays
display(low_user_Internet_country,  len(low_user_Internet_country))

In [None]:
# Créer une figure avec des sous-graphiques pour les 24 premiers pays de la liste des pays
# où l'utilisation d'Internet est faible
fig
fig, axs = plt.subplots(6, 4, figsize=(30, 30))

# Aplatir le tableau de sous-graphiques pour faciliter l'itération
axs = axs.flatten()

# Boucler sur les noms d'index et tracer chaque graphique
for i, index_name in enumerate(low_user_Internet_country):
    # Obtenir les données pour la ligne d'index
    index_data = df_filtered_Internet.loc[index_name]
    
    # Tracer les données sur le sous-graphique correspondant
    axs[i].plot(index_data.index,index_data.values)
    axs[i].set_title(index_name, fontsize=25)
    axs[i].set_xlabel('Year', fontsize=20)
    axs[i].set_xticks(index_data.index[::3])

for ax in axs:
    ax.set_xticks(ax.get_xticks())
    ax.set_xticklabels(ax.get_xticklabels(), rotation=45, fontsize=14, fontweight='bold')
    ax.set_yticklabels(ax.get_yticklabels(), fontsize=14, fontweight='bold')

# Add a suptitle to the figure
fig.suptitle('Tracer les données pour les 24 premiers pays avec faible utilisation Internet',fontsize=30)

plt.subplots_adjust(hspace=0.5)

# Display the figure
plt.show()

Finalement, je supprime les pays où l'utilisation d'Internet est faible du dataframe initial.

In [None]:

df_filtered = df_filtered[~df_filtered['Country Name'].isin(low_user_Internet_country)]


<a id='subsec:Analysedesdonneesavecplusieursnomsdindicateursconsideres'></a>
### Analyse des données avec plusieurs noms d'indicateurs considérés

Je viens de tracer trois graphiques en barres dans une figure à l'aide de la bibliothèque Plotly. Ces graphiques représentent les 20 pays ayant les valeurs les plus élevées pour trois indicateurs différents : la population de moins de 14 ans, le PIB en parité de pouvoir d'achat et le nombre d'utilisateurs d'Internet pour 100 personnes.

In [None]:


fig = make_subplots(rows=3, cols=1, subplot_titles=('Population, ages 0-14, total', 
                                                    'GDP, PPP (constant 2011 international $)', 
                                                    'Internet users (per 100 people)'))

fig.add_trace(go.Bar(y=df_filtered[df_filtered['Indicator Name'] == 'Population, ages 0-14, total']
                      .set_index('Country Name')['2016'].sort_values(ascending=False)[:20].values, 
                     x=df_filtered[df_filtered['Indicator Name'] == 'Population, ages 0-14, total']
                      .set_index('Country Name')['2016'].sort_values(ascending=False)[:20].index,showlegend=False, 
                     orientation='v'), row=1, col=1)

fig.add_trace(go.Bar(y=df_filtered[df_filtered['Indicator Name'] == 'GDP, PPP (constant 2011 international $)']
                      .set_index('Country Name')['2016'].sort_values(ascending=False)[:20].values, 
                     x=df_filtered[df_filtered['Indicator Name'] == 'GDP, PPP (constant 2011 international $)']
                      .set_index('Country Name')['2016'].sort_values(ascending=False)[:20].index,showlegend=False, 
                     orientation='v'), row=2, col=1)

fig.add_trace(go.Bar(y=df_filtered[df_filtered['Indicator Name'] == 'Internet users (per 100 people)']
                      .set_index('Country Name')['2016'].sort_values(ascending=False)[:20].values, 
                     x=df_filtered[df_filtered['Indicator Name'] == 'Internet users (per 100 people)']
                      .set_index('Country Name')['2016'].sort_values(ascending=False)[:20].index,showlegend=False, 
                     orientation='v'), row=3, col=1)

fig.update_layout(height=1000, width=1000)
for i in range(1, 4):
    fig.update_layout({'xaxis%d' % i: {'tickangle': -45}})

fig.show()



 Bien qu'il y ait quelques similitudes entre les noms de pays pour les 20 premières valeurs de chaque indicateur, les noms de pays pour chaque indicateur semblent divers et il n'est pas facile de tirer une conclusion sur le meilleur candidat pour l'entreprise EdTech. Par exemple, l'Inde et la Chine présentent un bon profil en termes de jeunesse de la population et de durabilité économique, mais pas en termes de profil d'utilisation d'Internet.





<a id='sec:AnalysePourRepondreaLaProblematique'></a>
# Analyse pour répondre à la problématique


Dans cette analyse, j'ai cherché à identifier les caractéristiques des clients potentiels en examinant trois indicateurs clés : la population âgée de 0 à 14 ans, PIB, PPA (constants de 2011 dollars internationaux) et Utilisateurs d'Internet (pour 100 personnes)'. J'ai choisi de représenter les données sous forme de graphiques à barres, en sélectionnant les 20 pays avec les valeurs les plus élevées pour chaque indicateur. Bien que les pays avec les valeurs les plus élevées pour chaque indicateur soient différents, cela nous montre les différences et les disparités entre les pays en termes de profil de client potentiel. Par exemple, un pays peut avoir un PIB élevé mais un faible taux d'utilisation d'Internet, ce qui peut avoir un impact sur la stratégie marketing de l'entreprise.

In [None]:
# Définir une liste de noms d'indicateurs à boucler
indicator_names = [
    'Internet users (per 100 people)',
    'Population, ages 0-14, total',
    'GDP, PPP (constant 2011 international $)',
]
#Créer un dictionnaire vide pour stocker les 65 premiers pays pour chaque indicateur
top_countries = {}

#Boucler sur les noms d'indicateurs
for indicator_name in indicator_names:
# Charger les données et filtrer pour l'indicateur en cours
    # Calculer la valeur moyenne pour chaque pays sur une plage d'années
    mean_values = df_filtered[df_filtered['Indicator Name'] == indicator_name].set_index('Country Name')\
                    .loc[:, '2010':'2015'].mean(axis=1)
    
    # Suivre les 65 premiers pays pour l'indicateur en cours
    top_countries[indicator_name] = mean_values.sort_values(ascending=False)[:65].index.to_list()

#Trouver les noms de pays communs qui apparaissent dans les 65 premiers pour tous les indicateurs
common_countries = set(top_countries[indicator_names[0]])
for indicator_name in indicator_names:
    common_countries = common_countries.intersection(top_countries[indicator_name])

# Afficher les noms de pays communs
print(common_countries, len(common_countries))

In [None]:
display(df_filtered['Country Name'].nunique())

Le code sélectionne les noms de pays pour lesquels nous avons des données pour tous les indicateurs. Ensuite, il crée une figure avec trois sous-graphiques pour chaque indicateur. Ensuite, il crée un graphique à barres pour chaque indicateur, en utilisant les données des pays sélectionnés

In [None]:
# Sélectionner les noms des pays pour lesquels on a des données pour tous les indicateurs
countries = df_filtered[df_filtered['Indicator Name'] == 'Population, ages 0-14, total'].set_index('Country Name')\
                                        .loc[common_countries]['2015'].sort_values(ascending=False)[:].index.tolist()

# Créer la figure avec 3 sous-graphiques pour chaque indicateur
fig = make_subplots(rows=3, cols=1, shared_xaxes=False,vertical_spacing=0.2, subplot_titles=("Population, ages 0-14, total",
                                                            "GDP, PPP (constant 2011 international $)",
                                                            "Internet users (per 100 people)"))

# Pour chaque indicateur, créer un graphique à barres avec les données des pays sélectionnés
for i, indicator in enumerate(['Population, ages 0-14, total', 'GDP, PPP (constant 2011 international $)', 'Internet users (per 100 people)']):

    # Extraire les données pour l'indicateur et les pays sélectionnés
    df_indicator = df_filtered[df_filtered['Indicator Name'] == indicator].set_index('Country Name').loc[countries]
    
    # Créer une trace de graphique à barres pour les données
    trace = go.Bar(x=df_indicator.sort_values(by='2015',ascending=False).index, y=df_indicator['2015'].sort_values(ascending=False), name=indicator)
    
    # Ajouter la trace au sous-graphique correspondant
    fig.add_trace(trace, row=i+1, col=1)

# Mettre à jour la mise en page de la figure et afficher la figure
fig.update_layout(showlegend=False)
for i in range(1, 4):
    fig.update_layout({'xaxis%d' % i: {'tickangle': -45}})
fig.update_layout(height=1000, width=1000)

# fig.show()

Voici les 36 pays qui ont été triés en fonction de valeurs élevées pour les trois indicateurs. En ce qui concerne la population jeune et le PIB du pays, **_les États-Unis, le Brésil, le Japon, la Turquie, le Royaume-Uni, la Corée du Sud, l'Arabie saoudite, l'Italie, la France et l'Allemagne_** présentent le meilleur profil. Le Royaume-Uni, le Japon, la Corée et l'Allemagne de cette liste ont de nombreux utilisateurs d'Internet. Cependant, en termes de population, ces pays sont très peuplés. Même si le Brésil et la Turquie montrent moins d'utilisateurs d'Internet, en considérant la population de ces pays, ils pourraient avoir un nombre assez intéressant d'utilisateurs d'Internet. Nous pouvons également négliger la Russie en raison de la guerre en cours entre l'Ukraine et la Russie et de l'embargo économique appliqué par l'Union européenne. Le Venezuela pourrait être négligé en raison de la crise économique en cours. **_Le Canada, l'Espagne, la Pologne, les Pays-Bas, la Malaisie et l'Argentine_** présentent également un profil client solide pour une entreprise EdTech.

En ce qui concerne les pays francophones et leur durabilité économique, **_la Belgique, le Maroc et la Suisse_** présentent un profil intéressant.

Ici, vous pouvez voir les 10 meilleurs pays pour chaque indicateur et dans la colonne, vous pouvez voir le profil de la liste des meilleurs pays pour un indicateur donné dans les autres noms d'indicateurs. Nous pouvons commenter, par exemple, pour les pays ayant une population très jeune, comment se situe leur économie ou leur nombre d'utilisateurs d'Internet pour 100 habitants.

In [None]:
# Créer une figure de sous-parcelles avec 3 lignes et 3 colonnes, en définissant 
#les espaces verticaux et horizontaux et en ajoutant des titres de sous-parcelle
fig = make_subplots(rows=3, cols=3, vertical_spacing=0.15,horizontal_spacing=0.05,
                    subplot_titles=('Population, ages 0-14, total', 
                                    'Population, ages 0-14, total', 
                                    'Population, ages 0-14, total', 
                                    'GDP, PPP (international $)', 
                                    'GDP, PPP (international $)', 
                                    'GDP, PPP (international $)', 
                                    'Internet users (per 100 people)',
                                    'Internet users (per 100 people)',
                                    'Internet users (per 100 people)'))

# Sélectionner les 10 premiers pays pour la variable "Population, ages 0-14, total"
pop_countries = df_filtered[df_filtered['Indicator Name'] == 'Population, ages 0-14, total']\
                    .set_index('Country Name')['2015'].sort_values(ascending=False)[:10].index.tolist()

# Sélectionner les 10 premiers pays pour la variable "GDP, PPP (constant 2011 international $)"
gdp_countries = df_filtered[df_filtered['Indicator Name'] == 'GDP, PPP (constant 2011 international $)']\
                    .set_index('Country Name')['2015'].sort_values(ascending=False)[:10].index.tolist()

# Sélectionner les 10 premiers pays pour la variable "Internet users (per 100 people)"
internet_countries = df_filtered[df_filtered['Indicator Name'] == 'Internet users (per 100 people)']\
                    .set_index('Country Name')['2015'].sort_values(ascending=False)[:10].index.tolist()

# Ajouter des sous-parcelles pour chaque variable
fig.add_trace(go.Bar(y=df_filtered[df_filtered['Indicator Name'] == 'Population, ages 0-14, total']
                      .set_index('Country Name').loc[pop_countries, '2015'].values, 
                     x=pop_countries, 
                     orientation='v'), row=1, col=1)

fig.add_trace(go.Bar(y=df_filtered[df_filtered['Indicator Name'] == 'GDP, PPP (constant 2011 international $)']
                      .set_index('Country Name').loc[pop_countries, '2015'].values, 
                     x=pop_countries, 
                     orientation='v'), row=2, col=1)

fig.add_trace(go.Bar(y=df_filtered[df_filtered['Indicator Name'] == 'Internet users (per 100 people)']
                      .set_index('Country Name').loc[pop_countries, '2015'].values, 
                     x=pop_countries, 
                     orientation='v'), row=3, col=1)

fig.add_trace(go.Bar(y=df_filtered[df_filtered['Indicator Name'] == 'Population, ages 0-14, total']
                      .set_index('Country Name').loc[gdp_countries, '2015'].values, 
                     x=gdp_countries, 
                     orientation='v'), row=1, col=2)

fig.add_trace(go.Bar(y=df_filtered[df_filtered['Indicator Name'] == 'GDP, PPP (constant 2011 international $)']
                      .set_index('Country Name').loc[gdp_countries, '2015'].values, 
                     x=gdp_countries, 
                     orientation='v'), row=2, col=2)

fig.add_trace(go.Bar(y=df_filtered[df_filtered['Indicator Name'] == 'Internet users (per 100 people)']
                      .set_index('Country Name').loc[gdp_countries, '2015'].values, 
                     x=gdp_countries, 
                     orientation='v'), row=3, col=2)


fig.add_trace(go.Bar(y=df_filtered[df_filtered['Indicator Name'] == 'Population, ages 0-14, total']
                      .set_index('Country Name').loc[internet_countries, '2015'].values, 
                     x=internet_countries, 
                     orientation='v'), row=1, col=3)

fig.add_trace(go.Bar(y=df_filtered[df_filtered['Indicator Name'] == 'GDP, PPP (constant 2011 international $)']
                      .set_index('Country Name').loc[internet_countries, '2015'].values, 
                     x=internet_countries, 
                     orientation='v'), row=2, col=3)

fig.add_trace(go.Bar(y=df_filtered[df_filtered['Indicator Name'] == 'Internet users (per 100 people)']
                      .set_index('Country Name').loc[internet_countries, '2015'].values, 
                     x=internet_countries, 
                     orientation='v'), row=3, col=3)


fig.update_layout(height=1000, width=1000,showlegend=False)
for i in range(1, 10):
    fig.update_layout({'xaxis%d' % i: {'tickangle': -45}})

fig.show()

Dans ce graphique, nous pouvons observer **_l'Inde et la Chine_** et leur population jeune. Même si le nombre d'utilisateurs d'Internet est inférieur à celui des autres pays, en prenant en compte la population totale, ce nombre reste élevé. **_Le Mexique_** présente également un profil intéressant en termes de population et de PIB. Lorsqu'on classe les pays en fonction du nombre d'utilisateurs d'Internet, la Norvège, le Danemark, Bahreïn et le Qatar sont les pays les mieux classés, cependant, leur population jeune et leur PIB sont plus faibles que ceux des autres pays.

In [None]:
list_of_chosen_countries =['Argentina', 'Belgium','Brazil',
 'Canada','France',
 'Germany', 'Italy',
 'Japan', 'Korea, Rep.',
 'Malaysia',
 'Morocco',
 'Netherlands',
 'Poland', 'Saudi Arabia',
 'Spain','Switzerland',
 'Turkey', 'United Kingdom',
 'United States','India','China','Mexico']
print(len(list_of_chosen_countries))

In [None]:
df[df['Indicator Name'] == 'Wittgenstein Projection: Population age 15-19 in thousands by highest level of educational attainment. Upper Secondary. Total']\
    .set_index('Country Name')\
    .loc[df_filtered['Country Name'].unique().tolist(), '2025'].sort_values(ascending=False)[:30].iplot(kind='bar')
#     .loc[:, '2020':'2100'].mean(axis=1)\
#     .sort_values(ascending=False)

Sur les 22 pays choisis pour notre étude, 15 pays ont également été projetés comme étant des pays de premier plan en termes de population âgée entre 15 et 19 ans, selon la projection de Wittgenstein. Cela signifie que ces pays ont un grand potentiel en termes de marché pour l'entreprise EdTech, car ils ont une population jeune et en âge de scolarité. 

<a id='sec:ConclusionEtPerspectives'></a>
# Conclusion et perspective

Après avoir analysé les données, il est possible de dire que les pays les plus prometteurs pour le développement d'une entreprise EdTech sont les États-Unis, le Brésil, le Japon, la Turquie, le Royaume-Uni, la Corée du Sud, l'Arabie Saoudite, l'Italie, la France et l'Allemagne en raison de leur forte population jeune et de leur soutenabilité économique. Le Royaume-Uni, le Japon, la Corée du Sud et l'Allemagne ont également un nombre important d'utilisateurs d'Internet. Cependant, étant donné la forte population de ces pays, il est possible que les pays comme le Brésil et la Turquie, qui ont un nombre moins élevé d'utilisateurs d'Internet, présentent également un nombre intéressant d'utilisateurs potentiels d'EdTech.

D'autre part, il est important de noter que les projections de Wittgenstein indiquent que 15 des 22 pays sélectionnés sont également des pays prometteurs en termes de population âgée entre 15 et 19 ans. Cela souligne davantage le potentiel des pays choisis pour le développement d'une entreprise EdTech.

Cependant, il est important de prendre en compte d'autres facteurs tels que la langue, la culture, les lois et les réglementations en vigueur dans chaque pays pour pouvoir élaborer une stratégie commerciale efficace. Les pays tels que la Belgique, le Maroc et la Suisse peuvent également présenter un intérêt en raison de leur population francophone et de leur soutenabilité économique.

En conclusion, les États-Unis, le Brésil, le Japon, la Turquie, le Royaume-Uni, la Corée du Sud, l'Arabie Saoudite, l'Italie, la France, l'Allemagne et les autres pays choisis ont un potentiel important pour le développement d'une entreprise EdTech. Cependant, il est important de prendre en compte d'autres facteurs pour élaborer une stratégie commerciale efficace et durable.
