In [14]:
import pandas as pd
import plotly.express as px

In [15]:
data = pd.read_parquet(
    "../../data/2_clean/youth_not_in_education_employment_or_training.parquet",
)

In [16]:
data = data.query("Sexe != 'Total'")
data

Indicateur,Pays et territoires insulaires du Pacifique,Sexe,Urbanisation,Invalidité,TIME_PERIOD,"Nombre de jeunes personnes sans études, emploi ni formation","Proportion de jeunes personnes sans études, emploi ni formation"
0,Kiribati,Femme,National,Pas de ventilation par handicap,2015,5150.0,47.06
1,Kiribati,Femme,National,Pas de ventilation par handicap,2019,5145.0,48.88
2,Kiribati,Femme,National,Personnes handicapées,2015,42.0,47.73
3,Kiribati,Femme,National,Personnes handicapées,2019,73.0,31.20
4,Kiribati,Femme,National,Personnes sans handicap,2015,5108.0,47.06
...,...,...,...,...,...,...,...
268,Îles Marshall (pays),Homme,Rural,Pas de ventilation par handicap,2019,286.0,42.37
269,Îles Marshall (pays),Homme,Rural,Personnes sans handicap,2019,259.0,40.34
270,Îles Marshall (pays),Homme,Urbain,Pas de ventilation par handicap,2011,1686.0,42.88
271,Îles Marshall (pays),Homme,Urbain,Pas de ventilation par handicap,2019,1190.0,36.05


In [17]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 184 entries, 0 to 272
Data columns (total 7 columns):
 #   Column                                                           Non-Null Count  Dtype   
---  ------                                                           --------------  -----   
 0   Pays et territoires insulaires du Pacifique                      184 non-null    category
 1   Sexe                                                             184 non-null    category
 2   Urbanisation                                                     184 non-null    category
 3   Invalidité                                                       184 non-null    category
 4   TIME_PERIOD                                                      184 non-null    int64   
 5   Nombre de jeunes personnes sans études, emploi ni formation      184 non-null    float64 
 6   Proportion de jeunes personnes sans études, emploi ni formation  184 non-null    float64 
dtypes: category(4), float64(2), int64(1)
memo

In [18]:
sans_emploi_by_year = (
    data.groupby(["Pays et territoires insulaires du Pacifique", "Sexe"])[
        "Nombre de jeunes personnes sans études, emploi ni formation"
    ]
    .mean()
    .dropna()
    .reset_index()
)
sans_emploi_by_year





Unnamed: 0,Pays et territoires insulaires du Pacifique,Sexe,"Nombre de jeunes personnes sans études, emploi ni formation"
0,Kiribati,Femme,2421.705882
1,Kiribati,Homme,2421.388889
2,Nauru,Femme,569.0
3,Nauru,Homme,373.5
4,Niue,Femme,11.0
5,Palaos,Femme,131.555556
6,Palaos,Homme,115.777778
7,Salomon,Femme,14583.666667
8,Salomon,Homme,9440.666667
9,Samoa,Femme,3979.666667


In [19]:
px.bar(
    sans_emploi_by_year.reset_index(),
    x="Pays et territoires insulaires du Pacifique",
    y="Nombre de jeunes personnes sans études, emploi ni formation",
    color="Sexe",
    title="Nombre de jeunes personnes sans études, emploi ni formation par sexe",
    barmode="group",
)

In [20]:
men = (
    sans_emploi_by_year.query("Sexe == 'Homme'")
    .drop(columns="Sexe")
    .set_index("Pays et territoires insulaires du Pacifique")
    .dropna()
)
women = (
    sans_emploi_by_year.query("Sexe == 'Femme'")
    .drop(columns="Sexe")
    .set_index("Pays et territoires insulaires du Pacifique")
    .dropna()
)
all = men + women

men = (men / all) * 100
women = (women / all) * 100

men = men.rename(
    columns={"Nombre de jeunes personnes sans études, emploi ni formation": "Homme"}
).sort_index()
women = women.rename(
    columns={"Nombre de jeunes personnes sans études, emploi ni formation": "Femme"}
).sort_index()

unemployed_by_country = men.copy()
unemployed_by_country["Femme"] = women
unemployed_by_country = unemployed_by_country.stack().reset_index()
unemployed_by_country = unemployed_by_country.rename(
    {"level_1": "Sexe", 0: "Pourcentage"}, axis=1
)
unemployed_by_country

Unnamed: 0,Pays et territoires insulaires du Pacifique,Sexe,Pourcentage
0,Kiribati,Homme,49.996727
1,Kiribati,Femme,50.003273
2,Nauru,Homme,39.628647
3,Nauru,Femme,60.371353
4,Palaos,Homme,46.810422
5,Palaos,Femme,53.189578
6,Salomon,Homme,39.296269
7,Salomon,Femme,60.703731
8,Samoa,Homme,43.449223
9,Samoa,Femme,56.550777


In [21]:
fig = px.bar(
    unemployed_by_country,
    x="Pays et territoires insulaires du Pacifique",
    color="Sexe",
    y="Pourcentage",
)

fig.add_hline(y=unemployed_by_country["Pourcentage"].mean(), line_dash="dot")

In [22]:
fig = px.sunburst(
    unemployed_by_country,
    path=["Pays et territoires insulaires du Pacifique", "Sexe"],
    values="Pourcentage",
    title="Nombre de jeunes personnes sans études, emploi ni formation par sexe",
)
fig.show()







In [23]:
unemployed_by_country.to_parquet("../../data/3_product/unemployed_by_country.parquet")