# Étude sur les facteurs qui déterminent la santé des enfants aux États-Unis

# Importation des libraries 

In [19]:
import s3fs # pour récupérer les fichiers de l'espace de stockage S3
import pandas as pd # pour la gestion des dataframe
import geopandas as gpd # pour la gestion des données géographiques (fichiers .shp)
import matplotlib.pyplot as plt
import script.clean_data as cd
from sklearn.impute import KNNImputer
import numpy as np
import os

## Récupération des bases de données

In [20]:
# Maximum 15 secondes

# (depuis le stockage S3 d'un membre du groupe via le dossier public diffusion)
# Stocker les fichiers dans un dossier data/nsch

fs = s3fs.S3FileSystem(client_kwargs={"endpoint_url": "https://minio.lab.sspcloud.fr"})

chemin_lecture_nsch = "inacampan/diffusion/Determinants_of_children-s_health/NSCH/"
chemin_ecriture_nsch = "data/nsch/"

# Lecture des fichiers des bases de données
dfs = cd.lecture_fichier_sas(fs, chemin_lecture_nsch, chemin_ecriture_nsch)

# récuperér le guide technique du questionnaire
# ce fichier inclut le nom de la variable, la question qu'elle encode, l'année du questionnaire
# mais également des notes pour la compréhension de la base de données initiale

guide = cd.lecture_fichier_csv(fs, f"{chemin_lecture_nsch}NSCH_Dictionary.csv", f"{chemin_ecriture_nsch}NSCH_Dictionary.csv")

# Element de précaution : GUIDE contient plusieurs index de meme nom
# mais les caractéristiques ne sont pas identiques

In [21]:
# Maximum 2 secondes

# Récuperer les fichiers associés au shapefile - utiles pour les cartes (depuis le stockage S3 d'un membre du groupe)

chemin_lecture_map = "inacampan/diffusion/Determinants_of_children-s_health/Map/"
chemin_ecriture_map = "data/map/"

# lecture du fichier
gdf = cd.lecture_fichier_shapefile(fs, chemin_lecture_map, chemin_ecriture_map)

## Description des données et statistiques descriptives

Conformément au site qui héberge les bases de données NSCH, le questionnaire de présélection (NSCH-S1) déterminait si l’adresse représentait une résidence occupée et s’il y avait des enfants admissibles âgés de 0 à 17 ans vivant à cette adresse échantillonnée.

Le questionnaire thématique ("topical") comprenait des questions détaillées portant sur un enfant sélectionné au hasard dans le ménage. Les ménages recevaient l’un des trois questionnaires thématiques spécifiques à l’âge, en fonction de l’âge de l’enfant échantillonné : 
* NSCH-T1 (ou T1) pour les enfants âgés de 0 à 5 ans,
* NSCH-T2 (ou T2) pour les enfants âgés de 6 à 11 ans, ou
* NSCH-T3 (ou T3) pour les enfants âgés de 12 à 17 ans.

Le type du questionnaire est codé dans la variable ```FORMTYPE```.
Dans notre projet nous regardons uniquement le questionnaire "topical". 

In [22]:
df = dfs["2023"] # regardons d'abord l'année 2023
df.describe()

Unnamed: 0,HEIGHT,TOTKIDS_R,TENURE,HHLANGUAGE,SC_AGE_YEARS,SC_SEX,K2Q35A_1_YEARS,BIRTH_MO,BIRTH_YR,K6Q41R_STILL,...,HHCOUNT_IF,HIGRADE,HIGRADE_TVIS,FPL_I1,FPL_I2,FPL_I3,FPL_I4,FPL_I5,FPL_I6,FWC
count,32319.0,55162.0,55162.0,54862.0,55162.0,55162.0,1971.0,54770.0,54675.0,18118.0,...,55162.0,55162.0,55162.0,55162.0,55162.0,55162.0,55162.0,55162.0,55162.0,55162.0
mean,151.687657,1.87669,1.455187,1.126135,8.339563,1.486422,4.868087,6.613255,2014.314092,1.884204,...,0.031761,2.829393,3.485606,287.280537,287.401998,287.531362,288.364091,287.652804,287.90508,1308.472653
std,20.52272,0.870582,0.787676,0.439835,5.303088,0.49982,3.478265,3.404391,5.324464,0.31999,...,0.175365,0.436074,0.799796,124.920459,124.87868,124.957976,124.475651,124.808909,124.524807,2334.642676
min,93.98,1.0,1.0,1.0,0.0,1.0,1.0,1.0,2005.0,1.0,...,0.0,1.0,1.0,50.0,50.0,50.0,50.0,50.0,50.0,11.00669
25%,134.62,1.0,1.0,1.0,4.0,1.0,2.0,4.0,2009.0,2.0,...,0.0,3.0,3.0,179.0,179.0,179.0,182.0,179.0,181.0,263.179394
50%,154.94,2.0,1.0,1.0,8.0,1.0,3.0,7.0,2015.0,2.0,...,0.0,3.0,4.0,337.0,337.0,337.0,337.5,337.0,337.0,639.147322
75%,167.63,2.0,2.0,1.0,13.0,2.0,6.0,10.0,2019.0,2.0,...,0.0,3.0,4.0,400.0,400.0,400.0,400.0,400.0,400.0,1416.80957
max,211.05,4.0,4.0,3.0,17.0,2.0,15.0,12.0,2023.0,2.0,...,1.0,3.0,4.0,400.0,400.0,400.0,400.0,400.0,400.0,54078.402188


In [23]:
# La base de données de 2023 est dense, avec un total de 452 de variables sur 55162 individus (à travers les états-Unis).
# Sur l'ensemble des enfants dans l'échantillons : 
# (i) 21524 sont âgés de 0 à 5 ans,
# (ii) 18397 sont âgés de 6 à 11 ans et 
# (iii) 15241 sont âgés de 11 à 17 ans.

print(df["FORMTYPE"].value_counts())
print(df["FIPSST"].value_counts()[:5])

FORMTYPE
T1    21524
T3    18397
T2    15241
Name: count, dtype: int64
FIPSST
06    4696
20    2805
27    2400
22    2093
39    1735
Name: count, dtype: int64


On regarde le pourcentage de valeurs manquantes par colonne, par ordre décroissant.
On observe des taux de valeurs manquantes très élevés pour certaines questions qui ne sont posées que dans des cas très spécifiques et qui dépendent d’une réponse précédente. (Cela est rassurant.)

Par exemple, pour la variable ```CYSFIB_SCREEN``` (avec un taux de 99.94% de valeurs manquantes), celle-ci encode la question :

**Was this condition identified through a blood test done shortly after birth? … These tests are sometimes called newborn screening.** Cette question est ignorée si ```CYSTFIB = 2```. La variables ```CYSFIB``` a un taux très très faible (0.19%) de valeurs manquantes et parmi les valeurs prises, ```CYSFIB!=2``` dans seulement 30 questionnaires.

Pour les variables ```DIABETES_DESC``` et ```DIABETES_CURR```, les questions qu'elles encodent sont ignorées dès lorsque ```DIABETES = 2``` (ce qui regroupe seulement 40 questionnaires).

In [24]:
missing_values = df.isna().mean().sort_values(ascending=False) * 100

print("Valeurs manquantes en pourcentage par colonne\n",
    missing_values)
print("Nombre de colonnes avec au moins 50% de valeurs manquantes\n",(missing_values >= 50).sum())

# Illustration de l'exemple de CYSTFIB et DIABETES
print("---------------------------------")
print("Informations sur la variable CYSTFIB_SCREEN : ", guide[guide["Variable"] == "CYSTFIB_SCREEN"]["Universe"].iloc[0], "\n",
    guide[guide["Variable"] == "CYSTFIB"]["Question"].iloc[0])
print("Valeurs manquantes pour la variable CYSTFIB : \n",
    (df["CYSTFIB"].isna().mean() * 100).round(2), "%")
print(df["CYSTFIB"].value_counts())

print("---------------------------------")
print("Informations sur la variable DIABETES_CURR : ", guide[guide["Variable"] == "DIABETES_CURR"]["Universe"].iloc[0], "\n",
    guide[guide["Variable"] == "DIABETES"]["Question"].iloc[0])
print("Valeurs manquantes pour la variable DIABETES : \n",
    (df["DIABETES"].isna().mean() * 100).round(2), "%")
print(df["DIABETES"].value_counts())

Valeurs manquantes en pourcentage par colonne
 CYSTFIB_SCREEN    99.949240
DIABETES_DESC     99.945615
DIABETES_CURR     99.922048
K2Q38C            99.789710
LIVEUSA_MO        99.778833
                    ...    
FPL_I3             0.000000
FPL_I4             0.000000
FPL_I5             0.000000
FPL_I6             0.000000
FWC                0.000000
Length: 456, dtype: float64
Nombre de colonnes avec au moins 50% de valeurs manquantes
 180
---------------------------------
Informations sur la variable CYSTFIB_SCREEN :  Skip if CYSTFIB=2 
 Header: Has a doctor or other health care provider EVER told you that this child has......Cystic Fibrosis?
Valeurs manquantes pour la variable CYSTFIB : 
 0.19 %
CYSTFIB
2.0    55025
1.0       30
Name: count, dtype: int64
---------------------------------
Informations sur la variable DIABETES_CURR :  Skip if DIABETES=2 
 Header: Has a doctor or other health care provider EVER told you that this child has......Type 2 Diabetes?
Valeurs manquantes pou

### Choix des variables d'intérêt

Dans le guide, les variables sont classées dans plusieurs grandes catégories, en fonction de la question de recherche et également de la base de données associée. En vue de notre base de données, on peut garder uniquement les variables de type "Topical" et "Operational" (colonne "Source").

In [25]:
guide = guide[guide["Source"].isin({"Topical", "Operational"})]

years = {"2021", "2022", "2023", "2024"}

# On garde uniquement des variables qui sont communes aux quatre dataset NSCH
guide = guide[guide["Survey Years"].apply(
    lambda x: years <= set(y.strip() for y in str(x).split(","))
)]

# Cela réduit la base à 318 variables communes entre les databases
# Netoyer les dataframe NSCH avec cette contrainte, en rajoutant le code de l'état de résidance
# comme variable admissible.

variables_com = set(guide["Variable"])
variables_com = variables_com | {"FIPSST"}

for year in ["2023", "2022", "2021", "2024"]:
    df = dfs[year]
    df = df.loc[:, df.columns.isin(variables_com)]
    dfs[year] = df

In [26]:
counts = guide.groupby(["Source", "Topic"])["Variable"].count().reset_index(name="count")
print("Nombre de variable par groupe de (Source, Topic)\n",counts.to_string())

Nombre de variable par groupe de (Source, Topic)
          Source                            Topic  count
0   Operational                Data Quality Flag      1
1   Operational                        Geography      4
2   Operational                  Imputation Flag     10
3   Operational                      Operational      3
4   Operational                           Weight      3
5       Topical           A. This Child's Health     83
6       Topical       B. This Child as an Infant     19
7       Topical          C. Health Care Services     61
8       Topical         D. Health Care Providers     25
9       Topical     E. Health Insurance Coverage     13
10      Topical         F. Providing Health Care      8
11      Topical       G. Learning and Activities     33
12      Topical      H. About You and This Child     19
13      Topical     I. Your Family and Household     36
14      Topical  J. About You/Child's Caregivers     18
15      Topical         K. Household Information     1

In [27]:
# Sélectionner des variables dans l'univers "All Children" => cad des questions posées à toutes les groupes d'age

filter_variables = {
    var for var in variables_com
    if guide[guide["Variable"] == var]["Universe"].item() == "All Children"
}

# Proposition : 
final_variables = {

    # topical variables
    "ACE1", "ACE10", "ACE11", "ARRANGEHC", "ATHOMEHC", "AVOIDCHG", "C4Q04", "CURRCOV",
    "BLINDNESS", "BLOOD", "BREATHING", "CAVITIES", "DOWNSYN", "FOODSIT", "HCABILITY", "HEART", "HOWMUCH",
    "K2Q30A", "K2Q31A", "K2Q60A", "K4Q23", "K8Q11", "K8Q34", "SCREENTIME", "VIDEOPHONE", "SWALLOWING",
    
    # operational variables
    "BIRTH_YR_F", "FIPSST", "FORMTYPE",
    "METRO_YN", "MPC_YN",
    "FWC", # child's weight
    "YEAR", "HHID"
}

cd.write_questions(final_variables, guide)

In [28]:
for year in ["2024", "2023", "2022", "2021"]:
    df = dfs[year]
    df = df.loc[:, df.columns.isin(final_variables)]
    dfs[year] = df

In [29]:
df = dfs["2023"]
df.head()

Unnamed: 0,FIPSST,FORMTYPE,BREATHING,SWALLOWING,CAVITIES,BLINDNESS,HEART,DOWNSYN,BLOOD,K2Q60A,...,SCREENTIME,K8Q11,FOODSIT,HCABILITY,C4Q04,ACE1,METRO_YN,MPC_YN,BIRTH_YR_F,FWC
0,6,T2,1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,...,4.0,1.0,1.0,2.0,1.0,3.0,1.0,1.0,0.0,1318.476839
1,6,T3,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,...,5.0,2.0,1.0,2.0,2.0,2.0,1.0,1.0,0.0,978.499881
2,6,T3,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,...,4.0,3.0,2.0,1.0,4.0,1.0,1.0,1.0,0.0,904.191765
3,6,T3,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,...,4.0,4.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,1092.097256
4,6,T2,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,...,5.0,2.0,3.0,1.0,2.0,1.0,1.0,1.0,0.0,586.38787


In [30]:
missing_values = df.isna().mean().sort_values(ascending=False) * 100
print(missing_values)

MPC_YN        13.871868
METRO_YN       9.767594
ACE10          4.006381
ACE11          3.790653
VIDEOPHONE     3.525978
FOODSIT        2.585113
K4Q23          2.224357
K8Q34          2.155469
K8Q11          1.881730
ACE1           1.859976
SCREENTIME     1.751206
HOWMUCH        1.252674
AVOIDCHG       1.209166
ARRANGEHC      1.089518
ATHOMEHC       1.084080
K2Q31A         0.748704
C4Q04          0.725137
CURRCOV        0.648997
HCABILITY      0.616366
SWALLOWING     0.598238
K2Q60A         0.429644
K2Q30A         0.422392
BLINDNESS      0.395200
BLOOD          0.373445
CAVITIES       0.366194
BREATHING      0.348066
DOWNSYN        0.328124
HEART          0.201225
FIPSST         0.000000
FORMTYPE       0.000000
BIRTH_YR_F     0.000000
FWC            0.000000
dtype: float64


In [31]:
for var in df.columns:
    print("Variable : " + var + " prend " + str(len(df[var].unique())) + " valeurs uniques")
    print(df[var].unique())

# On a une variable qui est à moitié catégorielles - le ID de l'état
# On a une variable continue - la taille (FWC) : 0 valeurs manquantes

Variable : FIPSST prend 51 valeurs uniques
['06' '44' '20' '01' '17' '22' '08' '12' '13' '46' '38' '21' '26' '34'
 '27' '19' '18' '55' '05' '49' '16' '40' '31' '48' '02' '42' '30' '35'
 '39' '47' '51' '45' '56' '28' '29' '24' '23' '33' '25' '41' '50' '36'
 '54' '09' '15' '53' '32' '04' '37' '10' '11']
Variable : FORMTYPE prend 3 valeurs uniques
['T2' 'T3' 'T1']
Variable : BREATHING prend 3 valeurs uniques
[ 1.  2. nan]
Variable : SWALLOWING prend 3 valeurs uniques
[ 2.  1. nan]
Variable : CAVITIES prend 3 valeurs uniques
[ 2.  1. nan]
Variable : BLINDNESS prend 3 valeurs uniques
[ 2.  1. nan]
Variable : HEART prend 3 valeurs uniques
[ 2.  1. nan]
Variable : DOWNSYN prend 3 valeurs uniques
[ 2. nan  1.]
Variable : BLOOD prend 3 valeurs uniques
[ 2.  1. nan]
Variable : K2Q60A prend 3 valeurs uniques
[ 2.  1. nan]
Variable : K2Q30A prend 3 valeurs uniques
[ 2. nan  1.]
Variable : K2Q31A prend 3 valeurs uniques
[ 2.  1. nan]
Variable : K4Q23 prend 3 valeurs uniques
[ 2. nan  1.]
Variable :

### Imputation

Pour s'y prendre, on utilise la librairie scikit-learn et une imputation via la méthode des K plus proches voisins : [documentation](https://scikit-learn.org/stable/modules/generated/sklearn.impute.KNNImputer.html). Nous utilisons un nombre de voisins égal à 3 (au lieu du 5 par défaut), par soucis de simplicité. De plus, nos variables manquantes étant catégorielles, un choix trop élevé de voisins à considérer n'est pas justifiable. 

In [32]:
# Cette cellule prend environ 3 à 10 minutes pour s'executer
# On recommande d'executer directement la cellule suivante qui récupère ce résultat depuis le S3

"""
years = ["2024", "2023", "2022", "2021"]
dfs_final = cd.impute_values_over_dataset(years, dfs)
"""

'\nyears = ["2024", "2023", "2022", "2021"]\ndfs_final = cd.impute_values_over_dataset(years, dfs)\n'

In [33]:
# Sauvegarde initiale sous S3 - via le compte inacampan - executé une seule fois 

"""
MY_BUCKET = "inacampan"
FILE_PATH_OUT_S3 = f"{MY_BUCKET}/diffusion/Determinants_of_children-s_health/NSCH/clean_data"

for year in years:
    path = f"{FILE_PATH_OUT_S3}/{year}.parquet"
    df = dfs_final[year]
    with fs.open(path, 'wb') as file_out:
        df.to_parquet(file_out)
"""

'\nMY_BUCKET = "inacampan"\nFILE_PATH_OUT_S3 = f"{MY_BUCKET}/diffusion/Determinants_of_children-s_health/NSCH/clean_data"\n\nfor year in years:\n    path = f"{FILE_PATH_OUT_S3}/{year}.parquet"\n    df = dfs_final[year]\n    with fs.open(path, \'wb\') as file_out:\n        df.to_parquet(file_out)\n'

In [34]:
dfs_final = {}

MY_BUCKET = "inacampan"
FILE_PATH_OUT_S3 = f"{MY_BUCKET}/diffusion/Determinants_of_children-s_health/NSCH/clean_data"

# récuperer les dataframes stockés antérieurement dans le S3

dfs_final = {}

for year in years:
    path = f"{FILE_PATH_OUT_S3}/{year}.parquet"
    with fs.open(path, 'rb') as file_in:
        df = pd.read_parquet(file_in)
        dfs_final[year] = df

 

In [35]:
# tester que l'imputation a été bien effectuée 
# on trie en ordre décroissant le pourcentage de valeurs manquantes et on regarde la première valeur 

for year in years :
    df = dfs_final[year]
    missing_values = df.isna().mean().sort_values(ascending=False) * 100
    assert missing_values.iloc[0] == 0.0, f"Erreur : la première valeur est {missing_values.iloc[0]} au lieu de 0.0 pour {year}"