##  Commençons par visualiser le premier dataset pour voir son contenu et décider de comment on évoluera

In [0]:
df_mal=spark.read.format('csv').option('header', 'true').load('/Volumes/workspace/talom_projet/data_row/maladies_villes_mensuel.csv')
df_mal.display()

id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire
577,9,2016-09,700,528,205,0.034,1.82
923,9,2024-10,,399,162,,0.70
856,8,2024-02,249,,76,0.035,0.61
736,5,2017-02,821,564,240,0.044,1.96
306,8,2023-08,395,286,133,0.034,2.11
878,6,2018-09,823,588,235,0033,2.18e+00
601,9,2019-12,828,,239,0.044,0.81
669,10,2021-08,830,625,248,4.0%,1.89
525,2,2020-05,565,457,187,0087,19
498,3,2023-08,,662,282,0.063,2.83e+00


- ### Premier constat: Les données sont mal encodées dans certaines colonnes ( taux_hospitalisation,mortalité_respiratoire) où les chiffres sont mélés aux caractères non numérique.

- ### Solution : Appliquer la fonction replace pour remplacer les caractères par de l'espace et ensuitze procéder à une conversion numérique pour pouvoir effectuer une corrélation ( opération numérique)

- ### Problème majeur : La fonction replace est limité pour ce cas, puisqu'il faut connaitre le caractère cible, on ne les connait pas tous, explorer toutes les colonnes à la main serait inconcevable.

- ### Solution : Passer dans toutes les colonnes, grâce à une expression regulière ( fonction regexp) collecter toutes les caratères, on pourrait même appliquer l'expression régulière directement sur toute la colonne cela nous éviterai de passer par la fonction replace. On procèdera ainsi à une extraction des valeurs numérique ( fonction regexp_extract)  les lignes qui contienne uniquement des chiffres ne seront pas modifiées, celles qui comportent des chiffre et des caratères veront leurs caractère supprimés, enfin, celles qui comporte uniquement des caratères seront totalement supprimées, il faudra ensuite les remplacer par des valeurs NaN.

- ### Problème : Les données des valeurs flotantes sont encodées en str, une valeur comme 3.14 ( valeur numérique) risque de devenir 314.

- ###  pour palier au problème, il suffirait d'inclure le '.' dans l'écriture de l'expression régulière.

- ### Aussi pour les valeurs flotantes qui ont des virgules, on va se contenter de remplacer les ',' par des '.' avant de commencer l'extraction.



In [0]:
from pyspark.sql.functions import regexp_replace,regexp_extract,col

In [0]:
data=[(1,'1,15'),(2,'2.27%'),(3,'4.0-4')]
df1= spark.createDataFrame(data,schema=['id','id_dept'])
df1.display()

id,id_dept
1,115
2,2.27%
3,4.0-4


In [0]:
df1.withColumn('id_dept',regexp_extract(col('id_dept'),r'\d+[.,-]?\d*',0)).display()

id,id_dept
1,115.0
2,2.27
3,4.0


In [0]:
df_mal.display() # avant transoformation pour pouvoir comparer visuelement

for column in df_mal.columns:
    df_mal=df_mal.withColumn(column,
                             regexp_extract(col(column),r'\d+[.,-]?\d*',0) ) #Pour inclure 3.14 et 3,14 et les dates
    

df_mal.display()

    

id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire
577,9,2016-09,700,528,205,0.034,1.82
923,9,2024-10,,399,162,,0.70
856,8,2024-02,249,,76,0.035,0.61
736,5,2017-02,821,564,240,0.044,1.96
306,8,2023-08,395,286,133,0.034,2.11
878,6,2018-09,823,588,235,0033,2.18e+00
601,9,2019-12,828,,239,0.044,0.81
669,10,2021-08,830,625,248,4.0%,1.89
525,2,2020-05,565,457,187,0087,19
498,3,2023-08,,662,282,0.063,2.83e+00


id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire
577,9,2016-09,700.0,528.0,205.0,0.034,1.82
923,9,2024-10,,399.0,162.0,,0.7
856,8,2024-02,249.0,,76.0,0.035,0.61
736,5,2017-02,821.0,564.0,240.0,0.044,1.96
306,8,2023-08,395.0,286.0,133.0,0.034,2.11
878,6,2018-09,823.0,588.0,235.0,33.0,2.18
601,9,2019-12,828.0,,239.0,0.044,0.81
669,10,2021-08,830.0,625.0,248.0,4.0,1.89
525,2,2020-05,565.0,457.0,187.0,87.0,19.0
498,3,2023-08,,662.0,282.0,0.063,2.83


### Comme on peu le voir, grâce au matche \d+[.,]\d* , seul les éléments qui respectaient la condition de matchage on été conservés. 

### Par exemple, on peu voir qu'à la ligne 6 pour les deux dernières colonnes, on a les valeurs 0,033 et 2.18e+00 pour l'ancien df, pour le nouveau, on peu voir au même position les valeurs 0,033 et 2.18, le'e+00' a disparu ( résultat attendu), aussi, on a conserver la virgule dans les valeurs flotantes ( on aurait eu 0033 sinon)

### A présent, on va convertir les valeurs en ',' par des valeurs en '.'

In [0]:
for column in df_mal.columns:
    df_mal=df_mal.withColumn(column,regexp_replace(col(column),',','.'))

df_mal.display()

id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire
577,9,2016-09,700.0,528.0,205.0,0.034,1.82
923,9,2024-10,,399.0,162.0,,0.7
856,8,2024-02,249.0,,76.0,0.035,0.61
736,5,2017-02,821.0,564.0,240.0,0.044,1.96
306,8,2023-08,395.0,286.0,133.0,0.034,2.11
878,6,2018-09,823.0,588.0,235.0,0.033,2.18
601,9,2019-12,828.0,,239.0,0.044,0.81
669,10,2021-08,830.0,625.0,248.0,4.0,1.89
525,2,2020-05,565.0,457.0,187.0,0.087,1.9
498,3,2023-08,,662.0,282.0,0.063,2.83


### Le 0,033 de la ligne  6 dans l'acant dernière colonne est devenu 0.033
### Maintenant, il reste à gérer les valeurs qui n'ont pas respecter le matchage, elles ont été changées en chaine vide, on va les changer en NaN, pas les supprimés.

In [0]:
from pyspark.sql.functions import trim

In [0]:
for column in df_mal.columns:
    print(f'La colonne {column} contient',
          df_mal.filter(trim(col(column))=='').count(),
          'valeurs vides.')

La colonne id_maladie contient 0 valeurs vides.
La colonne id_ville contient 0 valeurs vides.
La colonne date contient 0 valeurs vides.
La colonne cas_asthme contient 0 valeurs vides.
La colonne cas_bronchite contient 0 valeurs vides.
La colonne cas_cancer_poumon contient 0 valeurs vides.
La colonne taux_hospitalisation contient 27 valeurs vides.
La colonne mortalite_respiratoire contient 19 valeurs vides.


In [0]:
df_mal.filter(trim(col('taux_hospitalisation'))=='').display()

id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire
729,4,2022-08,589.0,999.0,,,1.97
47,9,2021-10,554.0,427.0,177.0,,0.02
133,9,2019-10,,743.0,305.0,,2.03
956,10,2016-05,434.0,243.0,130.0,,0.47
680,4,2022-09,349.0,310.0,95.0,,2.29
496,8,2021-07,670.0,449.0,,,2.55
563,6,2022-10,662.0,520.0,197.0,,
302,9,2021-04,728.0,570.0,232.0,,1.73
742,6,2023-02,713.0,437.0,184.0,,2.57
874,1,2021-10,459.0,380.0,158.0,,1.85


In [0]:
df_mal.withColumn('taux_hospitalisation',regexp_replace(col('taux_hospitalisation'),'',None)).display()
#Ici, toutes les valeurs de la colonne taux_hospitalisation sont vides. c'est due au fait que dans cette colonne, il y a quand même du vide (au début, au milieu et à la fin de chaque valeur), on va éviter cela en utilisant la fonction trim() sur la colonne qui va supprimé tout espace, si même après ça, la chaine vaut tjr '', alors elle est réélement vide

id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire
577,9,2016-09,700.0,528.0,205.0,,1.82
923,9,2024-10,,399.0,162.0,,0.7
856,8,2024-02,249.0,,76.0,,0.61
736,5,2017-02,821.0,564.0,240.0,,1.96
306,8,2023-08,395.0,286.0,133.0,,2.11
878,6,2018-09,823.0,588.0,235.0,,2.18
601,9,2019-12,828.0,,239.0,,0.81
669,10,2021-08,830.0,625.0,248.0,,1.89
525,2,2020-05,565.0,457.0,187.0,,1.9
498,3,2023-08,,662.0,282.0,,2.83


In [0]:
from pyspark.sql.functions import when

In [0]:
df_mal.withColumn('taux_hospitalisation',when(
    trim(col('taux_hospitalisation'))=='',None
    ).otherwise(col('taux_hospitalisation'))
).filter(col('taux_hospitalisation').isNull()).display()


id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire
923,9,2024-10,,399.0,162.0,,0.7
200,6,2022-12,541.0,311.0,155.0,,1.0
915,7,2016-11,823.0,543.0,247.0,,1.79
636,6,2023-03,,614.0,231.0,,1.99
729,4,2022-08,589.0,999.0,,,1.97
852,9,2016-12,425.0,429.0,153.0,,0.3
47,9,2021-10,554.0,427.0,177.0,,0.02
677,2,2024-08,452.0,337.0,141.0,,1.85
133,9,2019-10,,743.0,305.0,,2.03
161,1,2018-08,493.0,421.0,181.0,,3.03


### On a total 131 valeurs nulles qui doivent correspondre au nombre de  valeurs vide du dépard (27) + le nombre de NaN qui étaient déjà présent, en filtrant sur les NaN , on devrait avoir 131-27=104.

In [0]:
df_mal.filter(col('taux_hospitalisation').isNull()).count()
# Maintenant qu'on est sûr, on peut appliquer les modifications sur le df à présent sans crainte.

104

In [0]:
df_mal=df_mal.withColumn('taux_hospitalisation',when(
    trim(col('taux_hospitalisation'))=='',None
    ).otherwise(col('taux_hospitalisation'))
)

df_mal.display()


id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire
577,9,2016-09,700.0,528.0,205.0,0.034,1.82
923,9,2024-10,,399.0,162.0,,0.7
856,8,2024-02,249.0,,76.0,0.035,0.61
736,5,2017-02,821.0,564.0,240.0,0.044,1.96
306,8,2023-08,395.0,286.0,133.0,0.034,2.11
878,6,2018-09,823.0,588.0,235.0,0.033,2.18
601,9,2019-12,828.0,,239.0,0.044,0.81
669,10,2021-08,830.0,625.0,248.0,4.0,1.89
525,2,2020-05,565.0,457.0,187.0,0.087,1.9
498,3,2023-08,,662.0,282.0,0.063,2.83


### Okay, on va faire le même cheminement avec la colonne mortalite_respiratoire  qui contenait 19 valeurs vides

In [0]:
df_mal.filter(col('taux_hospitalisation').isNull()).count()

131

In [0]:
df_mal.filter(trim(col('mortalite_respiratoire'))=='').display()

id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire
176,1,2023-07,500.0,,145.0,3.1,
58,3,2023-04,906.0,724.0,282.0,,
563,6,2022-10,662.0,520.0,197.0,,
491,10,2023-11,683.0,525.0,217.0,0.022,
712,9,2023-05,906.0,683.0,284.0,5.6,
182,6,2020-10,784.0,573.0,245.0,0.055,
139,7,2020-03,979.0,739.0,308.0,0.056,
682,7,2022-09,790.0,613.0,253.0,0.041,
737,1,2021-03,999.0,423.0,181.0,0.064,
29,10,2017-09,,,999.0,0.045,


In [0]:
df_mal.withColumn('mortalite_respiratoire',when(
    trim(col('mortalite_respiratoire'))=='',None
    ).otherwise(col('mortalite_respiratoire'))
).filter(col('mortalite_respiratoire').isNull()).display()


id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire
176,1,2023-07,500.0,,145.0,3.1,
58,3,2023-04,906.0,724.0,282.0,,
555,4,2024-11,517.0,999.0,165.0,0.029,
563,6,2022-10,662.0,520.0,197.0,,
491,10,2023-11,683.0,525.0,217.0,0.022,
712,9,2023-05,906.0,683.0,284.0,5.6,
182,6,2020-10,784.0,573.0,245.0,0.055,
139,7,2020-03,979.0,739.0,308.0,0.056,
682,7,2022-09,790.0,613.0,253.0,0.041,
737,1,2021-03,999.0,423.0,181.0,0.064,


%md
### On a total 25 valeurs nulles qui doivent correspondre au nombre de  valeurs vide du dépard (19) + le nombre de NaN qui étaient déjà présent, en filtrant sur les NaN , on devrait avoir 25-19=6.

In [0]:
df_mal.filter(col('mortalite_respiratoire').isNull()).count()
# Maintenant qu'on est sûr, on peut appliquer les modifications sur le df à présent sans crainte.

6

In [0]:
df_mal=df_mal.withColumn('mortalite_respiratoire',when(
    trim(col('mortalite_respiratoire'))=='',None
    ).otherwise(col('mortalite_respiratoire'))
)

df_mal.display()


id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire
577,9,2016-09,700.0,528.0,205.0,0.034,1.82
923,9,2024-10,,399.0,162.0,,0.7
856,8,2024-02,249.0,,76.0,0.035,0.61
736,5,2017-02,821.0,564.0,240.0,0.044,1.96
306,8,2023-08,395.0,286.0,133.0,0.034,2.11
878,6,2018-09,823.0,588.0,235.0,0.033,2.18
601,9,2019-12,828.0,,239.0,0.044,0.81
669,10,2021-08,830.0,625.0,248.0,4.0,1.89
525,2,2020-05,565.0,457.0,187.0,0.087,1.9
498,3,2023-08,,662.0,282.0,0.063,2.83


### A présent que tout est propre, on peut effectuer la convertion des valeurs String en double pour effecter les corr. Ensuite, il faudra gérer les valeurs NaN sans les supprimer bien sûr.

In [0]:
for column in df_mal.columns:
  if column=='date':
      continue
  df_mal=df_mal.withColumn(column,col(column).cast('double'))

df_mal.display()

id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire
577.0,9.0,2016-09,700.0,528.0,205.0,0.034,1.82
923.0,9.0,2024-10,,399.0,162.0,,0.7
856.0,8.0,2024-02,249.0,,76.0,0.035,0.61
736.0,5.0,2017-02,821.0,564.0,240.0,0.044,1.96
306.0,8.0,2023-08,395.0,286.0,133.0,0.034,2.11
878.0,6.0,2018-09,823.0,588.0,235.0,0.033,2.18
601.0,9.0,2019-12,828.0,,239.0,0.044,0.81
669.0,10.0,2021-08,830.0,625.0,248.0,4.0,1.89
525.0,2.0,2020-05,565.0,457.0,187.0,0.087,1.9
498.0,3.0,2023-08,,662.0,282.0,0.063,2.83


### Maintenant, on va traiter les valeurs manquantes.
### On va pour chaque ville retrouver la valeur moyen des valeurs pour chaque colonne puis ensuite remplacer les NaN par ces valeurs.

In [0]:
from pyspark.sql.functions import count

In [0]:
for column in df_mal.columns:
    print(f'La colonne {column} contient',df_mal.filter(col(column).isNull()).count()
          ,'des valeurs manquantes.')


La colonne id_maladie contient 0 des valeurs manquantes.
La colonne id_ville contient 0 des valeurs manquantes.
La colonne date contient 0 des valeurs manquantes.
La colonne cas_asthme contient 81 des valeurs manquantes.
La colonne cas_bronchite contient 58 des valeurs manquantes.
La colonne cas_cancer_poumon contient 91 des valeurs manquantes.
La colonne taux_hospitalisation contient 131 des valeurs manquantes.
La colonne mortalite_respiratoire contient 25 des valeurs manquantes.


In [0]:
df_mal.describe().display()

summary,id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire
count,1080.0,1080.0,1080,999.0,1022.0,989.0,949.0,1055.0
mean,540.5,5.5,,1846.131131131131,1154.4011741682975,509.5116279069768,9.933143308746043,9.70308056872038
stddev,311.9134495336808,2.873612007298365,,10432.878706091324,5939.831891116892,2518.762071653348,91.30323797769444,73.59052154831801
min,1.0,1.0,2016-01,1.0,9.0,1.0,0.0,0.0
max,1080.0,10.0,2024-12,174563.0,81305.0,33875.0,999.0,999.0


###  Avant, on va examiner les cas où les taux_hospitalisation et mortakute_respiratoire sont à 999, on va les supprimer

In [0]:
df_mal.filter(col('taux_hospitalisation')>=100).display()
df_mal.filter(col('mortalite_respiratoire')>=100).display()

id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire
189.0,3.0,2024-02,637.0,487.0,191.0,999.0,0.62
926.0,5.0,2020-02,828.0,676.0,271.0,999.0,0.9
754.0,10.0,2022-02,734.0,529.0,240.0,999.0,1.8
734.0,1.0,2021-02,477.0,303.0,137.0,999.0,1.87
561.0,8.0,2019-01,999.0,,93.0,999.0,1.48
10.0,2.0,2024-07,555.0,402.0,170.0,999.0,1.86
249.0,2.0,2024-09,374.0,320.0,120.0,999.0,2.4
524.0,10.0,2017-05,926.0,659.0,275.0,999.0,1.97


id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire
126.0,8.0,2018-06,78930.0,59.0,24667.0,0.25,334.16
1039.0,6.0,2017-04,673.0,541.0,212.0,0.086,999.0
341.0,4.0,2021-04,61417.0,46143.0,19223.0,0.25,251.95
780.0,6.0,2019-08,104158.0,78130.0,,0.25,250.99
793.0,10.0,2021-09,104572.0,78423.0,32681.0,25.0,251.5
379.0,9.0,2020-12,774.0,566.0,248.0,0.0,999.0
353.0,3.0,2016-12,108414.0,81305.0,33875.0,,251.76
31.0,1.0,2019-11,54135.0,40648.0,16928.0,,251.84
1079.0,1.0,2024-10,54.0,40583.0,16915.0,0.25,251.74
462.0,2.0,2016-12,533.0,410.0,161.0,6.8,999.0


In [0]:
df_mal=df_mal.withColumn('taux_hospitalisation',when(col('taux_hospitalisation')>=100,None).otherwise(col('taux_hospitalisation')))
df_mal=df_mal.withColumn('mortalite_respiratoire',when(col('mortalite_respiratoire')>=100,None).otherwise(col('mortalite_respiratoire')))


In [0]:
df_mal.filter(col('taux_hospitalisation')>=100).display()
df_mal.filter(col('mortalite_respiratoire')>=100).display()
#Maintenant, on peut attaquer les valeurs NaN

id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire


id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire


In [0]:
from pyspark.sql.functions import mean
from pyspark.sql.window import Window

In [0]:
for column in ['cas_asthme','cas_bronchite','cas_cancer_poumon','taux_hospitalisation','mortalite_respiratoire']:
    df_mal=df_mal.withColumn(column,when(
        col(column).isNull(),mean(column).over(Window.partitionBy('id_ville'))
        ).otherwise(col(column))
    )
    

In [0]:
df_mal.display()

id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire
261.0,1.0,2016-05,350.0,296.0,114.0,0.094,1.78
1020.0,1.0,2017-03,363.0,252.0,115.0,0.066,1.29
979.0,1.0,2021-01,484.0,335.0,160.0,5.4,1.81
272.0,1.0,2020-08,365.0,310.0,121.0,0.04,1.64
1034.0,1.0,2020-04,529.0,409.0,158.0,0.063,2.86
603.0,1.0,2018-07,450.0,332.0,134.0,0.06,1.61
954.0,1.0,2020-11,371.0,285.0,115.0,6.8,1.61
308.0,1.0,2022-07,367.0,227.0,94.0,0.081,2.01
161.0,1.0,2018-08,493.0,421.0,181.0,1.873880434782609,3.03
176.0,1.0,2023-07,500.0,1211.0196078431372,145.0,3.1,2.159803921568628


In [0]:
for column in df_mal.columns:
    print(f'La colonne {column} contient',df_mal.filter(col(column).isNull()).count()
          ,'des valeurs manquantes.')


La colonne id_maladie contient 0 des valeurs manquantes.
La colonne id_ville contient 0 des valeurs manquantes.
La colonne date contient 0 des valeurs manquantes.
La colonne cas_asthme contient 0 des valeurs manquantes.
La colonne cas_bronchite contient 0 des valeurs manquantes.
La colonne cas_cancer_poumon contient 0 des valeurs manquantes.
La colonne taux_hospitalisation contient 0 des valeurs manquantes.
La colonne mortalite_respiratoire contient 0 des valeurs manquantes.


In [0]:
for column in df_mal.columns:
    if df_mal.filter(col(column).isNull()).count() >0:
      print(f'La colonne {column} contient des valeurs manquantes.')


In [0]:
df_mal.filter(col('cas_asthme').isNull()).display()

id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire


### Le premier df est nettoyé, on passe second dataset 

In [0]:
df_pol=spark.read.format('csv').option('header','true').load('/Volumes/workspace/talom_projet/data_row/pollution_villes_mensuel.csv')

df_pol.display()

id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
9,Bordeaux,2024-09,30.80,9.08e+00,0.98,100.00,270948.0,1.30e+01
2,Lyo n,2024-06,38.05,5.16,1.12,100.00,-10,12.04
8,montpellier,2018-11,-9.99e+02,11.98,0.70,798,380 216,14.71
10,Lilé,2024-10,2.04e+01,14.88 ppb,0.48 ppm,8.21e+01,189513,10.22
7,strasbourg,2016-01,22.63,16.08,1.05,94.08,250002.0,8.89 °C
9,Bordeaux,2016-08,13.88,11.66,0.85,655,350380.0,14.31
1,paris,2024-08,,1.09e+01,0.50,100.00,?,13.55
8,Montpellier,2017-10,14.61,8.11,0.88 ppm,56.70,267916.0,16.67
8,Montpellier,2019-10,13.57,12.61,1.06,61.30,,13.09
2,lyon,2024-07,32.02 µg/m³,1.03e+01,8.35e-01,99.26,528468.0,10.69


### Les données des deux df sont liées par la colonne id_ville, d'abord, on va attaquer la colonne ville qui contient les noms des villes qui sont mal encodés

In [0]:
df_pol.orderBy(col('id_ville').cast('int')).display()

id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
1,PARIS,2022-02,11.67,9.78e+00,0.80,51.64,2 044 627,12.11
1,París,2017-06,23.92,68,07,78.59,2242309,12.37
1,PARIS,2019-11,-999,7.60,0.72,88.63,2153675,12.86
1,Pari,2022-08,418,90,-999,100.00,2301944,1.33e+01
1,Paris,2022-12,19.12,4.47,0.93,73.36,2078071.0,12.76
1,Paris,2022-10,212,5.67 ppb,1.12 ppm,77.09,2147601.0,13.68
1,PARIS,2016-08,25.96,8.80,03,77.80,2124968.0,13.26
1,París,2021-02,29.02 µg/m³,10.05 ppb,0.72,91.00,2 149 225,1.27e+01
1,Paris,2016-12,2.64e+01,14.01,0.79,91.58,2166069,137
1,PARIS,2019-02,33.18 µg/m³,3.55,5.82e-01,99.53,2151214.0,11.12


### Avec ça, on peut avoir le nom de la ville et l'id qui lui est affiliée. On peut alors faire un remplacement en se basant sur les id_ville

In [0]:

df_pol=df_pol.withColumn('ville',when(col('id_ville')=='1','Paris').when(col('id_ville')=='2','Lyon').when(col('id_ville')=='3','Marseille').when(col('id_ville')=='4','Toulouse').when(col('id_ville')=='5','Nice').when(col('id_ville')=='6','Nantes').when(col('id_ville')=='7','Strasbourg').when(col('id_ville')=='8','Montpellier').when(col('id_ville')=='9','Bordeaux').when(col('id_ville')=='10','Lille'))

df_pol.display()

id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
9,Bordeaux,2024-09,30.80,9.08e+00,0.98,100.00,270948.0,1.30e+01
2,Lyon,2024-06,38.05,5.16,1.12,100.00,-10,12.04
8,Montpellier,2018-11,-9.99e+02,11.98,0.70,798,380 216,14.71
10,Lille,2024-10,2.04e+01,14.88 ppb,0.48 ppm,8.21e+01,189513,10.22
7,Strasbourg,2016-01,22.63,16.08,1.05,94.08,250002.0,8.89 °C
9,Bordeaux,2016-08,13.88,11.66,0.85,655,350380.0,14.31
1,Paris,2024-08,,1.09e+01,0.50,100.00,?,13.55
8,Montpellier,2017-10,14.61,8.11,0.88 ppm,56.70,267916.0,16.67
8,Montpellier,2019-10,13.57,12.61,1.06,61.30,,13.09
2,Lyon,2024-07,32.02 µg/m³,1.03e+01,8.35e-01,99.26,528468.0,10.69


### On attaque ensuite les 6 dernières colonnes, on commence par extraires les valeurs numériques qu'on utilisera par la suite

In [0]:
df_pol.display() # avant transoformation pour pouvoir comparer visuelement

for column in df_pol.columns:
    if column=='ville':
        continue
    df_pol=df_pol.withColumn(column,
                             regexp_extract(col(column),r'\d+[.,-]?\d*',0) ) #Pour inclure 3.14 et 3,14 et les dates
    

df_pol.display()

    

id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
9,Bordeaux,2024-09,30.80,9.08e+00,0.98,100.00,270948.0,1.30e+01
2,Lyon,2024-06,38.05,5.16,1.12,100.00,-10,12.04
8,Montpellier,2018-11,-9.99e+02,11.98,0.70,798,380 216,14.71
10,Lille,2024-10,2.04e+01,14.88 ppb,0.48 ppm,8.21e+01,189513,10.22
7,Strasbourg,2016-01,22.63,16.08,1.05,94.08,250002.0,8.89 °C
9,Bordeaux,2016-08,13.88,11.66,0.85,655,350380.0,14.31
1,Paris,2024-08,,1.09e+01,0.50,100.00,?,13.55
8,Montpellier,2017-10,14.61,8.11,0.88 ppm,56.70,267916.0,16.67
8,Montpellier,2019-10,13.57,12.61,1.06,61.30,,13.09
2,Lyon,2024-07,32.02 µg/m³,1.03e+01,8.35e-01,99.26,528468.0,10.69


id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
9,Bordeaux,2024-09,30.8,9.08,0.98,100.0,270948.0,1.3
2,Lyon,2024-06,38.05,5.16,1.12,100.0,10.0,12.04
8,Montpellier,2018-11,9.99,11.98,0.7,798.0,380.0,14.71
10,Lille,2024-10,2.04,14.88,0.48,8.21,189513.0,10.22
7,Strasbourg,2016-01,22.63,16.08,1.05,94.08,250002.0,8.89
9,Bordeaux,2016-08,13.88,11.66,0.85,655.0,350380.0,14.31
1,Paris,2024-08,,1.09,0.5,100.0,,13.55
8,Montpellier,2017-10,14.61,8.11,0.88,56.7,267916.0,16.67
8,Montpellier,2019-10,13.57,12.61,1.06,61.3,,13.09
2,Lyon,2024-07,32.02,1.03,8.35,99.26,528468.0,10.69


In [0]:
for column in df_pol.columns:
    if column=='date'or column=='ville':
        continue
    df_pol=df_pol.withColumn(column,regexp_replace(col(column),',','.'))

df_pol.display()

id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
9,Bordeaux,2024-09,30.8,9.08,0.98,100.0,270948.0,1.3
2,Lyon,2024-06,38.05,5.16,1.12,100.0,10.0,12.04
8,Montpellier,2018-11,9.99,11.98,0.7,79.8,380.0,14.71
10,Lille,2024-10,2.04,14.88,0.48,8.21,189513.0,10.22
7,Strasbourg,2016-01,22.63,16.08,1.05,94.08,250002.0,8.89
9,Bordeaux,2016-08,13.88,11.66,0.85,65.5,350380.0,14.31
1,Paris,2024-08,,1.09,0.5,100.0,,13.55
8,Montpellier,2017-10,14.61,8.11,0.88,56.7,267916.0,16.67
8,Montpellier,2019-10,13.57,12.61,1.06,61.3,,13.09
2,Lyon,2024-07,32.02,1.03,8.35,99.26,528468.0,10.69


In [0]:
for column in df_pol.columns:
    print(f'La colonne {column} contient',
          df_pol.filter(trim(col(column))=='').count(),
          'valeurs vides.')

La colonne id_ville contient 0 valeurs vides.
La colonne ville contient 0 valeurs vides.
La colonne date contient 0 valeurs vides.
La colonne pm25 contient 30 valeurs vides.
La colonne dioxyde_soufre contient 31 valeurs vides.
La colonne monoxyde_carbone contient 23 valeurs vides.
La colonne indice_pollution contient 27 valeurs vides.
La colonne population contient 35 valeurs vides.
La colonne temperature_moyenne contient 27 valeurs vides.


In [0]:
for column in ['pm25','dioxyde_soufre','monoxyde_carbone','indice_pollution','population','temperature_moyenne']:
    df_pol=df_pol.withColumn(column,when(
        trim(col(column))=='',None
        ).otherwise(col(column))
    )

    df_pol.display()


id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
9,Bordeaux,2024-09,30.8,9.08,0.98,100.0,270948.0,1.3
2,Lyon,2024-06,38.05,5.16,1.12,100.0,10.0,12.04
8,Montpellier,2018-11,9.99,11.98,0.7,79.8,380.0,14.71
10,Lille,2024-10,2.04,14.88,0.48,8.21,189513.0,10.22
7,Strasbourg,2016-01,22.63,16.08,1.05,94.08,250002.0,8.89
9,Bordeaux,2016-08,13.88,11.66,0.85,65.5,350380.0,14.31
1,Paris,2024-08,,1.09,0.5,100.0,,13.55
8,Montpellier,2017-10,14.61,8.11,0.88,56.7,267916.0,16.67
8,Montpellier,2019-10,13.57,12.61,1.06,61.3,,13.09
2,Lyon,2024-07,32.02,1.03,8.35,99.26,528468.0,10.69


id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
9,Bordeaux,2024-09,30.8,9.08,0.98,100.0,270948.0,1.3
2,Lyon,2024-06,38.05,5.16,1.12,100.0,10.0,12.04
8,Montpellier,2018-11,9.99,11.98,0.7,79.8,380.0,14.71
10,Lille,2024-10,2.04,14.88,0.48,8.21,189513.0,10.22
7,Strasbourg,2016-01,22.63,16.08,1.05,94.08,250002.0,8.89
9,Bordeaux,2016-08,13.88,11.66,0.85,65.5,350380.0,14.31
1,Paris,2024-08,,1.09,0.5,100.0,,13.55
8,Montpellier,2017-10,14.61,8.11,0.88,56.7,267916.0,16.67
8,Montpellier,2019-10,13.57,12.61,1.06,61.3,,13.09
2,Lyon,2024-07,32.02,1.03,8.35,99.26,528468.0,10.69


id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
9,Bordeaux,2024-09,30.8,9.08,0.98,100.0,270948.0,1.3
2,Lyon,2024-06,38.05,5.16,1.12,100.0,10.0,12.04
8,Montpellier,2018-11,9.99,11.98,0.7,79.8,380.0,14.71
10,Lille,2024-10,2.04,14.88,0.48,8.21,189513.0,10.22
7,Strasbourg,2016-01,22.63,16.08,1.05,94.08,250002.0,8.89
9,Bordeaux,2016-08,13.88,11.66,0.85,65.5,350380.0,14.31
1,Paris,2024-08,,1.09,0.5,100.0,,13.55
8,Montpellier,2017-10,14.61,8.11,0.88,56.7,267916.0,16.67
8,Montpellier,2019-10,13.57,12.61,1.06,61.3,,13.09
2,Lyon,2024-07,32.02,1.03,8.35,99.26,528468.0,10.69


id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
9,Bordeaux,2024-09,30.8,9.08,0.98,100.0,270948.0,1.3
2,Lyon,2024-06,38.05,5.16,1.12,100.0,10.0,12.04
8,Montpellier,2018-11,9.99,11.98,0.7,79.8,380.0,14.71
10,Lille,2024-10,2.04,14.88,0.48,8.21,189513.0,10.22
7,Strasbourg,2016-01,22.63,16.08,1.05,94.08,250002.0,8.89
9,Bordeaux,2016-08,13.88,11.66,0.85,65.5,350380.0,14.31
1,Paris,2024-08,,1.09,0.5,100.0,,13.55
8,Montpellier,2017-10,14.61,8.11,0.88,56.7,267916.0,16.67
8,Montpellier,2019-10,13.57,12.61,1.06,61.3,,13.09
2,Lyon,2024-07,32.02,1.03,8.35,99.26,528468.0,10.69


id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
9,Bordeaux,2024-09,30.8,9.08,0.98,100.0,270948.0,1.3
2,Lyon,2024-06,38.05,5.16,1.12,100.0,10.0,12.04
8,Montpellier,2018-11,9.99,11.98,0.7,79.8,380.0,14.71
10,Lille,2024-10,2.04,14.88,0.48,8.21,189513.0,10.22
7,Strasbourg,2016-01,22.63,16.08,1.05,94.08,250002.0,8.89
9,Bordeaux,2016-08,13.88,11.66,0.85,65.5,350380.0,14.31
1,Paris,2024-08,,1.09,0.5,100.0,,13.55
8,Montpellier,2017-10,14.61,8.11,0.88,56.7,267916.0,16.67
8,Montpellier,2019-10,13.57,12.61,1.06,61.3,,13.09
2,Lyon,2024-07,32.02,1.03,8.35,99.26,528468.0,10.69


id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
9,Bordeaux,2024-09,30.8,9.08,0.98,100.0,270948.0,1.3
2,Lyon,2024-06,38.05,5.16,1.12,100.0,10.0,12.04
8,Montpellier,2018-11,9.99,11.98,0.7,79.8,380.0,14.71
10,Lille,2024-10,2.04,14.88,0.48,8.21,189513.0,10.22
7,Strasbourg,2016-01,22.63,16.08,1.05,94.08,250002.0,8.89
9,Bordeaux,2016-08,13.88,11.66,0.85,65.5,350380.0,14.31
1,Paris,2024-08,,1.09,0.5,100.0,,13.55
8,Montpellier,2017-10,14.61,8.11,0.88,56.7,267916.0,16.67
8,Montpellier,2019-10,13.57,12.61,1.06,61.3,,13.09
2,Lyon,2024-07,32.02,1.03,8.35,99.26,528468.0,10.69


In [0]:
for column in ['pm25','dioxyde_soufre','monoxyde_carbone','indice_pollution','population','temperature_moyenne']:
  df_pol=df_pol.withColumn(column,col(column).cast('double'))

df_pol.display()

id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
9,Bordeaux,2024-09,30.8,9.08,0.98,100.0,270948.0,1.3
2,Lyon,2024-06,38.05,5.16,1.12,100.0,10.0,12.04
8,Montpellier,2018-11,9.99,11.98,0.7,79.8,380.0,14.71
10,Lille,2024-10,2.04,14.88,0.48,8.21,189513.0,10.22
7,Strasbourg,2016-01,22.63,16.08,1.05,94.08,250002.0,8.89
9,Bordeaux,2016-08,13.88,11.66,0.85,65.5,350380.0,14.31
1,Paris,2024-08,,1.09,0.5,100.0,,13.55
8,Montpellier,2017-10,14.61,8.11,0.88,56.7,267916.0,16.67
8,Montpellier,2019-10,13.57,12.61,1.06,61.3,,13.09
2,Lyon,2024-07,32.02,1.03,8.35,99.26,528468.0,10.69


In [0]:
for column in df_pol.columns:
    print(f'La colonne {column} contient',df_pol.filter(col(column).isNull()).count()
          ,'des valeurs manquantes.')


La colonne id_ville contient 0 des valeurs manquantes.
La colonne ville contient 0 des valeurs manquantes.
La colonne date contient 0 des valeurs manquantes.
La colonne pm25 contient 42 des valeurs manquantes.
La colonne dioxyde_soufre contient 42 des valeurs manquantes.
La colonne monoxyde_carbone contient 34 des valeurs manquantes.
La colonne indice_pollution contient 41 des valeurs manquantes.
La colonne population contient 45 des valeurs manquantes.
La colonne temperature_moyenne contient 39 des valeurs manquantes.


In [0]:
df_pol.describe().display()

summary,id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
count,1080.0,1080,1080,1038.0,1038.0,1046.0,1039.0,1035.0,1041.0
mean,5.5,,,92.32012524084766,96.22451830443178,10.877237093690256,74.4598845043311,523283.65603864734,22.57970220941405
stddev,2.873612007298365,,,764.7959849270543,878.5058223239046,92.54227123263696,86.69462951803797,2720498.7564748647,101.0926156979888
min,1.0,Bordeaux,2016-01,1.0,0.03,0.0,1.0,2.0,1.0
max,9.0,Toulouse,2024-12,9999.0,9999.0,999.0,999.0,50000000.0,999.0


In [0]:
df_pol.filter(col('temperature_moyenne')>70).display()
#Une température de 999 est irréaliste sur terre, même en filtrant la température >70, on retrouve tjr les même 11 lignes qui comporte les valeurs 999 (irréaliste), on va faire un remplacement en NaN.

id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
3,Marseille,2022-07,29.74,8.0,1.49,100.0,866160.0,999.0
9,Bordeaux,2022-04,11.97,12.83,1.2,56.35,243.0,999.0
2,Lyon,2020-07,34.57,7.39,0.59,93.94,497.0,999.0
6,Nantes,2022-05,14.6,11.33,0.93,61.64,363258.0,999.0
8,Montpellier,2017-05,20.32,13.35,0.53,61.55,326.0,999.0
10,Lille,2017-10,18.39,21.86,,95.25,233744.0,999.0
5,Nice,2016-12,17.13,12.21,0.41,60.73,369.0,999.0
4,Toulouse,2022-03,35.01,14.1,0.24,100.0,415173.0,999.0
7,Strasbourg,2024-01,17.42,6.45,,66.27,295372.0,999.0
7,Strasbourg,2018-02,,8.69,0.9,79.48,209205.0,999.0


In [0]:
df_pol=df_pol.withColumn('temperature_moyenne',when(col('temperature_moyenne')>70,None).otherwise(col('temperature_moyenne')))

df_pol.display()

id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
9,Bordeaux,2024-09,30.8,9.08,0.98,100.0,270948.0,1.3
2,Lyon,2024-06,38.05,5.16,1.12,100.0,10.0,12.04
8,Montpellier,2018-11,9.99,11.98,0.7,79.8,380.0,14.71
10,Lille,2024-10,2.04,14.88,0.48,8.21,189513.0,10.22
7,Strasbourg,2016-01,22.63,16.08,1.05,94.08,250002.0,8.89
9,Bordeaux,2016-08,13.88,11.66,0.85,65.5,350380.0,14.31
1,Paris,2024-08,,1.09,0.5,100.0,,13.55
8,Montpellier,2017-10,14.61,8.11,0.88,56.7,267916.0,16.67
8,Montpellier,2019-10,13.57,12.61,1.06,61.3,,13.09
2,Lyon,2024-07,32.02,1.03,8.35,99.26,528468.0,10.69


In [0]:
for column in df_pol.columns:
    if column=='id_ville' or column =='ville' or column=='date':
        continue
    df_pol=df_pol.withColumn(column,when(
        col(column).isNull(),mean(column).over(Window.partitionBy('id_ville'))
        ).otherwise(col(column))
    )
    

In [0]:
for column in df_pol.columns:
    print(f'La colonne {column} contient',df_pol.filter(col(column).isNull()).count()
          ,'des valeurs manquantes.')


La colonne id_ville contient 0 des valeurs manquantes.
La colonne ville contient 0 des valeurs manquantes.
La colonne date contient 0 des valeurs manquantes.
La colonne pm25 contient 0 des valeurs manquantes.
La colonne dioxyde_soufre contient 0 des valeurs manquantes.
La colonne monoxyde_carbone contient 0 des valeurs manquantes.
La colonne indice_pollution contient 0 des valeurs manquantes.
La colonne population contient 0 des valeurs manquantes.
La colonne temperature_moyenne contient 0 des valeurs manquantes.


In [0]:
df_pol.display()

id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
1,Paris,2024-08,44.49942307692307,1.09,0.5,100.0,1447095.774509804,13.55
1,Paris,2017-02,44.49942307692307,2.0,6.45,80.88,2221894.0,11.68
1,Paris,2021-09,28.08,12.1,0.88,9.14,2071294.0,13.5
1,Paris,2019-10,39.97,9999.0,0.99,100.0,2.0,12.66
1,Paris,2023-01,2.11,8.05,0.55,66.14,2.0,11.37
1,Paris,2021-08,27.05,10.19,0.59,91.89,2.0,12.1
1,Paris,2022-01,24.58,12.87,1.08,9.19,2229430.0,10.82
1,Paris,2020-03,19.54,7.76,0.89,72.41,1447095.774509804,1.23
1,Paris,2019-08,44.49942307692307,13.1,0.47,100.0,1985936.0,11.18
1,Paris,2023-12,27.17,16.71,0.78,99.69,2189470.0,9.99


In [0]:
df_mal.write.mode('overwrite').format('csv').option("header", "true").save('/Volumes/workspace/talom_projet/data_curated/maladies_villes_mensuel_curated.csv')

In [0]:
df_pol.write.mode('overwrite').format('csv').option("header", "true").save('/Volumes/workspace/talom_projet/data_curated/pollution_villes_mensuel_curated.csv')


In [0]:
df_mal.display()

id_maladie,id_ville,date,cas_asthme,cas_bronchite,cas_cancer_poumon,taux_hospitalisation,mortalite_respiratoire
261.0,1.0,2016-05,350.0,296.0,114.0,0.094,1.78
1020.0,1.0,2017-03,363.0,252.0,115.0,0.066,1.29
979.0,1.0,2021-01,484.0,335.0,160.0,5.4,1.81
272.0,1.0,2020-08,365.0,310.0,121.0,0.04,1.64
1034.0,1.0,2020-04,529.0,409.0,158.0,0.063,2.86
603.0,1.0,2018-07,450.0,332.0,134.0,0.06,1.61
954.0,1.0,2020-11,371.0,285.0,115.0,6.8,1.61
308.0,1.0,2022-07,367.0,227.0,94.0,0.081,2.01
161.0,1.0,2018-08,493.0,421.0,181.0,1.873880434782609,3.03
176.0,1.0,2023-07,500.0,1211.0196078431372,145.0,3.1,2.159803921568628


In [0]:
df_pol.display()

id_ville,ville,date,pm25,dioxyde_soufre,monoxyde_carbone,indice_pollution,population,temperature_moyenne
1,Paris,2024-08,44.49942307692307,1.09,0.5,100.0,1447095.774509804,13.55
1,Paris,2017-02,44.49942307692307,2.0,6.45,80.88,2221894.0,11.68
1,Paris,2021-09,28.08,12.1,0.88,9.14,2071294.0,13.5
1,Paris,2019-10,39.97,9999.0,0.99,100.0,2.0,12.66
1,Paris,2023-01,2.11,8.05,0.55,66.14,2.0,11.37
1,Paris,2021-08,27.05,10.19,0.59,91.89,2.0,12.1
1,Paris,2022-01,24.58,12.87,1.08,9.19,2229430.0,10.82
1,Paris,2020-03,19.54,7.76,0.89,72.41,1447095.774509804,1.23
1,Paris,2019-08,44.49942307692307,13.1,0.47,100.0,1985936.0,11.18
1,Paris,2023-12,27.17,16.71,0.78,99.69,2189470.0,9.99
