# NF26/AI07 - TD2 : Création d'un Modèle en Étoile 



In [1]:
import os
os.environ["PYARROW_IGNORE_TIMEZONE"] = "1"

In [2]:
import pandas as pd
import numpy as np
from datetime import datetime, date

import pyspark.pandas as ps
from pyspark.sql import SparkSession
from pyspark.sql import Row

In [12]:
spark = SparkSession.builder.getOrCreate()

## Introduction

L'objectif de ce TD est d'implémenter un modèle Étoile à partir de 6 différentes bases de données transactionnelles non-normailisées pour procéder des requêtes visant à avoir une aperçu sur les données d'un Hôpital. Les 6 diffrérentes bases de données transactionnelles données sont :
- `data_administration`: Ensemble des données administratives liées à chaque consultation.
- `data_medecins`: Ensemble des données liées aux informations associées à chaque Médecin.
- `data_diagnostics`: Ensemble des données liées aux diagnostic de chaque patient lors de chaque consultation.
- `data_treatments`: Ensemble des données liées aux descriptions de chaque traitement.
- `data_medicaments`: Ensemble des informations caractérisant chaque Médicament.
- `data_chambres`: Ensemble des informations caractérisant chaque Chambre de l'Hôpital.

On souhaite notamment pouvoir répondre aux requêtes suivantes : 
- "*Quel a été l'âge moyen des patients qui ont eu une certaine Pathology durant une certaine période ?*".
- "*Quel Médicament a été le plus prescrit (en terme de quantité) pour une certaine Pathology durant une certaine période ?*".
- "*Combien de chambres ont accueilli des patients diagnostiqués d'une certaine Pathology durant une certaine période ?*".
- "*Quelle est la proportion de medecins (par spécialité) qui ont dignostiqué une certaine `Pathology` durant une certaine période ?*".


## Lecture des données

Les cellules ci-dessous permettent de lire les différentes bases de données transactionnelles en format `pyspark.pandas.frame.DataFrame`.


In [13]:
psdf_administration = ps.read_csv('data_administration.csv', index_col='KeyConsult')
psdf_administration.head(10)

Unnamed: 0_level_0,KeyPatient,Name,FirstName,NumSecu,Date_In,Pathology,KeyChambre,ChambreNumber,Date_Out
KeyConsult,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
KeyConsult45056,KeyPatient10546,Name10546,FistName10546,NS45057,2023-11-25,Pathology22,KeyChambre81,C081,2023-11-26
KeyConsult45057,KeyPatient45482,Name45482,FistName45482,NS45058,2023-11-25,Pathology34,KeyChambre102,C102,2023-11-26
KeyConsult45058,KeyPatient37050,Name37050,FistName37050,NS45059,2023-11-25,Pathology84,KeyChambre22,C022,2023-12-05
KeyConsult45059,KeyPatient39793,Name39793,FistName39793,NS45060,2023-11-25,Pathology78,KeyChambre4,C004,2023-12-01
KeyConsult45060,KeyPatient17652,Name17652,FistName17652,NS45061,2023-11-25,Pathology15,KeyChambre29,C029,2023-11-26
KeyConsult45061,KeyPatient40034,Name40034,FistName40034,NS45062,2023-11-25,Pathology7,KeyChambre60,C060,2023-11-26
KeyConsult45062,KeyPatient38237,Name38237,FistName38237,NS45063,2023-11-25,Pathology7,KeyChambre5,C005,2023-11-27
KeyConsult45063,KeyPatient17519,Name17519,FistName17519,NS45064,2023-11-25,Pathology67,KeyChambre84,C084,2023-12-03
KeyConsult45064,KeyPatient28813,Name28813,FistName28813,NS45065,2023-11-25,Pathology56,KeyChambre51,C051,2023-11-26
KeyConsult45065,KeyPatient20313,Name20313,FistName20313,NS45066,2023-11-25,Pathology54,KeyChambre37,C037,2023-11-26


In [5]:
psdf_medecins = ps.read_csv('data_medecins.csv', index_col='KeyMedecin')
psdf_medecins.head(10)

Unnamed: 0_level_0,NameMedecin,FirstNameMedecin,SpecialityMedecin
KeyMedecin,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
keyMedecin26,NameMedecin26,FirstNameMedecin26,Generaliste
keyMedecin27,NameMedecin27,FirstNameMedecin27,Chirurgien
keyMedecin28,NameMedecin28,FirstNameMedecin28,Dermatologiste
keyMedecin29,NameMedecin29,FirstNameMedecin29,Generaliste
keyMedecin16,NameMedecin16,FirstNameMedecin16,Chirurgien
keyMedecin17,NameMedecin17,FirstNameMedecin17,Chirurgien
keyMedecin18,NameMedecin18,FirstNameMedecin18,Chirurgien
keyMedecin19,NameMedecin19,FirstNameMedecin19,Generaliste
keyMedecin6,NameMedecin6,FirstNameMedecin6,Dermatologiste
keyMedecin7,NameMedecin7,FirstNameMedecin7,Chirurgien


In [6]:
psdf_diagnostics = ps.read_csv('data_diagnostics.csv', index_col='KeyConsult')
psdf_diagnostics.head(10)

Unnamed: 0_level_0,KeyMedecin,KeyPatient,NamePatient,FirstNamePatient,NumSecu,Age,Weight,Temperature,Tension,Diabete,Pathology,KeyTreatment
KeyConsult,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
KeyConsult45056,keyMedecin26,KeyPatient10546,Name10546,FistName10546,NS45057,24,58.759522,37.459899,135.700753,0,Pathology22,KeyTreatment45056
KeyConsult45057,keyMedecin22,KeyPatient45482,Name45482,FistName45482,NS45058,19,58.422513,37.488268,95.790925,0,Pathology34,KeyTreatment45057
KeyConsult45058,keyMedecin14,KeyPatient37050,Name37050,FistName37050,NS45059,50,80.125748,38.023957,89.173819,1,Pathology84,KeyTreatment45058
KeyConsult45059,keyMedecin29,KeyPatient39793,Name39793,FistName39793,NS45060,76,69.306556,39.966692,116.606928,0,Pathology78,KeyTreatment45059
KeyConsult45060,keyMedecin18,KeyPatient17652,Name17652,FistName17652,NS45061,22,56.173338,37.463554,161.955995,0,Pathology15,KeyTreatment45060
KeyConsult45061,keyMedecin21,KeyPatient40034,Name40034,FistName40034,NS45062,16,55.421938,37.554036,153.418985,0,Pathology7,KeyTreatment45061
KeyConsult45062,keyMedecin18,KeyPatient38237,Name38237,FistName38237,NS45063,22,63.067835,37.213361,171.359467,0,Pathology7,KeyTreatment45062
KeyConsult45063,keyMedecin2,KeyPatient17519,Name17519,FistName17519,NS45064,34,58.652805,38.459865,107.910361,0,Pathology67,KeyTreatment45063
KeyConsult45064,keyMedecin21,KeyPatient28813,Name28813,FistName28813,NS45065,27,59.23352,37.535722,123.634315,0,Pathology56,KeyTreatment45064
KeyConsult45065,keyMedecin29,KeyPatient20313,Name20313,FistName20313,NS45066,16,59.965158,37.403517,114.139109,0,Pathology54,KeyTreatment45065


In [7]:
psdf_treatments = ps.read_csv('data_treatments.csv', index_col='KeyTreatment')
psdf_treatments.head(10)

Unnamed: 0_level_0,KeyMedicament,QuantityMedicament
KeyTreatment,Unnamed: 1_level_1,Unnamed: 2_level_1
KeyTreatment20495,KeyMed513,1
KeyTreatment20495,KeyMed852,2
KeyTreatment20495,KeyMed265,1
KeyTreatment20496,KeyMed82,2
KeyTreatment20497,KeyMed67,1
KeyTreatment20497,KeyMed21,3
KeyTreatment20498,KeyMed697,1
KeyTreatment20499,KeyMed2,2
KeyTreatment20500,KeyMed47,2
KeyTreatment20500,KeyMed581,3


In [8]:
psdf_medicaments = ps.read_csv('data_medicaments.csv', index_col='KeyMedicament')
psdf_medicaments.head(10)

Unnamed: 0_level_0,NameMedicament
KeyMedicament,Unnamed: 1_level_1
KeyMed913,Medicament913
KeyMed914,Medicament914
KeyMed915,Medicament915
KeyMed916,Medicament916
KeyMed917,Medicament917
KeyMed918,Medicament918
KeyMed919,Medicament919
KeyMed920,Medicament920
KeyMed921,Medicament921
KeyMed922,Medicament922


In [9]:
psdf_chambres = ps.read_csv('data_chambres.csv', index_col='KeyChambre')
psdf_chambres.head(10)

Unnamed: 0_level_0,ChambreNumber
KeyChambre,Unnamed: 1_level_1
KeyChambre89,C089
KeyChambre90,C090
KeyChambre91,C091
KeyChambre92,C092
KeyChambre93,C093
KeyChambre94,C094
KeyChambre95,C095
KeyChambre96,C096
KeyChambre97,C097
KeyChambre98,C098


Afin de pouvoir réaliser notre objectif, nous pourrons convertir ces données en format `pyspark.sql.dataframe.DataFrame`.

In [10]:
sdf_administration = psdf_administration.to_spark(index_col='KeyConsult')
sdf_medecins = psdf_medecins.to_spark(index_col='KeyMedecin')
sdf_diagnostics = psdf_diagnostics.to_spark(index_col='KeyConsult')
sdf_treatments = psdf_treatments.to_spark(index_col='KeyTreatment')
sdf_medicaments = psdf_medicaments.to_spark(index_col='KeyMedicament')
sdf_chambres = psdf_chambres.to_spark(index_col='KeyChambre')

In [11]:
from pyspark.sql.functions import *

## Exercices

On souhaite créer un modèle en étoile permettant de procéder facilement les requêtes suivantes : 
- "*Quel a été l'âge moyen des patients qui ont eu une certaine Pathology durant une certaine période ?*".
- "*Quel Médicament a été le plus prescrit (en terme de quantité) pour une certaine Pathology durant une certaine période ?*".
- "*Combien de chambres ont des patients diagnostiqués d'une certaine Pathology durant une certaine période ?*".
- "*Quelle est la proportion de medecins (par spécialité) qui ont dignostiqué une certaine `Pathology` durant une certaine période ?*".

Pour essayer de répondre à toutes ces questions, nous allons considérer le modèle étoile suivant. Pour cela, nous pourrons par exemple utiliser l'aide disponible ici : https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/dataframe.html

![title](Schemas_Etoile_TD_new.pdf)

**Question 1.** À partir des 6 bases de données transactionnelles, créer la `table de faits` associée aux `Consultations`.

**Question 2.** À partir des 6 bases de données transactionnelles, créer la `table de dimension` associée aux `Patients`.

**Question 3.** À partir des 6 bases de données transactionnelles, créer la `table de dimension` associée aux `Dates`.

**Question 2.** À partir des 6 bases de données transactionnelles, créer la `table de dimension` associée aux `Medecins`.

**Question 3.** À partir des 6 bases de données transactionnelles, créer la `table de dimension` associée aux `Traitements`.

**Question 4.** À partir des 6 bases de données transactionnelles, créer la `table de dimension` associée aux `Chambres`.

**Question 5.** Écrire un code qui permette de calculer l'âge moyen des patients qui ont eu une certaine `Pathology` durant un certain mois. Nous pourrons par exemple considérer la `Pathology75` puis la `Pathology15` durant le mois de mars 2023.

**Question 6.** Quel Médicament a été le plus prescrit (en terme de quantité) pour une certaine `Pathology` durant une certaine période ? Nous pourrons par exemple considérer la `Pathology43` durant le mois de février 2023.

**Question 7.** Combien de `chambres` ont accueilli des patients diagnostiqués d'une certaine `Pathology` durant une certaine période ? Nous pourrons par exemple considérer la `Pathology54` durant le mois de novembre 2023.

**Question Bonus.** Déterminer puis afficher sur une figure la proportion de medecins (par spécialité) qui ont dignostiqué une certaine `Pathology` durant une certaine période.