### Simulation des rapports des visites bimestrielles et des interventions de maintenance annuelle des issues et des niches 

* Définition du calendier et des numéros d'OT (fermeturesJours.csv)
* Production des rapports (absences aléatoires)
* Upload des rapports sur le serveur

Cette simulation permet de tester les choix qui sont faits sur la forme des rapports.  
La simulation fournit un jeu de données pour développer les outils de traitement des données pour la visualisation des résultats.   

Les fichiers des issues et des niches et les regroupements en fermetures sont fournis en entrée de ce processus.  
Leur élaboration est traitée dans un autre repository : https://github.com/ExploitIdF/Referentiel_Tunnels


In [3]:
#! pip install -r requirements.txt
import pandas as pd, numpy as np
import glob, re,json,io,os
from datetime import datetime, timedelta
from time import sleep
import plotly.graph_objects as go
pd.options.display.max_colwidth = 100
from numpy.random import random
from numpy.random import choice
rng = np.random.default_rng()
from google.cloud import bigquery,storage
project_id = 'tunnels-dirif'
clientB = bigquery.Client(project_id)
storageC=storage.Client(project_id)

issues=pd.read_csv('https://raw.githubusercontent.com/ExploitIdF/Referentiel_Tunnels/refs/heads/main/issuesFermetures.csv')#[[  'Tatouage',   'Fermeture']]
# ['CodeEx', 'PC', 'Tatouage', 'triCode', 'Fermeture']
issues['OQ']=range(290)

niches=pd.read_csv('https://raw.githubusercontent.com/ExploitIdF/Referentiel_Tunnels/refs/heads/main/niches/nichesFermetures.csv')#[[  'Tatouage',   'Fermeture']]
# ['CodeEx', 'Tatouage', 'triCode', 'Sens', 'Fermeture']
niches['OQ']=range(len(niches)) # 437



## Programmation des dates de fermetures
Pour chaque fermeture (i: 0-29) , on définit aléatoirement 6 dates ( k:0-5, aussi 'ordreVB') de visites bimestrielles (champ "jour").  
Les dates sont identifiées par le  *jour de l'année* (dayofyear, 0-365).   
On définit les *OTs père* (champ "OTP" : 456000+k*100+i  ). Les OTPs sont dans la plage 456000+456600  
On simule que des visites bimestrielles ne sont pas faites ou sont faites, mais reportées.  
Pour cela, on définit le champ 'faitFerm' avec les valeurs (OK : fait à la date programmée, RP: fait mais reporté 21 jours plus tard & KO: non fait).    
Paramètres du calcul : ```tauxRéalisation & tauxReport```   

In [4]:
# on reconstruit la liste des fermetures à partir du fichier des issues
fermetures=issues['Fermeture'].value_counts()

tauxRéalisation =0.9  # Probabilité que les visites d'une fermeture soient réalisées à une date, dont report
tauxReport=0.1

if False:  # le process étant aléatoire, le refaire tourner modifie les résultats
  fermJours=[]
  for k in range(6):
    jfTmp=pd.Series([(5+k*8)*7+ int(random()*4)*7+int(random()*4) for i in range(lenFer)],index=fermetures.index,name='jour')
    otTmp=pd.Series([456000+k*100+i for i in range(lenFer)],index=fermetures.index,name='OTP')
    ordTmp=pd.Series( k,index=fermetures.index,name='ordreVB')
    fermJours.append(pd.concat([jfTmp,otTmp,ordTmp],axis=1))
  fermJours=pd.concat(fermJours).reset_index()
  fermJours['faitFerm']=[choice(a=['OK','RP','KO'],p=[tauxRéalisation- tauxReport,tauxReport,1-tauxRéalisation]) for i in range(lenFer*6)]
  fermJours.to_csv('fermJours.csv',index=False)

## Visites d'issues et niches
On crée la table des visites d'issues programmées `VisiteIssues`
On associe aux issues les dates de leurs fermetures programmées .    
On définit les OT fils (OTFs) des visites d'issues : ordreVB*800+indexIss+456600  
On simule que lors d'une visites bimestrielles certaines issues ne donnent pas lieu à la transmission d'un rapport.   
Pour cela, on définit le champ 'faitLocal' avec mes valeurs (True / False).  
Paramètres du calcul : `tauxAbsenceIN`

On crée la table des rapports de visites d'issues transmis (faits) `VisiteIssuesFt` en sélectionnant avec les champs ```faitFerm & faitLocal```    
On définit l'horodate de transmission du rapport par une valeur aléatoire comprise entre jour + 23h et jour + 27h (jour+1 +3h)   
Pour les visites reportées (``` faitLocal = 'RP' ```) on calcule une nouvelle horodate 21 jours plus tard (on aurait pu faire varier le report mais on a simplifié)   
Enfin, on choisit aléatoirement un nom d'agent (il aurait été plus logique de choisir les agents au niveau de la fermeture mais c'est plus simple comme ça).

In [5]:
fermJours=pd.read_csv('fermJours.csv')  # ['Fermeture', 'jour', 'OTP', 'ordreVB', 'faitFerm']
tauxAbsenceIN=0.05 # pour les visites d'une fermeture, taux d'issues sans production d'un rapport
lenFer=len(fermJours['Fermeture'].unique() )
if True:
  VisiteIssues=issues.merge(fermJours,on='Fermeture', how='outer')
  VisiteIssues['OTF']=VisiteIssues['ordreVB']*800+VisiteIssues['OQ']+456600
  VisiteIssues['faitLocal']=[random()>tauxAbsenceIN for i in range(len(VisiteIssues))]
  VisiteIssues['faitLocal']=(VisiteIssues['faitLocal'])&(VisiteIssues['faitFerm']!='KO')
  
  VisiteIssuesFt=VisiteIssues.copy()
  VisiteIssuesFt['minute']=[int(random()*240) for i in range(len(VisiteIssuesFt))]
  VisiteIssuesFt['HoroDate']=pd.to_datetime("24/"+VisiteIssuesFt['jour'].astype(str)+" 23",format='%y/%j %H')+pd.to_timedelta(VisiteIssuesFt['minute']*60000000000) 
  VisiteIssuesFt.loc[VisiteIssuesFt['faitFerm']=='RP','HoroDate']=VisiteIssuesFt.loc[VisiteIssuesFt['faitFerm']=='RP','HoroDate']+pd.to_timedelta(21*24*60*60000000000)
  VisiteIssuesFt['agent']=[choice(['Karl','Karen', 'Kim','Kamel','Kun']) for k in range(len(VisiteIssuesFt))]
  VisiteIssuesFt=VisiteIssuesFt[[ 'OTF','CodeEx', 'Tatouage','agent','jour', 'HoroDate','Fermeture','ordreVB','faitFerm','faitLocal']].sort_values('OTF')
  VisiteIssuesFt.to_csv('VisiteIssuesFt.csv',index=False)

  VisiteNiches=niches.merge(fermJours,on='Fermeture', how='outer')
  VisiteNiches['OTF']=VisiteNiches['ordreVB']*800+VisiteNiches['OQ']+456600 + 300
  VisiteNiches['faitLocal']=[random()>tauxAbsenceIN for i in range(len(VisiteNiches))]
  VisiteNiches['faitLocal']=(VisiteNiches['faitLocal'])&(VisiteNiches['faitFerm']!='KO')

  VisiteNichesFt=VisiteNiches.copy()
  VisiteNichesFt['minute']=[int(random()*240) for i in range(len(VisiteNichesFt))]
  VisiteNichesFt['HoroDate']=pd.to_datetime("24/"+VisiteNichesFt['jour'].astype(str)+" 23",format='%y/%j %H')+pd.to_timedelta(VisiteNichesFt['minute']*60000000000) 
  VisiteNichesFt.loc[VisiteNichesFt['faitFerm']=='RP','HoroDate']=VisiteNichesFt.loc[VisiteNichesFt['faitFerm']=='RP','HoroDate']+pd.to_timedelta(21*24*60*60000000000)
  VisiteNichesFt['agent']=[choice(['Karl','Karen', 'Kim','Kamel','Kun']) for k in range(len(VisiteNichesFt))]
  VisiteNichesFt[[ 'OTF','CodeEx', 'Tatouage','agent','jour', 'HoroDate','Fermeture','ordreVB','faitFerm','faitLocal']].to_csv('VisiteNichesFt.csv',index=False)

## Création des rapports
On définit une fonction qui a pour variable un nombre de visites et une liste de point de contrôle et qui génère les valeurs des résultats de contrôle pour chaque visite.     
Pour cela, on génère aléatoirement, pour chaque visite et chaque point de controle, un résultat de contrôle et un commentaire.  

In [11]:
pcRc=pd.read_csv('https://raw.githubusercontent.com/ExploitIdF/TraitementRapportsVisitesBimestrielles/refs/heads/master/controlesIsNi.csv')
ComAls=[x for x in  ['Commentaire Aléatoire0 Très compliqué !','Commentaire Aléatoire1 Comment faire ?',
    'Commentaire Aléatoire2 Trop long à vous expliquer, on appelera le PCTT demain','Commentaire Aléatoire3 Trois choses à noter',
                     'Commentaire Aléatoire4 Sans commentaire']]
def simRC(lsPc,nbrV):
   pcRcS=pcRc[pcRc['codePC'].str[1:].astype(int).isin(lsPc)]
   pcS=list(pcRcS['codePC'].unique())
   nbrPC=len(pcS)
   RCs=[list(pcRcS[pcRcS['codePC']==codeP]['codeRC']  ) for codeP in pcS ] # listes des résultats de contrôle par point de contrôle 
   PRBs=[list(pcRcS[pcRcS['codePC']==codeP]['Probab'] ) for codeP in pcS ] # listes des probabilité des résultats de contrôle par point de contrôle 
   nbrRCs=[len(x) for x in RCs ]
   lstRC=[]
   for k in range(nbrV): 
      for n in range(nbrPC):
         lstRC.append([k,pcS[n],choice(a=RCs[n],p=PRBs[n]),choice(ComAls) ])
   return pd.DataFrame(lstRC,columns=['indRap', 'PC','RC','Com'])

VisiteIssuesFt=pd.read_csv('VisiteIssuesFt.csv')  # visites d'issues faites
nbrV=len(VisiteIssuesFt)
simRC(range(9), nbrV).to_csv('lstRCNi.csv',index=False)

nbrV=len(pd.read_csv('VisiteIssuesFt.csv') )
simRC(range(0,22), nbrV).to_csv('lstRCIs.csv',index=False)

nbrV=len(pd.read_csv('VisiteNichesFt.csv') )
simRC(range(22,26), nbrV).to_csv('lstRCNi.csv',index=False)


In [13]:
def importTab(nomTab):
    tab=pd.read_csv(nomTab+ '.csv')
    dataset  = clientB.dataset('rapports_visites')
    table = dataset.table(nomTab)

    job_config = bigquery.LoadJobConfig(
        schema=[ bigquery.SchemaField(cl, bigquery.enums.SqlTypeNames.STRING) for cl in tab.columns],
        write_disposition="WRITE_TRUNCATE",
        autodetect=False,
        source_format=bigquery.SourceFormat.CSV
    )
    job = clientB.load_table_from_dataframe( tab, table, job_config=job_config)  
    job.result() 

for nomTab in ['VisiteIssuesFt','VisiteNichesFt','lstRCNi','lstRCIs' ]:
    importTab(nomTab)



## Upload des rapports sur le serveur Google Storage
On vide le répertoire cible (Storage : issues-secours/rapports-visites/) et  on charge les fichiers avec une pause de 3 secondes 
pour tenir compte de l'import dans BQ par la fonction qui est déclenchée par le chargement.



In [None]:
# On vide le répertoire cible (Storage : issues-secours/rapports-visites/) et on recharge les fichiers avec une pause de 3 seconde pour tenir compte de l'import dans BQ
bucket = storageC.get_bucket('issues-secours')
blobs = storageC.list_blobs(bucket)
for blob in blobs:
    if 'ISV' in blob.name:
        blob.delete()

for fl in filenames[:]:
    blob = bucket.blob('rapports-visites/'+fl)
    blob.upload_from_filename('24-3/'+ fl, if_generation_match= 0)
    sleep(3)


In [None]:
# Liste des clés pour alimenter le schéma d'importation dans BQ
name = 'rapports-visites/' +filenames[5]
blob = bucket.blob(name)
fileContent= (blob.download_as_string(client=None).decode())
json.loads(fileContent).keys()

dict_keys(['Tatouage', 'HoroDate', 'Agent', 'PC0', 'CM0', 'PC1', 'CM1', 'PC2', 'CM2', 'PC3', 'CM3', 'PC4', 'CM4', 'PC5', 'CM5', 'PC6', 'CM6', 'PC7', 'CM7', 'PC8', 'CM8', 'PC9', 'CM9', 'PC10', 'CM10', 'PC11', 'CM11', 'PC12', 'CM12', 'PC13', 'CM13', 'PC14', 'CM14'])

In [None]:
# Test de l'importation dans BQ pour la fonction logDepot
client  = bigquery.Client()
dataset  = client.dataset('rapports_visites')
table = dataset.table('LogDepot')

def format_schema(schema):
        formatted_schema = []
        for row in schema:
            formatted_schema.append(bigquery.SchemaField(row,'STRING', 'NULLABLE'))
        return formatted_schema
lst_schema_VBIS = ['Tatouage', 'HoroDate', 'Agent', 'PC0', 'CM0', 'PC1', 'CM1', 'PC2', 'CM2', 'PC3', 'CM3', 'PC4', 'CM4', 'PC5', 'CM5', 'PC6', 'CM6', 
                  'PC7', 'CM7', 'PC8', 'CM8', 'PC9', 'CM9', 'PC10', 'CM10', 'PC11', 'CM11', 'PC12', 'CM12', 'PC13', 'CM13', 'PC14', 'CM14']


job_config = bigquery.LoadJobConfig()
job_config.schema = format_schema(lst_schema_VBIS)
flJson=json.loads(fileContent)
stByt=','.join([flJson[k] for k in lst_schema_VBIS  ]).encode("utf-8")
job = client.load_table_from_file(io.BytesIO(stByt), table, job_config = job_config)