In [158]:
import re,codecs
import pandas as pd
import datetime

In [160]:
today=datetime.date.today

# Faire la table des actions à partir des ASS

In [85]:
actionsTrans={}

### Extraire les actions
- sélectionner les lignes de sous-titres  
celles qui commencent par Dialogue
- récupérer les champs début, fin, texte (action)
 - si il y a du texte et que ça n'est pas le nom d'une annotatrice  
 ajouter le triplet (début, fin, action) au résultat
 

In [86]:
def readAss(nFile,nTrans):
    result=[]
    with codecs.open(nFile,encoding="utf8") as inFile:
        assLines=inFile.readlines()
        for assLine in assLines:
            m=re.match(ur"^Dialogue[^,]*,([^,]*),([^,]*),[^,]*,[^,]*,[^,]*,[^,]*,[^,]*,[^,]*,([^,]*)",assLine)
            if m:
                startTime=m.group(1)
                endTime=m.group(2)
                action=m.group(3).strip().lower()
                if action not in u"Ania Catherine Carolyn Gilles Mélanie".lower() and action!="":
                    result.append((startTime,endTime,action))
    return result

### Extraire les actions des différents fichiers .ass

In [87]:
nTrans="AK CM CF MP".split(" ")

In [88]:
for t in nTrans:
    nFile="../2015-10-17_NouvelleZelande-France_%s.ass"%t
    actionsTrans[t]=readAss(nFile,t)
actionsTrans

{'AK': [(u'0:46:47.86', u'0:46:48.98', u'groupement'),
  (u'0:46:48.98', u'0:46:49.46', u'extraction'),
  (u'0:46:49.46', u'0:46:50.18', u'passe'),
  (u'0:46:50.18', u'0:46:50.78', u'port\xe9'),
  (u'0:46:50.78', u'0:46:51.42', u'plaquage'),
  (u'0:46:51.42', u'0:46:53.42', u'regroupement'),
  (u'0:46:54.34', u'0:46:55.02', u'extraction'),
  (u'0:46:55.02', u'0:46:56.66', u'r\xe9ception'),
  (u'0:46:56.66', u'0:46:57.42', u'passe'),
  (u'0:46:57.42', u'0:46:57.82', u'port\xe9'),
  (u'0:46:57.82', u'0:46:58.38', u'passe'),
  (u'0:46:58.38', u'0:47:00.98', u'port\xe9'),
  (u'0:47:00.98', u'0:47:02.18', u'plaquage'),
  (u'0:47:02.18', u'0:47:04.18', u'\xe9croulement'),
  (u'0:47:04.18', u'0:47:04.74', u'extraction'),
  (u'0:47:04.74', u'0:47:05.70', u'passe'),
  (u'0:47:05.70', u'0:47:07.22', u'port\xe9'),
  (u'0:47:07.22', u'0:47:08.22', u'passe'),
  (u'0:47:08.22', u'0:47:09.98', u'port\xe9'),
  (u'0:47:09.98', u'0:47:14.30', u'regroupement'),
  (u'0:47:14.30', u'0:47:15.30', u'extracti

In [196]:
actions=[triplet for t in actionsTrans for triplet in actionsTrans[t]]

### Créer un df à partir des triplets

In [197]:
dfActions=pd.DataFrame.from_records(actions,columns=["startDT","endDT","action"])

### Convertir la chaine date en secondes

In [198]:
def DT2Sec(chaine):
    heures,minutes,secondes=chaine.split(":")
    result=(60*float(heures)+float(minutes))*60+float(secondes)
    return result

### Formater les champs time

In [199]:
dfActions["startTime"]=pd.to_datetime(dfActions["startDT"]).dt.strftime("%H:%M:%S.%f")
dfActions["endTime"]=pd.to_datetime(dfActions["endDT"]).dt.strftime("%H:%M:%S.%f")
dfActions["startSec"]=dfActions["startDT"].apply(DT2Sec)
dfActions["endSec"]=dfActions["endDT"].apply(DT2Sec)

In [200]:
dfActions=dfActions.sort_values("startTime").reset_index()

### Formater la table des actions à exporter

In [201]:
dfTableActions=dfActions[["startTime","endTime","action","startSec","endSec"]]
dfTableActions.index=dfTableActions.index+1
dfTableActions

Unnamed: 0,startTime,endTime,action,startSec,endSec
1,00:11:04.180000,00:11:05.980000,coup de sifflet,664.18,665.98
2,00:11:05.980000,00:11:09.540000,coup d'envoi,665.98,669.54
3,00:11:09.540000,00:11:10.420000,rebond,669.54,670.42
4,00:11:10.420000,00:11:10.820000,récupération,670.42,670.82
5,00:11:10.820000,00:11:11.420000,porté,670.82,671.42
6,00:11:11.420000,00:11:12.260000,plaquage,671.42,672.26
7,00:11:12.260000,00:11:16.300000,regroupement,672.26,676.30
8,00:11:16.300000,00:11:16.820000,extraction,676.30,676.82
9,00:11:16.820000,00:11:17.340000,passe,676.82,677.34
10,00:11:17.340000,00:11:17.460000,réception,677.34,677.46


# Faire la table des tours du TRS

In [None]:
from lxml import etree as ET
parser = ET.XMLParser(remove_blank_text=True)

nomTRS="../2015-10-17_NouvelleZelande-France_Alex-syntaxe.trs"
xmlTRS=ET.parse(nomTRS,parser)

### Extraire les speakers

In [70]:
speakers={}
for speaker in xmlTRS.xpath("//Speakers/Speaker"):
    spkId=speaker.attrib["id"]
    spkName=speaker.attrib["name"]
    speakers[spkId]=spkName
# speakers

### Extraire les tours
- pour obtenir tout le texte d'une balise :  
 - texte=u" ".join(balise.itertext()).strip()

In [207]:
turns=[]
for turn in xmlTRS.xpath("//Section/Turn"):
    if "speaker" in turn.attrib:
        turnStart=turn.attrib["startTime"]
        turnEnd=turn.attrib["endTime"]
        turnSpk=turn.attrib["speaker"]  
        turnTxt=u" — ".join(turn.itertext()).strip()
        turns.append((turnSpk,turnStart,turnEnd,turnTxt))
# turns

[('spk1',
  '36.628',
  '40.304',
  u"bonsoir, c'\xe9tait ceux d'hier. voici ceux d'aujourd'hui."),
 ('spk1',
  '40.537',
  '44.574',
  u'nous sommes dans les vestiaires de ce Millenium de Cardiff, pour ce quarante-deuxi\xe8me match,'),
 ('spk1', '44.975', '45.959', u'de coupe du monde.'),
 ('spk1', '46.488', '47.191', u'bonsoir Bernard.'),
 ('spk2', '47.567', '48.859', u'bonsoir Christian, bonsoir \xe0 tous.'),
 ('spk1',
  '48.993',
  '52.335',
  u'il va falloir battre, ce soir, les champions du monde, en titre.'),
 ('spk2',
  '52.6',
  '55.691',
  u"et ouais c'est pas une mince affaire, effectivement ce sont les champions du monde en titre et,"),
 ('spk2',
  '56.049',
  '59.629',
  u'sur les\n \u2014 \n, entre les deux coupes du monde, sur cinquante et un match, ils en ont gagn\xe9 quarante-six.'),
 ('spk2',
  '59.834',
  '65.005',
  u"donc \xe7a montre bien encore une fois, la qualit\xe9 de cette \xe9quipe mais, on vient de voir \xe0 travers le reportage que rien n'est impossible.")

### Créer un df à partir des tuples

In [209]:
dfTurns=pd.DataFrame.from_records(turns,columns="speaker startDT endDT tour".split(" "))

### Formater les champs time

In [None]:
dfTurns["startTime"]=pd.to_datetime(dfTurns["startDT"],unit="s").dt.strftime("%H:%M:%S.%f")
dfTurns["endTime"]=pd.to_datetime(dfTurns["endDT"],unit="s").dt.strftime("%H:%M:%S.%f")

dfTurns["startSec"]=dfTurns["startDT"].astype(float)
dfTurns["endSec"]=dfTurns["endDT"].astype(float)

### Formater la table des tours à exporter

In [215]:
dfTableTurns=dfTurns["speaker startTime endTime tour startSec endSec".split(" ")]
dfTableTurns.index=dfTableTurns.index+1
dfTableTurns

Unnamed: 0,speaker,startTime,endTime,tour,startSec,endSec
1,spk1,00:00:36.628000,00:00:40.304000,"bonsoir, c'était ceux d'hier. voici ceux d'auj...",36.628,40.304
2,spk1,00:00:40.537000,00:00:44.574000,nous sommes dans les vestiaires de ce Milleniu...,40.537,44.574
3,spk1,00:00:44.975000,00:00:45.959000,de coupe du monde.,44.975,45.959
4,spk1,00:00:46.488000,00:00:47.191000,bonsoir Bernard.,46.488,47.191
5,spk2,00:00:47.567000,00:00:48.859000,"bonsoir Christian, bonsoir à tous.",47.567,48.859
6,spk1,00:00:48.993000,00:00:52.335000,"il va falloir battre, ce soir, les champions d...",48.993,52.335
7,spk2,00:00:52.600000,00:00:55.691000,"et ouais c'est pas une mince affaire, effectiv...",52.600,55.691
8,spk2,00:00:56.049000,00:00:59.629000,"sur les\n — \n, entre les deux coupes du monde...",56.049,59.629
9,spk2,00:00:59.834000,00:01:05.005000,"donc ça montre bien encore une fois, la qualit...",59.834,65.005
10,spk1,00:01:05.390000,00:01:09.707000,"trois mots, affichés dans les vestiaires de l'...",65.390,69.707


# Export des df dans des tables Excel
https://xlsxwriter.readthedocs.io/example_pandas_multiple.html

- ouvrir un writer  
 - writer = pd.ExcelWriter(nomFichier, engine='xlsxwriter')
- ajouter les différents df avec un nom d'onglet
 - df1.to_excel(writer, sheet_name='onglet')
 - df2.to_excel(writer, sheet_name='onglet')
 - ...
- fermer le writer
 - writer.save()

In [216]:
writer = pd.ExcelWriter('../NZ-TablesActionsTours.xlsx', engine='xlsxwriter')
dfTableActions.to_excel(writer, sheet_name='Actions')
dfTableTurns.to_excel(writer, sheet_name='Tours')
writer.save()