# Traitement de Textes

In [54]:
import math
import re

In [1]:
ville = "Toulouse"

In [2]:
ville.upper()

'TOULOUSE'

In [3]:
ville.lower()

'toulouse'

In [4]:
"été".upper()

'ÉTÉ'

In [6]:
"Kießling".upper().lower()

'kiessling'

In [7]:
"Kießling".casefold()

'kiessling'

In [8]:
ville.startswith("T")

True

In [9]:
ville.endswith("Z")

False

In [10]:
"ou" in ville

True

In [11]:
ville.index("ou")

1

In [13]:
ville.index("ou", 2)

4

In [15]:
try:
    pos = ville.index("ou", 5)
    print("Trouvé à position :", pos)
except ValueError:
    print("Non trouvé")

Non trouvé


In [17]:
"1,2,3,4,5".split(",")

['1', '2', '3', '4', '5']

In [18]:
" Toulouse  ".strip()

'Toulouse'

In [60]:
villes = ["Toulouse", "Paris", "Pau", "Tarbes", "Bordeaux"]

In [22]:
", ".join(villes)

'Toulouse, Paris, Pau'

In [25]:
cp = 31000
nbButMoyen = 0.100567

## Formattage des textes
https://docs.python.org/3.7/library/string.html#formatstrings


In [31]:
# valable depuis Python 3.6
f"{ville} ({cp}) : {nbButMoyen:0.2f}"

'Toulouse (31000) : 0.10'

In [32]:
"{} ({}) : {:0.2f}".format(ville, cp, nbButMoyen)

'Toulouse (31000) : 0.10'

In [51]:
nbs = [5, 125, 15, 10000]
nbMax= max(nbs)
nbDigits = int(1 + math.log10(nbMax))
nbDigits

5

In [52]:
fmt = "{" + f":>{nbDigits}" + "}"
fmt

'{:>5}'

In [53]:
for n in nbs:
    print(fmt.format(n))

    5
  125
   15
10000


## Expressions régulières : re

re.match => pattern au début
re.fullmatch => pattern entier
re.search => pattern à l'intérieur
re.sub

[a-z45] : caractères de a à z plus 4 et 5
(o|au|eau) : choix
^ : début de ligne
$ : fin de ligne
. : caractère joker
cardinalités : + (1 à n), * (0 à n), ? (0 ou 1), {3}, {3,5}, {,5}, {3,} 

In [62]:
[ v for v in villes if v.startswith("T") ]

['Toulouse', 'Tarbes']

In [64]:
[ v for v in villes if re.match(r"[TP]",v) ]

['Toulouse', 'Paris', 'Pau', 'Tarbes']

In [65]:
[ v for v in villes if re.match(r"[TP].*s",v) ]

['Toulouse', 'Paris', 'Tarbes']

In [67]:
[ v for v in villes if re.fullmatch(r"[TP].*s",v) ]

['Paris', 'Tarbes']

In [70]:
villes.append('troie')
villes

['Toulouse', 'Paris', 'Pau', 'Tarbes', 'Bordeaux', 'troie']

In [79]:
flags = re.I

In [80]:
[ v for v in villes if re.match(r"[tp]",v, flags=flags) ]

['Toulouse', 'Paris', 'Pau', 'Tarbes', 'troie']

In [81]:
phrase = "Toulouse ville rose"

In [85]:
# pas de correspondance => None
res = re.match(r"[aeiou]l", phrase)
res is None

True

In [86]:
res = re.match(r"[tp]", phrase, re.I)
res

<re.Match object; span=(0, 1), match='T'>

In [87]:
res.group()

'T'

In [88]:
res.span()

(0, 1)

In [93]:
res = re.search(r"[aeiouy]+l", phrase)

In [94]:
res.group()

'oul'

In [98]:
d,f = res.span()
res2 = re.search(r"[aeiouy]+l", phrase[f:])
res2.group()

'il'

In [112]:
phrase = "Toulouse ville rose et jolie"
re.sub(r"(.*)rose(.*)", r"\1D2\2", phrase)

'Toulouse ville D2 et jolie'

In [113]:
phrase = "Paris est magique"
re.sub(r"(.*)rose(.*)", r"\1D2\2", phrase)

'Paris est magique'

## Parsing nombres

In [115]:
int("125")

125

In [116]:
float("1.456e308")

1.456e+308

In [117]:
float("1E500")

inf

In [118]:
float('nan')

nan

In [119]:
float('nAn')

nan

In [122]:
"123".isnumeric()

True