# Parsing Avance - Regex

Les expressions regulieres. Puissant mais illisible. Une fois que tu maitrises, tu peux parser n'importe quoi.

---

## Les bases

In [None]:
import re

texte = "Mon email est test@example.com et mon tel 06-12-34-56-78"

# Trouver un pattern
match = re.search(r'\d{2}-\d{2}-\d{2}-\d{2}-\d{2}', texte)
if match:
    print(f"Tel trouve: {match.group()}")

---

## Syntaxe de base

```
.      n'importe quel caractere
\d     chiffre [0-9]
\w     lettre/chiffre [a-zA-Z0-9_]
\s     espace blanc
*      0 ou plus
+      1 ou plus
?      0 ou 1
{n}    exactement n fois
{n,m}  entre n et m fois
```

In [None]:
# Exemples
print(re.findall(r'\d+', "abc123def456"))      # ['123', '456']
print(re.findall(r'[a-z]+', "abc123DEF"))      # ['abc']
print(re.findall(r'[A-Za-z]+', "abc123DEF"))   # ['abc', 'DEF']

---

## Groupes de capture

In [None]:
# Extraire des parties specifiques
ligne = "Player 1 starting position: 4"

match = re.search(r'Player (\d+) starting position: (\d+)', ligne)
if match:
    joueur = int(match.group(1))
    position = int(match.group(2))
    print(f"Joueur {joueur} commence en {position}")

In [None]:
# Groupes nommes
ligne = "move 5 from 3 to 7"

match = re.search(r'move (?P<nb>\d+) from (?P<src>\d+) to (?P<dst>\d+)', ligne)
if match:
    print(f"Deplacer {match.group('nb')} de {match.group('src')} vers {match.group('dst')}")

---

## findall vs finditer

In [None]:
texte = "x=5, y=10, z=15"

# findall retourne les groupes
coords = re.findall(r'(\w+)=(\d+)', texte)
print(coords)  # [('x', '5'), ('y', '10'), ('z', '15')]

# En dict
d = {k: int(v) for k, v in coords}
print(d)  # {'x': 5, 'y': 10, 'z': 15}

---

## Substitution

In [None]:
# Remplacer des patterns
texte = "J'ai 3 pommes et 5 oranges"
nouveau = re.sub(r'\d+', 'X', texte)
print(nouveau)  # J'ai X pommes et X oranges

# Avec une fonction
def doubler(match):
    return str(int(match.group()) * 2)

nouveau = re.sub(r'\d+', doubler, texte)
print(nouveau)  # J'ai 6 pommes et 10 oranges

---

## Patterns AoC courants

In [None]:
# Extraire tous les nombres (y compris negatifs)
ligne = "pos=<-10,5,30>, vel=<1,-2,3>"
nums = list(map(int, re.findall(r'-?\d+', ligne)))
print(nums)  # [-10, 5, 30, 1, -2, 3]

In [None]:
# Parser des instructions
instructions = """
turn on 0,0 through 999,999
toggle 0,0 through 999,0
turn off 499,499 through 500,500
"""

pattern = r'(turn on|turn off|toggle) (\d+),(\d+) through (\d+),(\d+)'

for match in re.finditer(pattern, instructions):
    action = match.group(1)
    x1, y1, x2, y2 = map(int, match.groups()[1:])
    print(f"{action}: ({x1},{y1}) -> ({x2},{y2})")

---

## Astuce: re.VERBOSE

In [None]:
# Pour les regex complexes, utilise le mode verbose
pattern = re.compile(r'''
    (\w+)           # nom de variable
    \s*=\s*         # signe egal avec espaces
    (\d+)           # valeur numerique
''', re.VERBOSE)

texte = "count = 42"
match = pattern.search(texte)
print(f"{match.group(1)} vaut {match.group(2)}")

---

## En cyber

- Log parsing: extraire IPs, timestamps, erreurs
- YARA rules: detection de malware par patterns
- Validation d'input: empecher les injections
- OSINT: extraire emails, URLs, numeros