## TPC3: Conversor de MarkDown para HTML

Criar em Python um pequeno conversor de MarkDown para HTML para os elementos descritos na "Basic Syntax" da Cheat Sheet:

### Cabeçalhos: linhas iniciadas por "# texto", ou "## texto" ou "### texto"

In: `# Exemplo`

Out: `<h1>Exemplo</h1>`

### Bold: pedaços de texto entre "**":

In: `Este é um **exemplo** ...`

Out: `Este é um <b>exemplo</b> ...`

### Itálico: pedaços de texto entre "*":

In: `Este é um *exemplo* ...`

Out: `Este é um <i>exemplo</i> ...`

### Lista numerada:

In:
```
1. Primeiro item
2. Segundo item
3. Terceiro item
```

Out:
```
<ol>
<li>Primeiro item</li>
<li>Segundo item</li>
<li>Terceiro item</li>
</ol>
```

### Link: [texto](endereço URL)

In: `Como pode ser consultado em [página da UC](http://www.uc.pt)`

Out: `Como pode ser consultado em <a href="http://www.uc.pt">página da UC</a>`

### Imagem: ![texto alternativo](path para a imagem)

In: Como se vê na imagem seguinte: `![imagem dum coelho](http://www.coellho.com) ...`

Out: `Como se vê na imagem seguinte: <img src="http://www.coellho.com" alt="imagem dum coelho"/> ...`

### Resolução

In [142]:
import re

def converter(texto):
    #cabeçalhos
    texto = re.sub(r'^(#{1,3})\s*(.*)$', lambda t: f"<h{len(t.group(1))}>{t.group(2)}</h{len(t.group(1))}>", texto, flags = re.MULTILINE)

    #pedaços de texto em negrito
    texto = re.sub(r'\*\*(?P<negrito>.*?)\*\*', r'<b>\g<negrito></b>', texto, flags = re.MULTILINE)

    #pedaços de texto em itálico
    texto = re.sub(r'\*(?P<italico>.*?)\*', r'<i>\g<italico></i>', texto, flags = re.MULTILINE)

    #imagens
    texto = re.sub(r'!\[(.*?)\]\((?P<imagem>.*?)\)', r'<img src="\g<imagem>" alt=\1"/>', texto, flags = re.MULTILINE)
    
    #links
    texto = re.sub(r'\[(.*?)\]\((?P<link>.*?)\)', r'<a href="\g<link>">\1</a>', texto, flags = re.MULTILINE)

    #listas
    def converter_listas(m):
        lista = m.group(0)
        elementos = re.sub(r'\d+\.\s*(.*?)\n', r'<li>\1</li>\n', lista, flags = re.MULTILINE)
        return f'<ol>\n{elementos}</ol>'
    
    texto = re.sub(r'((?:\d+\.\s*.*\n)+)', converter_listas, texto, flags = re.MULTILINE)

    return texto

### Teste


In [144]:
teste =  """# Título Principal

## Subtítulo de Nível 2

### Subtítulo de Nível 3

Esta é uma **frase** com **texto em negrito**
Esta é uma *frase* com *texto em itálico*

Como pode ser consultado em [página da UC](http://www.uc.pt)

Como se vê na imagem seguinte: ![imagem dum coelho](http://www.coellho.com) ...

1. Primeiro item
2. Segundo item
3. Terceiro item
"""

print(converter(teste))

<h1>Título Principal</h1>

<h2>Subtítulo de Nível 2</h2>

<h3>Subtítulo de Nível 3</h3>

Esta é uma <b>frase</b> com <b>texto em negrito</b>
Esta é uma <i>frase</i> com <i>texto em itálico</i>

Como pode ser consultado em <a href="http://www.uc.pt">página da UC</a>

Como se vê na imagem seguinte: <img src="http://www.coellho.com" alt=imagem dum coelho"/> ...

<ol>
<li>Primeiro item</li>
<li>Segundo item</li>
<li>Terceiro item</li>
</ol>
