# Convert HTML content to markdown with Azure Document Intelligence

This code demonstrate how to convert to markdown format a content in HTML using Document Intelligence.

The output is the markdown format of the HTML content.

## Prerequisites
+ An Azure subscription, with [access to Azure OpenAI](https://aka.ms/oai/access).
+ A Document Intelligence service with its end-point and API key.

We used Python 3.12.5, [Visual Studio Code with the Python extension](https://code.visualstudio.com/docs/python/python-tutorial), and the [Jupyter extension](https://marketplace.visualstudio.com/items?itemName=ms-toolsai.jupyter) to test this example.

### Set up a Python virtual environment in Visual Studio Code

1. Open the Command Palette (Ctrl+Shift+P).
1. Search for **Python: Create Environment**.
1. Select **Venv**.
1. Select a Python interpreter. Choose 3.10 or later.

It can take a minute to set up. If you run into problems, see [Python environments in VS Code](https://code.visualstudio.com/docs/python/environments).

### Install packages

In [None]:
! pip install azure-ai-documentintelligence
! pip install beautifulsoup4

## Import packages and create Document Intelligent client

In [1]:
import os
import sys

from azure.ai.documentintelligence import DocumentIntelligenceClient
from azure.core.credentials import AzureKeyCredential
from dotenv import load_dotenv

sys.path.append('../..')
from rag_utils import load_files

# Load environment variables from .env
load_dotenv(override=True)

# DOCUMENT INTELLIGENCE
doc_intel_endpoint = os.getenv("DOC_INTEL_ENDPOINT")
doc_intel_key = os.getenv("DOC_INTEL_KEY")
doc_intel_client = DocumentIntelligenceClient(endpoint=doc_intel_endpoint, credential=AzureKeyCredential(doc_intel_key))


## Convert HTML to markdown format with Document Intelligence

In [2]:
from rag_utils import get_markdown_with_doc_intel

In [3]:
# Test

html_content = """
<html lang="es">
<head>
<title>Lorem Ipsum - All the facts - Lipsum generator</title>
<meta name="keywords" content="Lorem Ipsum, Lipsum, Lorem, Ipsum, Text, Generate, Generator, Facts, Information, What, Why, Where, Dummy Text, Typesetting, Printing, de Finibus, Bonorum et Malorum, de Finibus Bonorum et Malorum, Extremes of Good and Evil, Cicero, Latin, Garbled, Scrambled, Lorem ipsum dolor sit amet, dolor, sit amet, consectetur, adipiscing, elit, sed, eiusmod, tempor, incididunt" />
<meta name="description" content="Reference site about Lorem Ipsum, giving information on its origins, as well as a random Lipsum generator." />
<meta name="viewport" content="width=device-width,initial-scale=1.0" />
<meta http-equiv="content-type" content="text/html; charset=utf-8" />
</head>
<body>
<div id="Outer">
<div class="banner" style="min-height:90px"><!-- Tag ID: lipsumcom_header -->
<div id="Inner">
<div id="Languages"><a href="http://hy.lipsum.com/">&#1344;&#1377;&#1397;&#1381;&#1408;&#1381;&#1398;</a> <a href="http://sq.lipsum.com/">Shqip</a> <span class="ltr" dir="ltr"><a href="http://ar.lipsum.com/">&#8235;&#1575;&#1604;&#1593;&#1585;&#1576;&#1610;&#1577;</a></span> <a href="http://bg.lipsum.com/">&#1041;&#1098;&#1083;&#1075;&#1072;&#1088;&#1089;&#1082;&#1080;</a> <a href="http://ca.lipsum.com/">Catal&agrave;</a> <a href="http://cn.lipsum.com/">&#20013;&#25991;&#31616;&#20307;</a> <a href="http://hr.lipsum.com/">Hrvatski</a> <a href="http://cs.lipsum.com/">&#268;esky</a> <a href="http://da.lipsum.com/">Dansk</a> <a href="http://nl.lipsum.com/">Nederlands</a> <a href="http://www.lipsum.com/">English</a> <a href="http://et.lipsum.com/">Eesti</a> <a href="http://ph.lipsum.com/">Filipino</a> <a href="http://fi.lipsum.com/">Suomi</a> <a href="http://fr.lipsum.com/">Fran&ccedil;ais</a> <a href="http://ka.lipsum.com/">&#4325;&#4304;&#4320;&#4311;&#4323;&#4314;&#4312;</a> <a href="http://de.lipsum.com/">Deutsch</a> <a href="http://el.lipsum.com/">&#917;&#955;&#955;&#951;&#957;&#953;&#954;&#940;</a> <span class="ltr" dir="ltr"><a href="http://he.lipsum.com/">&#8235;&#1506;&#1489;&#1512;&#1497;&#1514;</a></span> <a href="http://hi.lipsum.com/">&#2361;&#2367;&#2344;&#2381;&#2342;&#2368;</a> <a href="http://hu.lipsum.com/">Magyar</a> <a href="http://id.lipsum.com/">Indonesia</a> <a href="http://it.lipsum.com/">Italiano</a> <a href="http://lv.lipsum.com/">Latviski</a> <a href="http://lt.lipsum.com/">Lietuvi&scaron;kai</a> <a href="http://mk.lipsum.com/">&#1084;&#1072;&#1082;&#1077;&#1076;&#1086;&#1085;&#1089;&#1082;&#1080;</a> <a href="http://ms.lipsum.com/">Melayu</a> <a href="http://no.lipsum.com/">Norsk</a> <a href="http://pl.lipsum.com/">Polski</a> <a href="http://pt.lipsum.com/">Portugu&ecirc;s</a> <a href="http://ro.lipsum.com/">Rom&acirc;na</a> <a href="http://ru.lipsum.com/">Pycc&#1082;&#1080;&#1081;</a> <a href="http://sr.lipsum.com/">&#1057;&#1088;&#1087;&#1089;&#1082;&#1080;</a> <a href="http://sk.lipsum.com/">Sloven&#269;ina</a> <a href="http://sl.lipsum.com/">Sloven&#353;&#269;ina</a> <a class="zz" href="http://es.lipsum.com/">Espa&ntilde;ol</a> <a href="http://sv.lipsum.com/">Svenska</a> <a href="http://th.lipsum.com/">&#3652;&#3607;&#3618;</a> <a href="http://tr.lipsum.com/">T&uuml;rk&ccedil;e</a> <a href="http://uk.lipsum.com/">&#1059;&#1082;&#1088;&#1072;&#1111;&#1085;&#1089;&#1100;&#1082;&#1072;</a> <a href="http://vi.lipsum.com/">Ti&#7871;ng Vi&#7879;t</a> </div>

<h1>Lorem Ipsum</h1>
<h4>"Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit..."</h4>
<h5>"No hay nadie que ame el dolor mismo, que lo busque, lo encuentre y lo quiera, simplemente porque es el dolor."</h5>

<hr />

<div id="Content">
<div id="bannerL"><!-- Tag ID: lipsumcom_left_siderail -->
</div></div>
<div id="bannerR"><!-- Tag ID: lipsumcom_right_siderail -->
</div></div>
<div id="Panes"><div>
<h2>&iquest;Qu&eacute; es Lorem Ipsum?</h2>
<p><strong>Lorem Ipsum</strong> es simplemente el texto de relleno de las imprentas y archivos de texto. Lorem Ipsum ha sido el texto de relleno est&aacute;ndar de las industrias desde el a&ntilde;o 1500, cuando un impresor (N. del T. persona que se dedica a la imprenta) desconocido us&oacute; una galer&iacute;a de textos y los mezcl&oacute; de tal manera que logr&oacute; hacer un libro de textos especimen. No s&oacute;lo sobrevivi&oacute; 500 a&ntilde;os, sino que tambien ingres&oacute; como texto de relleno en documentos electr&oacute;nicos, quedando esencialmente igual al original. Fue popularizado en los 60s con la creaci&oacute;n de las hojas &quot;Letraset&quot;, las cuales contenian pasajes de Lorem Ipsum, y m&aacute;s recientemente con software de autoedici&oacute;n, como por ejemplo Aldus  PageMaker, el cual incluye versiones de Lorem Ipsum.</p>
</div><div>
<h2>&iquest;Por qu&eacute; lo usamos?</h2>
<p>Es un hecho establecido hace demasiado tiempo que un lector se distraer&aacute; con el contenido del texto de un sitio mientras que mira su dise&ntilde;o. El punto de usar Lorem Ipsum es que tiene una distribuci&oacute;n m&aacute;s o menos normal de las letras, al contrario de usar textos como por ejemplo "Contenido aqu&iacute;, contenido aqu&iacute;". Estos textos hacen parecerlo un espa&ntilde;ol que se puede leer. Muchos paquetes de autoedici&oacute;n y editores de p&aacute;ginas web usan el Lorem Ipsum como su texto por defecto, y al hacer una b&uacute;squeda de &quot;Lorem Ipsum&quot; va a dar por resultado muchos sitios web que usan este texto si se encuentran en estado de desarrollo. Muchas versiones han evolucionado a trav&eacute;s de los a&ntilde;os, algunas veces por accidente, otras veces a prop&oacute;sito (por ejemplo insert&aacute;ndole humor y cosas por el estilo).</p>
</div><br /><div>
<h2>&iquest;De d&oacute;nde viene?</h2>
<p>Al contrario del pensamiento popular, el texto de Lorem Ipsum no es simplemente texto aleatorio. Tiene sus raices en una pieza cl&acute;sica de la literatura del Latin, que data del a&ntilde;o 45 antes de Cristo, haciendo que este adquiera mas de 2000 a&ntilde;os de antiguedad. Richard McClintock, un profesor de Latin de la Universidad de Hampden-Sydney en Virginia, encontr&oacute; una de las palabras m&aacute;s oscuras de la lengua del lat&iacute;n, &quot;consecteur&quot;, en un pasaje de Lorem Ipsum, y al seguir leyendo distintos textos del lat&iacute;n, descubri&oacute; la fuente indudable. Lorem Ipsum viene de las secciones 1.10.32 y 1.10.33 de "de Finnibus Bonorum et Malorum" (Los Extremos del Bien y El Mal) por Cicero, escrito en el a&ntilde;o 45 antes de Cristo. Este libro es un tratado de teor&iacute;a de &eacute;ticas, muy popular durante el Renacimiento. La primera linea del Lorem Ipsum, &quot;Lorem ipsum dolor sit amet..&quot;, viene de una linea en la secci&oacute;n 1.10.32</p><p>El trozo de texto est&aacute;ndar de Lorem Ipsum usado desde el a&ntilde;o 1500 es reproducido debajo para aquellos interesados. Las secciones 1.10.32 y 1.10.33 de &quot;de Finibus Bonorum et Malorum&quot; por Cicero son tambi&eacute;n reproducidas en su forma original exacta, acompa&ntilde;adas por versiones en Ingl&eacute;s de la traducci&oacute;n realizada en 1914 por H. Rackham.</p>
</div><div>
<h2>&iquest;D&oacute;nde puedo conseguirlo?</h2>
<p>Hay muchas variaciones de los pasajes de Lorem Ipsum disponibles, pero la mayor&iacute;a sufri&oacute; alteraciones en alguna manera, ya sea porque se le agreg&oacute; humor, o palabras aleatorias que no parecen ni un poco cre&iacute;bles. Si vas a utilizar un pasaje de Lorem Ipsum, necesit&aacute;s estar seguro de que no hay nada avergonzante escondido en el medio del texto. Todos los generadores de Lorem Ipsum que se encuentran en Internet tienden a repetir trozos predefinidos cuando sea necesario, haciendo a este el &uacute;nico generador verdadero (v&aacute;lido) en la Internet. Usa un diccionario de mas de 200 palabras provenientes del lat&iacute;n, combinadas con estructuras muy &uacute;tiles de sentencias, para generar texto de Lorem Ipsum que parezca razonable. Este Lorem Ipsum generado siempre estar&aacute; libre de repeticiones, humor agregado o palabras no caracter&iacute;sticas del lenguaje, etc.</p>
<form method="post" action="/feed/html"><table style="width:100%"><tr><td rowspan="2"><input type="text" name="amount" value="5" size="3" id="amount" /></td><td rowspan="2"><table style="text-align:left"><tr><td style="width:20px"><input type="radio" name="what" value="paras" id="paras" checked="checked" /></td><td><label for="paras">p&aacute;rrafos</label></td></tr><tr><td style="width:20px"><input type="radio" name="what" value="words" id="words" /></td><td><label for="words">palabras</label></td></tr><tr><td style="width:20px"><input type="radio" name="what" value="bytes" id="bytes" /></td><td><label for="bytes">bytes</label></td></tr><tr><td style="width:20px"><input type="radio" name="what" value="lists" id="lists" /></td><td><label for="lists">listas</label></td></tr></table></td><td style="width:20px"><input type="checkbox" name="start" id="start" value="yes" checked="checked" /></td><td style="text-align:left"><label for="start">Comenzar con 'Lorem<br />ipsum dolor sit amet...'</label></td></tr><tr><td></td><td style="text-align:left"><input type="submit" name="generate" id="generate" value="Generar Lorem Ipsum" /></td></tr></table></form></div><br /></div>
<hr /><div class="boxed"><strong>Donar:</strong> Si utilizas este sitio regularmente y te gustar&iacute;a que siga online, por favor, consider&aacute; donar una peque&ntilde;a suma para ayudar a pagar el servicio de hosting y ancho de banda. Clicke&aacute; <a target="_blank" href="/donate" class="lnk">aqui</a> para donar usando PayPal. Gracias por tu ayuda!. Donate bitcoin: 16UQLq1HZ3CNwhvgrarV6pMoA2CDjb4tyF</div>

<hr /><div class="boxed"><strong>Traducciones:</strong> &iquest;Pod&eacute;s ayudar a traducir este sitio en otro lenguaje? Por favor env&iacute;anos un correo electr&oacute;nico con los detalles si pod&eacute;s ayudar.</div>

<hr /><div class="boxed">Ahora hay una serie de banners disponibles <a href="/banners" class="lnk">aqu&iacute;</a> en tres colores y en un rango de tama&ntilde;os est&aacute;ndar:<br /><a href="/banners"><img src="/images/banners/black_234x60.gif" width="234" height="60" alt="Banners" /></a><a href="/banners"><img src="/images/banners/grey_234x60.gif" width="234" height="60" alt="Banners" /></a><a href="/banners"><img src="/images/banners/white_234x60.gif" width="234" height="60" alt="Banners" /></a></div>

<hr /><div class="boxed" id="Packages">
<a target="_blank" rel="noopener" rel="nofollow" href="https://github.com/traviskaufman/node-lipsum">NodeJS</a>
<a target="_blank" rel="noopener" rel="nofollow" href="https://code.google.com/p/pypsum/">Python Interface</a>
<a target="_blank" rel="noopener" rel="nofollow" href="https://gtklipsum.sourceforge.net/">GTK Lipsum</a>
<a target="_blank" rel="noopener" rel="nofollow" href="https://github.com/gsavage/lorem_ipsum/tree/master">Rails</a>
<a target="_blank" rel="noopener" rel="nofollow" href="https://github.com/cerkit/LoremIpsum/">.NET</a>
</div>

<hr /><div style="margin:10px 0"><!-- Tag ID: lipsumcom_incontent -->
</div></div>
<hr /><div id="Translation">

<h3>El pasaje est&aacute;ndar Lorem Ipsum, usado desde el a&ntilde;o 1500.</h3><p>"Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum."</p><h3>Secci&oacute;n 1.10.32 de &quot;de Finibus Bonorum et Malorum&quot;, escrito por Cicero en el 45 antes de Cristo</h3><p>"Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, totam rem aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo. Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt. Neque porro quisquam est, qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit, sed quia non numquam eius modi tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem. Ut enim ad minima veniam, quis nostrum exercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur? Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam nihil molestiae consequatur, vel illum qui dolorem eum fugiat quo voluptas nulla pariatur?"</p>
<h3>Traducci�n hecha por H. Rackham en 1914</h3>
<p>"But I must explain to you how all this mistaken idea of denouncing pleasure and praising pain was born and I will give you a complete account of the system, and expound the actual teachings of the great explorer of the truth, the master-builder of human happiness. No one rejects, dislikes, or avoids pleasure itself, because it is pleasure, but because those who do not know how to pursue pleasure rationally encounter consequences that are extremely painful. Nor again is there anyone who loves or pursues or desires to obtain pain of itself, because it is pain, but because occasionally circumstances occur in which toil and pain can procure him some great pleasure. To take a trivial example, which of us ever undertakes laborious physical exercise, except to obtain some advantage from it? But who has any right to find fault with a man who chooses to enjoy a pleasure that has no annoying consequences, or one who avoids a pain that produces no resultant pleasure?"</p>
<h3>Secci&oacute;n 1.10.33 de &quot;de Finibus Bonorum et Malorum&quot;, escrito por Cicero en el 45 antes de Cristo</h3>
<p>"At vero eos et accusamus et iusto odio dignissimos ducimus qui blanditiis praesentium voluptatum deleniti atque corrupti quos dolores et quas molestias excepturi sint occaecati cupiditate non provident, similique sunt in culpa qui officia deserunt mollitia animi, id est laborum et dolorum fuga. Et harum quidem rerum facilis est et expedita distinctio. Nam libero tempore, cum soluta nobis est eligendi optio cumque nihil impedit quo minus id quod maxime placeat facere possimus, omnis voluptas assumenda est, omnis dolor repellendus. Temporibus autem quibusdam et aut officiis debitis aut rerum necessitatibus saepe eveniet ut et voluptates repudiandae sint et molestiae non recusandae. Itaque earum rerum hic tenetur a sapiente delectus, ut aut reiciendis voluptatibus maiores alias consequatur aut perferendis doloribus asperiores repellat."</p>

<p>"On the other hand, we denounce with righteous indignation and dislike men who are so beguiled and demoralized by the charms of pleasure of the moment, so blinded by desire, that they cannot foresee the pain and trouble that are bound to ensue; and equal blame belongs to those who fail in their duty through weakness of will, which is the same as saying through shrinking from toil and pain. These cases are perfectly simple and easy to distinguish. In a free hour, when our power of choice is untrammelled and when nothing prevents our being able to do what we like best, every pleasure is to be welcomed and every pain avoided. But in certain circumstances and owing to the claims of duty or the obligations of business it will frequently occur that pleasures have to be repudiated and annoyances accepted. The wise man therefore always holds in these matters to this principle of selection: he rejects pleasures to secure other greater pleasures, or else he endures pains to avoid worse pains."</p>
</div>
</div>
<hr />
</div>
</div>
</div>
</body></html>
"""

markdown = get_markdown_with_doc_intel(doc_intel_client, html_content)
print(f'markdown: [{markdown}]')

markdown: [Lorem Ipsum - All the facts - Lipsum generator

Հայերեն Shqip ‫العربية Български Català 中文简体 Hrvatski Česky Dansk Nederlands English Eesti Filipino Suomi Français ქართული Deutsch Ελληνικά ‫עברית हिन्दी Magyar Indonesia Italiano Latviski Lietuviškai македонски Melayu Norsk Polski Português Româna Pyccкий Српски Slovenčina Slovenščina Español Svenska ไทย Türkçe Українська Tiếng Việt


# Lorem Ipsum


## "Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit..."


### "No hay nadie que ame el dolor mismo, que lo busque, lo encuentre y lo quiera, simplemente porque es el dolor."


## ¿Qué es Lorem Ipsum?

Lorem Ipsum es simplemente el texto de relleno de las imprentas y archivos de texto. Lorem Ipsum ha sido el texto de relleno estándar de las industrias desde el año 1500, cuando un impresor (N. del T. persona que se dedica a la imprenta) desconocido usó una galería de textos y los mezcló de tal manera que logró hacer un libro de textos espe

## Convert to markdown every HTML file in the input directory and write them in the output directory

In [5]:
# Convert HTML files to markdown and write them in the output directory
input_dir = '../../data_in'
output_dir = '../../data_out/markdown_files'
os.makedirs(output_dir,exist_ok=True)
html_contents = load_files(input_dir, '.html')

for i, html_content in enumerate(html_contents):
    print(f"[{i + 1}]: title: {html_content['title']}")
    print(f"\t content: [{html_content['content']}]")

    print(f'\tConverting to markdown...')
    markdown = get_markdown_with_doc_intel(doc_intel_client, html_content['content'])
    print(f'markdown: [{markdown}]')

    markdown_filename = html_content['title'].replace(".html", ".txt")
    file_path = os.path.join(output_dir, markdown_filename)
    print(f"\tWritting file [{file_path}]")
    with open(file_path, "w", encoding="utf-8") as f:
        f.write(markdown)


Loading files in ../../data_in...
[1]: title: Activating a new customer account.html
	 content: [<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>QuickConnect - Activating a New Customer Account</title>
    <style>
        body {
            font-family: Arial, sans-serif;
            margin: 0;
            padding: 0;
            background-color: #f4f4f4;
        }
        .container {
            max-width: 800px;
            margin: 20px auto;
            padding: 20px;
            background: white;
            box-shadow: 0 0 10px rgba(0, 0, 0, 0.1);
        }
        h1, h2 {
            color: #2c3e50;
        }
        p {
            line-height: 1.6;
        }
        table {
            width: 100%;
            border-collapse: collapse;
            margin: 20px 0;
        }
        th, td {
            text-align: left;
            padding: 12px;
            border: 1px 