# HTML Parsing and Token Counting
This notebook fetches a web page, counts tokens before and after parsing with BeautifulSoup, and shows a snippet comparison.

In [2]:
from bs4 import BeautifulSoup
import requests
from token_count import TokenCount

# Initialize TokenCount
tc = TokenCount(model_name="gpt-4o-turbo")

In [4]:
# Fetch raw HTML
source = "https://www.devoxx.fr/"
response = requests.get(source)
raw_text = response.text
raw_token_count = tc.num_tokens_from_string(raw_text)
print(f"Token count before parsing: {raw_token_count}")
print(f"raw_text: {raw_text[:100000]}...")  # Print first 1000 characters for brevity

Token count before parsing: 41226
raw_text: <!doctype html>
<html lang="fr-FR">
<head>
	<meta charset="UTF-8">
	<meta name="viewport" content="width=device-width, initial-scale=1">
	<link rel="profile" href="https://gmpg.org/xfn/11">
	<title>Devoxx France &#8211; 13ème édition &#8211; du 16 au 18 avril 2025</title>
<meta name='robots' content='max-image-preview:large' />
	<style>img:is([sizes="auto" i], [sizes^="auto," i]) { contain-intrinsic-size: 3000px 1500px }</style>
	<link rel='dns-prefetch' href='//www.googletagmanager.com' />
<link rel="alternate" type="application/rss+xml" title="Devoxx France &raquo; Flux" href="https://www.devoxx.fr/feed/" />
<link rel="alternate" type="application/rss+xml" title="Devoxx France &raquo; Flux des commentaires" href="https://www.devoxx.fr/comments/feed/" />
<script>
window._wpemojiSettings = {"baseUrl":"https:\/\/s.w.org\/images\/core\/emoji\/15.0.3\/72x72\/","ext":".png","svgUrl":"https:\/\/s.w.org\/images\/core\/emoji\/15.0.3\/svg\/","svgExt"

In [5]:
# Parse HTML and count tokens
soup = BeautifulSoup(response.content, "html.parser")
parsed_text = soup.get_text()
parsed_token_count = tc.num_tokens_from_string(parsed_text)
print(f"Token count after parsing: {parsed_token_count}")
print(f"parsed_text: {parsed_text[:1000]}...")  # Print first 1000 characters for brevity

Token count after parsing: 1372
parsed_text: 





Devoxx France – 13ème édition – du 16 au 18 avril 2025















































































 









Passer au contenu




13ème édition – du 16 au 18 avril 2025 



3 jours de conférences, 70 exposants, 4500 visiteurs par jour 






Twitter
 



Youtube
 



Flickr
 









 





A propos

Découvrir Devoxx France
Dernières infos
Questions fréquentes


Billetterie
Agenda 2025

Agenda 2025 par jour
Orateurs et oratrices
Sujets par format
Sujets par thème
Version mobile
Plan des salles et salon


Exposants

Exposants 2025
Presse, Médias et Partenaire 2025
Plans du salon et de l’exposition
Exposants 2024
Exposants 2023
Exposants 2022


Présenter

Présenter à Devoxx France
Call for Paper 2025 (CFP)
Code de conduite


Contact
 

 

A propos

Découvrir Devoxx France
Dernières infos
Questions fréquentes


Billetterie
Agenda 2025

Agenda 2025 par jour
Orateurs et oratrices
Sujets par format
Sujet

In [6]:
# Show a before/after snippet (first 500 characters)
print("=== Before parsing (first 500 chars) ===")
print(raw_text[:500])
print("\n=== After parsing (first 500 chars) ===")
print(parsed_text[:500])

=== Before parsing (first 500 chars) ===
<!doctype html>
<html lang="fr-FR">
<head>
	<meta charset="UTF-8">
	<meta name="viewport" content="width=device-width, initial-scale=1">
	<link rel="profile" href="https://gmpg.org/xfn/11">
	<title>Devoxx France &#8211; 13ème édition &#8211; du 16 au 18 avril 2025</title>
<meta name='robots' content='max-image-preview:large' />
	<style>img:is([sizes="auto" i], [sizes^="auto," i]) { contain-intrinsic-size: 3000px 1500px }</style>
	<link rel='dns-prefetch' href='//www.googletagmanager.com' />
<lin

=== After parsing (first 500 chars) ===






Devoxx France – 13ème édition – du 16 au 18 avril 2025















































































 









Passer au contenu




13ème édition – du 16 au 18 avril 2025 



3 jours de conférences, 70 exposants, 4500 visiteurs par jour 






Twitter
 



Youtube
 



Flickr
 









 





A propos

Découvrir Devoxx France
Dernières infos
Questions fréquentes


Billette