(deutsche Version: 🇩🇪)
Material (notebooks and data) for the hands-on workshop "Data Wrangling with Polars & Dash" by BettercallPaul.
The data on which the workshop is based are daily charts from Spotify from 2017-2021 for different countries.
You will learn how to use Polars, an extremely fast dataframe library, to explore tabular data and how to visualize insights in a web application using Plotly Dash, a highly flexible low-code web framework.
At the end you will be able to build a web application that looks like this with just a few lines of code:
The ingredients that make the workshop interesting and entertaining:
- 👐 Strict focus on practical application from the very beginning
- 💪 >25 exercises of increasing difficulty to make sure you can apply the concepts in practice
- 😀 an exercise system that includes on-demand hints and solutions make exercises fun
- 😮 surprising insights: What are the most popular Christmas songs? Which songs are suitable for a romantic evening?
- 🎧 the possibility to listen to your data wrangling: every song can be played directly in the jupyter notebook
For an introduction to Polars we recommend watching this talk from PyCon/PyData Berlin 2023 first: https://www.youtube.com/watch?v=CtkMzCIXOWk
You should have basic knowledge of a structured data processing technology, e.g. Pandas, SQL or Apache Spark.
The easiest way is to open the notebooks in Google Colab:
- Colab Intro - Polars: Optional, if you don't know Jupyter/Colab
- Part 1 - Polars: load, select, filter & sort
- Part 2 - Polars: aggregations, joins & reshaping
- Part 3 - Polars: custom expressions, lazy mode and streaming
- Part 4 - Dash: layout, callbacks, Dash Mantine Components, AgGrid
A local environment is also possible. You may have to make a few adjustments to the notebooks and install Graphviz to display the execution plans.
We recommend uv and Visual Studio Code with its Python Extension.
- technical backgrounds from Ritchie, the original developer of Polars: http://www.ritchievink.com/blog/2021/02/28/i-wrote-one-of-the-fastest-dataframe-libraries/
- the cheat sheet: https://franzdiebold.github.io/polars-cheat-sheet/Polars_cheat_sheet.pdf
If you like the material please leave us a star.
Bugs, suggestions or request for additional topics? Create an issue!
Would you like support for your data analytics/data science/machine learning project? We'd love to help, you just BettercallPaul.
Material (Notebooks und Daten) für den Praxisworkshop "Datenaufbereitung mit Polars & Dash" von BettercallPaul.
Die Daten, auf denen der Workshop basiert, sind tägliche Charts von Spotify von 2017 bis 2021 für verschiedene Länder.
Du wirst lernen, wie du mit Polars, einer extrem schnellen Dataframe-Bibliothek, tabellarische Daten analysierst und wie du Erkenntnisse mithilfe von Plotly Dash, einem äußerst flexiblen Low-Code-Webframework, in einer Webanwendung visualisierst.
Am Ende wirst du mit wenigen Codezeilen eine Webanwendung erstellen können, die so aussieht:
Die Zutaten, die den Workshop interessant und unterhaltsam machen:
- 👐 Strikter Fokus auf die praktische Anwendung von Anfang an
- 💪 >25 Übungen mit steigendem Schwierigkeitsgrad, um sicherzustellen, dass du die Konzepte in der Praxis anwenden kannst
- 😀 ein Übungssystem mit On-Demand-Tipps und Lösungen sorgt dafür, dass die Übungen Spaß machen
- 😮 überraschende Insights: Welches sind die beliebtesten Weihnachtslieder? Welche Lieder eignen sich für einen romantischen Abend?
- 🎧 die Möglichkeit, sich die eigenen Datenanalysen anzuhören: Jedes Lied kann direkt im Jupyter-Notebook abgespielt werden
Für eine Einführung in Polars empfehlen wir, zunächst diesen Vortrag von der PyCon/PyData Berlin 2023 anzusehen: https://www.youtube.com/watch?v=CtkMzCIXOWk
Du solltest Grundkenntnisse in einer strukturierten Datenverarbeitungstechnologie haben, z.B. Pandas, SQL oder Apache Spark.
Am einfachsten ist es die Notebooks in Google Colab zu öffnen:
- Colab Intro – Optional, falls dir Jupyter/Colab nicht bekannt ist
- Teil 1 – Polars: Laden, Selektieren, Filtern & Sortieren
- Teil 2 – Polars: Aggregationen, Joins & Reshaping
- Teil 3 – Polars: Custom Expressions, Lazy Mode und Streaming
- Teil 4 – Dash: Layout, Callbacks, Dash Mantine Components, AgGrid
Eine lokale Umgebung ist ebenfalls möglich. Gegebenenfalls musst du ein paar Anpassungen an den Notebooks vornehmen und Graphviz installieren, um Ausführungspläne anzuzeigen.
Wir empfehlen uv und Visual Studio Code mit der Python-Erweiterung.
-
technische Hintergründe von Ritchie, dem ursprünglichen Entwickler von Polars: http://www.ritchievink.com/blog/2021/02/28/i-wrote-one-of-the-fastest-dataframe-libraries/
-
ein Cheat-Sheet: https://franzdiebold.github.io/polars-cheat-sheet/Polars_cheat_sheet.pdf
Wenn dir das Material gefällt, hinterlasse uns bitte einen Stern.
Bugs, Vorschläge oder Wünsche für zusätzliche Themen? Erstelle ein Ticket!
Benötigst du Unterstützung für dein Projekt im Bereich Data Analytics/Data Science/Machine Learning? Wir würden uns freuen zu helfen, you just BettercallPaul.