# WENN ES WIRKLICH BIG WIRD – DATENANALYSE UND MACHINE LEARNING SKALIEREN MIT PYSPARK

# ![](https://point-8.de/static/img/point8.png) ![](https://www.buildingiot.de/images/logo.png)


> Massive Datenströme aus industriellen IoT-Anwendungen führen schnell zu echten Big-Data-Problemen, deren Lösung verteiltes Rechnen auf einem Cluster erfordert. Wir stellen das Open-Source-Framework Apache Spark vor, um Datenanalyse- und Machine Learning-Workflows auf einem Cluster skalierbar zu machen.
> Die Teilnehmer erhalten einen breiten Einblick in Spark, lernen Anwendungsfälle zu erkennen und die Pros und Contras des Frameworks abzuschätzen. Es werden verschiedene praxisnahe Anwendungen vorgestellt und mit unserer Unterstützung interaktiv in IPython Notebooks von den Teilnehmern bearbeitet. Wir erleichtern den Einstieg in die Grundlagen von Spark (RDDs, Transformations & Actions…) und führen die Teilnehmer dann vom Datenimport über einfache Datenanalysen (mit Spark SQL & DataFrames) bis hin zu Machine Learning Pipelines (mit Spark ML für Predictive Analytics, Clustering, Recommender Engines). Für die Durchführung des Kurses gibt es keine besonderen technischen Voraussetzungen.




## Agenda

- ab 09.00 Uhr Registrierung und Begrüßungskaffee
- 10.00 Uhr: Beginn
- 10.00 Uhr: Impulsvortrag rund um Data Science, KI und ML – Was ist Hype und was ist wirklich möglich
- 10.45 Uhr: Einführung in die Datenanalyse mit Python und PySpark
- 12.00 Uhr: Mittagspause
- 13.00 Uhr: Grundlagen und Beispiele mit Spark selber umsetzen und ausprobieren
- 15.00 Uhr: Kaffeepause
- 15.30 Uhr: Deep Dive in die Machine Learning Pipelines
- ca. 17.30 Uhr: Ende

## Referenten

**Dr. Christian Staudt ([@C_L_Staudt](https://twitter.com/C_L_Staudt))**

Als Freelance Data Scientist unterstützt Christian Auftraggeber bei Herausforderungen rund um Data Mining, Big Data und Machine Learning. Neben der Projektarbeit entwickelt er Trainings und coacht Teams in Sachen Methodik und Werkzeuge der Datenanalyse, die er schon während seiner Forschungstätigkeiten in der Informatik nutzte. Als Referent ist er in der Community um Python und Data Science aktiv.


**Dr. Julian von der Ecken ([@JvdEcken](https://twitter.com/JvdEcken))**

Julian ist Data Scientist bei der Point 8 GmbH. Durch seine Arbeit sowohl im Bereich von industriellen Kundenprojekten als auch in Trainings kann er auf ein breites Erfahrungsspektrum zurückgreifen und zusätzliche Fallbeispiele einbringen. Julian war zuvor langjährig in der Datenanalyse in der Physik und Strukturbiologie tätig und bringt damit oft den Querblick mit ins Projekt.

## Table of Contents

### Curriculum


1. [**Processing Big Data**](../python/python-big-data.ipynb)<br>
   What strategies do we have available to compute efficiently with increasing amounts of data?  What is a cluster, and when do we need one?
   
2. [**Spark Fundamentals**](../spark/spark-fundamentals.ipynb)<br>
   An overview of Spark - a framework for programming distributed computation, using PySpark, its Python API - core data structures and operations.
   
3. [**Submitting Spark Jobs**](../spark/spark-submitting.ipynb)<br>
   How to submit jobs to a Spark cluster for batch processing.
   
4. [**Spark and Structured Data**](../spark/spark-structured-data.ipynb)<br>
   Working with structured data in Spark.

    1. [**Excercise: Museums of France**](../exercises/exercise-museums.ipynb)<br>
    An exercise with a clear task, requiring you to apply the learnings from the course.

   
5. [**Introduction to Machine Learning**](../ml/ml-outlook.ipynb)<br>
    An overview over the field of machine learning.
  
6. **[About Classification](../ml/ml-classification-intro.ipynb)**<br>
  Learn about classifiers and how to measure the quality of their decisions.

7. [**ML Pipelines with Spark**](../spark/spark-ml-pipeline.ipynb)<br>
      Build a classification model and learn about the building blocks of ML with PySpark

## Demo

1. **[Crunching Wikipedia: Task](../exercises/spark-exercise-bigrams.ipynb)**<br>
     An actual big data problem: Counting all bigrams in the entire Wikipedia.

1. **[Crunching Wikipedia: Solution](../exercises/spark-exercise-bigrams-solution.ipynb)**<br>
   

### Exercises: Solution Examples

1. [**Excercise Solution: Museums of France**](../exercises/spark-exercise-museums-solution.ipynb)<br>
   
1. [**Spark Exercise Solutions**](../exercises/spark-exercise-solutions.ipynb)


### Additional Resources

- [**Test Notebook**](../jupyter/test.ipynb)<br>
    Verify that your Python stack is working.

- [**Jupyter Cheat Sheet**](../jupyter/cheatsheet.ipynb)<br>
    Some useful commands for Jupyter Notebook, mostly optional.
    
- [**Spark Test Notebook**](../spark/spark-test.ipynb)<br>
    Verify that your PySpark stack is working.

---
_This notebook is licensed under a [Creative Commons Attribution 4.0 International License (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/). Copyright © 2018 [Point 8 GmbH](https://point-8.de)_