# 08-27-GS-2 - Einführung in die Datenverarbeitung und -visualisierung mit Python

5-tägiger Blockkurs - Stella Birlo

-------

# Tag 5 - Versionskontrolle, Daten finden, ChatGPT, Abschlussprüfung

## 5.1. Versionen kontrollieren
Versionskontrolle ist entscheidend, um sicherzustellen, dass Python und seine Pakete auf dem neuesten Stand sind und reibungslos zusammenarbeiten. Manche Pakete funktionieren auch nur mit bestimmten Versionen anderer Pakete zusammen. Deshalb ist es wichtig zu wissen, wie man diese überprüft und ändern kann.

pip - pip ist der Pakete Manager in Python

1. Pip-Verison überprüfen:

In [None]:
pip --version

2. Installieren von Pakten:

 - pip install paketname
 - z.B.:

In [None]:
pip install pandas

3. Überprüfen der installierten Paketversionen:

In [None]:
pip freeze

4. Aktualisieren von Paketen:
  * pip install --upgrade paketname
  * z.B.:

In [None]:
pip install --upgrade pandas

5. Downgraden von Paketen:
  * pip install paketname==versionsnummer
  * z.B.:

In [None]:
pip install pandas==1.5.3


6. Virtual Environments verwenden

Funktionier nicht in Colab, aber local - Es ist eine bewährte Praxis, virtuelle Umgebungen zu verwenden, um Projektabhängigkeiten zu isolieren. Erstelle eine virtuelle Umgebung mit:

In [None]:
python -m venv meinprojekt

Aktiviere die virtuelle Umgebung:

In [None]:
meinprojekt\Scripts\activate # windows
source meinprojekt/bin/activate # Linux/Mac

Deaktivieren der virtuellen Umgebung

In [None]:
deactivate

In [None]:
print(pandas.__version__)


### Zusammenfassung

* Die Versionskontrolle ist entscheidend, um sicherzustellen, dass Python und seine Pakete harmonisch zusammenarbeiten.
* Mit diesen einfachen Befehlen kannst du deine Python-Version überprüfen, Pakete installieren, aktualisieren, downgraden und virtuelle Umgebungen verwenden, um Projektisolierung zu gewährleisten.

## 5.2. Daten finden

Wie man wissenschaftliche Datensätze findet kann ganz unterschiedlich verlaufen.

Der wissenschaftlichste Weg ist über Veröffentlichungen. Man liest ein Paper, das einen für sich interessanten Datensatz veröffentlicht hat und greift darauf zu.

Den Movie Datensatz habe ich aber z.B. über Google gefunden.
Ein anderer Weg wäre über folgende Internetseiten:

    * Datenbanken für wissenschaftliche Forschung:
        NOAA (National Oceanic and Atmospheric Administration):
            Bietet umfangreiche Daten zu Ozeanografie, Meteorologie und Umwelt.
        PANGAEA (in Bremen lokalisiert):
            Internationale Datenbank für Geowissenschaften und Umweltwissenschaften.
        Dryad:
            Datenrepository für Forschung im Bereich Biowissenschaften.
        Zenodo:
            Allgemeines Repository für Forschungsdaten aus allen wissenschaftlichen Disziplinen.

    * Statistikportale:
        Statista:
            Plattform für Statistiken und Marktforschung.
            Bietet Zugang zu verschiedenen Statistiken zu Wirtschaft, Gesellschaft und Technologie.

    * Wissensdatenbanken:
        Wikidata:
            Gemeinschaftsprojekt, das strukturierte Daten zu einer Vielzahl von Themen sammelt.
            Enthält Links zu wissenschaftlichen Publikationen, Institutionen und Forschern.

    * Universitäre Datenbanken und Bibliotheken:
        University Libraries and Archives:
            Universitätsbibliotheken bieten oft Zugang zu umfangreichen Datenbanken und Repositorien.

    * Open Data-Plattformen:
        OpenAIRE:
            Europäische Plattform für offene Wissenschaft und Forschungsdaten.
        Data.gov:
            Zentrale Anlaufstelle für US-amerikanische Regierungsdaten aus verschiedenen Bereichen.

    * Internationale Organisationen:
        World Bank Data:
            Datenbank der Weltbank mit globalen Entwicklungsindikatoren.
        United Nations Data:
            Datensätze von UN-Organisationen zu verschiedenen Themen.

## 5.3. ChatGPT nutzen

ChatGPT ist ein kraftvolles Tool, auch in der Anwendung auf Programmierfragen.
Die erstellten Codes können einwandfrei funktionieren, meiner Erfahrung nach schleichen sich aber öfters auch Fehler ein. Deshalb ist es wichtig Python als Sprache zunächst ohne ChatGPT zu verstehen um die Fehlerquelle schnell ausfindig zu machen.

Für die Kurserstellung habe ich ChatGPT mit einbezogen, vor allem um Texte zu generieren, Teile vom Tutorial zu erstellen und Übungsaufgaben zu erfinden.

Ich habe ChatGPT gefragt, was wir in diesem Kurs noch nicht besprochen haben, hier die Antwort:

Bisher haben wir bereits über viele wichtige Themen im Zusammenhang mit Python gesprochen, aber es gibt noch viele andere Aspekte und Funktionen der Sprache zu erkunden. Hier sind einige Bereiche und Funktionen, die in einem umfassenden Python-Kurs behandelt werden könnten und die bisher möglicherweise nicht ausführlich besprochen wurden:

* Objektorientierte Programmierung (OOP): Vertieftes Verständnis von Klassen, Objekten, Vererbung, Polymorphismus usw.
* Dateiverarbeitung: Fortgeschrittene Techniken zum Lesen und Schreiben von Dateien, Arbeit mit verschiedenen Formaten (CSV, JSON, XML, usw.).
* Datenbankzugriff: Verwendung von Python zur Interaktion mit Datenbanken, z. B. SQLite, MySQL, PostgreSQL.
* Webentwicklung mit Python: Flask oder Django für die Erstellung von Webanwendungen.
* Testen in Python: Verwendung von unittest, pytest oder anderen Testframeworks.
* Python Decorators: Fortgeschrittene Funktionen, die auf Funktionen angewendet werden können.
* Multithreading und Multiprocessing: Parallelisierung von Aufgaben für mehr Leistung.
* Python Generators und Iterators: Effiziente Verarbeitung großer Datenmengen.
* Regular Expressions: Mächtige Mustererkennung für Textverarbeitung.
* Arbeiten mit APIs: Wie man Daten von Web-APIs abruft und sendet.
* Machine Learning und Datenanalyse mit Python: Verwendung von Bibliotheken wie NumPy, Pandas, Scikit-Learn.
* Weitere Bibliotheken und Frameworks: Matplotlib und Seaborn für fortgeschrittene Datenvisualisierung, BeautifulSoup für Web-Scraping, Tensorflow oder PyTorch für Deep Learning, etc.
* Fortgeschrittene Funktionen: map, filter, reduce, List Comprehensions, Lambda-Ausdrücke.
* Python-Module und -Pakete: Organisieren und Strukturieren von Code.
* Best Practices und Code-Stil: PEP 8 und allgemeine bewährte Methoden in der Python-Entwicklung.
* Fortgeschrittene Fehlerbehandlung: Verwendung von try, except, finally für robusten Code.
* Zusätzliche Themen: Threads, Sockets, ctypes für die Interaktion mit C-Bibliotheken, ...

Je nach den Interessen der Teilnehmer und dem Fokus des Seminars können einige dieser Themen mehr oder weniger relevant sein. Es könnte auch sinnvoll sein, einzelne Themen je nach den Vorkenntnissen der Teilnehmer zu vertiefen.

### Übung 5.3.

- Gibt es Aspekte von Python, die euch interessieren, wir aber noch nicht besprochen haben? Oder möchtet ihr eurer Wissen für bestimmte Funktionen einfach nur vertiefen? Dann probiert ChatGPT dafür aus!
- ChatGPT schreibt einem kleine und große Skripte mit Erklärungen problemlos zusammen. Allerdings treten manchmal Fehler auf, die man in einer Unterhaltung mit dem Programm evtl. lösen kann, manchmal aber nicht. Dann ist das eigene Python-Wissen erforderlich
- Wenn mir jemand ein Beispiel gibt, kann ich das gerne demonstieren...


## 5.4. Abschlussprüfung

* Die Abschlussprüfung findet ihr auf auf einem eigenen Notebook "Python_Abschluss.ipynb".

* Der Abgabetermin ist der 25.02.2024.

* Abgegeben wird als PDF (Anleitung dazu im Notebook)