## Strukturierte Datensätze
----------------------------------------

In [1]:
import pandas as pd

### Strukturierte Daten
Bei <a href="https://en.wikipedia.org/wiki/Data_science">Data Science</a> geht es um die Gewinnung von Wissen aus 
<a href="https://en.wikipedia.org/wiki/Data">Daten</a>
. Daten sind eine spezifische Form von <a href="https://en.wikipedia.org/wiki/Information">Informationen</a> und weisen verschiedene Abstraktions- und Strukturniveaus auf (<a href="https://en.wikipedia.org/wiki/Data_model">strukturiert</a>, <a href="https://en.wikipedia.org/wiki/Semi-structured_data">halbstrukturiert</a> oder <a href="https://en.wikipedia.org/wiki/Unstructured_data">unstrukturiert</a>). <br> Eine sehr verbreitete <a href="https://en.wikipedia.org/wiki/Data_structure">Datenstruktur</a> ist ein Array. In verschiedenen Bereichen gibt es andere Bezeichnungen für einen solchen Datentyp, die synonym verwendet werden, z. B. <a href="https://en.wikipedia.org/wiki/Matrix_(mathematics)">Matrix</a> in der Mathematik, <a href="https://en.wikipedia.org/wiki/Table_(database)">Tabelle</a> in Datenbanken, <a href="https://en.wikipedia.org/wiki/SpreadsheetDatenrahmen">Tabellenkalkulation</a> und <a href="https://www.geeksforgeeks.org/python-pandas-dataframe/">Dataframe</a> , der eine grundlegende Python-Objektklasse ist zB : (Pandas DataFrame). <br> Daten eines solchen Typs bestehen aus Beobachtungen und entsprechenden Variablen, die oft als Merkmale bezeichnet werden.



<body>

<table border="1" width="500" height="200">
  <tr>
    <td width="300" height="100">id</td>
    <td width="300" height="100">Name</td>
    <td width="300" height="100">Age</td>
  </tr>
  <tr>
    <td>1</td>
    <td>John</td>
    <td>26</td>
  </tr>
  <tr>
    <td>2</td>
    <td>Alice</td>
    <td>20</td>
   </tr>
  <tr>
    <td>3</td>
    <td>Mike</td>
    <td>21</td>
   <tr>
    <td>4</td>
    <td>Anne</td>
    <td>25</td>
  </tr>
</table>

</body>
</html>

In diesem Beispiel entsprechen die **Beobachtungen** (*Stichprobe* genannt) einer Anzahl von Personen. Jede beobachtete Person wird durch eine Reihe von **Variablen** (so genannte *Merkmale*) charakterisiert: durch eine Identifikationsnummer (id), durch einen Namen und durch ein Alter. In unserem Beispiel ist es sehr einfach, sich durch einen Blick auf die Tabelle einen Gesamteindruck von den Daten selbst zu verschaffen. Wir erkennen sofort, dass es in unserer Stichprobe 4 Personen gibt, zwei Frauen und zwei Männer. Außerdem sehen wir sofort, dass die jüngste Person 20 Jahre alt ist und Alice heißt und die älteste Person 26 Jahre alt ist und John heißt; perfekt!

Anwendungen in der realen Welt enthalten jedoch oft eine große Menge an Daten. Hunderte, Tausende, Millionen oder sogar Milliarden von Beobachtungen, kombiniert mit Tausenden von Variablen, können einen Datensatz bilden. Für den Menschen ist es unmöglich, allein durch die Betrachtung solcher Datensätze irgendwelche Schlussfolgerungen über die Daten zu ziehen. Daher reduzieren wir die Daten auf eine überschaubare Größe, indem wir Tabellen erstellen, Diagramme zeichnen oder zusammenfassende Maße wie Durchschnittswerte berechnen. Diese Art von statistischen Methoden wird als **deskriptive Statistik** bezeichnet (Mann 2012).

### Der Studenten Datensatz
In diesem Abschnitt werden wir einen Datensatz namens "`students`" untersuchen. Sie können die Datei `students.csv` <a href="https://userpage.fu-berlin.de/soga/200/2010_data_sets/students.csv">hier</a>  herunterladen. Zunächst laden wir den Datensatz, geben ihm einen geeigneten Namen und verschaffen uns einen Eindruck von seiner Struktur und Größe, indem wir die Methode `info()` auf den Datensatz anwenden.

In [4]:
# Lese Datei students.csv als Dataframe ein; Indexspalte wird übersprungen
df = pd.read_csv('students.csv', index_col=0)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8239 entries, 1 to 8239
Data columns (total 16 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   stud.id          8239 non-null   int64  
 1   name             8239 non-null   object 
 2   gender           8239 non-null   object 
 3   age              8239 non-null   int64  
 4   height           8239 non-null   int64  
 5   weight           8239 non-null   float64
 6   religion         8239 non-null   object 
 7   nc.score         8239 non-null   float64
 8   semester         8239 non-null   object 
 9   major            8239 non-null   object 
 10  minor            8239 non-null   object 
 11  score1           4892 non-null   float64
 12  score2           4892 non-null   float64
 13  online.tutorial  8239 non-null   int64  
 14  graduated        8239 non-null   int64  
 15  salary           1753 non-null   float64
dtypes: float64(5), int64(5), object(6)
memory usage: 1.1+ MB


Der Studentendatensatz besteht aus 8239 Zeilen, von denen jede einen bestimmten Studenten repräsentiert, und 16 Spalten, von denen jede einer Variable/einem Merkmal entspricht, das sich auf diesen bestimmten Studenten bezieht. Diese selbsterklärenden Variablen sind: *stud.id, name, gender, age, height, weight, religion, nc.score, semester, major, minor, score1, score2, online.tutorial, graduated, salary*. Neben dem jeweiligen Variablennamen listet die Methode `info()` die `Klasse` jeder einzelnen Variablen auf. Alle Objekte in Python haben eine Klasse, z. B. `numerische` Datentypen , die in die Unterklassen `(int)` Ganzzahlen , `(float)` Gleitkommazahlen und `(imag)`komplexe Zahlen, eingeteilt werden.

In den nächsten Abschnitten werden wir die deskriptiven Statistiken des *`students` Datensatzes* genauer untersuchen.
